GPT-3.5才是Gemini Pro的终极对手：CMU深度评测揭秘对比结果

AIGC动态欢迎阅读

原标题：Gemini Pro还不如GPT-3.5，CMU深入对比研究：保证公平透明可重复
关键字：问题,任务,模型,团队,提示
文章来源：量子位
内容字数：3629字

内容摘要：

梦晨发自凹非寺量子位 | 公众号 QbitAI
谷歌Gemini实力到底如何？梅隆大学进行了专业客观的第三方比较。为确保公平性，所有模型均使用相同的提示和生成参数，并提供可重复的代码以及完全透明的结果。与谷歌官方发布会上的比较方式不同，没有使用CoT@32。
总结：Gemini Pro版本与GPT-3.5 Turbo相近，但略逊色，而GPT-4则遥遥领先。深入分析还发现Gemini存在一些奇怪的特性，比如在选择题中更倾向于选择D选项……不少研究者表示，Gemini发布不久就展开了如此详细的测试，颇具实力。在六大任务的深入测试中，具体比较了以下六大任务并使用相应数据集：
知识问答：MMLU
推理：BIG-Bench Hard
数学：GSM8k、SVAMP、ASDIV、MAWPS
代码：HumanEval、ODEX
翻译：FLORES
上网冲浪：WebArena
知识问答：喜欢选D从结果可以看出，使用思维链提示在这类任务上不一定能带来提升。
MMLU数据集中均为多选题，进一步分析发现Gemini更倾向于选择D选项。GPT系列在四个选项上需要平衡许多因素，团队提出这可能是G

原文链接：Gemini Pro还不如GPT-3.5，CMU深入对比研究：保证公平透明可重复