GPT-3.5才是Gemini Pro的终极对手:CMU深度评测揭秘对比结果

GPT-3.5才是Gemini Pro的终极对手:CMU深度评测揭秘对比结果的封面图

AIGC动态欢迎阅读

原标题:Gemini Pro还不如GPT-3.5,CMU深入对比研究:保证公平透明可重复
关键字:问题,任务,模型,团队,提示
文章来源:量子位
内容字数:3629字

内容摘要:


梦晨 发自 凹非寺量子位 | 公众号 QbitAI
谷歌Gemini实力到底如何?梅隆大学进行了专业客观的第三方比较。为确保公平性,所有模型均使用相同的提示和生成参数,并提供可重复的代码以及完全透明的结果。与谷歌官方发布会上的比较方式不同,没有使用CoT@32。
总结:Gemini Pro版本与GPT-3.5 Turbo相近,但略逊色,而GPT-4则遥遥领先。深入分析还发现Gemini存在一些奇怪的特性,比如在选择题中更倾向于选择D选项……不少研究者表示,Gemini发布不久就展开了如此详细的测试,颇具实力。在六大任务的深入测试中,具体比较了以下六大任务并使用相应数据集:
知识问答:MMLU
推理:BIG-Bench Hard
数学:GSM8k、SVAMP、ASDIV、MAWPS
代码:HumanEval、ODEX
翻译:FLORES
上网冲浪:WebArena
知识问答:喜欢选D从结果可以看出,使用思维链提示在这类任务上不一定能带来提升。
MMLU数据集中均为多选题,进一步分析发现Gemini更倾向于选择D选项。GPT系列在四个选项上需要平衡许多因素,团队提出这可能是G


原文链接:Gemini Pro还不如GPT-3.5,CMU深入对比研究:保证公平透明可重复

联系作者

文章来源:量子位
作者微信:QbitAI
作者简介:跟踪人工智能新动向,关注科技行业创新突破

© 版权声明

相关AI热点

暂无评论

none
暂无评论...