
AIGC动态欢迎阅读
原标题:Gemini Pro还不如GPT-3.5,CMU深入对比研究:保证公平透明可重复
关键字:问题,任务,模型,团队,提示
文章来源:量子位
内容字数:3629字
内容摘要:
梦晨 发自 凹非寺量子位 | 公众号 QbitAI
谷歌Gemini实力到底如何?梅隆大学进行了专业客观的第三方比较。为确保公平性,所有模型均使用相同的提示和生成参数,并提供可重复的代码以及完全透明的结果。与谷歌官方发布会上的比较方式不同,没有使用CoT@32。
总结:Gemini Pro版本与GPT-3.5 Turbo相近,但略逊色,而GPT-4则遥遥领先。深入分析还发现Gemini存在一些奇怪的特性,比如在选择题中更倾向于选择D选项……不少研究者表示,Gemini发布不久就展开了如此详细的测试,颇具实力。在六大任务的深入测试中,具体比较了以下六大任务并使用相应数据集:
知识问答:MMLU
推理:BIG-Bench Hard
数学:GSM8k、SVAMP、ASDIV、MAWPS
代码:HumanEval、ODEX
翻译:FLORES
上网冲浪:WebArena
知识问答:喜欢选D从结果可以看出,使用思维链提示在这类任务上不一定能带来提升。
MMLU数据集中均为多选题,进一步分析发现Gemini更倾向于选择D选项。GPT系列在四个选项上需要平衡许多因素,团队提出这可能是G
原文链接:Gemini Pro还不如GPT-3.5,CMU深入对比研究:保证公平透明可重复
联系作者
文章来源:量子位
作者微信:QbitAI
作者简介:跟踪人工智能新动向,关注科技行业创新突破
© 版权声明
文章版权归作者所有,未经允许请勿转载。
相关AI热点
暂无评论...