谷歌Gemini卷土重来！多模态能力与GPT-4V齐名｜港中文128页全面测评报告

近期，谷歌的Gemini-Pro在多模态能力方面取得了一定突破，与GPT-4V不相上下。港中文等机构在不到一周的时间内进行了评测，并发布了长达128页的报告。报告显示，在37个视觉理解任务中，Gemini-Pro展现出了与GPT-4V相媲美的能力。在多模态专有基准MME上，Gemini-Pro的综合感知和认知表现获得了高分1933.4，超越了GPT-4V（1926.6）。

之前，CMU的评估结果显示Gemini-Pro的综合能力与GPT-3.5相近。如今，在多模态领域的竞争中，Gemini-Pro算是取得了一定进展。评测报告长达128页，重点关注Gemini-Pro的多模态能力，分析了基础感知、高级认知、挑战性视觉任务和专家能力等四大领域，在37个具体任务上进行了定性比较。

定量评估主要在多模态大语言模型专门设计的评测基准MME上展开。结果显示，在MME上的综合表现优于GPT-4V。MME基准包括两类任务，即感知任务和认知任务。Gemini-Pro在这方面取得了显著的进展。想要了解更多详细信息，欢迎查阅完整报告。

原文链接：谷歌Gemini扳回一局！多模态能力和GPT-4V不分伯仲｜港中文128页全面测评报告

作者联系方式及简介：
文章来源：量子位
作者微信：QbitAI
作者简介：追踪人工智能新趋势，关注科技行业新突破