谷歌Gemini卷土重来!多模态能力与GPT-4V齐名|港中文128页全面测评报告

谷歌Gemini卷土重来!多模态能力与GPT-4V齐名|港中文128页全面测评报告的封面图

近期,谷歌的Gemini-Pro在多模态能力方面取得了一定突破,与GPT-4V不相上下。港中文等机构在不到一周的时间内进行了评测,并发布了长达128页的报告。报告显示,在37个视觉理解任务中,Gemini-Pro展现出了与GPT-4V相媲美的能力。在多模态专有基准MME上,Gemini-Pro的综合感知和认知表现获得了高分1933.4,超越了GPT-4V(1926.6)。

之前,CMU的评估结果显示Gemini-Pro的综合能力与GPT-3.5相近。如今,在多模态领域的竞争中,Gemini-Pro算是取得了一定进展。评测报告长达128页,重点关注Gemini-Pro的多模态能力,分析了基础感知、高级认知、挑战性视觉任务和专家能力等四大领域,在37个具体任务上进行了定性比较。

定量评估主要在多模态大语言模型专门设计的评测基准MME上展开。结果显示,在MME上的综合表现优于GPT-4V。MME基准包括两类任务,即感知任务和认知任务。Gemini-Pro在这方面取得了显著的进展。想要了解更多详细信息,欢迎查阅完整报告。

原文链接:谷歌Gemini扳回一局!多模态能力和GPT-4V不分伯仲|港中文128页全面测评报告

作者联系方式及简介:
文章来源:量子位
作者微信:QbitAI
作者简介:追踪人工智能新趋势,关注科技行业新突破

© 版权声明

相关AI热点

暂无评论

none
暂无评论...