NeurIPS 2023研究:多模态查询方法让大模型看图比打字管用,准确率提升7.8%

量子位动态介绍

本文转载自沁园夏量子位,公众号 QbitAI。大型AI模型的图像识别能力已经非常强大,但为什么它们仍然经常混淆物体?比如,将长得不太像的蝙蝠和拍子混淆,或者无法识别数据集中的一些稀有鱼类……这是因为当我们让大型模型“寻找事物”时,通常输入的是文本。如果描述模糊或者太专业化,比如“bat”(是指蝙蝠还是拍子?)或者“魔鳉”(Cyprinodon diabolis),AI就会感到困惑。这就导致使用大型模型进行目标检测,尤其是在开放世界环境下时遇到困难。

原文链接:[点击阅读原文:让大模型看图比打字管用!NeurIPS 2023新研究提出多模态查询方法,准确率提升7.8%]

作者联系方式

文章来源:量子位

作者微信:QbitAI

作者简介:追踪人工智能新趋势,关注科技行业的新突破

NeurIPS 2023研究:多模态查询方法让大模型看图比打字管用,准确率提升7.8%

© 版权声明

相关AI热点

暂无评论

none
暂无评论...