增加「标记」为视觉线索,使GPT-4V更精准、更细致识别微软等品牌

增加「标记」为视觉线索,使GPT-4V更精准、更细致识别微软等品牌

机器之心动态欢迎阅读

原标题:微软等通过在视觉提示中加入“标记”让GPT-4V的看更准,分更细

关键词:图像、研究者、模型、区域、视觉

文章来源:机器之心

内容字数:5375字

内容摘要:机器之心报道编辑:杜伟、小舟引入了全新的视觉提示方法 SoM(Set-of-Mark),使得OpenAI的多模态大型模型GPT-4V在理解视觉内容方面有了质的提升。最近一段时间,我们目睹了大规模语言模型(LLM)的明显进步。特别是,生成式预训练Transformer或GPT的发布推动了业界和学术界的多项突破。自从GPT-4发布以来,大型多模态模型(LMM)引起了越来越多研究者的兴趣,许多工作…

原文链接:点此阅读原文:微软等通过在视觉提示中加入“标记”让GPT-4V的看更准,分更细

联系作者

文章来源:机器之心

作者微信:almosthuman2014

作者简介:专业的人工智能媒体和产业服务平台

© 版权声明

相关AI热点

暂无评论

none
暂无评论...