增加「标记」为视觉线索，使GPT-4V更精准、更细致识别微软等品牌

AIGC动态3年前发布 AI工具箱

增加「标记」为视觉线索，使GPT-4V更精准、更细致识别微软等品牌

机器之心动态欢迎阅读

原标题：微软等通过在视觉提示中加入“标记”让GPT-4V的看更准，分更细

关键词：图像、研究者、模型、区域、视觉

文章来源：机器之心

内容字数：5375字

内容摘要：机器之心报道编辑：杜伟、小舟引入了全新的视觉提示方法 SoM（Set-of-Mark），使得OpenAI的多模态大型模型GPT-4V在理解视觉内容方面有了质的提升。最近一段时间，我们目睹了大规模语言模型（LLM）的明显进步。特别是，生成式预训练Transformer或GPT的发布推动了业界和学术界的多项突破。自从GPT-4发布以来，大型多模态模型（LMM）引起了越来越多研究者的兴趣，许多工作…

原文链接：点此阅读原文：微软等通过在视觉提示中加入“标记”让GPT-4V的看更准，分更细

联系作者

文章来源：机器之心

作者微信：almosthuman2014

作者简介：专业的人工智能媒体和产业服务平台

AIGC动态 # AIGC动态 # 区域 # 图像 # 研究者

© 版权声明

文章版权归作者所有，未经允许请勿转载。

相关AI热点

ChatGPT插件即将停止支持，奥特曼年终总结暗示明年有大动作…

ChatGPT插件即将停止支持，奥特曼年终总结暗示明年有大动作…

AI工具箱3年前

英伟达与AMD展开激烈竞争：GPU霸主地位谁能稳坐？

英伟达与AMD展开激烈竞争：GPU霸主地位谁能稳坐？

AI工具箱3年前

实现通用智能：机器如何从自然模态学习到世界模型？

实现通用智能：机器如何从自然模态学习到世界模型？

AI工具箱3年前

AI 时代：强劲至强！云服务如何保驾护航？

AI 时代：强劲至强！云服务如何保驾护航？

AI工具箱3年前

Sam Altman公布2023年终总结，分享17条箴言震撼网络！

Sam Altman公布2023年终总结，分享17条箴言震撼网络！

AI工具箱3年前

Midjourney V6发布全新版本！生图效果超越DALL·E3，逼真画面光影细节达到巅峰

Midjourney V6发布全新版本！生图效果超越DALL·E3，逼真画面光影细节达到巅峰

AI工具箱3年前

23年生成式人工智能全球投资超过360亿美元！开发者预测2024年大规模语言模型应用将迎来爆发。

23年生成式人工智能全球投资超过360亿美元！开发者预测2024年大规模语言模型应用将迎来爆发。

AI工具箱3年前

12所高校机构发布150页报告，揭秘「大模型推理」，概述750篇论文

12所高校机构发布150页报告，揭秘「大模型推理」，概述750篇论文

AI工具箱3年前

暂无评论

none

暂无评论...