中国团队发布开源图文数据集ShareGPT4V,多模态性能实现质的飞跃

<img src="中国团队发布开源图文数据集ShareGPT4V,多模态性能实现质的飞跃">

AIGC动态欢迎阅读

原标题:中国团队开源大规模高质量图文数据集ShareGPT4V,超越同级7B模型,极大提升多模态性能。

关键词:数据、模型、图像文本、画作。

文章来源:新智元。

内容字数:7209字。

内容摘要:研究人员利用GPT4-Vision构建了一个大规模高质量的图文数据集ShareGPT4V,并利用此数据集训练了一个7B模型,使其在多项多模态排行榜上超越同级模型。OpenAI在九月份为ChatGPT添加了图像输入功能,使用户可以上传一张或多张图像进行对话交流。这一新功能背后是一个被OpenAI称为GPT4-Vision的多模态(视觉-语言)大模型。鉴于OpenAI的”封闭”政策,多模态开源社区涌现出众多优秀的多模态大模型研究成果,例如两大代表作MiniGPT4和LLaVA已向用户展示出多模态对话和推理的巨大潜力。在大型多模态模型领域,高效的模态对齐至关重要,然而目前的工作中,由于缺少大规模高质量的”图像…

原文链接:查看原文:超越同级7B模型! 中国团队开源大规模高质量图文数据集ShareGPT4V,大幅提升多模态性能

联系作者

文章来源:新智元。

作者微信:AI_era。

作者简介:智能+中国是一个主要关注人工智能、机器人等前沿领域发展的平台,致力于推动中国由互联网+向智能+新时代转变。该平台关注人机融合、人工智能和机器人对人类社会和文明演进的影响,引领中国走向智能新时代。

© 版权声明

相关AI热点

暂无评论

none
暂无评论...