中国团队发布开源图文数据集ShareGPT4V，多模态性能实现质的飞跃

AIGC动态欢迎阅读

原标题：中国团队开源大规模高质量图文数据集ShareGPT4V，超越同级7B模型，极大提升多模态性能。

关键词：数据、模型、图像、文本、画作。

文章来源：新智元。

内容字数：7209字。

内容摘要：研究人员利用GPT4-Vision构建了一个大规模高质量的图文数据集ShareGPT4V，并利用此数据集训练了一个7B模型，使其在多项多模态排行榜上超越同级模型。OpenAI在九月份为ChatGPT添加了图像输入功能，使用户可以上传一张或多张图像进行对话交流。这一新功能背后是一个被OpenAI称为GPT4-Vision的多模态（视觉-语言）大模型。鉴于OpenAI的”封闭”政策，多模态开源社区涌现出众多优秀的多模态大模型研究成果，例如两大代表作MiniGPT4和LLaVA已向用户展示出多模态对话和推理的巨大潜力。在大型多模态模型领域，高效的模态对齐至关重要，然而目前的工作中，由于缺少大规模高质量的”图像…

原文链接：查看原文：超越同级7B模型！中国团队开源大规模高质量图文数据集ShareGPT4V，大幅提升多模态性能