北大新发布的多模态大模型：可在混合数据集上直接应用于图像和视频任务训练

欢迎阅读AIGC动态

近期，北大发布了最新的多模态大模型开源消息，该模型可在混合数据集上进行训练，无需修改即可用于图像和视频任务。

关键词：视觉、视频、模型、图片、方法

文章来源：量子位

字数：5682字

文章摘要：北京大学和中山大学联合团队最近提出一种构建统一的图片和视频表征框架的方法。他们通过这一框架，大幅降低了视觉语言大模型（VLM）在训练和推理过程中所需的成本。该团队在这一框架下训练了一个新的VLM：Chat-UniVi。这一模型可以在混合图片和视频数据的情况下进行训练，并同时处理图片任务和视频理解任务。Chat-UniVi在17个基准测试上表现出色，该项目目前已在GitHub和抱抱脸上开源。更多关于新方法和Chat-UniVi的详细信息，请查看原文。

原文链接：原文链接：北大最新多模态大模型开源：在混合数据集上训练，无需修改直接用到图像视频任务