北大仅用3天训练130亿参数的Chat-UniVi统一图片和视频理解大模型

最新动向的介绍

原文题目：北大提出Chat-UniVi：在3天内训练130亿大模型实现图片和视频统一理解

关键词：视觉，模型，视频，图片，表征

文章来源：机器之心

原文字数：5352字

内容摘要：在最新的机器之心专栏中，北京大学及中山大学的研究团队提出了一种名为Chat-UniVi的统一视觉语言大模型。该模型能够统一处理图像和视频数据，使得一个庞大的语言模型（LLM）可以同时对图像和视频进行训练和理解。这一框架显著减少了视觉语言模型训练和推理的成本，使得只需三天即可训练出拥有130亿参数的通用视觉语言大模型。Chat-UniVi模型在处理图像和视频的相关任务中均表现出色。此外，所有的代码、数据集和模型权重均已公开发布。详细论文链接可参阅：https://arxiv.org/pdf/2311.08046.pdf。GitHub 地址：https://github.com/PKU-YuanGroup/Chat-UniVi。Huggingface 地址：https://huggingface.co/Chat-UniVi。演示地址：https://huggingface.co…

原文链接：请点击此处阅读原文：训练130亿大模型仅3天，北大提出Chat-UniVi统一图片和视频理解