北大仅用3天训练130亿参数的Chat-UniVi统一图片和视频理解大模型

北大仅用3天训练130亿参数的Chat-UniVi统一图片和视频理解大模型

最新动向的介绍

原文题目:北大提出Chat-UniVi:在3天内训练130亿大模型实现图片视频统一理解

关键词:视觉,模型,视频,图片,表征

文章来源:机器之心

原文字数:5352字

内容摘要:在最新的机器之心专栏中,北京大学及中山大学的研究团队提出了一种名为Chat-UniVi的统一视觉语言大模型。该模型能够统一处理图像和视频数据,使得一个庞大的语言模型(LLM)可以同时对图像和视频进行训练和理解。这一框架显著减少了视觉语言模型训练和推理的成本,使得只需三天即可训练出拥有130亿参数的通用视觉语言大模型。Chat-UniVi模型在处理图像和视频的相关任务中均表现出色。此外,所有的代码、数据集和模型权重均已公开发布。详细论文链接可参阅:https://arxiv.org/pdf/2311.08046.pdf。GitHub 地址:https://github.com/PKU-YuanGroup/Chat-UniVi。Huggingface 地址:https://huggingface.co/Chat-UniVi。演示地址:https://huggingface.co…

原文链接:请点击此处阅读原文:训练130亿大模型仅3天,北大提出Chat-UniVi统一图片和视频理解

与作者取得联系

文章来源:机器之心

作者微信:almosthuman2014

作者简介:从事专业人工智能媒体和产业服务平台工作

© 版权声明

相关AI热点

暂无评论

none
暂无评论...