
最新动向的介绍
原文题目:北大提出Chat-UniVi:在3天内训练130亿大模型实现图片和视频统一理解
关键词:视觉,模型,视频,图片,表征
文章来源:机器之心
原文字数:5352字
内容摘要:在最新的机器之心专栏中,北京大学及中山大学的研究团队提出了一种名为Chat-UniVi的统一视觉语言大模型。该模型能够统一处理图像和视频数据,使得一个庞大的语言模型(LLM)可以同时对图像和视频进行训练和理解。这一框架显著减少了视觉语言模型训练和推理的成本,使得只需三天即可训练出拥有130亿参数的通用视觉语言大模型。Chat-UniVi模型在处理图像和视频的相关任务中均表现出色。此外,所有的代码、数据集和模型权重均已公开发布。详细论文链接可参阅:https://arxiv.org/pdf/2311.08046.pdf。GitHub 地址:https://github.com/PKU-YuanGroup/Chat-UniVi。Huggingface 地址:https://huggingface.co/Chat-UniVi。演示地址:https://huggingface.co…
原文链接:请点击此处阅读原文:训练130亿大模型仅3天,北大提出Chat-UniVi统一图片和视频理解
与作者取得联系
文章来源:机器之心
作者微信:almosthuman2014
作者简介:从事专业人工智能媒体和产业服务平台工作
© 版权声明
文章版权归作者所有,未经允许请勿转载。
相关AI热点
暂无评论...