
本文报道的是来自北京大学等机构研究者提出的一种新型全新视觉语言大模型——Video-LLaVA。该模型使得LLM能够同时接收图片和视频作为输入,并在下游任务中表现出色,在图片和视频13个基准上达到先进性能。这一研究结果表明,统一LLM的输入可以提升其视觉理解能力。与传统的视觉语言大模型不同,Video-LLaVA注重将图片和视频特征提前绑定到同一特征空间,以便让LLM从统一的视觉表示中学习跨模态交互。为提高计算效率,Video-LLaVA还结合图片和视频进行训练和微调。论文链接:https://arxiv.org/pdf/2310.01852.pdf。文章作者为新智元报道编辑“好困”,原文链接如下:提前对齐,视频问答新SOTA!北大全新Video-LLaVA视觉语言大模型,秒懂视频笑点。如需联系作者,可添加微信AI_era,他致力于推动中国智能+新纪元的发展,专注于人工智能和机器人等前沿领域,关注人机融合对社会和文明进化的影响。
© 版权声明
文章版权归作者所有,未经允许请勿转载。
相关AI热点
暂无评论...