<img src="
">
AIGC动态欢迎您的阅读
原文标题:北大视频大模型新的SOTA,搞笑抖音视频AI秒懂笑点|开源
文章来源:量子位
内容字数:3357字
文章摘要:本文介绍了北大团队开发的视觉语言大模型Video-LLaVA,该模型在图像和视频的表征方面取得了先进性能。该模型能够将图像和视频表示对齐到统一的视觉特征空间,取得了令人瞩目的成就。具体表现在13个图片和视频基准上。值得一提的是,Video-LLaVA在训练过程中并未使用成对的视频和图片数据,但在训练后,展现出同时理解图片和视频的能力。文章还展示了模型成功识别女神像的靠近和细节图片以及视频的多角度描述,从中展示了模型的能力。
原文链接:点击查看原文:北大视频大模型新SOTA,搞笑抖音视频AI秒懂笑点|开源
联系作者
文章来源:量子位
作者微信:QbitAI
作者简介:关注追踪人工智能领域的新趋势,科技行业的新突破。
© 版权声明
文章版权归作者所有,未经允许请勿转载。
相关AI热点
暂无评论...