北京大学发布新一代模型,领跑搞笑抖音视频AI识别笑点技术,已开源

<img src="北京大学发布新一代模型,领跑搞笑抖音视频AI识别笑点技术,已开源">

AIGC动态欢迎您的阅读

原文标题:北大视频大模型新的SOTA,搞笑抖音视频AI秒懂笑点|开源

关键词:报告视觉、视频、编码器表示

文章来源:量子位

内容字数:3357字

文章摘要:本文介绍了北大团队开发的视觉语言大模型Video-LLaVA,该模型在图像和视频的表征方面取得了先进性能。该模型能够将图像和视频表示对齐到统一的视觉特征空间,取得了令人瞩目的成就。具体表现在13个图片和视频基准上。值得一提的是,Video-LLaVA在训练过程中并未使用成对的视频和图片数据,但在训练后,展现出同时理解图片和视频的能力。文章还展示了模型成功识别女神像的靠近和细节图片以及视频的多角度描述,从中展示了模型的能力。

原文链接:点击查看原文:北大视频大模型新SOTA,搞笑抖音视频AI秒懂笑点|开源

联系作者

文章来源:量子位

作者微信:QbitAI

作者简介:关注追踪人工智能领域的新趋势,科技行业的新突破。

© 版权声明

相关AI热点

暂无评论

none
暂无评论...