北京大学发布新一代模型，领跑搞笑抖音视频AI识别笑点技术，已开源

AIGC动态3年前发布 AI工具箱

<img src=" 北京大学发布新一代模型，领跑搞笑抖音视频AI识别笑点技术，已开源 ">

AIGC动态欢迎您的阅读

原文标题：北大视频大模型新的SOTA，搞笑抖音视频AI秒懂笑点｜开源

关键词：报告、视觉、视频、编码器、表示

文章来源：量子位

内容字数：3357字

文章摘要：本文介绍了北大团队开发的视觉语言大模型Video-LLaVA，该模型在图像和视频的表征方面取得了先进性能。该模型能够将图像和视频表示对齐到统一的视觉特征空间，取得了令人瞩目的成就。具体表现在13个图片和视频基准上。值得一提的是，Video-LLaVA在训练过程中并未使用成对的视频和图片数据，但在训练后，展现出同时理解图片和视频的能力。文章还展示了模型成功识别女神像的靠近和细节图片以及视频的多角度描述，从中展示了模型的能力。

原文链接：点击查看原文：北大视频大模型新SOTA，搞笑抖音视频AI秒懂笑点｜开源

联系作者

文章来源：量子位

作者微信：QbitAI

作者简介：关注追踪人工智能领域的新趋势，科技行业的新突破。

AIGC动态 # AIGC动态 # 报告 # 编码器 # 表示 # 视觉 # 视频

© 版权声明

文章版权归作者所有，未经允许请勿转载。

相关AI热点

腾讯混元发布图生视频模型，开放源代码并推出对口型和动作驱动等新玩法

腾讯混元发布图生视频模型，开放源代码并推出对口型和动作驱动等新玩法

AGI1年前

ChatGPT插件即将停止支持，奥特曼年终总结暗示明年有大动作…

ChatGPT插件即将停止支持，奥特曼年终总结暗示明年有大动作…

AI工具箱3年前

英伟达与AMD展开激烈竞争：GPU霸主地位谁能稳坐？

英伟达与AMD展开激烈竞争：GPU霸主地位谁能稳坐？

AI工具箱3年前

实现通用智能：机器如何从自然模态学习到世界模型？

实现通用智能：机器如何从自然模态学习到世界模型？

AI工具箱3年前

AI 时代：强劲至强！云服务如何保驾护航？

AI 时代：强劲至强！云服务如何保驾护航？

AI工具箱3年前

23年生成式人工智能全球投资超过360亿美元！开发者预测2024年大规模语言模型应用将迎来爆发。

23年生成式人工智能全球投资超过360亿美元！开发者预测2024年大规模语言模型应用将迎来爆发。

AI工具箱3年前

12所高校机构发布150页报告，揭秘「大模型推理」，概述750篇论文

12所高校机构发布150页报告，揭秘「大模型推理」，概述750篇论文

AI工具箱3年前

Sam Altman公布2023年终总结，分享17条箴言震撼网络！

Sam Altman公布2023年终总结，分享17条箴言震撼网络！

AI工具箱3年前

暂无评论

none

暂无评论...