
欢迎阅读AIGC动态
这篇文章原标题为:微软利用GPT-4V解读视频,不仅可以理解电影内容还可为盲人朗读,处理一小时并非难事。
文章涉及关键词:视频、研究者、音频、片段、视觉。
文章来源于机器之心。
文章字数为7381字。
文章摘要:机器之心的编辑Panda和陈萍报道,语言能力已经相当成熟的大规模模型正在进军视觉领域。然而,具有重要意义的GPT-4V仍存在一些不足之处,详情可参考《》。最近,微软Azure AI将GPT-4V与一些专用工具集成在一起,创造出更为强大的MM-Vid。这项工具不仅具备其他LMM的基本功能,还能够分析长达一小时的视频并为视障人士解说视频内容。全球各地的人们每天产生大量视频内容,包括用户的直播内容、短视频…
原文链接:请点击微软用GPT-4V解读视频,看懂电影还能朗读给盲人听,处理一小时并非难事查看完整文章。
联系作者
文章来源:机器之心
作者微信:almosthuman2014
作者简介:专业从事人工智能媒体和产业服务平台。
© 版权声明
文章版权归作者所有,未经允许请勿转载。
相关AI热点
暂无评论...