微软利用GPT-4V将视频转化为文字，让盲人也能轻松理解电影内容，1小时即可完成

欢迎阅读AIGC动态

这篇文章原标题为：微软利用GPT-4V解读视频，不仅可以理解电影内容还可为盲人朗读，处理一小时并非难事。

文章涉及关键词：视频、研究者、音频、片段、视觉。

文章来源于机器之心。

文章字数为7381字。

文章摘要：机器之心的编辑Panda和陈萍报道，语言能力已经相当成熟的大规模模型正在进军视觉领域。然而，具有重要意义的GPT-4V仍存在一些不足之处，详情可参考《》。最近，微软Azure AI将GPT-4V与一些专用工具集成在一起，创造出更为强大的MM-Vid。这项工具不仅具备其他LMM的基本功能，还能够分析长达一小时的视频并为视障人士解说视频内容。全球各地的人们每天产生大量视频内容，包括用户的直播内容、短视频…

原文链接：请点击微软用GPT-4V解读视频，看懂电影还能朗读给盲人听，处理一小时并非难事查看完整文章。