率先体验GPT 4.5？3D、视频直接输入对话框，大模型精准跨模态推理

欢迎阅读AIGC动态

原标题：谈论GPT 4.5的最新进展：3D和视频输入能力，大模型实现跨模态推理

关键词：模型、数据、解读、能力、音频

文献来源：机器之心

字数：8603字

内容摘要：最近有人在社交媒体上分享了一张关于GPT4.5更新的截图。根据截图内容显示，相较于先前的GPT系列模型，GPT4.5 最大的惊喜可能在于其处理3D和视频的能力。对于3D能力具体是指是否能理解3D图像，或者能够输入3D模型，目前仍不得而知。OpenAI首席执行官Sam Altman随后否认了该截图的真实性，使得GPT4.5的实际能力仍是一个谜。然而，在多项研究中，确实已经有大型模型实现了多模态处理，甚至包括视频和3D模型。例如，给定音频曲目和一个乐器的3D模型，然后询问这件乐器能否演奏这首曲目。通过听觉识别曲目的音色，判断是钢琴、小提琴还是吉他；同时通过视觉识别出乐器类型。这样便可解答问题。但语言模型是否能够达到这个水准呢？事实上，这个任务所需要的能力被称为跨模态推理，目前是多模态大型模型研究的热点…

原文链接：点击此处查看完整原文：走在GPT 4.5前面？3D、视频直接扔进对话框，大模型掌握跨模态推理