
欢迎阅读AIGC动态
原标题:谈论GPT 4.5的最新进展:3D和视频输入能力,大模型实现跨模态推理
关键词:模型、数据、解读、能力、音频
文献来源:机器之心
字数:8603字
内容摘要:最近有人在社交媒体上分享了一张关于GPT4.5更新的截图。根据截图内容显示,相较于先前的GPT系列模型,GPT4.5 最大的惊喜可能在于其处理3D和视频的能力。对于3D能力具体是指是否能理解3D图像,或者能够输入3D模型,目前仍不得而知。OpenAI首席执行官Sam Altman随后否认了该截图的真实性,使得GPT4.5的实际能力仍是一个谜。然而,在多项研究中,确实已经有大型模型实现了多模态处理,甚至包括视频和3D模型。例如,给定音频曲目和一个乐器的3D模型,然后询问这件乐器能否演奏这首曲目。通过听觉识别曲目的音色,判断是钢琴、小提琴还是吉他;同时通过视觉识别出乐器类型。这样便可解答问题。但语言模型是否能够达到这个水准呢?事实上,这个任务所需要的能力被称为跨模态推理,目前是多模态大型模型研究的热点…
原文链接:点击此处查看完整原文:走在GPT 4.5前面?3D、视频直接扔进对话框,大模型掌握跨模态推理
联系作者
文章来源:机器之心
作者微信:almosthuman2014
作者简介:专注于人工智能领域的媒体和产业服务平台
© 版权声明
文章版权归作者所有,未经允许请勿转载。
相关AI热点
暂无评论...