率先体验GPT 4.5?3D、视频直接输入对话框,大模型精准跨模态推理

率先体验GPT 4.5?3D、视频直接输入对话框,大模型精准跨模态推理

欢迎阅读AIGC动态

原标题:谈论GPT 4.5的最新进展:3D和视频输入能力,大模型实现跨模态推理

关键词:模型、数据、解读、能力、音频

文献来源:机器之心

字数:8603字

内容摘要:最近有人在社交媒体上分享了一张关于GPT4.5更新的截图。根据截图内容显示,相较于先前的GPT系列模型,GPT4.5 最大的惊喜可能在于其处理3D和视频的能力。对于3D能力具体是指是否能理解3D图像,或者能够输入3D模型,目前仍不得而知。OpenAI首席执行官Sam Altman随后否认了该截图的真实性,使得GPT4.5的实际能力仍是一个谜。然而,在多项研究中,确实已经有大型模型实现了多模态处理,甚至包括视频和3D模型。例如,给定音频曲目和一个乐器的3D模型,然后询问这件乐器能否演奏这首曲目。通过听觉识别曲目的音色,判断是钢琴、小提琴还是吉他;同时通过视觉识别出乐器类型。这样便可解答问题。但语言模型是否能够达到这个水准呢?事实上,这个任务所需要的能力被称为跨模态推理,目前是多模态大型模型研究的热点…

原文链接:点击此处查看完整原文:走在GPT 4.5前面?3D、视频直接扔进对话框,大模型掌握跨模态推理

联系作者

文章来源:机器之心

作者微信:almosthuman2014

作者简介:专注于人工智能领域的媒体和产业服务平台

© 版权声明

相关AI热点

暂无评论

none
暂无评论...