物体

共 20 篇文章

GPT-4V作为机器人大脑,你可能都不需要AI进行规划

本文介绍了清华大学交叉信息研究院的研究者提出的「ViLa」(全称Robotic Vision-Language Planning)算法,该算法能在复杂环境中控制机器人,实现任务规划。文章指出,虽然GPT-4V已经能够设计网站代码并控制浏览器等虚拟数字世界应用,但如果将其应用于控制机器人,可能会产生一...
GPT-4V作为机器人大脑,你可能都不需要AI进行规划

Meta AI 引领新技术:3D环境中模拟人类行为,精准交互,计算机图形学迎来新变革!

AIGC动态欢迎阅读 原标题:Meta AI新交互模型引发热议:能够在3D环境中连续模拟人类行为,实现精准交互,计算机图形学或将迎来新的突破? 关键词:物体、系统、人类、语言、人机 文章来源:AI前线 内容字数:6786字 内容摘要:冬梅、核子可乐整理。CHOIS是一套先进的人工智能系统,旨在合成逼...
Meta AI 引领新技术:3D环境中模拟人类行为,精准交互,计算机图形学迎来新变革!

北京大学在NeurIPS 2023提出新的类别级6D物体姿态估计范式,刷新最优结果

本文来自机器之心专栏作者张继耀,报道了北京大学研究者在NeurIPS 2023上提出的类别级6D物体位姿估计新范式取得的最新研究成果。类别级6D物体位姿估计是计算机视觉领域中一个重要的问题,在机器人、虚拟现实和增强现实等领域有广泛的应用。传统的实例级物体位姿估计受限于需要事先了解物体特性,难以适用于...
北京大学在NeurIPS 2023提出新的类别级6D物体姿态估计范式,刷新最优结果

GPT-4V和人类合作培训机器人:实现眼睛和手的同步学习

本文摘要来自机器之心,介绍了微软提出的使用GPT-4V和人类演示来训练机器人的新方法。通过GPT-4V解析视频动作,生成行为表述作为任务列表,从而实现训练机器人的目的。这种方法绕过了传统收集数据和训练模型的过程,展示了灵活性和适应性,特别是在结合通用视觉大模型(如GPT-4V)的情况下。这种方法为开...
GPT-4V和人类合作培训机器人:实现眼睛和手的同步学习

GPT-4与物理引擎结合的扩散模型,打造逼真流畅且合乎逻辑的视频

AIGC动态欢迎阅读 文章标题:GPT-4+物理引擎加持扩散模型,实现视频逼真、连贯、合理 关键词:物理、视频、模型、用户、物体 文章来源:机器之心 文章字数:6142字 内容摘要:最近,随着扩散模型技术的应用,文本生成视频技术得到了进一步发展。然而,这类方法的计算成本通常较高,而且往往难以实现连贯...
GPT-4与物理引擎结合的扩散模型,打造逼真流畅且合乎逻辑的视频

浙大团队斩获唯一最佳论文奖,三项大奖落入中国团队之手!ACM MultiMedia 2023揭晓盛况

本文报道了2023 ACM MultiMedia会议上中国团队取得的三项大奖,展示了中国在多媒体领域的新突破。其中,浙江大学团队、南京航空航天大学团队和清华大学团队的成果在3072篇投稿中脱颖而出,分别荣获最佳论文奖(Best Paper Award)和荣誉提名奖。此次会议录用了902篇论文,录用率...
浙大团队斩获唯一最佳论文奖,三项大奖落入中国团队之手!ACM MultiMedia 2023揭晓盛况

华人团队斩获最佳论文与最佳系统论文,CoRL奖项揭晓

展示的内容给出了一篇关于AIGC动态的文章摘要,主要介绍了华人团队在CoRL会议上获得最佳论文和最佳系统论文的情况。文章来源是机器之心,作者是专业的人工智能媒体和产业服务平台。CoRL是一个涵盖机器人学、机器学习和控制等多个主题的全球顶级学术会议,今年的会议在美国亚特兰大举行。如果想进一步了解原文内...
华人团队斩获最佳论文与最佳系统论文,CoRL奖项揭晓

多模态物体幻觉下降23%!UNC斯坦福等发布通用修正器LURE:支持各种LVLM,专攻三大幻觉成因

欢迎阅读AIGC动态 原标题:多模态物体幻觉下降23%!UNC斯坦福等推出通用修正器LURE:兼容任意LVLM,专攻三大幻觉成因。 关键词:幻觉、物体、研究人员、模型、不确定性。 文章来源:新智元。 内容字数:7212字。 内容摘要:新智元报道编辑:LRS【新智元导读】基于LVLM幻觉频发的三个成因...
多模态物体幻觉下降23%!UNC斯坦福等发布通用修正器LURE:支持各种LVLM,专攻三大幻觉成因

ICCV 2023 | 深度主动轮廓模型DeepAC实现实时六度物体跟踪

融合深度学习技术的物体跟踪新方法原标题:ICCV 2023 | 实现实时六度物体跟踪,深度主动轮廓模型DeepAC来了关键词:物体、方法、边界、模型、度文章来源:机器之心内容字数:11119字内容摘要:本文介绍了由国防科技大学刘煜教授团队和浙江大学-商汤联合实验室周晓巍教授团队共同撰写的论文《Dee...
ICCV 2023 | 深度主动轮廓模型DeepAC实现实时六度物体跟踪

万物皆可“复制粘贴”!苹果商店上新的AR应用大受欢迎

AIGC动态欢迎阅读这是一篇关于苹果商店新上的AR应用的文章。它描述了AR技术在现实世界中的应用,可以实现“复制粘贴”各种物体的有趣效果。AR Code作为一种新兴技术,在iOS 17发布之前就已经引起了热议。此文章摘自量子位,字数共计3270字。想要阅读完整文章,请点击原文链接:万物皆可“复制粘贴...
万物皆可“复制粘贴”!苹果商店上新的AR应用大受欢迎

AIoT设备助力视障人群,实现无障碍生活

《AIGC动态欢迎阅读》 原文题目:有AI,无障碍,AIoT设备为视障人群提供便利 关键词:报告,受益者,用户,智能,物联网 文章来源:HyperAI超神经 字数:9947字 内容摘要:请点击上方超链接查看详情。HyperAI团队指出,根据世界卫生组织的数据显示,全球有22亿人受到视力障碍的影响,其...
AIoT设备助力视障人群,实现无障碍生活

DALL-E 3翻车现场揭秘!特斯拉钢铁侠悲剧悲歌,博主揭秘幕后故事

AIGC动态欢迎阅读原标题:百万网友围观DALL-E 3新玩法!钢铁侠特斯拉皆“中招”,症友好,博主分享提示词关键字:对象,产品,量子,物体,网友文章来源:量子位内容字数:2737字内容摘要:DALL-E 3近期备受网友关注!是否见过钢铁侠和蝙蝠侠的独特玩法?他们的身体零部件整齐地展示在桌面上,尽管...
DALL-E 3翻车现场揭秘!特斯拉钢铁侠悲剧悲歌,博主揭秘幕后故事

DALL·E 3指南:如何创作令人惊叹的Knolling照片

欢迎阅读AIGC动态 原文标题:如何利用DALL·E 3创作出令人惊叹的Knolling照片 关键词:图像、用户、物体、爱好者、想法 文章来源:AI范儿 字数统计:本文共计3562字 内容摘要:以Knolling风格展示钢铁侠穿着标志性套装的照片,周围是盔甲部件、弧状反应堆、推进器光束、带HUD界面...
DALL·E 3指南:如何创作令人惊叹的Knolling照片

韩国科学技术院最新创新:激发全身感官,机器狗学习中探索创新

AIGC动态欢迎阅读本文转载自大数据文摘,原标题为《韩国科学技术院最新成果:调动全身感官,机器狗也能在做中学》。文章介绍了一项关于机器狗技术的最新成果,即通过调动全身感官,使机器狗能够在处理各种物体时实现类似人类的灵活操作能力。关键词包括物体、控制器、机器、位置和方法,全文共3487字。传达了机器人...
韩国科学技术院最新创新:激发全身感官,机器狗学习中探索创新

特斯拉人形机器人实现视觉自主物体分类和瑜伽功能再进化

AIGC动态欢迎阅读原文标题:特斯拉人形机器人再进化,通过视觉自主分类物体和瑜伽技能展示关键词:特斯拉,物体分类,机器人,任务,神经网络文章来源:机器之心文章字数:3283字文章摘要:经机器之心报道编辑杜伟和大盘鸡,未来的人形机器人或许会像《终结者》等科幻电影中展示的那样。经过几个月的沉寂,特斯拉的...
特斯拉人形机器人实现视觉自主物体分类和瑜伽功能再进化

重新定义|个性化 Relation 在图像生成中的应用

欢迎阅读AIGC动态 本文标题:图像生成中的 Relation 定制化 关键词:物体、外观、图片、任务 本文来源:AI科技评论 文字长度:2980字 摘要内容:近年来,针对图像生成中的 Relation 定制化越来越受欢迎。不仅有 DreamBooth、Textual Inversion、Custo...
重新定义|个性化 Relation 在图像生成中的应用

场景控制的四合一物体传送门

AIGC最新动态本文介绍了⌈四合一物体传送门⌋,这是一种可以将可控物体传送到场景中的技术。关键词涵盖前景、物体、姿态、图像以及向量。文章来源:AI科技评论本文共计4398字,详细阐述了图像合成的应用及其重要性。图像合成是一种常见的图像编辑操作,旨在将不同图片中的前景物体与背景图片结合,以生成类似于将...
场景控制的四合一物体传送门