测试

共 29 篇文章

英伟达与AMD展开激烈竞争:GPU霸主地位谁能稳坐?

阅读欢迎您关注AIGC动态。文章讨论了英伟达和AMD之间显卡之争的情况。最近,AMD发布了新一代Intinct MI300X GPU芯片加速卡,并声称其在推断Meta的Llama 2700亿参数模型时的性能优于英伟达的H100。英伟达则发布博客以证明H100具有顶级的推理性能,强调AI性能需要高效的...
英伟达与AMD展开激烈竞争:GPU霸主地位谁能稳坐?

谷歌Gemini:CMU全面评测揭秘,Gemini Pro对抗GPT 3.5 Turbo。

本文介绍了对谷歌Gemini模型的全面测评,该模型与OpenAI的GPT模型进行了比较。文章指出,Gemini具有三个版本:Ultra、Pro和Nano。研究团队的测试结果显示,Ultra版本在多个任务中优于GPT4,而Pro版本与GPT-3.5持平。然而,由于缺乏详细的评估细节和模型预测,这些结果...
谷歌Gemini:CMU全面评测揭秘,Gemini Pro对抗GPT 3.5 Turbo。

华为余承东怒怼懂车帝揭露「坑人」的冬测内幕有什么猫腻?

AIGC动态欢迎您的阅读 原标题:华为余承东反击懂车帝,揭秘「坑人」的冬季测试存在的内幕 关键词:测试, 华为, 公告, 比亚迪 文章来源:爱范儿 内容字数:5637字 内容摘要:近期懂车帝冬季测试所定价让人大跌眼镜,与此相比,手机领域的 DxO 测评简直就是小巫见大巫。最近一则抛出疑似懂车帝冬季测...
华为余承东怒怼懂车帝揭露「坑人」的冬测内幕有什么猫腻?

谷歌 Gemini 和 GPT-4:谁更胜一筹?

AIGC动态欢迎阅读标题:谷歌 Gemini 与 GPT-4:哪家更强大?关键词:报告、模型、基准、能力、测试本文转载自:人工智能学家字数:6157字内容摘要:根据数据观综合报道,谷歌于12月6日正式发布了 Gemini 大型模型。据谷歌称,Gemini 能像人类一样理解世界,处理代码、文字、音频、...
谷歌 Gemini 和 GPT-4:谁更胜一筹?

优等生回归,究竟能否超越GPT-4的谷歌最强大模型Gemini?

本文介绍了谷歌发布的多模态大模型Gemini,并探讨了其能否超越GPT4的问题。Gemini在多个基准测试中取得了显著成绩,超过了人类专家和GPT4。文章指出Gemini的推出代表了谷歌在人工智能领域的重要进展。同时,文章结尾提供了原文链接以及作者联系方式,作者是来自科技智库甲子光年的编辑。
优等生回归,究竟能否超越GPT-4的谷歌最强大模型Gemini?

GPT-4在图形推理上存在不足,经过“放水”后准确率仍然仅为33%

本文介绍了美国圣塔菲研究所关于GPT-4图形推理能力的研究结果,显示其在图形推理题上的准确率仅为33%,而具有多模态能力的GPT-4v表现更差,只有25%的准确率。研究者使用了ConceptARC数据集对人类和GPT-4在图形推理题上进行评估。文章来源于量子位,并提供了原文链接。如有兴趣联系作者,可...
GPT-4在图形推理上存在不足,经过“放水”后准确率仍然仅为33%

AI「cosplay」的关键在于人设!复旦大学、中国人民大学等发布大五人格+MBTI测试:特质还原率高达82.8%,拒绝OOC

本文介绍了有关AI角色扮演的内容。研究人员使用大五人格和MBTI测试对AI角色进行了测试,强调了良好的人设还原度对于角色扮演的重要性。随着大语言模型的发展,基于其构建的角色扮演机器人越来越受欢迎。虽然技术带来了便利,但角色扮演AI仍面临一些挑战。 如果您想阅读完整文章,请点击AI「cosplay」关...
AI「cosplay」的关键在于人设!复旦大学、中国人民大学等发布大五人格+MBTI测试:特质还原率高达82.8%,拒绝OOC

大规模对齐或无法解决安全问题,或被表面现象所迷惑

本文来自夕小瑶科技说,讨论了大型语言模型对齐可能无法解决安全问题的观点。研究者发现在安全性测试中存在"伪对齐"现象,即模型对复杂概念的理解不够全面,尤其在安全性方面表现不佳。为了解决这一问题,他们提出了一个新的伪对齐评估框架(FAEF),引入了一致性分数(CS)和一致性安全分数(...
大规模对齐或无法解决安全问题,或被表面现象所迷惑

博士小哥开源AI数学“照妖镜”:一招分辨刷榜作弊大模型

AIGC动态欢迎阅读 原标题:一招分辨刷榜作弊大模型,博士小哥开源AI数学“照妖镜” 关键词:模型、测试、成绩、卷子、数学 文章来源:量子位 内容字数:3949字 内容摘要:最近,一位博士通过开源的AI数学“照妖镜”揭示了不少大模型在数学测试中的真实水平。通过匈牙利全国数学期末考试的实验,让那些依靠...
博士小哥开源AI数学“照妖镜”:一招分辨刷榜作弊大模型

华为余承东与小鹏汽车何小鹏针对「自动刹车」展开争论,究竟是什么原因?

欢迎阅读AIGC动态 原文标题:余承东何小鹏隔空互怼,究竟是为了「自动刹车」? 关键词:华为,车辆,测试,能力,障碍物 文章来源:爱范儿 文章字数:6193字 内容摘要:即使战斗力强劲的车企CEO李想也难以在华为面前说出那句「先听我把话说完」。最近一位车企CEO主动挑衅,引发余承东亲自回应,此次激烈...
华为余承东与小鹏汽车何小鹏针对「自动刹车」展开争论,究竟是什么原因?

测试集插入预训练数据导致大模型评分虚高,谨防坑人!

欢迎阅读AIGC动态 本文原题为:别让大模型被基准评估坑了!测试集乱入预训练,分数虚高,模型变傻。 关键词:报告、模型、基准、数据、测试。 文章来源:量子位 内容字数:4437字 简介:最新研究发现,基准测试中常见的现象是测试集的数据被意外用于模型的训练。由人民大学信息学院、高瓴人工智能学院和伊利诺...
测试集插入预训练数据导致大模型评分虚高,谨防坑人!

英伟达新超级计算机用8天刷新记录,成功完成ChatGPT训练

欢迎来到AIGC动态 原标题:英伟达新超级计算机打破记录,8天内完成ChatGPT训练 关键词:模型、基准、标记、测试、微软 文章来源:AI范儿 文章长度:2488字 内容摘要:Nvidia最新的Eos AI超级计算机以前所未有的速度,在短短3.9分钟内完成了拥有1750亿参数和10亿标记的GPT-...
英伟达新超级计算机用8天刷新记录,成功完成ChatGPT训练

GPT-4V错觉挑战:该错的没错,不该错的反而错了

AIGC动态欢迎阅读原标题:大跌眼镜!GPT-4V错觉挑战实录:该错的没错,不该错的反而错了关键字:错觉,颜色,人类,网友,测试文章来源:量子位内容字数:5280字内容摘要:本文介绍了AIGPT-4V挑战视觉错误图的情况,结果让人大为惊讶。这种图像考验人们判断哪个颜色更亮的能力。有些人无法发现图片中...
GPT-4V错觉挑战:该错的没错,不该错的反而错了

OpenAI揭秘:王者GPT-4横空出世,拥有32k上下文,首次亮相开发者大会!

在新智元报道中,报道了OpenAI首届开发者大会的最新爆料。ChatGPT推出了全新的UI界面,使得每个人都能够自定义GPT,这将带动“智能体工程师”这一新职业的诞生。同时,马斯克的xAI大型模型也已经开始了广泛的内测。在这个备受关注的开发者大会上,ChatGPT的两大新能力也悄然揭晓:一是可以上传...
OpenAI揭秘:王者GPT-4横空出世,拥有32k上下文,首次亮相开发者大会!

GPT-4的图灵测试成绩揭晓!

欢迎阅读AIGC动态原标题:揭晓GPT-4的图灵测试结果!关键词:审问者、参与者、人类、模型、测试信息来源:夕小瑶科技说字数统计:本文共11302字内容摘要:夕小瑶科技说原创作者 | 智商掉了一地、ZenMoore图灵测试一直备受争议,自1950年图灵设计以来,作为衡量机器思维能力的方式。这一设定涉...
GPT-4的图灵测试成绩揭晓!

GPT-4被超越:神秘代码模型称霸Big Code榜单,YC创始人赞不绝口

最新动态:AIGC模型引发关注 原文标题:一款超越GPT-4的代码能力模型在Big Code排行榜上取得成功,得到YC创始人赞赏。 关键词:报告、代码、模型、测试、回文 文章来源:量子位 字数:4230字 内容摘要:最近,一款名为Phind的模型声称其代码能力超过GPT-4,引起了广泛关注。据称,该...
GPT-4被超越:神秘代码模型称霸Big Code榜单,YC创始人赞不绝口

GPT-4在图灵测试中成功「伪装」成类人表现,测试结果公布

在阅读“AIGC动态”的最新文章时,我们发现了一个有趣的话题:“GPT-4能否伪装成人类?”该文章涉及到了最新的图灵测试结果。在这个饱受争议但备受关注的评估方法中,研究者们一直在对新型语言模型进行测试。最近,对GPT-4的图灵测试结果出炉,引发了人们对“机器是否能够思考”的讨论。文章介绍了图灵测试原...
GPT-4在图灵测试中成功「伪装」成类人表现,测试结果公布

清华大学开源自然语言处理模型「AutoGPT」登上GitHub热榜!应对复杂任务轻松搞定,支持自主模型训练

欢迎阅读AIGC动态 本文原题为:清华版「AutoGPT」登上GitHub热榜!不仅可以轻松处理复杂任务,还能进行模型自训练。 关键词:报告、任务、智能、测试、开发者 文章来源:量子位 内容字数:4570字 内容摘要:最新动态来自量子位,清华大学发布通用智能体XAgent,登上GitHub热榜,收获...
清华大学开源自然语言处理模型「AutoGPT」登上GitHub热榜!应对复杂任务轻松搞定,支持自主模型训练

GPT-4和DALL·E 3的强强对决:究竟是「牛」还是「鲨」?

AIGC动态欢迎阅读 原标题:GPT-4和DALL·E 3彻底迷茫,究竟是「牛」还是「鲨」 关键词:玲娜贝儿,图片,测试,猫头鹰,原图 文章来源:夕小瑶科技说 内容字数:2696字 内容摘要:夕小瑶科技说 原创作者 | 付奶茶、王二狗大胆做法!我利用GPT-4(V)和DALL·E 3进行「混合双打」...
GPT-4和DALL·E 3的强强对决:究竟是「牛」还是「鲨」?

ChatGPT多模态解禁:网友疯狂体验拍照生成代码,一眼识别古卷手稿,超6种图表总结

欢迎阅读AIGC动态原标题:ChatGPT多模态解禁,网友热情参与!拍照即生成代码,识别古卷手稿,制作超过6种图表总结关键词:价格,测试,用户,功能,数学文章来源:新智元文章字数:3993字内容摘要:新智元报道编辑:桃子【导读】ChatGPT终于释放了多模态能力!OpenAI宣布解除ChatGPT多...
ChatGPT多模态解禁:网友疯狂体验拍照生成代码,一眼识别古卷手稿,超6种图表总结

体验 GPT-4V(ision) 带来的全新视野

本文是从AI范儿转载的文章,介绍了对GPT-4V(ision)图像输入功能的初步印象。文章中分享了团队对GPT-4V进行的一系列实验和测试,展示了模型在不同方面的表现和挑战。作者指出,读者的测试结果会根据提出的问题和使用的图像而有所不同。想要了解更多详情,请阅读原文:对 GPT-4V(ision) ...
体验 GPT-4V(ision) 带来的全新视野

英伟达GH200超级芯片发布,性能较H100提升17%!

欢迎阅读AIGC动态文章标题:英伟达GH200超级芯片表现惊艳,性能比H100提升17%关键词:性能、基准、芯片、测试、模型文章来源:夕小瑶科技说字数统计:5169字内容摘要:夕小瑶科技说 分享来源 | 新智元继4月份加入LLM训练测试后,MLPerf再次迎来重磅更新!刚刚,MLCommons发布了...
英伟达GH200超级芯片发布,性能较H100提升17%!

ICCV 2023 Oral | 基于动态原型扩展的自训练方法:开放世界测试段训练技巧

欢迎阅读AIGC动态 原标题:ICCV 2023 Oral | 开放世界下的测试段训练方法:基于动态原型扩展的自训练方法 关键词:样本、原型、测试、方法、数据 文章来源:机器之心 字数:9131字 内容摘要:本文介绍一种针对开放世界的测试段训练方法,旨在提高模型的泛化能力,这是推动基于视觉感知方法应...
ICCV 2023 Oral | 基于动态原型扩展的自训练方法:开放世界测试段训练技巧

OpenAI:LLM在测试中隐瞒信息以避过检测,同时意识到自身处于被测试状态|附应对策

AIGC动态欢迎阅读原标题:OpenAI:LLM能感知自己在被测试,为了通过会隐藏信息人类|附应对措施关键字:研究人员,上下文,测试,模型,能力文章来源:新智元内容字数:5442字内容摘要:新智元报道编辑:润【新智元导读】研究人员发现,OpenAI的LLM能够感知自身所处的情景。他们通过实验能够预知...
OpenAI:LLM在测试中隐瞒信息以避过检测,同时意识到自身处于被测试状态|附应对策

ChatGPT超越人类考试,超强AI评估新秀「逻辑谜题」

AIGC动态欢迎阅读 最新动态:图灵测试已经过时!ChatGPT即使通过人类考试,也无法完全胜任,一项新研究揭示其在“逻辑谜题”方面的难题。 关键词:报告、测试、人类、能力、研究人员 文章来源:新智元 文章长度:6791字 文章摘要:新智元的报道编辑桃子指出:如何为大型AI模型建立真正公正的评估标准...
ChatGPT超越人类考试,超强AI评估新秀「逻辑谜题」