基准

共 29 篇文章

牛津新推出的机器学习策略将蛋白质自由能扰动计算速度提升40万倍,为药物发现提供助力

编辑 | 白菜叶 机器学习在精确快速预测结合亲和力方面展现了巨大的潜力。然而,现有模型的稳健性评估不足,未能有效完成在先导化合物优化过程中所需解决的任务,例如对一系列同类配体的结合亲和力进行排序,从而限制了其在药物发现中的应用。 牛津大学的研究团队首次提出了一种新的基于注意力机制的图神经网络模型,命...
+1

英伟达与AMD展开激烈竞争:GPU霸主地位谁能稳坐?

阅读欢迎您关注AIGC动态。文章讨论了英伟达和AMD之间显卡之争的情况。最近,AMD发布了新一代Intinct MI300X GPU芯片加速卡,并声称其在推断Meta的Llama 2700亿参数模型时的性能优于英伟达的H100。英伟达则发布博客以证明H100具有顶级的推理性能,强调AI性能需要高效的...
英伟达与AMD展开激烈竞争:GPU霸主地位谁能稳坐?

谷歌 Gemini 和 GPT-4:谁更胜一筹?

AIGC动态欢迎阅读标题:谷歌 Gemini 与 GPT-4:哪家更强大?关键词:报告、模型、基准、能力、测试本文转载自:人工智能学家字数:6157字内容摘要:根据数据观综合报道,谷歌于12月6日正式发布了 Gemini 大型模型。据谷歌称,Gemini 能像人类一样理解世界,处理代码、文字、音频、...
谷歌 Gemini 和 GPT-4:谁更胜一筹?

Google发布Gemini:新一代超越GPT-4的语言模型

AIGC动态欢迎阅读近日,Google发布了Gemini,这一消息引发了广泛关注。Gemini Pro AI 模型首次亮相于Bard平台,虽然规模较小,却备受期待。与此同时,Google还在提前预热更为庞大的Gemini Ultra模型,预计将超越OpenAI的GPT-4。据Google透露,Gem...
Google发布Gemini:新一代超越GPT-4的语言模型

DeepMind联创发布全新一代大模型:5000个H100训练超越GPT-4性能

AIGC动态欢迎阅读 本文原标题为:性能直追GPT-4,5000个H100成功训练!DeepMind联合创始人推出全新一代大型模型。 关键词:模型、基准、性能、表现、人类。 文章来源:新智元。 文章字数:6622字。 文章摘要:新智元报道编辑:拉燕【新智元概要】Inflection-2最新发布!性能...
DeepMind联创发布全新一代大模型:5000个H100训练超越GPT-4性能

微软发布Orca2,助您掌握小规模大语言模型的推理技巧!

这篇文章介绍了微软最新发布的小型大语言模型Orca2,以及如何提升这种小型模型的推理能力。文章指出,尽管通常认为语言模型的体量与推理能力成正相关,但小型模型也能展现出色的推理性能。通过解释跟踪等方法训练模型,Orca2在BigBench Hard和AGIEval基准测试中表现出色。研究团队在Orca...
微软发布Orca2,助您掌握小规模大语言模型的推理技巧!

ChatGPT 发布后,开源大型模型是否能够保持竞争力?

在过去一年里,来自OpenAI的强大AI ChatGPT迅速发展,并在各个领域吸引了大量用户。现在,随着开源大语言模型的崛起,人们开始热议这些模型是否能超越一年前发布的ChatGPT。针对这一话题,一篇题为“ChatGPT问世一周年:开源大语言模型是否能迎头赶上?”的文章在夕小瑶科技说发表。文章回顾...
ChatGPT 发布后,开源大型模型是否能够保持竞争力?

GPT-4V力不从心?新测试基准MMMU来袭

本文介绍了最新的基准数据集MMMU及其基准测试,通过与GPT-4V模型进行比较,展示了一些科目上GPT-4V的优越性。MMMU数据集的创造旨在提供一个全面多模态的AI测试基准,为人工智能系统的发展,特别是通用人工智能(AGI)的发展提供支持。随着大型语言模型(LLM)的快速发展,对于AGI这一概念的...
GPT-4V力不从心?新测试基准MMMU来袭

人类考92分,GPT-4仅得15分:测试揭示大模型的实际水平

本文来自机器之心,是关于GPT-4在一项新测试中表现不佳的文章。测试题名为「GAIA」,由Meta-FAIR、Meta-GenAI、HuggingFace和AutoGPT团队共同设计。《GAIA》提出的问题涉及推理、多模态处理、网页浏览等领域,挑战了大多数高级AI,使GPT-4仅得15分,而人类能得...
人类考92分,GPT-4仅得15分:测试揭示大模型的实际水平

Inflection AI发布Infection-2,性能接近GPT4

<img src=""> 欢迎阅读AIGC动态 原标题:Inflection AI发布Infection-2,性能仅次于GPT-4 关键词:人工智能、基准、模型、任务、高度 此文摘自AI范儿,共计2295字。近日,Inflection AI最新推出的AI模型Infec...
Inflection AI发布Infection-2,性能接近GPT4

微软发布性能超越对手的小型语言模型Orca 2

AIGC动态欢迎您的阅读原文标题:微软发布小型语言模型Orca 2,性能超越竞争对手关键词:模型、语言、任务、能力、基准文章来源:AI范儿文章长度:3744字内容摘要:微软发布了Orca 2,这款小型语言模型在复杂的推理任务中表现出色,超越了大型模型。这为资源有限的企业提供了更好的选择。同时,其他公...
微软发布性能超越对手的小型语言模型Orca 2

13B模型揭秘:如何全面超越GPT-4?

AIGC动态欢迎您的阅读 原标题:13B模型是否真的超越了GPT-4?背后的内幕揭秘 关键词:样本、基准、测试、本文、数据 文章来源:机器之心 内容字数:5526字 内容摘要:机器之心报道编辑:陈萍,您的测试集信息是否在训练集中泄漏?一个参数量为13B的模型竟然战胜了顶尖的GPT-4?如下图所示,并...
13B模型揭秘:如何全面超越GPT-4?

谨防大型模型被基准评估误导,揭秘人大高瓴大模型作弊内幕

这篇文章是关于大模型被基准评估影响的问题,指出了可能出现的作弊情况。从 ChatGPT 开始,大模型之间的竞争变得激烈,频繁地有模型刷新记录的消息传出。文章提到了一些评估基准,如MMLU(用于评估多任务语言理解能力)、Big-Bench(用于量化和预测大型语言模型的能力)以及AGIEval(用于评估...
谨防大型模型被基准评估误导,揭秘人大高瓴大模型作弊内幕

11月9日|AIGC重要事件日报

<img src=""> AIGC动态欢迎阅读 原标题:11月9日 AIGC大事日报 关键词:腾讯、模型、芯片、基准、新一代 文章来源:AI导航 文章长度:6171字 内容摘要:2021年11月9日全球人工智能与通用计算产业要闻包括:1、阿里巴巴即将开源拥有720亿参...
11月9日|AIGC重要事件日报

大规模模型使用「刷榜」是否导致数据污染问题亟待关注

<img src=""> 欢迎阅读AIGC动态 原文标题:大规模模型是否在「刷榜」?数据污染问题值得关注 关键词:报告,知乎,模型,数据,基准 文章来源:机器之心 文章字数:5353字 文章摘要:在生成式人工智能时代,工作节奏显著加快。近来,中国和国际科技巨头以及初创...
大规模模型使用「刷榜」是否导致数据污染问题亟待关注

英伟达新超级计算机用8天刷新记录,成功完成ChatGPT训练

欢迎来到AIGC动态 原标题:英伟达新超级计算机打破记录,8天内完成ChatGPT训练 关键词:模型、基准、标记、测试、微软 文章来源:AI范儿 文章长度:2488字 内容摘要:Nvidia最新的Eos AI超级计算机以前所未有的速度,在短短3.9分钟内完成了拥有1750亿参数和10亿标记的GPT-...
英伟达新超级计算机用8天刷新记录,成功完成ChatGPT训练

GPT-4 Turbo改变了游戏规则

本文是关于最新的人工智能模型GPT-4 Turbo的文章。在OpenAI CEO 山姆・奥特曼介绍这个最强大模型的发布中,引起了全球科技圈的高度关注。这篇文章探讨了GPT-4 Turbo的性能提升,以及基于这一模型的各种应用的震撼效果。 文章指出,GPT-4 Turbo相较于以往的模型,在文本处理上...
GPT-4 Turbo改变了游戏规则

Anthropic推出全新大型模型评估标准,你值得拥有

AIGC动态欢迎阅读 原标题:对大型模型评分标准的可靠性进行评估:Anthropic进行重要评估 关键词:模型、评分标准、偏见、研究者、本文 文章来源:机器之心 内容字数:6709字 内容摘要:在大型语言模型(LLM)盛行的今天,评估人工智能系统变得至关重要。在这一评估过程中,研究人员会遇到哪些困难...
Anthropic推出全新大型模型评估标准,你值得拥有

如何选择词表影响语言模型训练?一项顶尖词表选择研究。

本文介绍了一项关于词表选择对语言模型训练影响的研究。研究者使用了不同类型的词表对语言模型进行实验,结果得出了一些有益的结论,可以帮助读者选择适合的词表进行语言模型训练。研究者使用了12个小型语言模型和4个中型语言模型作为实验对象,并对它们在不同词表下的表现进行了比较。文中介绍了实验的基本设计和结果总...
如何选择词表影响语言模型训练?一项顶尖词表选择研究。

全面超越Llama 2 13B,免费体验最佳的7B模型

AIGC动态更新 原文标题:Mistral AI发布Mistral 7B模型,各项基准测试均优于Llama 2 13B,并免费提供 关键词:报告、模型、基准、平均值、窗口 文章来源:机器之心 字数:4278字 摘要:近期,法国人工智能初创公司Mistral AI发布了最新模型Mistral 7B,在...
全面超越Llama 2 13B,免费体验最佳的7B模型

英伟达GH200超级芯片发布,性能较H100提升17%!

欢迎阅读AIGC动态文章标题:英伟达GH200超级芯片表现惊艳,性能比H100提升17%关键词:性能、基准、芯片、测试、模型文章来源:夕小瑶科技说字数统计:5169字内容摘要:夕小瑶科技说 分享来源 | 新智元继4月份加入LLM训练测试后,MLPerf再次迎来重磅更新!刚刚,MLCommons发布了...
英伟达GH200超级芯片发布,性能较H100提升17%!

Falcon宣布发布,拥有1800亿参数,性能媲美GPT-4,超越LLaMA 2

<AIGC动态欢迎阅读> 原标题:1800亿参数,世界顶级开源大模型Falcon官宣!碾压LLaMA 2,性能直逼GPT-4 关键词:模型,数据,版本,基准,代码 文章来源:新智元 内容字数:6865字 内容摘要:新智元报道编辑:桃子【新智元导读】一经发布,地表最强开源模型Falcon ...
Falcon宣布发布,拥有1800亿参数,性能媲美GPT-4,超越LLaMA 2