AI2发布OLMo 2语言模型，直面Meta Llama挑战

摘要：

人工智能研究公司Ai2近期发布了其最新的开源语言模型OLMo2。据了解，这是该公司“开放语言模型”（OLMo） […]

人工智能研究公司Ai2近期发布了其最新的开源语言模型OLMo2。据了解，这是该公司“开放语言模型”（OLMo）系列的第二代产品。与前代相比，OLMo2旨在推动人工智能领域的开放研究，为研究人员提供更大程度的实验自由，从而促进人工智能技术的创新。

相较于其他“开放”语言模型，例如Meta的Llama系列，OLMo2致力于提供更高的透明度和可追溯性，它公开了训练数据和模型架构的详细信息，允许用户全面了解模型的内部运作。通过提供这些详细信息，OLMo2旨在促进“开放AI”社区的发展，为该社区提供更多的工具和资源。据悉，OLMo2在性能方面表现出色，已跻身于同尺寸的开源“开放AI”模型的前列，目前已可在Hugging Face上下载。

据Ai2官方介绍，OLMo2的模型参数得到了显著提升，其中包括训练数据集、模型规模和训练效率，旨在实现卓越的性能。Ai2表示：“通过开放我们的数据、代码和模型，我们希望能够赋能研究人员，加速推进语言模型领域的发展。”Ai2补充道。

OLMo2模型提供了两种不同规格：一种是包含70亿参数的OLMo7B，另一种是包含130亿参数的OLMo13B。这些模型的参数规模均经过精心设计，旨在优化性能的同时，保证计算效率。除了模型本身，OLMo2还提供了一系列配套工具，方便用户进行评估、微调和部署。

为了便于用户使用OLMo2，Ai2发布了用于训练这些模型的token信息。Token是指语言模型中的基本单位，通常100个token约等于75个英文单词。通过公开token信息，用户可以更好地理解模型的词汇范围、数据处理方式，并根据需要进行定制。这些token信息涵盖了通用语言、编程语言、数学符号等多种类型，旨在确保模型在各种任务中都能表现出色，并为未来的模型改进和优化提供有价值的参考。

Ai2表示，OLMo2的发布进一步巩固了其在开放人工智能领域的地位，并且有望在性能上比肩Meta的Llama3.1等大型语言模型。Ai2强调，OLMo2 7B模型的性能甚至超越了Llama3 8B，成为同等规模档次的开源语言模型中的佼佼者。据悉，OLMo2模型已在宽松的Ai2商业许可下发布，并遵循Apache 2.0协议，方便研究人员将其应用于各种学术和商业用途。

文章版权归作者所有，未经允许请勿转载。

本文地址：https://www.aidh.net/kuaixun/12768.html