智源发布规模高达3亿的全球最大中英文向量模型训练数据集

智源发布规模高达3亿的全球最大中英文向量模型训练数据集的封面图

AIGC动态欢迎阅读》

原文标题:智源发布全球最大中英文向量模型训练数据集!规模高达3亿文本对

关键词:报告、模型、向量、数据、华为

文章来源:新智元

内容字数:4467字

内容摘要:为推动大模型开源生态,智源研究院发布全球最大面向中英文语义向量模型训练数据集。在北京人工智能产业峰会暨中关村科学城科创大赛颁奖典礼上,智源研究院发布了面向中英文语义向量模型训练的大规模文本对数据集MTP(massive text pairs)。该数据集是全球最大的中英文文本对训练数据集,包含3亿对文本,具备规模庞大、主题丰富、数据质量高等特点,有望推动……

原文链接:查看完整文章:智源发布全球最大中英文向量模型训练数据集!规模高达3亿文本对

联系作者

文章来源:新智元

作者微信:AI_era

作者简介:新智元是智能+中国主平台,旨在促进中国从互联网+向智能+新时代的转变。重点关注人工智能、机器人等前沿领域的发展,关注人机融合、人工智能和机器人对人类社会和文明进化的影响,引领中国智能新时代的发展。

© 版权声明

相关AI热点

暂无评论

none
暂无评论...