上海AI实验室与语料数据联盟联合推出了“书生·万卷”1.0多模式预训练语料,涵盖了文本、图文和视频数据集。这个 […]
上海AI实验室与语料数据联盟联合推出了“书生·万卷”1.0多模式预训练语料,涵盖了文本、图文和视频数据集。这个开源语料库的总量超过2TB,经过了细致的清理和去重,具有融合多元、处理精细和简便高效的特点。此语料库的发布有助于推动大型模型的应用与创新,降低大型模型技术的门槛。