哈佛、哥伦比亚大学合作开源1600万组蛋白质序列，为解决AlphaFold 2训练数据私有化问题迈出重要一步！

在最新的报道中，哈佛大学和哥伦比亚大学发布了一个名为OpenProteinSet的开源数据集，其中包含了1600万组开源蛋白质多序列对齐（MSA）和相关数据。这一数据集覆盖了所有蛋白质数据库的蛋白质和各种UniProt集群，为广泛的人工智能模型训练提供了可能。蛋白质作为生命的基本单位，对于设计新酶、开发救命药物等生物学和医学挑战至关重要。然而，由于缺乏开放的训练数据，这一领域的研究受到了极大的限制。

这一开源数据集的发布为研究人员提供了更多可能性，特别是解决AlphaFold 2训练数据私有化的问题。这对于加速蛋白质序列和结构研究的进程具有重要意义。

与此同时，报道中提到的作者微信为AI_era，是智能+中国的主要平台，并专注于推动中国从互联网+向智能+新纪元的发展。他们关注人工智能、机器人等前沿领域的发展，以及人机融合、人工智能和机器人对人类社会与文明进化的影响，引领中国迈入新智能时代。