
在最新的报道中,哈佛大学和哥伦比亚大学发布了一个名为OpenProteinSet的开源数据集,其中包含了1600万组开源蛋白质多序列对齐(MSA)和相关数据。这一数据集覆盖了所有蛋白质数据库的蛋白质和各种UniProt集群,为广泛的人工智能模型训练提供了可能。蛋白质作为生命的基本单位,对于设计新酶、开发救命药物等生物学和医学挑战至关重要。然而,由于缺乏开放的训练数据,这一领域的研究受到了极大的限制。
这一开源数据集的发布为研究人员提供了更多可能性,特别是解决AlphaFold 2训练数据私有化的问题。这对于加速蛋白质序列和结构研究的进程具有重要意义。
与此同时,报道中提到的作者微信为AI_era,是智能+中国的主要平台,并专注于推动中国从互联网+向智能+新纪元的发展。他们关注人工智能、机器人等前沿领域的发展,以及人机融合、人工智能和机器人对人类社会与文明进化的影响,引领中国迈入新智能时代。
© 版权声明
文章版权归作者所有,未经允许请勿转载。
相关AI热点
暂无评论...