近日来,ChatGPT和文心一言等超大规模预训练模型纷纷登场,让我们看到了AI破解人类自然语言的力量。
成立两年多来,BioMap百图生科一直致力于打造生命科学领域的AI大模型,构建了千亿参数的跨模态大模型 “xTrimo” (The Cross-Modal Transformer Representation of Interactome and Multi-Omics)。该大模型从跨物种、跨模态的生命信息中学习蛋白质如何构成和实现功能、如何相互作用、如何组合和调控细胞功能的关键规律,从而破解生命的自然语言——蛋白质。基于大模型,AI在一系列任务算法上取得了明显的进展,除了更好地完成结构预测等基础任务外,也开始可以根据不同的问题输入,以生成的方式,设计创新的蛋白质,来回答各种生命科学问题。
2023 年 3 月 23 日,百图生科在北京发布生命科学大模型驱动的 AIGP——AI Generated Protein 平台,旨在将这一技术平台的能力与更多行业伙伴分享,利用设计创新蛋白质的能力,共同研发更多的前沿药物和其他生命科学项目,也通过挑战性的新任务,驱动AIGP平台的技术进步。
在发布前,AIGP平台已经进行了一段时间的内部测试,在百图生科内部承载了其创新免疫调控药物 ImmuBot 的研发工作,贡献了多个高性能弹头、新功能传感器的研发案例。
除此之外,有近20家合作伙伴和百图生科开展了AIGP联合研发合作,方向覆盖高性能弹头设计、新功能蛋白质设计、靶点挖掘和调控蛋白设计等领域,其中多个项目取得了阶段性的发现成果。在合作的创新药企、学术PI的帮助下,AIGP平台也进行了诸多优化。
因此,本次百图生科AIGP平台的对外发布,意味着对平台创新蛋白质的生成能力开启“公测”新阶段,也意味着百图生科AIGP平台将为更多伙伴,亦面向包括科研、环保、材料、消费等更多场景的需求,提供解决方案。
图: AIGP3大功能模块+12项核心能力示意图
目前,百图生科AIGP平台设置了3类功能模块,分别是Function to Protein Design(F2P,根据结构、功能、可开发性等功能指标设计/优化蛋白质)、Protein to Protein Design(P2P,给定抗原等目标蛋白,设计与之以特定方式结合的抗体等蛋白)、以及Cell to Protein Design(C2P,给定细胞,发现调控细胞功能的靶点蛋白并设计相应的调控蛋白)。
根据不同模块的输入和要求,AIGP平台可在较短时间内设计和生成具有特定性质的蛋白质。
随着面向合作伙伴的公测阶段取得进展,百图生科计划于2023年6月起将部分功能模块进一步开放,让专业用户可以直接自主使用,在更多的研究场景调用AI的蛋白质生成能力,激发更多的生命科学探索。
对于百图生科AIGP平台的发布,世界生物信息学界的著名学者、哈佛计算生物医学中心创始主任、R语言的主要发明人、百图生科科学顾问委员会委员Robert Gentleman教授表示,在哈佛,他的团队同样在进行蛋白质生成/预测模型的相关研究,“百图生科在这个方向上走得很远了”。
他期待,AIGP会带来更多的蛋白质/抗体生成模型,抗体工程师们可能会从这些模型的预测中,发现自己从未注意过的细节,“如果将这些模型视作‘idea generator’,一切会变得更加美妙”。
中国科学院院士、著名免疫学家董晨教授认为:“AI能够解决的问题,就是对大数据的分析和进一步的演绎和应用。在当下的时间节点,AIGP确实是一个呼之欲出的平台。相信AIGP对于我们理解蛋白质,以及在生物系统中研究和发现它的功能和调控,乃至于将来研发新药,都会有非常大的作用。”
图 : 百图生科CTO 、首席AI科学家宋乐博士
从AIGC到AIGP,人工智能的生成和预测能力对真实世界的影响将进一步加深。
而AIGP能力的背后,正是百图生科在底层技术上的持续投入,以及与合作伙伴对前沿创新的共同追求。发布会上,百图生科CTO宋乐博士对此进行了详细介绍。
此前的媒体采访中,宋乐博士也表示:“因为生命体的高度复杂度。目前数据量很大,但仍然是有限的。随着生命科学领域观测手段和技术的发展,将使我们能够更加精细精准地理解进化,理解生命。这也就意味着,要实现这一目标,我们需要不断吸纳新的合作伙伴。”
正如百图生科CEO刘维在本次发布活动所提到的,虽然百图生科的AI大模型和与之配套的大规模数据图谱、高通量验证体系都远不完美,但已经凝结了很多前沿技术的创新和探索,接下来,从开始展露一些能力到提高它的泛化能力和速度,需要专业伙伴的合作的加入,而且,合作伙伴也将得益这一系列尝试,实现前沿项目的加速研发。
本文作者:AIGP,来源:BioMap百图生科,原文标题:《百图生科AIGP平台发布:提供多种蛋白质生成能力,加速前沿生命科学研究》