全球首个千亿级蛋白质模型开源!百图生科掀起生命科学AI普惠革命

360影视 欧美动漫 2025-03-20 10:52 4

摘要:今天,百图生科宣布开源其领先的xTrimo V2中的蛋白质语言模型xTrimoPGLM,7个不同参数量的模型均已发布在huggingface和github,供全球用户自由获取和使用。

生命科学大模型的先行者,向行业打开了一个开放共赢的未来。

今天,百图生科宣布开源其领先的xTrimo V2中的蛋白质语言模型xTrimoPGLM,7个不同参数量的模型均已发布在huggingface和github,供全球用户自由获取和使用。

xTrimoPGLM是全球首个千亿参数的蛋白质语言模型,性能超越了ESM-2、ProGen2等此前业界领先的蛋白质模型,并在药物分子设计和优化、抗体工程与疫苗开发、酶工程和生物催化剂设计等领域展现出广泛应用前景。

该心血向行业的开放,意味着过去只有头部药企和顶尖实验室才能配备的先进AI工具,如今将惠及更多开发人员,为整个生命科学行业带来新的发展机遇。

这是一次用创新带动创新的尝试,围绕开源本身,自由交流、开放共享的时代趋势正在汇聚起“群体智慧”。

当下,人工智能方兴未艾,于生命科学的应用更是处于早期,通过开源构建宽广的创新生态,将蛋糕做得更大,最终带动整个行业的繁荣,是百图生科作为领军者的战略远见。

随着DeepSeek-R1等大模型的开源浪潮兴起,极致的性能优化与普惠的开源精神引发深刻的技术平权运动,百图生科选择为更加开放与包容的明天播种。

千亿级xTrimoPGLM的开源宣告了行业的DeepSeek时刻,站在AI深度融入生命科学的关键节点,百图生科怀普惠之志,以技术创新为基石,以生态协作为阶梯,深度提升行业智能化水平。

随着百图按下技术落地“加速键”,一场行业变革大幕正徐徐拉开。

深耕大模型,百图的进化论

蛋白质领域,是AI在生命科学应用中成果最丰富、最瞩目的一颗明珠。

作为生命体系中的重要分子,蛋白质参与到几乎所有的生命过程中,包括代谢、免疫、传导、细胞分化和信号传递等,其结构、功能、相互作用与调控机制复杂性一直是科学家们探索的重点。

从2020年的AlphaFold2横空出世,到摘得2024年诺贝尔化学奖桂冠。AI帮助人类破译了“蛋白质密码”并从实验室走向产业端,涵盖了新药研发、疾病诊断、合成生物等多个领域,显示出巨大的市场潜力。

正因如此,蛋白质模型在AI+生命科学领域的关注度与普及度都远超其他,也往往是企业或研发团队证明自身实力赢取行业认可的第一战,在行业内颇具影响力的Meta、DeepMind都推出过蛋白质相关模型。

正如计算蛋白质先驱David Baker所说:“蛋白质是生命的机器,理解它们的语言将揭开生物学的秘密。”

作为全球最早投身于生命科学大模型研发的公司之一,百图生科的首个学术开源项目HelixFold-Single就聚焦在蛋白质结构预测领域,曾登上Nature子刊封面。

HelixFold-Single模型框架图

该模型是全球范围内首个不依赖MSA 高速蛋白质结构预测模型,实现了“Folding with Large-scale Protein Language Model”的突破,在评测任务上速度提升百倍以上,为蛋白质结构预测领域带来了新的跃升。

2023年,该公司的蛋白质语言模型xTrimoPGLM更成功融合蛋白质理解+蛋白质生成两大类不同任务的预训练方法,在18个任务中有15个取得SOTA,综合表现优于原来的SOTA任务模型,也优于同为预训练模型的Meta ESM-2。

同年百图生科旗下“能生成蛋白质的ChatGPT”也诞生了,这套基于 xTrimo 驱动的 AIGP(AI Generated Protein) 平台能够有针对性地生成蛋白质或者对生成式的方式设计蛋白质。

经过数年沉淀,百图生科的蛋白质大模型已经完成了数轮自我进化与提升,其中的各类数据也通过生态循环反哺AI平台的训练并进一步地提升了模型能力。

首个千亿参数蛋白质大模型:

大即是强,打通理解和生成

坚定选择大模型方向,百图生科以其深刻的技术实践,拓展了生物计算的疆界。

在自然语言领域,Scaling Law(规模法则)已成为黄金定律,成为人工智能产业最为知名的规律,被微软CEO纳德拉称为AI革命的真正动力。

究其原因,Scaling Law揭示了全球AI竞争的关键——模型性能与数据规模的内在关系:模型性能应随着模型参数大小、数据量、计算量按比例指数增加而线性增长。

Scaling Law成为GPT等一众大模型的基石,引发产业各方围绕数据和算力构筑护城河,成为不少精英坚信AI能够改变世界的底层信仰。

更进一步地,xTrimoPGLM的研究结果验证了Scaling Law:随着蛋白质语言模型计算量的指数增长,下游任务性能也会呈现线性增长

这一突破性成果证明了大模型在处理生物学复杂任务时的必要性,为生物大模型的发展提供了理论支撑。

在“更大即更强”的规律支配下,拥有业内最大参数规模的百图生科锁定了领先地位。

当然,百图的技术优势,不仅体现在模型规模的量级突破上,更反映在其对生命科学复杂系统的深入理解与精准把握上。

传统蛋白质语言模型往往受限于单一预训练目标,要么擅长理解任务(如ESM系列模型,主要用于蛋白质结构预测),要么专注于生成任务(如ProGen,侧重于蛋白质生成),暴露出任务适应性与泛化能力的不足。

而基于对蛋白质数据深层次的把握,百图生科研发人员创新了xTrimoPGLM的预训练框架,通过结合GLM(通用语言模型)和MLM(掩码语言模型)的优势,成功实现了对理解和生成这两类任务的同时优化。

这种统一框架使得xTrimoPGLM能够在理解任务中提供精确的氨基酸和序列级别的表示,同时在生成任务中能够产生与自然蛋白质结构相似的全新蛋白质序列。

通过构建规模空前的蛋白质语言训练数据集,并结合创新性的算法架构充分挖掘海量参数的潜在价值,百图生科研发的xTrimoPGLM展现出卓越的性能表现。

在蛋白质理解任务中,xTrimoPGLM在多种评估中表现出色,涵盖了蛋白质结构、功能、交互和可开发性等领域的18项任务中的15项超越之前的SOTA模型

此外,xTrimoPGLM还展现了出色的从头(de novo)设计蛋白质序列的性能,能够生成结构相似但序列相异的蛋白质,为药物设计和蛋白质工程提供了更多可能。

而通过监督微调来定制特定的结构和生物物理特性,xTrimoPGLM的“超级对齐”能力将进一步发挥其作为可编程模型在探索和合成广阔蛋白质空间方面的潜力。

经过持续的技术迭代与优化,xTrimoPGLM在模型规模与性能指标上均已达到国际领先水平,确立了其在生物计算领域的标杆地位。

毫无疑问,xTrimoPGLM的开源将为学术界和产业界提供了强大动力,这一选择与DeepSeek的实践相呼应,推动AI在生命科学的广泛应用,加速全球研究进程。

技术理想照进现实

百图赋能全球客户,引领创新生态

大模型的发展恰如一棵蓬勃生长的大树,其根基在于底层技术的持续创新,而茂盛的枝叶则象征着整个生态系统的繁荣发展。

xTrimoPGLM的开源只是一个起点,回顾百图生科成立五年以来的种种历程,会有这种感叹:重重挑战的生命科学大模型之路,已经在技术、商业、生态上已经铺就了条条通衢。

去年,百图生科发布了拥有2100亿参数、覆盖蛋白质、DNA、RNA等7大生命科学主流模态的xTrimo V3,成为目前全球规模最大、首个实现全模态覆盖的生命科学大模型。

这个大模型家族,实际上可应用于生命科学产业链的所有不同环境,从分子早期研发、生产放大到临床真实世界分析,再到最后的药物市场及销售,实现全链条覆盖。

全模态体系的构建不仅提供了端到端的技术支撑,更开创了多模态融合的创新范式,在诸多场景展现巨大潜力。

比如,在靶点发现中,通过细胞尺度的多模态协作,结合蛋白质、细胞表征和文本生成扰动编码,最后通过生物视觉模型辅助验证,可以显著提升靶点发现的效率和准确性。

百图生科已成功验证并授权了多个免疫组合靶点或肿瘤特异性靶点相关成果,有项目进入临床前研究阶段

不仅如此,借助一站式模型平台,百图生科为整个生命科学领域搭建了面向AI时代的革命性基础设施。

在训练端:公司创新性地开发了生物多模态统一训练框架,实现了从跨模态预训练到下游任务微调的全栈支持,显著提升了模型的泛化能力和适应性。

在推理端:百图生科量身打造了生物与AI深度融合的计算引擎,通过算法优化和硬件协同,实现了推理性能的十倍级提升。

这套技术方案已在产业实践中展现出显著的应用价值,xTrimo平台在AI靶点发现、蛋白设计、菌株改造等领域的200余个任务模型中,已支撑客户取得20余种已验证抗体/酶设计、10余个创新靶点授权等突破性成果。

在推动AI解决方案落地、提升服务效能的关键命题上,百图生科凭借多年深耕行业的实践经验,总结出了一套系统性的方法论。

基于世界上最完善的生命科学AI模型库、模型定制平台、模型工作流管理平台、高性能计算平台和自动化实验室-数据中台五大工具,以及AI 、生信和结构生物学专家支持,公司帮助客户在AI可以真正提效的核心环节形成核心竞争优势。

迄今为止,百图生科服务了400余家全球用户,60所QS100高校,已签约订单潜在价值近20亿美元,涵盖顶尖药企、科研机构及生物制造企业,覆盖药物研发、农业化工、环保等多领域。

诚然,xTrimo尚未完全成熟,而是有着开放发展空间等待探索,也恰恰是这种特性,让这个平台富有活力,让更多企业、科研机构、开发者能够参与进来,百图生科为此持续投入生态建设,吸引越来越多的创新力量汇聚成潮,共同推动平台的迭代升级与价值创造。

去年6月,百图生科在香港设立旗下首个国际创新中心(BioMap InnoHub),并落地「生物计算创新加速计划」(BioMap BioX),预计在未来五年支持五十个以上的前沿生命科学早期研发项目。

对于入选项目,百图将利用自身的生命科学大模型 xTrimo ,为研究者和创业者提供百图生科的技术支持,并帮助他们对接全球旗舰企业和投资者,探索更多应用场景。

将自身定位为“一家世界领先的生命科学AI模型提供商”的百图生科,正在逐步打通从底层算法到开发套件到应用场景及商业、生态的全链路支持。

先有技术,再筑商业闭环、联通生态,最终构建起"基础研究-技术开发-产业应用"的协同加速网络,实现经济价值与社会价值的最优解,为全球业务伙伴带来智能解决方案。

结语:

DeepSeek的异军突起是今年AI行业最热门的话题,而今这股浪潮漫过IT产业的堤岸,浸润至生命科学这片高地。

而百图生科作为生命科学大模型的领军者,选择用行动展示自身的战略远见,这一开源动作恰逢其时的深层逻辑,在于人类对蛋白质理解、设计乃至生成的探索正在进入深水区,而开放协作的生态构建,正是通往行业变革的必由之路。

毕竟在生命密码的破译长跑中,开放共享或许才是最好的加速器。正如DeepSeek以其开放姿态打破了"小院高墙"的局限,百图生科的开源同样彰显了企业技术创新的深厚底蕴,也是对东方文化中开放包容、协作共赢精神的生动诠释。

如今,百图生科正在将AI之根扎进深处,打造全模态、高性能大模型技术底座;以一站式的服务平台作为枝干,实现生命科学大模型的全栈贯通,以体系化服务能力满足多元化智能需求。

在不远的未来,AI根基上培育的生态之叶将伸向远端,与上下游合作伙伴深度协同,孕育出AI+生命科学的繁花万千。

来源:智药局

相关推荐