Nature Computational Science丨崔庆华团队提出预测关键蛋白靶点的新型人工智能算法

摘要:确定关键蛋白靶点是阐明疾病发生发展机制以及探索疾病预防、诊断和治疗新策略的基础和前提。然而,使用CRISPR-Cas9等湿实验方法鉴定关键蛋白编码基因存在费时耗力的缺点,并且难以推广到人类全蛋白质组,所以亟需计算方法来快速准确预测人类全部蛋白质的重要性。现有的

确定关键蛋白靶点是阐明疾病发生发展机制以及探索疾病预防、诊断和治疗新策略的基础和前提。然而,使用CRISPR-Cas9等湿实验方法鉴定关键蛋白编码基因存在费时耗力的缺点,并且难以推广到人类全蛋白质组,所以亟需计算方法来快速准确预测人类全部蛋白质的重要性。现有的计算方法仅能在人源细胞系中预测蛋白质重要性,但是蛋白质重要性具有高变异性的特点,且蛋白质重要性在不同类型的细胞系之间也呈现出高异质性。这就要求在设计蛋白质重要性预测算法时,不仅需要提升算法的预测精度,而且需要考虑蛋白质重要性存在的变异性。

近年来,深度学习和大语言模型 (Large language model, LLM) 技术的快速发展为蛋白质重要性预测提供了新思路。近日,崔庆华课题组在Nature Computational Science发表题为Comprehensive prediction and analysis of human protein essentiality based on a pre-trained protein large language model的研究型文章,提出了基于预训练蛋白质语言模型(Protein language model, PLM)的蛋白质重要性预测算法PIC(Protein Importance Calculator) 。结果表明,PIC算法相较于此前最先进的计算方法DeepCellEss获得显著性能提升 (AUROC和AUPRC分别提升9.64%和10.52%) 。除了具有优异的性能外,PIC算法是首个可以同时预测蛋白质在人体、人源细胞系和小鼠中的重要性评分的工具,能够为人类所有蛋白质的重要性进行综合的预测评估。在案例研究中,作者团队使用PIC算法成功预测了人类乳腺癌中的关键蛋白质靶点,并证明了其作为乳腺癌患者预后标志物的价值。最后,作者团队使用PIC算法首次为60多万个人类微蛋白 (Human microproteins) 的重要性进行了预测,这将为微蛋白的研究提供有力帮助。

北京大学基础医学院医学生物信息学系博士生康伯铭和樊锐 (已于2024年7月毕业) 为该论文的共同第一作者,崔庆华教授为通讯作者。本研究受到国家自然科学基金项目的支持。

制版人:十一

BioART战略合作伙伴

来源:爱就对了a

相关推荐