人工智能在药物发现中的数据挑战与应对策略

摘要:根据2023年的一项研究估算,新药研发的成本已攀升至61.6亿美元,这比2016年估算的28.7亿美元(经通货膨胀调整后)还要高个几倍!

根据2023年的一项研究估算,新药研发的成本已攀升至61.6亿美元,这比2016年估算的28.7亿美元(经通货膨胀调整后)还要高个几倍!

在药物开发中最节省时间和成本的阶段是在药物发现早期临床前研究阶段。由于药物筛选和优化等环节的高失败率,临床前研究花费大约占了总费用的43%。葛兰素史克的一项研究研究报告就指出,他们93%的抗菌项目都没有能成功开发出任何药物先导化合物。

有趣的是,与灵活性更高的小型生物技术公司相比,大型制药公司的研发效率通常要低得多。目前,大多数获得监管批准的药物并非由大型制药公司自主研发,而是通过收购外部药物项目,依托大公司广泛的资源和独特的临床试验将这些药物推向市场。

基于外部研发效率的显著优势,越来越多的大型制药公司选择与生物技术公司或学术药物发现中心开展合作。人工智能(AI)初创公司和生物技术公司也凭借其早期研究成果签订了许多盈利性强的合作协议。这些成功案例表明,AI在小分子药物发现领域具有巨大的潜力,而这一潜力在公共领域已初见端倪。

然而,虽然目前看来AI前景光明,但AI在药物发现中的应用仍面临许多重大障碍,这些障碍通常被外界,甚至是评估、投资或从事这一领域的相关人士所忽视。许多问题是AI的一个分支——机器学习(ML)的特定挑战,同时也有一些是与其他领域通用的困难。然而,在药物发现问题中,这些挑战往往表现得更为突出,且需要更具针对性的解决方案。本文将聚焦这些问题,涵盖数据相关挑战、不确定性量化、模型评估以及研究者的潜在偏见,并探讨可能的解决路径。

图 1. 人工智能在药物发现中面临的挑战概览

2.1 数据偏差

AI模型依赖于训练数据,而数据偏差可能导致模型的泛化能力受限。药物活性预测模型可能更倾向于预测某些特定分布内的分子,而难以扩展到未知区域。为缓解这一问题,可以通过合理的训练-测试数据分割策略来评估分布转移的影响。

2.2 数据不一致性

实验室之间的操作差异可能导致数据不一致,影响模型的泛化能力。例如,即使在相同的细胞系和药物条件下,不同实验室测得的药物活性也可能存在显著差异。标准化实验流程是解决此问题的重要手段。此外,可以通过交叉验证来检测和评估数据不一致的程度。

2.3 类别失衡

药物筛选数据中目标分子的数量通常远少于无活性分子,形成严重的类别失衡问题。为缓解这一挑战,可以采用生成负样本(伪阴性分子)的方法,并结合主动学习、过采样和半监督学习技术提高模型性能。

2.4 小数据集问题

药物发现中的许多任务涉及小样本数据,这对监督学习模型提出了巨大挑战。自监督学习和迁移学习技术是有效的应对策略。通过在大规模未标注数据上预训练模型,并在小规模标注数据上进行微调,模型可以更好地适应特定任务需求。

2.5 高维数据

高维特征空间(如基因组或代谢组数据)对模型性能评估提出了更高要求。在处理癌症药物响应预测等任务时,特征选择是关键技术。通过降维和交叉验证,可以提升模型在未见数据上的预测能力。

2.6 不确定性量化

为了提高预测的可靠性不确定性量化逐渐成为AI模型优化的重要方向。高斯过程(Gaussian Process, GP)和保序预测(Conformal Prediction, CP)是常用的方法。尽管这些方法尚未大规模应用于前瞻性研究,但其潜在优势已在若干回顾性研究中得到验证。

概念错误

对过拟合的误解是一个常见问题。过拟合通常被定义为模型在训练集上表现优异,但在测试集上表现不佳。然而,过拟合并非二值属性,而是受数据集和算法影响的连续变量。模型的实际表现需要在多次随机分割的训练-测试数据上评估,以准确反映其泛化能力。

性能误判

评估模型性能的基准往往存在局限性。一些常用指标(如ROC-AUC)可能并不适合早期识别问题。相比之下,命中率和归一化富集因子等指标更符合虚拟筛选任务的需求。

不现实的基准

许多基准数据集过于关注特定方法的性能,而忽略其在前瞻性任务中的实际应用效果。例如,一些数据集通过过滤来优化化学多样性,但这一过程可能错误地排除了潜在的活性分子。更加真实的基准(如LIT-PCBA)更有助于评估模型的实际应用潜力。

研究者偏见的影响

研究者的背景和偏见可能限制AI技术的全面发展。

AI领域研究者的偏见

AI研究者倾向于认为科学问题可以通过优化算法解决,往往忽视领域知识的关键作用。为了实现实际突破,AI团队需要与领域专家开展跨学科合作

药物发现领域研究者的偏见

药物发现专家对AI的怀疑态度可能源于对技术失控的担忧。一些研究者仅使用AI技术作为辅助工具,而未能充分发掘其潜力。为解决这一问题,药物发现专家需掌握基本的AI知识,并与AI专家平等合作。

缺乏前瞻性应用经验

许多研究者专注于回顾性研究,而缺乏前瞻性应用的经验。前瞻性验证能够提供更具说服力的证据,推动AI技术在实际场景中的应用。

04 未来方向与结论

1. 数据问题的解决:采用标准化实验流程、生成高质量伪样本和优化特征选择技术。

2. 不确定性量化:开发更有效的预测误差量化工具。

3. 模型评估改进:采用多样化、任务对齐的性能指标,构建更真实的基准数据集。

4. 跨学科合作:在AI与药物发现领域之间建立更紧密的合作关系。

5. 推进前瞻性应用:鼓励研究者进行真实场景下的模型验证,以提升其实际应用价值。

随着这些问题的逐步解决,AI在药物发现中的应用将进一步加速,不仅降低新药研发的成本和周期,还可能带来更多创新性疗法和精准医学的突破。

参考资料:Ghislat G, Hernandez-Hernandez S, Piyawajanusorn C, et al. Data-centric challenges with the application and adoption of artificial intelligence for drug discovery[J]. Expert Opinion on Drug Discovery, 2024: 1-11.

来源:蚂蚁科技圈

相关推荐