摘要:在化学信息学中,定量结构-性质关系(QSPR)建模是预测化学物质性质的关键方法。传统流程涉及多个步骤,包括分子结构的描述符提取、特征选择、机器学习建模与参数调优。但当前主流工具彼此不兼容,缺乏统一的工作流,尤其是在复杂的化学反应建模方面,仍存在工具链断裂、自动
在化学信息学中,定量结构-性质关系(QSPR)建模是预测化学物质性质的关键方法。传统流程涉及多个步骤,包括分子结构的描述符提取、特征选择、机器学习建模与参数调优。但当前主流工具彼此不兼容,缺乏统一的工作流,尤其是在复杂的化学反应建模方面,仍存在工具链断裂、自动化程度低等问题。研究团队设计并实现了DOPtools(Descriptors and Optimization tools),一个用Python编写的开源工具库。它包含以下模块与功能:
• 描述符计算:支持RDKit指纹、Mordred物理化学参数、自定义分子片段(CircuS与ChyLine)等;
• 反应建模:可处理Condensed Graph of Reaction(CGR)结构,适用于包含多个组分的反应;
• 模型优化:集成Optuna库进行支持向量机(SVM)、随机森林(RF)、XGBoost等模型的超参数调优;
• 解释性工具:ColorAtom模块可可视化原子对模型预测的贡献;
• 命令行工具(CLI):适用于服务器部署,实现批量计算与优化。
来源:小园科技园地