近日,我校药学院唐赟教授团队在journal of medicinal chemistry上发表了题为“clasp: a contrastive learning-guided latent scoring platform for comprehensive drug-likeness evaluation”的研究论文。该研究报道一个全新的成药性预测模型,通过整合admet性质、理化性质以及可合成性,为候选药物分子带来更综合、更具解释性的成药性评分。

新药研发是一个高风险,高投入,高回报的过程。据统计,平均每10000个化合物中只有1个化合物最终可能成为药物。临床前的药物相似性(drug-likeness)研究通过评估化合物的安全性、有效性和药代动力学等关键属性,能够快速而精确地判断其作为潜在药物的可行性。传统的药物相似性评估多以经验法则为基础(如ro5及其扩展),虽便于快速筛选,却因阈值刚性、缺乏量化判别而难以精细区分候选物的优劣。后续提出的加权函数方法(如qed)虽然实现了定量评分,但对毒性等关键安全性维度考虑不足,易导致评价不全面。基于上述痛点,亟需一种统一、可推广且可解释的药物相似性评价范式,既能整合admet与理化先验,又能在数据驱动下给出可执行的优化指引。
为应对上述挑战,唐赟教授团队在既有工作的基础上(admet-score,2019;dbpp-predictor,2024)取得了进一步突破,建立了一种基于三元组对比学习的变分自编码框架(clvae)的方法用于药物相似性评估。该方法以分子的admet性质为核心,融合经典理化性质与可合成性,通过半监督的三元组对比损失训练构建结构良好的“类药”潜空间,并通过潜空间坐标导出可解释的成药性评分。该评分方法在多个基准数据集的评估中优于现有方法,且可给出评分成因与方向性优化建议。在案例研究中,该方法准确刻画了wee1抑制剂的性质优化轨迹,显示出良好的应用潜力。平台可通过在线访问。
作者系统比较了不同的降维方法用于构建潜在的成药性评价空间,线性降维方法(pca)表现最差,在常见的描述符中,pca方法的前三维的方差解释性不足10%,丢失了大量的潜在分子信息。而作者构建的clvae方法取得了最佳表现。

图1:clvae(a)、vae(b)、pca(c)、t-sne(d)、umap(e)方法类药空间构建对比图
作者在多类数据集上系统评估了clasp:以fda批准药物与其他国家/地区批准药物(worlddrug)为正例集;以chembl、zinc(可购买化合物数据库)和gdb17(虚拟化学空间)为对照库;并引入withdrawn(已撤市药物)与investigation(在研药物)等真实集合进行外部检验。结果显示,clasp能输出可与药物优化流程直接对接的综合评分,在不同数据来源与化学空间上均表现出良好的判别力与适用性,具有较强的应用潜力(图2)。

图2:clasp、qed、dbpp评分在不同数据集上的表现
为验证评分体系的应用价值,作者针对wee1抑制剂开展了案例研究:与不良反应事件相关的azd1775与zn-c3在clasp评分中处于较低水平;相较之下,优化后的化合物32、34以及目前在研的化合物3获得更高评分,显示出良好的优化潜力(图3)。

图3:clasp评分在wee1抑制剂的案例研究
clasp以三元组对比学习的vae统一整合admet、理化与可合成性信息,构建可解释的类药潜空间并生成量化评分,在多基准与wee1案例中验证有效,有望为早期筛选、系列优选与先导优化提供可量化、可解释的决策参考。
华东理工大学药学院的研究生李新民是论文的第一作者,我校药学院唐赟教授为通讯作者。研究工作得到国家重点研发计划、国家自然科学基金等科研项目资助。
论文链接: