2024年6月24日,Yossra Gharbi 与 Rocío Mercado 在 arXiv 提交题为 A Comprehensive Review of Emerging Approaches in Machine Learning for De Novo PROTAC Design 的预印本。文章并非报告新的湿实验降解剂,而是将机器学习、生成模型与 PROTAC 从头设计的已有工作放入同一框架下评估,重点讨论连接体设计、分子生成、降解活性预测以及结构建模如何逐步进入 PROTAC 研发流程。

事件背景

PROTAC 设计长期依赖药物化学经验、结构生物学信息和多轮合成测试。与传统小分子相比,PROTAC 同时包含 POI 配体、E3 配体和连接体,分子量更大,构象自由度更高,且降解结果受三元复合物形成、细胞类型、E3 表达、靶蛋白周转和暴露水平共同影响。因此,简单套用占位型抑制剂的优化逻辑,往往难以解释 DC50、Dmax、钩效应和选择性之间的关系。

这篇预印本的价值在于,它把“AI 设计 PROTAC”从宣传性概念拆解为若干可执行模块:数据整理、连接体生成、全分子生成、性质过滤、降解活性预测、三元复合物结构推断以及后续实验验证。作者强调,机器学习并不能绕过 PROTAC 设计的物理化学复杂性,但可以在候选结构枚举、优先级排序和假设生成环节减少盲目试错。

核心进展

文章首先聚焦连接体。连接体并非单纯把两个配体“连起来”的惰性片段,它决定 POI 与 E3 的相对取向、有效距离、构象熵代价、暴露表面积和整体药物样性质。已有的 Link-INVENT、DeLinker、3DLinker、DiffLinker 等片段连接或三维生成方法,为 PROTAC linker 的自动化设计提供了工具基础,但 PROTAC 场景要求模型同时考虑大分子尺寸、柔性、可合成性和三元复合物几何约束。

文章进一步讨论了更完整的 de novo PROTAC 生成路线。例如,基于图的深度生成模型可以从 PROTAC 数据分布中学习大分子结构特征,再用强化学习或代理评分函数推动模型生成预测活性更高的结构;PROTAC-RL 一类方法则围绕给定 warhead 与 E3 ligand,对连接体组合进行优化。与此同时,DeepPROTACs 及近期基于公开数据整理的降解活性模型,尝试把 PROTAC 结构、POI 序列、E3 类型、细胞类型和 DC50/Dmax 等信息纳入预测体系。

  • 生成端:从 linker 设计扩展到全 PROTAC 分子空间探索,重点在于控制结构有效性、化学多样性与可合成性。
  • 评分端:从简单规则过滤走向多目标评分,覆盖降解活性、三元复合物、ADME 和分子尺寸等指标。
  • 结构端:PROflow 等方法提示,若能更快预测 PROTAC 诱导的 E3-POI 构象,生成模型与结构模型之间可能形成闭环。

技术与临床转化意义

对产业界而言,这类综述传递的核心信号并不是“生成模型已经能够替代药物化学家”,而是 PROTAC 发现流程正在从经验驱动转向数据辅助。候选 linker 的枚举、不同 E3 配体的优先级、靶蛋白可降解性的早期判断,以及大分子性质的多目标权衡,都可能被机器学习工具前置到设计阶段。对于拥有内部合成、蛋白组学和结构数据的团队,模型还可以作为知识管理和项目复盘工具,把失败样本转化为下一轮设计约束。

这一趋势对临床前项目同样重要。PROTAC 候选物的失败往往不是单一亲和力不足,而是由细胞暴露、三元复合物稳定性、选择性窗口、E3 可用性和组织分布共同决定。机器学习若能把这些信息与实验端持续耦合,可能帮助团队更早识别“看似能结合但难以降解”的组合,减少在低概率化学空间中的资源消耗。

风险与后续观察点

文章也对该领域保持谨慎。首先,公开 PROTAC 数据仍然稀疏、异质且带有发表偏倚;不同实验室对 DC50、Dmax、处理时间和细胞背景的记录不完全一致,使跨数据集训练存在噪音。其次,可用三元复合物结构数量有限,许多模型不得不依赖伪数据、简化约束或代理指标。第三,生成出的结构即使在模型评分中表现良好,也可能面临合成路线复杂、膜通透性不足、溶解度差或体内暴露不理想等问题。

后续值得观察的方向包括:是否出现更规范的公开基准集;是否有模型在前瞻性合成与细胞降解实验中证明命中率提升;是否能够将负结果、蛋白组选择性、PK/PD 和结构数据整合进统一工作流;以及生成模型能否从“提出结构”进一步走向“解释为什么该结构值得合成”。对 PROTAC/TPD 行业而言,这篇预印本更像是一张方法地图:它显示机器学习已经进入设计流程,但真正的价值仍取决于高质量数据、实验闭环和跨学科执行能力。</