2024年6月4日,题为 Modeling PROTAC Degradation Activity with Machine Learning 的预印本在 arXiv 发布。该研究聚焦一个日益突出的行业问题:随着 PROTAC 分子数量、靶点类型和 E3 连接酶组合快速增加,单纯依靠经验式 linker 优化和逐轮细胞实验,已经难以支撑更大规模、更高效率的降解剂发现。作者尝试通过开放数据整理和机器学习模型,将 PROTAC 的化学结构、靶蛋白信息、E3 类型、细胞背景与降解活性读数整合到同一预测框架中,为早期设计提供可复现的计算筛选工具。

事件背景:PROTAC 设计正在从结构经验走向数据驱动

PROTAC 的药效并不只由靶蛋白配体和 E3 配体的亲和力决定。三元复合物形成、空间构象、linker 长度与柔性、蛋白表面赖氨酸可及性、细胞通透性、外排、亚细胞定位以及不同细胞系中的蛋白表达,都会影响最终的 DC50、Dmax 和降解持续时间。这使得 PROTAC 的构效关系比传统小分子抑制剂更复杂,也让“能结合”与“能降解”之间存在明显断层。

在过去几年,PROTAC-DB、PROTACpedia 等公共数据库逐步积累了结构和活性信息,DeepPROTACs 等模型也开始验证深度学习在降解预测中的可行性。但公开数据仍然分散,实验条件不统一,阳性与阴性样本定义存在差异。此次预印本的价值并不只是给出一个模型分数,而是把数据整理、特征编码、泛化评估和开源实现放在同一工作流中讨论,显示该领域正在从“单点模型展示”转向“可复用基准与工具建设”。

核心进展:同时纳入 pDC50、Dmax、E3、靶蛋白序列和细胞类型

根据预印本摘要,研究团队建立了一个经过整理的开放 PROTAC 数据集,包含 pDC50、Dmax、E3 连接酶类型、目标蛋白氨基酸序列以及实验细胞类型等信息。相较只使用分子指纹或单一二分类标签的做法,这一设计更贴近真实降解实验:同一 PROTAC 在不同靶点、不同 E3 或不同细胞系中可能呈现不同结果,模型必须捕捉这种上下文依赖性。

模型架构方面,作者使用预训练机器学习模型产生的嵌入表示,尤其用于编码蛋白序列和细胞类型信息。换言之,模型并不只把 PROTAC 看作一个孤立的 SMILES 字符串,而是把“分子—靶蛋白—E3—细胞环境”作为一个组合输入。研究还设置了三个针对性评估场景,用于考察数据质量以及模型在新 PROTAC 和新靶点上的泛化能力。

  • 数据层面:整理开放来源中的降解读数,并保留 pDC50、Dmax、E3 类型、POI 序列和细胞系信息。
  • 模型层面:利用预训练嵌入表达蛋白和细胞类型上下文,降低完全从小样本中学习复杂生物特征的压力。
  • 评估层面:采用多数投票方式组合三个模型,并分别测试对已知分布、新 PROTAC 和新靶点的预测能力。

在报告结果中,多数投票模型在最佳测试场景下达到 80.8% 准确率和 0.865 ROC AUC;当任务转向新靶点泛化时,测试准确率降至 62.3%,ROC AUC 为 0.604。这个落差本身具有提示意义:在已有化学和靶点空间附近,模型已能提供一定排序价值;但面对新 POI,数据稀疏和生物机制差异仍然是主要限制。

技术意义:开放基准可能比单个模型更重要

对于 PROTAC/TPD 研发团队而言,该工作的直接应用场景不是替代细胞降解实验,而是在合成前帮助缩小候选分子范围。尤其在一个项目已经明确靶点配体和 E3 配体、需要探索 linker 长度、连接位点和细胞模型时,机器学习模型可以作为优先级排序工具,与分子对接、三元复合物建模、物化性质过滤和 ADME 评估配合使用。

更重要的是,作者强调开源实现和可复现性。PROTAC 机器学习过去面临的一个问题是,不同论文采用的数据清洗规则、活性标签阈值、训练/测试拆分方式并不一致,导致模型间难以直接比较。如果开放数据整理流程和评估任务能够被社区采用,行业将更容易判断某一模型究竟是在记住相似结构,还是具备对新化学骨架、新靶点或新 E3 组合的外推能力。

从技术路线看,将细胞类型作为输入同样值得关注。降解剂的有效性高度依赖细胞背景,包括目标蛋白表达、E3 表达、蛋白酶体活性和通路反馈。传统 QSAR 模型往往把细胞背景视为噪音,而 TPD 模型若要真正服务转化研究,就必须逐步把实验系统差异纳入建模框架。

风险与后续观察点

需要保持克制的是,当前结果仍属于预印本阶段,且公开 PROTAC 数据的规模和一致性仍有限。Dmax、DC50、处理时间和检测方法在不同文献之间差异明显,阴性样本也可能受到剂量范围、时间点或检测灵敏度影响。若训练集标签本身存在偏差,模型输出就不应被解读为确定性的降解成功概率。

另一个风险是新靶点泛化能力仍然偏弱。对于真正的新靶点项目,模型可能更适合作为“提醒哪些设计值得先做”的辅助工具,而不是作为终止项目或替代 SAR 实验的依据。行业后续可重点观察三类进展:第一,是否有更多标准化、带阴性结果的公开降解数据进入训练集;第二,是否能把三元复合物结构、构象采样和蛋白表面特征与序列嵌入结合;第三,模型预测是否能在前瞻性实验中持续改善命中率和合成效率。

总体来看,这篇预印本传递的信号清晰:PROTAC 设计正在进入开放数据、预训练表征和可复现基准共同驱动的新阶段。机器学习尚不能解决降解剂发现中的全部复杂性,但它正在成为 TPD 项目早期决策中越来越重要的一层计算过滤器。