预印本速览：机器学习模型用于预测 PROTAC 降解活性，开放数据驱动降解剂设计进入新阶段

2024年6月4日，题为 Modeling PROTAC Degradation Activity with Machine Learning 的预印本在 arXiv 发布。该研究聚焦一个日益突出的行业问题：随着 PROTAC 分子数量、靶点类型和 E3 连接酶组合快速增加，单纯依靠经验式 linker 优化和逐轮细胞实验，已经难以支撑更大规模、更高效率的降解剂发现。作者尝试通过开放数据整理和机器学习模型，将 PROTAC 的化学结构、靶蛋白信息、E3 类型、细胞背景与降解活性读数整合到同一预测框架中，为早期设计提供可复现的计算筛选工具。

事件背景：PROTAC 设计正在从结构经验走向数据驱动

PROTAC 的药效并不只由靶蛋白配体和 E3 配体的亲和力决定。三元复合物形成、空间构象、linker 长度与柔性、蛋白表面赖氨酸可及性、细胞通透性、外排、亚细胞定位以及不同细胞系中的蛋白表达，都会影响最终的 DC50、Dmax 和降解持续时间。这使得 PROTAC 的构效关系比传统小分子抑制剂更复杂，也让“能结合”与“能降解”之间存在明显断层。

在过去几年，PROTAC-DB、PROTACpedia 等公共数据库逐步积累了结构和活性信息，DeepPROTACs 等模型也开始验证深度学习在降解预测中的可行性。但公开数据仍然分散，实验条件不统一，阳性与阴性样本定义存在差异。此次预印本的价值并不只是给出一个模型分数，而是把数据整理、特征编码、泛化评估和开源实现放在同一工作流中讨论，显示该领域正在从“单点模型展示”转向“可复用基准与工具建设”。

核心进展：同时纳入 pDC50、Dmax、E3、靶蛋白序列和细胞类型

根据预印本摘要，研究团队建立了一个经过整理的开放 PROTAC 数据集，包含 pDC50、Dmax、E3 连接酶类型、目标蛋白氨基酸序列以及实验细胞类型等信息。相较只使用分子指纹或单一二分类标签的做法，这一设计更贴近真实降解实验：同一 PROTAC 在不同靶点、不同 E3 或不同细胞系中可能呈现不同结果，模型必须捕捉这种上下文依赖性。

模型架构方面，作者使用预训练机器学习模型产生的嵌入表示，尤其用于编码蛋白序列和细胞类型信息。换言之，模型并不只把 PROTAC 看作一个孤立的 SMILES 字符串，而是把“分子—靶蛋白—E3—细胞环境”作为一个组合输入。研究还设置了三个针对性评估场景，用于考察数据质量以及模型在新 PROTAC 和新靶点上的泛化能力。

数据层面：整理开放来源中的降解读数，并保留 pDC50、Dmax、E3 类型、POI 序列和细胞系信息。
模型层面：利用预训练嵌入表达蛋白和细胞类型上下文，降低完全从小样本中学习复杂生物特征的压力。
评估层面：采用多数投票方式组合三个模型，并分别测试对已知分布、新 PROTAC 和新靶点的预测能力。

在报告结果中，多数投票模型在最佳测试场景下达到 80.8% 准确率和 0.865 ROC AUC；当任务转向新靶点泛化时，测试准确率降至 62.3%，ROC AUC 为 0.604。这个落差本身具有提示意义：在已有化学和靶点空间附近，模型已能提供一定排序价值；但面对新 POI，数据稀疏和生物机制差异仍然是主要限制。

技术意义：开放基准可能比单个模型更重要

对于 PROTAC/TPD 研发团队而言，该工作的直接应用场景不是替代细胞降解实验，而是在合成前帮助缩小候选分子范围。尤其在一个项目已经明确靶点配体和 E3 配体、需要探索 linker 长度、连接位点和细胞模型时，机器学习模型可以作为优先级排序工具，与分子对接、三元复合物建模、物化性质过滤和 ADME 评估配合使用。

更重要的是，作者强调开源实现和可复现性。PROTAC 机器学习过去面临的一个问题是，不同论文采用的数据清洗规则、活性标签阈值、训练/测试拆分方式并不一致，导致模型间难以直接比较。如果开放数据整理流程和评估任务能够被社区采用，行业将更容易判断某一模型究竟是在记住相似结构，还是具备对新化学骨架、新靶点或新 E3 组合的外推能力。

从技术路线看，将细胞类型作为输入同样值得关注。降解剂的有效性高度依赖细胞背景，包括目标蛋白表达、E3 表达、蛋白酶体活性和通路反馈。传统 QSAR 模型往往把细胞背景视为噪音，而 TPD 模型若要真正服务转化研究，就必须逐步把实验系统差异纳入建模框架。

风险与后续观察点

需要保持克制的是，当前结果仍属于预印本阶段，且公开 PROTAC 数据的规模和一致性仍有限。Dmax、DC50、处理时间和检测方法在不同文献之间差异明显，阴性样本也可能受到剂量范围、时间点或检测灵敏度影响。若训练集标签本身存在偏差，模型输出就不应被解读为确定性的降解成功概率。

另一个风险是新靶点泛化能力仍然偏弱。对于真正的新靶点项目，模型可能更适合作为“提醒哪些设计值得先做”的辅助工具，而不是作为终止项目或替代 SAR 实验的依据。行业后续可重点观察三类进展：第一，是否有更多标准化、带阴性结果的公开降解数据进入训练集；第二，是否能把三元复合物结构、构象采样和蛋白表面特征与序列嵌入结合；第三，模型预测是否能在前瞻性实验中持续改善命中率和合成效率。

总体来看，这篇预印本传递的信号清晰：PROTAC 设计正在进入开放数据、预训练表征和可复现基准共同驱动的新阶段。机器学习尚不能解决降解剂发现中的全部复杂性，但它正在成为 TPD 项目早期决策中越来越重要的一层计算过滤器。

预印本速览：机器学习模型用于预测 PROTAC 降解活性，开放数据驱动降解剂设计进入新阶段

事件背景：PROTAC 设计正在从结构经验走向数据驱动

核心进展：同时纳入 pDC50、Dmax、E3、靶蛋白序列和细胞类型

技术意义：开放基准可能比单个模型更重要

风险与后续观察点

相关阅读

公司新闻：Gilead 与 Nurix …

公司新闻：Kymera KT-413 获…

论文速览：LYTAC 实现细胞外蛋白靶向…