图神经网络生成模型用于 de novo PROTAC 分子设计

导读：2022-11-04，arXiv 发布预印本 De novo PROTAC design using graph-based deep generative models。该研究把图结构深度生成模型引入 PROTAC 分子从头设计，尝试让模型从空图出发生成 PROTAC-like 大分子，并通过 policy-gradient reinforcement learning 将生成方向推向更可能具备降解潜力的候选结构。对于长期受限于 POI 配体、E3 配体、连接子组合与大分子性质平衡的 PROTAC 设计而言，这篇预印本的意义不在于给出已验证药物，而在于展示一种面向靶向蛋白降解化学空间的自动化生成与筛选框架。

研究背景

PROTAC 通过同时结合目标蛋白与 E3 泛素连接酶，诱导三元复合物形成，并借助泛素-蛋白酶体系统促使目标蛋白被降解。与传统占据驱动的小分子抑制剂相比，PROTAC 的设计目标并不只是优化单一靶点结合强度，还涉及三元复合物几何构象、连接子长度与柔性、细胞通透性、溶解度、蛋白降解效率以及不同 E3 配体组合之间的系统平衡。

这种复杂性使 PROTAC 设计天然具有高维组合特征。一个候选分子通常由 POI 配体、E3 配体和连接子三部分构成，但简单拼接并不能保证产生有效降解剂。不同连接子可能改变空间取向，不同出口位点可能影响三元复合物稳定性，同一靶点在不同细胞背景下也可能呈现不同降解结果。随着公开 PROTAC 数据逐步积累，计算方法开始被用于性质预测、连接子枚举、相似性搜索和虚拟筛选，但真正面向 PROTAC-like 大分子的 de novo 生成仍处在探索阶段。

在这样的背景下，该预印本选择从图神经网络生成模型切入，将分子视为由原子与化学键构成的图结构，而不是仅从字符串表示或片段库枚举出发。研究的核心问题是：在公开数据相对稀疏、PROTAC 分子尺寸较大、结构空间高度复杂的条件下，深度生成模型是否能够提出化学有效、具有已知降解剂特征、并可按目标蛋白预测降解潜力进行偏向采样的分子。

核心内容

预印本展示了一个 graph-based generative model 用于生成 PROTAC-like 结构的计算流程。模型可以从空图出发逐步构建分子图，目标并不是在给定骨架上做少量取代基改造，而是尝试在较大的化学空间中提出新的候选结构。研究特别强调，模型可被引导生成 30-140 个重原子范围内的大分子，这一区间更贴近 PROTAC 分子的尺寸特点，也明显区别于许多传统小分子生成任务。

为了让生成过程不只是追求化学有效性，作者引入 policy-gradient reinforcement learning 对模型进行引导。强化学习中的奖励函数来自 boosted tree surrogate model，该代理模型用于预测候选分子针对不同 POI 的降解潜力。也就是说，生成模型先学习可产生合理分子图，再通过奖励信号偏向生成被代理模型认为更可能具有降解活性的结构。

研究报告称，即便训练数据来自稀疏公开数据，模型仍能生成含有已知降解剂子结构的分子。这一点对于 PROTAC 设计具有方法学含义：模型并非只是在任意扩大分子尺寸，而是在一定程度上捕捉了公开降解剂化学空间中的结构模式。预印本还显示，在微调后，模型对困难 POI 的预测活性可从 50% 提升至超过 80%，同时采样分子的化学有效性接近完美。

需要强调的是，这里的“活性”来自模型预测与代理模型打分，而不是实验降解数据。研究展示的是生成与排序框架能否在计算层面富集更高预测降解潜力的结构，而不是证明这些候选分子已经在细胞或动物实验中产生蛋白降解效果。

机制与证据

从方法结构看，该工作包含三层关键逻辑。第一层是图生成。分子被表示为图，模型通过逐步添加原子和键来构建候选分子，这使其能够直接处理化学结构拓扑，并在生成过程中维持价态与连接规则相关约束。对于 PROTAC 这类尺寸较大、连接方式多变的分子，图表示有助于避免将设计问题过度简化为线性字符串。

第二层是强化学习引导。单纯的生成模型可能优先学习训练集中的常见结构分布，但不一定朝向目标蛋白降解潜力更高的区域。研究采用 policy-gradient reinforcement learning，将代理模型的预测结果转化为奖励，让生成策略在迭代中偏向更高奖励结构。这种设置类似于把“生成合理分子”和“生成更可能有用的分子”两个目标合并到同一优化流程中。

第三层是 boosted tree surrogate model。由于公开 PROTAC 数据稀疏，直接训练端到端实验活性模型存在困难。作者使用 boosted tree 代理模型预测不同 POI 的降解潜力，并将其嵌入奖励函数。该代理模型在流程中相当于一个快速打分器，用于替代高成本实验评价，但其可靠性取决于训练数据覆盖范围、特征表达方式以及不同 POI 间可迁移性。

预印本给出的证据主要包括三个方面：模型能从空图生成 PROTAC-like 大分子；生成分子可包含已知降解剂中出现过的子结构；经过微调后，针对困难 POI 的预测活性比例明显提升，同时保持接近完美的化学有效性。对于计算药物设计读者而言，这些结果说明模型并非只会生成形式上较大的分子，而能够在奖励函数作用下改变采样分布。

为什么值得关注

这项研究值得关注，首先因为它把 PROTAC 设计问题进一步推向生成式模型框架。PROTAC 的挑战不只在于寻找两个结合端，还在于探索连接子与空间构型。传统枚举方法可解释性强，但组合数量增长迅速；生成模型则有机会在更大化学空间中提出非直观结构，作为药物化学团队进一步分析、过滤和改造的起点。

其次，研究把 POI 相关预测嵌入生成流程，而不是只生成一批大分子再统一筛选。对于靶向蛋白降解来说，不同 POI 的可降解性、可结合位点、蛋白复合物形成偏好并不相同。通过代理模型对不同 POI 进行奖励，可以让生成策略具有一定靶点条件化特征，尽管这种能力仍依赖预测模型本身的准确性。

第三，该工作触及了 PROTAC 领域公开数据稀疏这一现实问题。许多深度学习药物设计方法依赖大规模、标准化、可比较的数据集，而 PROTAC 数据往往来自不同实验体系、不同细胞系、不同读数和不同报告标准。预印本在稀疏公开数据条件下仍观察到模型可学习已知降解剂子结构，这提示计算生成方法可能在早期假设生成、结构启发和虚拟库构建中发挥作用。

对于研发与投融资读者而言，这类方法不应被理解为替代药物化学，而更像是扩展搜索半径的工具。它可以帮助团队更快提出结构假设、优先考虑某些 PROTAC-like 化学空间，或为连接子和整体分子架构探索提供备选方向。但真正进入项目决策仍需要合成可行性、体外结合、细胞降解、选择性、安全性和药代性质等多维证据共同支持。

边界与待验证问题

这篇文章是预印本与计算方法探索，不能被写作或解读为已经获得湿实验验证。文中关于预测活性提升、降解潜力富集和化学有效性的结论均建立在模型评价与代理预测之上。对 PROTAC 而言，预测结构是否真正形成有利三元复合物、是否具备细胞可及性、是否实现目标蛋白降解、是否产生选择性药理效应，都需要实验体系进一步检验。

待验证问题首先来自数据。公开 PROTAC 数据规模有限，且不同研究对 DC50、Dmax、时间点、细胞系、蛋白检测方法和阴性样本定义并不完全一致。代理模型若主要学习到训练集中的结构相似性或报告偏差，可能高估某些结构的降解潜力。特别是在困难 POI 上，预测比例提升并不必然意味着实验命中率同步提高。

其次是合成与成药性边界。模型生成 30-140 个重原子的大分子，在尺寸上覆盖 PROTAC-like 空间，但大分子化学有效并不等于可合成、可纯化、可稳定给药或可进入细胞。连接子过长、极性过高、构象过度柔性、代谢稳定性不足等问题，均可能让预测得分较高的分子在真实项目中难以推进。

第三是机制解释。PROTAC 的降解效果通常与二元结合、三元复合物协同性、蛋白表面拓扑、E3 表达背景和细胞内暴露共同相关。若代理模型主要基于二维结构特征进行预测，则可能难以充分表达三维构象与蛋白-蛋白界面信息。未来在同一历史边界内可以谨慎期待的是，计算生成方法与结构生物学、分子动力学、实验降解数据之间形成更紧密的闭环，但该预印本本身并未给出实验药效证明。

因此，对这项工作的合适定位应是“PROTAC 生成式设计工具链的早期方法学探索”。它提供了一个清晰问题：如何在稀疏数据和复杂大分子空间中，让模型生成更接近降解剂化学逻辑的候选结构。答案仍需要药物化学、化学生物学和实验药理共同完成。

参考信息

arXiv: De novo PROTAC design using graph-based deep generative models

图神经网络生成模型用于 de novo PROTAC 分子设计

研究背景

核心内容

机制与证据

为什么值得关注

边界与待验证问题

参考信息

相关阅读

C4 Therapeutics宣布转型战…

C4 Therapeutics任命Ada…

论文速览：KEAP1 被开发为新的 PR…