预印本速览：LM-PROTAC 提出结构与性质双约束的 PROTAC 生成式设计流程

2024年12月12日，Jinsong Shao、Qineng Gong、Zeyu Yin等作者在 arXiv 发布题为“Language model driven: a PROTAC generation pipeline with dual constraints of structure and property”的预印本，提出一套面向 PROTAC 分子设计的 AI 辅助流程 LM-PROTAC。该工作将 PROTAC 生成问题放在一个更接近药物发现实际约束的框架中处理：不仅要求模型能够生成“像 PROTAC”的大分子结构，还要在片段亲和力、连接方式、理化性质和多维属性筛选之间形成闭环。

事件背景：PROTAC 设计仍受三元复合物建模限制

PROTAC 的核心挑战并不只是找到一个靶蛋白配体和一个 E3 连接酶配体，而是要在二者之间设计合适的 linker，使其在细胞内形成有利于泛素化的三元复合物。对于许多靶点而言，三元复合物的构象、动力学稳定性、细胞通透性、溶解性以及分子量带来的开发难度相互牵制。传统 CADD 工具在处理小分子结合时已经较为成熟，但面对 PROTAC 这类柔性高、构象空间大、结构-功能关系更复杂的分子，单纯依赖 docking 或局部结构优化往往不足以覆盖真实设计空间。

LM-PROTAC 的提出，正是试图把语言模型驱动的生成式设计与 PROTAC 的行业痛点连接起来。作者强调，三元复合物建模的不完善限制了计算工具在 PROTAC 研发中的使用，因此需要一种能够从片段、结构和属性多层面同时施加约束的生成流程，而不是仅仅生成一批形式上类似的双功能分子。

核心进展：以 DCT 实现结构与性质双约束

根据预印本摘要，LM-PROTAC 代表 language model driven Proteolysis Targeting Chimera，其核心是嵌入了一个基于 transformer 的生成模型，并以结构和性质的双重约束进行分子生成，作者将这一策略称为 DCT。流程首先采用分子片段化表示，将候选分子拆解为更适合语言模型处理的片段序列；随后利用语言模型驱动的蛋白-化合物亲和力模型，筛选与目标蛋白具有较高亲和力的候选片段；在生成阶段，再对片段的结构特征和理化性质施加约束，使生成结果更符合特定应用场景。

在生成后环节，作者并未直接将初步分子作为结果，而是引入多维属性预测模型进行两轮筛选。这样的设计体现出该流程的一个关键判断：PROTAC 生成不能只看单一打分函数，也不能只追求模型输出的化学有效性；更重要的是在较早阶段排除属性明显不合适、开发风险较高或不符合降解剂基本特征的分子。对于 PROTAC 而言，这一点尤其重要，因为分子量、极性表面积、柔性键数量、疏水性以及细胞内暴露水平都可能影响最终降解活性。

验证案例：以 Wnt3a 作为降解靶点示范

预印本以肿瘤相关关键靶点 Wnt3a 作为示例，展示 LM-PROTAC 生成能够抑制或降解 Wnt3a 的候选 PROTAC 分子。作者描述，生成流程最终得到一批面向疾病相关靶蛋白的 PROTAC 候选物，并进入体外实验验证。摘要中还提到，DCT 能够高效生成靶向并“hydrolyses” Wnt3a 的 PROTAC；从 TPD 语境看，更准确的行业理解应是通过 PROTAC 介导的蛋白降解路径降低目标蛋白水平，而非传统意义上的化学水解。

这一案例的意义在于，LM-PROTAC 不只是一个抽象生成模型，而是试图把“片段选择—分子生成—属性筛选—实验验证”串成完整流程。对于 PROTAC/TPD 研究者来说，这比单独报告一个生成模型的有效分子比例更有参考价值，因为真实项目推进中最耗时的环节往往是候选空间的收缩、合成优先级排序以及早期生物学验证。

技术与临床前意义

从技术角度看，LM-PROTAC 强调的双约束框架值得关注。生成式模型在小分子设计中常见问题是“能生成”不等于“可用”，尤其在 PROTAC 这种超出传统小分子规则的化学空间中，模型更容易给出结构上新颖但性质不可接受的分子。通过在生成过程中加入结构和理化性质约束，并在生成后使用多维属性预测再次过滤，LM-PROTAC 试图降低这类风险。

片段层面：以目标蛋白亲和力为起点，优先筛选可能贡献结合能力的片段。
生成层面：利用 transformer 模型在片段表示空间内生成候选 PROTAC 结构。
约束层面：同时考虑结构合理性与理化属性，避免只优化单一指标。
筛选层面：通过多维属性预测模型进行两轮筛选，提高进入实验验证分子的优先级。

对于临床前研发而言，这类流程的潜在价值在于缩短“从靶点假设到候选降解剂”的探索周期，并为缺乏成熟 PROTAC 先例的靶点提供初始化学起点。但这仍属于早期方法学探索，是否能够在不同靶点、不同 E3 连接酶、不同细胞背景中稳定复现，还需要更多实验数据支撑。

风险与后续观察点

作为预印本，LM-PROTAC 尚未经过同行评议，文中模型性能、数据集构建、训练偏差、候选分子可合成性以及生物学验证强度都需要谨慎解读。特别是 PROTAC 活性高度依赖细胞背景、靶蛋白表达、E3 表达、亚细胞定位和三元复合物稳定性，单一靶点案例很难直接证明平台具有广泛泛化能力。

后续值得观察的关键问题包括：第一，LM-PROTAC 是否能在 Wnt3a 之外的靶点上产生可重复的降解结果；第二，生成分子的合成路线、纯化难度和结构确认是否足以支撑规模化验证；第三，模型筛选出的分子是否真正改善了 DC50、Dmax、细胞通透性和选择性等 PROTAC 核心指标；第四，结构与性质双约束能否减少传统 PROTAC 优化中常见的高分子量、高疏水性和低暴露风险。

总体来看，LM-PROTAC 代表了 AI 进入 PROTAC 设计流程的一个更工程化尝试。它没有把生成式模型包装成单点答案，而是把语言模型、片段亲和力预测、性质约束、多轮筛选和体外验证放在同一流程中讨论。对于 TPD 行业而言，这类方法的价值不在于立即替代药物化学判断，而在于为早期探索提供更系统的候选生成和排序框架。

预印本速览：LM-PROTAC 提出结构与性质双约束的 PROTAC 生成式设计流程

事件背景：PROTAC 设计仍受三元复合物建模限制

核心进展：以 DCT 实现结构与性质双约束

验证案例：以 Wnt3a 作为降解靶点示范

技术与临床前意义

风险与后续观察点

相关阅读

论文速览：叶酸笼化 PROTAC 实现癌…

公司新闻：Kymera 公布 KT-62…

论文速览：细胞内自组装 PROTAC 实…