2024年12月12日,Jinsong Shao、Qineng Gong、Zeyu Yin等作者在 arXiv 发布题为“Language model driven: a PROTAC generation pipeline with dual constraints of structure and property”的预印本,提出一套面向 PROTAC 分子设计的 AI 辅助流程 LM-PROTAC。该工作将 PROTAC 生成问题放在一个更接近药物发现实际约束的框架中处理:不仅要求模型能够生成“像 PROTAC”的大分子结构,还要在片段亲和力、连接方式、理化性质和多维属性筛选之间形成闭环。
事件背景:PROTAC 设计仍受三元复合物建模限制
PROTAC 的核心挑战并不只是找到一个靶蛋白配体和一个 E3 连接酶配体,而是要在二者之间设计合适的 linker,使其在细胞内形成有利于泛素化的三元复合物。对于许多靶点而言,三元复合物的构象、动力学稳定性、细胞通透性、溶解性以及分子量带来的开发难度相互牵制。传统 CADD 工具在处理小分子结合时已经较为成熟,但面对 PROTAC 这类柔性高、构象空间大、结构-功能关系更复杂的分子,单纯依赖 docking 或局部结构优化往往不足以覆盖真实设计空间。
LM-PROTAC 的提出,正是试图把语言模型驱动的生成式设计与 PROTAC 的行业痛点连接起来。作者强调,三元复合物建模的不完善限制了计算工具在 PROTAC 研发中的使用,因此需要一种能够从片段、结构和属性多层面同时施加约束的生成流程,而不是仅仅生成一批形式上类似的双功能分子。
核心进展:以 DCT 实现结构与性质双约束
根据预印本摘要,LM-PROTAC 代表 language model driven Proteolysis Targeting Chimera,其核心是嵌入了一个基于 transformer 的生成模型,并以结构和性质的双重约束进行分子生成,作者将这一策略称为 DCT。流程首先采用分子片段化表示,将候选分子拆解为更适合语言模型处理的片段序列;随后利用语言模型驱动的蛋白-化合物亲和力模型,筛选与目标蛋白具有较高亲和力的候选片段;在生成阶段,再对片段的结构特征和理化性质施加约束,使生成结果更符合特定应用场景。
在生成后环节,作者并未直接将初步分子作为结果,而是引入多维属性预测模型进行两轮筛选。这样的设计体现出该流程的一个关键判断:PROTAC 生成不能只看单一打分函数,也不能只追求模型输出的化学有效性;更重要的是在较早阶段排除属性明显不合适、开发风险较高或不符合降解剂基本特征的分子。对于 PROTAC 而言,这一点尤其重要,因为分子量、极性表面积、柔性键数量、疏水性以及细胞内暴露水平都可能影响最终降解活性。
验证案例:以 Wnt3a 作为降解靶点示范
预印本以肿瘤相关关键靶点 Wnt3a 作为示例,展示 LM-PROTAC 生成能够抑制或降解 Wnt3a 的候选 PROTAC 分子。作者描述,生成流程最终得到一批面向疾病相关靶蛋白的 PROTAC 候选物,并进入体外实验验证。摘要中还提到,DCT 能够高效生成靶向并“hydrolyses” Wnt3a 的 PROTAC;从 TPD 语境看,更准确的行业理解应是通过 PROTAC 介导的蛋白降解路径降低目标蛋白水平,而非传统意义上的化学水解。
这一案例的意义在于,LM-PROTAC 不只是一个抽象生成模型,而是试图把“片段选择—分子生成—属性筛选—实验验证”串成完整流程。对于 PROTAC/TPD 研究者来说,这比单独报告一个生成模型的有效分子比例更有参考价值,因为真实项目推进中最耗时的环节往往是候选空间的收缩、合成优先级排序以及早期生物学验证。
技术与临床前意义
从技术角度看,LM-PROTAC 强调的双约束框架值得关注。生成式模型在小分子设计中常见问题是“能生成”不等于“可用”,尤其在 PROTAC 这种超出传统小分子规则的化学空间中,模型更容易给出结构上新颖但性质不可接受的分子。通过在生成过程中加入结构和理化性质约束,并在生成后使用多维属性预测再次过滤,LM-PROTAC 试图降低这类风险。
- 片段层面:以目标蛋白亲和力为起点,优先筛选可能贡献结合能力的片段。
- 生成层面:利用 transformer 模型在片段表示空间内生成候选 PROTAC 结构。
- 约束层面:同时考虑结构合理性与理化属性,避免只优化单一指标。
- 筛选层面:通过多维属性预测模型进行两轮筛选,提高进入实验验证分子的优先级。
对于临床前研发而言,这类流程的潜在价值在于缩短“从靶点假设到候选降解剂”的探索周期,并为缺乏成熟 PROTAC 先例的靶点提供初始化学起点。但这仍属于早期方法学探索,是否能够在不同靶点、不同 E3 连接酶、不同细胞背景中稳定复现,还需要更多实验数据支撑。
风险与后续观察点
作为预印本,LM-PROTAC 尚未经过同行评议,文中模型性能、数据集构建、训练偏差、候选分子可合成性以及生物学验证强度都需要谨慎解读。特别是 PROTAC 活性高度依赖细胞背景、靶蛋白表达、E3 表达、亚细胞定位和三元复合物稳定性,单一靶点案例很难直接证明平台具有广泛泛化能力。
后续值得观察的关键问题包括:第一,LM-PROTAC 是否能在 Wnt3a 之外的靶点上产生可重复的降解结果;第二,生成分子的合成路线、纯化难度和结构确认是否足以支撑规模化验证;第三,模型筛选出的分子是否真正改善了 DC50、Dmax、细胞通透性和选择性等 PROTAC 核心指标;第四,结构与性质双约束能否减少传统 PROTAC 优化中常见的高分子量、高疏水性和低暴露风险。
总体来看,LM-PROTAC 代表了 AI 进入 PROTAC 设计流程的一个更工程化尝试。它没有把生成式模型包装成单点答案,而是把语言模型、片段亲和力预测、性质约束、多轮筛选和体外验证放在同一流程中讨论。对于 TPD 行业而言,这类方法的价值不在于立即替代药物化学判断,而在于为早期探索提供更系统的候选生成和排序框架。