预印本速览：PepMLM 用蛋白语言模型生成靶向蛋白降解用肽结合体

导读：2023 年 10 月 5 日，题为 Target Sequence-Conditioned Generation of Therapeutic Peptide Binders via Span Masked Language Modeling 的 PepMLM 预印本发布。该工作将蛋白语言模型用于 de novo 线性肽结合体设计，重点不在于提出一个可直接进入临床开发的降解剂药物，而在于探索一种不依赖靶蛋白结构、仅以目标蛋白序列为条件生成候选肽结合体的方法。对于靶向蛋白降解领域而言，PepMLM 的特别之处在于，研究者进一步将模型生成肽与 E3 ubiquitin ligase domains 融合，在体外和细胞体系中尝试诱导内源性蛋白降解，为 bioTPD 与肽介导降解策略提供了一个值得关注的方法学样本。

研究背景

靶向蛋白降解技术的核心，是让目标蛋白被细胞内降解系统识别并清除。经典小分子 PROTAC 通常通过一端结合目标蛋白、一端结合 E3 连接酶来形成三元复合物；分子胶则通过小分子诱导或稳定蛋白间相互作用。与这些化学小分子路径相比，肽结合体具有另一类设计逻辑：它们可以利用更大的接触界面识别蛋白表面，并有机会覆盖传统小分子难以占据的浅表面、蛋白相互作用界面或构象区域。

但肽结合体设计也面临显著门槛。传统路径往往依赖展示筛选、结构解析、定点优化和多轮实验迭代；当靶蛋白结构缺失、构象复杂或难以制备时，结构驱动设计会受到限制。PepMLM 预印本所切入的问题，正是能否在不依赖靶蛋白三维结构的前提下，仅根据目标蛋白序列生成可测试的线性肽结合体候选物。

这一问题与靶向蛋白降解产业的早期研发逻辑存在交集。无论是 PROTAC、分子胶，还是利用生物大分子或肽段进行的 bioTPD 探索，真正限制项目推进的往往不仅是降解机制本身，还包括能否为目标蛋白快速找到可用结合模块。PepMLM 将目标序列条件化生成、蛋白语言模型和 span masking 结合起来，试图把“获得初始结合体”这一环节前移到计算生成阶段。

核心内容

PepMLM 被定义为 target sequence-conditioned 的 de novo linear peptide binder 生成器。其基本思路是：输入目标蛋白序列，由模型在目标序列条件下生成候选线性肽，而不是先要求研究者提供靶蛋白结构或已知结合位点。预印本显示，该方法基于 ESM-2 protein language model，并采用 span masking 策略，使模型围绕目标序列信息学习和生成可能的肽结合片段。

在应用设想上，PepMLM 的重要定位并不是替代所有实验筛选，而是为实验筛选提供更集中的候选集合。对于研发团队而言，如果模型能够在广泛靶点上生成一批可合成、可测试、具有一定结合可能性的线性肽，就可能减少完全盲筛的搜索空间，并为进一步亲和力优化、稳定性改造、细胞递送改造或降解模块拼接提供起点。

预印本还将这一方法延伸到靶向蛋白降解场景。研究者把模型生成的肽与 E3 ubiquitin ligase domains 融合，用于诱导内源性蛋白降解。这一设计不同于经典小分子 PROTAC 的双功能小分子形式，也不同于传统抗体偶联或受体介导的外源性降解路线；它更接近一种以肽结合体作为目标识别模块、以 E3 相关结构域作为功能模块的生物降解框架。

因此，这项工作对于 PROTACs.com 读者的价值，不在于把 PepMLM 视作一个成熟药物平台，而在于它把蛋白语言模型生成能力、肽结合体设计和蛋白降解概念验证放在同一条方法学链条中讨论。它提示靶向蛋白降解的“warhead”或结合模块来源，可能不再局限于小分子配体、天然配体或抗体片段，也可以由序列条件化模型提供新的初筛线索。

机制与证据

从机制上看，PepMLM 的关键是以目标蛋白序列为条件来生成肽序列。蛋白语言模型在大量蛋白序列中学习氨基酸组合、保守性、局部上下文和序列约束。span masking 则让模型处理一段被遮蔽的序列片段，并在给定上下文条件下恢复或生成可能序列。用于肽结合体生成时，这一策略被转化为：在目标序列信息存在的情况下，生成可能与目标蛋白发生相互作用的线性肽候选。

这种路径的优势在于不把结构信息作为必要前提。对许多靶点而言，实验结构不完整、不同构象并存、蛋白复合物状态复杂，都会增加结构驱动设计难度。PepMLM 并不声称跳过实验验证，而是把序列信息作为第一入口，让模型先给出一组候选肽，再由体外或细胞体系判断其结合和功能表现。

在靶向蛋白降解相关实验中，预印本描述了将模型肽与 E3 ubiquitin ligase domains 融合以诱导内源性蛋白降解的尝试。这里的逻辑可以理解为：模型生成肽承担目标蛋白识别功能，E3 相关结构域承担连接泛素化系统的功能，两者融合后，如果在细胞内形成合适的接近关系，就有机会促使目标蛋白被泛素化并进入降解路径。

这一证据形式更接近早期概念验证。它说明模型肽不仅可以作为孤立的结合候选物被评估，也可以嵌入降解系统，测试其是否足以把目标蛋白带入可降解状态。但这种证据并不等同于药物开发完成，也不能简单外推为所有目标蛋白均可被同一策略有效降解。对于降解剂研发而言，结合只是第一步，细胞可达性、表达形式、空间构型、E3 选择、泛素化位点可及性和降解动力学都可能决定最终结果。

为什么值得关注

第一，PepMLM 将“无结构依赖的肽结合体生成”放在了靶向蛋白降解可利用的工具箱中。过去，降解剂项目常常受限于是否存在可用小分子配体。即便某个蛋白具有明确生物学价值，如果缺少高质量结合物，项目也难以推进。以序列为输入生成肽结合体，提供了一种从蛋白序列直接进入候选结合模块发现的替代入口。

第二，该工作与 bioTPD 的思路存在天然连接。bioTPD 关注的是超越经典小分子 PROTAC 的生物学降解方式，包括利用肽、蛋白结构域、抗体片段或其他生物模块来重定向降解系统。PepMLM 生成的肽如果能够作为目标识别模块，就可能与不同 E3、适配蛋白或降解标签组合，形成多种工程化降解设计。

第三，该方法对“难成药靶点”的早期探索具有启发意义。许多转录因子、支架蛋白、蛋白相互作用节点或多结构域蛋白，缺少适合小分子结合的深口袋，却可能存在可被肽段识别的表面区域。线性肽虽然在稳定性和细胞递送方面存在挑战，但它们作为发现工具、靶点验证工具或降解概念验证模块，仍可能产生研发价值。

第四，PepMLM 体现了蛋白语言模型在药物发现中的一个重要方向：不只是预测蛋白性质，也不只是做结构辅助，而是直接参与治疗性结合体的生成。对于药物化学、化学生物学和转化医学团队来说，这意味着计算模型可能更早进入“可合成、可测试、可连接到功能体系”的设计环节。

边界与待验证问题

需要强调的是，PepMLM 在 2023 年 10 月 5 日的定位仍是预印本与方法学探索。预印本数据可以提出假设、展示模型能力和提供初步实验支持，但不应被解读为已经形成成熟药物、临床方案或可直接推广到所有靶点的通用解决方案。对于产业读者而言，最重要的是区分“生成候选结合体”与“获得可开发药物分子”之间的距离。

首先，线性肽本身存在药物化学和转化限制，包括血清稳定性、蛋白酶降解、细胞膜通透性、组织分布和免疫原性等问题。即便一个肽段在体外显示结合活性，也需要进一步优化才能进入更复杂的细胞和体内环境。若用于降解目的，还需要考虑肽与 E3 相关模块融合后的表达、定位、构象和功能完整性。

其次，降解并不由结合强度单独决定。成功降解往往需要目标蛋白、结合模块和 E3 系统在空间上形成有利构型，使目标蛋白暴露合适的泛素化位点，并形成足够有效的泛素转移过程。PepMLM 可以帮助产生目标识别肽，但生成肽是否能在融合体系中形成有效降解几何关系，仍需逐一实验验证。

再次，不依赖结构并不意味着结构信息不重要。对于候选肽优化、结合界面确认、选择性解释和构效关系分析，结构生物学、突变扫描、蛋白组学和细胞功能实验仍然不可替代。PepMLM 的价值更适合被理解为早期发现引擎，而不是完整替代从命中发现到先导优化的研发流程。

最后，靶点选择和应用场景也需要谨慎界定。对任意目标蛋白生成候选肽，并不等于任意目标都能被有效结合或降解。不同蛋白的结构暴露面、亚细胞定位、表达量、周转速度和复合物环境差异巨大。对于靶向蛋白降解项目而言，PepMLM 带来的启发在于扩展结合体来源，而不是取消靶点生物学和降解机制验证。

预印本速览：PepMLM 用蛋白语言模型生成靶向蛋白降解用肽结合体

研究背景

核心内容

机制与证据

为什么值得关注

边界与待验证问题

参考信息

相关阅读

公司新闻：Arvinas 完成 5500…

论文速览：重组嵌合蛋白诱导突变 KRAS…

综述速览：PROTAC 靶向蛋白降解技术…