导读:2023 年 10 月 5 日,题为 Target Sequence-Conditioned Generation of Therapeutic Peptide Binders via Span Masked Language Modeling 的 PepMLM 预印本发布。该工作将蛋白语言模型用于 de novo 线性肽结合体设计,重点不在于提出一个可直接进入临床开发的降解剂药物,而在于探索一种不依赖靶蛋白结构、仅以目标蛋白序列为条件生成候选肽结合体的方法。对于靶向蛋白降解领域而言,PepMLM 的特别之处在于,研究者进一步将模型生成肽与 E3 ubiquitin ligase domains 融合,在体外和细胞体系中尝试诱导内源性蛋白降解,为 bioTPD 与肽介导降解策略提供了一个值得关注的方法学样本。
研究背景
靶向蛋白降解技术的核心,是让目标蛋白被细胞内降解系统识别并清除。经典小分子 PROTAC 通常通过一端结合目标蛋白、一端结合 E3 连接酶来形成三元复合物;分子胶则通过小分子诱导或稳定蛋白间相互作用。与这些化学小分子路径相比,肽结合体具有另一类设计逻辑:它们可以利用更大的接触界面识别蛋白表面,并有机会覆盖传统小分子难以占据的浅表面、蛋白相互作用界面或构象区域。
但肽结合体设计也面临显著门槛。传统路径往往依赖展示筛选、结构解析、定点优化和多轮实验迭代;当靶蛋白结构缺失、构象复杂或难以制备时,结构驱动设计会受到限制。PepMLM 预印本所切入的问题,正是能否在不依赖靶蛋白三维结构的前提下,仅根据目标蛋白序列生成可测试的线性肽结合体候选物。
这一问题与靶向蛋白降解产业的早期研发逻辑存在交集。无论是 PROTAC、分子胶,还是利用生物大分子或肽段进行的 bioTPD 探索,真正限制项目推进的往往不仅是降解机制本身,还包括能否为目标蛋白快速找到可用结合模块。PepMLM 将目标序列条件化生成、蛋白语言模型和 span masking 结合起来,试图把“获得初始结合体”这一环节前移到计算生成阶段。
核心内容
PepMLM 被定义为 target sequence-conditioned 的 de novo linear peptide binder 生成器。其基本思路是:输入目标蛋白序列,由模型在目标序列条件下生成候选线性肽,而不是先要求研究者提供靶蛋白结构或已知结合位点。预印本显示,该方法基于 ESM-2 protein language model,并采用 span masking 策略,使模型围绕目标序列信息学习和生成可能的肽结合片段。
在应用设想上,PepMLM 的重要定位并不是替代所有实验筛选,而是为实验筛选提供更集中的候选集合。对于研发团队而言,如果模型能够在广泛靶点上生成一批可合成、可测试、具有一定结合可能性的线性肽,就可能减少完全盲筛的搜索空间,并为进一步亲和力优化、稳定性改造、细胞递送改造或降解模块拼接提供起点。
预印本还将这一方法延伸到靶向蛋白降解场景。研究者把模型生成的肽与 E3 ubiquitin ligase domains 融合,用于诱导内源性蛋白降解。这一设计不同于经典小分子 PROTAC 的双功能小分子形式,也不同于传统抗体偶联或受体介导的外源性降解路线;它更接近一种以肽结合体作为目标识别模块、以 E3 相关结构域作为功能模块的生物降解框架。
因此,这项工作对于 PROTACs.com 读者的价值,不在于把 PepMLM 视作一个成熟药物平台,而在于它把蛋白语言模型生成能力、肽结合体设计和蛋白降解概念验证放在同一条方法学链条中讨论。它提示靶向蛋白降解的“warhead”或结合模块来源,可能不再局限于小分子配体、天然配体或抗体片段,也可以由序列条件化模型提供新的初筛线索。
机制与证据
从机制上看,PepMLM 的关键是以目标蛋白序列为条件来生成肽序列。蛋白语言模型在大量蛋白序列中学习氨基酸组合、保守性、局部上下文和序列约束。span masking 则让模型处理一段被遮蔽的序列片段,并在给定上下文条件下恢复或生成可能序列。用于肽结合体生成时,这一策略被转化为:在目标序列信息存在的情况下,生成可能与目标蛋白发生相互作用的线性肽候选。
这种路径的优势在于不把结构信息作为必要前提。对许多靶点而言,实验结构不完整、不同构象并存、蛋白复合物状态复杂,都会增加结构驱动设计难度。PepMLM 并不声称跳过实验验证,而是把序列信息作为第一入口,让模型先给出一组候选肽,再由体外或细胞体系判断其结合和功能表现。
在靶向蛋白降解相关实验中,预印本描述了将模型肽与 E3 ubiquitin ligase domains 融合以诱导内源性蛋白降解的尝试。这里的逻辑可以理解为:模型生成肽承担目标蛋白识别功能,E3 相关结构域承担连接泛素化系统的功能,两者融合后,如果在细胞内形成合适的接近关系,就有机会促使目标蛋白被泛素化并进入降解路径。
这一证据形式更接近早期概念验证。它说明模型肽不仅可以作为孤立的结合候选物被评估,也可以嵌入降解系统,测试其是否足以把目标蛋白带入可降解状态。但这种证据并不等同于药物开发完成,也不能简单外推为所有目标蛋白均可被同一策略有效降解。对于降解剂研发而言,结合只是第一步,细胞可达性、表达形式、空间构型、E3 选择、泛素化位点可及性和降解动力学都可能决定最终结果。
为什么值得关注
第一,PepMLM 将“无结构依赖的肽结合体生成”放在了靶向蛋白降解可利用的工具箱中。过去,降解剂项目常常受限于是否存在可用小分子配体。即便某个蛋白具有明确生物学价值,如果缺少高质量结合物,项目也难以推进。以序列为输入生成肽结合体,提供了一种从蛋白序列直接进入候选结合模块发现的替代入口。
第二,该工作与 bioTPD 的思路存在天然连接。bioTPD 关注的是超越经典小分子 PROTAC 的生物学降解方式,包括利用肽、蛋白结构域、抗体片段或其他生物模块来重定向降解系统。PepMLM 生成的肽如果能够作为目标识别模块,就可能与不同 E3、适配蛋白或降解标签组合,形成多种工程化降解设计。
第三,该方法对“难成药靶点”的早期探索具有启发意义。许多转录因子、支架蛋白、蛋白相互作用节点或多结构域蛋白,缺少适合小分子结合的深口袋,却可能存在可被肽段识别的表面区域。线性肽虽然在稳定性和细胞递送方面存在挑战,但它们作为发现工具、靶点验证工具或降解概念验证模块,仍可能产生研发价值。
第四,PepMLM 体现了蛋白语言模型在药物发现中的一个重要方向:不只是预测蛋白性质,也不只是做结构辅助,而是直接参与治疗性结合体的生成。对于药物化学、化学生物学和转化医学团队来说,这意味着计算模型可能更早进入“可合成、可测试、可连接到功能体系”的设计环节。
边界与待验证问题
需要强调的是,PepMLM 在 2023 年 10 月 5 日的定位仍是预印本与方法学探索。预印本数据可以提出假设、展示模型能力和提供初步实验支持,但不应被解读为已经形成成熟药物、临床方案或可直接推广到所有靶点的通用解决方案。对于产业读者而言,最重要的是区分“生成候选结合体”与“获得可开发药物分子”之间的距离。
首先,线性肽本身存在药物化学和转化限制,包括血清稳定性、蛋白酶降解、细胞膜通透性、组织分布和免疫原性等问题。即便一个肽段在体外显示结合活性,也需要进一步优化才能进入更复杂的细胞和体内环境。若用于降解目的,还需要考虑肽与 E3 相关模块融合后的表达、定位、构象和功能完整性。
其次,降解并不由结合强度单独决定。成功降解往往需要目标蛋白、结合模块和 E3 系统在空间上形成有利构型,使目标蛋白暴露合适的泛素化位点,并形成足够有效的泛素转移过程。PepMLM 可以帮助产生目标识别肽,但生成肽是否能在融合体系中形成有效降解几何关系,仍需逐一实验验证。
再次,不依赖结构并不意味着结构信息不重要。对于候选肽优化、结合界面确认、选择性解释和构效关系分析,结构生物学、突变扫描、蛋白组学和细胞功能实验仍然不可替代。PepMLM 的价值更适合被理解为早期发现引擎,而不是完整替代从命中发现到先导优化的研发流程。
最后,靶点选择和应用场景也需要谨慎界定。对任意目标蛋白生成候选肽,并不等于任意目标都能被有效结合或降解。不同蛋白的结构暴露面、亚细胞定位、表达量、周转速度和复合物环境差异巨大。对于靶向蛋白降解项目而言,PepMLM 带来的启发在于扩展结合体来源,而不是取消靶点生物学和降解机制验证。