论文速览：PROTAC-Splitter机器学习框架实现PROTAC分子子结构自动识别

Journal of Cheminformatics 发布题为 PROTAC-Splitter: a machine learning framework for automated identification of PROTAC substructures 的论文版本。该工作围绕 PROTAC 分子结构拆分中的一个基础但长期存在的问题展开：如何在大量异双功能降解剂结构中，自动、稳定地标注 E3 ligase ligand、linker 与靶蛋白 warhead 等关键模块。

事件背景：PROTAC 数据结构化的瓶颈

随着 PROTAC 与其他靶向蛋白降解技术进入更系统的药物化学优化阶段，公开文献、专利与数据库中积累的分子数量持续增加。对这些结构进行子结构拆分，是开展构效关系归纳、linker 分布分析、E3 配体使用频率统计、靶点配体复用研究以及机器学习建模的重要前处理步骤。

传统做法通常依赖人工整理或固定 SMARTS 规则。人工方式可解释性强，但效率有限，且容易受到标注者经验、命名习惯和数据来源差异的影响；规则方式便于批处理，但在遇到复杂连接方式、非典型 linker、修饰后的 E3 配体或结构边界不清晰的分子时，覆盖能力容易下降。PROTAC-Splitter 正是在这一背景下提出，目标是用机器学习框架提升 PROTAC 子结构识别的自动化程度。

核心进展：自动标注三类关键模块

根据论文信息，PROTAC-Splitter 的核心功能是对 PROTAC 分子中的 E3 配体、linker 和靶蛋白 warhead 进行自动识别与注释。与仅依赖固定规则的流程相比，机器学习框架的意义在于，它尝试从已有结构样本中学习模块边界和结构模式，而不是完全依靠研究者预先写出的子结构匹配规则。

这类设计对于 PROTAC 分子尤其重要。PROTAC 并不是简单的“两个配体加一条链”，实际分子中可能存在环化 linker、刚性连接单元、PEG 片段、芳香连接片段、酰胺或三唑等多种连接方式；E3 配体和 warhead 也可能经过改造，用于调节溶解度、细胞通透性、代谢稳定性或三元复合物形成能力。若结构拆分边界识别不稳定，后续关于 linker 长度、极性、可旋转键数量和模块复用关系的分析都会受到影响。

E3 配体识别：有助于统计不同 E3 ligase 招募模块在数据集中的使用情况，并支持围绕 CRBN、VHL 等常见招募体系的结构归纳。
linker 识别：有助于分析连接片段的长度、柔性、极性和拓扑特征，为后续 linker 优化提供数据基础。
warhead 识别：有助于追踪靶蛋白结合端的结构来源，支持同一靶点或同类靶点之间的配体迁移分析。

技术意义：从“分子集合”走向“模块化数据”

对于 TPD 领域而言，PROTAC-Splitter 的价值不只在于减少人工标注工作量，更在于推动 PROTAC 数据从整分子层面进入模块化表征。许多 PROTAC 的药效、选择性、细胞活性和药代性质并非由单一片段决定，而是 E3 配体、warhead、linker 以及空间构象共同作用的结果。只有先把分子可靠拆分为可比较的模块，才能进一步讨论哪些结构变化来自 linker，哪些来自靶点配体，哪些来自 E3 招募端。

在药物化学实践中，这种自动化拆分工具可用于内部化合物库清洗、公开数据集整理、专利结构归类以及模型训练前的数据标准化。对于机器学习研究者而言，PROTAC-Splitter 也提供了一个更接近领域问题本身的前处理框架：模型不再只面对完整 SMILES，而可以围绕模块、连接关系和功能端进行更细粒度的特征构建。

对研发和临床转化的潜在意义

PROTAC-Splitter 并不是临床疗效预测模型，也不能直接判断某一降解剂是否具备成药性。但它服务的是更上游的数据质量与结构解析环节。对于进入候选物发现阶段的团队来说，结构拆分的准确性会影响相似分子聚类、SAR 表格搭建、linker 扫描结果解读以及跨项目知识复用。

在临床前研究中，PROTAC 分子常面临分子量较大、极性较高、构象灵活、细胞通透性与 PK 属性难以平衡等挑战。若研究团队能够更系统地比较不同 linker 与不同配体端的贡献，可能有助于更早识别不利结构趋势，并提高后续优化的针对性。PROTAC-Splitter 这类工具的意义，正是为这些分析提供更规范的数据入口。

风险与局限：自动化不等于完全替代专家判断

需要强调的是，PROTAC 子结构识别存在一定语义边界问题。某些连接片段既可能被视为 linker 的一部分，也可能被药物化学团队归入 warhead 或 E3 配体的修饰区域。不同论文、数据库或企业内部项目对模块边界的定义也可能并不完全一致。因此，机器学习自动注释需要与明确的数据标准、人工抽查和领域规则结合使用。

此外，模型表现通常受到训练数据覆盖范围影响。如果未来输入结构大量来自非常规 E3 配体、新型连接策略或非典型双功能分子，自动识别结果仍需谨慎验证。对于需要进入决策流程的分析，例如候选物优先级排序或跨项目结构经验迁移，研究者不宜只依赖单一自动拆分结果。

后续观察点

围绕 PROTAC-Splitter，值得关注的方向包括：其在不同来源 PROTAC 数据集中的泛化能力，对新型 E3 ligase 配体和复杂 linker 的识别稳定性，是否便于与公开 PROTAC 数据库、分子描述符计算流程和药物化学可视化工具衔接，以及能否支持更大规模的 TPD 化合物库整理。

总体而言，这项工作反映出 PROTAC 研究正在从单个代表性分子的发现，进一步走向数据集、自动化和可复用工具建设。对于 PROTAC/TPD 行业读者而言，PROTAC-Splitter 的直接价值在于提升结构数据整理效率；更长远的价值，则在于为模块化 SAR、linker 设计规律总结和机器学习辅助降解剂设计提供更可靠的基础层。

论文速览：PROTAC-Splitter机器学习框架实现PROTAC分子子结构自动识别

事件背景：PROTAC 数据结构化的瓶颈

核心进展：自动标注三类关键模块

技术意义：从“分子集合”走向“模块化数据”

对研发和临床转化的潜在意义

风险与局限：自动化不等于完全替代专家判断

后续观察点

相关阅读

济民可信将口服 AR 降解剂 JMKX0…

综述/资源速览：The PROTACta…

公司新闻：Degron Therapeu…