11月20日,PROTAC-PatentDB: A PROTAC patent compound dataset 在 Figshare 公开。该数据集围绕专利文献中的PROTAC化合物结构进行系统整理,提供63136个独特PROTAC化合物、590个专利家族和252个靶点信息,并为全部化合物预测120项理化与ADMET相关属性。对于正在利用机器学习、生成式设计、结构分解和专利化学空间分析推动PROTAC发现的研究团队而言,这一资源的发布具有较明确的工具属性。
事件背景
PROTAC分子由靶蛋白配体、连接子和E3连接酶配体组成,结构空间大、柔性高、性质多处于“beyond Rule of 5”范围。过去数年,PROTAC-DB、PROTACpedia等公开数据库为领域提供了重要的文献化合物、活性数据和结构信息,但公开可用于大规模建模的结构数据仍相对有限。尤其是专利文献中包含大量尚未进入期刊论文的化合物骨架、连接子组合和靶点布局,长期处于可检索但不易标准化调用的状态。
PROTAC-PatentDB正是针对这一缺口而建立。与以论文报道为主要来源的数据库不同,该数据集以专利文献为核心入口,试图把药物化学专利中披露的PROTAC结构转化为可下载、可计算、可检索的标准化资源。这一定位决定了它不只是“更多化合物”的集合,也是一份反映企业和研究机构专利布局、靶点偏好与结构设计方向的化学空间样本。
核心进展
根据数据集说明,研究团队从Derwent Innovation检索PROTAC相关专利,并经过人工筛选、专家注释和去重处理,最终形成590个不同专利家族。随后,团队借助SciFinder提取专利披露的化合物结构,并排除中间体、催化剂、片段噪声和非终产物等可能干扰建模的数据条目,整理出63136个独特PROTAC化合物。
数据表中包括SMILES、靶点、CAS登记号、InChI Key、专利号、专利公开年份、专利家族编号和专利权人等基础字段。除结构与专利信息外,团队还使用ADMETlab 3.0为全部化合物预测120项理化与ADMET相关属性,使其能够直接服务于分子描述符分析、化学空间可视化、性质筛选和初步可开发性评估。
- 规模:63136个独特PROTAC化合物,来源于590个专利家族。
- 靶点覆盖:共涉及252个靶点,包含AR、BTK、EGFR、ER、IRAK等高频方向。
- 数据字段:覆盖结构标识、靶点、专利信息、专利权人和预测性质等多类信息。
- 使用方式:数据已在Figshare开放,并配套在线检索与下载入口。
技术与临床前研究意义
对PROTAC AI建模而言,PROTAC-PatentDB最直接的价值在于扩大训练和筛选所需的结构样本。当前PROTAC建模任务通常面临样本稀缺、靶点分布不均、活性数据标准不统一、结构描述复杂等问题。专利化合物虽然不必然带有完整实验活性,但能够提供大量真实研发语境下被设计、合成或保护的结构组合,有助于模型学习靶点配体、连接子与E3配体之间的设计偏好。
该数据集还可用于结构分解、连接子统计、E3配体使用频率分析、靶点专利热度评估和相似性检索。对于药物化学团队而言,它可作为立项前的化学空间参照,帮助判断某一靶点或结构系列是否已被大量专利覆盖;对于计算团队而言,它可作为生成式模型的预训练或筛选库,用于分子生成、虚拟枚举、合成可及性评估和ADMET预筛选。
值得注意的是,PROTAC分子的药效并不只由静态结构决定,还受到三元复合物形成、协同性、细胞通透性、亚细胞定位、蛋白表达背景和泛素化效率等因素影响。因此,专利结构库更适合作为“候选空间”和“设计先验”,而不是直接替代实验活性数据库。将其与文献来源的DC50、Dmax、细胞系、E3类型和靶点蛋白信息结合,可能更符合PROTAC发现的实际建模需求。
风险与后续观察点
该数据集的主要限制同样清晰。首先,专利化合物并不等同于经过充分验证的活性分子,很多结构可能只是权利要求覆盖的一部分,未必具有公开的生物活性、降解效率或选择性数据。其次,ADMETlab 3.0原本面向小分子属性预测,应用于高分子量、高柔性、双功能的PROTAC时需要谨慎解释,尤其不能把预测分数直接视为体内暴露或成药性的证明。
其次,专利数据天然存在权利要求宽泛、结构枚举密集、同族专利重复、公开文本滞后于内部研发进展等特点。即便经过人工筛选与去重,使用者仍需要根据具体研究问题进行二次清洗。例如,在训练生成模型时,应避免把同一专利家族中的高度相似枚举结构简单视为独立创新样本;在进行靶点趋势分析时,也应区分“专利披露数量”与“临床推进强度”。
后续值得关注的方向包括:数据集是否补充实验活性字段;是否引入PROTAC三段式结构拆分标签;是否持续追踪新公开专利;是否与PROTAC-DB、PROTACpedia等文献数据库形成可映射字段;以及是否建立面向PROTAC专属性质预测的校准模型。若这些环节逐步完善,PROTAC-PatentDB有望从专利化合物结构库进一步发展为支持AI辅助PROTAC设计、专利空间分析和候选物优选的基础设施。
参考信息
本次数据集对应的Scientific Data数据描述文章题为PROTAC-PatentDB: A PROTAC Patent Compound Dataset,作者包括Hong Cai、Gengyuan Yao、Yulong Shi、Tianyi Zhang和Yuanjia Hu。Figshare数据记录显示,PROTAC-PatentDB以开放数据形式提供相关文件下载,并说明其目标是为计算药物发现、结构-活性关系分析和AI驱动的PROTAC建模提供专利来源化合物资源。