靶点蛋白结构预测试验库:从序列到新药的桥梁
药物研发的核心瓶颈之一,在于能否快速、准确地获取靶点蛋白的三维结构,并从中筛选出具有成药潜力的小分子。靶点蛋白结构预测试验库正是围绕这一需求构建的综合性资源体系——它将蛋白质结构预测工具、药物筛选化合物库和计算筛选平台整合在一起,为基于结构的药物设计(SBDD)提供了从"靶点发现"到"苗头化合物筛选"的全链路支撑。
随着AlphaFold2等AI模型的突破,蛋白质结构预测的精度和覆盖范围发生了质变;与此同时,DrugCLIP等平台的出现又把虚拟筛选的效率提升了百万倍。这两条技术线交汇,让靶点蛋白结构预测试验库从概念走向了可落地的实际应用。
核心工具:AlphaFold2、SWISS-MODEL与PackDock
靶点蛋白结构预测试验库的底层能力依赖于蛋白质三维结构预测。目前该领域形成了多层次的技术格局:
- AlphaFold2:由DeepMind开发的深度学习模型,能根据氨基酸序列高精度预测蛋白质三维结构。其配套的AlphaFoldDB已收录约3100万个预测结构,成为全球最大的蛋白质结构数据库(alphafold.ebi.ac.uk)。
- SWISS-MODEL:经典的全自动同源建模服务器,已整合AlphaFoldDB结构作为模板,适用于与已知结构有较高同源性的靶点蛋白建模。
- PackDock:中国科学院上海药物研究所2026年发表于PNAS的新方法,将等变图神经网络与生成式建模相结合,专门解决蛋白-配体复合物的柔性对接问题。该方法在ALDH1B1靶点的前瞻性虚拟筛选中,成功识别出具有新型骨架、亲和力达纳摩尔级的抑制剂(来源)。
这三类工具分别覆盖了"静态结构预测""同源建模补充"和"柔性构象优化"三个层面,共同构成了靶点蛋白结构预测的技术底座。
药物筛选试验库:化合物资源的分类与选型
有了靶点蛋白结构,下一步是从化合物库中筛选能与靶点有效结合的分子。药物筛选试验库按功能和应用场景分为以下主要类型:
| 化合物库类型 | 特点 | 典型应用 |
|---|---|---|
| 活性化合物库 | 包含已知生物活性化合物 | 靶点验证、工具化合物开发 |
| 天然产物库 | 源自天然产物的分子集合 | 高通量筛选、新骨架发现 |
| 片段化合物库 | 由小分子片段组成(MW < 300) | 片段筛选、结构优化起点 |
| 多样性化合物库 | 覆盖广泛化学空间 | 苗头化合物发现 |
| FDA上市药物库 | 已获FDA批准的药物集合 | 老药新用(药物再利用) |
| 疾病相关化合物库 | 针对特定疾病机制构建 | 抗肿瘤、抗病毒等定向筛选 |
选型时需综合考虑靶点类型、筛选模式(高通量实验筛选 vs. 虚拟筛选)、预算和研究阶段。例如,早期靶点验证阶段适合使用片段库进行结构导向的苗头发现,而老药新用场景则优先从FDA上市药物库入手,可显著缩短研发周期。
DrugCLIP:百万倍提速的虚拟筛选平台
清华大学智能产业研究院(AIR)联合生命学院和化学系,在2026年于《科学》杂志发表了DrugCLIP平台。该平台的核心创新在于构建了蛋白口袋与小分子的"向量化结合空间",将传统基于物理对接的筛选流程转化为高效的向量检索问题(来源)。
关键性能数据:
- 筛选100万个候选分子仅需0.02秒
- 日处理能力达31万亿次
- 在128核CPU+8张GPU的计算节点上实现毫秒级打分
DrugCLIP已免费开放使用,用户无需本地部署,通过网页上传蛋白结构即可启动筛选任务。该平台对AlphaFold预测结构和apo状态蛋白口袋均支持筛选,扩大了在真实药物发现场景中的适用性。
在生物验证方面,研究团队使用DrugCLIP从160万个候选分子中筛选NET靶点抑制剂,其中15%为有效分子,12个分子结合能力优于现有抗抑郁药物安非他酮。针对E3泛素连接酶TRIP12(无已知小分子配体)的筛选中,10个分子被证实具有结合能力,其中2个对酶活性有抑制效果。
整合应用:从结构预测到苗头化合物的完整流程
靶点蛋白结构预测试验库的实际价值,体现在将上述工具和资源串联成完整的药物发现流水线:
- 靶点确认:通过基因组学、蛋白质组学等手段确定疾病相关靶点。
- 结构获取:使用AlphaFold2预测靶点三维结构,或通过X射线晶体学、冷冻电镜获取实验结构。缺乏实验结构时,PackDock等柔性对接方法可进一步优化构象。
- 口袋识别与优化:确定配体结合位点,必要时使用CavityPlus、COACH-D等口袋预测工具辅助。
- 虚拟筛选:利用DrugCLIP等平台,从化合物库中快速筛选高潜力分子。传统分子对接(如AutoDock Vina)可用于精细验证。
- 实验验证:对虚拟筛选命中分子进行SPR、同位素配体转运实验等生物学验证。
- 优化迭代:基于复合物结构信息,对苗头化合物进行结构优化。
这套流程已在多个实际案例中得到验证。DrugCLIP团队首次完成了人类基因组规模的虚拟筛选,覆盖约1万个蛋白靶点、2万个结合口袋,分析超过5亿个小分子,富集出200万余个高潜力活性分子,构建了目前最大规模的蛋白-配体筛选数据库。
当前挑战与未来方向
尽管靶点蛋白结构预测试验库的技术生态已相当丰富,仍存在几个值得关注的问题:
- 膜蛋白靶点的结构预测:膜蛋白在水溶液中不稳定,AlphaFold2对跨膜区的预测精度相对较低,而膜蛋白恰恰是重要的药物靶点类别(如GPCR、离子通道)。
- 动态构象的捕获:蛋白质天然具有柔性,静态结构难以全面反映配体结合的真实过程。PackDock等柔性对接方法正在逐步解决这个问题。
- 筛选准确率的验证:虚拟筛选的命中率通常在1%-15%区间,仍需大量实验验证来支撑计算预测结果。
- 数据标准化与互操作:不同平台的数据格式、评分标准不统一,跨平台协作存在摩擦。
未来,生成式AI模型(如TamGen)可能直接基于靶点结构设计新化合物,进一步缩短从结构到药物的距离。靶点蛋白结构预测试验库也将从"筛选工具"进化为"药物设计引擎"。
总结
靶点蛋白结构预测试验库是一个由蛋白质结构预测、化合物资源库和高效筛选平台共同构成的技术生态。AlphaFold2解决了"看得到结构"的问题,DrugCLIP解决了"筛得够快"的问题,PackDock解决了"对接得准"的问题。三者叠加,使得从靶点到苗头化合物的路径比以往任何时候都更加清晰和高效。
对于药物研发团队而言,建立自己的靶点蛋白结构预测试验库并非要求自建全部工具链,而是要善用这些已成熟开放的平台资源,结合自身靶点和疾病领域的专业积累,形成差异化的研发优势。在实际落地中,像衍因科技这类面向生物医药研发的一体化科研协作平台,可以通过统一的ELN/LIMS基座将结构预测数据、实验记录与筛选结果关联管理,减少多系统堆叠导致的数据割裂,帮助团队在靶点验证和苗头化合物优化阶段保持数据的一致性与可追溯性。