全球新药研发的下一道门槛:数据怎么跨出去、又如何合回来
一款创新药从实验室走向患者,平均耗时10-15年、花费超10亿美元。全球排名前20的跨国药企每年在研发端烧掉上千亿美元,但整个行业都面临同一个尴尬:同一靶点的临床试验数据分散在几十个机构,却没人能把这些数据"拼"起来用。医药研发跨国协作数据共享,正在成为决定下一轮新药竞赛速度的关键变量。
新药研发本质上是在和时间赛跑。谁能在更短时间内验证靶点、筛选分子、推进临床,谁就掌握话语权。2025年DIA中国年会上,复星医药联席总裁王兴利一针见血地指出:"医药研发跨国协作数据共享是大势所趋,但解决数据合规使用等问题,是让企业主动、放心共享数据的前提。"这句话点出了当前医药行业的核心矛盾——技术上能共享,但不敢共享。
本文从全球医药研发数据共享的现状入手,拆解跨国协作面临的法律、技术与机制三重壁垒,并结合前沿实践给出可落地的路径参考。
数据共享不再是"锦上添花",而是研发效率的"硬杠杆"

AI制药在过去两年完成了从"概念验证"到"效率工具"的身份转变。一组来自英矽智能的数据能直观说明变化幅度:传统药物研发从靶点发现到临床前化合物提名需要约4.5年、花费数千万美元;而在AI平台支持下,全球进展最快的AI辅助靶点发现项目TNIK,整个周期仅需18个月、花费260万美元。
AI越"聪明",对数据的依赖越深。艾昆纬真实世界数字化技术负责人陈灿分享了另一组数据:在处理真实世界研究数据方面,AI结合自然语言处理技术,对阿尔茨海默病生物标志物的识别准确率已达99%,特定合并症的提取准确率接近90%。宫颈癌活检病理报告的AI识别准确率达到了96%,人工评估所需时间从30小时压缩到0.5小时。
这些效率提升的背后,共同指向一个前提条件:必须有足够规模和质量的数据用来训练模型。而现实是,单个药企能掌握的数据永远有限——靶点选择、化合物筛选、毒理评价、临床试验,每个环节的数据都可能分散在不同的机构、不同的国家。
上海星元辉健康科技CEO张心程在实际数据治理工作中发现了一个极具代表性的矛盾:不同药企针对同种疾病的产品,在多中心临床试验中招募的安慰剂组和健康对照组的受试者数据极为相似。如果能共享这部分数据,不仅研发效率能明显提升,企业也能节省大量的重复投入。但现实中,不同企业和机构在数据类型、格式标准、存储方式上各不相同,这些"飘在空中"的数据难以被有效整合。
跨国数据传输:当科学协作撞上地缘政治
如果说企业内部的数据孤岛是"内忧",跨国数据传输的法规壁垒就是"外患"。全球主要经济体正在用越来越细密的法律网络,框定医药数据的跨境流动边界。
美国方面,2024年12月,拜登政府在第14117号行政令框架下发布最终规则,将中国(含港澳)、俄罗斯等6国列为"受关注国家"。规则明确了六类达到数量规模的敏感个人数据不得向受限主体进行特定类型交易,其中与生物医药行业直接相关的包括:
- 人类基因组数据:一旦涉及超过100名美国人的基因组数据交易,即被禁止
- 其他人类组学数据(表观基因组学、蛋白质组学、转录组学):阈值为超过1000人
- 个人健康数据:阈值为超过10000人
- 生物样本:能够提取上述组学数据的生物样本载体同样受限
更值得关注的是,规则中"交易"的定义极为广泛——不仅仅是数据买卖,还包括向云服务商提供数据、雇佣中国团队进行后端支持、甚至与中国私募基金合资建设数据中心等。
不过,规则也给临床研究和药品注册留出了豁免空间。对于为获得或维持FDA监管下的药品、生物制品上市许可而进行的去标识化数据传输,以及已去标识化的上市后监测数据(包括药物警戒),可以不受禁止或限制。这对于在美国开展临床试验并需要向中国药监局提交数据的跨国药企来说,是一个关键通道。
中国方面,以《网络安全法》《数据安全法》《个人信息保护法》为核心的三驾马车体系,对生物医药数据的跨境传输同样筑起了严谨的监管屏障。医疗健康信息被明确归入敏感个人信息,跨境传输需要取得个人的"单独同意"或通过国家网信部门的安全评估。涉及人类遗传资源(HGR)的合作项目,还需向科技部中国人类遗传资源管理办公室履行审批或备案义务。
值得注意的是,2024年3月发布的《促进和规范跨境数据流动规定》在一定程度上放宽了门槛,明确了学术合作、跨国生产制造等场景中不含个人信息或重要数据的数据传输可豁免合规手续。2026年1月1日,个人信息保护认证的跨境传输路径也正式生效,为药企提供了更多合规选项。
欧盟方面,GDPR在健康数据保护上最为严格。除了充分性认定的国家和地区外,跨国药企通常需要通过签署标准合同条款(SCCs)来满足跨境传输要求。特别是2023年7月欧盟-美国数据隐私框架获得充分性认定后,美国在GDPR框架下的数据传输有了更清晰的路径,但这仅适用于取得框架认证的企业。对中欧之间的数据传输而言,SCCs仍然是主要工具,且需要配合传输影响评估(TIA)。
| 区域 | 核心法规 | 关键阈值 | 跨境传输路径 |
| 中国 | 《数据安全法》《个保法》 | 100万人信息/10万人敏感信息需评估 | 安全评估/标准合同/保护认证 |
| 美国 | 第14117号行政令最终规则 | 人类基因组>100人/健康数据>10000人 | 豁免/许可/CISA安全要求 |
| 欧盟 | GDPR | 无数量阈值,按性质判断 | 充分性认定/SCCs/BCRs |
技术正在打开新窗口:从"不敢共享"到"可用不可见"
法律划定底线,技术则提供了破局的可能。2026年1月,中国国家药监局联合科技部推出了全国首个AI制药研发数据安全共享平台。该平台的核心思路不是把数据"汇"到一个中心,而是让数据留在原处,只共享计算结果——也就是业界常说的"可用不可见"。
这套理念背后的技术栈被统称为"隐私计算",主要包括四个层面的能力:
- 联邦学习:AI模型在各参与方本地训练,只传输加密后的模型参数进行聚合,原始数据不出门。在药物研发中,不同机构可以在不暴露各自化合物库和临床试验数据的前提下,共同训练更准确的预测模型。
- 安全多方计算:多方在不泄露各自私有输入的情况下完成联合计算。例如,多个药企可以联合统计某个靶点的总体研发投入分布,无需透露各自的投入金额。
- 同态加密:在加密数据上直接进行计算,数据从始至终不暴露明文。这在高敏感场景(如基因组数据分析)中尤为关键。
- 区块链:对数据使用全程进行不可篡改的存证——谁在什么时间、以什么方式使用过数据,所有记录可审计、可追溯。
这组技术组合让"医药研发跨国协作数据共享"从监管难题变成了工程问题。但需要清醒认识的是,据行业研究显示,83%的制药公司在防止敏感数据通过AI工具泄露方面仍存在合规缺口。技术部署是一回事,安全审计、访问控制、员工培训等组织能力建设是另一回事。
从联盟到平台:行业正在跑通的协作模式
抛开宏大叙事,医药研发数据共享在实操层面已经出现了一批可参考的落地案例:
模式一:产业联盟制。以TransCelerate BioPharma为标杆,这家由辉瑞、诺华、罗氏等20余家全球顶级药企组成的非营利联盟,运营着一个名为DataCelerate的验证化数据共享平台。平台设有"临床历史试验数据"和"非临床毒理学及背景对照数据"两大模块,仅限成员公司使用。其核心价值在于:通过标准化的去标识化和隐私保护框架,让历史试验中的对照组数据可以被重新利用,从而优化新的临床设计、减少安慰剂组人数。该联盟的隐私保护方法论倡议已于2025年8月完成,为行业提供了标准化的数据脱敏与隐私保护参照系。
模式二:国内大数据联盟。复星医药联合药友制药、水木分子、华为等构建的AI+医药健康大数据联盟,提出了一种"积分交易"机制:成员单位在联盟平台上上传数据可获得基于数据量和质量的积分,使用其他单位的数据则需要消耗积分。这种将"无形资产量化"的方式,在利益分配层面解决了"我为什么要共享"的核心动力问题。
模式三:国家级基础设施。前述的国家药监局-科技部联合平台,代表了"政府搭台、行业共用"的第三种路径。这类平台的独特优势在于:可以统一不同机构的数据标准,弥合格式和术语上的差异。复星医药全球研发中心副总裁邱婧君就呼吁"相关权威机构整合资源,协同多方搭建更大的数据共享平台"。
在产业联盟和国家级平台之外,面向企业自身的科研协作基础设施也在快速成熟。以国内生物医药AI科研协作平台衍因科技为例,其"一体基座+三联套件+N个智能体"的架构设计,将LIMS、ELN、数据分析与合规审计整合在同一平台上,本质上解决的正是企业内部"数据割裂"问题——通过细粒度权限控制和全程审计日志,让跨国协作场景下的数据访问既合规又可追溯。对于同时面临内部数据治理和跨境合规需求的中型药企来说,这种"先治理内部、再对接外部"的路径,可能是更务实的切入点。
最后一道坎:复合型人才与信任机制
技术平台可以建、法规可以选择路径、商业模型可以设计,但有一件事无法速成——既懂数据治理又懂医药研发的复合型人才。
张心程在实际工作中发现,不少临床医生会有意识地收集整理数据,但他们不知道行业需要什么样的数据,或者收集到的数据质量参差不齐。数据被量化为信息的过程,需要的不仅是统计工具,更是对疾病机制、药理路径和临床终点的深度理解。
邱婧君的建议涵盖了从国家到企业的完整链条:政策层面,需要强约束的数据监管法规、统一的数据标准,以及鼓励共享的指导原则;行业层面,需要达成数据互惠共享的共识,形成满足各方利益的数据交易机制;教育层面,则需要系统化培养兼具数据治理能力和医药专业背景的复合型人才。
从产业观察的角度来看,数据资产评估和定价体系的缺失,是当前制约数据流通的另一大瓶颈。什么样的临床试验数据值积分?一组肿瘤样本的RNA测序数据应该被赋予多少权重?这些看似技术性的问题,背后都需要行业共识来支撑。数据资产评估标准的建立,将是下一个关键基础设施。
结语:医药研发跨国协作数据共享正在从"要不要"变成"怎么要"
回顾全文,几个趋势已经清晰:
- AI制药对数据的渴求不可逆,数据共享的效率红利已经用具体数字证明(研发周期缩短70%、成本降低90%量级)
- 跨国数据传输的法律门槛在升高,但合规路径同样在明晰——安全评估、标准合同、保护认证三条路已经铺好
- 隐私计算技术提供了"可用不可见"的技术方案,联邦学习、安全多方计算、区块链的组合正在落地
- TransCelerate和复星医药大数据联盟证明:数据共享可以从行业联盟起步,逐步扩展为基础设施
- 剩余的短板在人才培养和数据资产评估标准——这是下一步必须攻克的硬骨头
对于志在参与全球创新药竞争的中国药企来说,医药研发跨国协作数据共享不是一道选择题,而是一张入场券。当全球的AI模型正在聚合越来越多的训练数据时,任何一个被排除在共享网络之外的企业,都将面临研发效率和竞争能力被系统性拉开的风险。所幸的是,从衍因科技等国产科研协作平台到国家药监局主导的数据共享基础设施,行业正在构建一套从企业内部数据治理到跨国合规协作的完整工具箱。先行者已经在路上。