从“原始病历保护”走向“衍生数据分权”的制度思考

▍导读

在医疗健康领域，原始病历、医学影像、检验结果等数据如何保护，行业已经形成较高共识。

但一个更现实、也更复杂的问题正在浮出水面：

当原始医疗数据经过清洗、标注、结构化处理、模型训练、聚合分析后，形成新的数据库、模型参数、趋势报告和数据产品，这些“衍生数据”究竟应当如何配置权益？

这已经不是简单的“数据归谁”问题。

而是一个更深层的制度问题：

谁对什么数据，在什么场景下，享有什么权利。

01｜为什么医疗衍生数据产权问题越来越重要？

如果把原始数据比作原油，那么衍生数据就更像经过加工精炼后的汽油、化工原料和高附加值产品。

真正产生更大价值的，往往不是原料本身，而是加工开发后的成果。

医疗数据也是如此。

在现实应用中，真正具有高价值的，往往并不只是原始病历、原始影像，而是基于这些原始数据开发形成的：

高质量专病数据库

医学影像标注数据集

临床科研样本库

风险预测特征库

训练完成的医疗AI模型

群体健康趋势分析报告

面向医院、药企、政府的分析服务产品

这些成果并非天然存在。

它们背后往往凝结着大量投入，包括数据治理、规则设计、专业标注、算法研发、模型训练、临床验证、合规审查和产品化封装。

也正因此，医疗衍生数据的产权配置，已经不能再简单停留在“原始数据是谁的，衍生数据就归谁”的朴素理解上。

医疗数据的真正价值释放，已经从“数据采集”阶段，转向“数据开发利用”阶段。

02｜先厘清一个关键问题：衍生数据不等于原始医疗数据

讨论产权配置，第一步不是急着回答“归谁”，而是先回答：

它到底是什么。

（一）原始医疗数据，首先承载的是患者权益

原始病历、影像原图、检验明细、护理记录、随访记录等数据，直接对应具体患者。

这类数据具有明显的：

个人信息属性、敏感信息属性、隐私属性和安全保护属性。

因此，原始医疗数据首先适用的是患者知情、同意、查阅、更正、删除等保护规则，以及医疗机构的合法处理和安全保障义务。

也就是说，原始医疗数据首先是一类必须严格保护的数据对象，而不是可以被任意流通处分的普通财产。

（二）医疗衍生数据，是开发形成的增量成果

但当原始医疗数据经过进一步处理之后，其法律和经济属性就发生了变化。

例如：

原始影像经过标注，形成病灶标签数据

多中心病例经过清洗整合，形成临床科研数据库

历史病历经过训练，形成模型参数

区域就诊记录经过统计分析，形成健康趋势报告

这类成果的价值，已经不再仅仅来自原始数据本身，而是来自后续的治理、算法、算力、规则和场景验证等综合投入。

这正是医疗衍生数据与原始医疗数据的本质区别。

原始医疗数据重在保护，衍生医疗数据重在分层配置。

03｜不能再只问“归谁”，而要问“谁享有什么权利”

医疗衍生数据的问题，之所以复杂，就在于它不适合简单套用传统的单一所有权逻辑。

数据不同于一般有体物。

它具有可复制、可共享、可多主体协同利用的天然特征。

尤其在医疗场景中，不同主体在不同环节的贡献差异很大：

有人提供原始临床数据，

有人负责治理和加工，

有人负责算法研发，

有人负责模型训练和产品落地，

还有人提供临床反馈和验证环境。

因此，对医疗衍生数据，更合理的制度思路，不是争论“谁拥有全部权利”，而是基于“数据三分权”框架进行结构化配置。

即将数据相关权益拆分为：

数据资源持有权、数据加工使用权、数据产品经营权。

这一思路的核心，不再是“全部归谁”，而是：

谁对什么数据，在什么环节，享有什么权利，并承担什么责任。

04｜三方主体的权益边界，应当如何划定？

围绕医疗衍生数据，最核心的主体通常有三类：

患者、医疗机构、科技企业。

这三方都与衍生数据形成有关，但权利边界并不相同，也不应平均分配。

（一）患者：保有基础性人格权益，但不当然享有衍生成果共有权

患者是原始医疗数据所指向的自然人。

因此，患者应当保有基础性的人格权益和程序性权益，包括：

对个人信息处理的知情权

对数据使用边界的同意权或依法处理边界

查阅、复制、更正、删除等权利

对隐私保护和数据安全的基本请求权

但需要特别强调的是：

患者并不当然成为每一份衍生数据库、每一个模型参数、每一份趋势报告的共同财产权人。

如果将所有衍生成果都理解为患者当然共有，不仅难以操作，也会使医疗创新陷入极高的交易成本。

更合理的定位是：

患者保有原始信息的人格性权利和处理边界控制权，但不当然享有衍生数据成果的共有权。

（二）医疗机构：处于资源持有与合规治理的中枢位置

医疗机构在这一体系中具有不可替代的地位。

因为原始病历、影像、检验、护理、随访等数据，通常是在医疗机构履行诊疗、科研和管理职责过程中形成并被其合法持有。

同时，医疗机构还承担着：

数据安全管理责任

隐私保护责任

数据使用审批责任

外部合作监督责任

质量控制责任

因此，医疗机构不只是“数据提供方”，更应当是医疗数据资源持有与合规治理的中枢主体。

在多数场景下，医疗机构应当保有：

原始数据的合法持有地位

数据准入审批权

脱敏匿名规则制定权

数据质量控制权

场景使用监督权

重要衍生数据成果中的基础收益权和治理权

医疗机构不只是“把数据拿出来”的一方，更是整个数据利用秩序的维护者。

（三）科技企业：应获得受限但稳定的加工使用权和经营权

科技企业往往是衍生数据价值形成的重要贡献者。

它们的投入通常体现在：

数据清洗与治理

标签体系构建

算法设计与训练

模型工程化开发

产品化封装

场景拓展与商业化运营

因此，只要是在合法授权、受控环境和合规边界内进行开发，科技企业就不应仅仅被视为“代加工者”。

相反，其对衍生数据成果应当依法取得相应的：

数据加工使用权，以及约定范围内的数据产品经营权。

真正应当被严格限制的，不是企业对创新成果的收益权，而是其对原始医疗数据的无限复制、留存、转卖和失控扩散。

要限制的是对原始数据的失控占有，而不是对创新成果的正当收益。

05｜三类典型场景下，产权配置逻辑并不相同

医疗衍生数据不是单一类型的对象。

不同成果形态，其权益配置逻辑并不一样。

（一）场景A：经处理形成的临床科研数据库

这是当前最常见、也最容易引发争议的一类。

很多所谓“脱敏数据库”，实际上只是降低了直接识别性，并不意味着已经完全脱离个人信息保护规则。

只要仍然存在回链风险、重识别可能或敏感信息外泄风险，就不能简单将其视为普通商品自由流通。

因此，这类数据库更稳妥的配置方式是：

医疗机构保有资源持有权和准入控制权

科研团队或科技企业取得限定用途、限定期限、限定环境下的加工使用权

对外经营的重点不是整库自由流转，而是围绕该数据库形成的受控科研服务、分析服务或标准化数据产品服务

真正可经营的，往往不是“把数据库卖出去”，而是围绕数据库形成的能力和服务。

（二）场景B：训练完成的医疗人工智能模型参数

模型参数与原始病历并不是同一个法律对象。

它更接近一种通过训练活动形成的技术性成果。

因此，研发主体通常可以对模型参数、模型能力和模型服务主张较强的控制权与经营权益。

但这种权利并不是无条件的。

其成立前提包括：

数据来源合法

使用边界清晰

训练过程合规

不存在明显的样本记忆泄露风险

产品输出不突破授权场景和安全边界

同时，如果模型训练高度依赖医疗机构提供的高质量标注、反馈数据、临床验证环境和场景支持，那么医疗机构也不应只是“提供样本”的角色。

更合理的安排是，医疗机构在模型成果中保有相应权益，例如：

联合使用权

场景优先部署权

收益分成权

特定应用场景下的优先经营安排

模型参数不是原始病历的简单延伸，而是合规开发基础上形成的技术性衍生成果。

（三）场景C：群体性健康趋势报告

这类成果最接近典型的数据产品经营权。

因为它的核心价值，已经不再是单个患者的信息，而是对群体规律、区域趋势、疾病结构和管理风险的提炼与表达。

在这一场景中，更合理的配置方式是：

医疗机构保留数据来源审查权和发布合规审查权

开发主体对分析报告、咨询服务、订阅服务、评估服务等享有经营权益

患者个人一般不对报告本身享有份额式财产权，但其前端信息权益仍应通过合法授权、匿名化处理和用途限制获得保护

这类产品的价值逻辑，已经从“记录个体”转向“提炼规律”。

因此，其权利配置也应当更多体现开发贡献和经营投入。

06｜制度设计的关键：既防垄断，也给创新者稳定预期

医疗衍生数据制度如果设计不好，很容易走向两个极端。

一个极端是过度封闭。

什么都不敢动，什么都不能用，结果创新动力不足，数据价值难以释放。

另一个极端是过度放开。

企业一旦接触原始数据，就试图把所有衍生成果完全私有化，甚至形成长期独占和资源锁定。

这两个方向都不可取。

更合理的制度安排，至少应把握以下四点。

（一）原始数据谨慎流通，衍生能力优先流通

医疗行业最应鼓励的，不是原始病历、原始影像的大规模搬运和裸流通。

而是：

原始数据不出域

数据可用不可见

模型入场训练

结果受控输出

服务替代裸数据流转

真正更适合交易、经营和复制扩展的，应优先是模型、接口、报告和数据服务能力，而不是原始数据本身。

（二）用合同把权利边界切清楚

很多争议的根源，并不是没有规则，而是合作一开始没有把规则写清楚。

对于医疗衍生数据合作，至少应当在协议中明确：

谁持有原始数据

谁可以加工使用

是否允许复制留存

是否允许形成衍生数据库

是否允许继续训练或二次训练

是否允许形成产品并对外经营

收益如何分配

安全责任如何承担

泄露、越权使用和再识别风险由谁负责

医疗衍生数据的产权配置，最终一定要落到规则化合同上。

（三）防止稀缺医疗数据资源被长期独占

医疗领域尤其要警惕一种趋势：

少数主体借助平台、资本或技术优势，对高价值临床数据资源、专病数据资源和真实世界验证场景形成长期排他性锁定。

这不仅会抬高行业创新门槛，也会阻碍数据要素市场的开放和公平。

因此，更适合倡导的是：

非独占授权

分用途授权

分期限授权

分层级开放

场景化收益分配

不能把具有明显公共属性和社会价值的医疗数据资源，简单变成个别主体的永久壁垒。

（四）患者利益反馈，应强调“可感知”，而不是机械“逐样本分红”

患者当然应当从医疗数据开发利用中受益。

但医疗行业并不适合简单走向“每个样本、每条记录、每次训练都逐一分红”的路径。

这既会显著增加制度成本，也未必真正有利于患者权益实现。

更现实的方式是：

强化知情和透明披露

完善伦理审查和用途说明

推动技术成果回流医疗服务

提升诊疗效率和服务质量

在条件允许时探索公益反馈、研究回馈和服务优化机制

患者利益反馈的重点，不在于形式上的逐样本分钱，而在于实质上的保护、透明和可感知收益。

07｜结语：医疗衍生数据，不是谁“一家独有”，而应当分层配置、按贡献受益

医疗衍生数据产权问题，表面上是在问“归谁”。

但本质上是在回答：

如何让医疗数据既安全，又能流动；既保护患者，又鼓励创新；既防止垄断，又让投入者有回报。

未来更可行的方向，不会是“患者全有”“医院全控”或“企业全拿”中的任何一种极端模式。

而应当是：

患者保有原始信息的人格性与程序性权利

医疗机构处于资源持有与合规治理中枢

科技企业基于实质性创新取得加工使用权和产品经营权

各方按照真实投入、实际贡献和风险责任共享收益

医疗数据的未来，不在于“谁把数据拿走”，而在于“谁能在规则之内，把数据价值真正做出来”。

医疗衍生数据的制度答案，也不是简单归属，而是分层配置、按贡献受益。

▍文末金句

只有让保护归保护、创新归创新、收益归收益，医疗数据要素市场才能真正走向成熟。

政策解读｜从医疗健康场景看“数据处理者”的产权配置安排