从“原始病历保护”走向“衍生数据分权”的制度思考
▍导读
在医疗健康领域,原始病历、医学影像、检验结果等数据如何保护,行业已经形成较高共识。
但一个更现实、也更复杂的问题正在浮出水面:
当原始医疗数据经过清洗、标注、结构化处理、模型训练、聚合分析后,形成新的数据库、模型参数、趋势报告和数据产品,这些“衍生数据”究竟应当如何配置权益?
这已经不是简单的“数据归谁”问题。
而是一个更深层的制度问题:
谁对什么数据,在什么场景下,享有什么权利。
01|为什么医疗衍生数据产权问题越来越重要?
如果把原始数据比作原油,那么衍生数据就更像经过加工精炼后的汽油、化工原料和高附加值产品。
真正产生更大价值的,往往不是原料本身,而是加工开发后的成果。
医疗数据也是如此。
在现实应用中,真正具有高价值的,往往并不只是原始病历、原始影像,而是基于这些原始数据开发形成的:
高质量专病数据库
医学影像标注数据集
临床科研样本库
风险预测特征库
训练完成的医疗AI模型
群体健康趋势分析报告
面向医院、药企、政府的分析服务产品
这些成果并非天然存在。
它们背后往往凝结着大量投入,包括数据治理、规则设计、专业标注、算法研发、模型训练、临床验证、合规审查和产品化封装。
也正因此,医疗衍生数据的产权配置,已经不能再简单停留在“原始数据是谁的,衍生数据就归谁”的朴素理解上。
医疗数据的真正价值释放,已经从“数据采集”阶段,转向“数据开发利用”阶段。
02|先厘清一个关键问题:衍生数据不等于原始医疗数据
讨论产权配置,第一步不是急着回答“归谁”,而是先回答:
它到底是什么。
(一)原始医疗数据,首先承载的是患者权益
原始病历、影像原图、检验明细、护理记录、随访记录等数据,直接对应具体患者。
这类数据具有明显的:
个人信息属性、敏感信息属性、隐私属性和安全保护属性。
因此,原始医疗数据首先适用的是患者知情、同意、查阅、更正、删除等保护规则,以及医疗机构的合法处理和安全保障义务。
也就是说,原始医疗数据首先是一类必须严格保护的数据对象,而不是可以被任意流通处分的普通财产。
(二)医疗衍生数据,是开发形成的增量成果
但当原始医疗数据经过进一步处理之后,其法律和经济属性就发生了变化。
例如:
原始影像经过标注,形成病灶标签数据
多中心病例经过清洗整合,形成临床科研数据库
历史病历经过训练,形成模型参数
区域就诊记录经过统计分析,形成健康趋势报告
这类成果的价值,已经不再仅仅来自原始数据本身,而是来自后续的治理、算法、算力、规则和场景验证等综合投入。
这正是医疗衍生数据与原始医疗数据的本质区别。
原始医疗数据重在保护,衍生医疗数据重在分层配置。
03|不能再只问“归谁”,而要问“谁享有什么权利”
医疗衍生数据的问题,之所以复杂,就在于它不适合简单套用传统的单一所有权逻辑。
数据不同于一般有体物。
它具有可复制、可共享、可多主体协同利用的天然特征。
尤其在医疗场景中,不同主体在不同环节的贡献差异很大:
有人提供原始临床数据,
有人负责治理和加工,
有人负责算法研发,
有人负责模型训练和产品落地,
还有人提供临床反馈和验证环境。
因此,对医疗衍生数据,更合理的制度思路,不是争论“谁拥有全部权利”,而是基于“数据三分权”框架进行结构化配置。
即将数据相关权益拆分为:
数据资源持有权、数据加工使用权、数据产品经营权。
这一思路的核心,不再是“全部归谁”,而是:
谁对什么数据,在什么环节,享有什么权利,并承担什么责任。
04|三方主体的权益边界,应当如何划定?
围绕医疗衍生数据,最核心的主体通常有三类:
患者、医疗机构、科技企业。
这三方都与衍生数据形成有关,但权利边界并不相同,也不应平均分配。
(一)患者:保有基础性人格权益,但不当然享有衍生成果共有权
患者是原始医疗数据所指向的自然人。
因此,患者应当保有基础性的人格权益和程序性权益,包括:
对个人信息处理的知情权
对数据使用边界的同意权或依法处理边界
查阅、复制、更正、删除等权利
对隐私保护和数据安全的基本请求权
但需要特别强调的是:
患者并不当然成为每一份衍生数据库、每一个模型参数、每一份趋势报告的共同财产权人。
如果将所有衍生成果都理解为患者当然共有,不仅难以操作,也会使医疗创新陷入极高的交易成本。
更合理的定位是:
患者保有原始信息的人格性权利和处理边界控制权,但不当然享有衍生数据成果的共有权。
(二)医疗机构:处于资源持有与合规治理的中枢位置
医疗机构在这一体系中具有不可替代的地位。
因为原始病历、影像、检验、护理、随访等数据,通常是在医疗机构履行诊疗、科研和管理职责过程中形成并被其合法持有。
同时,医疗机构还承担着:
数据安全管理责任
隐私保护责任
数据使用审批责任
外部合作监督责任
质量控制责任
因此,医疗机构不只是“数据提供方”,更应当是医疗数据资源持有与合规治理的中枢主体。
在多数场景下,医疗机构应当保有:
原始数据的合法持有地位
数据准入审批权
脱敏匿名规则制定权
数据质量控制权
场景使用监督权
重要衍生数据成果中的基础收益权和治理权
医疗机构不只是“把数据拿出来”的一方,更是整个数据利用秩序的维护者。
(三)科技企业:应获得受限但稳定的加工使用权和经营权
科技企业往往是衍生数据价值形成的重要贡献者。
它们的投入通常体现在:
数据清洗与治理
标签体系构建
算法设计与训练
模型工程化开发
产品化封装
场景拓展与商业化运营
因此,只要是在合法授权、受控环境和合规边界内进行开发,科技企业就不应仅仅被视为“代加工者”。
相反,其对衍生数据成果应当依法取得相应的:
数据加工使用权,以及约定范围内的数据产品经营权。
真正应当被严格限制的,不是企业对创新成果的收益权,而是其对原始医疗数据的无限复制、留存、转卖和失控扩散。
要限制的是对原始数据的失控占有,而不是对创新成果的正当收益。
05|三类典型场景下,产权配置逻辑并不相同
医疗衍生数据不是单一类型的对象。
不同成果形态,其权益配置逻辑并不一样。
(一)场景A:经处理形成的临床科研数据库
这是当前最常见、也最容易引发争议的一类。
很多所谓“脱敏数据库”,实际上只是降低了直接识别性,并不意味着已经完全脱离个人信息保护规则。
只要仍然存在回链风险、重识别可能或敏感信息外泄风险,就不能简单将其视为普通商品自由流通。
因此,这类数据库更稳妥的配置方式是:
医疗机构保有资源持有权和准入控制权
科研团队或科技企业取得限定用途、限定期限、限定环境下的加工使用权
对外经营的重点不是整库自由流转,而是围绕该数据库形成的受控科研服务、分析服务或标准化数据产品服务
真正可经营的,往往不是“把数据库卖出去”,而是围绕数据库形成的能力和服务。
(二)场景B:训练完成的医疗人工智能模型参数
模型参数与原始病历并不是同一个法律对象。
它更接近一种通过训练活动形成的技术性成果。
因此,研发主体通常可以对模型参数、模型能力和模型服务主张较强的控制权与经营权益。
但这种权利并不是无条件的。
其成立前提包括:
数据来源合法
使用边界清晰
训练过程合规
不存在明显的样本记忆泄露风险
产品输出不突破授权场景和安全边界
同时,如果模型训练高度依赖医疗机构提供的高质量标注、反馈数据、临床验证环境和场景支持,那么医疗机构也不应只是“提供样本”的角色。
更合理的安排是,医疗机构在模型成果中保有相应权益,例如:
联合使用权
场景优先部署权
收益分成权
特定应用场景下的优先经营安排
模型参数不是原始病历的简单延伸,而是合规开发基础上形成的技术性衍生成果。
(三)场景C:群体性健康趋势报告
这类成果最接近典型的数据产品经营权。
因为它的核心价值,已经不再是单个患者的信息,而是对群体规律、区域趋势、疾病结构和管理风险的提炼与表达。
在这一场景中,更合理的配置方式是:
医疗机构保留数据来源审查权和发布合规审查权
开发主体对分析报告、咨询服务、订阅服务、评估服务等享有经营权益
患者个人一般不对报告本身享有份额式财产权,但其前端信息权益仍应通过合法授权、匿名化处理和用途限制获得保护
这类产品的价值逻辑,已经从“记录个体”转向“提炼规律”。
因此,其权利配置也应当更多体现开发贡献和经营投入。
06|制度设计的关键:既防垄断,也给创新者稳定预期
医疗衍生数据制度如果设计不好,很容易走向两个极端。
一个极端是过度封闭。
什么都不敢动,什么都不能用,结果创新动力不足,数据价值难以释放。
另一个极端是过度放开。
企业一旦接触原始数据,就试图把所有衍生成果完全私有化,甚至形成长期独占和资源锁定。
这两个方向都不可取。
更合理的制度安排,至少应把握以下四点。
(一)原始数据谨慎流通,衍生能力优先流通
医疗行业最应鼓励的,不是原始病历、原始影像的大规模搬运和裸流通。
而是:
原始数据不出域
数据可用不可见
模型入场训练
结果受控输出
服务替代裸数据流转
真正更适合交易、经营和复制扩展的,应优先是模型、接口、报告和数据服务能力,而不是原始数据本身。
(二)用合同把权利边界切清楚
很多争议的根源,并不是没有规则,而是合作一开始没有把规则写清楚。
对于医疗衍生数据合作,至少应当在协议中明确:
谁持有原始数据
谁可以加工使用
是否允许复制留存
是否允许形成衍生数据库
是否允许继续训练或二次训练
是否允许形成产品并对外经营
收益如何分配
安全责任如何承担
泄露、越权使用和再识别风险由谁负责
医疗衍生数据的产权配置,最终一定要落到规则化合同上。
(三)防止稀缺医疗数据资源被长期独占
医疗领域尤其要警惕一种趋势:
少数主体借助平台、资本或技术优势,对高价值临床数据资源、专病数据资源和真实世界验证场景形成长期排他性锁定。
这不仅会抬高行业创新门槛,也会阻碍数据要素市场的开放和公平。
因此,更适合倡导的是:
非独占授权
分用途授权
分期限授权
分层级开放
场景化收益分配
不能把具有明显公共属性和社会价值的医疗数据资源,简单变成个别主体的永久壁垒。
(四)患者利益反馈,应强调“可感知”,而不是机械“逐样本分红”
患者当然应当从医疗数据开发利用中受益。
但医疗行业并不适合简单走向“每个样本、每条记录、每次训练都逐一分红”的路径。
这既会显著增加制度成本,也未必真正有利于患者权益实现。
更现实的方式是:
强化知情和透明披露
完善伦理审查和用途说明
推动技术成果回流医疗服务
提升诊疗效率和服务质量
在条件允许时探索公益反馈、研究回馈和服务优化机制
患者利益反馈的重点,不在于形式上的逐样本分钱,而在于实质上的保护、透明和可感知收益。
07|结语:医疗衍生数据,不是谁“一家独有”,而应当分层配置、按贡献受益
医疗衍生数据产权问题,表面上是在问“归谁”。
但本质上是在回答:
如何让医疗数据既安全,又能流动;既保护患者,又鼓励创新;既防止垄断,又让投入者有回报。
未来更可行的方向,不会是“患者全有”“医院全控”或“企业全拿”中的任何一种极端模式。
而应当是:
患者保有原始信息的人格性与程序性权利
医疗机构处于资源持有与合规治理中枢
科技企业基于实质性创新取得加工使用权和产品经营权
各方按照真实投入、实际贡献和风险责任共享收益
医疗数据的未来,不在于“谁把数据拿走”,而在于“谁能在规则之内,把数据价值真正做出来”。
医疗衍生数据的制度答案,也不是简单归属,而是分层配置、按贡献受益。
▍文末金句
只有让保护归保护、创新归创新、收益归收益,医疗数据要素市场才能真正走向成熟。