智库报告
位置: 首页  >  智库报告  >  【报告】世界经济论坛:联合数据联盟模型中共享敏感的健康数据——八步指南
【报告】世界经济论坛:联合数据联盟模型中共享敏感的健康数据——八步指南
2020-09-04 18:00:00 作者:赛博研究院 
关键词:数据 


【编者按】数据是第四次工业革命的助燃剂,如何保护有价值的数据(尤其是敏感的个人数据)是世界各国制定数据政策的核心。2020年7月,世界经济论坛(WEF)发布《联合数据联盟模型中共享敏感的健康数据:八步指南》(Sharing Sensitive Health Data in a Federated Data Consortium Model:An Eight-Step Guide),旨在为全球范围内的决策制定者、卫生医疗专业人士以及第四次工业革命的引领者提供指导,帮助其制定健康数据治理政策。报告认为:建立联合数据联盟模型(Federated Data Consortium Model)能够实现快速且安全的数据访问,并通过数据驱动的方法为患者提供个性化的疾病诊断和治疗方案。该模型遵循八步指南:建立并维持信任、发现数据联合问题、采取激励措施提高组织能力、确定资源、识别制度或政策差异、建立治理模型、结构化数据、部署API技术。


微信截图_20200908160659.png


0 介绍


通过联合数据联盟模型获取全球健康数据将揭示疾病的原因,寻找治疗方法


数据共享和互操作性方面的差异是阻碍广泛采用个性化医疗手段的关键,精密医学的发展取决于健康数据的聚集性和可用性,特别是对于基因组数据,其存储和分析的成本通常比较高。访问和使用敏感的健康数据需要格外谨慎,并构建强有力的数据治理协议来指导这一过程。


为应对跨境获取健康数据的治理挑战,WEF于2018年7月至2020年7月开展了“打破健康数据壁垒”项目。项目选择了具有良好数据治理经验的国家,建立分布式联合数据系统,并测试其效率,使患者隐私和数据安全得到优化。鉴于数据的敏感性,这些数据必须保留在一个国家或机构内部,尽管联合健康和基因组数据集利用率正在增长,但是如何由某一机构来实际创建联合数据系统尚不清楚。WEF与澳大利亚、加拿大、英国、和美国基因检测机构开展密切合作,创建并领导了一个多利益相关者社区,以确定如何最大程度地利用联合基因组数据来诊断罕见疾病和最小化风险。


如图1所示,该八步指南将用于建立联合数据联盟,以便使用来自全球分布式数据集的基因组数据诊断罕见疾病。在创建数据联盟之前,需要认真考虑如何有效地制定和实施清晰的治理结构。全球联合数据联盟为改善治疗方案提供了巨大的机会,但也需要具备强大的安全性,并不断改进政策以防范不良行为者、数据泄露或其他类型的可预防风险。


微信截图_20200908160854.png

图1 建立联合数据联盟的八个步骤


1 步骤一:建立并维持信任


建立信任至关重要,需要正确的合作伙伴、全面的关系建立和领导团队的支持


选择合作伙伴

在建立合作关系之前,需要为数据联盟选择最佳合作伙伴,并且通过面对面会谈对合作伙伴进行审核,主要审核项包括:(1)每个机构当前正在收集什么类型的数据;(2)各个机构如何通过行为准则或其他指导文件开展日常业务;(3)每个机构如何控制其长期或短期资金。确保在满足机构优先事项需求和能力范围内实现承诺和预期成果非常重要。


鼓励信任,优先建立合作关系

与潜在合作伙伴建立信息至关重要,但是如何建立信任关系因国家和地区而异。《哈佛商业评论》认为:在北美和欧洲,信息公开、允许“要信任,也要查证”(trust but verify)是最常见的策略;在东亚国家,通常需要成功的业绩来证明能力并建立声誉;在中东和南亚国家,可能通过从“信任然后查证”过渡到“查证然后信任”来建立关系;在拉丁美洲,基于社会互动和业务互动,确定共享价值观至关重要。WEF研究发现,由于来自同一地区的机构在信任度评估方面具有相似性,因此他们之间相互建立信任关系的方式更加便捷,地理、文化不同的机构往往需要更长的时间,但是共同的目标都在于实现基因组学和个性化医疗的长远价值。


领导支持

建立信任后,了解每个潜在合作伙伴组织的领导者支持力度至关重要。加入数据联盟不是一个附属项目,它需要对人员和资金进行持续再投资,并且需要机构内部各个层级不断学习。


2 步骤二:发现数据联合的问题


当解决方案需要利用分布式数据集时,联合方法有助于解决特定问题


确定联合数据联盟可以解决的问题

由于80%的罕见病患者是由遗传或基因组变异引起的,因此增加对基因组数据的访问可以改善这些问题。但是鉴于全球复杂的数据政策格局,基因组数据无法轻易跨境或跨机构转移到集中式数据湖或其他数据池。WEF认为联合数据系统的远程数据访问方法无需转移数据,就可以支持临床医生和研究人员访问不同的数据集,继而支持诊断和治疗。


确定联合方法是最合适的解决方案

联合方法是解决数据核心问题,即在保护敏感数据的基础上允许以创新和信任的方式使用数据。联合数据系统使用由应用程序编程接口(API)启动的多个互连节点,支持地理上不同的数据系统和数据格式的数据访问。联合数据系统利用并依赖于节点上的通用体系结构,具有一组通用的隐私保护、安全性、身份验证和审计功能,以使所有数据站点都遵循相同的规则和核心原则。


3 步骤三:采取激励措施提高组织能力


对于参与数据联盟的每个机构,了解其参与原因及其贡献能力


了解参与数据联盟的动机和目标

在“打破健康数据壁垒”项目中,机构加入联盟的初始目标通常在于改善患者的治疗状况,但在实践中其目标会不断发展,主要动机表现为:(1)发现,增加数据集以发现罕见病例并诊断曾经无法诊断的病例;(2)改善和扩展基因组学的应用,机构或国家/地区中的联合数据集使研究人员可以通过访问精密医学所依赖的各种数据集来减轻工作量。(3)鼓励国际合作,机构希望实践中促进全球基因组数据的访问,从小规模开始,建立鼓励复制、修改和共享的模型。数据联盟必须能满足每个合作伙伴的一个或多个目标,否则他们无法获得足够的利益,继而丧失参与的动力。


共享每个机构为联盟做出的贡献

必须披露每个参与者维护数据联盟预期利益的能力,当前数据集特征和未来数据集收集计划的透明度将帮助联盟了解如何实现预期目标,防止某一机构成为数据垄断者。数据联盟合作伙伴之间的数据不平衡可能会造成结构上的不平等,并导致决策层面潜在的权利冲突。从每个潜在合作伙伴了解有关未来数据收集方案和数据集增长趋势信息,是衡量机构当前和未来能力的有效方法。


与所有潜在合作伙伴进行数据审核

通过数据审核,了解每个机构在短期和长期内可以共享的数据类型至关重要。无论是通过调查还是监视机制,每个机构都应共享有关其本地化数据库中已有数据的类型和数量。作为一般指南,应指导数据分类,在没有数据审计的情况下,数据类型的差异最终会限制通过联合查询获得新见解的可能性,并制约数据联盟交付数据的能力。


4 步骤四:确定资源——团队领导和资金


在决定加入联盟后,联盟运营需要有活力的团队和稳定的资金


在每个合作伙伴机构中寻找内部标杆

建立一个成功的数据联盟需要首席执行官或同等领导力的支持,在合作伙伴中选择标杆运营团队也是必要的。建立和运行数据联盟需要在不确定的环境下进行,每个合作伙伴内部标杆团队必须知道如何在给定机构中指导多个分支机构。数据联盟需要跨多个团队开展工作。理想情况下,这个内部标杆还需具有足够的机构影响力,可以推动决策的制定,否则某些决策将陷入停顿状态,或完全阻碍数据联盟的创建。


确保资金来源,保持持续参与

每个机构都必须有明确的资金来源,资金流需要保障三个方面的工作:(1)确保数据集结构合理且可互操作;(2)构建和实现应用程序编程接口或API;(3)管理数据系统的升级或技术组件的改进。资金不一定需要从外部来源获得,也可以采用内部投资或承诺的形式,以维持各机构所在地的业务。


制定经济框架以证明投资合理性

如果对数据联盟的长期投资回报存在担忧,则可以开发经济模型来估算参与联盟的定量和定性回报。但是,如果领导层发生变化,分配内部资金和创建经济框架并不能保证为数据联盟提供长期资金。数据联盟通常以领导者或领导团队的离开导致先前分配的资金流枯竭而结束。因此,寻求外部资金或建立一个独立的实体来保障联盟的资金流可能是最安全的途径。


5 步骤五:识别制度或政策差异


不同机构在领导、法律和技术方面会有差异


与外部中立的机构合作,组织透明的讨论

建议选择一个公正的、不与任何潜在合作伙伴有联系的外部机构亲自参与联盟中每个合作伙伴的会谈。一个公正的合作伙伴至少需要披露三方面关键信息:(1)数据收集和同意规范:如何收集数据?患者是否知道为什么要收集数据?(2)运营规范和标准:每个机构将如何在联盟内部运作?(3)技术标准:如何管理数据集以确保数据安全性、完整性和患者隐私?数据联盟的所有潜在合作伙伴应清楚地共享这三类的信息(下图为建议的详细问题),因为这些问题的答案会指导联盟总体治理框架的创建。



微信截图_20200908163032.png

图2 建立联合基因组数据联盟所需的指导原则


识别实践中无法预料的制度差异

确定数据收集、操作规范或技术标准中的差异至关重要,在合作之前,合作伙伴需要就数据收集、操作规范或技术标准进行进一步讨论甚至加以修改。只有每个机构在内部就其政策规范达成共识,并与数据联盟的潜在合作伙伴透明地共享此信息,才可能构建治理模型。政策差异可能会促使拥有广泛同意政策的机构考虑是否修改政策。文化差异可能会导致同意政策的差异。但是,通过了解全球领导者实施的创新性方案,促成这些对话可以帮助机构改善其自身的数据政策。


6 步骤六:建立治理模型


强大的基础原则和详细的操作标准,可以帮助实现自定义的治理模型


利用现有政策

机构可以借鉴现有的数据联合体策略来共享数据,包括一些敏感健康数据的共享策略。例如,GO FAIR数据原则通常用作欧洲健康数据联盟的行业标准。GO FAIR是一项自下而上,由利益相关者驱动且自治的计划,旨在实施FAIR数据原则,使数据可查找、可访问、可互操作和可重用(FAIR)。创建治理模型可以采用混合方法,从现有框架中获取基本原则,也可以从零开始设计专门针对一组合作伙伴的标准。


在步骤5中回答的问题可以指导建立联盟的治理模型,在“打破健康数据壁垒”项目中,WEF确定了每个合作伙伴既有政策的异同。该项目采用了两套特定的既有基础原则:科学数据管理的FAIR指导原则和加拿大的《开放科学路线图》(Roadmap for Open Science),这些原则与合作伙伴各自的协议领域保持一致,并可以指导未来的联盟决策。


第2部分:制定联盟数据治理标准

制定联盟数据治理标准的目标在于为所有联盟合作伙伴提供有关数据收集和同意政策的详细信息,并充分考虑是否改变机构现有政策以及行业标准的动态变化。清晰的变更管理流程(何时可能需要重新审视标准,或者什么情况下需要进行决策)有助于将清晰的数据治理标准纳入数据治理模型。因此应在联盟内部建立明确的决策结构。


步骤七:结构化数据


结构化的数据可以确保高效地使用数据


在“打破健康数据壁垒”项目中,WEF发现,即使每个机构完成并共享了数据审核的结果,但是也不清楚每个机构的数据是如何组织和注释的。此外,过去收集的数据集通常与最近收集的数据集结构不同。数据结构主要取决于数据由谁、在何时、通过什么样的技术共享给指定机构,并且受到领导层变更和管理机制变更的影响。所有机构都渴望寻找改善其数据结构的方法,以便在数据分析中尽可能有效地利用数据。


步骤八:部署API技术


有了合适的合作伙伴、清晰的治理模型和技术概念证明,就可以部署数据查询技术了


实施API以激活数据查询功能

每个机构的技术团队均需对用于联合数据联盟的API进行编程,以使它们能够实现数据联盟治理模型中商定的原则和标准(步骤6)。联盟中每个合作伙伴的技术团队必须使用一致的系统。随着联盟的目标和宗旨变化或其他合作伙伴的加入,系统将需要进行更改,并且具备明确的变更管理流程。


制定KPI

最后,至关重要的是,必须根据公认的关键绩效指标(KPI)有效跟踪通过联合数据系统访问的数据,以及随后的临床或研究结果。KPI制定取决于API的构建。可以在技术部署之前建立并明确跟踪特定数据或研究成果的KPI,但前提是技术团队具有深入参与建立数据治理模型的能力,但现实情况并非如此。考虑到创建治理模型和部署API技术所需的时间,许多联盟可能无法制定KPI,直到联盟启动并运行后,才只能根据其实现目标的效率考虑在数据系统的技术方面制定KPI。


9 总结

参与敏感的健康数据联盟是最大化开发存量数据的唯一方法,这些数据位于全球各个数据孤岛中。在实践中创建联盟是一个持续的过程,需要进行数月的非正式谈判,最终建立清晰的治理模型,组建良好的运营团队。


编译 | 李顾元/上海社会科学院信息所研究生


本文由赛博研究院出品,转载请注明:本文来源于赛博研究院公众号。

更多精彩内容请关注“赛博研究院”公众号。


微信图片_20200908114614.jpg