NIH禁止中国访问核心数据库是怎么回事?

360影视 欧美动漫 2025-04-08 18:41 1

摘要:一个刷屏科研圈的新闻: NIH突然禁止中国研究人员使用核心数据库 。起因是NIH在4月2日发表的一份公告,通知从4月4日起,禁止6个国家访问NIH的 受控数据库 ( controlled-access data repositories )。

一个刷屏科研圈的新闻: NIH突然禁止中国研究人员使用核心数据库 。 起因是NIH在4月2日发表的一份公告,通知从4月4日起,禁止6个国家访问NIH的 受控数据库 ( controlled-access data repositories )。 几个需要注意的点——也是网上不少说辞有混淆的地方。 第一, 限制中国在内数个国家地区对NIH部分数据库的访问是过去一年多美国法律推进的结果,很难说“突然” 。 NIH通告里引用了两条法规,一条是2024年2月颁布的行政令EO14117,这是拜登政府发布的限制一些国家获取美国个人敏感信息以及美国政府信息的行政令。该行政令提出个人基因组信息在内的一些生物学数据属于敏感信息,源于美国境内的数据不能传到包括中国在内的部分国家。 另一条被引用的 28 CFR Part 202,是美国司法部依据 EO14117做出的最终法规。 EO14117和 28 CFR Part 202是典型的美国立法方式,行政令或国会立法给出框架,相关部门,比如这里的美国司法部根据框架再确立具体条规。 28 CFR Part 202是美国司法部基于 EO14117给出的最终法规,公布时间是2024年12月27日,生效时间是2025年4月8日,里面给出了诸如多少数量的个人基因组数据属于大量等具体规则。 NIH 4月2日通告限制中国等地访问部分NIH管理的数据库,是执行司法部的 28 CFR Part 202,从 EO14117算起,整个事件演变超过一年,并非突然。 第二, 受限的是NIH部分数据库,很多常用的NIH数据服务不受影响 。 说到有NIH数据库不能用,很多人第一反应是文献数据库pubmed这类生物医学最常用的数据库不能用了,但这属于误解。 NIH通告里明确说了受限制的是 受控数据库 ( controlled-access data repositories )。 NIH数据库可以分为两个类型,一个就是 受控数据库 ,另一类是 开放数据库(open access) 。前者由于具有个人基因组信息、医疗信息等敏感内容,使用本就有规则,需要注册,获的授权后才能访问。而大家熟知的pubmed是开放数据库,并非受控数据库,不受NIH新规定影响。 NIH网站上有列出21个受控数据库: 这些受控数据库涉及 EO14117和 28 CFR Part 202提到的个人基因组信息等敏感信息。NIH针对中国等国家的限制,等于是在受控数据库访问的规则里加入里地理限制,中国等地的研究人员不能取得相关访问权限。 第三, 一些NIH数据库有“受控”与“公开”两个分级 ,受影响的是前者,不影响“公开”级别数据的使用。 我们以实例说明被限制的“受控”到底是怎么回事。 从上表可见NIH列出的多个受控数据库都属于 dbGaP Access System 。该系统全名是 The database of Genotypes and Phenotypes,是存储基因型与表型数据的平台。 美国国立癌症研究所(NCI)有一个针对癌症研究的基因组数据库: 癌症基因组学数据共享中心( Genomic Data Commons,简称GDC) 。做肿瘤研究经常遇到的数据库 TCGA 就是GDC的一部分,而GDC又建立在 dbGaP之上。 TCGA数据有两个层级,一个是“公开”(open access),任何人打开TCGA都可使用,不需要获取特殊许可。该“公开”层级的特点是不具备可追溯到个人的信息。举个例子,你可以用TCGA看EGFR突变这种致癌突变在不同肿瘤类型里的比例。 但TCGA也能提供更细致的信息,比如某份肿瘤样本的原始测序数据,这就属于“受控数据”,必须取得GDC的 受控数据访问权限 方能获得,GDC网站上也有取得权限的流程示意图: “受控数据”需要权限显然有重要的隐私保护考虑,毕竟这些数据更容易追溯到具体个人。 但EO14117和 28 CFR Part 202加入的是国家安全要求,认为此类数据如果传输到部分国家,不仅威胁到隐私,还有国家安全问题。NIH基于此执行的新规,也就意味着中国等地的研究人员无法获得相应访问、使用权限。 了解了这些,我们也能推测,NIH此次禁止中国研究人员使用部分数据库,受影响最大的是那些此前注册了相关访问权限,深度使用这些受控数据库的科研工作人员。如果此前从未寻求过那些受控数据库的使用权限,受到的影响有限。 考虑到近年来欧美出于隐私、国家安全等多个因素,对基因组等敏感数据的管控越来越严,依赖欧美“受控”级别的基因组、医学数据做研究,本来也过于冒险。 网上对某些数据库的重要性描述似乎也令人难以理解。比如SEER,这是美国本土的癌症流行病学数据库,包括美国这里的各种肿瘤发生率、预后情况。作为目前全球最大、最全的肿瘤流行病学数据库,中国的研究人员想参考其中数据做研究可以理解,可这毕竟是在美国收集到的患者数据,不同肿瘤的发病率、标准治疗方案等均可能与中国本土数据相去甚远。 如果一项在中国的研究离开SEER就无法实行,那么这项研究到底是在琢磨什么?又有多大必要非在中国做呢

来源:财经大师

相关推荐