摘要:在这个数据爆炸的时代,科学研究正经历着一场静悄悄的革命。想象一下,每天产生的科学数据如果打印出来,能绕地球好几圈!但问题是,这些宝贵的数据大多躺在各个实验室的硬盘里“睡大觉”,结果,就成了名副其实的“数据僵尸”。钱没少花;下次还得再重复劳动。为了避免这种情况,
本文来源于“海洋与湿地”(OceanWetlands):
文 | 王芊佳
本文约4700字,阅读约9分钟
在这个数据爆炸的时代,科学研究正经历着一场静悄悄的革命。想象一下,每天产生的科学数据如果打印出来,能绕地球好几圈!但问题是,这些宝贵的数据大多躺在各个实验室的硬盘里“睡大觉”,结果,就成了名副其实的“数据僵尸”。钱没少花;下次还得再重复劳动。为了避免这种情况,这不,一群聪明的科学家们想出了一个妙招——FAIR原则,让这些数据真正“活”起来。
说起数据共享的困境,科研圈的朋友们肯定都有一肚子苦水。你辛辛苦苦做实验得到的数据,别人想用、却找不到;好不容易找到了,又发现格式不兼容、打不开;就算打开了,也看不懂是啥意思。这种情况,就像你去图书馆借书,明明知道书就在馆里,却怎么也找不到;找到了又发现是外文原版(甚至是小语种),连个翻译都没有。更糟的是,很多研究结果因为数据不可获取,根本无法重复验证,搞得科研圈的朋友们都很头疼。
全球科研数据快速增长,但其中相当一部分的数据在论文发表后即处于不可用状态。“数据孤岛”的现象,普遍存在,不同研究机构、不同学科之间的数据难以互通共享。这种状况,已经严重地制约了科学研究的效率和创新。数据共享的困境不仅造成科研资源的巨大浪费,还导致大量研究难以重复验证。其中,数据不可获取是主要原因之一。
举例来说。让我们看看数据缺乏互操作性和可查找性给研究人员带来的困扰——想象一位研究人员,他研究一种非模式致病菌在不同环境条件下的基因表达情况。他发现了一些与致病性相关的基因,并想将这些基因与其他生物的同类基因进行比较。但是,由于缺乏针对这种特殊数据类型的数据库,以及针对该病原体的模式生物数据库,这位研究人员很难找到相关的数据。他需要花费大量时间去搜索不同的资源,并手动整合数据,这就大大地降低了研究效率。
第二个例子,生命科学领域有一些著名的专用数据库,如Genbank、wwPDB和UniProt,它们存储着大量的基因、蛋白质等数据。这些数据库就像一个个组织有序的“专卖店”,提供特定类型的数据,并有专业的策展团队进行维护,确保数据的质量和一致性。但是,并非所有的数据都适合存储在这些“专卖店”中。许多研究人员产生的数据类型多样,格式不一,难以被这些专用数据库所接纳。因此,出现了一些通用的数据存储库,如Dataverse、FigShare等,它们像一个“杂货铺”,接受各种类型的数据,但缺乏专业的策展和整合。这种多样性使得数据的查找和重用变得更加困难,就像在“杂货铺”里寻找特定商品一样,需要花费更多的时间和精力。
这时候,FAIR原则就像一场及时雨,给这个困局带来了转机。FAIR原则由来自学术界、产业界和出版界的专家共同制定,旨在建立科学数据管理的新标准。FAIR原则是2014年提出的,作为生命科学研究数据监管的一套最低指导原则和实践。
FAIR意味着四个基本原则——可查找性(Findability)、可访问性(Accessibility)、互操作性(Interoperability)和可重用性(Reusability),它们指导数据生产者和出版商克服这些障碍,从而帮助最大化当代正式学术数字出版所增加的价值。
找得到、拿得到
Findable, Accessible
这个原则可不是什么高深的理论,而是实实在在的“数据使用指南”。它告诉我们,科学数据应该像超市里的商品一样,找得到、拿得到、看得懂、用得上。听起来是不是很简单?但要做到这几点,可没想象中那么容易。
首先说说“找得到”这件事。现在的科学数据就像大海捞针,没有个明确的“地址”,找起来,可费劲了。FAIR原则要求给每份数据都配上“身份证”——唯一的标识符,还要有详细的“说明书”——元数据。这就好比给图书馆的每本书都编上号,还配上内容简介,找起来就方便多了。
现在很多期刊都要求作者上传数据时使用数字对象标识符(DOI),就是这个道理。DOI就像是数字对象的“身份证号码”,它由一串字母和数字组成,用于唯一标识一个数字对象,例如一篇论文、一份数据集、一张图片等。每个DOI 都是独一无二的。与网址(URL)不同,DOI是不会因为网页改版、网站迁移等原因而失效的。只要数字对象存在,DOI就会一直有效,保证用户可以随时找到它。而且,DOI通常会链接到包含数字对象详细信息的元数据,例如作者、标题、出版日期等,帮助用户快速地、节省精力地、也更好地了解和评估对象。
再说说“拿得到”。光找得到还不够,关键是要能拿到手。这里说的“拿得到”可不光是技术问题,还得考虑法律和道德问题。比如医疗数据,既要保证研究人员能用,又得保护患者隐私。这就需要在数据开放vs安全之间,找到一个平衡点。好在现在很多机构都在努力,像一些生物样本库就建立了严格的数据访问机制,既保护隐私、又促进科研。
在鸟类的监测中,FAIR原则的应用也能够提升数据的可用性和科学价值,从而更有效地支持鸟类迁徙研究和保护决策。研究人员通过卫星追踪、环志、自动录音设备和公民科学观测等方式收集候鸟的出现时间、地理位置、种类及环境参数,并将这些数据存储在全球开放数据库中,如GBIF或Movebank,确保数据的可查找(Findable)和可访问(Accessible),允许科学家基于已有数据分析气候变化、栖息地丧失等因素对候鸟迁徙模式的影响,为制定国际候鸟保护策略提供科学依据。©Linda Wong | 绿会融媒·“海洋与湿地”(图文无关)(CC BY-SA 4.0)
看得懂、用得上
Interoperable, Reusable
然后是“看得懂”。
你有没有遇到过这种情况:好不容易拿到数据,却发现格式千奇百怪,根本没法用?这就是FAIR原则要解决的第三个问题——互操作性。它要求大家都用统一的“语言”来描述数据,就跟秦始皇统一度量衡一样。
现在很多领域都在制定自己的数据标准,比如生物医学领域的OBO Foundry项目,就是为了让不同实验室的数据能够“对话”。OBO Foundry项目是一个开放的合作项目,致力于开发和维护一系列互操作的生物医学本体。这些本体为生物学和医学领域的各种概念(如基因、蛋白质、疾病、解剖结构等)提供标准化的术语和定义,从而促进数据的共享、整合和分析。OBO Foundry的本体被广泛应用于生物信息学研究和应用中。
在安达曼海域,潜水员观察到的白化的珊瑚碎片、海鳗等。摄影师:车车 | 绿会融媒·海洋与湿地(OceanWetlands)
最后是“用得上”。数据不仅要能用,还要能放心用。这就需要有详细的使用说明和规范的文件记录。
想象一下,如果你拿到一份菜谱,上面只写着“加盐少许”、或者是“抓一把胡椒”……,这时,你会不会很抓狂?其实,科学数据也是一样,需要有明确的“使用说明”。英国生物样本库(UK Biobank)在这方面就做得很好,他们的数据文档详细得就像一本使用手册。
海草中的多样生命。©摄影:王敏幹(John MK Wong)| 图文无关
实实在在的改变
告别“数据僵尸”,FAIR原则开启科研“快车道”
FAIR原则的推广可不是纸上谈兵,它正在实实在在地改变科研数据的管理方式。从数据采集、存储到共享,每个环节都有了标准化的流程。这就好比把杂乱无章的仓库变成了井然有序的超市,不仅提高了效率,还促进了跨学科、跨机构的合作。
举个例子,在欧洲生物信息学研究所(EBI),FAIR原则已经落地生根。他们建立的生物数据资源库,就像是一个巨大的“数据超市”,研究人员可以轻松找到自己需要的数据。EBI是全球领先的生物信息学研究机构之一,拥有庞大的生物数据资源库,包括基因组、蛋白质组、转录组等多种类型的数据。EBI的生物数据资源库不仅存储了大量的生物数据,还提供了强大的数据检索和分析工具,用户可以根据自己的需求轻松找到所需的数据,并进行后续的分析和研究。EBI还积极跟其他的国际生物信息学机构合作,共同构建全球生物数据共享网络,为全球研究人员提供便利。
在地球科学领域,国际科学理事会世界数据系统(WDS)也在推动建立统一的地球观测数据标准,让全球的气候数据能够互通有无。统一的气候数据标准和共享机制可以促进气候研究,科学家可以更方便地获取和利用全球气候数据、可以提高数据利用效率,从而更深入地了解气候变化规律。从标准的角度来讲,WDS会组织专家制定地球观测数据标准,包括数据格式、元数据、质量控制等方面。这些标准旨在确保数据的互操作性和可重用性。在认证数据上,WDS对符合标准的数据中心进行认证,这些认证的数据中心可以向全球用户提供高质量的地球观测数据。该机构鼓励数据中心共享其数据,并提供相应的平台和工具,方便用户查找和获取所需数据。
在生物多样性信息学领域,“海洋与湿地”(OceanWetlands)小编这个春节期间在参加自学,也注意到,全球生物多样性信息平台(GBIF)就严格地遵循了FAIR原则,确保其数据具备可查找性(Findable)、可访问性(Accessible)、可互操作性(Interoperable)和可重复使用性(Reusable)。所有数据集都配有数字对象标识符(DOI),便于追踪和引用,同时通过API和集成发布工具包(IPT)提供标准化的访问方式,确保数据的开放共享。GBIF推荐使用达尔文核心标准(Darwin Core, DwC)和生态元数据语言(EML),以实现数据的兼容性和互操作性。此外,GBIF要求数据发布者使用知识共享许可协议(Creative Commons),确保数据可以在不同研究场景下被重复利用,从而推动全球生物多样性研究的发展和科学合作。
【举例来讲】FAIR在“海洋与湿地”保护中的应用场景,
在海洋生物多样性研究中,FAIR原则可以应用在全球珊瑚礁健康监测上。研究人员通过水下摄像、潜水调查和遥感技术收集珊瑚礁生物群落的数据,并按照FAIR原则进行管理和共享。例如,所有数据都附有数字对象标识符(DOI),确保研究结果可查找;同时采用达尔文核心标准(Darwin Core, DwC)进行规范化处理,使其能够与其他生物多样性数据库互操作。开放访问的API允许全球科学家和政策制定者获取这些数据,用于分析气候变化、海洋酸化及其他环境压力对珊瑚生态系统的影响,并制定相应的保护措施。
另一个例子是对海洋哺乳动物分布的长期监测。科学家依托船载观测、声学监测和卫星跟踪等技术,记录鲸类、海豚及海豹的分布信息,并将这些数据存储在全球生物多样性信息平台(GBIF)等开放数据库中。FAIR原则确保这些数据按照统一标准存储,并使用开放许可(如CC BY)供研究人员自由下载和引用。这不仅提高了数据的可重复使用性,还使不同研究团队能够整合多源数据,分析物种迁徙模式、评估人类活动对其栖息地的影响,从而为重要海洋哺乳动物区域(IMMAs)的确定、以及未来海洋保护区的规划和管理提供科学依据。
从湿地科学上,FAIR原则在湿地水生生物和环境DNA研究中也具有重要的应用价值,可以提高数据的可用性、科学价值和可重复性,促进数据共享和跨学科研究,为湿地保护、生物多样性研究和生物保护决策提供有力支持。比如说,研究人员在全球不同湿地收集鱼类、浮游生物和底栖无脊椎动物的数据,并采用标准化的分类系统(如Darwin Core)进行整理,使数据具有良好的互操作性。所有数据都配有详细的元数据,包括采样时间、地理位置和环境参数,并存储在开放数据库中,确保可查找(Findable)和可访问(Accessible)。这样,全球湿地生态学家可以利用这些数据进行横向比较,分析气候变化、污染或栖息地破坏对水生生物的影响,为湿地保护和修复提供科学依据。
在环境DNA(eDNA)研究中,FAIR原则可以促进数据共享,提高研究的可重复性。科学家在湖泊、河流或海洋中采集水样,通过高通量测序技术检测其中的DNA片段,从而识别该区域的生物多样性。按照FAIR原则要求,eDNA数据都存储在开放数据库中,并附带详细的实验流程、测序平台和生物信息学分析方法,确保数据的可再用性。此外,研究人员采用生态元数据语言(EML)记录样本采集的环境信息,使这些数据可以与其他生态监测数据整合,实现跨学科的互操作性(Interoperability)。这就不仅加快了生物多样性调查的速度,也为区域内(或全球范围内)的生物保护决策提供了更可靠的、基础的数据支持。比如,“海洋与湿地”(OceanWetlands)小编注意到,上次联合国教科文组织的一个eDNA项目的存储都是开放获取的,遵循了FAIR原则。详情参见海湿往期的报道:《联合国教科文组织用eDNA技术揭示4500个物种新分布》。据悉,通过这个计划收集到的数据,全部上传到了联合国教科文组织的海洋生物地理信息系统(OBIS)上,任何人都可以访问这些信息,进行对比和分析。这种开放共享的方式,确保了全球的科学家和政策制定者能够共同利用这些数据,推动全球海洋保护工作的进展。
图源:obis.org
说到底,FAIR原则不仅仅是一套技术标准,更是一种科研理念的革新。它让科学研究从“闭门造车”走向开放共享,从单打独斗走向协同创新。从发展前景来看,数据标准是很重要的,笔者认为,FAIR原则的应用前景肯定会更加广阔。随着人工智能技术的发展,数据管理将变得更加智能和高效。想象一下,未来的科研助手不仅能帮你找到数据,还能自动分析、整合不同来源的数据,甚至提出新的研究思路。当然咯,从科技创新中伦理问题前瞻研究的角度来看,这也带来了新的挑战,比如数据安全、隐私保护、传统知识与资源的惠益分享等等多方面的问题,需要人们不断去探索和完善。
感兴趣的“海洋与湿地”(OceanWetlands),可以回过头去参看2016年的一篇很有影响力的研究的全文,访问量已经到了80多万:
Wilkinson, M., Dumontier, M., Aalbersberg, I. et al. The FAIR Guiding Principles for scientific data management and stewardship. Sci Data 3, 160018 (2016). https://doi.org/10.1038/sdata.2016.18
https://www.nature.com/articles/sdata201618
图源:Wilkinson, Mark D., et al.(2016)
不过,对于FAIR原则的批评也并非罕见。为了平衡,相反和批判的一个观点,读者们或许也可以看看下面的这个文章《FAIR数据原则:足够公平吗?》。该文章的作者提到,负责任地促进数据共享需要公平公正地评估数据共享请求,隐私和数据保护可能仍然是人类基因组学伦理和法律辩论的前沿:
Boeckhout, M., Zielhuis, G.A. & Bredenoord, A.L. The FAIR guiding principles for data stewardship: fair enough?. Eur J Hum Genet 26, 931–936 (2018). https://doi.org/10.1038/s41431-018-0160-0
海洋与湿地
专栏作者
(注:本文仅代表资讯、以及笔者学习笔记。不代表平台观点。欢迎留言、指正、讨论。)
资讯源 | Nature Data, GBIF等等
文 | 王芊佳
海湿编辑 | Linda Wong
排版 | 绿叶
Ocea
【引用本文】
王芊佳.让科学数据“活”起来的FAIR原则,到底是啥?.海洋与湿地.2025-02-03
全球环境治理·海湿前瞻
Mainstreaming OceanWetlands
雨后 ©摄影:Linda Wong | 绿会融媒·“海洋与湿地”
【主要参考资料】
https://www.nature.com/articles/sdata201618
https://docs.gbif.org/course-introduction-to-gbif/en/principles-of-gbif-mediated-data.html
https://www.nature.com/articles/s41431-018-0160-0
【思考题】儒艮曾广泛分布在中国南海水域,但逐渐不见踪影。2022年8月,国际科学家团队宣布儒艮在中国功能性灭绝。儒艮还能重返中国海域吗?你怎么看?(封面图摄影:©摄影:王敏幹(John MK Wong) | 绿会融媒·“海洋与湿地”)
来源:中国绿发会