15位大咖万字追问:所有数据都值得保存吗?

360影视 2025-01-22 17:02 3

摘要:他专注于神经科学、理论物理学和人工智能的交叉领域,致力于理解大脑复杂的动态系统及其功能。他的研究涵盖神经网络的动力学、信息处理机制以及大脑如何在健康和病理状态下实现复杂的认知任务。

文 | 追问Nextquestion

随着数据规模的指数级增长,神经科学家面临着一个重要的挑战:我们是应该保留所有原始数据,还是着重关注经过处理的数据集呢?

麻省理工大学麦戈文脑研究所科学家Nima Dehghani就此询问了15位实验研究者和理论研究者的看法。为便于阅读和理解,追问编辑对部分文字进行了修改。

主持人

Nima Dehghani

麻省理工大学麦戈文脑研究所科学家

他专注于神经科学、理论物理学和人工智能的交叉领域,致力于理解大脑复杂的动态系统及其功能。他的研究涵盖神经网络的动力学、信息处理机制以及大脑如何在健康和病理状态下实现复杂的认知任务。

经过处理的数据和原始数据均有其独特的优势与挑战,洞悉这二者之间的利弊权衡,对于决定该保留何种数据以及如何最大限度地利用我们所生成的数据至关重要。

神经科学正处在十字路口。电生理学和光生理学领域的最新进展,比如神经像素探针和光片显微镜技术,拓宽了我们能够从大脑中记录信息的边界。这些技术正在生成海量的数据——单次实验就能产生价值数PB的数据量,远比我们以往处理过的数据量要多得多,这也引发了一场至关重要的讨论:

我们该如何存储并获取所有这些信息?

我们是应该保留所有原始数据,还是着重关注经过处理的数据集呢?

如果无法保留所有数据,我们又该如何决定舍弃哪些数据?

原始数据是实验最完整且未经筛选的记录,捕捉了每一个细节,包括那些起初看似无关紧要的部分。对于某些类型的研究而言,原始数据是不可或缺的,尤其是在发掘新方法或发现新见解时。例如,改进的尖峰分类算法可能从当前看似背景噪声的活动中提取出有意义的图示。

保留原始数据还能够增强科研的透明性和可重复性,这是严谨科学研究的两大支柱。通过保存原始数据,我们可以让其他研究者验证我们的发现,甚至揭示起初未曾显现的新见解。近年来,原始数据也成为训练人工智能模型的重要素材,而人工智能模型正日益成为神经科学研究中的广泛工具。

另一方面,尽管原始数据极具价值,但经过处理的数据在科研生态系统中也起着同等重要的作用。经过某种预处理的数据,比如尖峰分类、滤波或去卷积处理后的数据,往往更便于共享和使用。

共享经过处理的数据还能减轻那些希望重复使用数据集的人员的负担。研究人员无需重复所有预处理步骤,而是可以基于他人的工作成果,将精力集中在新的分析或解读上。这种效率在神经科学等协作性强的领域尤为重要,因为不同的专家可能在研究过程的不同阶段做出贡献,而一些研究人员(例如专注于建模而非数据采集的理论学家)可能并不精通数据预处理的细节。

图 1: 艰难的抉择:尽管理想的情况可能是同时保留原始数据和经过处理的数据,但存储成本和访问限制迫使许多实验室不得不做出艰难的取舍。插图作者:丹尼尔·巴雷托(Daniel Barreto)

经过处理的数据和原始数据均有其独特的优势与挑战,洞悉这二者之间的利弊权衡,对于决定该保留何种数据以及如何最大限度地利用我们所生成的数据至关重要。尽管在理想情况下可以同时保留两者,但存储成本和访问限制迫使许多实验室不得不做出艰难选择。

存储原始数据成本颇高,无论是从物理存储基础设施方面,还是管理如此大规模数据集的复杂程度来讲都是如此。云存储解决方案或许能够随着数据需求的发展而扩展,但确保数据完整性的费用和长期管理的挑战不可小觑。在数据访问方面,庞大的数据集规模使得研究者难以高效下载和分析数据。这种障碍促使人们开发了如“延迟加载”(lazy loading)等策略,即仅在特定分析需要时访问必要的数据部分。这种方法虽然高效,但需要复杂的数据管理基础设施,并对习惯于传统数据访问方式的研究者构成一定的学习挑战。

图 2: 质量控制:为鼓励数据的重复使用,所存储的数据应当具备最高质量。然而,科学界尚未就质量评估与控制的方法达成共识。

神经科学在管理大型数据集方面可以向粒子物理学和天文学学习。几十年来,欧洲核子研究组织(CERN)和美国国家航空航天局(NASA)一直在处理海量的数据,为未来的分析保留了粒子碰撞及太空任务中必要的原始数据。它们在支持长期科研方面取得成功的根源在于,通过精密的集中式仪器进行数据采集以及配备专门的数据处理团队——正是这样的基础设施使得有效管理和保存规模极大的数据集成为可能。

神经科学或许可以沿着类似的路径前进,逐步向共享的高级实验资源和集中化的数据处理团队迈进。艾伦研究所的 “开放视野”(OpenScope)项目——首个此类神经科学观测站,便是这一趋势的例证。在这里,标准化的数据采集和处理为高质量数据集提供了广泛的访问途径,使研究人员能够专注于特定的科学问题,而不会深陷于数据采集和预处理的细节之中。

尽管面临这些挑战,保留原始数据也变得越来越重要,因为它具有推动未来技术进步的潜力。在我们努力应对数据管理的实际问题时,还必须考虑到这些庞大且丰富的数据集所带来的机遇。

01 原始数据会带来新的见解和成果

实验研究者:Christophe Bernard,艾克斯-马赛大学与法国国家健康与医学研究院研究员

Christophe Bernard 是法国艾克斯-马赛大学系统神经科学研究所(Institut de Neurosciences des Systèmes)的一位知名神经科学家。他目前正在研究癫痫发作的发生和传播机制;记录和控制神经元活动的有机电子学以及虚拟老鼠大脑。

作为一名使用神经像素探针开展工作的神经生理学家,我亲身经历了本文所讨论的数据管理挑战。在我们最近的一项研究中,我们对正常和癫痫动物进行了长达三周几乎不间断的记录,生成了一个独特的数据集,数据量约为1 TB。这庞大的数据量迫使我们设计了一套专门的数据传输和存储系统,也凸显了现代神经科学领域中数据管理所面临的实际难题。

保留原始数据还是仅留处理后的数据,这一困境与我们工作密切相关。我的经验表明,回顾原始数据往往能带来新的见解和结果,因为随着时间的推移,新的分析方法会不断出现。但共享如此大数据集以支持开放科学挑战重重,即便是在高速互联网连接条件下(假设网速为100 Mbps),下载1 TB数据的乐观估计时间也需约22小时。如此漫长的时间使得大多数研究者难以远程访问和处理这些数据集,从而可能限制协作和研究的可重复性。在这种情况下,如何在数据保存的需求与数据的可访问性及开放科学原则之间找到平衡,仍是一个关键挑战。

02 访问原始数据和处理后数据至关重要

理论研究者Zhe Sage Chen,纽约大学医学院副教授

Zhe Sage Chen博士是纽约大学(NYU)医学院的副教授,担任精神病学、神经科学与生理学以及生物医学工程系的教职。他同时也是计算神经科学、神经工程和神经精神病学实验室(CN3实验室)的负责人。在加入NYU之前,Chen博士曾在麻省理工学院(MIT)、哈佛医学院和理化学研究所(RIKEN Brain Science Institute)工作。

作为一名计算神经科学家,我致力于开发新的分析工具,以揭示大规模神经数据中的潜在结构或表征。我始终认为,能够访问原始数据和处理后数据,以及配套的完善元数据文档,至关重要。

首先,能够检查原始数据中的所有信号和噪声非常重要,这能让我们测试新的方法和假设,并从原本被视为噪声的部分中发现新的结构或特征。同时,处理后数据的存在可以让我们直接与标准化的数据进行比较。在实际研究中,我发现同时保留两种格式的一些代表性数据集,并针对这两种形式开展对比分析是一种有效的方法。元数据在从公共数据仓库中挖掘数据时尤为关键,尤其是在没有合作的实验科学家来解答数据采集和实验细节问题时。

关于保存哪些数据的问题,答案可能取决于数据的性质。例如,对于行为数据和钙成像数据,保留最高时间分辨率的原始格式是首选;而对于标准的EEG(脑电图)或局部场电位(LFP)记录,将数据保留在较低采样率可能更为方便。

最后,基于多模态神经记录开发基础模型,将受益于能够同时访问原始数据和经过处理的数据。处理后数据可以被视为原始数据的第一阶段特征提取。然而,处理后数据是否是自监督学习范式(常用于大语言模型和基础模型)中的最佳信息载体仍有待验证。在基础模型中使用原始数据还是处理后数据,可能还取决于目标下游任务的需求。总的来说,从科学问题的角度来看,我能明确看到保留原始数据的价值和必要性。

03 谨慎地对资源进行优先级排序

实验研究者Liset M. de la Prida,卡哈尔研究所神经回路实验室负责人

Liset M. de la Prida 博士是西班牙卡哈尔研究所(Instituto Cajal, CSIC)的神经回路实验室负责人,专注于研究海马微回路的动态如何支持记忆功能。她在神经科学领域的研究为理解记忆形成和神经回路功能提供了深刻的见解。她的工作对神经科学的基础研究和临床应用均具有重要影响。

开放数据倡议具有变革性意义,我们完全支持朝着这个方向推进。但作为实验研究者,我们面临着一些值得探讨的挑战。在我们实验室,我们投入了大量精力,力求以一种既有意义又便于使用的方式来共享数据和代码。全面的文档记录至关重要,因为不同类型的实验——无论是记录单细胞、使用硅探针还是部署神经像素探针——往往需要独特的设置以及专门定制的解决方案,以便妥善地对设备进行同步。

这就导致数据文件在格式、长度和结构方面各不相同,所有这些都需要仔细整理,以确保它们能够独立地被重复使用和共享。鉴于此,投入到全面数据存储和元数据生成上的精力可能相当大,这要求我们谨慎地对资源进行优先级排序。

理解数据的细微差别同样至关重要。大脑的复杂性带来了诸多可变因素,而这些对于推广研究结果极为关键。诸如睡眠、性别、激素状态、遗传背景以及其他环境影响等因素——包括动物与实验人员之间的关系或者实验的具体操作方式——都可能对实验结果产生显著影响,有时这种影响还很微妙。这些因素并非缺点,而是科学研究过程中的重要方面。在某些情况下,存储记录详尽的数据所需的成本和精力会超过重新开展实验的益处,尤其是当研究重点在于推动新发现时。

04 数据预处理的能力需要多年训练

实验研究者Anna Devor,美国波士顿大学生物医学工程系教授

Anna Devor 博士是波士顿大学生物医学工程系的全职教授,专注于神经影像学和脑功能研究。她曾在加州大学圣地亚哥分校和马萨诸塞州总医院从事研究工作。她的研究旨在开发实时检测大脑活动的技术,并将这些测量与系统级分析和功能性磁共振成像相结合。

支持数据预处理有一个理由,那就是原始实验数据里常常会有一些 “瑕疵”,像是因为实验对象的运动、仪器的噪声和不稳定、不同测量方式之间互相干扰,还有一些不必要的生物物理过程等,这些都会导致数据出现伪影。例如,神经科学中的一个典型案例是荧光图像中的血流动力学暗化现象,这是由于血流动力学反应期间血红蛋白光吸收增加引起的。对于实验科学家来说,识别并解决这些问题的能力需要多年训练才能培养。

在许多情况下,这些伪影可以通过预处理去除。以血红蛋白吸收为例,可以通过估算血红蛋白浓度的变化并对信号进行适当缩放来校正荧光强度。其他例子包括结合电生理记录与光学成像或光刺激的实验中可能出现的电干扰和光电效应。在这些情况下,线性分解方法(如主成分分析和独立成分分析)常被用于隔离并去除伪影。如果没有预处理,这些伪影可能会主导数据的方差,从而使数据对训练人工智能模型和其他计算应用几乎毫无用处。换句话说,这种情况下需要由熟悉数据采集本质的专家来进行预处理,以确保数据的有效性。

05 获取原始数据对我们来说至关重要

理论研究者Gaute Einevoll,挪威生命科学大学与奥斯陆大学物理学教授

Gaute Einevoll是挪威生命科学大学和奥斯陆大学的物理学教授。1991年,他获得了凝聚态物理学博士学位,并在1991年至1994年期间作为加州大学圣地亚哥分校的研究员接触了神经科学。他一直在计算神经科学领域工作,最初在特罗姆瑟大学工作,自1996年以来在奥斯陆郊外的挪威生命科学大学工作。自2007年以来,他一直是国际神经信息学协调机构(INCF)挪威节点的联合负责人,自2013年欧盟人脑项目启动以来,他就是该项目的合作伙伴。他积极推广科学,目前正在制作播客“Vett og vitenscap med Gaute Einevoll”。

通常很难预见到一个数据集的所有可能应用。例如,大多数使用多触点电极(如现代神经像素探针)记录细胞外电位的研究者通常只关注信号中包含高频部分的尖峰。因此,出于实际考虑,他们可能倾向于仅存储高通滤波后的信号,甚至只存储通过尖峰分类算法提取的尖峰时间点。但我们团队会利用这类数据来约束神经网络模型。在这种替代性应用中,电位的低频部分,即局部场电位(LFP),是关键。因此,能够访问原始数据对我们至关重要。

对原始数据进行的任何一种处理都会去除信息,因此优先获取原始数据总是更为理想。但如果只能存储处理后的数据,则必须详细描述处理过程,以便例如将相同的过程应用于生物物理模拟中生成的虚拟数据。只有这样,才能在实验之间进行定量比较。

06 在数据收集多年后,我才发现可以改进之处

实验研究者André Fenton,纽约大学神经科学系教授

安德烈·芬顿(André Fenton)博士是纽约大学神经科学系的教授,专注于研究大脑如何将经历转化为记忆,以及在表达知识时如何激活相关信息而不激活无关信息。他在神经科学领域的研究为理解记忆形成和神经活动与认知功能之间的关系提供了重要的见解。

数据管理日益成为实验研究者们关注的问题,尤其是随着来自神经像素(约 50 GB)和钙成像(约 30 GB)等技术的数据集不断扩大。1992 年我刚开始读研究生时,我们使用连接示波器的窗口判别器记录 288 KB的数据文件,记录下 16 分钟时段内的锋电位计数以及大鼠的位置信息。十年后,我们改用四极管配置的电极,生成了 50 MB的原始数据文件,从中我们可以分离出单个神经元单元,并为每个神经元创建仅有 100 到 200 KB的精简文件。如今,我们通常会从神经像素数据中提取 200 到 500 个单个神经元单元,并将它们存储在精简的时间序列文件(约 20 MB)中用于分析,很少再去查看原始数据了。

尽管如此,存储原始数据仍然至关重要。在很多情况下,我都是在数据收集多年后才发现可以改进之处或者纠正其中的错误,例如通过使用三次样条进行重采样,提高单元辨别率10%,或检测到数据采集中的时间错误。只有我们保存了原始数据,这些情况才有可能出现。与重新进行实验所需的人力和财力资源相比,存储这些文件的成本微乎其微。例如,一个64通道的硅探针约花费1000美元,而同样的1000美元可以购买64 TB的存储空间,足以保存约7,000小时的原始记录。

虽然原始数据存储的成本较低,但长期管理此类数据超出了大多数实验室的能力范围。作为一个科研群体,我们需要采用诸如“无边界神经数据”(Neurodata Without Borders)以及多尺度电生理数据格式(Multiscale Electrophysiology Data),以确保数据既能被保存又便于获取。从自给自足的文化向共同责任的文化转变,需要机构层面的基础设施、资金支持以及广泛应用这些标准,从而确保我们的数据集能够推动未来的发现。

07 所有这些数据都同样有用吗?

信息学家Satrajit Ghosh,麻省理工学院麦戈文脑研究所首席研究科学家

Satrajit Ghosh 博士是麻省理工学院麦戈文脑研究所的首席研究科学家,同时也是哈佛医学院耳鼻喉科的助理教授。他在计算机科学和神经影像学领域具有深厚的背景,专注于应用机器学习、信号处理和转化医学的研究。他在神经科学和计算机科学的交叉领域取得了显著成就,为理解大脑功能和改善精神健康提供了重要的科学贡献。

将研究结果的有效性和可靠性与原始数据联系起来,是科学研究严谨性和可重复性的基石。在神经科学领域,这一点同样适用。但是,由于神经科学原始数据和元数据的复杂性,以及它们的来源,要让神经科学数据集合对人和机器而言都具备 FAIR 特性(可查找、可访问、可互操作和可重复使用),给数据生产者带来了巨大的资源挑战。仪器、物种和实验问题的多样性太过繁杂,只能提供零散的片段化的神经科学知识。

如今,数据收集与传播规模日益庞大,我们迟早要审慎抉择,哪些数据该留存,哪些可舍弃。我是DANDI神经生理学数据存储库的维护者之一,该存储库目前保存了近1 PB的数据。尽管作为数据存储库,我们有责任对这些数据进行存档,但我们确实需要思考:所有这些数据都同样有用吗?

以下是影响这一问题的几个关键因素,我们在决定保留哪些神经科学原始数据时应予以考虑:

其一,研究问题与设计至关重要。与特定研究问题紧密相关的数据应优先留存探索性分析与试点研究可能需要全面的数据与元数据集,而验证性研究通常可聚焦于与研究假设直接相关的数据部分。若某数据的大部分价值已被挖掘,其重要性可能不及那些具备更多复用潜力的数据。因此,可考虑为数据设置自动停用机制。例如,设定五年存档期,若在此期间发现新用途,可延长存档期限。

其二,数据与元数据的质量,包括缺失内容,也是考量的关键之一。神经科学原始数据易受噪声、伪影及技术问题干扰。为便于重复利用并确保研究结果可靠,存储的数据必须具有最高质量。但目前科学界尚未就质量评估与控制方法达成共识,尤其在神经科学广泛应用新仪器的背景下。采用通用的质量控制方法,是迈向系统评估与合理停用数据的重要一步。

其三,多种偏差会对神经科学数据产生影响。由于神经科学方法的多样性,有些数据集可能来自单个研究者,而另一些则来自众多研究者。有些数据可能仅代表特定的大脑区域或神经回路,而另一些可能代表特定的群体或社会经济群体。在保存数据时,哪些人群或神经科学领域尚未被涵盖。若长期使用相同的遗传模型、细胞系或脑样本,可能会限制研究结果的普适性。

我们需要认识到,数据并非都是等同的。每个数据集都有其生成的初衷。些神经科学数据集基于特定假设,另一些则致力于创建多样化的大型生物样本库。在决定保留哪些神经科学原始数据时,必须仔细考虑研究问题、数据质量、多样性和伦理原则,同时还应考虑未来数据集的生成。然而,目前尚无通用决策方法,且当下也无需急于丢弃数据。从实际操作看,我相信我们有能力存储全球神经科学数据。因此,更重要的是先全面留存数据,并借此完善数据保存与筛选的流程及政策。

08 推动数据共享与基础设施改进非常重要

实验研究者Lisa Giocomo,斯坦福大学神经生物学系教授

Lisa Giocomo 博士是斯坦福大学神经生物学系的教授,专注于研究大脑如何处理空间信息,特别是与导航和记忆相关的神经机制。为理解大脑如何处理空间信息和支持导航提供了重要的见解。

保留原始数据对于科学研究的透明性、可重复性以及开放科学至关重要,它能确保数据集被用于多项研究。然而,原始数据的规模和体量正以远超经济成本和物理存储能力的速度增长,同时在项目间统一记录元数据(如动物的年龄、行为特征和先前经验)的方式仍然存在局限。

我们采取的做法是发布所有处理后的数据(如尖峰时间和动物位置),同时将所有原始数据存储在本地服务器上,并备份到云存储设施。我认为推动改进原始数据和相关元数据的共享基础设施非常重要,不仅为了透明性和可重复性,还因为这能确保耗费大量时间和资源采集的实验数据的科学价值被最大化。

09 捍卫使用新方法重新分析数据的自由

理论科学家Soledad Gonzalo Cogno,挪威科技大学卡夫利系统神经科学研究所研究组长

Soledad Gonzalo Cogno 博士是挪威科技大学(NTNU)卡夫利系统神经科学研究所的研究组长,领导神经动力学与计算实验室。她的研究主要集中在神经元活动如何在神经网络层面协调,以及这种协调如何支持认知和行为。为此,她结合了计算建模和高维数据集分析方法,以及先进的大规模神经元群体记录技术。

首先,能够检查原始数据中的所有信号和噪声非常重要,这能让我们测试新的方法和假设,并从原本被视为噪声的部分中发现新的结构或特征。同时,处理后数据的存在可以让我们直接与标准化的数据进行比较。在实际研究中,我发现同时保留两种格式的一些代表性数据集,并针对这两种形式开展对比分析是一种有效的方法。元数据在从公共数据仓库中挖掘数据时尤为关键,尤其是在没有合作的实验科学家来解答数据采集和实验细节问题时。

关于保存哪些数据的问题,答案可能取决于数据的性质。例如,对于行为数据和钙成像数据,保留最高时间分辨率的原始格式是首选;而对于标准的EEG(脑电图)或局部场电位(LFP)记录,将数据保留在较低采样率可能更为方便。

最后,基于多模态神经记录开发基础模型,将受益于能够同时访问原始数据和经过处理的数据。处理后数据可以被视为原始数据的第一阶段特征提取。然而,处理后数据是否是自监督学习范式(常用于大型语言模型和基础模型)中的最佳信息载体仍有待验证。在基础模型中使用原始数据还是处理后数据,可能还取决于目标下游任务的需求。总的来说,从科学问题的角度来看,我能明确看到保留原始数据的价值和必要性。

10 集中于更少但更有意义的数据集

实验研究者Jérôme Lecoq,美国艾伦研究所神经动力学研究中心副研究员

Jérôme Lecoq 博士是美国艾伦研究所(Allen Institute)神经动力学研究中心的副研究员,专注于开发创新的平台,以深入了解大脑的工作原理。他领导了 OpenScope 项目,旨在通过高通量成像技术,实时记录和分析神经元活动,从而揭示大脑的计算原理。

当多种模态(如成像、电生理、解剖和行为)数据被整合时,神经生理学数据集的价值会大幅提升。例如,小鼠皮层中特定神经元的活动只有在与不同仪器的精确刺激、环境因素和时间戳对齐时才具有意义。但要处理这种复杂性,需要工程学、数据科学和生物学方面的专业知识,这使得数据处理和存储变得日益困难。这凸显了一个整合收集、处理和存储工具的可访问数据生态系统的必要性。目前,个别研究生或科研人员独立管理数据集的较大工作量往往会影响数据的质量和完整性。

我们的领域若能集中于更少但更有意义的数据集,并采用类似粒子物理学的标准化数据采集和共享实践,将会大有裨益。像国际脑实验室(International Brain Laboratory)和开放视野(OpenScope)项目,正式朝这一模式迈出的早期步骤,旨在促进专业化发展和资源共享。通过专注于维护高质量且用途广泛的数据集,神经科学不仅能够更好地支持长期研究,还能减轻单个实验室在数据管理和重复利用方面的压力。

11 理论科学家可以独立测试模型,而无需直接进入实验室

理论研究者Luca Mazzucato,俄勒冈大学生物学、数学和物理学系的副教授

Luca Mazzucato 博士是美国俄勒冈大学(University of Oregon)生物学、数学和物理学系的副教授,同时也是神经科学研究所的成员。他在意大利的国际高级研究所(SISSA/ISAS)获得了理论粒子物理学博士学位。他在神经科学领域发表了多篇研究论文,涉及神经元群体活动、神经计算模型和脑机接口等主题。他的研究为理解大脑如何通过神经回路的协调活动产生复杂行为提供了重要的见解。

大型开源数据集对理论科学家来说具有变革性意义。过去,获取数据往往取决于和实验研究者建立信任关系,这就产生了有利于大型实验室和机构的不平等现象。我在2010年代刚入行时对此深有体会——当时,身处实验室的常驻理论学家几乎是测试模型的唯一途径。而如今,有了艾伦脑观测站和国际脑实验室等项目,理论科学家可以独立测试模型,将想法转化为论文,而无需直接进入实验室。

这些开放数据集还通过减少新实验的需求来解决动物研究相关的伦理问题。尽管有些假设仍然需要专门的实验来验证,但使用开源数据优化模型可以使测试更加聚焦和高效。艾伦研究所的开放视野(OpenScope)项目更进一步,它不仅让科学家能够提出他们理想的实验,而且在首次发表后,还会将所有产生的数据向公众开放,让人们平等地获取最先进的神经技术。

12 多元视角的交织与整合促进更深刻的理解

实验研究者Earl K. Miller,麻省理工学院皮考尔学习与记忆研究所神经科学教授

Earl K. Miller 博士是麻省理工学院(MIT)皮考尔学习与记忆研究所的神经科学教授,同时也是脑与认知科学系的成员。他在肯特州立大学获得心理学学士学位,在普林斯顿大学获得硕士和博士学位。

数据共享对科学进步至关重要。未被利用的数据是未被实现的科学潜力。然而,有效的数据共享需要通过合作来实现。实验科学家掌握着宝贵的背景知识,能够帮助合作者避免分析中的误解和错误。

从科学角度看,这种合作能够促进思想的交融,这是推动科学进步的关键。随着学科的发展,不同的观点相互交织、融合,从而带来更深入的理解。数据共享为建立促进这种整合的基础设施提供了契机。诸如会议、讨论和共同撰写论文等合作活动,能让研究者接触到新知识和新视角,相比之下,单方面使用公开数据则错失了这些科学交流与成长的宝贵机会。

13 在现有数据集上试验新想法有望驾驭自然输入的复杂性

理论研究者Stephanie Palmer,芝加哥大学生物学系副教授

斯蒂芬妮·帕尔默(Stephanie E. Palmer)博士是芝加哥大学生物学系的副教授,隶属于有机体生物学与解剖学系、神经科学研究所,并参与神经生物学委员会的工作。她的研究为理解大脑如何通过神经回路的协调活动产生复杂行为提供了重要的见解。

我们所处的这个数据共享新时代,为理论研究者和计算神经科学家在诸多不同领域带来了机遇。其中一个极具潜力的方向,是共享来自实验刺激的原始数据以及神经记录。在过去,听觉或视觉实验往往仅以一些示意图进行描述——有时是因为刺激简单且可参数化,有时则是因为共享大型刺激文件在没有硬盘传输的情况下几乎不可能。即使是简单的刺激,实际的刺激文件也可能非常有价值,它们揭示了在实际显示设计中做出的多种选择,并支持重新分析,或者至少在模型或模拟中重现完全相同的刺激(当然,这也适用于新的实验)。

对于自然刺激,其可能性更为广阔。在高维自然视频或音频记录中,存在多种方式可以对“特征”进行降维处理。通过共享原始刺激文件,研究人员可以运行新的分析,从而揭示神经编码的本质,有时甚至会获得出人意料的结果。如果我们能够在现有数据集上试验新想法,就有望驾驭自然输入的复杂性。现代数据存储和传输的强大能力和速度让这一切成为可能,甚至成为必然。

14 我们常常意识不到自己遗漏了什么

实验研究者Adrien Peyrache,加拿大麦吉尔大学蒙特利尔神经学研究所副教授

Adrien Peyrache 博士是加拿大麦吉尔大学(McGill University)蒙特利尔神经学研究所(Montreal Neurological Institute)的副教授,专注于神经科学领域的研究。他在神经生物学委员会(Neural Circuits Research Group)工作,研究人类在环境中导航时使用的认知过程。

数据管理是实验研究者,尤其是主要研究者极为关注的问题,他们必须在数据安全与管理大规模数据集不断增长的成本之间寻求平衡。在许多实验室,硬盘已经饱和,云存储也趋于超负荷。尽管数据会经历从采集到分析再到长期存储的各个阶段,但保留成功实验的原始数据至关重要。我们常常意识不到自己可能遗漏了什么。例如,尽管我很少分享或索要原始数据,但我的实验室最近重新分析了原始记录,并发现了以前未发现的事件,而这些事件只有在原始采样频率下才能被观测到。此类发现虽然难以预测,但如果我们保存并分享原始数据,它们出现的频率可能比我们预期的更高。

保留原始数据的另一个重要原因是数据处理流程可能出现错误。如果数据处理出错,获取原始数据可以让我们根据需要重新处理。此外,存储原始数据的成本相对较低,与进行实验本身的成本相比更是微不足道。例如,一个64通道的硅探针大约需要1,000美元,而这一成本可以换来64 TB高质量存储空间——足够存储7000小时的原始记录。尽管存储钙成像数据的成本可能更高,但与实验资源的整体投资相比仍然很小。

总之,尽管存储原始数据确实需要投入资源,但其带来的好处远远超过了成本。保存原始数据不仅可以避免错失发现的机会,还能增强研究的透明性和可重复性。通过向学术界提供高质量实验的原始数据,我们可以推动新分析的开展,加速科学进步的步伐。

15 需要投入开发强大且可扩展的工具

实验研究者Jakob Voigts,霍华德·休斯医学研究所贾内利亚研究中心研究组长

Jakob Voigts 博士是霍华德·休斯医学研究所贾内利亚研究中心(Janelia Research Campus)的研究组长,专注于神经科学领域的研究。他在海德堡大学学习数学,并在麻省理工学院(MIT)与 Chris Moore 和 Emery Brown 合作完成博士研究。在加入贾内利亚之前,Voigts 博士曾在 MIT 的 Mark Harnett 实验室从事博士后研究。

我的实验室与艾伦研究所和赛恩斯伯里·韦尔科姆中心的其他团队一起,正在开创大规模实验的新领域。在这些实验中,我们连续数周测量高带宽行为数据(约0.2到1 TB每小时)和脑活动数据(约150 GB每小时),生成庞大的数据集。如此海量的数据让即使是基本的分析也需要高度专业化的技能。目前的现有方法仅用于处理低带宽数据的一小时分析需求,无法满足新实验的规模,这使得量化后处理质量以及确定高效的压缩、存储和分发策略变得非常困难。

为了让这些大规模实验切实可行,我们需要大量投入,开发强大且可扩展的工具。这些工作不能仅仅依赖于个别学生或博士后研究项目,而应专注于创建稳定、可复制并能长期支持的数据处理流程。唯有如此,我们才能充分利用这些高通量实验的潜力。

译者后记:在开放科学日益普及的今天,标准化数据处理流程、本地保存原始数据,并上传初步处理后的数据,附上清晰规范的说明,或许可以有效促进科学共同体的合作与交流。

来源:钛媒体

相关推荐