摘要:来自美国加州的一位少年 Matteo Paz 利用自己开发的 AI 算法,在庞大的宇宙数据中,成功从美国国家航空航天局的海量观测数据中识别出超过 150 万个此前未知的天体。凭借此项成就,Paz 获得了美国顶尖的高中生科学竞赛——Regeneron 科学天才奖
来自美国加州的一位少年 Matteo Paz 利用自己开发的 AI 算法,在庞大的宇宙数据中,成功从美国国家航空航天局的海量观测数据中识别出超过 150 万个此前未知的天体。凭借此项成就,Paz 获得了美国顶尖的高中生科学竞赛——Regeneron 科学天才奖的最高奖项及 25 万美元奖金,其研究成果更是以独立作者的身份,发表在了天文学领域的权威期刊 The Astronomical Journal 上。而取得这些成就的他,如今才刚 18 岁。
图丨 后排的 Matteo Paz 对自己获得第一名感到震惊(来源:Society for Science)
一位少年的天文梦
Paz 的天文探索之路始于童年。小学时,母亲常带他参加美国加州理工学院的公众观星讲座,在他心中埋下了探索星空的种子。2022 年,他加入了加州理工天文学教授 Andrew Howard 主导的“加州理工行星发现者学院”暑期项目,系统学习天文学知识。次年,他参与了加州理工为期六周的“暑期研究连接”(Summer Research Connection)项目,该项目旨在将当地高中生与校园科研导师对接。正是在此期间,他遇到了对其科研生涯产生重要影响的导师——Davy Kirkpatrick。
Kirkpatrick 是加州理工红外处理与分析中心(IPAC,Infrared Processing and Analysis Center)的资深科学家。Paz 回忆道:“我非常幸运能遇到 Davy。我记得第一天和他谈话时,就提出我想完成一篇论文,这对于一个短期项目来说目标宏大。但他没有打击我,反而鼓励我深入探讨。他给了我极大的学术自由,这对我作为科学家的成长至关重要。”Kirkpatrick 本人也曾受惠于良师的指引,他表示:“我希望能将这种指导精神传递下去,帮助更多有潜力的年轻人实现他们的科学梦想。”
Kirkpatrick 交给 Paz 的任务,聚焦于挖掘美国国家航空航天局(NASA,National Aeronautics and Space Administration)已退役的“近地天体广域红外巡天探测器”(NEOWISE,Near-Earth Object Wide-field Infrared Survey Explorer)任务所积累的海量数据。
NEOWISE 望远镜(前身为 WISE)自 2009 年起在红外波段对全天进行扫描,主要搜寻小行星和彗星等近地天体,同时也捕捉到了大量遥远宇宙天体的红外辐射变化。这些因亮度变化而被称为“变源”(variable objects)的天体,包括爆发的超新星(supernovae)、脉动变星(pulsating variable stars)、食双星(eclipsing binary stars)以及类星体(quasars)等,它们的光变曲线蕴含着天体物理过程、宇宙距离乃至宇宙演化的关键信息。NEOWISE 在十余年间积累了近 200 太字节(TB)的数据,包含约 2000 亿条单次曝光记录。
图丨 WISE 航天器绕地球轨道运行的概念图(来源:NASA)
然而,从如此庞大的数据集中筛选变源,对传统人工方法而言无异于大海捞针。Kirkpatrick 最初仅希望 Paz 尝试分析一小片天区,作为概念验证。但 Paz 凭借其在人工智能选修课上培养的兴趣以及在帕萨迪纳联合学区数学学院打下的坚实数学基础(他在八年级已完成 AP 微积分 BC 课程),敏锐地意识到 AI 是解决这一难题的关键,于是决定开发一个机器学习模型来自动化分析整个数据集。
在短短六周的暑期项目中,Paz 不仅构思并初步实现了名为 VARnet 的人工智能模型,还与 Kirkpatrick 及加州理工的其他天文学家(如 Shoubaneh Hemmati、Daniel Masters、Ashish Mahabal 和 Matthew Graham)深入交流,学习了相关天体物理知识,并了解到 NEOWISE 观测节奏对探测某些类型变源的局限性。暑期项目结束后,研究并未止步。2024 年,Paz 与 Kirkpatrick 继续合作,他不断优化 VARnet 模型,使其能够处理 NEOWISE 的全部原始数据。最终,该模型在对超过 4.5 亿个天体进行筛选后,从约 190 万个可能的变源中,确认了 150 万个此前未被编目的新发现。
VARnet 模型:AI 赋能天文新发现
Paz 在 The Astronomical Journal 上发表的论文《一种基于亚毫秒傅里叶和小波的模型,用于从 NEOWISE 单次曝光数据库中提取候选变源》(A Submillisecond Fourier and Wavelet-based Model to Extract Variable Candidates from the NEOWISE Single-exposure Database)详细阐述了 VARnet 的技术细节。
图丨相关论文(来源:The Astronomical Journal)
VARnet 是一个专为快速分析天文时间序列数据而设计的信号处理模型,该模型的核心在于融合多种信号处理技术和深度学习方法,以极高效率从嘈杂、不规则的光变曲线(描绘天体亮度随时间变化的图)中提取有效信息。首先,他使用 DBSCAN 聚类算法将属于同 一个天体的零散观测点聚集起来。然后,对收集到的数据进行细致的预处理:将星等转换为线性流量,减去中位数以关注相对变化,使用四分位距进行标准化以抵抗异常值,最后用反双曲正弦函数压缩数据范围,同时对时间戳进行归一化。
图丨异常提取流程(来源:The Astronomical Journal)
VARnet 模型本身是一个深度神经网络,其架构整合了多种技术。它利用离散小波变换来进行时频分析,这有助于去噪并捕捉光变曲线中短暂的高频细节变化,如凌星事件的快速下降。Paz 还提出了一种“有限嵌入傅里叶变换”(FEFT,Finite-Embedding Fourier Transform)。与标准傅里叶变换不同,FEFT 能将任意长度的输入时间序列映射到一个固定长度的特征向量中,这对于处理长度差异巨大的 NEOWISE 数据至关重要。
更重要的是,FEFT 能让网络在训练中自适应地学习选择最重要的频率信息进行嵌入,有效捕捉光变曲线中持续时间较长的周期性或趋势性变化。卷积神经网络则被用来学习和识别光变曲线中的时序模式,例如亮度的上升、下降、峰值等特定形状。最后,全连接层(FC Layers)负责整合来自不同处理模块(时域、频域、不同尺度)的所有特征信息,并做出最终的分类判决,判断该天体属于静止、瞬变、脉动还是凌星等预设类别。
图丨 VARnet 模型架构(来源:The Astronomical Journal)
训练这样复杂的模型需要海量的标注数据,但 NEOWISE 数据中已知且分类准确的变星数量相对不足,特别是瞬变天体。为此,Paz 采用了生成合成数据的策略。他为四种主要天体类别构建了数学模型,不仅模拟了光变曲线的典型形状(如瞬变的爆发与衰减、脉动的复杂波形、凌星的周期性下降),还精确地复现了 NEOWISE 的不规则采样节奏和真实的噪声水平。
通过随机化模型参数,其能生成几乎无限量的、高度逼真的合成光变曲线用于训练 VARnet。这种方法极大地增强了模型的泛化能力,而真实的已知变星数据则被保留用于最终的模型性能验证。
VARnet 的表现十分出色。在真实的红外源验证集上,它对四种天体类别的分类 F1 分数达到了 0.91。在区分“真实变化”与“无变化/噪声”这个更基础的任务上,其精确率和召回率均超过 97%,F1 分数高达 0.974,显示出极高的可靠性。在高性能 GPU 支持下,分析单个天体源的平均耗时低于 53 微秒。
150 万个新发现的意义
Paz 发现的这 150 万个“候选”变源,对于研究宇宙演化和基本物理规律而言具有重要意义。在其发表的论文中,Paz 列举了 VARnet 发现的一些具体案例,以展示其强大的探测能力。
例如,VARnet 发现了一个此前未被编目的食双星候选体,位于 J2000 坐标赤经 18h53m48.3s,赤纬 -59°08′75.1″,通过后续分析,其周期被确定为约 5.877 天。
另一个重要发现是分离双星系统 2MASS J01542169-5944445。这个位于 J2000 赤经/赤纬 28.59051°,-59.74571°的系统此前在 GALAH 巡天第三次数据发布中被记录为化学特异星,但从未被识别为变源天体。VARnet 发现了其显著的凌星信号,周期约为 5.8061 天,可能存在一个影响其化学成分的伴星。
在研究银河系外目标时,VARnet 的能力同样出色。例如它探测到了星系 LEDA 174461 的微弱但显著的亮度变化,以及星系 LEDA 358365 内部发生的一次与超新星 AT 2023lkp 相符的瞬变事件。同时,它还标记了星系 LEDA 340305 的活动星系核表现出的显著亮度增加。这些具体的发现,不仅验证了 VARnet 的探测精度和广度,也为后续的详细研究提供了直接的目标。
这些新发现的“标准烛光”(如造父变星)可能为解决当前的“哈勃常数危机”提供关键线索。而大量超新星、黑洞和双星系统候选者,则为研究恒星演化、元素起源、星系形成以及极端物理条件下的物质行为提供了前所未有的样本库。
为了让这些发现能够被更广泛的天文学界所利用,Paz 和他的导师正在将这些结果整理、汇编成一个名为 VarWISE 的公开星表目录。加州理工学院的一个红外研究小组已经开始利用该目录来研究遥远宇宙中的双星系统。他们已经发现了数十个以前未被探测到的双星系统。Kirkpatrick 补充说,这项研究还有助于计算遥远系外行星的质量。
图丨 Matteo Paz 在 2023 年的一个研讨会上展示了他项目的初步工作(来源:Kitty Cahalan)
值得一提的是,VARnet 还能有望在天文学之外发挥作用。“我实现的模型可以用于天文学中的其他时域研究,以及任何以时间序列格式出现的数据。”Paz 解释道,“我能看到它与(股票市场)图表分析的相关性,那里的信息同样以时间序列形式出现,周期性成分可能至关重要。你也可以用它来研究大气效应,比如污染,其中周期性的季节和昼夜循环扮演着重要角色。”
但眼下,Paz 更希望利用他的 NEOWISE 发现,深入研究那个困扰天文学界已久的宇宙膨胀率问题。“这要么将有助于解决当前研究中一个极具争议的话题,要么将揭示一些关于宇宙起源的真正基础性的东西。”
参考资料:
1.https://iopscience.iop.org/article/10.3847/1538-3881/ad7fe6#ajad7fe6s4
2.https://www.caltech.edu/about/news/exploring-space-with-AI
3.https://scitechdaily.com/teen-wins-250k-for-using-ai-to-discover-1-5-million-hidden-objects-in-space/
运营/排版:何晨龙
来源:DeepTech深科技一点号