科学家将科学计算基座大模型开源,有望用于大科学装置的实验数值分析

360影视 2024-12-30 15:00 4

摘要:为解决上述问题,超越对称(上海)技术公司(以下简称“超对称技术”)与中国科学院高能物理研究所、北京大学等团队合作,开发了一款统一基座大模型 BBT-Neutron,能够在真实科研场景中解决多种实验数值分析任务。

在科学研究领域,尤其是涉及高能物理实验等大规模数值数据分析和计算的场景中,现有通用语言模型的表现并不理想。

为解决上述问题,超越对称(上海)技术公司(以下简称“超对称技术”)与中国科学院高能物理研究所、北京大学等团队合作,开发了一款统一基座大模型 BBT-Neutron,能够在真实科研场景中解决多种实验数值分析任务。

该模型在喷注起源识别(JoI,Jet Origin Identification)实验上的表现,与最先进的专业模型的最佳性能相当,实现了行业最强性能(SOTA,State of the Art)。

图丨从左至右依次为:BBT-Neutron 模型十一种类的粒子喷注来源鉴别结果、ParticleNet 模型十一种类的粒子喷注来源鉴别结果、Particle Transformer 模型十一种类的粒子喷注来源鉴别结果(来源:arXiv)

BBT-Neutron 作为基座模型,未来有望应用于多个领域的大规模数值实验数据场景,尤其在高能物理(如粒子对撞机)、核物理(如核聚变)、天文观测等大科学装置的实验数据分析中发挥重要作用。

另一方面,因该模型具有语言对话能力,未来有潜力成为具有多模态数据分析能力的科研助手,服务于高校、科研院所和企业等研究人员。

此外,BBT-Neutron 的统一材料计算框架能够加速研究人员的创新科研过程,帮助发现新规律和新材料,例如材料基因工程和密度泛函理论计算等领域。

同时,它还可能在航天航空、石油化工、钢铁、生物医药等重工业场景中进行数值分析,从而实现节省实验成本、提升科研效率的目标。

日前,相关论文以《扩展粒子碰撞数据分析》(Scaling Particle Collision Data Analysis)为题发表在预印本网站 arXiv 上 [1]。据悉,BBT-Neutron 模型的项目代码已开源。

超对称技术创始人吴恒魁博士是第一作者兼通讯作者,超对称技术算法工程师池盼盼是共同第一作者,中国科学院高能物理研究所研究员阮曼奇担任共同通讯作者。

图丨相关论文(来源:arXiv)

BBT-Neutron 模型基于一种创新的二进制分词方法(Binary Tokenization),来应对数值分析问题。

该方法将输入数据编码为字节序列,有效保留了数值数据的内在结构和数量完整性,并避免了通过分割或合并数值和文本信息引起的歧义。

这种创新的分词方法展示了在统一表示不同数据模态(包括文本、数值、图像)方面的能力,这对于大规模实验中产生的以二进制格式存储的科学数据尤为重要。

BBT-Neutron 模型的结构设计包含 Patch Embedding、Patch Self-Attention 和 LM Head,这三个要素共同构成了模型的主体框架。

这一架构使得模型能够将输入的序列数据,通过字节分词技术转换成高维向量形式,从而赋予了模型执行多样化任务的能力,包括分类和回归分析等。

在众多科学应用领域,这些任务对于处理输入数据至关重要,它们可能涉及对数据的分类,也可能涉及预测连续数值,而不仅仅是生成新的序列数据。

图丨 BBT-Neutron 模型架构图(来源:arXiv)

研究人员将该模型运用在粒子物理 JoI 任务中,其性能通过混淆矩阵、喷注味标记效率和电荷翻转率这三个关键指标进行评估。

实验结果显示,BBT-Neutron 基座模型达到了与传统图神经网络模型 ParticleNet 和 ParticleTransformer 相同的最佳水平。

值得关注的是,其在数据量增加时的性能扩展行为,显示出与特定于任务的模型不同的“涌现”现象。

这意味着,BBT-Neutron 在数据和模型大小超过一定阈值时,其解决特定任务的能力会突然显著提高。然而,该现象在专业模型 ParticleNet 或 Particle Transformer 的实验结果中并未被观察到。

图丨喷注味标记准确率 (上) 以及电荷误判率 (下) 与训练数据量的关系(来源:arXiv)

作为第一个能够处理此类数据的通用大语言模型,BBT-Neutron 在 JoI 任务中的表现与最先进的专业模型相当,展现了其在大规模科学计算任务中的卓越可扩展性。

这一发现不仅证实了 BBT-Neutron 模型架构的潜力,也预示着它有望成为跨领域的科学计算基座模型。

据了解,在日本 K2K 高能物理会议(KEK to Kamioka)上,阮曼奇研究员展示了 BBT-Neutron 的成果,并引起了与会者的极大兴趣。

最初,他们对模型缺乏先验的置换对称性导致的性能突变感到新奇,但经过反复实验后,确认了这一能力突变并非随机扰动,而是模型学习能力的体现。

在数据预处理方面,该课题组面临挑战:从中国科学院高能物理研究所计算中心模拟出来的数据需要经过清洗才能输入模型。这一过程非常棘手,研究人员投入了大量时间和精力来提高数据清洗的效率。

此外,BBT-Neutron 通用架构还被用于数值回归和晶格计算工作。出乎意料的是,当它作为通用架构在不同专业领域时,表现达到行业 SOTA。

尽管如此,该模型在语言能力与数值处理能力的统一性上还需进一步提升。该团队计划在未来的研究中,进一步完善语言与数值处理的结合能力,以期达到更高的性能。

此外,他们还致力于提高测试模型的多任务泛化能力,未来将在 JOI、CSI(Color Singlet Interaction)和 One-to-One Correspondence 这三项任务上联合训练并测试 BBT-Neutron 的能力。

同时,该课题组也正在尝试将多任务学习迁移到暗物质探测等完全不同的实验中,测试模型在多个实验层面的任务学习能力。

总体来说,BBT-Neutron 模型的开发和应用,为科学计算领域带来了新的可能性,其在多模态数据处理和大规模数值实验数据分析中的表现,预示着它有望成为未来科学研究的重要工具。

参考资料:

1.https://arxiv.org/abs/2412.00129

2.https://github.com/supersymmetry-technologies/bbt-neutron

运营/排版:何晨龙

01/

02/

03/

04/

05/

来源:芳芳论科学

相关推荐