Meta开源分子数据集OMol25 原子通用模型UMA,加速多学科科学进展

360影视 日韩动漫 2025-05-15 17:32 2

摘要:最近几年,生成式 AI 模型的进展日新月异。在思考 AI 未来的发展方向时,图灵奖得主、Meta 首席人工智能科学家 Yann LeCun 提出「高级机器智能(AMI)」这一概念,指出 AI 不应该局限于数据处理与模式识别,还应具备规划、推理和理解世界的能力。

编辑丨coisini、&

最近几年,生成式 AI 模型的进展日新月异。在思考 AI 未来的发展方向时,图灵奖得主、Meta 首席人工智能科学家 Yann LeCun 提出「高级机器智能(AMI)」这一概念,指出 AI 不应该局限于数据处理与模式识别,还应具备规划、推理和理解世界的能力。基于 AMI,科技巨头 Meta 近来开展了多项推动基础科学发展的 AI 研究工作。

今天,Meta 发布了多个面向基础科研的人工智能研究成果,包括具有变革意义的模型、基准测试和数据集,致力于彻底改变分子属性预测、语言处理和神经科学的研究范式。

具体来说,Meta 发布了推动分子发现的开源数据集 Open Molecules 2025(OMol25)、原子通用模型 UMA,以及适用于机器学习项目的扩散过程学习技术突破。此外,Meta 还发布了与罗斯柴尔德基金会医院联合开展的人类语言学习机制解码研究。

OMol25 与 UMA

在应对新型分子研发、储能材料探索以及气候变化缓解等重大技术挑战时,科学家和工程师必须进行原子尺度的精密设计。传统的实验发现与设计流程耗时漫长,从概念构想到规模化生产往往需要数十年时间。

Meta FAIR 团队正通过开发高精度、可泛化的机器学习模型来加速这一进程。这些模型能预测原子尺度的运动与行为,从根本上缩短分子与材料发现的研发周期,为创新突破开辟全新可能。

Meta 今天发布的新型密度泛函理论(DFT)数据集 Open Molecules 2025(OMol25),将 Meta 开放科学模拟数据集系列(包含 Open Catalyst 2020-2022、Open DAC 2023 和 Open Materials 2024)拓展至分子化学领域。DFT 等基础量子化学方法可用于原子级别的分子与材料特性预测,尤其在化学键断裂与形成的复杂场景中具有独特价值。

作为目前生物分子、金属配合物和电解质领域规模最大、多样性最丰富的高精度量子化学计算数据集,OMol25 为医疗健康和储能技术的原子级设计提供了前所未有的精确度。

OMol25 数据集采用高性能量子化学程序包 ORCA 构建,突破了传统技术对大型原子系统模拟的限制。既往分子数据集仅包含 20-30 个原子及有限元素,而 OMol25 实现了数量级突破 —— 其模拟构型规模扩大 10 倍,并能呈现多种元素间的复杂相互作用。

Meta 同时开源了原子通用模型(Universal Model for Atoms,UMA),该机器学习原子间势能模型为跨材料与分子体系的原子相互作用建模树立了新标准。UMA 基于 Meta 过去五年发布的所有数据集进行训练,涵盖分子与材料领域超 300 亿原子样本。UMA 不仅能提供更精确的分子行为预测与机理阐释,还可作为多功能基础模型支持下游场景的微调与应用开发。

伴随采样

生成模型往往通过分析数据特征来生成模拟样本,但在专业领域中,训练数据可能极度稀缺甚至不存在。此时仅能依赖标量奖励信号来验证生成质量,例如物理化学基础模型的采样优化。

FAIR 团队因此提出了「伴随采样」技术,开创性地实现了无需原始数据、仅凭奖励信号的可扩展生成建模。「伴随采样」技术不依赖现有数据模式,而是根据奖励模型迭代优化自身样本。基于严谨的理论框架,伴随采样不仅形成了可扩展的实用算法,更为奖励驱动型生成建模研究奠定了新基础。

「伴随采样」技术在基于 UMA 等大规模能量模型的分子生成任务中表现出色,能够高效产生多样化分子结构。为了推动计算化学领域取得更多突破性进展,Meta 开源了算法代码并发布了全新大规模基准测试。

揭秘人类大脑语言发育机制

为了探究人类大脑的语言学习机制,Meta FAIR 团队与罗斯柴尔德基金会医院联合开展了首个大规模神经记录研究,通过系统化测绘大脑发育过程中的语言表征形成规律,揭示了其与大规模语言模型(LLM)惊人的相似性。

研究人员通过 40 余名癫痫患者治疗期间植入的皮层记录设备,采集了 7000 多个电极在受试者聆听有声书时的神经信号。这项工作首次系统揭示了语言神经表征从儿童期开始的演化轨迹。

这项研究标志着 AI 与脑科学关系的范式转变:受大脑启发的 AI 模型,正成为揭示大脑运作机制的新工具。

从推动分子发现的开源数据集、原子通用模型,到人类语言学习机制解码研究,这些进展标志着 Meta 在 AMI 道路上又迈出了一步。Meta 表示期望这些进展能加速分子属性预测、语言处理和神经科学等领域的进步,促进跨学科合作,推动创新突破。

相关报道:

OMol25 研究论文:

UMA 研究论文:

来源:大宝聊科学

相关推荐