NVIDIA Research 在 ICLR 大会引领新一波多模态生成式 AI 浪潮

360影视 日韩动漫 2025-05-15 13:43 1

摘要:NVIDIA Research 正在该领域进行全方位的创新,并在此过程中为几乎所有行业提供支持。在近日举行的国际学习表征大会(ICLR)上,NVIDIA 提交了 70 余篇论文,展示了 AI 在自动驾驶汽车、医疗、多模态内容创作、机器人等领域的应用进展。

在今年的国际学习表征大会(ICLR)上,NVIDIA 发表了 70 余篇论文,其内容涵盖医疗、机器人、自动驾驶汽车以及大语言模型等领域。

推动 AI 进步需要采用全栈式方法,这依赖于包括加速处理器和网络技术在内的强大计算基础设施,并将其与优化的编译器、算法及应用程序相连接。

NVIDIA Research 正在该领域进行全方位的创新,并在此过程中为几乎所有行业提供支持。在近日举行的国际学习表征大会(ICLR)上,NVIDIA 提交了 70 余篇论文,展示了 AI 在自动驾驶汽车、医疗、多模态内容创作、机器人等领域的应用进展。

NVIDIA 应用深度学习研究副总裁 Bryan Catanzaro 表示:“ICLR 是全球最具影响力的 AI 会议之一,研究人员在此发布推动各行各业进步的关键技术创新。NVIDIA 今年提交的研究成果旨在加速计算堆栈的各个层级,从而增强 AI 在各行业的影响力和实用性。”

解决现实世界挑战的研究工作

NVIDIA 在 ICLR 上提交的多篇论文聚焦多模态生成式 AI 领域的突破性进展,以及 AI 训练和合成数据生成的新方法,具体包括:

Fugatto:Fugatto 是世界上最灵活的音频生成式 AI 模型。根据输入的文本提示和音频文件,它能够生成或修改包含任意的音乐、人声和声音组合的作品。在 ICLR 上展示的其他 NVIDIA 模型对音频大语言模型(LLM)进行了改进,以使其更好地理解语音。HAMSTER:这篇论文提出了一种视觉-语言-动作模型的分层设计方案,它可以更好地从域外微调数据(即无需在真实机器人硬件上收集的低成本数据)中迁移知识,进而提升机器人在测试场景中的技能水平。Hymba:这个小语言模型家族采用混合模型架构,由此创造的 LLM 融合了 Transformer 模型和状态空间模型的优势,实现了高分辨率记忆检索、高效的上下文总结以及常识推理任务。借助这种混合模型架构,Hymba 在保持性能的前提下将吞吐量提升了 3 倍,缓存减少至约 1/4。LongVILA:该训练流程实现了高效的视觉语言模型训练与推理,以支持长视频理解。使用长视频训练 AI 模型时,需要大量算力和密集内存,而这篇论文提出的系统可以高效地并行处理长视频的训练和推理,在 256 块 GPU 上进行训练时可扩展到多达 200 万个 token。LongVILA 在 9 个主流视频基准测试中均达到当前最优性能。LLaMaFlex:这篇论文提出了一种全新的零样本生成技术,可从单个大型模型来构建一系列压缩 LLM 家族。研究人员发现,LLaMaFlex 生成的压缩模型在精度上媲美或优于现有剪枝、弹性架构及从头训练的模型。相比剪枝和知识蒸馏等技术,这种能力能够显著降低训练模型家族的成本。Proteina:该模型可以生成多样且可设计的蛋白质骨架,即维持蛋白质结构的框架。它采用 Transformer 模型架构,参数数量是此前模型的 5 倍。SRSA:这个框架解决了使用现有技能库教会机器人执行新任务的难题。这意味着机器人无需从头学习,而是能够将现有技能应用并适配到新任务中。研究人员开发了预测最相关预置技能的框架,使机器人在执行未知任务时的零样本成功率提高了 19%。STORM:通过仅需少量快照即可推断出精确的 3D 表示,该模型能够重建动态户外场景,比如行驶的汽车或随风摇曳的树木。该模型能够在 200 毫秒内重建大规模户外场景,在自动驾驶开发中具有应用潜力。

了解 NVIDIA Research 的最新研究成果,请访问:https://research.nvidia.com/publications?sessionid=-763953803

NVIDIA Research 在全球拥有 400 名专家,专注于计算机架构、生成式 AI、图形、自动驾驶汽车和机器人等研究。

来源:NVIDIA英伟达中国

相关推荐