摘要:作为深度学习领域的国际顶会,ICLR 2025 大会于4月24日-28日在新加坡举办。此前通过两期“科研上新”栏目,我们为大家解读了微软亚洲研究院入选的多篇精选论文,涵盖大模型优化、信息检索、记忆构建、多模态应用、结构化推理和决策制定等方向。
作为深度学习领域的国际顶会,ICLR 2025 大会于4月24日-28日在新加坡举办。此前通过两期“科研上新”栏目,我们为大家解读了微软亚洲研究院入选的多篇精选论文,涵盖大模型优化、信息检索、记忆构建、多模态应用、结构化推理和决策制定等方向。
根据读者朋友们的投票结果,我们特别邀请了票选人气最高的四篇 ICLR 论文的作者,于今天(5月13日)下午14:00,在微软亚洲研究院的直播间分享他们的前沿工作。欢迎大家锁定直播间!
直播信息
直播时间:
2025年5月13日(今天) 14:00-16:00
直播地址:
微信视频号“微软亚洲研究院”
B 站账号“微软科技”直播间
论文及讲者介绍
叶天竺
微软亚洲研究院
通用人工智能组实习生
清华大学博士一年级
叶天竺,清华大学一年级博士生,目前在微软亚洲研究院通用人工智能组实习。他的研究重点是开发更强大、更高效的人工智能基础模型,尤其关注其可扩展性和在实际场景中的应用。
分享论文:
Differential Transformer
论文摘要:
论文分析了当前基于 Transformer 的大语言模型在利用上下文方面的不足,并提出了差分注意力机制来提升这一能力。论文所提出的 Differential Transformer 在长上下文建模、幻觉评测、数学推理、关键信息提取以及上下文学习等方面,相较于传统 Transformer 展现出了显著优势。研究结果表明,Differential Transformer 是一种独特而极具潜力的大语言模型基础架构。
论文链接:
王延森
微软亚洲研究院(上海)
人工智能与机器学习组高级研究员
王延森,微软亚洲研究院高级研究员,研究方向主要为人工智能及神经科学交叉领域,包括利用人工智能理解大脑机制及利用神经科学发现创造更强大的人工智能。他关注的研究重点是脑启发式人工智能、脑电信号处理、脑机接口等。
分享论文:
NeuroLM: A Universal Multi-task Foundation Model for Bridging the Gap between Language and EEG Signals
论文摘要:
本工作作为脑电基座模型系列工作的一部分,通过进行自然语言与脑电信号的联合预训练,利用指令学习的方式首次实现了同一脑电模型的多任务学习。实验表明这种模型可以在多种下游任务中达到与传统基座模型类似的效果,并初步验证了脑电基座模型的规模定律。
论文链接:
项目链接:
李雨承
微软亚洲研究院(上海)
系统与工程组实习生
英国萨里大学博士生
李雨承,英国萨里大学博士生,目前在微软亚洲研究院(上海)系统与工程组实习,主要研究方向为大语言模型的高效推理,尤其是长文本的推理和长思维链推理的加速。
谷歌学术链接: https://scholar.google.com/citations?user=6lwf5TcAAAAJ&hl=en
分享论文:
SCBench: A KV Cache-Centric Analysis of Long-Context Methods
论文摘要:
大语言模型线上推理系统(LLM Inference System)针对其主要瓶颈 KV Cache,提出了不同纬度的多种优化方法。本工作系统分析了这些优化方法,横向对比了不同稀疏方法造成的性能损失。为解决现有评测系统无法准确反映现实应用表现,和难以区分不同优化方法造成损失和问题,本论文提出了 SCBench,其包含了多轮交互和共享前缀两种全新的评估模式。我们发现在 KV Cache 压缩等方法中,在实际任务中有大幅度的性能损失,而 pre-fill 阶段系统则有更大的压缩空间。
论文链接:
项目链接:
数据集链接:
韩东起
韩东起,微软亚洲研究院高级研究员。他的研究兴趣包括生物和人工神经网络,以及智能决策的认知机制。他关注的研究重点是脑启发式人工智能、具身智能以及利用人工智能技术理解大脑。
分享论文:
What Makes a Good Diffusion Planner for Decision Making?
论文摘要:
本工作系统地研究了扩散模型在离线强化学习中的决策规划机制,通过大量全面的实验证明,关键设计如无条件采样和 Transformer 结构优于常规做法,并提出了一个高效的扩散规划基线,达成当前最优性能。
论文链接:
https://openreview.net/forum?id=7BQkXXM8Fy
日程安排
14:00-14:20
分享内容:
分享者:
叶天竺
14:20-14:40
分享内容:
分享者:
王延森
14:40-15:00
分享内容:
分享者:
李雨承
14:40-15:00
分享内容:
分享者:
来源:微软亚洲研究院一点号