Andrej Karpathy 首次公开私人邮件：揭秘Transformer 注意力机制真相

摘要：近年来，Transformer 成为深度学习领域的绝对主角，而支撑其核心的“注意力”机制更是掀起了一场革命。但这项改变 AI 格局的技术究竟是如何诞生的？Andrej Karpathy 分享了与“注意力”机制最初开发者 Dzmitry Bahdanau 的私人

揭开Transformer“注意力”机制背后的真实故事

近年来，Transformer 成为深度学习领域的绝对主角，而支撑其核心的“注意力”机制更是掀起了一场革命。但这项改变 AI 格局的技术究竟是如何诞生的？Andrej Karpathy 分享了与“注意力”机制最初开发者 Dzmitry Bahdanau 的私人邮件，首次披露了这段被误解和简化的历史。这不仅是一段关于科学发现的个人回忆，更是一次回归真相的旅程

邮件揭示了 Bahdanau 如何在 Yoshua Bengio 的实验室里，从实践中找到灵感，最终提出了开创性的“RNNSearch”，为后来 Transformer 的成功铺平了道路。本文将带你回顾“注意力”的发展历程，还原那些被时间和流言掩盖的细节，见证 AI 进化的关键时刻，揭秘注意力的起源与其背后的故事

这是关于创新、合作与机缘巧合的真实故事，它不仅属于学术界，也属于推动技术边界的每一个人

在人工智能的发展历程中，“注意力”机制无疑是一个革命性的突破。虽然现在大多数人提到注意力，第一时间想到的可能是 2017 年的论文《Attention is All You Need》和 Transformer，但实际上，注意力的概念早在三年前就已经出现了

故事开始于 2014 年，当时 Dzmitry Bahdanau（简称 Dima）作为实习生加入 Yoshua Bengio(加拿大计算机科学家，图灵奖得主) 的实验室。他参与了一个机器翻译项目，主要任务是优化序列到序列的神经网络模型。然而，Dima 一开始对这项工作并不乐观——“将一整段文本压缩成一个向量，再进行翻译？这怎么可能有效？”

为了克服编码器和解码器之间的瓶颈，他开始尝试一些新思路。最初的设计灵感来自“两个光标”的概念，即通过动态规划，让两个光标分别移动在源序列和目标序列中。然而，这种方法太复杂且实现困难。于是，他退而求其次，尝试了一种“硬编码的对角线注意力”，尽管结果尚可，但仍显笨拙

真正的突破发生在他的一次灵感闪现中——为什么不让解码器自主学习关注源序列中的相关部分？这一想法源自 Dima 中学时的英语翻译练习：翻译时，眼睛会在源句和目标句之间反复移动,他将这种软搜索设计为 softmax 操作，结合双向 RNN 的状态进行加权平均。结果，一试即成功！

这种机制被命名为“RNNSearch”，并迅速发表了论文《Neural Machine Translation by Jointly Learning to Align and Translate》

最初，RNNSearch 并不叫“注意力”，这个名字是 Yoshua Bengio 在论文的最后阶段才加上去的。这个术语灵感来源于人类的认知过程：在翻译时，人们的注意力会在源语言和目标语言之间来回切换

注意力的提出并非孤立存在，同期还有其他研究者在探索类似机制。例如，Alex Graves 的“神经图灵机”和 Jason Weston 的“记忆网络”都包含软搜索或加权操作的概念。这些研究的出现并非偶然，而是当时学术界对神经网络和符号 AI 融合的一次集体努力

RNNSearch 的提出迅速引发了业界的关注，但当时还没有人预见到这个机制的潜力。直到 2017 年，Transformer 的横空出世——一个几乎完全依赖注意力机制的架构。这篇论文不仅简化了模型设计，还引入了位置编码、多头注意力等新概念，使得模型在结构上更加简单统一，也为并行计算打开了大门。自此，Transformer 成为深度学习领域的核心工具，直到今天，其设计仍基本未变

注意力机制的本质是一种“数据依赖的加权平均”，是一种灵活、高效的全局池化操作。它的提出不仅是技术上的突破，也反映了人类认知的深刻影响。正如 Andrej Karpathy 所评价的：“注意力是一种重大解锁，是神经网络架构设计的一次飞跃。”

如今，Transformer 及其变种已经成为自然语言处理、计算机视觉等领域的核心技术。Dima 在回顾这一历程时指出，注意力机制的诞生得益于多个因素的结合——个人创造力、团队协作，以及当时 GPU 性能的提升。这种多维度的推动，正是技术进步的关键所在

写在最后：科学进步的本质

从 Bahdanau 的 RNNSearch，到 Transformer 的席卷全球，注意力的进化史展现了科学探索的独特魅力。它提醒我们，突破性的想法往往来自那些在实践中寻求解决问题的创新者，而非空想理论家。正如 Dima 所说：“一个好的研发项目，比我们常认为的‘真正的 AI 研究’能为技术进步做出更多贡献。”

这，就是“注意力”的故事

附：Dzmitry Bahdanau 给 Andrej 的完整邮件内容

Hi，Andrej：

很高兴和你分享这段8年前的故事！

我在完成雅各布大学（Jacobs University）与Herbert Jaeger合作完成的硕士第一年后，作为实习生加入了Yoshua的实验室

我告诉Yoshua我愿意做任何工作。他安排我参与机器翻译项目，与Kyunghyun Cho和团队一起工作。一开始，我对将一串单词压缩成一个向量的想法非常怀疑。但我也非常渴望能拿到博士生的录取，所以我卷起袖子，开始做我擅长的事——写代码、修复错误等。后来，随着我对项目理解的深入，Yoshua邀请我攻读博士学位（在2014年，这已经足够了——那是好时候啊！）。我非常高兴，觉得是时候放手去创新了

于是，我开始思考如何避免编码器和解码器RNN之间的瓶颈问题。我的第一个想法是设计一个有两个“光标”的模型，一个遍历由BiRNN编码的源序列，另一个遍历目标序列。这些光标轨迹可以通过动态规划来边缘化。Kyunghyun Cho认为这类似于Alex Graves的RNN转录器模型。随后，我也可能读了Graves的手写识别论文。然而，这种方法看起来并不适合机器翻译

这个“光标”方法在实习剩下的5周内太难实现。所以我尝试了更简单的方法——两个光标同时同步移动（本质上是硬编码的对角注意力）。这种方法有些效果，但缺乏优雅

有一天，我突然想到，如果让解码器RNN学会在源序列中搜索光标位置会如何？这个想法部分受到我中学学英语翻译练习的启发。翻译时，视线会在源序列和目标序列之间来回切换。我用softmax表达了这种软搜索，并通过加权平均BiRNN状态实现。这种方法第一次试验就效果很好，让我非常兴奋。我把这种架构称为RNNSearch，我们赶紧发布了ArXiV论文，因为我们知道Ilya和Google团队在用8个GPU训练他们的LSTM模型（RNN Search仍然只用1个GPU）

后来发现，这个名字不够好。最终，Yoshua在论文最后一轮修改时将“attention”加到了结论部分

1.5个月后，我们看到了Alex Graves的NMT论文。确实是完全相同的想法，但他是从完全不同的动机出发的。在我们的情况下，发明是需求的产物。而对他来说，可能是为了弥合神经与符号AI之间的差距？Jason Weston团队的Memory Networks论文也采用了类似的机制

我当时没有预见到attention可以用于更低级别，作为表示学习的核心操作。但当我看到Transformer论文时，我立即对实验室同事说：“RNN完蛋了。”

回到你的问题：在蒙特利尔Yoshua实验室中“可微分和数据驱动的加权平均”的发明是独立于Neural Turing Machines、Memory Networks以及一些来自90年代甚至70年代的相关认知科学论文的（我可以提供任何链接）。它是Yoshua鼓励实验室追求雄心壮志、Kyunghyun Cho成功领导机器翻译项目、以及我多年来通过竞赛编程磨练的创造力和编码能力共同促成的。我并不认为这个想法会等待太久才被发现。即使没有我、Alex Graves和故事中的其他人，attention也是深度学习中实现灵活空间连接的自然方法。它是显而易见的，只等着GPU足够快，使人们有动力认真对待深度学习研究。一旦我意识到这一点，我的AI宏愿便是启动更多像机器翻译项目那样的惊人应用项目。优秀的研发工作对基础技术的进步贡献远胜过那些我们常认为是“真正”AI研究的复杂理论

就这些！很想听听更多关于你教育AI项目的消息（听Harm de Vries提起过一些传闻；））。

祝好， Dima

阅读最新前沿科技研究报告，欢迎访问欧米伽研究所的“未来知识库”

未来知识库是“欧米伽未来研究所”建立的在线知识库平台，收藏的资料范围包括人工智能、脑科学、互联网、超级智能，数智大脑、能源、军事、经济、人类风险等等领域的前沿进展与未来趋势。目前拥有超过8000篇重要资料。每周更新不少于100篇世界范围最新研究资料。欢迎扫描二维码或点击本文左下角“阅读原文”进入。

截止到11月25日 ”未来知识库”精选的100部前沿科技趋势报告

Air Street Capital《2024 年人工智能现状报告》

未来今日研究所：2024 技术趋势报告 - 广义计算篇

科睿唯安中国科学院 2024 研究前沿热度指数报告

文本到图像合成：十年回顾

《以人为中心的大型语言模型（LLM）研究综述》

经合组织 2024 年数字经济展望报告加强连通性创新与信任第二版

波士顿咨询 2024 全球经济体 AI 成熟度矩阵报告

理解世界还是预测未来？世界模型的综合综述

Google Cloud CSA2024 AI 与安全状况调研报告

英国制造商组织 MakeUK2024 英国工业战略愿景报告从概念到实施

花旗银行 CitiGPS2024 自然环境可持续发展新前沿研究报告

国际原子能机构 2024 聚变关键要素报告 - 聚变能发展的共同愿景

国际可再生能源署 IRENA2024 年全球气候行动报告

Cell: 物理学和化学、人工智能知识领域的融合

智次方 2025 中国 5G 产业全景图谱报告

未来今日研究所：2024 技术趋势报告 - 移动性，机器人与无人机篇

Deepmind：AI 加速科学创新发现的黄金时代报告

PitchBookNVCA2024 年第三季度全球风险投资监测报告

德科 2024 年未来全球劳动力报告

高工咨询 2024 年协作机器人产业发展蓝皮书

国际能源署 IEA2024 年全球能源效率报告

基因慧基因行业蓝皮书 2024 - 2025

普华永道 PwC2024 全球经济犯罪调查英国报告 - 智对风险直面挑战

中国互联网协会 2024 面向未来网络的数字孪生城市场景应用白皮书

中移智库 2024 先进感知新技术及新应用白皮书

智次方研究院 2025 中国 AIoT 产业全景图谱报告

未来今日研究所：2024 技术趋势报告 - 人工智能篇

国际电联：迈向衡量数字经济的通用框架的路线图

联合国粮食与农业组织：2024 年世界粮食安全和营养状况

大语言模型综述

李飞飞等，AI 智能体：探索多模式交互的前景综述

哈尔滨工业大学 - ChatGPT 调研报告

2024《美国核部署战略报告》最新文件

清华大学：AIGC 发展研究 3.0 发布版 b 版

OpenAI：2024 年 OpenAI o1 大模型技术报告

Verizon2024 年世界支付安全报告

皇家学会哲学学报从复杂系统角度评估人工智能风险

复旦大学大模型 AI 代理的兴起和潜力：综述

经合组织 OECD2024 年气候行动监测报告

Wevolver2024 年边缘人工智能现状报告 - 探索各行业边缘 AI 应用动态

2024 全球人形机器人产品数据库报告 - 人形机器人洞察研究 BTIResearch

《全球金融稳定报告》把舵定航不确定性、人工智能与金融稳定

瑞士洛桑联邦理工学院《人工智能中的 - 创造力：进展与挑战》

《你所需要知道的理 - 论：人工智能、人类认知与决策》牛津大学最新 53 页报告

世界经济论坛新兴技术时代的网络弹性导航：应对复杂挑战的协作解决方案 2024

ADL 理特咨询 2024 汽车出行未来展望报告

2024 中国硬科技创新发展白皮书 - 开辟未来产业新赛道

科学时代的大语言模型中的人工智能

Gartner2025 年重要战略技术趋势报告

CBInsights2024 年第三季度全球人工智能投融资状况报告

TrendHunter2025 年全球趋势报告 - 全行业顶级创新和变革趋势前瞻

天津大学 2024 大模型轻量化技术研究报告

欧洲海洋局 2024 导航未来报告将海洋置于更广泛的地球系统中第六版

美国安全与新兴技术中心 2024 AI 生成代码的网络安全风险研究报告

国际原子能机构 2024 年世界聚变展望报告

复旦大学 2024 大语言模型的能力边界与发展思考报告

安盛 AXA2024 年气候与生物多样性报告气候过渡计划路线图

YouGov2024 美国公众对人工智能 AI 的态度调研报告

麦肯锡中国报告：《中国与世界》完整版

麦肯锡全球研究所 2024 下一代竞技场报告 - 重塑全球经济的 18 个新兴行业领域

Project Sid，一个旨在模拟多智能体交互以研究 AI 文明的项目

德国研究与创新专家委员会德国研究创新与科技成果报告

2024 年欧洲关键产业的科技重塑研究报告

智能体专题报告之二 - 智能体时代来临具身智能有望成为最佳载体

ActivateConsulting 2025 年顶级技术和媒体发展趋势报告

兰德全球灾难风险评估

斯坦福李飞飞《AI agent 综述》Agent AI 开启多模态交互新纪元

中国联通研究院 2024 中国生成式人工智能应用与实践展望白皮书中文版

普华永道 2024 第五次工业革命研究报告迈向弹性可持续和以人为本的未来

大成 Dentsons2024 年全球智慧城市与互联社区智库年度报告

TechUK2024 量子技术挑战与机遇并存构筑量子韧性的策略与实践研究报告

Emakina 将塑造 2024 年的技术趋势报告

图灵奖得主 Yann LeCun《机器如何才能达到人类智能水平？》——Yann LeCun, 附 Slides 及视频

华为：2024 鸿蒙生态应用开发白皮书 V3.0（最新版）

CASA：2023 第三代半导体产业发展报告

大型视觉语言模型中幻觉现象的综述

IEA PVPS：2024 光伏应用趋势报告（英文版）

ABI Research：82 个将会或不会在 2024 年发生的技术趋势白皮书

《美国反无人机系统未来趋势报告（2024 - 2029 年）》

《军事自主系统：未来之路》美空军

空间智能如何？牛津大学博士论文《深度具身智能体的空间推理与规划》

2024 低空经济场景白皮书 v1.0

战略与国际研究中心（CSIS）人类地月空间探索的总体状况研究报告（2024）

Artificial Intelligence Review：人工智能与物理学相遇的综述

麦肯锡：全球难题，应对能源转型的现实问题

欧米伽理论，智能科学视野下的万物理论新探索（研究论文）

Gartner 2025 年主要战略技术趋势研究报告

2024 人工智能国外大模型使用手册 + 中文大模型使用手册

详解光刻巨人 ASML 成功之奥妙 - 241015

CB Insights：未来变革者：2025 年九大科技趋势研究报告

国际电信联盟 2023 - 2024 年联合国人工智能 AI 活动报告

《人工智能能力的人类系统集成测试和评估》最新 51 页，美国防部首席数字和人工智能办公室（CDAO）

2024 瑞典皇家科学院诺贝尔化学奖官方成果介绍报告

MHP 2024 全球工业 4.0 晴雨表白皮书

世界经济论坛白皮书《AI 价值洞察：引导人工智能实现人类共同目标》

瑞典皇家科学院诺贝尔物理学奖科学背景报告资料

AI 智能体的崛起：整合人工智能、区块链技术与量子计算 (研究报告，书）

OpenAI o1 评估：AGI 的机遇和挑战（280 页）

世界知识产权组织：2024 年全球创新指数

美国白宫：国家近地天体防御策略与行动计划

上下滑动查看更多

来源：人工智能学家

标签： transformer andrej andrejkarpa

本文地址：https://news.43u.com.cn/a/112132.html

免责声明：本站系转载，并不代表本网赞同其观点和对其真实性负责。如涉及作品内容、版权和其它问题，请在30日内与本站联系，我们将在第一时间删除内容!

相关推荐