摘要:近年来,我们所需的计算类型和运行它们的硬件正在发生巨大变化。大规模计算、数据和模型规模不断扩大,为我们带来更好的结果。机器学习彻底改变了我们对计算机可能性的期望,而算法和模型架构的改进也带来了巨大的进步。
Jeff Dean(Google Research & Google DeepMind 首席科学家)ETH苏黎世演讲(2025年4月14日)摘要
近年来,我们所需的计算类型和运行它们的硬件正在发生巨大变化。大规模计算、数据和模型规模不断扩大,为我们带来更好的结果。机器学习彻底改变了我们对计算机可能性的期望,而算法和模型架构的改进也带来了巨大的进步。
基础构建块:神经网络与反向传播神经网络是由人工神经元组成的,这些神经元松散地设计为模仿真实神经元的行为。而反向传播(使用链式法则)是更新神经网络权重以最小化训练数据错误的有效算法。
2012年:规模的重要性Le等人在2012年的研究表明,使用16,000个CPU核心训练非常大的神经网络(比之前最大的神经网络大60倍)可以显著提高质量(ImageNet 22K最先进水平提高约70%)。同年,Dean等人提出了分布式训练方法,结合模型并行和数据并行,使得训练比以前大50-100倍的神经网络成为可能。
2013年:分布式词表示的力量Word2Vec模型展示了词的分布式表示的强大功能:(1)高维空间中相近的词具有相关性,如猫、美洲狮、老虎等都很接近;(2)方向具有意义,如"国王-王后≈男人-女人"。
2014年:序列到序列模型使用神经编码器处理输入序列生成状态,然后用该状态初始化神经解码器的状态。扩大LSTM规模,这种方法效果很好。
2015年:神经网络推理专用硬件谷歌开发了张量处理单元(TPU):
• TPU v1(2015年):92万亿次运算/秒(仅用于推理)
• 与当时的CPU和GPU相比:TPU v1速度快15-30倍,能效高30-80倍
将数千个芯片通过定制高速网络连接在一起(TPU pods),以实现更快的神经网络训练。硬件性能和能效持续扩展,从TPU v2到Ironwood,能效提高了约30倍。与此同时,开源工具如JAX、PyTorch和TensorFlow使整个社区受益。
Vaswani等人提出的"注意力机制"(Attention is All You Need)不再试图将状态强制到单一循环分布式表示中,而是保存所有过去的表示并关注它们。这带来了更高的准确性,同时计算量减少10-100倍,模型大小减少10倍。
利用世界上大量文本进行自监督学习,提供了非常大量的训练数据,其中"正确"答案是已知的("错误猜测"用于提供梯度下降损失训练信号)。不同类型的训练目标包括:
• 自回归(看前缀,预测下一个词)
• 填空(双向查看,如BERT)
这种在大型模型上进行的文本自监督学习是聊天/语言模型如此强大的主要原因之一。
2021年:视觉TransformerAlexey Dosovitskiy等人表明Transformer架构也可以用于图像识别。
Shazeer等人的工作表明,稀疏模型优于密集模型。通过拥有更多专家但每个token只激活少数选定专家,可以:(A)在相同精度下训练计算成本减少约8倍,或(B)在相同训练计算成本下显著提高精度。Gemini 1.5 Pro/2.0/2.5都使用了专家混合(MoE)架构,建立在谷歌研究团队关于稀疏模型的长期研究基础上。
2018年:分布式ML计算的软件抽象Pathways系统简化了运行大规模计算,使得单个Python进程可以驱动整个训练过程。现在,这一技术也向云客户开放,使单个JAX客户端可以查看和使用多达10万个芯片。
2022年:推理时"更长思考"的有用性"思维链提示"(Chain of Thought prompting)等技术表明,在推理任务上,提示模型"展示其工作"可以显著提高准确性。
2014年:蒸馏技术使用强大的"教师"模型来制作更小、更便宜的"学生"模型。教师模型提供更丰富的训练信号,使学生模型尝试匹配大模型的"软概率分布"。
2022年:推理时的多种并行方案分布式推理计算的正确选择受到批处理大小或延迟约束等因素的严重影响。
2023年:推测解码使用小型"起草者"模型预测下一个K个token,然后用大型模型一次性预测下一个K个token(更高效:批量大小为K而非1),并根据大小为K的前缀中匹配的token数量推进生成。
多层次创新从硬件(TPU系列)、软件抽象(Pathways)、模型架构(Word2Vec、Seq2Seq、Transformers、MoEs)到训练算法(无监督和自监督学习、蒸馏)和推理算法(思维链、推测解码),创新发生在多个层次。
项目于2023年2月启动,目标是训练世界上最好的多模态模型,并在谷歌各个方面使用它们:
• Gemini 1.0:2023年12月
• Gemini 1.5:2024年2月(展示了1000万token上下文窗口)
• Gemini 2.0:2024年12月
• Gemini 2.0 Thinking:2025年1月
• Gemini 2.5:2025年3月(2.5 Pro发布),2025年4月(2.5 Flash推出)
Gemini从一开始就是多模态的,构建在前面描述的许多创新基础上:TPU、跨数据中心训练、Pathways、JAX、词的分布式表示、Transformers、稀疏专家混合、蒸馏等。
Gemini 1.5增加了上下文长度(现在可以处理多达1000万个token)并提高了上下文清晰度,从而减少了幻觉并支持上下文内学习。
Gemini 2.5 Pro是目前最强大的模型,在多个排行榜上排名第一,包括LMSYS、LiveBench、Humanity's Last Exam、SEAL等。用户普遍喜欢其功能,特别是对代码的长上下文能力非常有帮助。
Gemini项目涉及许多不同领域的贡献者,包括预训练、后训练、设备上模型、数据、基础设施、服务、评估、代码库以及长期研究等核心领域,还有能力、安全、视觉、音频、代码、代理和国际化等领域。
约1/3的人员在旧金山湾区,1/3在伦敦,1/3在其他地方(纽约、巴黎、波士顿、苏黎世、班加罗尔、特拉维夫、西雅图等)。时区问题很烦人,加州/西海岸和伦敦/欧洲之间的"黄金时段"很重要。
项目通过Google Chat Spaces进行大量讨论和信息共享,通过RFC(请求意见稿)获取反馈,了解其他人的工作。排行榜和通用基线使决策更加数据驱动,通过多轮实验、小规模实验、成功实验扩展到下一个规模,以及定期(每隔几周)将最大实验规模下的成功实验纳入新的候选基线。
尽管做出最大努力,但考虑到ML系统的规模和ML训练作业的规模,硬件错误仍然可能发生,有时一个有缺陷的芯片的错误计算可能会扩散并感染整个训练系统。ML控制器可以透明地处理静默数据损坏(SDC),通过SDC检查器自动识别SDC,将训练移至热备份,并将有缺陷的机器送去维修。
Gemini展示了许多能力,包括:
• 上下文学习:卡拉曼语翻译(一种仅由东印度尼西亚巴布亚约130人使用的语言)
• 视频理解与总结
• 历史数据数字化
• 通过高级语言进行代码生成
• 推理时计算为质量扩展提供了另一个维度
一个由高级计算机科学家和AI新星组成的团队(来自学术界、大型科技公司和初创公司)提出了在针对公共利益的AI研究和政策努力的情况下可能产生的影响,而不是预测在自由放任方法下AI的社会影响。
他们的研究"塑造AI对数十亿人生活的影响"提出了五个针对公共利益AI的指导方针:
1. 人类和AI系统作为团队工作可以做更多事情:
• 专注于人类生产力的AI比专注于替代人类劳动的AI产生更多积极效益
• 增加人类就业能力
• 人们可以作为AI在未经良好训练的领域偏离轨道时的保障
• 人和AI往往会犯不同的错误,因此专家与AI的合作也可以改善结果
2. 为增加就业,应该在创造更多就业机会的领域提高生产力:
• 尽管在计算和客机方面取得了巨大的生产力提升,但2020年美国的商业航空飞行员比1970年多8倍,程序员多11倍
• 对乘客旅行和编程的需求是弹性的⇒更多工作
• 美国农业需求缺乏弹性,因此生产力提高⇒更少的工作(从1940年到2020年,美国劳动力从20%降至2%)
研究提出了几个领域的AI里程碑:
1. 教育AI里程碑:全球导师
• 为每个孩子加速一般教育的辅导工具
• 使用他们的语言、文化和最佳学习方式
• 帮助教师应对支持不同能力学生的挑战
2. 医疗保健AI里程碑:广泛医疗AI
• 从多种数据模式学习:图像、实验室结果、健康记录、基因组学、医学研究等
• 可以帮助执行多样化的任务:床边决策支持、与出院后患者互动、起草放射学报告等
• 可以使用书面或口头文本和图像解释建议
3. 信息AI里程碑:公民话语平台
• 调解对话或态度以增强公众理解和公民话语
• AI系统提出如何更外交地重新表述评论和问题的建议
• AI系统与阴谋论者进行讨论
• AI系统可以帮助在整个人口中就困难问题达成共识
4. 科学AI里程碑:科学家的AI助手/合作者
• 通过提高科学家的生产力来加速科学进程
• 帮助提出有趣的假设并自动化实验
• 识别重要的新相关研究,理想情况下为个人定制,总结与科学家已知内容相比的新内容
AI模型和产品正在成为令人难以置信的强大和有用的工具,进一步的研究和创新将继续这一趋势。它们将在许多不同领域产生巨大影响:医疗保健、教育、科学研究、媒体创作、错误信息等。如果做得好,我们的AI辅助未来是光明的。
来源:人工智能学家