摘要:最近,Meta 公司首席 AI 科学家、图灵奖得主 LeCun 转发了他在纽约大学的同事 Kyunghyun Cho 的一篇帖子:内容是关于这位教授 2025 学年机器学习研究生课程的教学大纲和讲义。
机器之心报道
编辑:+0
最近,Meta 公司首席 AI 科学家、图灵奖得主 LeCun 转发了他在纽约大学的同事 Kyunghyun Cho 的一篇帖子:内容是关于这位教授 2025 学年机器学习研究生课程的教学大纲和讲义。
该课程聚焦于以随机梯度下降(SGD)为核心的基础机器学习算法,特意避开大型语言模型(LLM)内容,同时鼓励学生深入研读领域经典论文,回溯机器学习的理论发展脉络。
在这个人人都关注 LLM 的时代,这样的课程设计乍看似乎很特别。但对比其他高校的课程表会发现, 各大高校研究生机器学习课程仍普遍以基础理论和经典模型为核心。
比如斯坦福 CS229, 是经典的机器学习基础课程,2025 年冬季课程简介中,课程系统讲授包括线性回归、逻辑回归、SVM、神经网络、聚类、降维、EM 算法等基本模型与方法,强调数学推导与优化思想,广泛应用于跨领域研究。
MIT 的 6.790 课程是其研究生阶段的核心机器学习课程,前身为 6.867,现已更新为 6.7900。该课程强调从概率建模和统计推理的角度深入理解机器学习方法,适合希望在理论与实践之间建立坚实联系的学生。
清华电子系研究生课程也设置了《机器学习》《统计推断理论和方法》等核心理论课程。
而最新 LLM 内容多在专门选修课中出现,比如斯坦福大学 CS25: Transformers United,是一门专注于 LLM 和 Transformer 架构的研究型课程,详见机器之心报道《OpenAI、谷歌等一线大模型科学家公开课,斯坦福 CS 25 春季上新!》 。
可以看出,教育界普遍认为基础教学有助于学生长远发展。Cho 在撰写讲义时引用了 Sutton 的「苦涩教训」,强调通用可扩展方法(如以 SGD 为核心)比具体架构更重要。他刻意省略了复杂体系(如 LLM)而专注于历史上成熟的算法和数学直觉,认为「一个学期时间不足以深入所有主题」,只能先打下坚实基础。
此外,Cho 曾在博客中提到,2010–2015 年间深度学习尚未普及时,很多 ML 课程对神经网络仅作简单提及。
如今通过强调经典方法、阅读经典论文,可以让学生理解知识的源头与演进脉络,培养批判性思考能力。总体而言,基础导向的教学能让学生掌握算法背后的数学原理和优化方法,而不是「盲目套用」最新模型。
理论 VS 实践
但我们无法逃避的一个问题是:大学培养机制(尤其是研究生 / 博士教育)强调基础、原理和科研能力,而实际工作环境尤其在工业界常常需要快速响应、工程落地、产品迭代能力。
一味的强调「必须理解深层原理」,在某些语境下,确实可能显得有些「何不食肉糜」。
「你怎么连 attention 的 Q/K/V 向量都没推导过就来调模型?」现实可能是:「我只是想学个微调技巧,用 LLaMA 写个客服机器人。」
对此不少大学也在积极探索解决方案, 为弥补科研与工程能力脱节,不少学校推出了「桥接」课程或实践项目。
例如,斯坦福大学在开设 CS229 等理论课的基础上,还专门设立了 CS329S《机器学习系统设计》实践课。这门课着重讲授如何构建可实际部署、运行稳定且具备扩展性的机器学习系统,内容包括数据处理、特征提取、模型上线与监控等环节。
CMU 的机器学习博士生必须修读 10-718《机器学习实践》课程。在这门课中,学生需要完成学期项目,从头到尾搭建并部署一个完整的机器学习系统。课程描述明确指出,学生将通过项目学习处理真实场景下的数据问题,掌握从原始数据清洗到模型最终上线的全流程技能。
国内高校也开始重视实践教学。清华大学电子系与企业合作开设了多门实用性课程,如「大数据技术的应用与实践」、「高阶机器学习」和「智能制造」等,将行业实际案例和编程实践引入教学过程。
为何高校仍执着于「慢功」?
在当今技术飞速发展的背景下,许多高校依然强调「打好基础、追求深刻理解」,这并非单纯的「固步自封」。
真正的技术能力不仅在于「会用工具」或「能跑模型」,而在于理解方法背后的原理,在面对新问题、新技术时,具备独立分析、判断和创造的能力。 吴恩达曾在一篇文章中以个人经历说明持续学习基础知识的重要性,他强调「牢靠且及时更新的基础知识是成为一名高产机器学习工程师的关键」。
文章链接:https://www.deeplearning.ai/the-batch/issue-146/
这种理念的核心在于「抗变化性」。技术潮流更新迅速,从 CNN 到 Transformer,再到 LLM 和多模态系统,每一步都可能颠覆现有工程范式。
要适应这些变化,不能仅靠追逐热点,而需深入掌握优化、泛化、表示学习等底层理论。只有理解「为何这样设计」以及「背后的假设是什么」,才能在面对全新技术时避免迷茫。
此外,深厚的基础是科研与技术创新的起点。科研不仅是调参或复现论文,更在于提出问题、构建假设、设计新方法。这离不开扎实的数学工具、严谨的逻辑训练以及对经典工作的积累。基础课程培养的不仅是知识点,更是抽象思维与批判性思考能力。
深度学习教父、图灵奖得主 Geoffrey Hinton 在接受 MIT Technology Review 采访时指出,正是对基础算法的长期坚持和深入研究,才推动了深度学习的突破,「我们花了几十年时间打磨神经网络的基本原理,直到 2010 年代才迎来真正的应用爆发。基础知识的积累和理解,是 AI 领域每一次重大进步的根本。」
当然,这种教育路径并非忽视实践,而是强调:真正的实践力应建立在理解力之上。不仅要会用工具,更要了解其来龙去脉、适用边界与改进方向。
因此,「找工作」与「打基础」并非非此即彼的选择题,而是时间维度上的权衡。短期内,工具技能能带来直接的岗位匹配;但长期来看,基础能力才是跨越技术周期、持续成长的「护城河」。
课程讲义
现在我们回过头来看看这份 100 页 pdf 的课程讲义,它对机器学习进行了全面介绍,涵盖了基础概念和现代技术,有兴趣的读者可以阅读原文。
每一章的结构和内容概要如下:
第一章:能量函数 介绍能量函数作为机器学习中的统一主题的概念。解释了不同的机器学习范式(监督学习、无监督学习、分类、聚类等)如何可以被构架为最小化能量函数。讨论潜在变量和正则化在定义和学习能量函数中的作用。
第二章:机器学习中的基本分类思想 涵盖了基本的分类算法,包括感知器、边际损失、softmax 和交叉熵损失。解释分类器训练中的反向传播,重点在于线性和非线性能量函数。讨论了随机梯度下降(SGD)和自适应学习率优化方法。涉及泛化和模型选择,包括偏差 - 方差权衡和超参数调整。
第三章:神经网络的基本构建块 探索了神经网络架构中常用的构建块。讨论了归一化技术(批量归一化、层归一化)。介绍了卷积块、循环块和注意力机制。介绍了神经网络中置换等变性和不变性的概念。
第四章:概率机器学习和无监督学习 说明了如何从概率角度解释能量函数。涵盖了变分推断和高斯混合模型。讨论了连续潜在变量模型和变分自编码器(VAEs)。介绍了重要性采样及其方差。
第五章:无向生成模型 探索无向生成模型,重点介绍受限玻尔兹曼机(RBMs)和专家乘积(PoE)。讨论马尔可夫链蒙特卡洛(MCMC)方法用于从 RBMs 中采样。引入基于能量的生成对抗网络(EBGANs)。涵盖自回归模型。
第六章:进一步话题 提供了机器学习中几个高级主题的概述。讨论了一步强化学习和多步强化学习。探索了集成方法(袋装法,提升法)和贝叶斯机器学习。介绍元学习。探讨混合密度网络和因果关系。
经典论文
最后我们来看看 Cho 提到的经典论文,这里节选了一部分。
「Simple Statistical Gradient-Following Algorithms for Connectionist Reinforcement Learning」——Ronald J. Williams论文地址:https://link.springer.com/article/10.1007/BF00992696
该论文提出了 REINFORCE 算法,一种基于策略梯度的强化学习方法,用于训练连接主义模型(如神经网络)。该算法通过直接优化期望奖励,奠定了现代策略梯度方法的基础。
「Efficient Backprop」——Yann LeCun, Leon Bottou, Genevieve B. Orr, Klaus-Robert Müller(重点关注弟 4 节)论文地址:https://link.springer.com/chapter/10.1007/978-3-642-35289-8_3
系统总结了反向传播(Backpropagation)的优化技巧,包括学习率调整、权重初始化、激活函数选择等。第 4 节特别讨论了高效训练神经网络的实用方法。
「Training Products of Experts by Minimizing Contrastive Divergence」——Geoffrey Hinton论文地址:https://www.cs.toronto.edu/~hinton/absps/nccd.pdf
提出了对比散度(Contrastive Divergence, CD)算法,用于训练受限玻尔兹曼机(RBM)和专家乘积模型。这是深度学习复兴前的重要工作,为后续深度信念网络(DBN)奠定了基础。
「Auto-Encoding Variational Bayes」——D. Kingma, M. Welling论文地址:https://arxiv.org/abs/1312.6114
提出了变分自编码器(Variational Autoencoder, VAE),通过变分贝叶斯方法实现高效的生成模型训练。VAE 结合了神经网络和概率建模,成为生成模型领域的里程碑。
「Model-Agnostic Meta-Learning for Fast Adaptation of Deep Networks」——Chelsea Finn, Pieter Abbeel, Sergey Levine论文地址:https://arxiv.org/abs/1703.03400
提出了 MAML(Model-Agnostic Meta-Learning),一种通用的元学习算法,使模型能够通过少量样本快速适应新任务。MAML 在少样本学习(Few-Shot Learning)领域具有开创性意义。
更多详细内容请参见原讲义和教学大纲。
来源:机器之心Pro一点号