刚刚，何恺明兼职加入 DeepMind！要在基础研究组搞大事？

摘要：何凯恺是计算机视觉领域的超级明星，别人的荣誉都是在某某大厂工作，拿过什么大奖，而何恺明的荣誉是best，best，best ...... 例如2016 CVPR 最佳论文“Deep Residual Learning for Image Recognition

大数据文摘出品刚刚，MIT教授、CV大神，成为 Google DeepMind 的杰出科学家。不过，这次是以 part-time（兼职）身份加入。据网友爆料，他即将参与基础研究组的工作。

何凯恺是计算机视觉领域的超级明星，别人的荣誉都是在某某大厂工作，拿过什么大奖，而何恺明的荣誉是best，best，best ...... 例如2016 CVPR 最佳论文“Deep Residual Learning for Image Recognition”以及2017ICCV最佳论文“Mask R-CNN”。

目前，何恺明的论文引用数超过71万，是MIT被引用次数最高的学者。他也一直没闲着，去年，他与 DeepMind 的黎天鸿团队提出 Fractal Generative Models，把分形递归塞进神经网络，让逐像素生成 8K 图像不再卡死 GPU；今年又合写 Fluid，用连续 token 解决视觉自回归“越放大越糊”的老毛病。实验室里，他用 Representation Regularization 给生成模型“扎紧腰带”，在相同算力下多挤出 2%-3% 质量分。何恺明：多次按响深度学习门铃在2023年的世界人工智能大会上“何恺明把神经网络做深了，谷歌把神经网络的入口拉大了，又深又大，才成为今天的大模型。”

他2009年的那篇CVPR最佳论文，是CVPR整个25年历史上亚洲的第一篇最佳论文。

他的第一项工作是在微软亚洲研究院发布的有关残差网络（ResNet）的论文。在2015年之前，深度学习最多只能训练20层，而CNN（卷积神经网络）模型ResNet在网络的每一层引入了一个直连通道，从而解决了深度网络的梯度传递问题，获得了2016年CVPR的最佳论文奖，是计算机视觉历史上被引用最多的论文。

“在ResNet之后就可以有效地训练超过百层的深度神经网络，把网络打得非常深。”汤晓鸥说，“在大模型时代，以Transformer为核心的大模型，包括GPT系列，也普遍采用了ResNet结构，以支撑上百层的Transformer的堆叠。

尤其是何恺明在Facebook期间发明的Mask R-CNN算法，首次把基于掩码的自编码思想用于视觉领域的非监督学习，开启了计算机视觉领域自监督学习的大门。

关于何恺明

他是广东高考满分状元，全国物理竞赛一等奖获得者，清华保送生。但真正让他从“天才少年”跃升为“AI 大神”的，是从清华转向基础科学后的一连串技术里程碑。

本科阶段，他放弃保送的机械专业，加入清华基础科学班。2007 年进入微软亚洲研究院实习，因对图形图像课程产生兴趣，加入视觉计算组——起初连发论文都难，直到 2009 年凭“暗通道去雾”首获 CVPR 最佳论文。

这只是序章。他后来主导的 ResNet、Mask R-CNN、RetinaNet、MoCo 等模型，先后斩获多个 CV 顶会大奖，把计算机视觉推进到了深度学习、实例分割、单阶段检测器、自监督学习的多个重要阶段。每一次发声，都代表了方向性转变。

从微软亚洲研究院，到 Facebook FAIR，再到 MIT，再到 Google DeepMind，何恺明每一次转换角色，都不是为名或为利，而是为了研究自由度和落地可能性之间的平衡。

复盘何恺明的研究路线，你会发现它极具“方向性判断”能力。不同于许多研究员跟随热点话题“追着发”，他更像在一个个节点精准切入，并留下长久影响。

2009 暗通道去雾：首开图像复原新思路

2015 ResNet：解决深层网络训练瓶颈，奠定现代模型结构

2017 Mask R-CNN + RetinaNet：目标检测从 Two-stage 到 One-stage

2019-2020 MoCo：拉开视觉领域自监督学习序幕