摘要:何凯恺是计算机视觉领域的超级明星,别人的荣誉都是在某某大厂工作,拿过什么大奖,而何恺明的荣誉是best,best,best ...... 例如2016 CVPR 最佳论文“Deep Residual Learning for Image Recognition
他2009年的那篇CVPR最佳论文,是CVPR整个25年历史上亚洲的第一篇最佳论文。
他的第一项工作是在微软亚洲研究院发布的有关残差网络(ResNet)的论文。在2015年之前,深度学习最多只能训练20层,而CNN(卷积神经网络)模型ResNet在网络的每一层引入了一个直连通道,从而解决了深度网络的梯度传递问题,获得了2016年CVPR的最佳论文奖,是计算机视觉历史上被引用最多的论文。
“在ResNet之后就可以有效地训练超过百层的深度神经网络,把网络打得非常深。”汤晓鸥说,“在大模型时代,以Transformer为核心的大模型,包括GPT系列,也普遍采用了ResNet结构,以支撑上百层的Transformer的堆叠。
尤其是何恺明在Facebook期间发明的Mask R-CNN算法,首次把基于掩码的自编码思想用于视觉领域的非监督学习,开启了计算机视觉领域自监督学习的大门。
关于何恺明
他是广东高考满分状元,全国物理竞赛一等奖获得者,清华保送生。但真正让他从“天才少年”跃升为“AI 大神”的,是从清华转向基础科学后的一连串技术里程碑。
本科阶段,他放弃保送的机械专业,加入清华基础科学班。2007 年进入微软亚洲研究院实习,因对图形图像课程产生兴趣,加入视觉计算组——起初连发论文都难,直到 2009 年凭“暗通道去雾”首获 CVPR 最佳论文。
这只是序章。他后来主导的 ResNet、Mask R-CNN、RetinaNet、MoCo 等模型,先后斩获多个 CV 顶会大奖,把计算机视觉推进到了深度学习、实例分割、单阶段检测器、自监督学习的多个重要阶段。每一次发声,都代表了方向性转变。
从微软亚洲研究院,到 Facebook FAIR,再到 MIT,再到 Google DeepMind,何恺明每一次转换角色,都不是为名或为利,而是为了研究自由度和落地可能性之间的平衡。
复盘何恺明的研究路线,你会发现它极具“方向性判断”能力。不同于许多研究员跟随热点话题“追着发”,他更像在一个个节点精准切入,并留下长久影响。
2009 暗通道去雾:首开图像复原新思路
2015 ResNet:解决深层网络训练瓶颈,奠定现代模型结构
2017 Mask R-CNN + RetinaNet:目标检测从 Two-stage 到 One-stage
2019-2020 MoCo:拉开视觉领域自监督学习序幕
2023-2024 Fluid + Fractal:攻坚视觉生成模型结构表达
这些研究不仅篇篇高引(ResNet 单篇已超 28 万次),而且高度可迁移,从图片识别延展到视频理解、材料建模、蛋白质设计等多个交叉学科。
他的“科研直觉”已被反复验证:别人还在研究“把杯子放稳不碎”的方法时,他已经在想,“如果 AI 真理解了杯子本身的构造呢?”
MIT 的自由探索给了他理论跳跃的空间,希望DeepMind 的工程团队和算力基础,能让这些跳跃有机会落地成形。
注:头图AI生成
来源:大数据文摘