刚刚,何恺明兼职加入 DeepMind!要在基础研究组搞大事?

360影视 日韩动漫 2025-06-26 12:06 3

摘要:何凯恺是计算机视觉领域的超级明星,别人的荣誉都是在某某大厂工作,拿过什么大奖,而何恺明的荣誉是best,best,best ...... 例如2016 CVPR 最佳论文“Deep Residual Learning for Image Recognition

大数据文摘出品刚刚,MIT教授、CV大神,成为 Google DeepMind 的杰出科学家。不过,这次是以 part-time(兼职) 身份加入。据网友爆料,他即将参与基础研究组的工作。何凯恺是计算机视觉领域的超级明星,别人的荣誉都是在某某大厂工作,拿过什么大奖,而何恺明的荣誉是best,best,best ...... 例如2016 CVPR 最佳论文“Deep Residual Learning for Image Recognition”以及2017ICCV最佳论文“Mask R-CNN”。目前,何恺明的论文引用数超过71万,是MIT被引用次数最高的学者。他也一直没闲着,去年,他与 DeepMind 的黎天鸿团队提出 Fractal Generative Models,把分形递归塞进神经网络,让逐像素生成 8K 图像不再卡死 GPU;今年又合写 Fluid,用连续 token 解决视觉自回归“越放大越糊”的老毛病。实验室里,他用 Representation Regularization 给生成模型“扎紧腰带”,在相同算力下多挤出 2%-3% 质量分。何恺明:多次按响深度学习门铃在2023年的世界人工智能大会上“何恺明把神经网络做深了,谷歌把神经网络的入口拉大了,又深又大,才成为今天的大模型。”

他2009年的那篇CVPR最佳论文,是CVPR整个25年历史上亚洲的第一篇最佳论文。

他的第一项工作是在微软亚洲研究院发布的有关残差网络(ResNet)的论文。在2015年之前,深度学习最多只能训练20层,而CNN(卷积神经网络)模型ResNet在网络的每一层引入了一个直连通道,从而解决了深度网络的梯度传递问题,获得了2016年CVPR的最佳论文奖,是计算机视觉历史上被引用最多的论文。

“在ResNet之后就可以有效地训练超过百层的深度神经网络,把网络打得非常深。”汤晓鸥说,“在大模型时代,以Transformer为核心的大模型,包括GPT系列,也普遍采用了ResNet结构,以支撑上百层的Transformer的堆叠。

尤其是何恺明在Facebook期间发明的Mask R-CNN算法,首次把基于掩码的自编码思想用于视觉领域的非监督学习,开启了计算机视觉领域自监督学习的大门。

关于何恺明

他是广东高考满分状元,全国物理竞赛一等奖获得者,清华保送生。但真正让他从“天才少年”跃升为“AI 大神”的,是从清华转向基础科学后的一连串技术里程碑。

本科阶段,他放弃保送的机械专业,加入清华基础科学班。2007 年进入微软亚洲研究院实习,因对图形图像课程产生兴趣,加入视觉计算组——起初连发论文都难,直到 2009 年凭“暗通道去雾”首获 CVPR 最佳论文。

这只是序章。他后来主导的 ResNetMask R-CNNRetinaNetMoCo 等模型,先后斩获多个 CV 顶会大奖,把计算机视觉推进到了深度学习、实例分割、单阶段检测器、自监督学习的多个重要阶段。每一次发声,都代表了方向性转变。

从微软亚洲研究院,到 Facebook FAIR,再到 MIT,再到 Google DeepMind,何恺明每一次转换角色,都不是为名或为利,而是为了研究自由度和落地可能性之间的平衡。

复盘何恺明的研究路线,你会发现它极具“方向性判断”能力。不同于许多研究员跟随热点话题“追着发”,他更像在一个个节点精准切入,并留下长久影响。

2009 暗通道去雾:首开图像复原新思路

2015 ResNet:解决深层网络训练瓶颈,奠定现代模型结构

2017 Mask R-CNN + RetinaNet:目标检测从 Two-stage 到 One-stage

2019-2020 MoCo:拉开视觉领域自监督学习序幕

2023-2024 Fluid + Fractal:攻坚视觉生成模型结构表达

这些研究不仅篇篇高引(ResNet 单篇已超 28 万次),而且高度可迁移,从图片识别延展到视频理解、材料建模、蛋白质设计等多个交叉学科。

他的“科研直觉”已被反复验证:别人还在研究“把杯子放稳不碎”的方法时,他已经在想,“如果 AI 真理解了杯子本身的构造呢?”

MIT 的自由探索给了他理论跳跃的空间,希望DeepMind 的工程团队和算力基础,能让这些跳跃有机会落地成形。

注:头图AI生成

来源:大数据文摘

相关推荐