摘要:近期,DeepSeek团队在AI圈乃至全网引发了巨大关注。他们以1/11算力训练出超过Llama3的开源模型DeepSeek-v3,这一成就震撼了整个AI领域。紧接着,关于“雷军开千万年薪挖DeepSeek研究员罗福莉”的传闻,更是让人们的目光聚焦到了Deep
近期,DeepSeek团队在AI圈乃至全网引发了巨大关注。他们以1/11算力训练出超过Llama3的开源模型DeepSeek-v3,这一成就震撼了整个AI领域。紧接着,关于“雷军开千万年薪挖DeepSeek研究员罗福莉”的传闻,更是让人们的目光聚焦到了DeepSeek的人才身上。从科技圈到小红书,从国内到国际,人们都在好奇这支团队究竟是怎样的存在。国际上,甚至有人把创始人梁文锋的访谈翻译成英语并加注释,试图从中寻找这家公司崛起的蛛丝马迹。那么,DeepSeek团队到底有着怎样的魔力,能让无数人如此着迷呢?
年轻是DeepSeek团队最大的特点。应届生、在读生,特别是来自清北的应届生在其中非常活跃。他们中的一些人,2024年一边在DeepSeek搞研究,另一边新鲜热乎的博士学位论文刚评上奖。他们中有的参与了从DeepSeekLLMv1到DeepSeek-v3的全程,有的只是实习了一段时间也做出重要成果。为DeepSeek提出MLA新型注意力、GRPO强化学习对齐算法等关键创新的,几乎都是年轻人。这些年轻的头脑,不受传统思维的束缚,敢于突破常规,用创新的思路和方法,为DeepSeek的发展注入了源源不断的动力。
例如,在研究MLA新型注意力时,年轻的团队成员们并没有满足于现有的Transformer架构中的多头注意力机制。他们深知,随着模型规模的不断扩大,传统的多头注意力机制面临着计算量和推理显存的巨大挑战。于是,他们开始大胆地探索新的可能性,经过无数次的尝试和验证,最终提出了MLA架构。这一架构不仅在理论上具有创新性,而且在实际应用中也展现出了卓越的性能。它大幅减少了计算量和推理显存,使得大模型的训练和部署变得更加高效和可行。这种敢于挑战传统、勇于创新的精神,正是DeepSeek团队能够在AI领域迅速崛起的关键因素之一。2024年5月发布的DeepSeek-V2,是致使这家大模型公司破圈的关键一环。其中最重要的创新是提出了一种新型注意力,在Transformer架构的基础上,用MLA(Multi-head Latent Attention)替代了传统的多头注意力,大幅减少了计算量和推理显存。在一众贡献者中,高华佐和曾旺丁为MLA架构做出了关键创新。高华佐非常低调,目前只知道是北大物理系毕业。另外,在“大模型创业六小强”之一阶跃星辰的专利信息中也可以看到这个名字,暂不确定是否是同一人。而曾旺丁来自北邮,研究生导师是北邮人工智能与网络搜索教研中心主任张洪刚。他们通过深入研究Transformer架构的局限性,大胆提出了MLA架构,这一创新不仅提升了模型的性能,还降低了对硬件资源的需求,为大模型的广泛应用铺平了道路。MLA架构的提出,是基于对Transformer架构中多头注意力机制的深入理解和分析。传统的多头注意力机制虽然在处理序列数据时表现出色,但随着模型规模的扩大,其计算量和推理显存的需求也呈指数级增长。这使得在实际应用中,尤其是在资源受限的场景下,大模型的部署和使用面临诸多困难。高华佐和曾旺丁敏锐地察觉到了这一问题,并开始着手研究解决方案。他们从物理系和北邮人工智能与网络搜索教研中心所学的专业知识出发,结合Transformer架构的特点,提出了一种全新的注意力机制——MLA。MLA架构的核心思想是引入了潜在变量,通过这些潜在变量来捕捉序列数据中的关键信息,从而实现对传统多头注意力机制的替代。在实际测试中,MLA架构展现出了显著的优势。它不仅在计算量上大幅减少,而且在推理显存的需求上也得到了有效控制。这一创新成果,不仅为DeepSeek-V2的成功奠定了基础,也为整个大模型领域的发展提供了新的思路和方法。DeepSeek-V2发布前三个月,DeepSeek-Math问世,其中提出了GRPO(Group Relative Policy Optimization)。GRPO是PPO的一种变体RL算法,放弃了critic模型,而是从群体得分中估算baseline,显著减少了训练资源的需求。GRPO在圈内得到广泛关注,另一家国内开源大模型阿里Qwen2.5的技术报告中也透露用到了GRPO。DeepSeek Math有三位核心作者是在DeepSeek实习期间完成的工作。核心作者之一邵智宏是清华交互式人工智能(CoAI)课题组博士生,师从黄民烈教授。他的研究领域包括自然语言处理、深度学习,特别对如何能构建一个稳健且可扩展的AI系统感兴趣,这个AI系统能利用多样化的技能整合异构信息,并能准确回答各种复杂的自然语言问题。邵智宏之前还曾在微软研究院工作过。DeepSeek Math之后,他还参与了DeepSeek-Prover、DeepSeek-Coder-v2、DeepSeek-R1等项目。另一位核心作者朱琪豪是北大计算机学院软件研究所2024届博士毕业生,受熊英飞副教授和张路教授指导,研究方向为深度代码学习。据北大计算机学院官方介绍,朱琪豪曾发表CCF-A类论文16篇。在ASE和ESEC/FSE上分别获得ACM SIGSOFT杰出论文奖一次,提名一次。一篇论文进入ESEC/FSE会议同年的引用前三名。在DeepSeek团队,朱琪豪还基于他的博士论文工作,主导开发了DeepSeek-Coder-V1。其博士论文《语言定义感知的深度代码学习技术及应用》也入选了2024 CCF软件工程专业委员会博士学位论文激励计划。还有一位核心作者同样来自北大。北大博士生Peiyi Wang,受北京大学计算语言学教育部重点实验室穗志方教授指导。他们通过深入研究RL算法,提出了GRPO算法,这一创新不仅提升了模型的训练效率,还降低了对计算资源的依赖,为大模型的快速迭代和优化提供了有力支持。GRPO算法的提出,是基于对传统PPO算法的深入研究和分析。PPO算法虽然在强化学习领域取得了显著的成果,但在实际应用中,尤其是在大规模的模型训练中,面临着计算资源需求巨大的问题。为了解决这一问题,邵智宏、朱琪豪和Peiyi Wang三位核心作者开始着手研究新的算法。他们从群体得分的角度出发,提出了一种全新的baseline估算方法。这种方法不再依赖于传统的critic模型,而是通过分析群体得分的分布,来估算出一个更加准确的baseline。这一创新不仅减少了计算资源的需求,而且提高了模型的训练效率。在实际应用中,GRPO算法展现出了强大的性能。它不仅在DeepSeek-Math项目中取得了显著的成果,还被其他开源大模型项目所采用,如阿里Qwen2.5。这一算法的成功,不仅体现了DeepSeek团队在技术创新方面的实力,也为整个强化学习领域的发展提供了新的思路和方法。除了上述关键创新成果,还有一些成员从v1就加入其中,一直到v3。代表人物之一代达劢,2024年博士毕业于北京大学计算机学院计算语言所,导师同样是穗志方教授。代达劢学术成果颇丰,曾获EMNLP 2023最佳长论文奖、CCL 2021最佳中文论文奖,在各大顶会发表学术论文20篇+。2024年中国中文信息学会“博士学位论文激励计划”共入选10篇来自中国大陆高校的博士毕业论文,其中就有他的《预训练语言模型知识记忆的机理分析及能力增强关键技术研究》。以及北大元培学院的王炳宣。王炳宣来自山东烟台,2017年进入北大。硕士毕业加入DeepSeek,参与了从DeepSeek LLMv1开始的一系列重要工作。清华这边的代表人物还有赵成钢。赵成钢此前是衡水中学信息学竞赛班成员,CCF NOI 2016银牌得主。之后赵成钢进入清华,大二时成为清华学生超算团队正式成员,三次获得世界大学生超算竞赛冠军。赵成钢在DeepSeek担任训练/推理基础架构工程师,有英伟达实习经历。这些成员从v1到v3的坚守与成长,见证了DeepSeek的发展历程,也体现了他们对AI事业的执着追求和不懈努力。他们不仅在技术上不断突破,还在团队建设和项目推进中发挥了重要作用,为DeepSeek的成功奠定了坚实基础。代达劢从DeepSeek LLMv1项目开始,就全身心地投入到DeepSeek团队的工作中。他凭借着扎实的专业知识和丰富的研究经验,为团队的技术发展提供了重要的支持。在他的带领下,团队在预训练语言模型知识记忆的机理分析及能力增强关键技术研究方面取得了显著的成果。这些研究成果不仅在学术界引起了广泛关注,也为DeepSeek团队在来源:炎哥漫谈
免责声明:本站系转载,并不代表本网赞同其观点和对其真实性负责。如涉及作品内容、版权和其它问题,请在30日内与本站联系,我们将在第一时间删除内容!