国际权威媒体:DeepSeek只从大陆招聘员工,其年收入超130万美元

360影视 2025-02-03 10:25 2

摘要:根据媒体 SemiAnalysis 的数据报告显示,中国ai企业DeepSeek 只从中国境内招聘,而不是从台湾或美国挖角。其招聘的目的是专注于技能和解决问题的能力,而不是正式的证书。招聘工作以北京大学和浙江大学等提供极具竞争力的薪酬机构为目标。根据这项研究,

根据媒体 SemiAnalysis 的数据报告显示,中国ai企业DeepSeek 只从中国境内招聘,而不是从台湾或美国挖角。其招聘的目的是专注于技能和解决问题的能力,而不是正式的证书。招聘工作以北京大学和浙江大学等提供极具竞争力的薪酬机构为目标。根据这项研究,DeepSeek 的一些 AI 研究人员的收入超过 130 万美元,超过了 Moonshot 等其他领先的中国 AI 公司的薪酬。

DeepSeek 在大模型训练上投入的成本仅为 600 万美元以及 2048 个 GPU,但该模型被认为是可以与 Open AI 的 o1 相媲美的存在。

DeepSeek一共推出了两款大模型,V3和R1。

V3采用混合专家(MoE)架构,拥有6710亿参数,但每次推理仅激活370亿参数,这种设计显著降低了计算成本。它使用了14.8万亿条标记进行训练,通过强化学习后训练,增强了推理能力,能够实现类似人类的“思路链”问题解决。

V3的训练成本仅为557万美元,远低于GPT-4o的1亿美元。其训练效率也非常高,仅用了278.8万GPU小时,在2048块Nvidia H800 GPU上用55天完成训练。

在多项基准测试中,DeepSeek-V3的表现接近甚至超越了Claude Sonnet和GPT-4o等国际顶尖模型。例如,在数学竞赛(如AIME 2024和MATH-500)和代码生成任务(如Codeforces)中,V3的表现尤为突出。

而R1大模型同样采用MoE架构,拥有6710亿参数,其中370亿参数处于活动状态以处理特定任务。它通过纯强化学习达到OpenAI o1的水平,成本却低95%。

其训练成本为550万美元,不到ChatGPT费用的十分之一。其训练过程与V3相差无几,都是278.8万GPU小时和2048块H800 GPU。

虽然DeepSeek将训练成本和训练所使用的芯片公布出来,但是国际行业分析公司 SemiAnalysis 发布了报告称,DeepSeek 背后的公司承担了 16 亿美元的硬件成本,并拥有 50000 个 Nvidia Hopper GPU 的队列,这一发现将会削弱 DeepSeek 以比 AI 行业领导者低得多的投资重塑 AI 训练和推理的想法。

DeepSeek 起源于中国对冲基金 High-Flyer,该企业很早就意识到 AI 在金融以外的领域有着深度的潜力和可以扩展的关键洞察力。因此,他们一直在不断采购英伟达的 GPU 产品。

在对具有数千个 GPU 集群的模型进行试验后,High Flyer 在 2021 年一共采购了 10000 个 A100 GPU,由于当时还没有任何对于ai芯片的出口限制,所以这些GPU芯片可以轻松的买到。

随着 High-Flyer 的改进,他们在 2023 年 5 月拆分出“DeepSeek”作为独立的ai公司运作,目标是更专注于追求更多的 AI 功能。

DeepSeek团队以前期5.78亿美元的研发投入为基础,将单个模型训练边际成本降至557万美元,仅为同类模型的30%。这种成本分摊策略降低了单个模型的训练成本,使得大规模模型训练更加经济。

在训练R1大模型时,DeepSeek在2048块H800 GPU集群上实现了98.7%的持续利用率,相较传统训练方案提升了20个百分点。这种负载均衡策略确保了硬件资源的充分利用,避免了资源闲置,最大化了生产效率。

尽管美国对向中国出口先进GPU的限制不断升级,但DeepSeek仍然通过合规渠道采购了大量英伟达芯片。例如,DeepSeek训练其V3模型所使用的H800芯片,这些芯片是英伟达专为中国市场定制的版本,虽然性能相较于H100有所削弱,但仍能满足DeepSeek的训练需求。

H100是英伟达目前最强大的完全体AI芯片之一,基于Hopper架构,采用台积电N3制程技术。它集成了八个HBM3显存,提供高达900GB/s的内存带宽。这些芯片主要用于高性能计算和AI训练任务,特别是在需要高内存带宽和高计算性能的场景中。例如,Meta在训练其Llama 3模型时使用了16384块H100 GPU。

而DeepSeek所采购的H800芯片,也是基于Hopper架构技术,但性能相较于H100有所削弱。H800的显存带宽缩减至约400GB/s。H800主要用于AI推理和训练任务,特别是在需要较高性能但又受限于出口管制的场景中。

DeepSeek采取“一年14薪”的模式,即每个自然年度发放14个月的薪水,这意味着员工每年可以额外获得两个月的工资。从薪资待遇上面来看,DeepSeek的基础保障要强于一般的企业。

而且DeepSeek主要在中国大陆招聘员工,其初创团队和投入资本均脱胎于幻方量化,这家公司在中国有着深厚的根基,在北京、杭州两地设有办公地点。

DeepSeek 定期在北京大学和浙江大学等顶尖大学举办招聘活动,许多员工都毕业于浙江大学。据权威媒体所称,DeepSeek将为有前途的候选人提供超过 130 万美元的薪水,这个收入远高于竞争激烈的中国大型科技公司以及像 Moonshot 这样的人工智能实验室。

人工智能是当下最具有红利期的领域,曾经布局多年的英伟达,凭借着CUDA技术生态,在人工智能时代站上顶峰。其公司的许多员工,都已经实现了身价超百万的收入水平。

根据Payscale和Blind的数据显示,2025年英伟达员工的平均薪资为142,087美元。中位数总薪酬为231,268美元,其中25th百分位的员工年薪为173,371美元,90th百分位的员工年薪为389,992美元。

2024年10月7日,英伟达创始人黄仁勋的个人净资产已达到1090亿美元。

2024年10月7日,英特尔的市值约为960亿美元。

黄仁勋一个人的资产,已经超过了世界500强企业英特尔的公司市值。这都是建立在人工智能大爆发下,所出现的戏剧性一幕。

DeepSeek现在专注于招募中国本土人才,不过分看重候选人的过往履历,而是更注重其实际能力和求知欲望。公司经常在北京大学、浙江大学等国内的顶尖高校举办招聘活动,许多公司的员工均毕业于这些院校。

对于较为重要的核心岗位,DeepSeek尤其看重应聘者的“学术”和“研究能力”,例如“深度学习研究员”岗位,对于在国际顶会或期刊发表相关论文的应聘者会优先招聘。

而且DeepSeek对校招和应届生非常友好,有很多岗位都在向学生群体开放,甚至有些岗位面向“在校生”。公司认为年轻人更具创新能力和学习能力,能够为公司带来新的视角和活力。并且DeepSeek认为,如果追求短期目标,找现成有经验的人是对的,但如果看长远,经验就没那么重要。

来源:大漠过千里

相关推荐