摘要:随着 Meta 豪掷 143 亿美元收购数据标注公司 Scale AI 近半股份,所有目光都集中在 Scale AI 创始人亚历山大·王(Alexandr Wang)身上。
随着 Meta 豪掷 143 亿美元收购数据标注公司 Scale AI 近半股份,所有目光都集中在 Scale AI 创始人亚历山大·王(Alexandr Wang)身上。
他年纪轻轻、身披“数据标注领域领军人物”的光环,受邀加入 Meta 核心 AI 团队,已然成为新晋“硅谷红人”。
然而,在数据标注领域,无论是行业认可度还是营收规模,风头正劲的 Scale AI 都不是真正的老大。
这个宝座属于 Surge AI:一家成立五年没有融资、过去两年几乎不发新闻稿、员工仅为对手十分之一的神秘公司,却悄悄实现了超过 10 亿美元的营收。
而它的创始人同样是华人,只不过选择了一条“大隐隐于市”的路线。
图 | 同为数据标注公司,Surge AI 成立最早、营收最高,却从未披露融资情况(来源:The Information)
Surge AI 的创始人兼 CEO 埃德温·陈(Edwin Chen)似乎是一位低调且富有诗意的工程师。
他为 Surge AI 的工作设定了一个崇高的目标:用真正的“创造力和偶然性”来开发 AI。
图 | 埃德温·陈(Edwin Chen)(来源:资料题)
37 岁的埃德温拥有美国麻省理工学院数学与计算机科学背景,曾在 Facebook、Dropbox、Google 和 Twitter 担任研究员、机器学习工程师等职位,负责开发推荐和搜索算法,并帮助收集训练这些算法所需的数据。
在 Facebook,他曾因等待 6 个月仍无法获得可靠标注数据而感到无奈,而且在他看来,最后获得的数据“完全是垃圾”。正因如此,这段挫败经验成为了日后创办 Surge AI 的动力之一。
埃德温在 2020 年离开 Twitter,并自掏腰包创立 Surge AI,至今未接受任何风险投资(也有一种说法是拿到了 2500 万美元融资)。
他希望打造一套新型的人类数据平台,不只是提高标注效率,更要让 AI“理解”人类语言中的情感与风格。“在理想世界中,一个模型可以接受一个关于月亮的八行诗的提示,并写出一首让人落泪的诗。”
图 | Surge AI 的使命(来源:Surge AI 官网)
值得一提的是,Surge AI 另一位核心创始成员约瑟夫·李(Jefferson Lee)同样是华人,目前领导数据标签和内容审核产品,涵盖帮助客户评估大语言模型、内容审核,以及训练垃圾邮件和仇恨言论分类器。
他曾是 Airbnb 信任与安全机器学习团队的早期工程师,本科毕业于美国哈佛大学计算机科学系。
图 | Surge AI 创始团队(来源:Surge AI,官网机翻)
目前,成立五年的 Surge AI 仅有 110 名员工,却已成为数据标注领域的头部公司,不仅入选了福布斯 2023 AI50 榜单,还持续保持盈利。
2024 年,Surge AI 营收首次突破 10 亿美元,超过了 Scale AI 的 8.7 亿美元。
Surge AI 的客户包括 OpenAI、Anthropic、Meta、Google、Microsoft 等 AI 行业巨头。
与其他高调的硅谷 AI 初创公司相比,Surge AI 几乎不做公开宣传,创始人很少高调出席活动,不在 X 等社交平台上活跃(上次更新时间甚至追溯到 1-2 年前),也极少接受采访。
图 | Surge AI 的 X 官方号,上次更新还是 2024 年 8 月(来源:X)
一位曾与之合作的科技公司高管这样形容他们:“无聊,但无聊得让人安心。他们很擅长把事情做好,我也不用担心 CEO 突然有一天上了新闻头条。”
Surge AI 主要从事大语言模型训练所需的数据标注工作,完美踩中生成式 AI 发展的主线,其核心能力在于“通过人类反馈数据实现强化学习”,即所谓的 RLHF。
Surge AI 尤其擅长构建高质量的人类反馈数据,提升模型的安全性、风格一致性与复杂任务应对能力。其客户任务覆盖编程、数学、法律等专业领域。
图 | Surge AI 回应 Scale AI 被收购一事(来源:Surge AI)
与传统标注公司最大不同在于:Surge AI 并非仅提供数据,而是提供“理解”。
比如,在协助企业训练代码生成模型时,其标注者不仅要写出正确代码,还要给出逻辑清晰、格式统一、语言风格一致的解释,以确保 AI 产出也能“写得像人”。
Surge AI 的具体工作流程外界知之甚少,但综合公开资料来看,他们会采用多重交叉审核、故意设置无正确答案的题目、跟踪鼠标轨迹、用词分析等手段监控标注质量。
同时,其对标注人员和团队成员的选择极为严苛,强调领域知识背景,尤其青睐具有硕博学位的人才。
图 | Surge AI 的合作案例(来源:Surge AI)
OpenAI 三年前发布的知名 GSM8K 数据集,就是 Surge AI 的代表性案例之一。
Surge AI 为 OpenAI 的强化学习团队制作了一个包含 8,500 道小学数学题的数据集,用于训练 GPT-3 等模型理解自然语言数学问题的解题逻辑。
Surge AI 不仅负责设计题目,还为每道题编写详细解法,确保数据既符合逻辑也具备教学性。该数据集随后也被 Google 等用于 PaLM 和 Chain-of-Thought 研究中。
图 | Surge AI 展示的数据标注案例(来源:Surge AI)
为了确保问题的逻辑性与多样性,Surge AI 建立了由数学或 STEM 背景人员组成的标注团队,并对前期提交结果进行双人交叉审核。同时,通过语义相似度计算机制剔除重复或结构雷同的题目,确保训练数据的广泛覆盖与风格一致性。
另一个代表性案例是与 Anthropic 的合作:Surge AI 是 Anthropic 开发 Claude 过程中 RLHF 数据采集的主要平台,Anthropic 研究员称其为“研究突破的关键因素之一”。
专有质量控制技术,用于规避低质量数据对模型训练的长期影响;据透露,Surge AI 的标注费用通常为行业水平的 2 至 5 倍,但客户仍愿意为其服务质量与交付稳定性买单。
其竞争对手、凯鹏华盈(Kleiner Perkins)投资的 Handshake 公司的创始人加勒特·洛德(Garrett Lord)也承认,Surge AI 是“行业龙头”。
Surge AI 主要采用全流程交付模式,从数据任务定义、标注者筛选、界面工具提供、质量审查到最终输出,均由 Surge AI 承担,客户可实现“按下按钮即获得结果”。
据透露,2023 年 Meta 的生成式 AI 团队向 Surge AI 支付超过 1.5 亿美元用于数据标记工作,而后者负责“从头到尾”的整个流程。
这种模式使其成为 OpenAI、Anthropic、Meta 等大模型顶级玩家的长期合作方。尽管没有公开估值,但若以 Meta 对 Scale AI 的 290 亿美元估值为参考,Surge AI 的估值基本是同一水平。
不过,随着行业的成熟,Surge AI 也面临内外部竞争压力。
一方面,越来越多厂商采用模型蒸馏(distillation)等自动方法减少对人工标注依赖,也有客户因 Surge AI 产能有限而寻求其他渠道。
另一方面,数据标注公司越来越多,价格竞争加剧。同时,Surge AI 也在今年 5 月卷入了诉讼,被指控“故意”将数据标注员定义为独立合同工,剥夺了他们“享受正式员工福利”的权利。
尽管如此,Surge AI 的行业地位仍难以撼动。
“人们往往真的低估了这个领域。”埃德温在接受采访时说,“他们认为人类很聪明、普通的博士也很聪明,所以他们招募 10 万个标注员,让他们肆意发挥。但我们发现事实并非如此。”
在“爆款故事+创始人 IP”的硅谷创业游戏里,Surge AI 反其道而行之:不讲融资神话、不追逐新闻头条,靠极致产品实力走出了一条成熟的 AI 基础设施之路。
如果说 Scale AI 代表了数据标注领域的硅谷叙事范式,那 Surge AI 就代表了一种更安静、更务实、更接近底层价值创造的技术信仰。
也许,这才是那条通往 AGI 的路。
参考资料:
https://web.archive.org/web/20250405111034/https://www.Surge AIhq.ai/blog/how-we-built-it-openais-gsm8k-dataset-of-8500-math-problems
https://web.archive.org/web/20250405110902/https://www.Surge AIhq.ai/blog/anthropic-Surge AI-ai-rlhf-platform-train-llm-assistant-human-feedback
https://web.archive.org/web/20250403191504/https://www.Surge AIhq.ai/customers
https://web.archive.org/web/20250603224155/https://www.Surge AIhq.ai/about
运营/排版:何晨龙
来源:DeepTech深科技