Token的成本下降10倍,但大模型公司却离盈利越来越远

360影视 欧美动漫 2025-09-14 10:30 2

摘要:这篇文章的作者Ethan Ding,系统性地阐明了如今正在AI行业发生的一个“诡异”现象:虽然Token的单位成本下降了,但是由于AI能做的事越来越多,越来越被更多的人自动化地执行更大的任务, Token的消耗爆炸了,大模型公司的亏损率都在不断提高。

这篇文章的作者Ethan Ding,系统性地阐明了如今正在AI行业发生的一个“诡异”现象:虽然Token的单位成本下降了,但是由于AI能做的事越来越多,越来越被更多的人自动化地执行更大的任务, Token的消耗爆炸了,大模型公司的亏损率都在不断提高。

不过,这对经历过多次互联网补贴大战的中国用户来说,却也远不算什么新鲜事了:业务发展越来越红火,亏损额度越来越大,公司估值节节走高,直到......

未来,大语言模型的单位成本,也许还会一次又一次地便宜10倍,但AI付费订阅服务依然会被榨干。

token可以理解为词元,在大模型里,token 是分词器把文本切分后的最小处理/计费单位,它可能是一个字、一个词或一个标点。模型的上下文长度、生成长度、速度与费用,都按token计量。

但是,要注意它不直接等同于“字”或“词”,拆分规则要由具体分词器决定。

如若要了解token和大语言模型的具体工作原理,可参考这篇: OpenAI的前世今生。

如下为《 ai subscriptions get short squeezed》的 正文,enjoy,欢迎点赞、转发和收藏。

想象一下:你创立了一家公司,但你心里清楚,消费者每月最多只愿意付20美金(如今大部分AI大模型服务的月费价格)。

没关系 ,你心想, 典型的VC打法 ——按成本价收费,为增长牺牲利润率,CAC、LTV 之类的账,你也都算过了。

不过接下来就有意思了,你看过 a16z 的那张图,显示 LLM 的成本每年下降 10 倍。

于是你心里盘算,今天每月20美金,可以做到收支平衡,等模型明年成本降低10 倍:砰的一下,利润率就有 90% 了。

亏损只是暂时的,利润终将到来!

这个策略, 简单到连 VC 公司新人都能懂

第一年:每月20美金 实现收支平衡

第二年:算力成本降低 10 倍,利润率达到 90%

第三年:买个豪华大游艇!

这个策略,确实也说得通,因为大家都在念叨:“大模型推理的成本,每 6 个月就降至原来的三分之一,我们会没事的。”

但是, 18个月后,你的利润率依然负得不能再负。

Windsurf 公司最终被拆解变卖,Claude Code 本周(25年8月初)也不得不下架了后来推出的每月200 美元但不限量的套餐。

公司们仍在持续流血。

模型确实更便宜了,GPT-3.5 的调用费用,已经只有原来的十分之一。但不知为何,利润率反而更糟了。

这是不是有哪里不对?

一、没人想要前天的报纸

GPT-3.5 现在虽然便宜了 10 倍,但它的吸引力也和在 iPhone 发布会上亮相的翻盖手机一样低。

当一款新模型作为 SOTA 问世时,99% 的用户需求会立刻转向它,消费者对所有产品都是这么做的。

现在来看看那些前沿模型的实际定价历史,也就是任何时候都占据 99%用户需求的那些模型:

看看上图,发现什么了吗?

当 GPT-4 以 $60 的价格推出时,尽管 GPT-3.5(之前的SOTA)便宜 26 倍,所有人还是一窝蜂地改用 GPT-4。

当 Claude 3 Opus 以 $60 推出时,哪怕 GPT-4 已经降价,人们还是转向了 Claude 3 Opus。

10 倍降成本确实存在,但 体现在上一代的模型上。

所以,这就是“成本会下降”战略 站不住脚的第一个原因 :市场对“最好的语言模型”有需求,就是这么简单。

然而,最好的模型价格始终都差不多贵,因为那代表了当下推理所需的最大成本。

当你和 AI 相处时——无论是在编程、写作还是思考——你总是追求最高的质量。

没有人会打开 Claude 想:“嗯,要不我用那个老 版本 帮老板省点钱。”

我们在认知上都是贪婪的生物,想要能获得的最强大脑,特别是当我们拿自己的宝贵时间去换取它的时候。

二、Tokens的消耗,比我们想象中还要多

“好吧,但这仍然可控,对吧?我们就一直保持收支平衡不就行了?”

哎, 天真的孩子

的确,每一代前沿模型的单个Token 成本,确实也没有变贵。

然而,出现更糟糕的情况: 模型消耗的 Token 数量,呈现了爆炸式增长

以前,ChatGPT 对一句话的问题,只回复一句话。

现在,Deep Research模式要花 3 分钟来规划,20 分钟来阅读,再用 5 分钟为你重写一份报告。

推理阶段计算量的激增,导致了一个谁也没预料到的结果:AI 能够完成的单次任务长度,每六个月翻一番。

过去返回1000 个 Token 的任务,现在返回10万个。

当你把趋势往后推算,数字疯狂得离谱。

目前,一次 20分钟的“深度研究”运行成本大约是1美金。

到了 2027 年,我们将有 Agent 可以连续运行 24 小时,而不丢失上下文,再考虑前沿模型的单价并未下降,那就是一次运行要烧掉72美金。

也就是每位用户每天72美金,而且用户还可以同时并行运行多个这样的任务。

一旦我们能部署 Agent 异步执行连续 24 小时的任务,我们就不会再一次只给它一条指令然后等反馈了。

我们会批量调度它们,整个 AI 舰队们并行地攻克问题,烧起Token来就跟不要钱似的。

显然,这一点怎么强调都不为过:每月20美金的付费订阅,连支撑一个用户每天跑一次成本1美金的深度研究模式都做不到。

但,这恰恰是我们正在面对的局面。

模型能力每提高一次,都意味着它们一次能够有效利用的算力上限又升高了。

这就像造出了一台更省油的发动机,然后用省下的油去造了一辆巨型卡车。

没错,你每加仑油是能跑得更远了,但你也会一次烧掉 50 倍的油。

这种局面,逼得Windsurf 不得不卖身,任何采用“固定费用套餐 + 高强度 Token 消耗”模式的创业公司,如今都正处于枪口之下。

三、Anthropic奋力应对这场逼空

Claude Code 推出的 Max-Unlimited 套餐,可以说是我们见过的、为抵御这场风暴所做的最精密尝试。然而,他们用尽了一切招数,但最后仍然被击溃了。

他们的策略确实很巧妙:

1、价格定高 10 倍: 当 Cursor 收 $20/月 时,它定 $200/月。先留出更大的缓冲区,好让出血开始前能多撑一阵子;

2、按负载自动切换模型: 负载高时就从 Opus 模型($75/百万 Token)切换到 Sonnet 模型($15/百万),阅读时用 Haiku 模型优化。

就像 AWS 的弹性扩容,只不过更加用在“刀刃”上。

他们肯定把这种行为, 直接写进了模型权重 里。这是一种范式转变,后面我们大概率会更常见到。

3、把计算量转给用户的机器:如果 用户的 CPU 都闲着,为什么还要自己开沙箱sandboxes呢?

尽管用了这些高明的工程手段,Token的消耗 仍然像超新星一样爆炸了

排名第一的用户,消耗了100亿个 Token,相当于在一个月里输出了 1.25万本《战争与和平》 的内容。

怎么做到的?就算每次连续运行 10 分钟,一个用户又怎么能烧掉 100 亿个Token呢?

结果发现,连续运行 10~20 分钟,刚好足够卡诗“for loop”的妙用。

一旦将 Token 消耗与用户在应用中的时间解耦decouple,物理规律就接管了一切:把 Claude 丢去执行一个任务,让它自己检查结果、重构、优化,如此循环,直到破产为止。

用户变成了 API 编排者,在 Anthropic 买单的情况下,7×24 小时地运行代码转换引擎。

从聊天到 Agent 的演化,一夜之间就发生了, 消耗量暴增了 1000 倍。

这是一次相变,而不是渐变。

于是, Anthropic 下架了无限量套餐。

他们本可以尝试每月2000美金的订价,但教训不在于价格够不够高,而在于在这个新世界中,无论哪种订阅模式,都不可能撑得起无限使用。

换言之,在这个新环境下,不存在行得通的固定订阅价。

这笔账已经从根本上算不平了

四、其他人的囚徒困境 这让其他所有公司都陷入了一个进退两难的处境。

每家AI公司都知道按用量计费(而不是固定价格),就能救自己,但他们也知道那么做会要了自己的命。

你在老老实实按 $0.01/1000Token收费,你那靠风投资金支持的竞争对手却提供每月只需$20的无限量套餐。

用户会选谁,还用猜吗?

典型的囚徒困境:

大家都按用量收费 → 行业可持续发展

大家都按包月收费 → 一起卷到死

你按用量收,别人包月 → 你先死

你包月收,别人按用量 → 你赢了,但迟早也得死

结果就是,人人都选择了背叛。

大家都去补贴重度用户,所有人都在晒高斜率的增长曲线,但最终大家都不得不发布“重要定价更新”的公告。

Cursor、Lovable、Replit,他们心里都清楚账怎么回事。他们选择了今天先拼增长、明天再谈盈利,最终难免破产,但那是下任 CEO 才要操心的问题。

老实说,也许他们最终是对的。

在跑马圈地阶段,市场份额确实比利润率更重要。只要 VC 们还在不断掏钱,填补单位经济的亏空。

但去问问 Jasper,当音乐停止时会发生什么吧。

五、避免死局? 难道真的有办法,避免这场“死局”吗?

据传,Cognition 最近正以 150 亿美元 估值融资,而它对外公布的 ARR ,还不到 1 亿美元 (我猜也就 5000 万左右)。

对比之下,Cursor 在 ARR 5 亿美元 时,融到了 100 亿美元 的估值,增长曲线要陡峭得多。

前者收入不到后者的八分之一,估值却达到了后者的三分之二。

风投们知道关于 Cognition 的什么秘密,是我们所不知道的吗?两家公司做的都是写代码的 AI Agent。

难道 Cognition 找到了摆脱死亡螺旋的办法?

从逻辑上看,避开死局有三条出路:

1、从第一天起就按使用量计费

不补贴用户,不搞「先拉用户、以后再变现」,而是老老实实按经济账来,理论上这听上去很不错。

可是,有按量计费且大获成功的面向消费者的 AI 公司吗?

消费者讨厌分段计费!

他们宁愿多花钱买不限量,也不想事后收到账单时被吓一跳。

每一家成功的 to C 订阅服务——Netflix、Spotify、ChatGPT——用的都是统一套餐。

你只要一加上计量表,增长立马死掉。

2、极高的切换成本 ,然后带来高利润率

Devin 正是 all in 在这条路上。

他们最近宣布了和花旗银行及高盛的合作:在每家让 4 万名软件工程师上手 Devin。按每人每月20美金算,这是个年收入近1000万美金的项目。

但问题来了:你是愿意有来自高盛的1000万 美金的 ARR,还是愿意有来自发烧级开发者们的5亿 美金 ARR?

答案显而易见:6 个月的部署实施、合规审核、安全审计、采购地狱……这意味着拿下高盛的单子非常困难,虽然一旦拿下,就几乎不可能被撼动。只有当银行里那个拍板的人,把自己的声誉都押在你身上时,你才能签下这些合同。而签了约后,每个人都会想方设法把项目做成。

这也是为什么在超大规模云厂商之外,最大的那些软件公司全都是卖比如 CRM/ERP/EHR等系统的,它们面向的正是这些客户。这类公司通常能做到 80-90% 的利润率,因为客户越是不容易走,你的买家对价格就越不敏感。

当竞争对手赶到时,你已经在客户的体系中扎根很深,想切换得再耗一个 6 个月的销售周期。他们并非走不了,而是你客户的 CFO 宁死 也不想再经历一次选择过程了。

3、垂直整合,靠基础架构赚钱

这是 Replit 的游戏:把编码 Agent 和应用托管、数据库管理、部署监控、日志等打包提供。

每个 Token 都在亏钱,但你在这代新开发者的技术栈中每一层其他地方都攫取了价值,以下是 Replit 是如何做到高度垂直整合的。

把 AI 亏本卖,然后引流,来带动那些与 AWS 竞争的服务消费。你卖的不是推理本身,你卖的是其余的一切,而推理部分只是营销开支。

绝妙之处在于,代码生成,自然而然会催生托管的需求。

每个应用都需要运行的地方,每个数据库都需要维护,每次部署都需要监控。

就让 OpenAI 和 Anthropic 去把推理价格卷到归零吧,而你拥有其余所有部分。

那些还在玩“固定套餐、不计成本增长”的公司,都是 行尸走肉,它们 不过是把昂贵的葬礼安排在了第四季度而已。

六、前路和未来

我总是看到一些创始人,指望着“模型明年会便宜 10 倍”,把它当成救命稻草。

没错,模型会更便宜,但你的用户会期待它们多干出 20 倍的活。

Cursor 对 Windsurf 损益的压力,让他们找不到脱身之策。

就连拥有地球上最垂直整合应用层的 Anthropic ,也无法让无限量的固定订阅模式跑通。

虽然我常说,先发制人胜过策略聪明 being early beats being smart, 但是,如果只是抢先,却没有计划,也意味着你只是第一个进墓地的人。

如今,不会有 Google 给负利润业务开出 24 亿美元的支票。

当“以后再说”意味着你的AWS 账单已经比营收还高时,也就没什么“以后再说”的余地了。

完。

来源:财经大师

相关推荐