摘要:“说来挺奇怪的,token 的成本是越来越便宜了,但我们的 token 账单却指数级增长,业务的利润一降再降。”
“说来挺奇怪的,token 的成本是越来越便宜了,但我们的 token 账单却指数级增长,业务的利润一降再降。”
最近,加州一家初创公司 TextQL 的创始人 & CEO, Ethan Ding(没错,又是一位华人创业者),近日抛出了一个很独特的观点。
“别被‘杠杆率’忽悠住了!”
Ding 认为,虽然现在许多大模型厂商都实打实地降低了推理 token 的价格,但这并不是大家所预期的那样利好。
其一,大模型虽然降价,但都是降的非 SOTA 模型的价格,SOTA 模型的价格反而一直保持稳定,未曾下降。
其二,有了 SOTA 模型,大家还是喜欢花不菲的金钱来订阅 SOTA。
此外,token 的调用量也呈现出了指数级爆发。
所以,单个 token 的成本看似成本降了,但其实整体的token调用所花的钱越来越昂贵。
那,作为创业公司而言,最终该怎么办?是包月提供订阅服务,还是像 Devin 一样作 B 端,按照用量进行计费,又或者像 Replit 做深度的开发者工作流整合,挣基础设施平台的服务费。
当然最值得琢磨的还是 Anthropic 取消无限制套餐、提高定价、限流等一波为盈利而采取的措施。
作者从创业者的视角分析了目前大模型应用创业与竞品之间的囚徒困境,并指出了未来突围的三种可能的商业做法。
总之,不要被token成本降低忽悠了,想一想你的大模型 token 账单,绝对是一场值得警戒的灾难!
想象你创办了一家公司,心里清楚用户最多只愿意为订阅每月支付 20 美元。你觉得没问题,经典 VC 剧本——以成本价收费,为增长牺牲利润。你已经算好了 CAC、LTV,各项数据都齐了。但故事的转折在这:
你看过 a16z 那张图,说 LLM 成本每年会便宜为原来的 1/10。
你心想:第一年 20 美元/月刚好打平,等模型明年便宜降到 1/10,Boom——毛利率 90%。亏损只是暂时的,盈利是必然的。
第一年:20 美元/月打平第二年:模型便宜 10 倍,毛利 90%第三年:准备去看游艇了而且逻辑看起来应该也很稳:"推理成本每 6 个月降 3 倍,我们撑得住。"
结果呢?18 个月过去,毛利率比以前还差。Windsurf 被拆掉卖了,Claude Code 也在最近取消了原本每月 200 美元的无限制套餐。
公司们还在流血。模型确实便宜了——GPT-3.5 成本是以前的 1/10,但毛利不是变好了,而是变差了。
哪里出问题了?
GPT-3.5 是便宜了,但它现在的吸引力跟 iPhone 发布时的翻盖机差不多。
每当一个新模型发布,几乎 99% 的需求立刻转移过去。消费者的产品预期也是这样设定的。
现在我们回头看看“前沿模型”的真实定价历史,也就是 99% 用户真正使用的那些模型:
看出什么了吗?
GPT-4 上线时标价 60 美元,大家还是用它,尽管 GPT-3.5 是它的 1/26 价。Claude 3 Opus 上线时也定价 60 美元,大家还是切过去了,即使 GPT-4 已经降价了。
模型是便宜了,但只限于那些“跟 Commodore 64(84年生产的古董电视) 一样过时”的型号。
这是“成本会降”的战略第一个错误支点:用户只想用“当前最强模型”。而最强模型的价格始终稳定,因为这是当前推理所需的真实成本。
你说“这车现在可便宜了!”然后指着 1995 年的本田 Civic。
可 2025 年的丰田 Camry 指导价还是 $30K 啊。
当人们在和 AI 互动——无论是写代码、写作、还是深度思考——大家都倾向于选择最强的模型。没人打开 Claude 会说:“我今天要省老板点钱,用差的版本吧。”
我们是认知贪婪的动物。尤其当另一端是我们自己的时间时,我们只想要最好的大脑。
你可能会说,“好吧,那还可以接受吧?那就一直维持打平运营。”
哎,天真的夏日孩子……
虽然每一代前沿模型在每 token 成本上没有变贵,但还有一个更糟的趋势出现了:模型使用的 token 数量已经呈指数爆发。
过去,你问一句 ChatGPT,它回你一句。
现在,Deep Research 会花 3 分钟计划,20 分钟阅读,5 分钟写报告。O3 则可能花 20 分钟来回复一句“你好啊”。
RL(强化学习)与推理时计算的大爆炸带来了一个没人预料的现象:AI 一次性完成任务的“长度”每六个月翻一倍。
过去输出 1000 tokens,现在直接 10 万起步。
现在一轮 20 分钟的 “deep research” 成本大约是 1 美元。按这个推算,到 2027 年我们可能会有持续运行 24 小时的智能体,任务不断线。再加上前沿模型的静态定价?那就是每天平均每个用户一轮 72 美元的操作。。别忘了其实大家有时候还会并发运行。
到那个时候,我们不会让智能体接一个任务然后等结果,而是批量派发,整队 AI 工人并行处理问题,tokens 烧得跟 1999 年一样。
显然——而且我必须强调——一个每月 20 美元的订阅,连用户每天用一次“深度研究”都撑不起。
可我们正在全速奔向这个场景。
每一次模型能力的提升,都会提升它在同一时间里可以有效利用的计算量。
这就像造出了更省油的引擎,然后直接造成了怪兽卡车。你是更省油了,但你同时也烧了 50 倍的油。
这就是导致 windsurf 被 margin call、导致所有“包月订阅 + 高 token 消耗”创业公司焦头烂额的“空头挤压”。
Claude Code 的“无限制套餐”是目前最复杂的一次抗挤压尝试。他们动用了所有手段,还是崩了。
他们的策略,其实很聪明:
定价更高 10 倍起步就是 200 美元/月(Cursor 是 $20/月),先拉开缓冲空间。按负载自动切模型忙时从 Opus($75/M token)切到 Sonnet($15/M),阅读用 Haiku 优化。像 AWS Auto Scaling,但用于模型脑力。可能这些逻辑甚至被直接写进了模型权重,这是个范式转变,未来会很常见。
100 亿 tokens。。。这可相当于 12,500 本《战争与和平》。一个月内。
怎么做到的?就算每次运行 10 分钟,怎么撑得起这么大消耗?
答案是:10–20 分钟足以让用户发现 for 循环。
一旦 token 消耗和“人在不在 App 里”的时间脱钩,物理规律就接管了。
你指派 Claude 一个任务 → 它检查结果 → 重写 → 优化 → 再检查 → 无限循环,直到烧光成本为止。
用户变成了 API 编排者,在 Anthropic 的账单上运行 24/7 的代码转换引擎。从聊天到智能体的跃迁,是突变式的,不是渐进的。token 消耗直接爆了 1000 倍。
于是 Anthropic 被迫取消无限制套餐。他们或许能试试 $2000/月,但真正的教训不是“价格不够高”,而是:
数学逻辑已经崩盘。
那剩下的公司怎么办?
所有 AI 公司都知道:按用量收费是唯一可持续的方式。
他们也知道:但那样做会死得更快。
你老老实实每 1000 tokens 收用户 1 分钱,你的竞争对手却提供 $20/月无限用。
你觉得用户去哪?这是一个经典的囚徒困境:
都收用量费 → 行业可持续都走包月 → 集体死掉你收用量,别人包月 → 你先死你包月,别人收用量 → 你先赢,然后死得更晚一点所以最后,大家都会选择背叛,都去补贴重度用户,都拼命发 hockey stick 增长图。然后都在发“重要定价调整”。
Cursor、Replit、Lovable 都清楚这笔账。他们选择的是:现在增长,未来盈利,最终破产(但那是下任 CEO 的问题)。
老实说?也许没错。
在抢地盘阶段,市场份额>利润率。只要 VC 还愿意补贴单用户亏损……
问问 Jasper 当音乐停了会发生什么。
现在还有逃生通道吗?
最近有传言 Cognition 正在以 150 亿美元估值融资,而他们公布的 ARR 连 1 亿都不到(我猜也就 5000 万)。
相比之下,Cursor 是以 100 亿美元估值融资,ARR 有 5 亿,增长曲线也陡得多。营收差 8 倍,估值却只差 1/3。
它和 Cursor 都是 AI 编程智能体。难道 Cognition (Devin 的创造者)找到了逃出生天的路径?(下篇再说)
不补贴、不先圈用户后变现,一上来就走真实经济模型。理论听起来很好。
问题是——没有一家爆火的 ToC AI 公司是用用量计费的。
消费者讨厌被按量计费。他们宁愿为无限制套餐多付点,也不想看到突如其来的账单。
所有成功的订阅消费服务——Netflix、Spotify、ChatGPT——都是统一定价。
一旦你加了计量表,增长就死了。
这正是 Devin 的玩法。他们最近和花旗、高盛合作,把 Devin 投入到每家企业的 4 万名工程师中。
哪怕每人每月 $20,总计也才 $1000 万 ARR。但你更想要的是高盛、花旗的这笔 1000 万,还是消费型开发者给你的 5 亿 ARR?
答案显然是前者。
六个月的部署流程、合规审查、安全评估、采购流程 —— 这一套流程走完你就彻底“锁死”了。一旦签下这种客户,流失几乎不可能。
这是为什么所有大型软件公司都是“系统记录型”的,服务对象就是这些人(CRM、ERP、EHR)。它们毛利都能做到 80–90%,因为客户根本不在意价格,只在意稳定。
当有竞争对手出现时,你的系统已经深入到企业流程中,切换成本太高,没人愿意重来一次。
这是 Replit 的策略:
把编程智能体、应用托管、数据库管理、部署监控、日志分析……全打包在一起。
每个 token 都亏钱,但整个开发者工作流其他环节全被你吃下了。
你纯卖推理服务不挣钱,但你现在可是在卖一个完整的平台,而推理只是获客成本。
代码生成天然带来“托管”需求。每个 app 需要部署点,每个数据库要管理,每次发布要监控。
让 OpenAI 和 Anthropic 去卷推理价格,而你吃下整个堆栈其他层的利润。
我常看到创始人说:“明年模型会继续便宜,降成 1/10!”就像抓住了救命稻草。
是的,模型的价格会砍成 1/10,但用户的预期也会提高 20 倍。
你还记得 Windsurf 吗?
他们就是撑不住 Cursor 给 P&L 带来的压力。连最强应用层垂直整合的 Anthropic 都做不成“无限使用”的包月模式。
在《Levered Beta is all you need》这篇文章中我总结过:抢先起跑胜过聪明布局。
但如果你只是早到了“墓地”,那也不是胜利。
没人会为亏损模型买单 24 亿美元了。没有“以后我们会想办法盈利”的缓冲。
当你的 AWS 账单比收入还高时,“以后”就没有以后了。
那我们该怎么在这个时代做 AI 生意?
简短答案是:做一个 Neocloud——这就是我下一篇的标题。
小编解释下 Neocloud :即 Neo(新潮)+cloud(云计算),新型云计算,小编猜测,作者这是打算来分享一篇新瓶装旧酒式的“伪创新”的故事。
但嘿,起码模型明年真的会便宜 10 倍。
"完全同意!按使用计费的焦虑感太大了,如果是我自己掏钱,我根本不会用这种服务。
就算是公司买单,我也会因为太过小心谨慎,结果把效率提升的好处都抹平了。
如果你要赚钱,就提高那些“包月无限用”的计划的价格没问题。但别逼我去计算每天到底该不该用 API。"
那么,对于开发者而言,很多朋友点赞了上诉这位网友的观点。提高包月费用我可以接受,但按量计费的方式着实会让自己焦虑感太重。
另一位网友表示:对于 AI 在某些具体工具和工作场景下的使用来说,按量计费几乎是毁灭性的打击。
在这些场景下,按量计费会极大地劝退用户使用产品,因为这意味着你在每次使用前都要做一遍“成本/收益分析”,这本身就是巨大阻力。
而如果你是在公司使用这个工具,说不定你还得拿去找管理层审批才能继续用。
对于一个本意是提高工作效率的工具来说,没人愿意一天做 250 次“这个模板代码值不值 $3”的判断。
总之一句话,如果是按量计费,这 AI 工具根本不会被用。
好了,文章到这里就结束了。大家目前的大模型API账单招标了吗?最后都是如何处理的呢?较以前又应该涨了还是降了呢?
https://news.ycombinator.com/item?id=44775700
来源:51CTO一点号