摘要:「本次更新将禁止所有权结构受产品未获准地区(如中国)司法管辖区控制的公司或组织使用我们的服务,无论其运营地点位于何处。这包括由不受支持地区总部企业直接或间接持股超过 50%的实体。」
很突然,Anthropic 决定对中国企业断供了。
9 月 5 日,Anthropic 在官网发布通告,宣布对产品未获准地区的公司停止提供服务。
「本次更新将禁止所有权结构受产品未获准地区(如中国)司法管辖区控制的公司或组织使用我们的服务,无论其运营地点位于何处。这包括由不受支持地区总部企业直接或间接持股超过 50%的实体。」
原因不得而知,或许也没有深究的价值。
结果就是,对不少开发者和企业来说,在一夜之间被挡在了全球头部大模型之外,甚至是全球最好的 Coding 大模型。
而对于国产诸多模型来说,谁能成为 Claude 的平替,是一个在当下,值得去稍微讨论的。
当然,想真正成为 Claude 平替,很难。
Claude 已经是 Coding 市场的绝对主力模型,成为诸多 Coding 产品的默认或者首选模型,在 ToB 市场,Anthropic 也已经超越 OpenAI 成为企业用户最常使用的模型供应商(来自 Menlo Ventures 的年度报告,Anthropic 占比 32%,超过 OpenAI 的 25%。) .
不管是 Claude 的 coding 能力、创作能力、还是 Agent 场景下的优秀表现,都不是今天的国产大模型能够轻易追上的。
但总归还是有机会的,至少在一些细分领域里。
比如 Anthropic 今年最成功的 Coding 产品——Claude Code,成为其中的平替模型,还是有机会的。而借助 Claude Code 这样成功的产品,逐步获取开发者的心智,慢慢建立自己的 ToD/ToB 的生态,才有可能真正、全面成为 Claude 的平替,或者超过 Claude。
谁能想到这个主打命令行交互的软件会是 2025 年最潮的 Agent Coding 产品。
Claude Code 比其他的 Coding 产品强在哪里?核心是这三项:
一个编码能力足够强的基础模型,尤其是 Claude Opus 4。
一个能理解代码库,可靠的长上下文窗口,200K token 的 Claude ,能在一个完整的项目库中对齐项目结构,识别依赖、接口、全局变量、约束旗标。产品的很多核心功能也建立在这个底层模型能力之上。
Agent 和 Tool Use 能力:模型原生具备与开发者环境进行交互的工具使用能力,能够自主判断何时需要使用工具。能够端到端的调用本地工具进行复杂任务的处理。
想成为平替,起码这三项能力不能太弱,只有单纯的 Coding 能力或者长上下文,并不能保证在 Claude Code 里发挥出足够好的效果。
7 月份,从 Kimi 开始,国内这一批的 Claude Code 平替化热潮,实在是有些热闹。
先是 Kimi 发布 K2,在官方文档中首次提供了与 Claude Code 完整兼容的接入指南,可以直接在 Claude Code 中使用 K2 模型。
阿里在 7 月下旬上线 Qwen3-Coder 编程模型,还开启了「每天 2,000 次免费调用」的活动。
7 月底,智谱发布 GLM-4.5,支持 Claude Code,还上线了编程 API 「50 元包月」套餐。
8 月 20 日,DeepSeek 正式发布 V3.1 版本,并同步开通 Anthropic API 协议支持,也加入这场平替大赛。
但平替,就有平替的问题,代码生成能力、上下文长度、Agent 工具的调用能力上,总有一块短板,让人用得不是那么尽兴。
比如 K2 ,SWE-bench 评测达到 65.8 分,代码能力上基本实现了平替效果。但受限于 128K 的上下文窗口,一些较为复杂的任务里,表现就没有那么好。
但在 Anthropic 发布公告的同一天,Kimi 更新的 K2 0905 版本,针对这三项都做了能力的提升。
首先是 Coding 能力。
相比 K2 0711 版本又有提升,前端编程的体验也得到了很好的提升。
然后是上下文长度的提升,从 128K 升级到 256K,为复杂长线任务提供更好的支持。这次直接超过了 Claude 系列标配的 200K 上下文长度(Claude Sonnet 4 的 1M 上下文需要单独开通,价格更贵)。
还有一贯表现优秀的 Tool Use 能力,Kimi 官方声称,借助于 Token Enforcer 的能力,官方 API 可以保证 toolcall 100% 格式正确。 并且支持 WebSearch Tool,提供更好的 K2 + Claude Code 使用体验。
K2 高速版的 Token 输出速度也提高到了 60-100 Token/s ,保证 coding 时的流畅体验。
可以说,是个不错的 Claude Code 平替。
在 K2 尝试兼容 Claude Code 之后,Qwen 3、智谱的 GLM-4.5、DeepSeek V3.1 也都提供了支持 Claude Code 的能力,这甚至已经成为国产模型证明自己编程能力的一种方式。
从最近的各种评测来看,每个模型都有机会,Kimi 似乎更早瞄准了这条路线,把时间拉远一些,也可以从这两个模型的过往技术发展上纵向看一看。
都是长上下文的第一波尝鲜者2023 年 7 月,Anthropic 发布 Claude 2,将当时上下文窗口的长度提高到 100K,11 月发布的 Claude 2.1 将上下文窗口长度再度翻倍,增加到 200K。这一年 3 月发布的 GPT-4 的上下文是 32K,11 月发布的 GPT-4 Turbo 是 128K。
2023 年 11 月上线的 Kimi,初始就支持 20 万汉字的上下文,随后发布的 api 也提供了 moonshot-v1-128k 的版本。
那时候大家的共识是,长上下文能够解决很多问题,长链路任务、跨文档推理、代码生成等需求,都因更大的上下文窗口而变得可行。
Kimi 在 2024 年 3 月份开启了 200 万字(2M 左右)上下文的内测,当时他们甚至宣称「Long Context 可以解决 90% 的模型定制问题」。后续 200 万字上下文的测试悄悄从 Kimi app 中下线。在今年我们对月之暗面 Infra 负责人许欣然的采访中,他坦言说道,随着上下文长度的增强,带来的任务复杂度,对当时的模型来说,难度太大了。
「到了 128K,并不是说智能水平下降,而是任务本身变难了。
就好比我用 20 个字能描述的逻辑,复杂度是有限的,但是 1000 个字我能组合出超级复杂的规则。这个时候模型的智能就不够用了。
所以做到 128K 的时候,我们很明显地感受到模型还是不够聪明。后来 200 万字上下文上了一阵我们其实也下了,就是觉得智能水平不够,它能读那么长,但读完后表现并不聪明。」
看起来简单的上下文窗口,做起来才发现,其实很难。就连 Anthropic,也是直到 Claude Sonnet 4 才提供 1M 上下文的测试版本,也没有全员开放。
虽然 K2 的能力更强了,但 7 月份发布的版本是 128K 的上下文窗口,0905 版本才提高到 256K,超过了 Claude Sonnet 4 默认的 200K。相比 2M 虽然小了很多,但经过这一年的踩坑,我相信,现在的 Kimi 对于上下文的理解和落地,应该是更有把握了。
几乎同时间支持 Context Caching用户侧之外,对于开发者这边,尤其是 API 端的一些技术尝试,双方的节奏也意外有些同步。
2024 年 6 月,Kimi 开发者平台提供了 Context Caching(上下文缓存)的内测,是 国内率先面向开发者提供上下文缓存 API 的大模型平台。
同年 8 月,Anthropic 宣布推出 Prompt Caching 功能,虽然名字不同,但功能实现效果是一样的,都是为了降低开发者在长上下文、高并发和文档问答等场景中的成本,让模型发挥更大的价值。
Google Gemini 1.5 Pro 同年 6 月份支持该功能,OpenAI 在 2024 年 12 月支持该功能。而国内模型里,Kimi、豆包、Qwen 和 DeepSeek 都提供了该功能,但其他模型,目前都没有找到明确的说明文档。
对开发者更友好,可以说两家是殊途同归。
专注文本模型,专注 Agentic如果我们横向看各家公司的基础模型的迭代和发展,Anthropic 和 Kimi 无疑是其中最「最专注的」。
Anthropic:Claude 1、1.3、2、2.1、3、3.5、3.7、4、4.1,专注文本模型,没有图片生成、视频生成等多模态相关的基础模型,推出了混合推理模型,但并没有单独的推理模型。
Claude 官方支持的模型列表
Kimi:moonshot-v1、k0-math、k1 视觉思考模型、k1.5 多模态思考模型、Kimi-VL-A3B、Kimi-Dev-72B 以及 K2。专注文本和推理模型。虽然有 Kimi-Audio-7B 这样的音频模型,但和 Kimi-Dev-72B 一样,都是基于 Qwen 模型的 post train,练手之作。核心还是 K1.5 和 K2,而且出乎意料的是,K2 甚至不是一个混合推理模型,是个专注 Agent 的非推理模型。
Kimi 目前提供的模型 list。
杨植麟在 7 月份 接受张小珺采访 时,对此解释到:「Agent 的(L3)上限取决于,你有很强的 Reasoning(L2、推理)能力,但并不是必须先有 Reasoning。……你可以认为 Claude 的路线就是 bet(押注)这一点:它在 Reasoning 上做得不是特别多,但在 Agent 上做得非常好。这背后是不同技术路径的 bet(押注)。
我们希望 K2 能参与到 K3 的开发,如果你没有 Agentic 能力,很难做到这件事。
我们希望它(K2)有好的 Agentic 能力。你通过各种强化学习,或者对工具和环境的模拟,让它能有比较好的泛化性。
对于一个 Agentic 模型来讲,现在最大挑战是在模型的泛化上。」
兼容 Claude Code、成为 Claude 在 coding 领域的平替,或许是 Kimi 迈出的第一步,而它的终极目标,有可能是成为中国 AI 生态中最具「Agentic」特质的产品。这不仅仅是代码能力的竞争,更关系到下一代 AI 的核心竞争力——智能体(Agent)的构建与落地。
Kimi 的选择,既是技术战略,也是生态博弈。
首先,是 K2 的开源。在国内外大模型公司中,开源往往被视为加速创新、吸引开发者、构建生态的关键杠杆。Kimi 并未将自身能力封闭于「产品」之内,而是通过开放接口、共享工具集,主动拥抱开发者社区。这一策略不仅提升了模型的可扩展性,更让 Kimi 能够快速吸收外部创新,形成「众创」合力。
Kimi 的一位工程师,在跟我们聊起 K2 开源时曾说:
「你得留在场上,而现在留在场上的唯一方法就是证明你的技术够好。 你越开源,别人其实会越 follow 你的东西,对你来说成本反而低。 会有大量的人在我们的基础上做了好多东西,包括帮我们做模型量化什么的。 其实开源的好处在这,让公司可以更专注去快速迭代下一个模型。 」
Agent 是今天绝对的赛点,几乎所有头部模型公司都在强调「Agentic」——即模型不仅能生成内容,更能自主决策、调用工具、完成复杂任务。无论是 Kimi、Claude,还是 Qwen、智谱,大家都在讲「端到端的智能任务编排」,都在追求「工具使用能力」的极致。Kimi 的 Tool Use 能力、格式化 toolcall、WebSearch Tool 支持,都是围绕 Agent 能力打磨的细节。
彭博社最近爆料,DeepSeek 的下一个模型也将聚焦 Agent,只需要少量提示词,就能帮用户执行复杂操作,并且还能根据历史操作自我进化和学习。
也就是说,谁能率先实现真正的 Agent 化,谁就能定义下一代大模型的核心价值。
Claude 在这一点上已经给出了范例:它不仅能写代码,更能自主调用多种工具、整合外部知识,完成复杂的多步任务。而 Kimi 显然也在追赶甚至试图超越这一方向——无论是对 Tool Use 的极致追求,还是对 Agentic 能力的持续打磨,都指向了同一个未来。
总之,Coding 只是序章,Agent 才是主线。国产大模型的下一个决胜场,或许已经悄然开启。
来源:晚晚的星河日记一点号