摘要:你跟它聊个项目,刚说过的细节,过几轮它就忘了。问它刚才调用哪个工具,它一脸懵。你让它记住团队的偏好,它答应得好好的,结果下次又从零开始。
今年春天,硅谷有个段子在工程师圈子里流传得很广:“AI 智能体就像金鱼,三秒钟记忆,转个圈就忘了你说了啥。”
听起来像笑话,但其实是事实。现在市面上很多基于大语言模型(比如 GPT-4、Claude 2)的 AI 智能体,确实很“健忘”。
你跟它聊个项目,刚说过的细节,过几轮它就忘了。问它刚才调用哪个工具,它一脸懵。你让它记住团队的偏好,它答应得好好的,结果下次又从零开始。
这不是因为模型笨,而是因为它的“大脑”——也就是上下文窗口,容量有限。每一次对话、每一个工具调用、每一段反馈,都会消耗 Token。Token 不够用,信息就只能被“挤掉”。
这就是让开发者们头疼的“Token 焦虑”。
对于这些问题,现在有一套新思路叫“上下文工程(Context Engineering)”,看着好像有点复杂,但其实道理很简单:就是让 AI 有选择地记、聪明地忘、合理地用。
这一招,能不能治好智能体“总忘事”的毛病?得从它的四大招式:“写、选、压、隔”说起。
今年3月份,Anthropic 做了个实验。他们让一个叫 LeadResearcher 的智能体规划研究路线,任务跑了几百轮。但问题是,一旦上下文窗口超过 200,000 个,前面的计划就全丢了。
于是他们给它配了个“便签本”。每当智能体想出一套方案,就把它写到“便签”里,这些信息虽然不在上下文窗口内,但可以随时查看。
Claude Code 也研究出了类似设计:当上下文窗口使用量超过 95% 时,系统会主动总结用户与 AI 的完整交互轨迹,自动替代原始长文本,不需要我们干预便主动压缩。这就像聊天记录被自动转换成一份摘要,方便以后继续用。
这种“写”的方法,其实很像人类做笔记——不是怕忘,而是图个安心。AI 也一样,它需要一个“记事本”来对抗它三秒钟的记忆。
记下来之后,新问题又来了:便签写了不少,记忆也存了一堆,下一次要用的时候怎么挑?乱挑一通,反而会出问题。
今年5月,一位名叫 Simon Willison 的开发者就遇到一次“记忆事故”。他在 ChatGPT 里生成图片的时候,模型突然把他曾经透露过的位置加入到了 prompt 里。他吓了一跳,觉得“模型是不是知道的太多了”。
这其实是“记忆选择”出了问题。模型不知道哪段记忆能用、哪段不能用,结果选错了。
为了解决这个问题,一些智能体开始用“Embedding + 知识图谱”的方式来筛选记忆。比如Claude、Cursor、Windsurf 等产品,都引入了规则文件来划定“哪些记忆可以调、哪些不能碰”。
记忆不是越多越好,选得精准才是真的有用。
记得太多了,空间又不够用怎么办?Claude Code 在今年6月份上线了一个功能,叫“自动压缩”。如果你的对话太长,它会自动把旧内容压成一份摘要,再继续往下聊。
听起来很方便,但问题是:压缩会不会压掉了重要信息?比如用户的关键决策、上下文细节,一旦漏掉,后续任务就可能会出错。
为了解决这个问题,有团队专门训练出了模型来处理压缩工作。比如 Cognition 就花了不少功夫做微调,让模型能“看懂什么才是重点”。
说到底,压缩不是为了删内容,而是为了把几十句话浓缩成一句“有用”的话。
AI 智能体变得更加复杂,一个项目可能涉及写代码、查文档、生成报告等不同的任务,如果全堆在一个智能体身上,它就容易乱。
OpenAI 的 Swarm 框架干脆把任务拆成多个“小智能体”,每个智能体只负责一件事。写代码的只看代码,总结报告的只看文本内容。这样一来,每个“子智能体”都有自己的小窗口,不互相干扰。
HuggingFace 也做了类似设计。他们有一个 CodeAgent,调用工具的时候会在“沙箱”里运行代码。这样,模型只看到运行结果,不会被中间过程“拖累”。
隔离上下文的目的不是分裂 AI,而是让它更专注。
过去人们觉得,AI 忘事是因为它不够智能。但现在越来越多的实践说明,这其实是“上下文管理”出了问题。
写下来,是为了不丢;选得准,是为了不乱;压得好,是为了不爆;隔得开,是为了不吵。
这四招虽然听着简单,却是让 AI 智能体从“金鱼记忆”走向“稳定执行”的关键步骤。
Andrej Karpathy曾经说:大语言模型就像 CPU,而上下文窗口是 RAM。上下文工程,就是给这台“AI 计算机”装上一个操作系统。
这个系统不靠模型本身,而靠我们人类工程师去设计、去优化。AI 再聪明,也需要结构支撑。记忆,不再是“模型的事”,而是“工程的事”。
从这一刻起,AI 不再是只会“现想”的机器,而是可以“有意识地记住”的伙伴。
来源:妇产科医生小永