摘要:4 月 18 日周五晚,字节的 Agent 产品 “扣子空间(space.coze.cn) ” 开启内测。团队为此准备不少算力资源,但短短几小时内,服务器就被涌入的用户挤爆。
大厂团队开发 AI 产品的样本。
4 月 18 日周五晚,字节的 Agent 产品 “扣子空间(space.coze.cn) ” 开启内测。团队为此准备不少算力资源,但短短几小时内,服务器就被涌入的用户挤爆。
超出预期的用户热情,让扣子团队再次验证一个判断:用户一直在等待能用的 AI 产品,去解决工作中的问题。
ChatGPT 让聊天窗成为大模型应用首选的交互界面。理由是当 AI 足够聪明,似乎就不需要用户学习,不用熟悉按钮和菜单、只用自然语言下命令就够了。
字节在 2023 年下半年搭起 AI 应用开发平台 “扣子(Coze)”,让开发者不需要熟悉复杂的技术能力,就能将自己的数据接入最前沿的大模型,做各式各样的应用。到 2024 年中,扣子团队发现,尽管聊天机器人应用成千上万地出现,从知识问答到情感陪伴,覆盖几乎所有热门的场景,但大多面临相同的问题:用户增长难,留存更难。
这是一个产品形态与用户真实需求形成偏差的案例。聊天界面简单易用,但对大模型要求极高,导致不论中美都是一两个通用 AI 聊天应用断层式领先。扣子团队发现,平台上有一类应用的增长和留存明显更好——嵌入到用户工作流的大模型应用,针对具体工作场景解决具体问题。
这成为他们去年下半年的工作重点。用大模型改造工作流,在工作场景中完成繁琐的任务,正是当下行业热议的 Agent 初始形态。
随着 o1、Claude 3.5 等模型发布,Cursor、Devin 等编程 Agent 工具验证用户对解决复杂任务的 AI 产品有强烈需求。Google、OpenAI 推出 Deep Research 产品,创业公司的 Agent 产品 Manus、Genspark 接连发布,围绕 “复杂任务 Agent” 的竞争日益激烈。
扣子团队春节后就在考虑开发类似产品,也就是上周五开启内测的扣子空间。延续过去积累的经验,他们重点关注 Agent 解决工作场景复杂问题的能力,产品定位 “与 Agent 一起,开始你的工作”。
这款产品由字节自研的豆包等国产大模型驱动,提供通用 Agent 入口,支持 MCP(Model Context Protocol)协议,引入多款可以调用的工具,包括飞书云文档、飞书表格等,强化解决工作任务的能力。此外,扣子空间引入专家 Agent 体系。
我们第一时间获得扣子空间的内测码,测试了数十个任务,并从扣子团队内部获悉了他们开发扣子空间的开发理念和迭代方向。
扣子团队将这次发布的产品视作 “打样” 版本,展示 Agent 如何在工作中解决问题。他们的长期目标是打造一个开放的 Agent 系统:用户提出需求时,系统能自动调度最合适的一位或多位专家 Agent 协同完成任务。
现在内测的扣子空间 Beta 版,已经可以为用户解决工作中的问题,但它还是一个初级形态。
扣子空间:一个通用实习生和一批垂直领域专家
扣子团队给通用 Agent 开发了 “探索模式” 和 “规划模式”。探索模式与市面上的同类 Agent 产品类似,自动根据用户需求执行任务。
规划模式强调辅助人解决问题,而不是完全替代人。用户提出需求后,它不会立即开始工作,而是先给出任务处理规划,请用户确认后再开始行动,执行任务期间,也需要用户参与。在我们的测试中,规划模式解决问题的能力明显更强。
左图为探索模式,右图为规划模式。
这种开发理念与 OpenAI 的 Deep Research 类似。用户向 Deep Research 提出需求后,它会让用户提问,澄清需求。OpenAI 的研究者认为,大多数用户不会一次给出自己最完整的需求。
一位扣子团队人士认为,通用 Agent 像是一个经验不足的 “实习生”——很难一次完整理解需求,需要不断与人交互、确认需求,才能搞清楚自己要做什么,并给出成果。
他们鼓励多用协作模式,“如果花 30 分钟甚至更久自动解决问题,最后给出一个不可用的结果,就是浪费时间和资源。”
从我们数十个任务测试来看,扣子空间的通用 Agent 的确像一名 “实习生”。它能理解需求,搜索公开资料,交出一份可以参考的成果。比如它可以收集豆包大模型研究团队过去一个月的动向,能关注到前不久负责人的变动,也了解最近 “AI Lab 并入 Seed 团队” 的组织调整。
让它开发一个提醒喝水的 app,它会先搜索市面上优秀的同类 app,做功能、设计和应用体验分析。然后它会给出提示,让我们根据自己的情况提供具体的功能需求,再继续往下推进,最后制定最终的 app 开发方案,并附带一个可以交互的本地网页文件。
如果给它上一些强度,比如 “从权威网站搜索美国从中国进口 T 恤、圣经、运动鞋、抗生素、维生素 C 等产品的关税”,它会去搜索美国政府相关网站上的公告,但最终结果不太理想,它给出两个正确答案,其他信息都有点过时。我们同步测试了 OpenAI 的 Deep Research,表现好一些,但也不是完全正确。
反馈结果时,就算我们没提出明确要求,扣子空间的 Agent 多数情况会提供一份可以交互的本地网页文件,更直观地呈现结果。
“今天大家的注意力容易散失,结果第一眼得比较亮眼。” 扣子团队也会让 Agent 同步输出文档,“如果用户觉得可视化的信息量不够,可以去看详细内容。”
实用理念驱动下,扣子空间引入专家 Agent 体系,当前上线 2 个,覆盖处理用户个人数据和处理第三方数据场景。
“用户研究专家” 是扣子团队在一次内部研讨会中确定的 Agent。无论是产品经理、还是运营,了解用户需求都是工作中的高频场景。他们邀请字节的资深用研专家、产品经理等分享处理用研工作的经验和技巧,让大模型学习,融入解决任务的流程中。
我们让它处理智能眼镜的用户访谈记录,它能从用户原始的访谈记录中提炼出规律,然后给出相对细致的功能开发建议,比如 “日常可佩戴的外观,避免过于浮夸”,这在原始访谈记录中很少出现,但有多位用户访谈中提到 “方便摸鱼”。
扣子空间也给用户研究专家引入特定的数据处理工具。用户上传 CSV 文件后,它会自动解析,然后把数据文件做成云端数据库文件,让模型根据用户的指令做分析。
“华泰 A 股观察助手” 是扣子团队与华泰证券联合孵化的 Agent。他们让大模型学习如何分析上市公司和发展潜力,将这些专业知识融入到 Agent 的工作流中。为了减少大模型的幻觉,团队引入专业股票数据库作为模型优先使用的工具。
我们让它分析了 “中美关税博弈,对宁德时代未来一段时间的影响是什么?” 它拆解成六个步骤:搜索中国关税博弈的具体内容、研究关税的传导机制、获取股价数据、分析股价走势、分析未来影响,撰写报告。
经过约 40 分钟的工作,它交出一份报告,从原材料、产品出口等方面分析,关税冲突可能会怎样影响宁德时代的业绩,并给宁德时代提出应对关税冲击的策略。它建议宁德时代拓展欧洲、东南亚等新兴市场,加速研发高能量密度、低成本电池技术等。整体来看,Agent 引用的数据和内容多数内容准确,但会存在一些幻觉。
背靠扣子、打通飞书,在字节业务体系中开发新品
扣子团队的实用主义理念贯穿产品开发始终。他们认为现阶段没有产品能完全 “压榨” 大模型的性能,更看重解决用户工作中遇到的实际问题。
“扣子是个开放的平台,如果国内有大模型效果比豆包好,我们也会积极使用。” 扣子团队开发扣子空间时,豆包深度思考模型还没发布,他们曾考虑优先使用 DeepSeek-R1,测试后发现它调用工具的能力不够。
后来团队又对比六款国内大模型,使用了豆包 1.5 Pro 为主的多款模型。因为豆包在指令遵循、调用工具,以及多模态处理能力上表现最好,而且推理成本很低,能支撑大规模调用。
作为字节的一部分,扣子团队不仅能参考行业公开经验,还能从扣子平台上 200 多万款 AI 应用和上百万活跃开发者的反馈了解趋势。扣子平台还与火山引擎打通,开发者的 AI 应用也可以一键部署到豆包、飞书、抖音小程序中。
这不能直接帮他们从 0 到 1 创造新的产品形态,但好的产品想法得到验证时,他们能够较早发觉。去年下半年扣子团队把业务中心从聊天机器人转向工作流,并把扣子空间的重点放在人与 Agent 的协作上,都有相关的数据支撑。
扣子推出的大模型应用调试工具 “扣子罗盘”,让团队能近距离观察大量 AI 应用的开发、调优和部署过程,积累经验,更有效地发挥大模型性能。这是扣子团队能迅速开发出复杂 Agent 产品的原因之一。
给 Agent 引入协作工具时,他们也有优势。市面上很多 AI 工具接入飞书,也有开发者做飞书的 MCP,但它们只能与飞书整体的 API 交互。
MCP 是 Anthropic 在 2024 年提出的协议,用统一的方式,把现有软件变成大模型可以直接调用的 “工具”。它相当于给传统软件加一个 “接口”,让模型能更方便地使用这些工具。现在,越来越多公司支持 MCP,但多数是作为工具的使用方增强自己 AI 产品的能力,而不是把产品开放出来、做成 MCP 工具供别人调用。
因为是字节的团队,他们把 MCP 把飞书云文档、飞书表格、飞书多维表格做成工具。“还做了一些创新。” 扣子团队说,MCP 本质上还是一种 API Key,要实现这个功能还要做一层身份认证。
用户授权后,Agent 可以调用飞书文档里的内容来解决问题,并把处理结果写回到飞书文档中。这意味着用户无需手动上传文件或整理资料,Agent 就能访问用户有权限的公司内部文档,完成任务的过程更顺畅、也更贴近实际工作流。能够访问私有数据,也是业内公认能够提升 Agent 能力的关键。
对于现在的 Agent 产品,基础模型已经很难形成差异,理论上任何开发者都可以调用最领先的模型;产品框架差别也没有那么大,开源抹平大多数公司的技术差距。真正的壁垒,可能在于它能否调用更有价值的数据或工具去解决问题。
目标是 Agent 系统,用户反馈比完美的产品更重要
扣子团队自己也认为,当前上线的扣子空间还不算成熟的产品。“但时间是最重要的。” 他们认为现在已经到了必须上线的节点,才能尽快得到更多反馈,迅速迭代产品。
更多用户使用并不能直接提升模型本身的能力,在大模型行业已经形成共识。比如 Anthropic 推出 Claude 3.5、DeepSeek 发布 DeepSeek-R1 前,都没有积累太多用户。
但这只限于 “模型-用户” 循环,复杂的 Agent 在模型和用户之间增加了足够厚的产品层。
“大量用户的真实反馈对 Agent 开发至关重要。” 扣子团队说,“这有助于改进产品功能,提升用户体验,更好地挖掘基础模型的能力。”
在扣子团队的产品路线图中,现在内测的扣子空间还是初级形态。团队从扣子平台数据分析中发现,许多应用解决的需求都是小众且个性化的——用户量不大,但使用频率稳定。这像是金融风险专家纳西姆·塔勒布(Nassim Taleb)提出的 “肥尾效应” 的一种体现。
在他们看来,基础模型能力提升的确会吞并部分产品或功能,但用户个性化的需求很难被通用大模型完全满足,“可能只能做 90% 或者 99%,总会差上那么一点”。所以扣子空间的目标是打造 “通用 Agent 和专家 Agent 协作的系统”——这也是他们取名 “空间” 的原因之一。
扣子空间只是大厂加入 Agent 竞争的序幕。我们了解到,现在国内几乎所有的大厂都在积极开发 Agent 产品,扣子空间只是行动较快的之一。竞争才刚刚开始。
文内提及的扣子空间测试案例回放链接:
豆包大模型研究的详细动向整理
开发喝水提醒 app
搜中国商品关税信息
总结访谈记录提产品建议
中美关税博弈对宁德时代影响
来源:晚点LatePost