摘要:当我们使用ChatGPT或Claude等AI助手时,常常会遇到一个令人沮丧的现实:这些最先进的AI系统不仅需要付费订阅,背后还依赖着大量昂贵的专有工具和API接口。对于想要深入研究或开发AI助手的科研人员来说,这无疑是一道高昂的门槛。不过,腾讯AI实验室的研究
当我们使用ChatGPT或Claude等AI助手时,常常会遇到一个令人沮丧的现实:这些最先进的AI系统不仅需要付费订阅,背后还依赖着大量昂贵的专有工具和API接口。对于想要深入研究或开发AI助手的科研人员来说,这无疑是一道高昂的门槛。不过,腾讯AI实验室的研究团队最近发布了一项突破性成果,有望彻底改变这一现状。
这项由腾讯AI实验室方天庆、张志松、王晓阳、王瑞、秦灿、万雨轩、马俊宇、张策、陈嘉奇、李曦云、张洪明、米海涛、于东等研究人员共同完成的研究成果,于2025年8月1日以技术报告的形式在arXiv上发布,标题为《Cognitive Kernel-Pro: A Framework for Deep Research Agents and Agent Foundation Models Training》。研究团队开发出了一个名为"认知内核-专业版"(Cognitive Kernel-Pro)的全新智能体框架,这个框架最大的特点就是完全开源且几乎完全免费。感兴趣的读者可以通过GitHub仓库(https://github.com/Tencent/CognitiveKernel-Pro)获取完整代码,或通过论文链接(arXiv:2508.00414v1)查看详细技术报告。
要理解这项研究的重要性,我们不妨把当前的AI助手生态比作一个高档餐厅。在这个餐厅里,最好的AI助手就像是主厨精心烹制的招牌菜,不仅价格昂贵,而且制作过程中使用的许多"调料"(专有工具和API)都是商业机密,普通人无法获得完整的"食谱"。即使有些餐厅愿意公开部分做法,但关键的调料仍然需要额外付费购买,这让想要在家复制这道菜的人望而却步。
腾讯的这项研究就相当于提供了一套完整的"家庭烹饪指南",不仅公开了所有制作步骤,还尽可能地用免费或便宜的替代品来替换昂贵的专有调料,让每个人都能在自己的"厨房"里制作出媲美高档餐厅的美味佳肴。更重要的是,他们还训练了一个专门的"小厨师"(8B参数的基础模型),虽然经验不如那些资深大厨,但在处理日常烹饪任务时表现出色,而且完全免费。
一、破解AI助手的三重挑战
当前AI助手领域面临的问题,就像一座被三道高墙围绕的城堡。第一道墙是"封闭性",最强大的AI助手系统都被大公司牢牢掌控,核心技术对外封闭,普通研究者只能望墙兴叹。第二道墙是"依赖性",即使是一些开源的AI助手框架,也严重依赖各种付费API和专有工具,就像一个看似免费的游戏,但要想真正玩得开心却需要不断充值购买道具。第三道墙是"能力局限性",许多开源方案要么功能单一,只能处理特定类型的任务,要么在复杂任务面前表现不佳。
研究团队发现,现有的AI助手就像一个需要各种专业工具才能工作的技术专家。比如,当它需要浏览网页时,可能要调用Jina Reader这样的付费服务;当它需要处理文档时,又要依赖FireCrawl或Chunkr等商业工具;当它需要进行多模态处理时,还要使用专有的视觉模型API。这些依赖关系不仅增加了使用成本,更重要的是限制了研究的可重复性和普及性。
腾讯团队意识到,要真正推动AI助手技术的民主化发展,就必须打造一个"自给自足"的生态系统。这个系统不能像传统方案那样依赖外部的专有工具,而应该最大化地利用大语言模型和视觉语言模型自身的能力,通过巧妙的框架设计和训练策略,实现接近甚至超越那些依赖昂贵工具的系统的性能。
更具挑战性的是,大多数现有的开源AI助手主要依靠调用外部API来工作,缺乏专门训练的"智能体基础模型"。这就像是一个没有接受过专业训练的新手,只能依靠各种工具书和外部帮助来完成工作,而不是凭借自身的专业知识和技能。腾讯团队认为,要构建真正优秀的AI助手,不仅需要好的框架设计,还需要专门为智能体任务优化的基础模型。
二、认知内核-专业版的创新架构
腾讯团队设计的认知内核-专业版框架,就像一个经验丰富的项目经理带领着几个专业技术人员组成的团队。在这个团队中,主智能体扮演项目经理的角色,负责理解用户需求、制定总体计划、分配任务给专业人员,并整合各方反馈形成最终结果。而网络智能体、文件智能体等子智能体则像是各个专业领域的技术专家,各司其职,专注于自己擅长的任务。
这种设计的巧妙之处在于,所有的智能体都基于同一个"认知内核"构建,就像同一家公司培养出来的员工,拥有统一的工作方法和沟通语言。每个智能体的输入都是一个任务描述字符串,输出也是一个回应字符串,而中间的所有操作都通过Python代码来执行。这种统一的接口设计大大简化了系统的复杂性,也让不同智能体之间的协作变得更加顺畅。
主智能体的工作方式就像一个善于统筹规划的管理者。当面临复杂任务时,它首先会分析问题的各个方面,将大任务分解成可管理的小任务,然后决定哪些任务需要交给专门的子智能体处理。比如,如果用户询问某个学术会议的最新论文信息,主智能体可能会先让网络智能体去搜索和浏览相关网站,然后让文件智能体分析下载的PDF文档,最后自己负责整合这些信息并生成综合回答。
网络智能体就像一个经验丰富的网络调研员,配备了基于Playwright的自动化浏览器。它能够像人类用户一样浏览网页,可以点击链接、填写表单、滚动页面、截图保存等。特别有趣的是,网络智能体有两种"视觉模式":平时它主要依靠网页的文本结构树来理解页面内容,这样既高效又节省资源;但当遇到复杂的图表、图片或者文本结构无法准确描述的页面时,它可以切换到"截图模式",调用多模态语言模型来分析页面的视觉内容。
文件智能体则像一个专业的文档分析师,能够处理各种格式的文件,包括PDF文档、Excel表格、CSV数据文件以及各种图片格式。考虑到某些文档可能非常庞大,文件智能体采用了分页处理的策略,可以逐页或逐节分析内容,避免一次性加载过多信息导致系统负担过重。同时,它也具备类似网络智能体的双模式能力,既可以提取文本内容进行分析,也可以对文档页面进行视觉理解。
整个框架最大的特色在于极简的外部依赖。除了必需的Google搜索API(这几乎是所有信息检索类智能体的标配)之外,系统几乎不依赖任何专有工具。所有的网页浏览、文档处理、代码执行等功能都通过开源工具和智能体自身的能力来实现。这种设计哲学的核心是相信大语言模型和视觉语言模型已经具备了强大的推理和代码生成能力,关键是要通过合适的框架设计来充分发挥这些能力。
三、让AI助手学会自我反思和团队决策
认知内核-专业版不仅在基础架构上有所创新,在推理时的优化策略上也体现了研究团队的深度思考。他们开发了两个关键的推理时优化机制:反思机制和投票机制,这两个机制就像给AI助手配备了"自我检查"和"集体决策"的能力。
反思机制的工作原理就像一个负责任的员工在提交工作成果前进行的自我检查。当AI助手完成一个任务后,它不会立即给出答案,而是会回顾整个解决过程,检查自己的推理链和最终答案是否合理。这个检查过程遵循四个标准:首先确保答案不是空白的;其次检查答案是否与问题相关且合理;然后验证执行过程中是否出现错误或失败;最后评估推理依据是否可靠、逻辑是否严密。
如果反思过程中发现任何问题,AI助手就会重新尝试解决任务,直到得到满意的答案或达到预设的尝试次数上限。这种机制有效减少了因为随机性或一时疏忽导致的错误答案,特别是在网络浏览这类本身就具有不确定性的任务中效果显著。
投票机制则更像是一个民主决策过程。系统会针对同一个问题进行多次独立的尝试,然后比较这些不同尝试的结果,选出最优答案。这种方法的妙处在于,它不是简单地选择出现频率最高的答案,而是会综合考虑每个答案的质量和可信度。比如,当询问某位歌手的最早专辑时,如果一次尝试找到了2000年代的专辑,另一次尝试找到了1990年代的专辑,投票机制能够识别出1990年代的专辑更符合"最早"的要求。
这两个机制的结合使用,就像给AI助手配备了双重保险。反思机制确保每次尝试的质量,投票机制通过多次尝试的比较来提高最终答案的可靠性。在实际测试中,这种策略显著提升了系统在复杂任务上的表现,特别是那些需要多步推理和外部信息整合的任务。
四、构建智能体专用的训练数据宝库
训练一个优秀的AI助手,就像培养一个全能型人才,需要在多个领域都有扎实的基础。腾讯团队将智能体的核心能力分为三大类:网络信息处理、文件分析处理和通用推理能力。针对每一类能力,他们都设计了专门的训练数据构建策略。
在网络信息处理方面,团队开发了一种创新的"多跳信息整合"数据构建方法。这种方法的核心思想是创造那些需要从多个网页源整合信息才能回答的复杂问题。比如,不是简单地问"摩尔多瓦的GDP是多少",而是设计类似"2014年到2023年期间,摩尔多瓦哪一年的人均GDP增长率最高,那一年的GDP密度(每平方公里GDP)是多少"这样的复合问题。
这类问题的设计巧思在于,它需要AI助手首先搜索摩尔多瓦不同年份的GDP数据,然后获取人口数据计算人均GDP,接着计算各年的增长率找出峰值年份,最后还要获取国土面积信息计算那一年的GDP密度。整个过程涉及数据收集、数学计算、排序比较等多个步骤,是对AI助手综合能力的全面考验。
为了保证训练数据的质量和多样性,研究团队还开发了一个基于智能体的数据生成系统。这个系统本身就是认知内核框架的一个特殊应用,专门用于探索网络、发现有趣的信息组合,并据此构造有挑战性的问题。系统会先生成一个broad的主题,然后让智能体在相关网站上自主探索,收集信息,最后基于收集到的信息构造需要跨源信息整合的复杂问题。
在文件处理能力的训练上,团队整合了多个现有的文档分析数据集,包括PDF文档理解、表格数据分析等。但他们不是简单地使用这些数据集,而是将其转换为符合智能体工作流程的格式。比如,原本可能是一个直接的问答对,现在被转化为需要智能体先加载文件、然后分析文件内容、最后回答问题的完整过程。
通用推理能力的训练数据则涵盖了数学推理、逻辑推理、代码生成和谜题解决等多个方面。研究团队特别注重这些推理任务与智能体实际工作场景的结合,比如将数学问题包装成需要通过代码计算来解决的任务,将逻辑推理与信息检索相结合等。
整个训练数据的构建过程还引入了一个巧妙的"提示增强"策略。在数据收集阶段,系统会获得一些中间结果作为"提示",这些提示能显著提高训练轨迹收集的成功率。但在实际训练时,这些提示会被完全移除,确保模型学习的是真正的问题解决能力,而不是对提示的依赖。这种策略有效提高了训练数据的质量,同时避免了模型在实际应用中的性能偏差。
五、基于千亿参数模型的轨迹采样与优化
构建高质量的智能体训练数据,关键在于生成既正确又高效的解决轨迹。腾讯团队采用了GPT-4.1作为"导师模型",在认知内核-专业版框架内生成各种任务的解决轨迹。这个过程就像让一位经验丰富的专家来演示如何解决各种复杂问题,然后将这些演示过程记录下来,用于训练年轻的"学徒"。
轨迹采样的过程充满了技术细节。对于每个构建好的查询-答案对,系统会让GPT-4.1在认知内核框架内尝试解决,记录下整个解决过程中的每一步思考、每一次工具调用、每一个中间结果。但不是所有的尝试都会成功,有些可能因为网络问题失败,有些可能因为推理错误得出错误答案。
为了确保训练数据的质量,研究团队实施了基于相似度匹配的拒绝采样策略。具体来说,他们使用LangChain的评估工具,再次以GPT-4.1为后端,来判断生成的答案是否与标准答案在语义上一致。只有通过这个质量检查的轨迹才会被纳入最终的训练集。对于那些失败的尝试,系统会重新采样,每个问题最多尝试三次,确保最终收集到足够数量的高质量轨迹。
在涉及提示增强的数据收集中,还有一个特殊的处理步骤。系统会自动识别和移除所有被特殊标记包围的提示内容,确保最终的训练数据不包含任何"作弊"信息。这种处理保证了模型训练的公平性,让模型学习的是真正的问题解决策略,而不是对额外信息的依赖。
最终的训练数据集规模相当可观,包含了超过15000个查询和近10万个执行步骤。这些数据涵盖了网络浏览、文件处理、数学推理、代码生成等多个领域,为训练一个全能型的智能体基础模型提供了坚实的基础。
六、8B参数模型的惊艳表现
基于收集到的高质量训练数据,腾讯团队在Qwen-3-8B模型的基础上进行了专门的智能体能力微调,产生了CK-Pro-8B模型。这个模型的参数量只有80亿,相比动辄数千亿参数的大型模型来说相当轻量,但在智能体任务上的表现却令人印象深刻。
在GAIA基准测试上,CK-Pro-8B取得了多项突破性成果。GAIA是当前最权威的通用AI助手评估基准,包含了网络浏览、文件处理、多模态理解、复杂推理等多种任务类型,分为不同难度等级。在这个极具挑战性的测试中,CK-Pro-8B在文本专用子集上的Pass@1得分达到40.3%,Pass@3得分更是达到49.3%,显著超越了同等参数规模的其他开源模型。
更值得关注的是,CK-Pro-8B在与商业化程度更高的7B参数模型对比中展现出了明显优势。相比WebDancer和WebSailor的7B版本,CK-Pro-8B的Pass@1性能提升了约2%,Pass@3性能提升超过10%。这种提升在AI模型评估中是相当显著的,特别考虑到智能体任务的复杂性和多样性。
当使用反思和投票等推理时优化策略时,CK-Pro-8B的性能还能进一步提升。在完整的GAIA开发集上,单纯使用CK-Pro-8B的Pass@1得分为32.7%,但结合投票机制后可以达到34.5%,使用Pass@3策略更能达到38.2%。虽然这个绝对分数相比使用Claude-3.7的版本还有差距,但考虑到这是一个完全开源、可本地部署的8B参数模型,这样的性能已经相当令人鼓舞。
特别值得一提的是,在Level 1(基础难度)的任务上,CK-Pro-8B的表现尤为出色,Pass@3得分达到50.9%,这意味着对于相对简单的智能体任务,这个轻量模型已经能够提供相当可靠的解决方案。这为那些计算资源有限但希望部署智能体应用的用户提供了一个非常实用的选择。
七、全面对比:开源免费方案的新标杆
为了充分验证认知内核-专业版的实际效果,腾讯团队进行了全面的对比实验,将其与当前主流的智能体框架进行了详细比较。这些对比实验就像一场"智能体能力大比武",参赛选手既包括闭源的商业化系统,也包括各种开源方案。
在闭源系统方面,一些顶级的商业化智能体展现出了强劲的性能。比如TraseAgent基于Claude模型达到了70.3%的平均得分,Deep Research系统也获得了67.4%的成绩。这些系统代表了当前智能体技术的最高水平,但它们的闭源特性和高昂成本限制了普通用户的访问。
在开源系统的对比中,情况变得更加有趣。那些依赖付费工具的开源系统,如OWL-Workforce使用Claude-3.7配合Chunkr、FireCrawl等商业工具,能够达到69.1%的优秀成绩。但这种性能提升是以额外的工具成本为代价的,对于预算有限的用户来说并不现实。
真正的竞争焦点在于不使用付费工具的开源系统对比。在这个类别中,认知内核-专业版使用Claude-3.7作为后端时,Pass@1得分为57.6%,Pass@3得分达到70.9%,在所有不使用付费工具的开源系统中表现最佳。相比之下,SmolAgents等其他开源方案的Pass@1得分普遍在50%左右,显示出认知内核-专业版在框架设计上的优势。
更令人鼓舞的是CK-Pro-8B模型的表现。虽然这个8B参数的开源模型在绝对性能上还无法与大型闭源模型竞争,但它在同等规模的开源模型中确立了新的性能标杆。特别是在文本专用任务上,CK-Pro-8B不仅超越了同等规模的WebDancer和WebSailor模型,还在某些指标上接近了更大规模模型的性能。
研究团队还进行了详细的消融实验,验证了各个组件的贡献。反思机制的加入能带来约1-2%的性能提升,虽然看似不大,但在智能体任务的评估中这是相当显著的改善。有趣的是,实验显示即使使用开源的多模态模型如Qwen-2.5-VL-72B来替代GPT-4.1处理图像任务,性能损失也非常有限,这进一步验证了系统对专有工具依赖的最小化设计的有效性。
八、技术创新背后的深层思考
认知内核-专业版的成功并非偶然,而是建立在几个关键技术洞察之上的。首先是"代码作为行动空间"的设计哲学。传统的智能体系统往往为每种操作定义专门的API接口,这种设计虽然看似清晰,但实际上限制了系统的灵活性和扩展性。腾讯团队选择让所有智能体都生成Python代码来执行操作,这种统一的接口设计不仅简化了系统架构,还充分发挥了大语言模型在代码生成方面的强大能力。
第二个关键洞察是"状态增强的问题解决流程"。简单的输入-输出模式往往无法处理复杂的多步骤任务,认知内核-专业版通过维护一个包含已完成任务、待办事项、经验总结和重要信息的状态字典,让智能体能够在长序列任务中保持清晰的认知。这种设计借鉴了人类解决复杂问题时的认知过程,具有很强的心理学合理性。
第三个创新点是"分层模块化的协作机制"。主智能体专注于高层规划和任务分解,子智能体专注于特定领域的专业操作,这种分工合作的模式既保证了系统的专业性,又维持了整体的协调性。更重要的是,所有智能体都基于相同的基础架构,这大大简化了系统的维护和扩展。
在训练数据构建方面,团队提出的"智能体驱动的数据合成"方法也颇具创新性。传统的数据集构建往往依赖人工标注或简单的模板生成,而这种方法让智能体自主探索网络、发现信息、构造问题,生成的数据不仅多样性更好,也更贴近实际应用场景。同时,"提示增强的轨迹采样"策略巧妙地平衡了数据收集效率和模型训练质量,这种技术细节的考量体现了团队的工程经验和理论洞察。
九、开源AI的新里程碑
认知内核-专业版的发布,标志着开源AI智能体领域的一个重要里程碑。在此之前,高性能的AI助手几乎都被大型科技公司垄断,普通研究者和开发者只能通过付费API的形式来使用这些能力,这种模式不仅成本高昂,还限制了创新的可能性。
腾讯团队的这项工作证明了一个重要观点:通过精心的框架设计和训练策略,完全开源的解决方案同样可以达到令人满意的性能水平。CK-Pro-8B模型虽然参数量相对较小,但在多项测试中的表现已经足以满足大多数实际应用需求。更重要的是,这个模型可以在普通的GPU服务器上运行,大大降低了部署和使用的门槛。
这种开源策略的价值不仅体现在成本节约上,更体现在促进技术创新和知识传播方面。当核心技术完全开放时,全球的研究者都可以在此基础上进行改进和扩展,这种集体智慧的汇聚往往能产生意想不到的突破。同时,开源模式也保证了技术发展的透明性和可审查性,这对于AI技术的安全发展具有重要意义。
从更宏观的角度来看,认知内核-专业版的成功也反映了AI技术发展的一个重要趋势:随着基础模型能力的不断提升,系统设计和训练策略的重要性越来越突出。单纯的模型规模竞赛可能已经接近天花板,而如何更好地设计系统架构、构建训练数据、优化推理策略等工程技术问题,将成为决定AI系统实际效果的关键因素。
十、未来发展的无限可能
虽然认知内核-专业版已经取得了令人鼓舞的成果,但研究团队也清醒地认识到当前系统的局限性和改进空间。最明显的限制是CK-Pro-8B模型在性能上与大型商业模型还有明显差距,特别是在处理最复杂任务时的成功率还有待提高。
针对这个问题,未来的改进方向包括几个方面。首先是进一步优化训练数据的质量和多样性,特别是增加更多需要深度推理和复杂多步操作的样本。其次是探索更先进的训练策略,比如结合强化学习来优化智能体的决策过程,或者使用更大规模的基础模型来提升整体能力。
另一个重要的发展方向是增强系统的多模态处理能力。虽然当前版本已经支持图像处理,但这种支持主要依赖外部的多模态模型。未来的目标是开发真正的端到端多模态智能体基础模型,能够无缝处理文本、图像、音频等多种输入形式。
在应用层面,认知内核-专业版也有广阔的扩展空间。当前系统主要关注网络浏览、文件处理和通用推理三大领域,未来可以增加更多专业领域的支持,比如科学计算、数据分析、软件开发等。同时,框架的模块化设计也为第三方开发者贡献新的子智能体提供了便利。
更长远来看,这类开源智能体框架可能会成为构建更复杂AI系统的基础设施。就像Linux操作系统成为了互联网基础设施的重要组成部分一样,高质量的开源智能体框架也可能成为未来AI应用生态的基石。
说到底,腾讯AI实验室的这项研究为我们展示了一种全新的可能性:在AI技术日益复杂和昂贵的今天,通过巧妙的工程设计和开源协作,我们仍然可以构建出既强大又accessible的AI系统。认知内核-专业版不仅是一个技术产品,更是对AI民主化理念的有力践行。它告诉我们,最先进的AI能力不应该被少数大公司垄断,而应该成为全人类共同的智力财富。
当我们站在AI技术发展的十字路口时,像认知内核-专业版这样的开源项目为我们指明了一个充满希望的方向:通过开放合作、技术创新和持续优化,我们完全有可能构建出一个更加开放、平等、创新的AI未来。这个未来里,每个人都可以拥有自己的AI助手,每个研究者都可以在开源基础上推进技术边界,每个开发者都可以构建真正有价值的AI应用。这样的未来,值得我们为之努力。
Q&A
Q1:认知内核-专业版框架相比其他AI助手有什么特殊优势?
A:认知内核-专业版最大的优势是完全开源且几乎完全免费。相比其他需要付费API和专有工具的AI助手框架,它只需要Google搜索API这一个付费服务,其他功能都通过开源工具实现。同时,它还提供了专门训练的8B参数基础模型CK-Pro-8B,在同等规模的开源模型中性能领先。
Q2:CK-Pro-8B模型在实际测试中表现如何?
A:CK-Pro-8B在GAIA基准测试的文本专用子集上取得了优异成绩,Pass@1得分40.3%,Pass@3得分49.3%,显著超越了同参数规模的WebDancer和WebSailor等7B模型。在Level 1基础任务上,Pass@3得分更达到50.9%,证明了其在相对简单任务上的可靠性。
Q3:普通用户如何使用认知内核-专业版框架?
A:用户可以通过GitHub仓库获取完整的开源代码和使用说明。由于框架设计了统一的接口和模块化架构,用户可以根据自己的需求选择使用完整框架或特定模块,也可以用自己的语言模型替换默认配置。
来源:至顶网