H Company团队:开源模型如何超越GPT-4?

360影视 国产动漫 2025-06-11 16:46 3

摘要:这项由H Company(法国AI公司)的M. Andreux、B. Baldas Skuk等数十位研究人员组成的大型团队完成的研究发表于2025年6月3日的arXiv预印本平台,论文编号为arXiv:2506.02865v1。有兴趣深入了解技术细节的读者可以

这项由H Company(法国AI公司)的M. Andreux、B. Baldas Skuk等数十位研究人员组成的大型团队完成的研究发表于2025年6月3日的arXiv预印本平台,论文编号为arXiv:2506.02865v1。有兴趣深入了解技术细节的读者可以通过https://arxiv.org/abs/2506.02865访问完整论文。

想象一下,你想让AI帮你在网上订个餐厅、买张电影票,或者搜索一些复杂信息。传统的AI就像一个只会纸上谈兵的书呆子——它们虽然知识渊博,但面对真实的网页时却束手无策,既看不懂页面布局,也不知道该点哪个按钮。更要命的是,如果你想让ChatGPT这样的顶级AI来帮你,每次操作的费用高得让人咋舌。

现在,H Company的研究团队就像是训练出了一位AI界的"网页冲浪高手"。他们开发的Surfer-H系统配备了名为Holo1的开源AI模型,不仅能像人类一样熟练地浏览网页、点击按钮、填写表格,更令人惊喜的是,它的表现竟然能与价格昂贵的GPT-4系列模型不相上下,但成本却只有后者的几分之一。

这项研究的突破性在于,它首次证明了小型开源模型经过精心训练后,完全有能力在复杂的网页操作任务中挑战商业巨头的闭源模型。研究团队不仅公开了所有模型权重,还发布了专门的网页定位测试集WebClick,为整个AI社区的发展做出了重要贡献。

一、像教孩子学电脑一样训练AI网页高手

传统的AI就像是一个被关在图书馆里的学者,虽然博览群书,但从未真正接触过外面的世界。当你让它帮你在网上买东西时,它只能告诉你理论上应该怎么做,却无法真正动手操作。这就好比一个从未下过厨的人试图指导你做菜——理论知识再丰富,没有实践经验也是白搭。

H Company的研究团队面临的挑战就像是要把这个书呆子训练成一个熟练的网页操作员。他们需要让AI学会三项核心技能:首先是制定策略——就像人类浏览网页时会思考"我现在需要做什么";其次是精准定位——能够在复杂的网页中找到正确的按钮或输入框;最后是质量把关——判断自己的操作结果是否正确。

Surfer-H系统的设计就像是一个高效的工作团队,由三个专门的"部门"组成。策略制定部门(Policy)负责分析当前页面和任务目标,决定下一步应该做什么,就像一个经验丰富的项目经理;定位部门(Localizer)专门负责在网页上找到需要操作的具体位置,就像一个眼尖手快的技术员;质量检验部门(Validator)则负责检查最终结果是否符合要求,就像一个严格的质检员。

这种分工合作的方式特别聪明,因为不同的任务需要不同的专业技能。就像在一家餐厅里,厨师专注于烹饪,服务员专注于服务客人,收银员专注于结账一样,每个角色都在自己的专业领域内发挥最大作用。

系统的记忆机制就像人类浏览网页时的思维过程。它会记住之前访问过哪些页面、尝试了什么操作、遇到了什么问题,然后基于这些经验来指导下一步行动。这种记忆不是简单的流水账,而是包含了思考过程、关键信息和行动历史的智能记录。

二、三万亿字符的网页训练营:从爬虫数据到AI专家

训练Holo1就像是开办一所专门的"网页操作学院"。研究团队收集了超过三万亿个字符的训练数据,这个数字听起来很抽象,但换个说法你就明白了——这相当于让AI阅读了几千万本书的内容,而且这些"书"都是关于如何操作网页的实用指南。

训练数据的构成就像是为AI准备的三道营养大餐。第一道是"基础功夫菜",占了总训练量的一半多,主要来自真实网页的爬取数据。研究团队从公开互联网上收集了400万个网页,并标记了其中8900万个可点击元素。这就像是让AI观摩了无数次真实的网页操作演示,学会识别按钮、链接、输入框等各种网页元素。

第二道是"技能提升菜",占训练量的三分之一,专门训练AI的高级理解能力。这包括学会验证点击位置是否正确、从网页中提取有用信息、回答关于网页内容的问题等。就像是让AI不仅会看网页,还要理解网页想表达什么意思。

第三道是"实战演练菜",虽然只占训练量的六分之一,但却是最关键的部分。这些数据来自AI实际执行任务时的操作记录,就像是让AI从自己和同伴的成功案例中学习。研究团队收集了大量成功完成任务的操作序列,让AI学会在面对具体任务时应该采取什么样的行动策略。

特别有趣的是,研究团队还为AI准备了一些"特训课程"。比如专门针对日历操作的训练——因为他们发现现有的AI在处理日历时经常出错。他们创建了专门的日历网站,设计了各种日历相关的任务,让AI反复练习,直到完全掌握。这就像是发现学生在某个科目上有弱点,就专门为这个科目开设补习班一样。

还有针对表格理解的特训。很多AI在面对复杂表格时会犯糊涂,分不清哪些信息属于哪一行哪一列。研究团队就专门生成了大量的表格数据,让AI练习如何正确理解和处理表格信息。

训练过程采用了一种叫做"滤过式行为克隆"的方法,听起来很复杂,其实就像是"只学好学生的经验"。研究团队只保留那些成功完成任务的操作记录用于训练,把失败的案例都过滤掉。这样AI学到的都是正确的操作方式,避免了学习错误行为的风险。

三、WebClick:专为网页操作设计的AI考试

现有的AI测试就像是让一个专门训练网页操作的选手去参加通用的电脑技能考试——虽然也能测出一些能力,但无法准确反映他在网页操作方面的真实水平。研究团队意识到需要一个专门针对网页操作的测试标准,于是开发了WebClick基准测试。

WebClick就像是为网页操作AI设计的专业考试。考试内容包括1639个精心设计的测试题目,涵盖了100多个不同的网站。每道题目都像是一个实际的操作场景:给AI一张网页截图和一个操作指令,比如"点击购物车按钮"或"选择明天的日期",然后看AI能否准确找到正确的位置。

这个考试的题目来源很有意思,就像是从三个不同的场景中收集真实案例。第一类来自AI自己在练习过程中遇到的情况——这就像是把学生平时做错的题目收集起来,看看现在能不能做对。第二类来自人类日常上网时的真实操作记录——这就像是观察普通人是怎么使用网页的,然后把这些场景变成考试题。第三类专门针对日历操作设计,因为研究团队发现这是AI普遍的弱点。

日历操作之所以困难,就像是让AI学会看懂一个复杂的时间表。不同国家的日期格式不同,有的是"月/日/年",有的是"日/月/年",还有各种节假日标记、周末突出显示等。AI需要理解这些复杂的视觉信息,然后准确找到用户要求的特定日期。

考试结果让人印象深刻。Holo1-3B模型的平均得分达到73.55%,而体积更大的Holo1-7B更是达到了76.19%。相比之下,其他同类模型的表现就逊色不少。比如体积相当的Qwen2.5-VL-3B只得了65.51分,UGround-V1-2B得了67.15分。

更令人惊喜的是,小巧的Holo1-3B模型居然能够与体积大一倍多的Qwen2.5-VL-7B模型(69.32分)不相上下,甚至在某些项目上还超过了后者。这就像是一个轻量级选手在拳击比赛中击败了重量级对手,证明了精心设计的训练方法能够以小博大。

在专门的日历操作测试中,Holo1模型的表现尤其出色。Holo1-7B在日历任务上得到了72.92分,远超其他竞争对手。这证明了针对性训练的有效性——就像是专门练习某项技能的运动员,在该项目上的表现会明显优于全才型选手。

四、WebVoyager大考验:与GPT-4正面较量

WebVoyager基准测试就像是AI界的"网页操作奥林匹克竞赛",包含643个真实世界的任务,涵盖10个不同类型的网站。这些任务就像是日常生活中我们经常遇到的网上操作:预订餐厅、购买商品、查找信息、填写表格等等。

比赛规则很有趣:每个AI选手最多可以尝试30步操作来完成一个任务,如果中途觉得完成了,可以提交答案;如果答案被判定为不正确,可以重新尝试,最多尝试10次。这就像是给学生一张考试卷,允许他们多次修改答案,但每次修改都会增加用时。

成本计算就像是给每种AI标上了"使用价格标签"。GPT-4o的使用成本最高,每百万输入字符需要2.5美元,输出字符需要10美元;而Holo1-3B的成本只有GPT-4o的很小一部分,每百万输入字符只需0.1美元,输出字符只需0.4美元。这个价格差异就像是名牌产品和高性价比替代品之间的差别。

比赛结果令人瞩目。在允许10次尝试的情况下,搭载Holo1-7B的Surfer-H系统达到了92.2%的成功率,几乎与使用GPT-4.1的版本(92.0%)不相上下。但是在成本方面,前者每个任务只需0.13美元,而后者需要0.54美元——这就像是买到了性能相当但价格便宜四倍的产品。

更有趣的是,研究团队还测试了一个"完全自主"的版本,即所有三个功能模块都使用Holo1模型。虽然这个版本的表现稍有下降(Holo1-7B全模块版本达到80.4%),但成本进一步降低到每个任务只需0.06美元。这就像是选择了一个全自动化的服务,虽然精确度略有降低,但效率和成本控制达到了最优。

研究团队还进行了一个特别的对比实验,就像是测试"学过原题"和"没学过原题"的差别。他们训练了一个特殊版本的模型(Holo1-7B-WVE),这个模型在训练时没有接触过WebVoyager的任务,只学习了扩展数据集中的其他任务。结果显示,这个"没见过考试题"的版本仍然能达到87.7%的成功率,比基础的Qwen2.5-VL-7B模型(78.2%)高出近10个百分点。这证明了训练方法的有效性不仅仅依赖于"题海战术",而是真正提升了AI的理解和操作能力。

与市面上其他知名的AI代理系统相比,Surfer-H的表现也毫不逊色。OpenAI的Operator系统达到87.0%,Google的Project Mariner达到83.5%,BrowserUse达到89.1%,而Surfer-H+Holo1的组合不仅在准确率上超越了这些系统,在成本效益方面更是遥遥领先。

五、帕累托最优:性价比之王的诞生

在经济学中,有一个叫做"帕累托最优"的概念,简单说就是在不让任何人情况变坏的前提下,无法再让任何人的情况变得更好。在AI系统的评估中,这个概念就变成了在不增加成本的前提下无法获得更好的性能,或者在不降低性能的前提下无法进一步减少成本。

Surfer-H配备Holo1模型就实现了这样的帕累托最优状态。想象一个坐标图,横轴是成本,纵轴是性能。理想的产品应该位于左上角——成本低但性能高。研究结果显示,无论是Holo1-3B还是Holo1-7B,都牢牢占据着这个"性价比黄金位置"。

这种优势在不同的尝试次数下都保持稳定。当AI只允许尝试1次时,Holo1-7B就能达到69.6%的成功率,成本仅为0.05美元;当允许尝试5次时,成功率提升到88.2%,成本增加到0.10美元;允许10次尝试时,成功率达到峰值92.2%,成本也只有0.13美元。这就像是一个产品在不同使用强度下都能保持最佳性价比,无论是轻度使用还是重度使用都很划算。

相比之下,使用GPT-4系列模型的版本虽然性能出色,但成本高昂。比如GPT-4.1版本虽然能达到92.0%的成功率,但每个任务需要0.54美元,是Holo1-7B的四倍多。GPT-4o版本的成本稍低一些,每个任务0.71美元,但成功率只有84.3%,性价比明显不如Holo1。

更有趣的是成本结构的分析。在传统的AI代理系统中,最昂贵的通常是核心的决策模块,因为它需要处理最复杂的推理任务。但Surfer-H的模块化设计让团队可以灵活搭配不同性能等级的组件。比如,他们可以用相对便宜的Holo1-3B来处理定位任务,用稍贵一点的GPT-4o来处理验证任务,这样既保证了关键环节的质量,又控制了整体成本。

研究团队还测试了一个完全使用Holo1的"极致性价比"版本。这个版本的三个模块都使用同一个Holo1模型,每个任务的成本降低到了0.06美元以下,虽然性能有所下降(80.4%),但对于成本敏感的应用场景来说,这个性价比是无人能及的。

这种灵活的模块化设计就像是组装电脑时可以根据预算和需求选择不同档次的配件。需要极致性能的用户可以选择高端配置,预算有限的用户可以选择经济型配置,而大多数用户会发现中端配置(Holo1+GPT-4o验证器)提供了最佳的性价比平衡。

六、开源共享:让AI技术普惠大众

研究团队做出了一个在AI领域相当罕见的决定:完全开源。他们不仅公开了Holo1模型的完整权重,还发布了WebClick测试数据集,并且承诺持续维护和更新这些资源。这就像是一家公司不仅免费分享了自己的核心技术,还提供了完整的使用指南和测试工具。

这种开源精神在当今的AI领域显得格外珍贵。大多数顶尖的AI公司都选择将自己的模型作为商业机密,通过API接口提供付费服务。而H Company的做法就像是将秘制配方公开,让任何有兴趣的研究者和开发者都能在此基础上进行改进和创新。

开源的好处是多方面的。对于学术研究者来说,他们可以深入分析Holo1的内部结构,理解其工作原理,在此基础上开发更好的方法。对于小型公司和个人开发者来说,他们可以直接使用这些模型来构建自己的应用,而不需要承担高昂的API调用费用。对于整个AI生态系统来说,开源促进了技术的快速传播和迭代改进。

模型的安全性评估也是开源的重要方面。研究团队使用ToxiGen数据集测试了Holo1模型生成有害内容的倾向。结果显示,Holo1-3B只有2.1%的回复被标记为有问题,Holo1-7B更是只有1.5%,这个比例甚至比一些基础模型还要低。这说明专门的训练不仅提升了模型的能力,还保持了其安全性。

WebClick数据集的开源同样意义重大。这个专门针对网页操作的测试集填补了现有评估体系的空白,为整个领域提供了统一的评估标准。就像是为一个新兴的体育项目制定了标准化的比赛规则和评分标准,让不同团队的研究成果可以进行公平比较。

开源还带来了一个意外的好处:社区验证。当代码和数据公开后,全世界的研究者都可以验证结果的可重现性,发现潜在的问题,提出改进建议。这种集体智慧的力量往往能够推动技术更快地发展和完善。

从商业角度来看,这种开源策略也很聪明。虽然H Company放弃了直接的模型授权收入,但他们获得了技术声誉、社区支持和生态影响力。这就像是一家餐厅免费分享招牌菜的做法,虽然失去了独家优势,但赢得了整个行业的尊重和合作机会。

七、技术细节:小模型也能有大智慧

Holo1模型的技术路线选择颇有讲究,就像是在设计一辆赛车时需要在速度、稳定性和燃油效率之间找到最佳平衡点。研究团队选择了Qwen 2.5-VL-Instruct作为基础模型,这就像是选择了一个性能稳定、结构合理的"底盘",然后在此基础上进行专门的"改装"。

训练策略采用了多任务混合学习的方法,这就像是让一个学生同时学习多门相关课程,而不是一门一门地依次学习。AI需要同时掌握文本理解、图像识别、坐标定位、逻辑推理等多种技能,而且这些技能之间需要协调配合。传统的训练方法可能会让AI在某一项技能上特别突出,但在技能整合方面表现不佳。

多任务训练的巧妙之处在于让AI学会了"一专多能"。同一个模型既可以充当策略制定者,又可以担任定位专家,还能当质量检验员。这就像是培养了一个全能型员工,虽然在每个单项上可能不如专门的专家,但整体协调能力更强,沟通成本更低。

模型规模的选择也很有策略性。3B参数的版本就像是一辆经济型轿车,燃油效率高,维护成本低,适合大多数日常使用场景。7B参数的版本则像是一辆中高端SUV,性能更强,适合更复杂的任务场景。这种分层设计让用户可以根据自己的具体需求和预算来选择合适的版本。

训练数据的预处理过程也很精细,就像是为运动员准备营养餐一样讲究。所有的训练样本都被转换成统一的对话格式,每个样本包含系统指令、用户输入和AI回复三个部分,有些样本还包含一张或多张图片。这种标准化的格式让AI能够更好地理解不同类型任务之间的共同规律。

特别值得一提的是坐标生成的训练方法。让AI学会在屏幕上精确定位就像是训练一个射箭选手,不仅需要良好的视力,还需要稳定的手法和准确的判断。研究团队设计了专门的坐标标注方法,让AI不仅知道"点哪里",还要理解"为什么点这里"。

验证模块的训练更是充满挑战,就像是训练一个严格的考官。这个模块需要判断AI的操作结果是否真正完成了用户的要求,这需要深度的语义理解和逻辑推理能力。研究团队收集了大量的成功和失败案例,让AI学会区分"看起来完成了"和"真正完成了"之间的差别。

模型的推理过程采用了结构化生成技术,这就像是给AI设计了一套标准的思考模板。每次接到任务,AI都会按照"观察-思考-行动-记录"的流程进行,这种结构化的方法既提高了推理的准确性,也让整个过程更容易调试和改进。

说到底,这项研究最大的价值不在于创造了一个新的AI系统,而在于证明了一个重要观点:通过精心的设计和训练,小型开源模型完全有能力在特定领域挑战甚至超越大型商业模型。就像是一个小而精的专业团队可以在特定项目上击败大公司的通用团队一样。

Surfer-H和Holo1的成功为AI技术的民主化开辟了新的道路。它告诉我们,顶尖的AI能力不一定需要天价的使用成本,也不一定要依赖于几家大公司的垄断技术。通过开源共享和精准训练,我们完全可以构建出既强大又经济、既专业又开放的AI系统。

这种思路对整个AI行业都有启发意义。与其在通用大模型的军备竞赛中无止境地投入资源,不如专注于解决特定领域的实际问题,用更聪明的方法实现更好的效果。归根结底,AI技术的价值不在于模型有多大、参数有多少,而在于能否真正帮助人们解决实际问题,让技术服务于生活,而不是让生活服务于技术。

有兴趣深入了解技术实现细节的读者,可以访问https://arxiv.org/abs/2506.02865查看完整的论文,或者在Hugging Face平台上直接下载和使用Holo1模型。这种开放的态度本身就是对AI技术发展方向的最好诠释——技术应该属于每个人,创新应该惠及所有人。

来源:至顶网一点号

相关推荐