AI Agents:从工具到伙伴 | 2025 HongShan AI Day(下篇)

360影视 欧美动漫 2025-06-03 21:20 4

摘要:5月29日,以“AI Agents:From Copilot to Colleague”为主题的AI Day活动为200多位成员企业CEO和技术高管提供了一场脑力交锋和技术激荡的舞台。

今天,让我们继续走进红杉中国第三届AI Day,深入挖掘AI Agents的更多潜力。

5月29日,以“AI Agents:From Copilot to Colleague”为主题的AI Day活动为200多位成员企业CEO和技术高管提供了一场脑力交锋和技术激荡的舞台。

我们看到了全新基准测试工具xbench,还通过多场深度对话和圆桌论坛,共同探讨了AI Agents在商业应用、技术演进以及未来企业发展的关键方向——从前沿的技术思考到实践中的应用场景,从创业机遇到未来组织形态的变化。接下来,让我们再度回到这场思维盛宴,聚焦更多前沿洞见与实践成果,解锁未来智能世界的更多密码。

红杉中国合伙人公元以“如何在AI下半场定义‘好问题’”为主题,向参会嘉宾介绍了红杉中国推出的一款全新AI基准测试工具xbench。

“当大家纷纷考满分的时候,到底是学生变聪明了还是卷子出问题了?”公元问大家。

她表示,此前市场上针对大模型的各种评测集,都快速地被大模型做出满分,并形成了一个循环:当一套题被大模型“刷爆”到满分以后,新的考试卷又推出越来越难的题目,过段时间这些题再度被大模型“刷爆”。这就引出了两个问题:一是大模型的解题能力虽强,但实际效用(例如经济价值)是否与之相匹配;二是不同时间维度上的大模型能力如何比较——“今年得到20分的大模型真的比去年得满分的大模型差吗?”

公元表示,xbench想要打造AI能力评估的新范式,致力于解决这些问题。其具有双轨评测长青评估体系等两大特点。

一方面,xbench打破惯性,为现实世界的实用性开发新颖的任务设置和评估方式,打造了双轨测评体系:AGI track用于验证AI基础能力;Profession Aligned聚焦现实生产场景,从市场和业务视角来评估实用性。据她介绍,xbench Profession Aligned评估集的每个任务预设TMF(Technology-Market Fit)目标,一旦Agent达标则停止更新,评估难度追求实际匹配,而不是持续变难。

另一方面,xbench通过数学模型,将此前波动分数转化为单调递增的能力曲线,这样就能在评估题库和模型都在迭代的情况下,清晰看到AI能力的真实成长轨迹。(请点击阅读更多xbench相关内容)

由红杉中国副总裁李广平主持,璇星科技CEO胡世超、言创万物联合创始人及COO刘晓春和ONE2X CEO王冠就“AI Agent的演进与突破”进行了一场圆桌对谈。

王冠表示,Agent的关键所在是具有“泛化性”,能完成传统模型无法覆盖的任务,其定义包含三个层次:模型智能、专家智慧(行业私有知识)与用户智慧(使用反馈)。关于Agent领域的创业机会,核心是要考虑项目的经济价值和生产成本,此外还必须要有可以抽象的生产方法,例如艺术类的项目,只要能抽象出方法,这个项目就能变成一个模型,任务就可以学习和优化,就可以随着数据积累享受到模型技术的发展。

刘晓春对“泛化性”表示了肯定,并表示Agent的核心在于其自主完成较大颗粒度任务的能力。他强调,Agent的本质特性是“思考能力”与“工具使用”的结合,它突破了专业壁垒——可以让个体发挥团队级能力。创业机会上,他看好需要和真实世界产生多重连接的方向,尤其在结合真实世界知识(如教育、旅游行业)等垂直场景中,Agent将成为连接通用大模型与行业落地的关键枢纽,可以为通用大模型提供更多的真实世界的知识。

胡世超认为,Agent和以前的模型、软件的区别一方面在于交互方式——从传统按钮操作转向多模态自然交互,另一方面在于它总会给人带来“惊喜”——它会充分利用工具,通过自主决策与工具链调用完成端到端任务,例如在求职的场景中,Agent能够据不同公司的品牌特点生成个性化的简历。技术方向上,他提出,Agent需突破上下文管理的瓶颈以实现更长期的连续性任务执行,如果在2-3年内在此方向有所突破的话,Agent领域将实现爆炸性的发展;同时,Agent与工作流应融合而非对立,通过协同解决实际问题。

拾象科技CEO李广密则为大家分享了在基础模型训练视角下和硅谷视角下关于AGI主线的最新思考。

他分享了对2025年LLM的7个关键判断:一是智能本身就是最大的应用,应该围绕智能本身去投入;二是Pre-training(预训练)的空间仍然巨大,基础模型的预训练远未结束,而预训练是新能力涌现的关键;三是AGI的路线图已经开始分化,头部玩家如OpenAI和Anthropic选择了不同的发展路径;四是在LLM的竞争格局中,OpenAI和Anthropic占据了绝对的领先优势;五是Online-learning(在线学习)允许模型自主探索并学习,会造就“堪比爱因斯坦的AGI”,是一种新的范式级路线;六是Coding+Agentic AI将成为AGI时代类似抖音和微信级别的机会,现在离各种Agent应用大爆发还差一步——就等“Long Context”问题得到解决,未来3年将是这一领域发展的关键窗口期;七是到2030年前,将有多家市值超过10万亿美元的公司诞生,这将标志着AI时代经济价值的巨大增长。

在主题为“搭建未来型企业”的圆桌论坛上,红杉中国合伙人张涵、红杉中国董事总经理丁飞洋和红杉中国合伙人缪海源进行交流并分享了各自的观点。

张涵表示,目前AI Agent的热潮和十几年前移动互联网应用大量出现时的状态很相似,各类新产品如雨后春笋般出现。当下AI agent领域早期公司融资市场情绪偏乐观,企业想要寻求投资,需要创始人对人工智能、大模型相关技术发展有深刻认知和足够的趋势判断力,对业务切入方向洞察深入且细致,团队强执行力和高迭代速度,就有可能打动投资人。此外,张涵提到,如果企业未来想要发展成一个国际化的公司,构建包含人力、品牌、财务、合规、法务等模块的海外架构是必要的。同时,除了用AI和新技术的构建提高企业的流程效率和竞争力,国际化企业更重要的是高效的人才吸引及管理,并通过全球人才协同创造价值。

丁飞洋分享了她对AI时代品牌传播变化的思考和洞察。她表示,AI技术深刻重塑了内容创造和品牌传播的方法论,但品牌护城河的建立“万变不离其宗”,依然是持续与用户建立健康的、可持续的互动,不断展现自己独特和有辨识度的品牌调性。AI时代,信息传播的渠道和方式正在发生快速变化,这就要求企业更加精准地把握核心受众与各相关方的关注点,把握好信息分发的源头和渠道,让新技术去持续赋能品牌与人的互动。此外,她认为,对于AI领域的创业者而言,技术创新和能力领先很重要,扎实丰富的品牌内容和社群加持同样很重要。

针对AI时代的组织形态变革,缪海源指出,未来很多企业的规模可能趋向小型化,组织架构更趋扁平化,公司尤其是创业公司的人效将显著提升。在此趋势下,企业管理成本虽有望降低,但管理难度也会相应增加。对于创始人CEO而言,精准匹配岗位人才的价值将愈发凸显,这对其招聘能力提出了更高要求。当组织成员人效持续提升且普遍运用AI工具时,CEO的个人领导力也将面临全新挑战。另外,如果企业要进入全新海外市场,一定要“谋定而后动”,把团队搭建和人才布局像沙盘一样推演一遍。

除了上述嘉宾外,我们还邀请了Google Cloud北亚区AI业务总经理陈雷和亚马逊云科技(AWS)首席人工智能专家邓明轩,他们各自就谷歌的AI策略和LLM Agent自然语言的解析与执行等两个话题进行了分享。陈雷表示,2025是AI创新的真正开始。他结合谷歌的AI策略,阐述了“AI不是构建一个模型,而是构建端到端的平台”的深刻洞察。邓明轩在演讲中提出,LLM Agent不应仅是副驾驶,而应成为数字员工,解析和执行复杂任务。因此,创业公司需要在新的技术环境下重新定位自身价值。

来源:红杉汇

相关推荐