人工智能：技术升级叠加成本降低，加速 AI 应用落地

摘要：OpenAI发布会2024年底重磅来袭，连续12个工作日发布多个新产品。2024年12月5日，OpenAI宣布从2024年12月5日太平洋时间早上10点（即北京时间2024年12月6日凌晨2点）起，连续12个工作日都将发布新产品。此次发布会的新产品包括最新的o

1、海内外大模型竞争加剧，ChatGPT o3 和 Gemini 2.0 系列重磅发布

OpenAI发布会2024年底重磅来袭，连续12个工作日发布多个新产品。2024年12月5日，OpenAI宣布从2024年12月5日太平洋时间早上10点（即北京时间2024年12月6日凌晨2点）起，连续12个工作日都将发布新产品。此次发布会的新产品包括最新的o3大模型、o1大模型的正式版、Sora正式版等重磅产品以及和苹果在端侧的深度融合。

o1正式版较此前发布的o1 preview版本有明显进步。o1正式版在国际数学奥林匹克预选赛题目（AIME 2024）、编程能力测试（Codeforces）方面较o1 preview版本均有约50%的大幅提升。

o3在多个领域的测试结果显著超过o1，ARC-AGI测试的准确率高达87.5%。o3距离o1的preview版本仅3个月左右的时间，但在编码、数学以及ARC-AGI基准测试等多个基准测试结果上大幅超过了o1模型，其中，o3的Codeforces评分高达2727，相当于在全球人类程序员编码竞赛中排名第175位，超过了99%的人类程序员，较o1提升了800多分；在AIME 2024数学竞赛评测中，o3取得了96.7%的准确率，性能提升了13.4%；在博士水平的科学问题（GPQA）准确率达到87.7%，远超博士生的一般准确率70%；在最难的前沿数学测试准确率达到25.2%，此前的其他模型准确率未超过2%；在证明是否达到AGI的题目ARC-AGI中准确率达到87.5%，此前o1的准确率仅25%。

Google发布Gemini 2.0，海外头部大模型厂商竞争进入白热化阶段。在OpenAI发布会尚未结束之时，2024年12月11日，Google发布了Gemini 2.0系列中的Gemini 2.0Flash版本。Flash版本在Gemini 模型系列中，是除去专为端侧开发的Nano版本外，参数最小的模型。Gemini 2.0的Flash版本在速度翻倍的同时，性能还超越了参数量级更大的Gemini 1.5 Pro版本，并在大模型排行榜中超越了ChatGPT-4o和o1 Preview。

紧接着12月20日，Google又发布了Gemini 2.0 Flash Thinking，Gemini 2.0 FlashThinking 则是基于 Gemini 2.0 Flash版本上更加侧重推理性能的版本，经过专门训练后可使用思维（thoughts）来增强其推理能力，还会明确展示其思考过程，发布后很快就登顶了Chatbot Arena排行榜第2。OpenAI o1正式版和o3 preview版本的发布，以及Google Gemini2.0系列的发布，彰显海外两个头部大模型厂商的竞争已经进入白热化阶段。

2、豆包领衔国内大模型加速追赶，成本有望进一步降低

国内大模型厂商加速追赶，综合性能持续提升。根据SuperCLUE报告，2024年国内大模型厂商发布多款推理模型，如QWQ、K0math、DeepSeek-R1-Lite、InternThinker、360gpt2-o1、GLM-Zero等。同时，国内以豆包为代表的多款大模型综合性能也持续提升，加速追赶海外头部大模型的性能水平。

豆包大模型家族全新升级，日均tokens使用量增长超过33倍。在2024火山引擎FORCE原动力大会·冬上，火山引擎发布了全新升级的豆包大模型家族。根据大会介绍，豆包大模型2024年12月的日均tokens使用量超过4万亿，较2024年5月发布时期约1200亿的日均tokens使用量增长超过33倍。

豆包大模型tokens的调用实现规模化增长。豆包大模型在多个场景中的tokens调用量都在快速增长，带动着豆包大模型tokens调用的整体规模化增长。

火山引擎发布、升级多个大模型产品，豆包大模型家族成员愈发丰富。火山引擎推出了豆包·视觉理解模型，通过豆包·视觉理解模型，用户可以同时输入文本和图像相关的问题，模型能够综合理解并给出准确的回答，这将极大地简化应用的开发流程，解锁更多的大模型价值场景。豆包·视觉理解模型拥有更强的内容识别能力、更强的理解和推理能力以及更细腻的视觉描述能力，在教育、旅游、电商等场景有着非常广泛的应用。

此外，豆包通用模型pro也完成了新版本的迭代，综合任务处理能力较5月份提升32%，在推理上提升13%，在指令遵循上提升9%，在代码上提升58%，在数学上提升43%，在专业知识领域能力提升54%。

豆包·视觉理解模型价格显著低于行业水平，大大降低了用户的使用成本。豆包·视觉理解模型的输入价格为每千tokens0.003元，比行业平均价格降低85%，相当于一块钱可以处理284张720P的图片，代表着视觉理解模型正式走进厘时代。此外，火山引擎还将提供更高的初始流量，RPM达到了15,000次，TPM达到120万，让企业和开发者用好视觉理解模型，找到更多创新场景，大大降低了用户的使用成本。

支持性政策出台，有望进一步降低大模型的训练和使用成本。12月18日，深圳市工业和信息化局印发《深圳市打造人工智能先锋城市的若干措施》，《措施》主要从丰富生态要素供给、深化人工智能赋能千行百业、提升源头创新能力和优化产业发展环境四个方面推动建设国家新一代人工智能创新发展试验区和国家人工智能创新应用先导区，打造人工智能先锋城市。值得注意的是，多项措施在降成本有着明显的创新，如发放“训力券”、“语料券”、“模型券”等。若该类政策拓展至全国，有望大幅降低企业训练AI大模型以及购买模型服务、智能体开发应用的成本，有利于推动先进算力基础设施建设，也激励企业开展模型应用和数字化智能化转型。

3、大模型能力持续升级，AI Agent 成为 AI 产品应用的主流方向

OpenAI认为AI Agent处于AI的第三个等级，不仅能思考还能采取行动。目前，Al Agent尚未形成统一的定义。根据2024年7月新智元报道的报道，头部大模型厂商OpenAI将AI划分为5个等级，分别是L1：聊天机器人，具有对话能力的AI；L2：推理者，像人类一样能够解决问题的AI；L3：智能体，不仅能思考，还可以采取行动的AI系统；L4：创新者，能够协助发明创造的AI；L5：组织者，可以完成组织工作的AI。在这个分类中，AI Agent处于L3级别，其特征是“take actions”，即会采取行动。

智谱推出Agent方面的阶段性成果。我国领先的AI大模型企业智谱认为，人类与机器的互动方式正在发生范式转变——这是由于只有对话功能的Chatbot，正在进化为“有手、有脑、有眼睛”的自主 Agent。2024年10月，智谱推出了在由自主智能体（Agent）驱动的人机交互新范式方面取得的一些阶段性成果：基于CogAgent的应用和基于AutoGLM-Web的应用。

具体来看，CogAgent，是一个替代终端用户理解、使用图形用户界面（GUI），完成信息获取和功能触发的智能体，更具泛化性和拟人性，目前支持在Windows、macOS 软件上进行自然语言交互（包括打字输入和语音输入）、截图交互和划词交互；AutoGLM-Web，是一个能模拟用户访问网页、点击网页的浏览器助手，可以根据用户指令在私域网站上完成高级检索并总结信息、模拟用户看网页的过程进行批量、快速的浏览并总结多个网页，结合历史邮件信息回复邮件。CogAgent已经在智谱公司内部和部分合作伙伴中使用，AutoGLM-Web也已经通过「智谱清言」插件对外开放使用。

智谱认为AI Agent处于大模型发展的L3-L4阶段，提升使用工具能力的同时还能探索自我学习能力。在2024年11月的智谱Agent OpenDay上，智谱给出了自己定义的大模型发展的五个阶段，分别是：L1 语言能力、L2 逻辑能力（多模态能力）、L3 使用工具的能力、L4 自我学习能力、L5 探究科学规律。智谱划分与OpenAI有所不同，认为AI Agent处于L3-L4阶段，一方面将极大地提升L3阶段使用工具的能力，另一方面还能开启对L4阶段自我学习能力的探索。此次的Agent OpenDay上，智谱还将此前发布的AutoGLM升级为了面向网页、手机（安卓）和PC端的三个产品：AutoGLM Web、AutoGLM（安卓端）和GLM-PC。

Al Agent成为目前AI大模型产品的主流趋势之一，自主性是其最大特征，端侧是其重要应用。此前聊天机器人、AI搜索等AI应用产品大多是根据用户给出的“prompt”进行分析思考并给予反馈，而Al Agent的进步则是更加具备自主性，无论是OpenAI还是智谱的分类，都能体现出Al Agent自主性的特征。爱分析报告认为Al Agent是能够感知环境，基于目标进行决策并执行动作的智能化应用。

不同于传统人工智能应用(主要指以规则引擎、机器学习、深度学习等技术为核心)和RPA机器人，Al Agent能够基于目标和对现状能力的认知，在环境约束中，依赖特定资源和现有工具，找到行动规则并将行动拆解为必要的步骤，自主执行步骤，达成目标。

同时，Al Agent具备三个核心能力:独立思考、自主执行、持续迭代。独立思考是指Al Agent能够根据给定任务目标和约束条件,进行任务规划和问题拆解，形成执行步骤(即工作流);自主执行是指Al Agent能够调取各类组件和工具，按照执行步骤依次执行，实现任务目标;持续迭代是指Al Agent能够自动记录任务目标、工作流和执行结果，基于结果反馈，沉淀专家知识和案例。与此前大家熟知的AI Copilot对比，两者在功能和场景上存在差别，自主性是两者之间最大的区别。Al Copilot相当于是“副驾驶”，只是提供建议而非决策；而Al Agent相当于是“主驾驶”需要真正做出决策并开展行动。

4、智能驾驶加速落地，关注车路云一体化和 Robotaxi 落地进程

车路云首批20个应用试点城市包括不同层级，旨在取得实效。2024年7月3日，工业和信息化部等多部门联合发布了《关于公布智能网联汽车“车路云一体化”应用试点城市名单的通知》，公布了第一批智能网联汽车“车路云一体化”应用试点城市，共20个。此次应用试点的城市包括直辖市、省会城市、联合体等不同层级的城市，能够覆盖不同的人员基础、地理类型和交通环境。根据《通知》，此次从协调工作机制、资金落实等方面均会为试点工作的开展提供保障措施，同时要求各地省级主管部门要加大对试点城市的政策支持力度，加强试点工作的跟踪问效，及时总结工作进展、经验做法和典型案例，每年3月底前报五部门，旨在让试点工作取得实效，形成可复制可推广的经验。

特斯拉Robotaxi无人驾驶出租车正式发布，成本有望大幅降低。2024年10月，特斯拉在“We, Robot”发布会上正式发布了特斯拉Robotaxi无人驾驶出租车，命名为CyberCab。特斯拉CEO马斯克在发布会上称，CyberCab的车辆成本预计将低于3万美元，并将于2026年投入生产，在2027年前大规模铺开。当下CyberCab的运营成本仍较高，约为1美元每英里，未来将降至0.2美元每英里左右。未来特斯拉还将推出CyberCab 2。除CyberCab外，特斯拉还发布了无人驾驶货运车RoboVan（无人驾驶厢式货车），可承载20人以及运货。RoboVan出行成本可以大幅降低，每英里约10-15美分。

特斯拉发布的 Robotaxi CyberCab

资料来源：第一财经，万联证券研究所

百度推出Apollo开放平台10.0，助力自动驾驶走向规模化落地。2024年12月4日，百度正式发布Apollo开放平台的全新升级版本——Apollo开放平台10.0，基于自动驾驶大模型ADFM设计重构算法，助力全球开发者和企业以更低成本、更高性能、更安全的技术应用，研发不同场景的自动驾驶产品，并逐步走向规模化落地。

Apollo开放平台10.0不仅在软件核心层、应用软件层、工具服务层进行了重大升级，还通过自动驾驶大模型ADFM重构算法，提升了核心算法模块效果，助力开发者提升自动驾驶系统性能，实现更高性能、更低成本、更安全的落地自动驾驶场景应用。在性能提升的同时，Apollo开放平台10.0生态支持更丰富，大幅降低软硬件研发成本。

海内外自动驾驶产业加速竞争，Robotaxi成为共同选择。海内外头部的自动驾驶厂商基本上都选择Robotaxi领域作为战略部署，随着龙头特斯拉将战略重点转移至Robotaxi领域，推出CyberCab，海内外的竞争进一步加剧。海外方面，Waymo不断扩大无人驾驶出租车辆的运营规模和服务区域。国内，基于百度Apollo的萝卜快跑领衔国内Robotaxi市场。截至2024年4月4日，百度萝卜快跑在中国复杂城市道路测试和运营里程超过1亿公里。

特别是在武汉，萝卜快跑实现了7*24小时运营，覆盖3000平方公里770万人口。据王云鹏透露，萝卜快跑在武汉的日单量已经超过武汉全城网约车市场的1%，并且还在快速增长。目前，萝卜快跑已在北京、上海、广州、深圳、重庆、武汉、成都、长沙、合肥、阳泉、乌镇等城市开放示范运营。最新的，根据香港运输署消息显示，萝卜快跑成功获得了香港首个自动驾驶车辆先导牌照，这是萝卜快跑首个右舵左行地区的自动驾驶测试牌照，为萝卜快跑未来进入全球市场打下重要基础。

更多行业研究分析请参考思瀚产业研究院官网，同时思瀚产业研究院亦提供行研报告、可研报告（立项审批备案、银行贷款、投资决策、集团上会）、产业规划、园区规划、商业计划书（股权融资、招商合资、内部决策）、专项调研、建筑设计、境外投资报告等相关咨询服务方案。

来源：思瀚研究院

标签：应用人工智能 agent

本文地址：https://news.43u.com.cn/a/448400.html

免责声明：本站系转载，并不代表本网赞同其观点和对其真实性负责。如涉及作品内容、版权和其它问题，请在30日内与本站联系，我们将在第一时间删除内容!