刚刚，豆包1.5·深度思考模型上线，特供「视觉版本」

摘要：就在今天上午，2025 火山引擎 Force Link AI 创新巡展首站来到杭州。火山引擎总裁谭待宣布，「豆包 1.5・深度思考模型」加入豆包大模型全家桶。即日起，用户可在火山方舟官网直接调用「豆包 1.5・深度思考模型」API。

这几天的大模型圈子，特别热闹。凌晨是 OpenAI 的 o3 和 o4-mini，一觉醒来，国内这边的豆包大模型又上新了一波。

巧合的是，都是能看懂图像、能调用工具的新一代推理模型。

就在今天上午，2025 火山引擎 Force Link AI 创新巡展首站来到杭州。火山引擎总裁谭待宣布，「豆包 1.5・深度思考模型」加入豆包大模型全家桶。即日起，用户可在火山方舟官网直接调用「豆包 1.5・深度思考模型」API。

豆包 1.5・深度思考模型包含两个版本，第一个主线版本是大语言模型 Doubao-1.5-thinking-pro，第二个是具备多模态能力的视觉版 Doubao-1.5-thinking-pro-vision。前者推理能力更强，后者支持视觉推理，开发者可以按需使用。

经多项主流基准测试评估，Doubao-1.5-thinking-pro 在数学推理、编程竞赛、科学推理等专业领域任务以及创意写作等通用任务中均表现突出：

进一步想，让大模型的深度思考叠加视觉理解能力，必然能解锁更广泛更好玩的应用方式。Doubao-1.5-thinking-pro-vision 具备强大的视觉理解能力，就像人类一样，不光基于文字思考，更能基于所见画面思考，且思考得更立体、更深度。

就如下方视频所示，你可以文字提问、语音提问、拍照提问，不管是多复杂的问题，都能到满意的回答：

与此同时，豆包家族的几位成员也迎来了重磅升级：豆包・视觉理解模型增强了视觉定位能力和视频搜索能力；豆包文生图模型 3.0 版本发布，凭借「更好的文字排版表现、实拍级的图像生成效果、2K 的高清图片生成」三大优势，重新树立了生成式视觉技术的工业级应用标杆。

近一年来，不断增加的调用量和多场景覆盖，让豆包大模型家族持续壮大、越来越全面。去年 12 月，豆包大模型的日均 tokens 调用量达成 4 万亿里程碑。截至 2025 年 3 月底，这个数字已经超过了 12.7 万亿，相比刚发布时实现了超过 106 倍的超高速增长。

本次活动中，火山引擎面向 agent 服务，发布了 OS Agent 解决方案、GUI Agent 大模型 —— 豆包 1.5・UI-TARS 模型；面向大规模推理，发布了 AI 云原生・ServingKit 推理套件。

不断提升模型面向企业复杂场景分析能力，为智能决策与行动提供支持，这也是火山引擎稳居国产 AI 云服务平台第一梯队的根本原因。据 IDC 报告，2024 年中国公有云大模型调用量激增，火山引擎以 46.4% 的市场份额位居中国市场第一。

对于大部分豆包 APP 的用户来说，3 月初上线的「深度思考」是一项非常实用、好用的功能，但关于背后的推理模型的细节，我们却知之甚少。

从今天的现场发布信息来看，Doubao-1.5-thinking-pro 模型采用 MoE 架构，总参数为 200B，激活参数仅 20B，具备显著的训练和推理成本优势。

专业级推理上，在数学、代码、科学等专业领域推理任务中表现出色，均已达到或接近全球第一梯队水平。

数学推理方面，该模型的 AIME 2024 得分为 86.7，追平 OpenAI o3-mini-high。代码能力方面，该模型的 Codeforces pass@8 达到了 55.0%，接近 Gemini 2.5 Pro。科学推理方面，该模型的 GPQA 得分为 77.3%，接近 o3-mini-high。

在创意写作等非推理任务中，Doubao-1.5-thinking-pro 也展示出优秀的泛化能力，能够胜任更广泛和复杂的使用场景。

为了提升模型的通用能力，团队优化了数据处理策略，把可验证数据与创意性数据进行融合处理，满足各类任务的需求。此外，大规模强化学习是训练推理模型的关键技术，团队通过采用创新的双轨奖励机制，兼顾「对错分明」和「见仁见智」的任务，有效实现了算法的可靠优化。

低延迟对于模型深度思考能力的应用来说是一项关键指标。基于高效算法，豆包 1.5・深度思考模型在提供行业极高并发承载能力的同时，实现了 20 毫秒极低延迟。

对于当下的大模型应用来说，深度思考能力已经成为标配。我们都习惯了给 AI 多一点时间「深度思考」再回答问题。但很多生活中的实际问题，解决的过程中也是需要随时查询实时信息的。

值得一提的是，目前的豆包 APP 基于豆包 1.5・深度思考模型进行了定向训练，将联网能力和深度思考进行了深度绑定。这就很像人类的思维方式 ——「边想边搜」。无需人为设定工作流，模型会自动通过强化学习探索中间用什么样的步骤和过程能达到好的结果，帮助用户获得更加全面、准确、契合需求的结果。

我们看一个很常见的用法。在购物推荐这个典型场景中，给到一个条件很苛刻的问题：「一对夫妻带两个孩子去露营，温度低，有雨，希望把装备买齐，要考虑预算限制，还要兼顾便携性和安全性。」

豆包首先是拆解每个具体需求需要的注意事项，比如装备、预算、安全等方面的注意事项，规划出需要的信息，然后经过了 3 轮搜索，终于给出了符合预算范围、非常细致、深思熟虑的答案

话又说回来，总有那么一些问题，你没办法纯粹用语言向大模型描述。

所以，让擅长深度思考的模型具备原生的多模态深度理解能力就变得更为重要，也是让用户交互方式更自然顺畅的关键。

仅文本输入的推理模型做不到处理需要空间、形态或动态变化的任务，而此次推出的视觉版 Doubao-1.5-thinking-pro-vision，可以结合文本、图像等多源信息，解决需要综合感知的任务。同时，视觉信息的输入也能补充文本描述中的模糊性。

比如，面对一张航拍地貌的图片，豆包 1.5・深度思考模型不仅能注意到不同颜色的湖泊，还观察到了湖泊的边缘有白色的盐结晶和旅游设施情况。然后根据地貌、开发情况、地理位置等进行深度思考和判断，并对类似景点进行了逐一排除。最终得出准确答案：是「青海大柴旦翡翠湖」！

一手实测

「视觉理解」+「深度思考」有多好用？

「视觉理解」和「深度思考」复合能力的加持，让豆包 1.5・深度思考模型视觉版提供了非常独特的用户体验。

还有哪些实用的打开方式？这里可以看看机器之心的测试结果：

先来一道几何证明题。采用「瞪眼法」，我们感觉到答案应该是「30 度」，但我们更想知道解题时的「脑回路」是怎样的，毕竟不写证明过程也是不得分的。那就问问豆包 1.5・深度思考模型视觉版：

我们可以看到，模型用了 15 秒，深度思考了满满一屏：

然后它用 5 秒写出了所有解题步骤和最终答案。如果用户看完答案还不明白，就回去翻看思维链过程对比着学即可。

再来一个：在这个没有红绿灯的十字路口发生的交通事故，责任如何认定？左转私家车应该让直行出租车吗？

这张照片拍摄的是一个繁忙的十字路口，包含众多车辆，就算是行人路过想看个热闹，也得反应好几秒。而豆包 1.5・深度思考模型视觉版迅速锁定了事故车辆双方的行驶轨迹和碰撞情况，首先列出清晰的法律依据，然后从「原则上」和「例外」两种情况推理出责任如何判定，考虑的相当全面：

上面这几个例子都是生活中常见或有趣的用法，接下来，我们再给豆包上点新的难度。

往专业了说，在医疗诊断场景中，豆包 1.5・深度思考模型视觉版还可以协助人类分析医学影像（X 光、MRI）并生成诊断报告。

患者自述「反复发烧，吃药不见好」，CT 结果如图，怎么治？

看看「豆包大夫」怎么分析的。因为我们是以「医生」的口吻提问，所以豆包 1.5・深度思考模型视觉版给出了多种可能性：「如果能看到双肺多发斑片状磨玻璃影或实变，伴有支气管充气征，可能提示肺炎，但如果是慢性过程，需要排除结核或真菌感染。如果有钙化灶，可能提示陈旧性病变」。

需要注意的是，普通人最好只参考它的回复进行初步自查，最终如何治疗还是要遵医嘱。

我们测评的最后一个任务涉及专业领域的内容创作，豆包 1.5・深度思考模型视觉版能够以相当专业的眼光去审视作品，辅助设计或改进创作内容。

这里我们给到了一张建筑草图，而模型不仅推理了结构力学合理性，还会给出非常专业细致的优化建议：

整体测下来，感觉很厉害。具备视觉推理能力的豆包 1.5・深度思考模型，就像是一个天生长有「聪明大脑」和「眼睛」的超级 AI，解决问题的能力大大提升。

从今天起，人工智能确实进入了一个新的时代，推理模型不再「单打独斗」，一举突破纯文本或单模态的局限，得以进入到更多复杂、核心、高价值的场景。我们完全可以说，AI 的能力边界正在无限趋近于人类专家。

视觉理解模型、文生图模型再升级

在充分认识「豆包 1.5・深度思考模型」的新成员之后，还有两位豆包大模型家族的成员也迎来了重磅升级。

一位是家族已有成员「豆包・文生图模型」，此次正式升级为 3.0 版本。

近半年来，文生图赛道经历了一场由 GPT-4o 带来的狂飙突进。而豆包・文生图模型 3.0 重新树立了生成式视觉技术的工业级应用标杆。具体来说，它实现了三大突破性升级：更好的文字排版表现、实拍级的图像生成效果、2K 的高清图片生成。

首先是中文小字和长文本的生成。新模型不仅较好地解决了小字和长文本的生成难题，更大幅提升了海报排版的美感。比如下方的艺术展海报，里面有中英文混合的 7 种大小字以及长文本，模型在精准生成的基础上还做到了完美的融合排版：

其次，AI 生成人物图像的真实感和美感终于「到位」了。大家可以看一下，这两张都是豆包文生图 3.0 模型的作品，皮肤质感、表情走向、衣服的纹理等细节的真实度都很赞：

此外，豆包・文生图 3.0 模型实现了不需要经过二次处理的 2K 高清直出：

豆包・文生图 3.0 模型也扛住了领域内基准测试的考验，在最新的文生图领域权威榜单 Artificial Analysis 竞技场中，已超越业界诸多主流模型，跻身全球第一梯队。

另一位重磅升级的成员是「豆包・视觉理解模型」。

自去年 12 月 Force 大会上发布后，豆包・视觉理解模型已大量应用商业化场景中，且模型能力也在不断升级。这一次的版本更新带来了更强视觉定位能力和视频搜索能力。

首先，最新版本的视觉理解模型支持对单目标、多目标、小目标等进行边界框或点提示进行定位，并支持基于定位进行计数或描述所定位内容，此外还支持 3D 定位。视觉定位能力的提升，可以让模型进一步扩展应用场景，例如各行业的巡检场景、图形界面操作智能体、机器人训练、自动驾驶训练等。

此外，最新版本的视觉理解模型在视频能力上也有大幅提升，如对话交互、记忆能力、对话交互、总结理解、方向 / 速度 / 顺序的感知能力、长视频能力等。

我们能够基于视频理解打造非常有趣的商业化应用。比如，人类白天出门办公，但家中有宠物需要看管，我们就可以基于视频理解能力，加上知识库、向量搜索等能力，对家中的监控视频进行搜索。

你可能好奇「小猫今天在家都做了什么」，模型能够毫秒级返回语义相关的视频片段供查看：

技术超越之后

生态协同效应的释放

从一年前官宣诞生至今，豆包大模型家族已经「枝繁叶茂」，发展到了 15 位成员的规模。

大模型在业务场景落地的关键挑战：效果不好、成本太贵、落地太难，而豆包大模型始终以更强模型、更低价格、更易落地，帮助企业解决上述问题。

与此同时，火山引擎打造了覆盖完整链路的相关产品，支持 AI 应用落地。在这次活动上，更是有一系列工具和解决方案发布。

作为专为人工智能开发设计的工具，AI IDE 对大模型技术的落地，特别是在简化模型训练与调试、数据管理增强、加速模型部署等方面具备关键作用。

字节跳动此前发布了国内首个 AI IDE——Trae（The Real AI Engineer）。相比于传统的 AI 插件产品来说，Trae 将 AI 与 IDE 深度融合，提供更智能的开发体验，具备交付化、智能化、协作化三个核心特质，使开发者更聚焦解决复杂业务问题而非工程细节。

Agent 赛道从去年火到了今年，也确实是一个极具前景的大模型落地方向。OS Agent 是目前业界公认的真正能从底层发挥 AI Agent 潜力的通用形态，但企业和个人如何打造专属的通用 Agent，是个挑战重重的问题。

火山引擎不直接「销售」Agent 能力，而是希望将构建 OS Agent 的解决方案开放给客户。

在赋能 AI 应用代码智能和浏览器智能方面，火山引擎解决方案的核心组件是豆包大模型和 veFaaS（函数即服务）、云服务器、云手机等产品。豆包大模型实现代码的生成和 agent 的流程，veFaaS 则实现代码沙箱和浏览器沙箱的托管，让企业和开发者可以轻松构建自己的 Code use 和 Browser use。

到了交互和任务相对复杂的 Computer Use 和 Mobile Use 场景，Agent 需要操作电脑或者手机完成任务。火山引擎的解决方案是通过自研 Doubao 1.5 UI TARS 模型以及 Agent，驱动图形用户界面进行交互（GUI），而无需依赖特定的应用程序编程接口（API），并且能够精准识别用户的任务需求，进行智能感知、自主推理并准确行动。

其中，UI-TARS 是一款助力客户打造通用智能体的大模型。它将屏幕视觉理解、逻辑推理、界面元素定位和操作整合在单一模型中，突破传统自动化工具依赖预设规则的局限性，为智能体的界面交互提供了智能体更类似人类、接近人类的模型基础。

豆包 1.5・UI-TARS 模型在 OS World（https://os-world.github.io/）等 OS 类测试集中取得比较高的分数（目前测下来是 28 分），仅次于 OpenAI CUA 和 Claude sonnet 模型，在国内各类模型中效果最优。目前，豆包・UI-Tars 模型已经上线火山方舟平台，面向全体用户提供稳定、高效的服务。

本次新发布的 AI 云原生・ServingKit 推理套件是经过火山方舟 AI 业务、豆包大模型和互联网、汽车、金融各行业客户验证的推理模型部署的一套解决方案，用于帮助客户更快、更省地完成大模型推理服务。通过 AI 容器编排、AI 网关、推理全链路观测和 AI 加速套件，ServingKit 支持在大规模 GPU 集群上运行推理工作负载，并保障推理服务的高性能、高可用性和资源成本优势。企业可快速构建高性能、低成本的生产可用的推理服务，聚焦业务创新而非底层运维。

如果说技术解决了「能不能做」的问题，而生态决定的是「如何做得好且可持续」，进而释放 AI 技术落地的全局价值。火山引擎打造的一系列工具，无一不在大模型落地层面起到了标准化流程、提升效率和促进协作的作用。

从中，我们不仅看到了国产 AI 技术的超越，更看到了生态协同效应的释放。

来源：晚晚的星河日记一点号

标签：模型视觉文生豆包特供

本文地址：https://news.43u.com.cn/a/1276033.html

免责声明：本站系转载，并不代表本网赞同其观点和对其真实性负责。如涉及作品内容、版权和其它问题，请在30日内与本站联系，我们将在第一时间删除内容!