豆包1.5模型家族硬核登场！深度思考秘笈曝光，多模态冲爆榜单

摘要：刚刚发布的豆包大模型1.5，不仅多模态能力全面提升，霸榜多个基准；更难得的是，它在训练过程中从未使用过任何其他模型生成的数据，坚决不走蒸馏「捷径」。

编辑：编辑部 HYZ

【新智元导读】刚刚发布的豆包大模型1.5，不仅多模态能力全面提升，霸榜多个基准；更难得的是，它在训练过程中从未使用过任何其他模型生成的数据，坚决不走蒸馏「捷径」。

本周开始，AI大模型春晚正式迎来小高潮。

就在刚刚，字节跳动也加入狂欢行列，豆包大模型1.5版正式发布！

豆包大模型1.5的模型基础能力，再次展现出超强进化，在多个公开测评基准中成绩亮眼。

而它的多模态能力，无论语言、视觉理解还是实时语音，也都实现了全面领先。

综合指标

视觉理解指标

深度思考模型指标

本就人气居高不下位于Top 3的豆包，带给用户的体验将更上一层楼。

豆包，少数不蒸馏的模型

最近，中科院北大的一项研究引起了热议。他们发现，许多知名的闭源和开源大语言模型，都表现出了相当高的蒸馏程度！

我们最常见的问题之一——A模型说自己是B模型，就是因为它们「蒸过头」导致的。

少数例外，也就是没有对任何其他模型进行过蒸馏的，就数Claude、Gemini和豆包了。

在「晚点」的专访中，MiniMax的闫俊杰曾表达过这样的观点。

实际上，做一个看上去像o1的模型其实没有那么难，只要蒸馏几千条o1数据就可以了。

这也是为什么在o1发布之后，很多公司都非常快地实现了跟进。

的确，蒸馏是一种路径，但是不是捷径，却不好说。

根据文本模型中存在的「对齐税」，如果一定要把模型去对齐一个别的模型的结果，那必然会有一些能力受限。

相比之下，豆包走的，是一条独属于自己的路。

视觉理解方面，团队这次在多模态数据合成、动态分辨率、多模态对齐、混合训练上进行了全面技术升级，让模型在视觉推理、文字文档识别、细粒度信息理解、指令遵循方面的能力进一步增强了。

而且，模型的回复模式还变得更加精简、友好。

现在，豆包大模型1.5能读懂不同分辨率和不同长宽比的图片，支持百万级分辨率，能更清晰得识别内容。

就比如，手拍题有时因为光线问题，或是像素问题，分辨率不是很高。即便如此，也难不倒豆包大模型1.5。

豆包大模型1.5堪称一款作业神器，那些想要确认解题是否正确的学生们，完全不用等老师、父母纠错了。

AI不仅给出了打分，还详细分析了解题过程，对于错误的题目，还会纠正。

接下来，上传一系列图片，然后让它描述并分类。

豆包大模型1.5蹭蹭蹭地写起了小作文，描述地全面又生动，并在每张图片描述内容后面，给出了正确的分类。

接下来，上传一张锡箔纸包好的红薯，一张微波炉「加热黑名单」，以及食物加热时间表，然后问图一食物放入微波炉加热需要多长时间？

豆包大模型1.5一眼识别出，图一是被锡箔纸包装的食物，再从另外两张图中推断出正确逻辑。

还有那些身材管理者，想要知道食物的热量，直接将图片扔给豆包大模型1.5就可以了。

更惊艳的是，当你给出任意一组图片，还能让豆包大模型1.5为其配上标题和简短的描述。

看得出，它的文学功底非常深厚，生成的标题与图片高度匹配，超有意境。

当然了，你还可以让豆包大模型1.5根据图片，生成朋友圈文案、图像故事、图片点评等等，各种文案风格全由你掌控。

值得一提的是，虽然豆包大模型1.5不是专门的推理模型，但它的推理能力可一点都不弱！

比如下面这道数学题，模型给出的解题过程，不仅十分完整，而且也非常清晰。直接放进例题参考答案里，都毫无违和感那种。

这次豆包的语音多模态模型，真正实现了端到端的语音对话。

语言表现力、控制力、情绪承接上堪称一绝，而且还低时延，对话中可随时打断。

我们可以让豆包用欲哭无泪的语气说话，或者发出颤抖、紧张、开心的声音，听听，这情绪拿捏得可太到位了。

这种语音对话中真正意义的语音理解生成端到端，是如何做到的？

这都要归功于，团队提出的全新Speech2Speech端到端框架。

它通过原生方法将语音和文本模态进行深度融合，从而实现了语音理解生成端到端。

并且，在语音对话效果上，它相比传统的ASR+LLM+TTS的级联方式有了质的飞跃！

因此，它不仅拥有高理解力（高智商），还拥有前所未有的语音高表现力与高控制力，而模型整体在回复内容和语音上，还有了高情绪承接能力。

而在框架设计上，研究者将语音和文本Token进行融合，为语音多模态数据的Scaling提供了必要条件。

在预训练阶段，他们开发了多样化的数据生产和使用方式，同时在训练上探索了多种有效方案，通过Scaling最大化地将语音和文本能力进行深度融合。

在后训练阶段, 通过融合高表现力与智商数据的均衡，数据筛选以及多模态RL阶段的专项能力提升让模型在智商、语音表现力等多方面达到最优。

独立开发深度思考模型，解锁智能边界

探索智能的边界，如同一场永无止境的冒险。

而推理，是智能的核心之一。

为此，团队采用了大规模强化学习（RL）的方式，在不依赖其他模型数据情况下，显著提升了模型的推理能力。

他们通过RL算法突破和工程优化，充分发挥出了测试时Scaling的算力优势，成功完成了RL scaling。

由此，豆包深度思考模式也就诞生了。

目前，Doubao-1.5-Pro-AS1-Preview已经在AIME测试中，成为业界领先的模型。

并且，随着RL的持续，模型能力还在不断提升中。

它的出现，不仅让模型推理能力在不同领域中的泛化，还让我们看到了智能边界被拓宽的可能性。

训推一体，性能与推理完美平衡

豆包大模型1.5不仅交出了漂亮的成绩单，更能轻松应对海量用户的海量推理需求。

这么牛的表现，究竟是怎么做到？

简单来说，豆包大模型1.5从预训练阶段，就坚持了「训练-推理」一体设计，在性能和推理效率之间，实现了最优的平衡。

高效预训练

豆包大模型1.5采用了稀疏MoE架构，虽然总参数不及LLaMA-3.1-405B，性能却能碾压超大稠密的预训练模型。

这其中的秘诀是什么？

首先，团队通过对稀疏度Scaling Law研究，确定了性能和效率比平衡的稀疏的比例。并对模型的结构和训练算法进行了优化。

在9T tokens数据上的验证结果显示，豆包模型有着更优的数据质量和训练效果：

- 仅使用1/7稠密模型参数量的MoE模型，就能超越稠密模型的性能，直接将性能杠杆提升至7倍（通常是3倍）

- 稠密模型和MoE模型的性能表现，普遍优于用15T tokens训练的LLaMA-3.1-405B

训练loss图；性能对比图

在预训练模型基础上，团队还设计了一系列模型参数动态调整算法，可以基于具体应用对模型性能的需求，从模型深度、宽度、MoE专家数、激活专家数、隐藏token推理等不同维度，对模型参数进行扩增和缩小。

其中，较小的预训练模型可以提高团队的迭代开发效率，同时并发支持多个产品线。

由于Prefill/Decode与Attention/FFN之间，都具有独特的计算和访存的特性，需要针对性的优化策略。

为此，团队通过异构硬件和不同低精度优化策略的结合，实现了在确保低延迟的同时大幅提升吞吐量，在降低总成本的同时兼顾TTFT和TPOT的最优化目标。

具体来说，在Prefill阶段，团队在多种计算访存比高的设备上采用了chunk-PP Prefill Serving，使得线上系统Tensor Core利用率接近60%。

到了Decode阶段，计算不是问题，但对通信和访存能力要求较高，因此需要采用计算访存比较低的设备Serving来换取更高的ROI。

在算子层面，团队还实现了计算与通信的高效重叠（overlap），从而保证了多机分布式推理的稳定性和高效性。

后训练阶段，团队精心构建了一套高度自主的数据生产体系。并且，在过程中完全没有使用任何第三方数据。

SFT阶段，团队又开发了一套算法驱动的训练数据优化系统，涵盖训练数据多样性优化以及精确人题匹配功能，并引入了模型自演进（Self-evolve）技术。

这些创新，帮助团队提升了数据标注的多样性和难度，形成了模型性能提升的良性循环。

在Reward Model部分，他们构建了包含prompt分布优化、response筛选、多轮迭代和active learning的完整数据生产pipeline。

到了强化学习的阶段，模型的优化同样令人瞩目，其中在多角色训练推理一体框架、价值函数、自适应数据分布调节机制等方面，取得了创新。

此外，借鉴字节在推荐、搜索和广告领域的ABTest丰富经验，团队研发了基于用户反馈的高效PostTraining全流程。

基于豆包大规模用户反馈，他们又构建了从问题发现、数据挖掘、人机结合标注到快速迭代的闭环优化系统。

由此，用户数据飞轮可以让团队持续获取真实反馈，不断提升模型的实际使用体验。

来源：新智元

标签：模型模态豆包

本文地址：https://news.43u.com.cn/a/506968.html

免责声明：本站系转载，并不代表本网赞同其观点和对其真实性负责。如涉及作品内容、版权和其它问题，请在30日内与本站联系，我们将在第一时间删除内容!

相关推荐