豆包1.5模型家族硬核登场!深度思考秘笈曝光,多模态冲爆榜单

360影视 2025-01-22 21:24 3

摘要:刚刚发布的豆包大模型1.5,不仅多模态能力全面提升,霸榜多个基准;更难得的是,它在训练过程中从未使用过任何其他模型生成的数据,坚决不走蒸馏「捷径」。

编辑:编辑部 HYZ

【新智元导读】刚刚发布的豆包大模型1.5,不仅多模态能力全面提升,霸榜多个基准;更难得的是,它在训练过程中从未使用过任何其他模型生成的数据,坚决不走蒸馏「捷径」。

本周开始,AI大模型春晚正式迎来小高潮。

就在刚刚,字节跳动也加入狂欢行列,豆包大模型1.5版正式发布!

豆包大模型1.5的模型基础能力,再次展现出超强进化,在多个公开测评基准中成绩亮眼。

而它的多模态能力,无论语言、视觉理解还是实时语音,也都实现了全面领先。

综合指标

视觉理解指标

深度思考模型指标

本就人气居高不下位于Top 3的豆包,带给用户的体验将更上一层楼。

豆包,少数不蒸馏的模型

最近,中科院北大的一项研究引起了热议。他们发现,许多知名的闭源和开源大语言模型,都表现出了相当高的蒸馏程度!

我们最常见的问题之一——A模型说自己是B模型,就是因为它们「蒸过头」导致的。

少数例外,也就是没有对任何其他模型进行过蒸馏的,就数Claude、Gemini和豆包了。

在「晚点」的专访中,MiniMax的闫俊杰曾表达过这样的观点。

实际上,做一个看上去像o1的模型其实没有那么难,只要蒸馏几千条o1数据就可以了。

这也是为什么在o1发布之后,很多公司都非常快地实现了跟进。

的确,蒸馏是一种路径,但是不是捷径,却不好说。

根据文本模型中存在的「对齐税」,如果一定要把模型去对齐一个别的模型的结果,那必然会有一些能力受限。

相比之下,豆包走的,是一条独属于自己的路。

视觉理解方面,团队这次在多模态数据合成、动态分辨率、多模态对齐、混合训练上进行了全面技术升级,让模型在视觉推理、文字文档识别、细粒度信息理解、指令遵循方面的能力进一步增强了。

而且,模型的回复模式还变得更加精简、友好。

现在,豆包大模型1.5能读懂不同分辨率和不同长宽比的图片,支持百万级分辨率,能更清晰得识别内容。

就比如,手拍题有时因为光线问题,或是像素问题,分辨率不是很高。即便如此,也难不倒豆包大模型1.5。

豆包大模型1.5堪称一款作业神器,那些想要确认解题是否正确的学生们,完全不用等老师、父母纠错了。

AI不仅给出了打分,还详细分析了解题过程,对于错误的题目,还会纠正。

接下来,上传一系列图片,然后让它描述并分类。

豆包大模型1.5蹭蹭蹭地写起了小作文,描述地全面又生动,并在每张图片描述内容后面,给出了正确的分类。

接下来,上传一张锡箔纸包好的红薯,一张微波炉「加热黑名单」,以及食物加热时间表,然后问图一食物放入微波炉加热需要多长时间?

豆包大模型1.5一眼识别出,图一是被锡箔纸包装的食物,再从另外两张图中推断出正确逻辑。

还有那些身材管理者,想要知道食物的热量,直接将图片扔给豆包大模型1.5就可以了。

更惊艳的是,当你给出任意一组图片,还能让豆包大模型1.5为其配上标题和简短的描述。

看得出,它的文学功底非常深厚,生成的标题与图片高度匹配,超有意境。

当然了,你还可以让豆包大模型1.5根据图片,生成朋友圈文案、图像故事、图片点评等等,各种文案风格全由你掌控。

值得一提的是,虽然豆包大模型1.5不是专门的推理模型,但它的推理能力可一点都不弱!

比如下面这道数学题,模型给出的解题过程,不仅十分完整,而且也非常清晰。直接放进例题参考答案里,都毫无违和感那种。

这次豆包的语音多模态模型,真正实现了端到端的语音对话。

语言表现力、控制力、情绪承接上堪称一绝,而且还低时延,对话中可随时打断。

我们可以让豆包用欲哭无泪的语气说话,或者发出颤抖、紧张、开心的声音,听听,这情绪拿捏得可太到位了。

这种语音对话中真正意义的语音理解生成端到端,是如何做到的?

这都要归功于,团队提出的全新Speech2Speech端到端框架。

它通过原生方法将语音和文本模态进行深度融合,从而实现了语音理解生成端到端。

并且,在语音对话效果上,它相比传统的ASR+LLM+TTS的级联方式有了质的飞跃!

因此,它不仅拥有高理解力(高智商),还拥有前所未有的语音高表现力与高控制力,而模型整体在回复内容和语音上,还有了高情绪承接能力。

而在框架设计上,研究者将语音和文本Token进行融合,为语音多模态数据的Scaling提供了必要条件。

在预训练阶段,他们开发了多样化的数据生产和使用方式,同时在训练上探索了多种有效方案,通过Scaling最大化地将语音和文本能力进行深度融合。

在后训练阶段, 通过融合高表现力与智商数据的均衡, 数据筛选以及多模态RL阶段的专项能力提升让模型在智商、语音表现力等多方面达到最优。

独立开发深度思考模型,解锁智能边界

探索智能的边界,如同一场永无止境的冒险。

而推理,是智能的核心之一。

为此,团队采用了大规模强化学习(RL)的方式,在不依赖其他模型数据情况下,显著提升了模型的推理能力。

他们通过RL算法突破和工程优化,充分发挥出了测试时Scaling的算力优势,成功完成了RL scaling。

由此,豆包深度思考模式也就诞生了。

目前,Doubao-1.5-Pro-AS1-Preview已经在AIME测试中,成为业界领先的模型。

并且,随着RL的持续,模型能力还在不断提升中。

它的出现,不仅让模型推理能力在不同领域中的泛化,还让我们看到了智能边界被拓宽的可能性。

训推一体,性能与推理完美平衡

豆包大模型1.5不仅交出了漂亮的成绩单,更能轻松应对海量用户的海量推理需求。

这么牛的表现,究竟是怎么做到?

简单来说,豆包大模型1.5从预训练阶段,就坚持了「训练-推理」一体设计,在性能和推理效率之间,实现了最优的平衡。

高效预训练

豆包大模型1.5采用了稀疏MoE架构,虽然总参数不及LLaMA-3.1-405B,性能却能碾压超大稠密的预训练模型。

这其中的秘诀是什么?

首先,团队通过对稀疏度Scaling Law研究,确定了性能和效率比平衡的稀疏的比例。并对模型的结构和训练算法进行了优化。

在9T tokens数据上的验证结果显示,豆包模型有着更优的数据质量和训练效果:

- 仅使用1/7稠密模型参数量的MoE模型,就能超越稠密模型的性能,直接将性能杠杆提升至7倍(通常是3倍)

- 稠密模型和MoE模型的性能表现,普遍优于用15T tokens训练的LLaMA-3.1-405B

训练loss图;性能对比图

在预训练模型基础上,团队还设计了一系列模型参数动态调整算法,可以基于具体应用对模型性能的需求,从模型深度、宽度、MoE专家数、激活专家数、隐藏token推理等不同维度,对模型参数进行扩增和缩小。

其中,较小的预训练模型可以提高团队的迭代开发效率,同时并发支持多个产品线。

由于Prefill/Decode与Attention/FFN之间,都具有独特的计算和访存的特性,需要针对性的优化策略。

为此,团队通过异构硬件和不同低精度优化策略的结合,实现了在确保低延迟的同时大幅提升吞吐量,在降低总成本的同时兼顾TTFT和TPOT的最优化目标。

具体来说,在Prefill阶段,团队在多种计算访存比高的设备上采用了chunk-PP Prefill Serving,使得线上系统Tensor Core利用率接近60%。

到了Decode阶段,计算不是问题,但对通信和访存能力要求较高,因此需要采用计算访存比较低的设备Serving来换取更高的ROI。

在算子层面,团队还实现了计算与通信的高效重叠(overlap),从而保证了多机分布式推理的稳定性和高效性。

后训练阶段,团队精心构建了一套高度自主的数据生产体系。并且,在过程中完全没有使用任何第三方数据。

SFT阶段,团队又开发了一套算法驱动的训练数据优化系统,涵盖训练数据多样性优化以及精确人题匹配功能,并引入了模型自演进(Self-evolve)技术。

这些创新,帮助团队提升了数据标注的多样性和难度,形成了模型性能提升的良性循环。

在Reward Model部分,他们构建了包含prompt分布优化、response筛选、多轮迭代和active learning的完整数据生产pipeline。

到了强化学习的阶段,模型的优化同样令人瞩目,其中在多角色训练推理一体框架、价值函数、自适应数据分布调节机制等方面,取得了创新。

此外,借鉴字节在推荐、搜索和广告领域的ABTest丰富经验,团队研发了基于用户反馈的高效PostTraining全流程。

基于豆包大规模用户反馈,他们又构建了从问题发现、数据挖掘、人机结合标注到快速迭代的闭环优化系统。

由此,用户数据飞轮可以让团队持续获取真实反馈,不断提升模型的实际使用体验。

来源:新智元

相关推荐