摘要:三大技术创新作为多模态模型的新旗舰,MiniCPM-V 4.5之所以具备高刷视频理解能力、并取得单图、OCR、长视频理解的SOTA,主要得益于在模型结构、训练范式等领域的创新。全新模型结构:3D-Resampler高密度视频压缩当前,制约多模态模型视频理解能力
三大技术创新作为多模态模型的新旗舰,MiniCPM-V 4.5之所以具备高刷视频理解能力、并取得单图、OCR、长视频理解的SOTA,主要得益于在模型结构、训练范式等领域的创新。全新模型结构:3D-Resampler高密度视频压缩当前,制约多模态模型视频理解能力的最核心挑战是性能和效率的Trade-off:一方面,只有更多视频帧,模型才能获取更加精细的信息以提高理解上限;另一方面,模型融入太多视频帧会造成显存、推理速度等开销爆炸。由于局部片段的不同视频之间存在着信息冗余性,即大部分视觉信息不变,仅有少部分信息发生变化,存在着很大的信息压缩空间。因此,MiniCPM-V 4.5将模型结构从2D-Resampler拓展为3D-Resampler,进行三维视频片段的高密度压缩。具体而言,视频会按照每N个视频帧一组进行分组(分组尺寸最大为6),然后3D-Resampler会对每个视频组进行压缩编码,得到 64 个视觉token(与编码单图视觉token数量相同)。最终实现在推理开销不变的情况下,实现更高频率抽帧,实现了模型高刷视频理解能力。得益于Resampler机制的灵活性,在推理阶段还可以灵活调整视频分组尺寸,同时支持单图、多图、视频的统一编码(即单图编码视为3D视频编码的2D特例),方便知识和能力迁移。多页文档图片:统一OCR和知识推理学习文档中蕴含丰富高质量的知识。多模态大模型有两大重要话题:1. 对文字的识别解析,受限于图像样例难度;2. 从文档中学习知识,受限于解析准确性。这割裂了两种学习范式。提升OCR能力,往往需要补充更丰富且有难度的数据。为了提升数据的难度和多样性,常见的做法是数据增广。例如,对图像中文字加高斯噪音。但是增广过大会让文字不可读,反而会导致模型幻觉。在文档知识学习方面,大部分工作将文档解析成图文交替数据进行学习,严重受到文档解析工具错误的影响。通过连续控制图像中「文字信息可见度」,MiniCPM-V 4.5可在OCR和知识学习两种模式之间无缝切换,首次实现了OCR和知识学习这两种学习范式的有效融合,且不会受到过度增广和解析错误的影响。具体如下:· 首先提取出文档中的文字框;· 然后对文字框内区域进行不同程度的噪音增广。文字框通常非常准确,大部分解析错误来源于排版、阅读顺序、低信息量图文噪音错误。重点在于噪音增广:· 当施加噪音较小,文字处于尚可辨别范围内时,模型会进行OCR学习识别文字;· 当施加噪音较大,文字已经无法辨认时,模型会自动进入知识学习,根据文档的多模态上下文还原文字;· 当噪音介于两者之间时,模型会进行混合能力的学习。基于上述技术,MiniCPM-V 4.5低成本实现了领先的OCR和多模态知识能力。通用域混合推理强化学习深度思考推理能力显著拓展了多模态大模型的推理能力边界,但也往往伴随着过高的推理延迟。通过同时支持常规模式和深度思考模式,MiniCPM-V 4.5实现了性能与响应速度的有效平衡:· 在绝大部分的场景下,常规模式提供出色的多模态理解能力;· 而深度思考模式则专注于应对复杂与复合型推理任务。为了让模型在两种模式下都具备优秀的多模态性能,MiniCPM-V 4.5借助RLPR技术,从通用域多模态推理数据上获得高质量的奖励信号。而且面壁还提出了混合推理的强化学习RL训练方案,同时提升模型在常规模式和深度思考模式下的性能表现。通过在RL训练中同时激活常规和深度思考模式,模型在两种模式下的性能都得以持续提升。最终,通过轻量化的RLAIF-V训练阶段,模型既保持了推理能力又显著降低了幻觉。从行业第一个「高刷视频理解」模型,到OCR和知识学习的第一次有效结合,再到可控混合推理等,MiniCPM-V 4.5的意义远不止一次模型的升级,更是开源端侧多模态AI的一场革命。参考连接:https://github.com/OpenBMB/MiniCPM-ohttps://huggingface.co/openbmb/MiniCPM-V-4_5https://www.modelscope.cn/models/OpenBMB/MiniCPM-V-4_5原标题:《刚刚,大模型装上「鹰眼」!首创高刷视频理解,谷歌Gemini 2.5完败》 来源:阿尔科技Daily
免责声明:本站系转载,并不代表本网赞同其观点和对其真实性负责。如涉及作品内容、版权和其它问题,请在30日内与本站联系,我们将在第一时间删除内容!