无问芯穹发布首个端侧全模态理解的开源模型Megrez-3B-Omni

摘要：12月16日，无问芯穹宣布正式开源其“端模型+端软件+端IP”端上智能一体化解决方案中的小模型——全球首个端侧全模态理解开源模型Megrez-3B-Omni，并同步开源了纯语言版本模型Megrez-3B-Instruct。

12月16日，无问芯穹宣布正式开源其“端模型+端软件+端IP”端上智能一体化解决方案中的小模型——全球首个端侧全模态理解开源模型Megrez-3B-Omni，并同步开源了纯语言版本模型Megrez-3B-Instruct。

据介绍，Megrez-3B-Omni是一个为端而生的全模态理解模型，选择了最适合手机、平板等端侧设备的30亿参数黄金尺寸，结构规整，推理速度最大领先同精度模型300%。作为一个全模态模型，Megrez-3B-Omni同时具备图片、音频、文本三种模态数据的处理能力，并在三个模态的多种测评基准中取得了最优性能。

据了解，Megrez-3B-Omni 拒绝牺牲任何模态的精度，在图片、文本、音频三个模态中均取得了同尺寸下最优性能。无论是和同样三模态的VITA ( based on Mixtral 8×7B) 、Baichuan-Omni-7B ，还是双模态的MiniCPM-V 2.6 ( based on Qwen2-7B)、Qwen2-VL-7B、Qwen2-Audio-7B，又或是单一模态的Qwen、Baichuan 等模型相比，Megrez-3B-Omni 在主流基准测试集上的表现都毫不逊色。

在图像理解方面，Megrez-3B-Omni 作为一个体积仅为3B的模型，其综合性能表现可以全面超过34B的庞然大物，超越LLaVA-NeXT-Yi-34B 等模型，是目前OpenCompass、MME、MMMU、OCRBench等多个主流测试集上精度最高的图像理解模型之一。

与此同时，Megrez-3B-Omni 在场景理解、OCR 等任务上也具有良好表现，能够准确洞察和分析图像中的场景内容，并高效地从中提取文本信息，且无论是模糊的印刷体还是复杂的手写字，都能够轻松识别。

在文本理解方面，作为全模态理解模型，Megrez-3B-Omni 没有牺牲模型的文本处理能力，将上一代14B大模型的优秀能力压缩至3B规模，显著降低了计算成本、提升了计算效率。在C-EVAL、MMLU/MMLU Pro、AlignBench等多个权威测试集上更是取得端上模型最优精度。

在语音理解方面，Megrez-3B-Omni 的效果比肩行业主流方案。Megrez-3B-Omni不仅支持中文和英文的语音输入，还能够处理复杂的多轮对话场景，更能支持对输入图片或文字的语音提问，实现不同模态间的自由切换。用户就任意模态内容，发出语音指令，Megrez-3B-Omni 就能根据语音指令直接响应文本，让用户可以通过更少动作与模型展开更直观、自然的交互。

据介绍，模型的规模并不是决定其速度的唯一因素，因此模型小并不一定就意味着速度快。凭借对硬件特性的深入理解与利用，Megrez-3B-Omni 通过软硬件协同优化策略，确保了各参数与主流硬件高度适配，以实现硬件性能的利用最大化。与上一代及其他端侧大语言模型相比，单模态版本的Megrez-3B-Instruct 在推理速度上取得了显著提升，最大推理速度可以领先同精度模型300%。

Megrez-3B-Instruct 这次还特别提供了WebSearch 功能，这一功能使得模型能够智能地判断何时需要调用外部工具进行网页搜索，辅助回答用户的问题。用户得以构建属于自己AI搜索，通过网络获取最新信息，克服小模型的幻觉问题和知识储备不足的局限。