MiniMax开源报告精读：规模化验证替代传统Transformer的新架构

摘要：大模型的“六边形战士”总结来说，MiniMax-01系列的两个模型——MiniMax-Text-01和MiniMax-VL-01，在处理长上下文方面展现了顶级性能，同时提供了处理更长上下文的优越能力。背后的核心创新在于闪电注意力及其高效的扩展能力。为了最大化计

原创赵健甲子光年

4.大模型的“六边形战士”总结来说，MiniMax-01系列的两个模型——MiniMax-Text-01和MiniMax-VL-01，在处理长上下文方面展现了顶级性能，同时提供了处理更长上下文的优越能力。背后的核心创新在于闪电注意力及其高效的扩展能力。为了最大化计算能力，MiniMax将其与专家混合（MoE）集成，创建了一个拥有32个专家和4560亿总参数的模型，其中每个token激活459亿参数。MiniMax为MoE和闪电注意力开发了优化的并行策略和高效的计算-通信重叠技术。这种方法使其能够在跨越数百万token的上下文中，对拥有数千亿参数的模型进行高效的训练和推理。MiniMax-Text-01的训练上下文窗口可以达到100万个token，并且在推理期间以可承受的成本外推到400万个token。视觉-语言模型MiniMax-VL-01通过继续训练512亿视觉-语言token构建而成。MiniMax表示，其模型与GPT-4o和Claude-3.5-Sonnet等最先进模型的性能相匹配，同时提供了20-32倍更长的上下文窗口。当然，MiniMax也提出了现有模型的局限性。一是长上下文评估：当前长上下文检索任务的评估数据集主要为人工或简化场景设计，实际应用中如文档分析的长文本推理能力的评估仍然有限。MiniMax计划在更现实的设置中增强长上下文检索，并在更广泛的任务中扩展长上下文推理的评估。二是模型架构：模型目前仍保留了1/8的组件使用传统的softmax注意力。MiniMax表示正在研究更高效的架构，可以完全消除softmax注意力，可能实现无计算开销的无限上下文窗口。三是复杂编程任务：模型在高级编程任务上的性能需要改进，因为我们预训练阶段的编码数据集仍然有限。MiniMax正在不断改进训练数据选择和继续训练程序，以解决下一版本模型中的这些局限性。可以说，MiniMax通过全面的基础大模型布局——包括语言模型与视频模型，以及海内外AI产品的布局——海螺AI、星野+Talkie，已经成为大模型领域的“六边形战士”。不过，在OpenAI发布推理模型o1与o3之后，大模型的技术范式从预训练扩展到了推理阶段。国内不少大模型已经跟进，包括Kimi、DeepSeek、Qwen，以及科大讯飞今天刚刚发布的讯飞星火。MiniMax目前尚未发布相关模型。此外，李开复近期公开表态放弃追求AGI。对于同为“六小虎”的MiniMax，不知又会做出什么选择呢？（封面图来自MiniMax）END.原标题：《MiniMax开源报告精读：规模化验证替代传统Transformer的新架构｜甲子光年》

来源：小倩说科技

标签：开源 transformer minimax

本文地址：https://news.43u.com.cn/a/461554.html

免责声明：本站系转载，并不代表本网赞同其观点和对其真实性负责。如涉及作品内容、版权和其它问题，请在30日内与本站联系，我们将在第一时间删除内容!