3700 次预训练找线性注意力非共识,MiniMax-01 开发者讲述 4 年探索
MiniMax 在今年 1 月发布了参数为 4560 亿的开源大模型 MiniMax-01,该模型就用到了他们开发的线性注意力机制 “Lightning Attention”。
训练 模态 transformer attention 闫俊 2025-03-09 20:23 3
MiniMax 在今年 1 月发布了参数为 4560 亿的开源大模型 MiniMax-01,该模型就用到了他们开发的线性注意力机制 “Lightning Attention”。
训练 模态 transformer attention 闫俊 2025-03-09 20:23 3