打破瓶颈,彩云科技&北邮提出MUDDFormer架构让Transformer再进化
残差连接(residual connections)自何恺明在 2015 年开山之作 ResNet [1] 中提出后,就成为深度学习乃至 Transformer LLMs 的一大基石。但在当今的深度 Transformer LLMs 中仍有其局限性,限制了信息
北邮 transformer 彩云 muddformer 架 2025-06-27 18:08 4
残差连接(residual connections)自何恺明在 2015 年开山之作 ResNet [1] 中提出后,就成为深度学习乃至 Transformer LLMs 的一大基石。但在当今的深度 Transformer LLMs 中仍有其局限性,限制了信息
北邮 transformer 彩云 muddformer 架 2025-06-27 18:08 4