fp4注意力

比国外竞品计算性能快5倍，清华团队提出微缩版FP4注意力机制

比国外竞品计算性能快5倍，清华团队提出微缩版FP4注意力机制

近日，清华大学团队打造了首个用于推理加速的微缩版 FP4 注意力机制——SageAttention3，在英伟达 RTX5090 上实现了 1038TOPS 的计算性能。相比此前在英伟达 RTX5090 上计算性能最快的、由美国斯坦福大学提出的 FlashAtt

清华竞品矩阵乘法 fp4 fp4注意力 2025-05-30 21:42 8

清华团队提出微缩版FP4注意力机制，以即插即用方式加速推理

清华团队提出微缩版FP4注意力机制，以即插即用方式加速推理

近日，清华大学团队打造了首个用于推理加速的微缩版 FP4 注意力机制——SageAttention3，在英伟达 RTX5090 上实现了 1038TOPS 的计算性能。相比此前在英伟达 RTX5090 上计算性能最快的、由美国斯坦福大学提出的 FlashAtt

推理清华矩阵乘法 fp4 fp4注意力 2025-05-29 18:34 10