比国外竞品计算性能快5倍,清华团队提出微缩版FP4注意力机制
近日,清华大学团队打造了首个用于推理加速的微缩版 FP4 注意力机制——SageAttention3,在英伟达 RTX5090 上实现了 1038TOPS 的计算性能。相比此前在英伟达 RTX5090 上计算性能最快的、由美国斯坦福大学提出的 FlashAtt
近日,清华大学团队打造了首个用于推理加速的微缩版 FP4 注意力机制——SageAttention3,在英伟达 RTX5090 上实现了 1038TOPS 的计算性能。相比此前在英伟达 RTX5090 上计算性能最快的、由美国斯坦福大学提出的 FlashAtt
近日,清华大学团队打造了首个用于推理加速的微缩版 FP4 注意力机制——SageAttention3,在英伟达 RTX5090 上实现了 1038TOPS 的计算性能。相比此前在英伟达 RTX5090 上计算性能最快的、由美国斯坦福大学提出的 FlashAtt