比国外竞品计算性能快5倍,清华团队提出微缩版FP4注意力机制
近日,清华大学团队打造了首个用于推理加速的微缩版 FP4 注意力机制——SageAttention3,在英伟达 RTX5090 上实现了 1038TOPS 的计算性能。相比此前在英伟达 RTX5090 上计算性能最快的、由美国斯坦福大学提出的 FlashAtt
近日,清华大学团队打造了首个用于推理加速的微缩版 FP4 注意力机制——SageAttention3,在英伟达 RTX5090 上实现了 1038TOPS 的计算性能。相比此前在英伟达 RTX5090 上计算性能最快的、由美国斯坦福大学提出的 FlashAtt
近日,清华大学团队打造了首个用于推理加速的微缩版 FP4 注意力机制——SageAttention3,在英伟达 RTX5090 上实现了 1038TOPS 的计算性能。相比此前在英伟达 RTX5090 上计算性能最快的、由美国斯坦福大学提出的 FlashAtt
不要再怀疑低精度混训。老美建设的英伟达GB200和300以及AMD MI355X ,都引入了FP6和FP4浮点数据类型,能够在保持计算精度的同时,进一步提升AI训练和推理性能
研究开展时,尚未有原生支持FP4的硬件,故作者通过在FP8的TensorCore上模拟实现)