英伟达提出Star Attention,加速LLM推理!登顶Hugging Face论文榜
大模型如今已具有越来越长的上下文,而与之相伴的是推理成本的上升。英伟达最新提出的Star Attention,能够在不损失精度的同时,显著减少推理计算量,从而助力边缘计算。
英伟达 llm starattention 2024-12-05 12:03 3
大模型如今已具有越来越长的上下文,而与之相伴的是推理成本的上升。英伟达最新提出的Star Attention,能够在不损失精度的同时,显著减少推理计算量,从而助力边缘计算。
英伟达 llm starattention 2024-12-05 12:03 3