康奈尔大学研究团队突破性融合自回归与扩散技术
在2025年6月2日发表于arXiv的预印本论文《Esoteric Language Models》中,康奈尔理工学院和康奈尔大学的研究团队,包括Subham Sekhar Sahoo、Zhihan Yang(联合第一作者)等多位研究者提出了一种突破性的语言模
在2025年6月2日发表于arXiv的预印本论文《Esoteric Language Models》中,康奈尔理工学院和康奈尔大学的研究团队,包括Subham Sekhar Sahoo、Zhihan Yang(联合第一作者)等多位研究者提出了一种突破性的语言模
论文《KVzip: Query-Agnostic KV Cache Compression with Context Reconstruction》于2025年5月29日发表在arXiv预印本平台(arXiv:2505.23416v1),由首尔国立大学和NAV
而且支持R1-Distill,团队发布经过微调的DeepSeek-R1-Distill-Qwen-32B模型,同样具备3倍加速效果。
论文 token kv kv缓存 tokenswift 2025-03-12 12:32 12
随着当前大语言模型的广泛应用和推理时扩展的新范式的崛起,如何实现高效的大规模推理成为了一个巨大挑战。特别是在语言模型的推理阶段,传统注意力机制中的键值缓存(KV Cache)会随着批处理大小和序列长度线性增长,俨然成为制约大语言模型规模化应用和推理时扩展的「内
随着当前大语言模型的广泛应用和推理时扩展的新范式的崛起,如何实现高效的大规模推理成为了一个巨大挑战。特别是在语言模型的推理阶段,传统注意力机制中的键值缓存(KV Cache)会随着批处理大小和序列长度线性增长,俨然成为制约大语言模型规模化应用和推理时扩展的「内
kv kv缓存 factorization 2025-01-17 16:45 21
AIxiv专栏是机器之心发布学术、技术内容的栏目。过去数年,机器之心AIxiv专栏接收报道了2000多篇内容,覆盖全球各大高校与企业的顶级实验室,有效促进了学术交流与传播。如果您有优秀的工作想要分享,欢迎投稿或者联系报道。投稿邮箱:liyazhou@jiqiz