DeepSeek论文解读之NSA

360影视 国产动漫 2025-05-16 11:40 2

摘要:要了解一个技术,就要深入学习,接触第一手资料。作为非科班的AI产品经理这算是急需提升的必备技能了,也希望能在分享中督促自己越来越精进技术,在阅读和思考中痛苦,在痛苦中收获😭

要了解一个技术,就要深入学习,接触第一手资料。作为非科班的AI产品经理这算是急需提升的必备技能了,也希望能在分享中督促自己越来越精进技术,在阅读和思考中痛苦,在痛苦中收获😭

几个月前Deepseek发布了论文,KIMI的论文中也可以看出,新的NSA机制已经用在了kimi的相关模型上,在技术的发展方向上可以看出kimi与deepseek始终保持统一的步调共同推进大模型技术的发展。

这篇文章是很早就写了的,但是一直没发出来,这次又补充了一些想法,而且觉得它是对提升模型效果非常有效的技术,所以还是修改一下发出来,作为自己学习的记录。

那么DeepSeek研究的NSA到底是什么,从论文中可以看出它区别于传统稀疏方法仅优化推理阶段,NSA 的稀疏模式可在预训练阶段原生学习,这意味着 DeepSeek 未来可通过更少的数据和算力投入快速迭代模型,尤其在垂直领域(如医疗、金融)的定制化开发中占据优势,也就是在商业化落地方面会有比较大的提升。

稀疏注意力机制研究的作用是什么?

这么长时间的AI发展时期,其实过往是累计了不少的问题的,尤其是在计算资源上的缺少,硬件的限制是真的会影响技术的发展。尤其是在长文本的情况下,传统注意力机制计算成本高,同时还容易出现遗漏重点信息的情况,给大模型一篇几万字的文档,它好像始终只理解前面几页,尤其是在平时通过技术规范书写工作任务书之类的场景,原文件特别大特别长,经常没法整理出全部重点,需要反复沟通。

所以Deepseek想要做到

解决长文本建模下的技术瓶颈,给大模型配上加速器又能最小化计算资源解决现在稀疏注意力在实际工作中的缺陷,给硬件升个级,缩小硬件与软件之间的差距以前的稀疏注意力只关注推理,训练的时候不管用了,现在要双管齐下一起优化,实现端到端的训练,探索NSA给大模型带来的技术提升,到底这个技术有用吗?NSA 整体框架

NSA是用分块的技术拆分内容,比如我要快速数完100个小石子,我不能一个个数,我要把他分成10个10个的,一组组来更快,分组熟练的时候甚至扫一眼就知道有没有10个。

下面这张图就可以看出整体的设计思路,左边这个图第一排就是输入的长文本,然后第二排做分块处理,第三排就是内容的处理策略,比如压缩信息、重点筛选、滑动阅读

NSA也是这样,长文本不一个字一个字看了,改变一下策略再来研究:

1)先把内容整理一下,筛选出比较精华的部分

2)然后使用3种算法策略处理这些信息:

信息压缩策略:把一段段的文字总结成一句话重要信息挑选策略:一段话里我只看最重要的部分局部信息关注策略(滑动式注意力遮罩阅读):我们看书上某句话的时候会自然而然看到上下文,现在大模型也要这样,留出阅读的区域,其他地方遮罩盖住,这样我就可以一直看到我要看的这句话和它的上下文,跟着阅读的进度来,确保看的是最重要的信息。

3)把处理好的信息整合在一起,给每个策略的输出分配一个权重分数,保证主要内容突出,同时次要内容也比较全面

整个过程中,NSA 会保证处理后的信息数量远远少于原始信息数量,这就是所谓的 “高稀疏度”,就好比从一大片森林里只挑选出最珍贵的几棵树。

在训练和预填充阶段,很多模型会用到像 GQA(团队合作分组查询信息) 和 MQA (对计算要求高,与GQA的区别是大家使用同一套办公用品工作,而小组查询是每个小组一套)这样的架构,它们有个特点是共享键值缓存(共享重要资料),但是内存访问的效率不高,就比如去图书馆找书,总是找不到。

所以他们就想到了新的办法,把GQA 组里同一位置的所有员工集中起来放到高速缓存(快捷工具箱)里,然后再按照顺序拿他们共享的资料,不然一次性进太多人图书馆就会混乱,而且如果多个员工都需要访问某几个高频资料,他们就可以直接在工具箱里找,不用再进入庞大的图书馆了。这整个过程由网格调度器来统一管理,这个 “工作安排助手” 会合理安排每个成员的工作顺序,达到硬件优化和内存访问效率优化的目的。

到底效果怎么样?

DeepSeek用了一个分组查询注意力(GQA)和专家混合(MoE)结构的模型进行训练,为了知道 NSA 好不好,选了一些其他的方法来对比。除了和传统的全注意力方法对比,还选了像 H2O、infLLM、Quest、Exact-Top 这些在推理阶段用的稀疏注意力方法。

整体效果表现可以说是非常好,分为以下维度:

通用评估:在 9 个指标里有 7 个超过了注意力模型,特别是推理相关的测试。长文本评估:在 64k 上下文长度的 “大海捞针” 测试里,NSA 能完美地找到目标信息,而且能平衡重点信息和全文信息。思维链推理评估:通过知识蒸馏的方法,用 DeepSeek – R1 的知识对 NSA 和全注意力模型进行微调,结果 NSA 在不同上下文长度下的准确率都比全注意力模型高很多。

如下图:NSA 与 LongBench 上的基线之间的性能比较中NSA 的表现优于大多数基线,包括单文档 QA、多文档 QA、合成和代码任务类别中的子集。

在处理超长上下文信息时,效率提升非常多,而且越大的文本效果越好。

大佬们针对这个研究还探索了什么其他令牌选择策略:从理论上来说很多现有的稀疏注意力方法在训练和推理时都可行,比如ClusterKV,但实际用起来问题却很多。而且在混合专家(MoE)这样的系统里,不同聚类之间不平衡,有人效率快有人效率慢,还需要定期管理才能有序推进。这个方向他们也做了尝试,但是效果却没有NSA好。将注意力可视化:图里呈现出了块级聚类,也就是一篇文章里,相邻的几个词和某个特定词的关联程度差不多,所以也许可以在空间连续性上做深入研究。

总结

NSA 提升了长文本处理能力,能更好的处理长文档推理、代码生成等,也就是在未来toB的场景中,此类机制能够大大提升效果,带来真正可用在专业领域中的模型。另外NSA 技术显著降低了对高端 GPU 的依赖,降低对硬件的依赖也就会逐渐压缩大模型的成本,而且这为国产芯片(如华为昇腾、海光 DCU)提供了替代窗口(实际项目也基本上都是要求国产芯片,但是GPU价格又特别高),让所有企业/用户都能用得起更好的模型。

ps:以前看书的时候没有发现自己其实只能注意到某一块文字,而这种技巧竟然可以运用到模型效果优化,果然大佬还是大佬啊~

来源:人人都是产品经理

相关推荐