DeepSeek技术溯源及前沿探索

摘要：报告围绕DeepSeek技术展开深入探讨，涵盖语言模型、Transformer架构、ChatGPT、DeepSeek自身特性以及新一代智能体的发展。语言模型的核心在于计算词序列构成句子的概率，其发展历程从基于统计的N - gram模型，到神经网络的LSTM /

报告共50页

导读：报告围绕DeepSeek技术展开深入探讨，涵盖语言模型、Transformer架构、ChatGPT、DeepSeek自身特性以及新一代智能体的发展。语言模型的核心在于计算词序列构成句子的概率，其发展历程从基于统计的N - gram模型，到神经网络的LSTM / GRU，再到2017年后Transformer架构的崛起。Transformer凭借自注意力机制、多头注意力等创新，成为大模型的技术基座，推动了预训练时代的到来，BERT、GPT系列等模型相继涌现。DeepSeek在这一背景下脱颖而出，其技术全景图包括DeepSeek - V3基础生成模型、DeepSeek - R1推理模型等。DeepSeek - V3采用混合专家模型，通过极致工程优化提升训练效率，参数量虽大但每次仅激活部分参数。DeepSeek - R1通过强化学习赋予模型推理能力，经历多个阶段的训练，最终实现人类偏好对齐。DeepSeek还通过知识蒸馏技术，将大模型能力迁移到小模型上，拓展了应用场景。