摘要:本文详细介绍了DeepSeek及其应用场景,涵盖了大模型的发展历程、基本原理和分类(通用与推理模型)。文章分析了DeepSeek的具体特性、性能优势、低成本训练与调用特点,以及其技术路线(如MoE、MLA架构),并与竞品进行了对比。此外,还探讨了DeepSee
本文详细介绍了DeepSeek及其应用场景,涵盖了大模型的发展历程、基本原理和分类(通用与推理模型)。文章分析了DeepSeek的具体特性、性能优势、低成本训练与调用特点,以及其技术路线(如MoE、MLA架构),并与竞品进行了对比。此外,还探讨了DeepSeek在金融风控等领域的应用前景。
一、大模型发展回顾
1.1. 大模型发展历程
从OpenAI看大模型发展趋势2024年5月,OpenAI发布了GPT-4o,模型能够处理和生成文本、图像和音频。GPT-4o 在语音、多语言和视觉基准测试中取得了最先进的成果,创造了语音识别和翻译的新纪录。
2024年7月,OpenAI发布了GPT-4o mini,取代 ChatGPT 界面上的 GPT-3.5 Turbo,API 成本显著降低,适用于企业、初创公司和开发者。
2024年9月,OpenAI 发布了 o1-preview(更适合推理任务)和 o1-mini(更适合编程任务)模型,这些模型设计为在生成回答时花费更多时间思考,从而提高准确性。
2024年12月,OpenAI 发布了 o1,比 o1-preview 更智能、更快,功能更多(比如多模态功能)
2025年2月,OpenAI 发布了o3-mini,o3-mini在大多数情况下o3-mini比o1-mini产生更准确、更清晰的答案,同时响应更快,其平均响应时间为7.7秒,较o1-mini的10.16秒提升了24%。
2025年2月9日,OpenAI发布全新的智能体-deep research,可以进行网络浏览和数据分析,可以利用推理来搜索、解释和分析互联网上的大量文本、图像和PDF文件,并根据搜集的信息进行灵活调整。
2025年2月9日,OpenAI表示内部已达到了GPT-4.5,表示接下来的重点是高能力的推理模型、多模态以及智能体。
2025年2月28日,OpenAI发布GPT-4.5,最大、知识最丰富、情商最高的大模型。
*GPT-4o的o表示omni,意为“全知全能的”;o1/o3的o表示OpenAI.
从OpenAI的发展过程看大模型的发展趋势:
GPT-x系列: 更强的通用能力;GPT-4o等:多模态输入输出能力;o系列: 推理模型,复杂推理能力, CoT;-mini: 更低成本、更快响应速度;deep research等: 大模型agent;1.2. 大模型基本原理
大模型是如何构建的?
引用论文 Large Language Models: A Survey [1]
Step 1: 准备数据和数据清洗。数据集源于网页、书籍、博客、知乎、百科等。Step 2: 分词,转化为模型可用于输入的tokenStep 3: 位置编码Step 4: 进行模型预训练,即输入文本,让模型做next token prediction等任务。Step 5: 通过SFT等手段微调和指令微调, 教会大模型如何对话和完成特定任务Step 6: 通过RLHF等手段进一步对齐人类偏好,引入人类反馈,指导模型优化方向,生成更加符合人类需求,缓解有害性和幻觉的问题Step 7: 通过贪心搜索等生成策略,逐步生成下一个词Step 8: 优化与加速训练推理过程
核心的三个步骤: 预训练,有监督微调和人类反馈强化学习。
1.3. 推理模型与通用模型
大模型发展至今,可以分为: 通用大模型与推理大模型。
通用大模型: 适用于大多数任务,侧重于语言生成、上下文理解和自然语言处理,而不强调深度推理能力。此类模型通常通过对大量文本数据的训练,掌握语言规律并能够生成合适的内容,但缺乏像推理模型那样复杂的推理和决策能力。推理大模型: 在传统模型基础上,强化推理、逻辑分析和决策能力。
思维链(Chain of Thought, CoT)通过要求/提示模型在输出最终答案之前,显式输出中间逐步的推理步骤这一方法来增强大模型的算数、常识和推理的性能。从该角度,可以将大模型的范式分为两类: 概率预测(快速反应模型)和链式反应(慢速思考模型),前者适合快速反馈,处理即时任务,后者通过推理解决复杂问题。
一个例子,问: 1+2+3+4+5+6+7+8+9+10=多少,直接告诉我答案
快速反应模型回答:未完待续……
来源:dbaplus社群一点号