小学生都能看懂!12个常用的AI大模型术语科普

360影视 国产动漫 2025-09-09 12:22 1

摘要:想快速掌握大模型关键技术?本文从 AI 产品经理视角,深入浅出剖析 Agent、MCP 等术语,涵盖定义、原理、应用场景及相关概念关系,为你构建清晰知识体系,助你在大模型浪潮中把握技术核心,提升产品竞争力。

原文地址:https://www.uisdc.com/ai-model-tech

原文作者:A ad钙

想快速掌握大模型关键技术?本文从 AI 产品经理视角,深入浅出剖析 Agent、MCP 等术语,涵盖定义、原理、应用场景及相关概念关系,为你构建清晰知识体系,助你在大模型浪潮中把握技术核心,提升产品竞争力。

在大模型快速演进的今天,我们每天都能听到各种新词横飞—Agent、SFT、MCP、RAG、LoRA……仿佛不懂这些术语,就跟不上AI时代的脚步。然而,这些词语背后不仅仅是技术,更代表了AI应用的逻辑结构、训练范式和演进方向。

作者从一名 AI 产品经理视角来带你们了解并知道这些内容是做什么的。

定义:国内也叫做(智能体)是一个可以自主感知、思考、决策并行动的软件“角色”或系统,它能根据外界输入自主完成任务。

先说结论:Agent 是一个具备目标导向、自主决策与实际执行能力的 AI 智能体,正是 AI 从“懂你说什么”到“能替你完成”的关键一跃。

通俗解释:你可以把 Agent 想象成你手机里的“聪明小助理”——比如 Siri、ChatGPT、或自动回复机器人,但更智能、更有主见。

下面用一个通俗易懂、生活化的方式,详细解释 Agent 是什么、它怎么工作的、背后是怎么分析用户需求的。

环境/用户 →「观察」→ 状态/记忆 →「推理/规划」→「行动/调用工具」→「获得反馈」→ 循环

一句话:Agent 是一个能“感知—思考—行动—再感知”的闭环系统。它在环境中接收信息(观察),根据目标与记忆做决策(推理/规划),调用工具执行动作(API/代码/机器人手臂等),再根据结果调整后续行为,直到完成任务或达到终止条件。

举个例子:

假设你跟它说:“我想订一张下周去北京的火车票。”

普通程序只能告诉你一些车次信息。

Agent 会自动:

明白你要“订票”这个意图;知道你的位置是“上海”,目的地是“北京”;查询你喜欢的出发时间和座位类型(软卧/高铁/二等座);登录订票系统;自动帮你选好车次、填好乘客信息;提醒你付款,甚至自动完成。

这就好像它“帮你办事”,不需要你一步步教它。

Agent 不只是一个程序,而是由多个“脑子 + 手脚”组成的智能体:

背后靠的是大语言模型 + 多模态感知 + 推理引擎等 AI 技术,流程如下。

总结一句话:

它不只是聊天,而是“有大脑、能干活”的 AI 小工人,可以应用于自动客服、个人助理、数据分析、企业流程等各种场景。

与相关概念的关系:

与 Chatbot 的区别:Chatbot 多为“问答/对话”,Agent 以完成目标为中心,能主动拆解任务、调用工具与记忆、与环境交互并闭环。与 RAG 的关系:RAG 是一种取数/补充上下文的技能。在 Agent 中,RAG 常被当作一个工具:当缺知识或需查事实时调用检索再决策。与 MCP/工具协议:像 MCP 这类“模型与工具/资源之间的协议与标准”,本质是让 Agent 以统一方式发现并调用外部能力(文件、数据库、工作流、API),降低集成成本、提升可移植性。与 SFT(监督微调):SFT 可把“遵循指令、使用工具、写结构化调用”的能力固化进模型,使 Agent 更稳更听话;也可对特定域(客服、法务、运维)做专精。自主性(Autonomy):智能体能够在没有人类直接、实时干预的情况下独立运行和做决策。它的行为是基于自身的经验和感知,而不仅仅是执行预设的指令。反应性(Reactivity):能够感知环境的变化并及时做出响应。例如,一个机器人在前进时,如果传感器检测到障碍物,它会立即停下或绕行。主动性(Proactiveness):不仅仅是被动地对环境做出反应,还能主动地、有目标地发起行动,以达成既定目标。例如,一个投资交易智能体可能会主动分析市场趋势,并在它认为合适的时机执行买卖操作,而不是等待指令。学习能力(Learning/Adaptability):这是智能体“智能”的核心体现。它能够从过去的经验中学习,不断调整和优化自己的行为策略,以在未来获得更好的性能。例如,一个下棋 AI(如 AlphaGo)通过数百万次的自我对弈来学习,不断提升棋艺。目标导向(Goal-driven):智能体的所有行为都是为了实现一个或多个预设的目标。例如,恒温器的目标是保持室内温度在一个特定范围。社交性(SocialAbility):在多智能体系统(Multi-AgentSystem)中,智能体能够通过某种通信语言与其他智能体进行交互、协作、协调或谈判,共同完成更复杂的任务

MCP 就像你是一个外卖平台的调度员,你要让 AI(小哥)完成一项任务,比如送餐,你会怎么安排?

你不会只说一句“去送餐”,你得一步步告诉他:

先查订单:哪位顾客、什么地址、点了什么?去商家取餐:到哪个店、什么时间去拿?规划路线:怎么送最快?联系客户:临时找不到门牌号怎么办?送达并确认:顾客收货后拍照留底

这就是 MCP:把大任务分成多个小步骤,AI 按步骤完成,更准也更聪明。

本质上是:

一个系统或服务暴露出来的 接口或通信协议,用于让其他程序调用其功能或数据。

你作为用户,只要点一点按钮:“我要点外卖” → 这个请求就发给外卖平台。

平台收到后,会自动调用后台:

派单给骑手通知商家做菜更新配送进度

你发的这个请求,就是 API:你调用了别人的服务,让对方帮你干活。

总结对比:像你管理外卖平台 vs 你自己点外卖

一句话总结:MCP 是 AI 干活时的“分步骤计划书”,API 是你去找别人帮忙的一张“请求单”。

MCP 是 Multi-Component Prompting 的缩写,中文叫“多组件提示工程”或“多模组件提示”。它是一种用于构建复杂任务链的提示工程框架,广泛用于 Agent 系统、RAG 系统或链式大模型执行环境中。

通俗理解:

MCP 是你如何组织思路和任务让大模型聪明地一步步完成。API 是你如何把这个模型的能力打包成服务供别人调用。

Transformer 是一种在自然语言处理和生成任务中广泛使用的神经网络架构,由 Google 于 2017 年提出。它彻底改变了机器学习对语言的建模方式,是 GPT、BERT 等主流模型的基础。

一句话总结:Transformer 是一种完全基于注意力机制的模型架构,可以并行处理序列数据,用于文本理解和生成任务。

让 ChatGPT 能看懂你的问题让翻译软件知道“你好吗”该翻成“Howareyou”让 AI 写小说、生成文章、做总结……

类比:Transformer 就像一个特别聪明的「翻译专家团队」

你可以把 Transformer 想象成一个团队,这个团队里每个成员负责理解一个词,但他们都会:

互相沟通(注意力机制)商量每个词之间的关系(谁更重要)一起得出结论(比如:整个句子的意思)

举个例子——假设你说:

“小明今天去学校”

这个句子进入 Transformer 后,它会像这样处理:

“小明”是谁?和“去”有关系。“今天”是时间词,要和“去”搭配。“学校”是目的地,和“去”关系最紧。

于是它会得出结论:这是一个人今天去了学校。

通俗记忆法:Transformer = “每个词都能开会的团队”

不像传统方法一个人拍板,Transformer 更像:

每个词都开会每个词都能说:“我觉得我和某个词关系很大!”最终得出最合理的理解结果

它是很多 AI 的核心引擎!

ChatGPT(聊天)Google 翻译Midjourney(图像 AI)Suno(AI 音乐)BERT(搜索引擎理解你的问题)

背后其实都在用 Transformer!

1)输入编码(Input Embedding + Position Encoding)

将词转换为向量(WordEmbedding)加上位置编码(因为 Transformer 不具备 RNN 的时序性,需显式添加位置信息)

2)Encoder 编码器部分

包含 N 个重复的子结构,每个子结构有:

a. 多头自注意力机制(Multi-Head Self-Attention)

每个单词都可以关注其他单词的表示。

多头机制能从多个角度建模关系。

b. 前馈神经网络(Feed Forward)

对每个位置单独应用一个小型的两层全连接网络。

增强非线性建模能力。

c. 残差连接 + LayerNorm

保持梯度稳定,增强训练效果。

3)Decoder 解码器部分

也包含 N 个子结构,与 Encoder 类似但多了一步:

a. 掩码自注意力(Masked Multi-Head Attention)

防止看到未来词,用于生成任务。

b. Encoder-Decoder Attention

解码器可以访问 Encoder 输出,建立翻译/问答的对齐关系。

Diffusion Model(扩散模型) 是一种 AI 图像生成技术,现在很多爆火的 AI 图片(比如 Midjourney、Stable Diffusion、DALL·E)背后用的都是它。

通俗讲,它像是“在画布上不断擦除噪声,逐渐显现图像细节的过程”。

你可以把它想象成这样的过程:

一个比喻:照片修复术

想象你有一张清晰的照片;你故意往照片上涂很多杂乱的噪声,照片被弄糊了;然后,你训练一个 AI 模型,去一步一步地把噪声“清除”掉,直到恢复出原始图像;

最神奇的是:只要告诉它一句话(比如“一个在火星上弹吉他的猫”),它可以从纯噪声开始,一步步还原出这张从未存在的照片。这就是扩散模型的魔力。

工作原理详解(通俗版):

整个过程分为两个阶段:正向扩散(加噪声) 和 逆向扩散(去噪声)1.正向扩散(Forward Process)

从一张真实图片开始,不断加入随机噪声,最后变成一张“白噪声图”(像电视雪花那样)。

过程是有步骤的,比如 1000 步,每一步都让图像更模糊。

这个阶段其实不需要模型预测,是“已知”的过程。

模型的目标是:学习怎么从噪声中一步步还原出图像。

它是通过训练数据学到的,比如看了很多猫的图,就知道“从噪声中恢复出一只猫”的方法。

每一步,模型会预测“这张图中,哪里是噪声,哪里是内容”,然后一点点清除噪声,直到生成完整图片。

五、多模态

多模态模型(Multimodal Model),通俗来讲就是一种“能看、能听、能说、能理解”的 AI 模型。下面我用非常简单的方式为你解释它的本质和工作方式。

在人工智能里,模态(modality)就是信息的类型或感官通道,比如:

图像、视频→视觉模态声音、语音→听觉模态文本、语言→语言模态传感器数据(GPS、雷达、热感等)→其他模态

所以,“多模态”就是同时处理多种信息源,而不是只理解文字。

它能同时理解和融合多种信息形式,就像一个人可以一边看图,一边听声音,还能用语言表达和思考。

举个最简单的例子:

你发给它一张图片,问它:“图中人在干嘛?”

多模态模型能看懂图片,还能读懂你的问题,并用语言回答。

如果是传统语言模型(如早期的 GPT-3),它只会处理文字,看不懂图片。

2)理解阶段:

把不同模态的特征统一转化成一样的向量格式;这样模型就可以在同一个“脑子”里理解各种输入。

3)生成阶段:

根据指令或上下文,选择输出方式:

代表性多模态模型有哪些?:

GPT-4o:OpenAI 多模态模型,会看图、听音频、对话Gemini(Google):文字、图片、音频、代码全能型Claude3(Anthropic):支持长文本和图片理解文心一言、通义千问:国内大厂也在搞

总结一句话:多模态模型就像是拥有“眼睛、耳朵和嘴巴”的 AI,比只能“读文字”的模型更像人类,能理解复杂场景,也更适合真实世界的任务。

SFT 是 “Supervised Fine-Tuning” 的缩写,中文一般翻译为 有监督微调。它是训练大语言模型(比如 GPT、LLaMA 等)中的一个重要步骤。下面我用通俗的方式详细解释一下。

一句话解释:SFT 就是“用人工标注的好样本来教 AI 怎么更聪明地回答问题”。

在训练语言模型的过程中,最开始它只是通过大量文本进行“无监督预训练”(比如看百科、论坛、新闻等),学会了“语言”的基本规则。

但这种模型可能会:

胡说八道回答不符合人类期望不太懂怎么礼貌表达不知道哪些回答是“对的”

这时就需要 SFT 来“纠正它的行为”!

SFT 过程就像老师带学生写作文一样,步骤如下:

准备一批高质量的“标准答案”

比如用户问题:“如何炒西红柿鸡蛋?”

答案:“先把鸡蛋打散炒熟盛出,再炒番茄,最后一起翻炒,加盐出锅。”

这些数据是人工标注、精选的好内容。

用这些问答对微调模型

把模型原来“模模糊糊”的知识,通过这些具体例子“拉正”。

这就像老师给你一堆范文,指导你如何答题。

比如更礼貌、更有逻辑、不跑题、内容更实用。

一句话解释:就像我们上学要先打好基础知识一样,大模型在被真正用来解决具体任务前,也要先“上学”学点通用知识,这个阶段就叫“预训练”。

详细通俗解释:

把 AI 大模型想象成一个新员工,你想让他来写文章、写代码、回答问题、画图…… 但在他正式开始工作前,你总不能啥都不教就让他上岗吧?

这个通用培训阶段,就是“预训练”。

它的目标是让模型掌握语言规律、积累常识、形成通用的表达能力,为后续“专门任务”打下基础。

举个真实案例

模型名字:GPT

GPT 就是通过预训练起家的。它的预训练方式是:

它不断在这种“猜下一个词”的游戏中训练,逐步学会语言表达和世界常识。

最终结果:它不仅能写句子,还能写文章、写代码、做翻译,甚至回答各种问题。

类比案例:教小孩学语言

多听别人说话(输入);尝试模仿说话(输出);不断纠正他错的表达(学习反馈);

这就是“预训练”过程。

后面你才会让他去考语文(翻译)、数学(逻辑)、写作文(内容创作)这些“下游任务”。

总结一句话:模型预训练,就是 AI 在“上岗”前的大规模通识教育,教它语言规律和世界常识,为后续专门任务打基础。

质检 = 对模型输出结果进行“质量检查”,通常是由专人或者质检团队来做的。

举例说明:

假设你在做一个问答大模型,你让模型回答问题,比如:用户问:“月亮上有水吗?”

模型回答:“月亮上没有任何水或冰。”

这时候,质检员会检查这个回答是不是准确的、有没有语病、是否逻辑混乱或事实错误。

互检 = 数据标注员或评估员之间互相检查对方的标注或判断是否合理。

举个例子:

你和你的同事小李都在给模型“标注数据”或“评估模型回答”。

比如你俩都在看下面这个模型回答:

用户问:“狗能不能吃巧克力?” 模型回答:“可以适量吃一点。”

你觉得这个回答有误,打了“不合格”;但小李觉得“还行”,打了“合格”。

这时候你俩会互相检查对方的打分或评语是否合理,甚至提交给“第三人仲裁”,以保证数据标注一致、评估标准统一。

用大白话说:“上下文长度”就是模型一次能带在脑子里看的“聊天记录/材料”的容量。超出这个容量,最前面的内容会被“挤掉”,它就记不清了。

像一块白板:你不断写字,写满后再写,最早的内容就被擦掉了。像购物车容量:能装这么多,再多就掉出来。

你和模型聊项目,先说了目标、预算、时间,然后又连发一大段无关闲聊。 如果总字数超过它的上下文长度,最早的“目标/预算/时间”可能被挤出,它后面答复就会忽略这些关键信息。

你丢一本很长的文档(比如几十页)让它总结: 如果文档整体超过上下文长度,它只能看“放得下”的那一段,没看到的部分当然也就总结不到。

分段提问:长材料切块问,每块都让它先“摘要+要点”。重复关键约束:在新问题开头,再把核心要点复述一遍。滚动摘要:让它把前文压缩成要点清单,再继续讨论。用外部记忆(RAG/知识库):把大材料放在外部,按需检索片段再喂给它。

一句话总结:上下文长度 = 模型一次能“随身携带”的内容上限;装不下的早期内容会被顶掉,所以长对话里要学会提炼与分段。

GPT-3.5 的上下文长度是 4,096 tokensGPT-4 是 8,192 到 32,768 tokensGPT-4o 是 128,000 tokens

首先需要理解什么是「量化」?

把模糊的、连续的、难度量的东西,变成可用数字表示的东西。 一句话:从“感觉”到“数字”。

把模型里原本用 高精度小数(比如 32 位浮点数)的参数,压缩成 更少的比特(如 8 位或 4 位整数)。 目的:更省内存、更快推理,代价可能是精度略降。

比特数与可表示级数

8 位(int8)→2⁸=256个等级4 位(int4)→2⁴=16个等级

直观例子

假设一个 70 亿参数的模型:

16 位(2 字节)存:约 14GB4 位(0.5 字节)存:约 3.5GB 体积直接缩小到四分之一左右,载入更快、显存压力小,但可能精度稍有损失。

小贴士:常见做法有训练后量化(PTQ)和量化感知训练(QAT);后者在训练中考虑量化影响,精度通常更稳。

十一、模型参数

什么是“模型参数”?

把 AI 模型想成一台有很多很多小旋钮的机器。每个小旋钮就是一个“参数”,都记着一个数字。 训练=不停拧这些旋钮,让机器更会“做题”。训练好之后,这些旋钮固定住,用来回答问题/生成内容。

我们常用缩写来表示有多少个:

K=千(差不多一千个)M=百万(一百万个)B=十亿(一十亿个)

所以:

7B=70 亿个小旋钮128B=1,280 亿个小旋钮

为啥大家老说“参数越多越强”?

旋钮越多,机器能记住/表达的细节越多,通常更聪明; 但同时也会更占内存、更慢、更费电。就像功能越多的家电更笨重一样。

一句话总结:

LoRA = Low-Rank Adaptation(低秩适配)。 在 Stable Diffusion/SDXL 这类模型里,LoRA 就像给“会画画的机器人”装可插拔的小外挂:不改机器人的核心(底模),只加几块很小的“插件参数”,就能学会一个新风格/角色/产品外观。

它怎么做到的?

底模里有很多大矩阵(权重)。LoRA 把“要学的新东西”压缩成两个小矩阵 A、B(秩 r 很小),只训练它们;用的时候把它们按一定强度“加回去”。 结果:显存小、训练快、文件小(通常几 MB~几十 MB),还不破坏原模型。

U-Net 的 Attention 层:学到新风格、新纹理、新特征最有效TextEncoder(如 CLIP):让提示词更贴近某风格或专有名词(VAE 很少插)

一句话总结:LoRA = 给底模加“可拔插的小插件”。只训练很少参数,就能把通用模型快速变成“懂你那一味儿”的专属画师。

来源:梦想精通设计

相关推荐