AI术语全解析:从Token到Agent,一文读懂AI核心概念

发布时间：2026-05-25 17:28阅读：11

在和身边朋友交流时，我发现不少人对人工智能的理解比较零散，缺乏系统性。有人把AI捧上天，觉得它无所不能；也有人完全不看好，觉得AI没什么真本事。

所以觉得有必要给大家做一个全面的梳理。

Token、上下文、大模型、知识库、RAG、Prompt、Agent、工作流、微调……这些概念到底是什么意思，它们之间有什么联系，我会按照合理的层次结构来讲解。

先看整体框架：

这个学习路径很关键。

因为人工智能本质上是一层层构建起来的：

先掌握"文字单位" → 再理解"大脑" → 再学习"知识外挂" → 再掌握"能力工具" → 再运用"自动化流程" → 最后才是"智能体"。

很多看起来很专业的AI术语，其实只是不同层级的概念。

这一层决定： AI如何解析文字、如何存储信息、为什么会"丢失记忆"。

这是所有AI应用的基础。

人类阅读文字，按"字"和"词"来理解。

但AI并不能直接识别汉字。

AI处理内容时，会先把文字拆分成更细小的单元。这个单元就是：

Token

它是AI内部实际运算的最小单位。

如果把一句话比作一碗饭：

汉字 = 一口饭

Token = 一粒米

AI实际处理的，是"米粒"。

因为它直接关系到三件事：

很多AI产品按Token收费。

你输入越多、AI输出越多，消耗的Token就越多，费用越高。

所以很多API平台会标注：

"每百万Token多少费用"。

本质上就是： AI使用费用。

AI的记忆不是无限的。

它每次能看到的内容有极限。这个极限，通常也按Token计算。

比如：

8K上下文

32K上下文

128K上下文

1M上下文

本质上都是： AI一次能处理多少Token。

如果上下文太小：

长文章会中断

多轮对话会遗忘

PDF看完后面忘了前面

写长方案容易前后矛盾

所以现在很多大模型都在竞争"长上下文"能力。

Token不是固定等于"一个字"。

不同语言拆分方式不同。

一般情况下：

英文一个单词可能就是一个Token

中文通常是"1～2个字左右"对应一个Token

不同模型算法也会不一样。

所以网上很多"1Token=1汉字"并不准确。

Token = AI世界里的"文字流量单位 + 内存单位"。

很多人会疑惑：

为什么AI聊着聊着，突然忘了之前的内容？

原因通常不是AI"变笨"。

而是：它看不到了。

AI回答问题时，不是靠"真正理解事物"。

它更像是：

"根据当前能看到的全部内容，继续生成最合理的话。"

这个"当前能看到的范围"，就叫：

上下文（Context）

通常包括：

你之前说的话

AI之前回复的话

系统规则

上传的文件

当前任务内容

这些一起构成AI当前的"视野"。

因为上下文有Token上限。

超过后：

旧内容会被截断。

AI就"看不到"之前的内容了。

这也是为什么：

聊久了容易忘事

长任务容易偏离

长故事容易人设崩

本质上都是上下文限制。

很多AI产品里的"记忆功能"，和上下文不是一回事。

上下文：当前这次聊天临时能看到的内容

记忆：系统长期保存的用户信息

比如：

"你喜欢写公众号"

如果系统长期保存了，下一次聊天还能调用。这属于"记忆"。

但普通聊天窗口关闭后，上下文通常就结束了。

上下文 = AI当前脑子里能看到的全部内容。

前面讲的是AI怎么"认字"和"记内容"。

接下来才是真正的"大脑"。

也就是：

模型（Model）

LLM，全称：

Large Language Model（大型语言模型）

现在大家常说的：

GPT

通义千问

文心一言

豆包

Claude

Gemini

本质上都属于：

大语言模型。

你可以把它理解成：

一个读了海量文字资料的"超级全科生"。

它见过大量：

网页

书籍

文章

对话

代码

新闻

然后学会了：

"什么话后面通常接什么话"。

因为训练数据很多，所以它会很多通用能力：

聊天

写作

总结

翻译

编程

改文案

头脑风暴

做表格

生成方案

这也是为什么很多人第一次用AI会觉得"像万能助手"。

这是小白特别容易误解的地方。

大模型有几个典型特点：

通用能力强

学得广

上手快

什么都能聊一些

可能胡说

行业深度不一定够

不一定懂你公司内部资料

不一定知道最新信息

AI圈有个常见词：

"幻觉（Hallucination）"

意思就是：

AI一本正经地编错误内容。

不是它故意骗你。

而是它本质上是在"生成概率最高的话"。

大模型 = 通用型全科AI大脑。

如果说大模型像"全科医生"。

那垂类模型就像：

专科医生。

垂类 = 垂直领域。

意思是：只专门研究某一个行业。

比如：

法律模型

医疗模型

金融模型

教育模型

编程模型

电商模型

因为很多行业：

普通大模型不够专业。

举个例子：

医疗、法律、金融这些行业：

专业术语多

风险高

规则复杂

错误代价大

所以需要：

在行业数据上进一步强化训练。

这样AI会更懂行业语言和规则。

很多人以为：

"垂类模型一定比大模型厉害。"

其实不一定。

很多垂类产品，本质上仍然是：

"通用大模型 + 行业数据"。

只是针对场景做了优化。

垂类模型 = 专门服务某个行业的AI大脑。

"怎么突然这么懂我的业务？"

核心原因就在这一层。

这是普通人最值得理解的能力之一。

因为它决定：

AI到底是在"网上瞎猜"，还是"基于你的资料工作"。

因为大模型本身有天然限制：

模型训练不是实时的。

训练完成后，很多新信息它并不知道。

比如：

公司制度

产品文档

培训课件

客户案例

PDF资料

内部SOP

会议纪要

这些内容，公开互联网通常没有。

所以大模型天然"不认识"。

大模型像"大脑"。

知识库像：

你的私人书柜。

你把自己的资料放进去后：

AI就能优先参考你的资料回答。

把产品文档放进知识库。

AI客服回答时：

会优先引用企业资料。

把报价方案、产品参数放进去。

AI自动生成销售回复。

把历史文章全部导入。

AI就能模仿你的内容风格。

知识库不是"训练模型"。

很多小白会混淆：

知识库

微调

训练模型

其实它们不是一回事。

知识库更多是：

"让AI在回答前先参考你的资料"。

不是把模型重新训练一遍。

知识库 = AI专属的私人资料库。

RAG是现在AI应用里特别核心的技术。

但名字非常容易把人劝退。

其实人话非常简单。

全称：

Retrieval-Augmented Generation

中文通常翻译：

"检索增强生成"。

不用记英文。

你只需要记一句话：

RAG = 先查资料，再组织回答。

没有RAG时：

AI像闭卷考试。

只能靠自己记忆回答。

有RAG时：

AI像开卷考试。

先翻资料，再回答。

你上传：

《员工手册.pdf》

然后问：

"公司年假规则是什么？"

系统通常会：

第一步：先去文档里搜索"年假"。

第二步：把找到的相关内容塞给AI。

第三步： AI再组织成自然语言回答。

这整套过程，就是RAG。

因为它可以：

降低AI胡说概率

让AI回答基于真实资料

不用重新训练模型

快速接企业数据

所以现在很多：

AI知识库

AI客服

上传PDF问答

企业AI助手

底层都大量使用RAG。

RAG = AI的"查书能力"。

这是另一个特别容易被误解的词。

很多人会把：

知识库

RAG

微调

全部混在一起。

其实它们是不同层级。

微调（Fine-tuning）本质上是：

在原有大模型基础上，继续训练。

让模型更适合某类任务。

原始大模型：

什么都会一点。

但如果你拿大量客服对话继续训练：

它就会越来越像专业客服。

这是最关键的地方。

像：

"给AI一本参考书。"

AI回答前去翻。

像：

"重新培训AI的大脑。"

把某种风格、规则、能力，训练进模型本身。

现在很多企业其实更偏向：

RAG + 知识库。

因为：

成本低

更新快

不用重新训练

部署简单

微调通常更适合：

特定语言风格

固定输出格式

特殊行业能力

高重复任务

微调 = 对AI大脑做进一步专业训练。

很多人以为：

AI效果不好，是模型不行。

其实很多时候：

是不会提问。

Prompt，中文通常翻译：

提示词。

但它本质上其实是：

你给AI下达的任务指令。

AI不像人类。

很多你觉得"默认应该懂"的东西。

AI并不会自动理解。

比如：

"帮我写个公众号。"

这个要求其实非常模糊。

AI不知道：

写给谁

什么风格

多长

什么目的

要不要标题

要不要口语化

所以输出很容易普通。

"做一份美食文案"：成品内容宽泛平淡，没有吸引力

明确提示词："用短视频种草口吻，主打家常菜，语言接地气，搭配真实用餐场景描写，突出下饭解馋的口感。"

结果通常会明显好很多。

因为：

同一个模型。

不同提示词。

输出质量可能差非常大。

所以很多岗位会出现：

Prompt工程

AI指令设计

AI工作流编排

本质上都和"如何更好地下指令"有关。

提示词 = 给AI的任务说明书。

前面的大模型，更像"大脑"。

但只有大脑还不够。

AI还需要"工具"。

Skill，本质上是：

AI的某一个具体功能。

如果把AI比作一个人：

大模型 = 大脑

Skill = 某个具体技能

比如：

会翻译

会画图

会识别图片

会联网搜索

会生成PPT

会读Excel

会调用地图

这些都可以理解成：

AI的技能。

因为单纯聊天的大模型，其实做不了很多真实工作。

比如：

AI如果不能联网。它就看不到最新新闻。

AI如果不能调用Excel。它就没法真正处理表格。

所以现在很多AI产品都在拼：

"工具调用能力"。

很多人以为：

"AI会做所有事。"

其实很多能力，是后来外挂进去的。

不是模型天生自带。

Skill = AI的单项工具能力。

大脑

知识

技能

但还是有一个问题：

很多操作还得人一步一步点。

于是就出现了：

工作流。

工作流，本质上就是：

把多个步骤串起来自动执行。

以前你做自媒体：

可能需要：

找热点

写标题

写正文

改语气

配图

排版

你得一步一步操作。

现在可以：

把这些动作提前编排好。

然后：

一键自动运行。

这就是AI工作流。

不是"AI更聪明"。

而是：

流程标准化。

也就是：

什么步骤先做。什么步骤后做。谁调用谁。

热点抓取 → 选题 → 标题 → 正文 → 排版

识别问题 → 查询知识库 → 生成回复 → 发送工单

读取商品 → 生成标题 → 生成详情页 → 生成广告文案

工作流 = AI自动执行的一整套流程。

前面的东西组合起来。

就会出现现在最火的概念：

Agent。

Agent，中文通常翻译：

智能体。

这是最近几年AI行业最热门的方向之一。

普通AI：

你问一句。它答一句。

本质上是：

被动响应。

智能体：

你给一个目标。

它自己：

拆解任务

调用工具

查询资料

多步骤执行

最终交付结果

这是主动执行。

普通AI：

你说：

"帮我写标题。"

它只给标题。

智能体：

你说：

"帮我做一期关于街边网红小吃的小红书图文内容。"

它可能会：

搜热点

分析爆款

生成选题

写标题

写正文

配图

排版

输出最终稿

整个过程自动完成。

真正的智能体，通常是多个能力组合：

大模型

知识库

工具调用

工作流

记忆

任务规划

所以它不是"一个新模型"。

而更像：

一套AI协作系统。

因为过去AI更像：

聊天工具。

现在AI开始变成：

能真正干活的数字员工。

Agent = 能主动完成任务的AI执行系统。

很多人学AI时最痛苦的地方：

就是概念互相混。

现在你可以这样理解：

底层是Token和上下文。

核心是模型。

知识库负责给AI补充私人知识。

RAG负责帮AI查资料。

Prompt负责指挥AI。

Skill负责让AI拥有具体能力。

Workflow负责让AI自动执行流程。

Agent则是把这些能力全部组合起来，形成真正能干活的AI助手。

如果你是小白。

不要一开始就追：

"最强Agent""最牛自动化""全自主AI"。

真正应该先搞懂的顺序是：

会和AI正常沟通（Prompt）

理解上下文和Token

学会用知识库

再理解工作流

最后再碰Agent

当你真正理解AI之后，你会开始从"玩工具"，进入"改业务"。

你会发现：

AI最大的价值，不是"帮你生成一篇文章"。

而是：

把你原本依赖人力的大量重复工作，重新拆解、重组、自动化。

好了，说了这么多，应该说清楚了，希望对大家有帮助。

← 上一篇：智能巡逻车亮相潞城街道，智慧城市管理再升级下一篇：360发布智能体安全白皮书：Skill成风险新入口 →