标签

AI术语全解析:从Token到Agent,一文读懂AI核心概念

发布时间:2026-05-25 17:28来源:微信阅读:4

在和身边朋友交流时,我发现不少人对人工智能的理解比较零散,缺乏系统性。有人把AI捧上天,觉得它无所不能;也有人完全不看好,觉得AI没什么真本事。

所以觉得有必要给大家做一个全面的梳理。

Token、上下文、大模型、知识库、RAG、Prompt、Agent、工作流、微调……这些概念到底是什么意思,它们之间有什么联系,我会按照合理的层次结构来讲解。

先看整体框架:

这个学习路径很关键。

因为人工智能本质上是一层层构建起来的:

先掌握"文字单位" → 再理解"大脑" → 再学习"知识外挂" → 再掌握"能力工具" → 再运用"自动化流程" → 最后才是"智能体"。

很多看起来很专业的AI术语,其实只是不同层级的概念。

这一层决定: AI如何解析文字、如何存储信息、为什么会"丢失记忆"。

这是所有AI应用的基础。

人类阅读文字,按"字"和"词"来理解。

但AI并不能直接识别汉字。

AI处理内容时,会先把文字拆分成更细小的单元。 这个单元就是:

Token

它是AI内部实际运算的最小单位。

如果把一句话比作一碗饭:

汉字 = 一口饭

Token = 一粒米

AI实际处理的,是"米粒"。

因为它直接关系到三件事:

很多AI产品按Token收费。

你输入越多、AI输出越多,消耗的Token就越多,费用越高。

所以很多API平台会标注:

"每百万Token多少费用"。

本质上就是: AI使用费用。

AI的记忆不是无限的。

它每次能看到的内容有极限。 这个极限,通常也按Token计算。

比如:

8K上下文

32K上下文

128K上下文

1M上下文

本质上都是: AI一次能处理多少Token。

如果上下文太小:

长文章会中断

多轮对话会遗忘

PDF看完后面忘了前面

写长方案容易前后矛盾

所以现在很多大模型都在竞争"长上下文"能力。

Token不是固定等于"一个字"。

不同语言拆分方式不同。

一般情况下:

英文一个单词可能就是一个Token

中文通常是"1~2个字左右"对应一个Token

不同模型算法也会不一样。

所以网上很多"1Token=1汉字"并不准确。

Token = AI世界里的"文字流量单位 + 内存单位"。

很多人会疑惑:

为什么AI聊着聊着,突然忘了之前的内容?

原因通常不是AI"变笨"。

而是: 它看不到了。

AI回答问题时,不是靠"真正理解事物"。

它更像是:

"根据当前能看到的全部内容,继续生成最合理的话。"

这个"当前能看到的范围",就叫:

上下文(Context)

通常包括:

你之前说的话

AI之前回复的话

系统规则

上传的文件

当前任务内容

这些一起构成AI当前的"视野"。

因为上下文有Token上限。

超过后:

旧内容会被截断。

AI就"看不到"之前的内容了。

这也是为什么:

聊久了容易忘事

长任务容易偏离

长故事容易人设崩

本质上都是上下文限制。

很多AI产品里的"记忆功能",和上下文不是一回事。

上下文:当前这次聊天临时能看到的内容

记忆:系统长期保存的用户信息

比如:

"你喜欢写公众号"

如果系统长期保存了,下一次聊天还能调用。 这属于"记忆"。

但普通聊天窗口关闭后,上下文通常就结束了。

上下文 = AI当前脑子里能看到的全部内容。

前面讲的是AI怎么"认字"和"记内容"。

接下来才是真正的"大脑"。

也就是:

模型(Model)

LLM,全称:

Large Language Model(大型语言模型)

现在大家常说的:

GPT

通义千问

文心一言

豆包

Claude

Gemini

本质上都属于:

大语言模型。

你可以把它理解成:

一个读了海量文字资料的"超级全科生"。

它见过大量:

网页

书籍

文章

对话

代码

新闻

然后学会了:

"什么话后面通常接什么话"。

因为训练数据很多,所以它会很多通用能力:

聊天

写作

总结

翻译

编程

改文案

头脑风暴

做表格

生成方案

这也是为什么很多人第一次用AI会觉得"像万能助手"。

这是小白特别容易误解的地方。

大模型有几个典型特点:

通用能力强

学得广

上手快

什么都能聊一些

可能胡说

行业深度不一定够

不一定懂你公司内部资料

不一定知道最新信息

AI圈有个常见词:

"幻觉(Hallucination)"

意思就是:

AI一本正经地编错误内容。

不是它故意骗你。

而是它本质上是在"生成概率最高的话"。

大模型 = 通用型全科AI大脑。

如果说大模型像"全科医生"。

那垂类模型就像:

专科医生。

垂类 = 垂直领域。

意思是: 只专门研究某一个行业。

比如:

法律模型

医疗模型

金融模型

教育模型

编程模型

电商模型

因为很多行业:

普通大模型不够专业。

举个例子:

医疗、法律、金融这些行业:

专业术语多

风险高

规则复杂

错误代价大

所以需要:

在行业数据上进一步强化训练。

这样AI会更懂行业语言和规则。

很多人以为:

"垂类模型一定比大模型厉害。"

其实不一定。

很多垂类产品,本质上仍然是:

"通用大模型 + 行业数据"。

只是针对场景做了优化。

垂类模型 = 专门服务某个行业的AI大脑。

"怎么突然这么懂我的业务?"

核心原因就在这一层。

这是普通人最值得理解的能力之一。

因为它决定:

AI到底是在"网上瞎猜",还是"基于你的资料工作"。

因为大模型本身有天然限制:

模型训练不是实时的。

训练完成后,很多新信息它并不知道。

比如:

公司制度

产品文档

培训课件

客户案例

PDF资料

内部SOP

会议纪要

这些内容,公开互联网通常没有。

所以大模型天然"不认识"。

大模型像"大脑"。

知识库像:

你的私人书柜。

你把自己的资料放进去后:

AI就能优先参考你的资料回答。

把产品文档放进知识库。

AI客服回答时:

会优先引用企业资料。

把报价方案、产品参数放进去。

AI自动生成销售回复。

把历史文章全部导入。

AI就能模仿你的内容风格。

知识库不是"训练模型"。

很多小白会混淆:

知识库

微调

训练模型

其实它们不是一回事。

知识库更多是:

"让AI在回答前先参考你的资料"。

不是把模型重新训练一遍。

知识库 = AI专属的私人资料库。

RAG是现在AI应用里特别核心的技术。

但名字非常容易把人劝退。

其实人话非常简单。

全称:

Retrieval-Augmented Generation

中文通常翻译:

"检索增强生成"。

不用记英文。

你只需要记一句话:

RAG = 先查资料,再组织回答。

没有RAG时:

AI像闭卷考试。

只能靠自己记忆回答。

有RAG时:

AI像开卷考试。

先翻资料,再回答。

你上传:

《员工手册.pdf》

然后问:

"公司年假规则是什么?"

系统通常会:

第一步: 先去文档里搜索"年假"。

第二步: 把找到的相关内容塞给AI。

第三步: AI再组织成自然语言回答。

这整套过程,就是RAG。

因为它可以:

降低AI胡说概率

让AI回答基于真实资料

不用重新训练模型

快速接企业数据

所以现在很多:

AI知识库

AI客服

上传PDF问答

企业AI助手

底层都大量使用RAG。

RAG = AI的"查书能力"。

这是另一个特别容易被误解的词。

很多人会把:

知识库

RAG

微调

全部混在一起。

其实它们是不同层级。

微调(Fine-tuning)本质上是:

在原有大模型基础上,继续训练。

让模型更适合某类任务。

原始大模型:

什么都会一点。

但如果你拿大量客服对话继续训练:

它就会越来越像专业客服。

这是最关键的地方。

像:

"给AI一本参考书。"

AI回答前去翻。

像:

"重新培训AI的大脑。"

把某种风格、规则、能力,训练进模型本身。

现在很多企业其实更偏向:

RAG + 知识库。

因为:

成本低

更新快

不用重新训练

部署简单

微调通常更适合:

特定语言风格

固定输出格式

特殊行业能力

高重复任务

微调 = 对AI大脑做进一步专业训练。

很多人以为:

AI效果不好,是模型不行。

其实很多时候:

是不会提问。

Prompt,中文通常翻译:

提示词。

但它本质上其实是:

你给AI下达的任务指令。

AI不像人类。

很多你觉得"默认应该懂"的东西。

AI并不会自动理解。

比如:

"帮我写个公众号。"

这个要求其实非常模糊。

AI不知道:

写给谁

什么风格

多长

什么目的

要不要标题

要不要口语化

所以输出很容易普通。

"做一份美食文案":成品内容宽泛平淡,没有吸引力

明确提示词:"用短视频种草口吻,主打家常菜,语言接地气,搭配真实用餐场景描写,突出下饭解馋的口感。"

结果通常会明显好很多。

因为:

同一个模型。

不同提示词。

输出质量可能差非常大。

所以很多岗位会出现:

Prompt工程

AI指令设计

AI工作流编排

本质上都和"如何更好地下指令"有关。

提示词 = 给AI的任务说明书。

前面的大模型,更像"大脑"。

但只有大脑还不够。

AI还需要"工具"。

Skill,本质上是:

AI的某一个具体功能。

如果把AI比作一个人:

大模型 = 大脑

Skill = 某个具体技能

比如:

会翻译

会画图

会识别图片

会联网搜索

会生成PPT

会读Excel

会调用地图

这些都可以理解成:

AI的技能。

因为单纯聊天的大模型,其实做不了很多真实工作。

比如:

AI如果不能联网。 它就看不到最新新闻。

AI如果不能调用Excel。 它就没法真正处理表格。

所以现在很多AI产品都在拼:

"工具调用能力"。

很多人以为:

"AI会做所有事。"

其实很多能力,是后来外挂进去的。

不是模型天生自带。

Skill = AI的单项工具能力。

大脑

知识

技能

但还是有一个问题:

很多操作还得人一步一步点。

于是就出现了:

工作流。

工作流,本质上就是:

把多个步骤串起来自动执行。

以前你做自媒体:

可能需要:

找热点

写标题

写正文

改语气

配图

排版

你得一步一步操作。

现在可以:

把这些动作提前编排好。

然后:

一键自动运行。

这就是AI工作流。

不是"AI更聪明"。

而是:

流程标准化。

也就是:

什么步骤先做。 什么步骤后做。 谁调用谁。

热点抓取 → 选题 → 标题 → 正文 → 排版

识别问题 → 查询知识库 → 生成回复 → 发送工单

读取商品 → 生成标题 → 生成详情页 → 生成广告文案

工作流 = AI自动执行的一整套流程。

前面的东西组合起来。

就会出现现在最火的概念:

Agent。

Agent,中文通常翻译:

智能体。

这是最近几年AI行业最热门的方向之一。

普通AI:

你问一句。 它答一句。

本质上是:

被动响应。

智能体:

你给一个目标。

它自己:

拆解任务

调用工具

查询资料

多步骤执行

最终交付结果

这是主动执行。

普通AI:

你说:

"帮我写标题。"

它只给标题。

智能体:

你说:

"帮我做一期关于街边网红小吃的小红书图文内容。"

它可能会:

搜热点

分析爆款

生成选题

写标题

写正文

配图

排版

输出最终稿

整个过程自动完成。

真正的智能体,通常是多个能力组合:

大模型

知识库

工具调用

工作流

记忆

任务规划

所以它不是"一个新模型"。

而更像:

一套AI协作系统。

因为过去AI更像:

聊天工具。

现在AI开始变成:

能真正干活的数字员工。

Agent = 能主动完成任务的AI执行系统。

很多人学AI时最痛苦的地方:

就是概念互相混。

现在你可以这样理解:

底层是Token和上下文。

核心是模型。

知识库负责给AI补充私人知识。

RAG负责帮AI查资料。

Prompt负责指挥AI。

Skill负责让AI拥有具体能力。

Workflow负责让AI自动执行流程。

Agent则是把这些能力全部组合起来,形成真正能干活的AI助手。

如果你是小白。

不要一开始就追:

"最强Agent""最牛自动化""全自主AI"。

真正应该先搞懂的顺序是:

会和AI正常沟通(Prompt)

理解上下文和Token

学会用知识库

再理解工作流

最后再碰Agent

当你真正理解AI之后, 你会开始从"玩工具",进入"改业务"。

你会发现:

AI最大的价值, 不是"帮你生成一篇文章"。

而是:

把你原本依赖人力的大量重复工作, 重新拆解、重组、自动化。

好了,说了这么多,应该说清楚了,希望对大家有帮助。