AI术语全解析:从Token到Agent,一文读懂AI核心概念
在和身边朋友交流时,我发现不少人对人工智能的理解比较零散,缺乏系统性。有人把AI捧上天,觉得它无所不能;也有人完全不看好,觉得AI没什么真本事。
所以觉得有必要给大家做一个全面的梳理。
Token、上下文、大模型、知识库、RAG、Prompt、Agent、工作流、微调……这些概念到底是什么意思,它们之间有什么联系,我会按照合理的层次结构来讲解。
先看整体框架:
这个学习路径很关键。
因为人工智能本质上是一层层构建起来的:
先掌握"文字单位" → 再理解"大脑" → 再学习"知识外挂" → 再掌握"能力工具" → 再运用"自动化流程" → 最后才是"智能体"。
很多看起来很专业的AI术语,其实只是不同层级的概念。
这一层决定: AI如何解析文字、如何存储信息、为什么会"丢失记忆"。
这是所有AI应用的基础。
人类阅读文字,按"字"和"词"来理解。
但AI并不能直接识别汉字。
AI处理内容时,会先把文字拆分成更细小的单元。 这个单元就是:
Token
它是AI内部实际运算的最小单位。
如果把一句话比作一碗饭:
汉字 = 一口饭
Token = 一粒米
AI实际处理的,是"米粒"。
因为它直接关系到三件事:
很多AI产品按Token收费。
你输入越多、AI输出越多,消耗的Token就越多,费用越高。
所以很多API平台会标注:
"每百万Token多少费用"。
本质上就是: AI使用费用。
AI的记忆不是无限的。
它每次能看到的内容有极限。 这个极限,通常也按Token计算。
比如:
8K上下文
32K上下文
128K上下文
1M上下文
本质上都是: AI一次能处理多少Token。
如果上下文太小:
长文章会中断
多轮对话会遗忘
PDF看完后面忘了前面
写长方案容易前后矛盾
所以现在很多大模型都在竞争"长上下文"能力。
Token不是固定等于"一个字"。
不同语言拆分方式不同。
一般情况下:
英文一个单词可能就是一个Token
中文通常是"1~2个字左右"对应一个Token
不同模型算法也会不一样。
所以网上很多"1Token=1汉字"并不准确。
Token = AI世界里的"文字流量单位 + 内存单位"。
很多人会疑惑:
为什么AI聊着聊着,突然忘了之前的内容?
原因通常不是AI"变笨"。
而是: 它看不到了。
AI回答问题时,不是靠"真正理解事物"。
它更像是:
"根据当前能看到的全部内容,继续生成最合理的话。"
这个"当前能看到的范围",就叫:
上下文(Context)
通常包括:
你之前说的话
AI之前回复的话
系统规则
上传的文件
当前任务内容
这些一起构成AI当前的"视野"。
因为上下文有Token上限。
超过后:
旧内容会被截断。
AI就"看不到"之前的内容了。
这也是为什么:
聊久了容易忘事
长任务容易偏离
长故事容易人设崩
本质上都是上下文限制。
很多AI产品里的"记忆功能",和上下文不是一回事。
上下文:当前这次聊天临时能看到的内容
记忆:系统长期保存的用户信息
比如:
"你喜欢写公众号"
如果系统长期保存了,下一次聊天还能调用。 这属于"记忆"。
但普通聊天窗口关闭后,上下文通常就结束了。
上下文 = AI当前脑子里能看到的全部内容。
前面讲的是AI怎么"认字"和"记内容"。
接下来才是真正的"大脑"。
也就是:
模型(Model)
LLM,全称:
Large Language Model(大型语言模型)
现在大家常说的:
GPT
通义千问
文心一言
豆包
Claude
Gemini
本质上都属于:
大语言模型。
你可以把它理解成:
一个读了海量文字资料的"超级全科生"。
它见过大量:
网页
书籍
文章
对话
代码
新闻
然后学会了:
"什么话后面通常接什么话"。
因为训练数据很多,所以它会很多通用能力:
聊天
写作
总结
翻译
编程
改文案
头脑风暴
做表格
生成方案
这也是为什么很多人第一次用AI会觉得"像万能助手"。
这是小白特别容易误解的地方。
大模型有几个典型特点:
通用能力强
学得广
上手快
什么都能聊一些
可能胡说
行业深度不一定够
不一定懂你公司内部资料
不一定知道最新信息
AI圈有个常见词:
"幻觉(Hallucination)"
意思就是:
AI一本正经地编错误内容。
不是它故意骗你。
而是它本质上是在"生成概率最高的话"。
大模型 = 通用型全科AI大脑。
如果说大模型像"全科医生"。
那垂类模型就像:
专科医生。
垂类 = 垂直领域。
意思是: 只专门研究某一个行业。
比如:
法律模型
医疗模型
金融模型
教育模型
编程模型
电商模型
因为很多行业:
普通大模型不够专业。
举个例子:
医疗、法律、金融这些行业:
专业术语多
风险高
规则复杂
错误代价大
所以需要:
在行业数据上进一步强化训练。
这样AI会更懂行业语言和规则。
很多人以为:
"垂类模型一定比大模型厉害。"
其实不一定。
很多垂类产品,本质上仍然是:
"通用大模型 + 行业数据"。
只是针对场景做了优化。
垂类模型 = 专门服务某个行业的AI大脑。
"怎么突然这么懂我的业务?"
核心原因就在这一层。
这是普通人最值得理解的能力之一。
因为它决定:
AI到底是在"网上瞎猜",还是"基于你的资料工作"。
因为大模型本身有天然限制:
模型训练不是实时的。
训练完成后,很多新信息它并不知道。
比如:
公司制度
产品文档
培训课件
客户案例
PDF资料
内部SOP
会议纪要
这些内容,公开互联网通常没有。
所以大模型天然"不认识"。
大模型像"大脑"。
知识库像:
你的私人书柜。
你把自己的资料放进去后:
AI就能优先参考你的资料回答。
把产品文档放进知识库。
AI客服回答时:
会优先引用企业资料。
把报价方案、产品参数放进去。
AI自动生成销售回复。
把历史文章全部导入。
AI就能模仿你的内容风格。
知识库不是"训练模型"。
很多小白会混淆:
知识库
微调
训练模型
其实它们不是一回事。
知识库更多是:
"让AI在回答前先参考你的资料"。
不是把模型重新训练一遍。
知识库 = AI专属的私人资料库。
RAG是现在AI应用里特别核心的技术。
但名字非常容易把人劝退。
其实人话非常简单。
全称:
Retrieval-Augmented Generation
中文通常翻译:
"检索增强生成"。
不用记英文。
你只需要记一句话:
RAG = 先查资料,再组织回答。
没有RAG时:
AI像闭卷考试。
只能靠自己记忆回答。
有RAG时:
AI像开卷考试。
先翻资料,再回答。
你上传:
《员工手册.pdf》
然后问:
"公司年假规则是什么?"
系统通常会:
第一步: 先去文档里搜索"年假"。
第二步: 把找到的相关内容塞给AI。
第三步: AI再组织成自然语言回答。
这整套过程,就是RAG。
因为它可以:
降低AI胡说概率
让AI回答基于真实资料
不用重新训练模型
快速接企业数据
所以现在很多:
AI知识库
AI客服
上传PDF问答
企业AI助手
底层都大量使用RAG。
RAG = AI的"查书能力"。
这是另一个特别容易被误解的词。
很多人会把:
知识库
RAG
微调
全部混在一起。
其实它们是不同层级。
微调(Fine-tuning)本质上是:
在原有大模型基础上,继续训练。
让模型更适合某类任务。
原始大模型:
什么都会一点。
但如果你拿大量客服对话继续训练:
它就会越来越像专业客服。
这是最关键的地方。
像:
"给AI一本参考书。"
AI回答前去翻。
像:
"重新培训AI的大脑。"
把某种风格、规则、能力,训练进模型本身。
现在很多企业其实更偏向:
RAG + 知识库。
因为:
成本低
更新快
不用重新训练
部署简单
微调通常更适合:
特定语言风格
固定输出格式
特殊行业能力
高重复任务
微调 = 对AI大脑做进一步专业训练。
很多人以为:
AI效果不好,是模型不行。
其实很多时候:
是不会提问。
Prompt,中文通常翻译:
提示词。
但它本质上其实是:
你给AI下达的任务指令。
AI不像人类。
很多你觉得"默认应该懂"的东西。
AI并不会自动理解。
比如:
"帮我写个公众号。"
这个要求其实非常模糊。
AI不知道:
写给谁
什么风格
多长
什么目的
要不要标题
要不要口语化
所以输出很容易普通。
"做一份美食文案":成品内容宽泛平淡,没有吸引力
明确提示词:"用短视频种草口吻,主打家常菜,语言接地气,搭配真实用餐场景描写,突出下饭解馋的口感。"
结果通常会明显好很多。
因为:
同一个模型。
不同提示词。
输出质量可能差非常大。
所以很多岗位会出现:
Prompt工程
AI指令设计
AI工作流编排
本质上都和"如何更好地下指令"有关。
提示词 = 给AI的任务说明书。
前面的大模型,更像"大脑"。
但只有大脑还不够。
AI还需要"工具"。
Skill,本质上是:
AI的某一个具体功能。
如果把AI比作一个人:
大模型 = 大脑
Skill = 某个具体技能
比如:
会翻译
会画图
会识别图片
会联网搜索
会生成PPT
会读Excel
会调用地图
这些都可以理解成:
AI的技能。
因为单纯聊天的大模型,其实做不了很多真实工作。
比如:
AI如果不能联网。 它就看不到最新新闻。
AI如果不能调用Excel。 它就没法真正处理表格。
所以现在很多AI产品都在拼:
"工具调用能力"。
很多人以为:
"AI会做所有事。"
其实很多能力,是后来外挂进去的。
不是模型天生自带。
Skill = AI的单项工具能力。
大脑
知识
技能
但还是有一个问题:
很多操作还得人一步一步点。
于是就出现了:
工作流。
工作流,本质上就是:
把多个步骤串起来自动执行。
以前你做自媒体:
可能需要:
找热点
写标题
写正文
改语气
配图
排版
你得一步一步操作。
现在可以:
把这些动作提前编排好。
然后:
一键自动运行。
这就是AI工作流。
不是"AI更聪明"。
而是:
流程标准化。
也就是:
什么步骤先做。 什么步骤后做。 谁调用谁。
热点抓取 → 选题 → 标题 → 正文 → 排版
识别问题 → 查询知识库 → 生成回复 → 发送工单
读取商品 → 生成标题 → 生成详情页 → 生成广告文案
工作流 = AI自动执行的一整套流程。
前面的东西组合起来。
就会出现现在最火的概念:
Agent。
Agent,中文通常翻译:
智能体。
这是最近几年AI行业最热门的方向之一。
普通AI:
你问一句。 它答一句。
本质上是:
被动响应。
智能体:
你给一个目标。
它自己:
拆解任务
调用工具
查询资料
多步骤执行
最终交付结果
这是主动执行。
普通AI:
你说:
"帮我写标题。"
它只给标题。
智能体:
你说:
"帮我做一期关于街边网红小吃的小红书图文内容。"
它可能会:
搜热点
分析爆款
生成选题
写标题
写正文
配图
排版
输出最终稿
整个过程自动完成。
真正的智能体,通常是多个能力组合:
大模型
知识库
工具调用
工作流
记忆
任务规划
所以它不是"一个新模型"。
而更像:
一套AI协作系统。
因为过去AI更像:
聊天工具。
现在AI开始变成:
能真正干活的数字员工。
Agent = 能主动完成任务的AI执行系统。
很多人学AI时最痛苦的地方:
就是概念互相混。
现在你可以这样理解:
底层是Token和上下文。
核心是模型。
知识库负责给AI补充私人知识。
RAG负责帮AI查资料。
Prompt负责指挥AI。
Skill负责让AI拥有具体能力。
Workflow负责让AI自动执行流程。
Agent则是把这些能力全部组合起来,形成真正能干活的AI助手。
如果你是小白。
不要一开始就追:
"最强Agent""最牛自动化""全自主AI"。
真正应该先搞懂的顺序是:
会和AI正常沟通(Prompt)
理解上下文和Token
学会用知识库
再理解工作流
最后再碰Agent
当你真正理解AI之后, 你会开始从"玩工具",进入"改业务"。
你会发现:
AI最大的价值, 不是"帮你生成一篇文章"。
而是:
把你原本依赖人力的大量重复工作, 重新拆解、重组、自动化。
好了,说了这么多,应该说清楚了,希望对大家有帮助。