AI系统核心概念解析:从Token到行动的全链路指南
最近关注AI的朋友,大概都见过那张流传甚广的图:Token、提示词、上下文、Agent、Harness、MCP、Skills七个概念层层向上排列,旁白写着"每一层都建立在前一层之上"。图形确实直观,但容易造成误解——仿佛越往高处就越"高级",越接近最终形态。
实际情况要简单得多:七个概念中,仅前三个存在真正的递进关系,后四个则是四种截然不同的角色,相互间呈现"谁调用谁、谁管理谁、谁被谁使用"的协作网络。掌握这一点,能显著提升理解AI产品的清晰度。接下来逐一解析,每个概念都提供两种视角:技术定义与通俗类比。
理解AI,先从这些基础单元开始。
大型语言模型处理的是Token,而非直接读取文字。Token作为模型理解语言的基元,可能是完整词汇、词片段、标点符号或汉字的组成部分。模型先将输入文本分解为Token序列,随后通过预测下一个Token的方式逐一生成回复。
技术定义:Token是文本经分词器编码后的离散单元,模型的所有输入输出、上下文容量及计费均以Token为基本单位进行计量。
通俗理解:Token如同乐高积木的最小单元。人类语言和AI回复都不是整句处理,而是拆解成小积木后逐块拼装。因此"上下文容纳8000个Token""某次调用消耗多少Token",本质上是在计算这些积木的数量。
用户向AI输入的每句话本质上都是一条指令。
提示词承载着用户向模型传达的指令——明确任务目标、设定角色身份、规定输出格式。同一模型,提示词质量直接影响效果差异。于是催生了"提示词工程"这一专业领域:通过角色定义、示例提供、步骤约束,最大化释放模型潜能。
技术定义:Prompt作为引导模型生成特定输出的输入文本,可包含指令、few-shot示例、约束条件与角色设定,构成人机交互的核心控制界面。
通俗理解:若将模型比作能力出众但缺乏主见的实习生,提示词便是下达任务的便签。仅写"帮我写点东西"会让其困惑;明确"200字、面向小学生、解释彩虹现象",任务便能顺利完成。掌握提示词本质是掌握任务交代的技巧。
AI的"即时记忆"范围决定其可见信息量。
上下文涵盖模型生成回复时"同步感知"的全量信息——包括当前提示、历史对话、附加文档等。模型缺乏真正的持久记忆,每次回复都依赖这整块上下文。上下文可容纳的Token数量存在上限,即"上下文窗口"。
技术定义:Context是单次推理中模型可访问的完整Token序列;上下文窗口限定模型可"记忆"的历史长度与参考材料规模,超出部分将被截断或遗忘。
通俗理解:上下文如同AI面前的办公桌面。空间有限,可展开的资料取决于桌面容量——能容纳的才可供参考,超出范围则被忽略。因此AI"遗忘"之前的对话内容,通常不是"记忆力不足",而是新内容占满桌面空间导致旧内容被挤出。
前三个概念确实存在递进关系
Token、提示词、上下文三者存在递进关系:Token作为基本单元构成提示词指令,多轮指令与资料汇聚形成上下文。它们共同构成AI的"输入与表示层",即AI接收与理解信息的方式。
从下一个概念开始,性质发生转变。Agent、Harness、MCP、Skills不再是"更高层级的信息",而是围绕信息运作的不同角色。继续用阶梯思维理解会偏离本质。
能够独立决策与执行的智能体。
Agent是具备自主决策与任务执行能力的智能体。不同于简单的问答交互,Agent能够分解目标、制定计划、调用工具、根据反馈调整行动——基于上下文信息进行判断后实际执行任务,如查询资料、编写代码、调用接口、复核结果。
技术定义:Agent以大模型为决策核心,具备规划、工具调用、记忆与反思能力的自主执行单元,能在多轮迭代中向目标推进。
通俗理解:前文中的"实习生"得到升级。之前是用户说一句执行一句;现在只需给出目标——"将本周销售数据整理成报告",Agent会自主思考:数据来源、计算工具、报告结构、结果核对。Agent是能独立完成全流程的角色,而非某层信息。
承载Agent并保障其稳定运行的工程框架。
无论Agent多么智能,都需要框架支撑:管理运行循环、控制工具调用权限、记录执行步骤、提供容错机制、必要时中止操作。这套工程框架即Harness。它不参与Agent决策,但决定Agent的"工作范围与方式"。
技术定义:Harness是承载与编排Agent的运行时框架,负责执行循环、工具注册与权限、状态管理、错误处理与可观测性,实现Agent从"构思"到"可控运行"的工程化落地。
通俗理解:若Agent是驾驶员,Harness则是车辆与交通规则——方向盘、刹车、仪表盘、防护栏一应俱全。司机决定"行驶方向",车辆与规则确保"安全行驶、紧急制动"。因此Harness并非比Agent"更高级",而是包裹Agent、保障其稳定运行。两者是"承载"而非"超越"的关系。
使AI能够连接外部世界的标准化接口。
模型本身仅具备"对话"能力,若需查询数据库、读取文件、调用第三方服务,则必须连接外部工具。MCP作为标准化连接协议,规定AI与外部工具、数据源间的"通信方式、参数传递、结果返回"规范。统一协议使各类工具如同插头接入插座,Agent可即插即用。
技术定义:MCP(Model Context Protocol)作为标准化接口协议,在模型/Agent与外部工具、数据源、服务间建立统一的调用与数据交换方式,降低集成成本并提升复用性。
通俗理解:以往每接入新工具都需单独定制"连接方案",耗时且易出错。MCP统一了插座标准——无论查询天气、读取邮件还是连接数据库,只要符合标准的"插头",AI即可直接使用。需注意:插座是被使用的工具,不比使用者"更高级"。因此将MCP置于Harness之上是方向错误。
将经过验证的有效流程封装为可复用的能力模块。
经过反复验证的有效流程——如"PDF转结构化表格""按公司规范撰写商务邮件"——可封装为Skill:包含步骤说明、注意事项、脚本或模板。下次处理同类任务时,Agent直接装配该Skill即可快速上手,无需重新探索。
技术定义:Skills是对经过验证的工作流、知识与工具组合的封装与沉淀,以可复用单元形式供Agent/Harness按需装配,提升一致性与执行效率。
通俗理解:Skill如同"傻瓜操作手册"或"现成菜谱"。厨师(Agent)无需每道菜都重新发明做法,翻出对应菜谱照做即可,又快又稳。但菜谱终究是被使用的资产,而非"最高级的能力"。将Skills视为七层楼梯的"封顶=终极"同样是误解——它是工具箱中最趁手的工具,而非金字塔顶端。
这些概念如何协同工作?
与其排列成阶梯结构,不如看清关系图:底部是输入基础,向上是决策与运行层,外部连接可调用的工具与资产。
概括链路关系:Harness编排并运行Agent;Agent消费由Token→提示词→上下文构成的输入;在执行过程中,Agent通过MCP连接外部工具、装配现成Skills。各角色各司其职,共同构成从"理解信息"到"完成行动"的完整闭环。
Token、提示词、上下文是AI接收世界的方式,三者层层递进;而Agent(决策者)、Harness(运行环境与规则)、MCP(外部连接器)、Skills(现成方案)是四种不同角色,通过消费、编排、调用、装配相互协作。
因此再次看到"七级阶梯"图时需心中有数:它适合快速科普这七个名词,但准确理解应是——七个关键概念从输入到行动各司其职,共同支撑现代AI系统从"理解"到"执行"的完整过程。