AI系统核心概念解析：从Token到行动的全链路指南

发布时间：2026-06-23 08:32阅读：2

最近关注AI的朋友，大概都见过那张流传甚广的图：Token、提示词、上下文、Agent、Harness、MCP、Skills七个概念层层向上排列，旁白写着"每一层都建立在前一层之上"。图形确实直观，但容易造成误解——仿佛越往高处就越"高级"，越接近最终形态。

实际情况要简单得多：七个概念中，仅前三个存在真正的递进关系，后四个则是四种截然不同的角色，相互间呈现"谁调用谁、谁管理谁、谁被谁使用"的协作网络。掌握这一点，能显著提升理解AI产品的清晰度。接下来逐一解析，每个概念都提供两种视角：技术定义与通俗类比。

理解AI，先从这些基础单元开始。

大型语言模型处理的是Token，而非直接读取文字。Token作为模型理解语言的基元，可能是完整词汇、词片段、标点符号或汉字的组成部分。模型先将输入文本分解为Token序列，随后通过预测下一个Token的方式逐一生成回复。

技术定义：Token是文本经分词器编码后的离散单元，模型的所有输入输出、上下文容量及计费均以Token为基本单位进行计量。

通俗理解：Token如同乐高积木的最小单元。人类语言和AI回复都不是整句处理，而是拆解成小积木后逐块拼装。因此"上下文容纳8000个Token""某次调用消耗多少Token"，本质上是在计算这些积木的数量。

用户向AI输入的每句话本质上都是一条指令。

提示词承载着用户向模型传达的指令——明确任务目标、设定角色身份、规定输出格式。同一模型，提示词质量直接影响效果差异。于是催生了"提示词工程"这一专业领域：通过角色定义、示例提供、步骤约束，最大化释放模型潜能。

技术定义：Prompt作为引导模型生成特定输出的输入文本，可包含指令、few-shot示例、约束条件与角色设定，构成人机交互的核心控制界面。

通俗理解：若将模型比作能力出众但缺乏主见的实习生，提示词便是下达任务的便签。仅写"帮我写点东西"会让其困惑；明确"200字、面向小学生、解释彩虹现象"，任务便能顺利完成。掌握提示词本质是掌握任务交代的技巧。

AI的"即时记忆"范围决定其可见信息量。

上下文涵盖模型生成回复时"同步感知"的全量信息——包括当前提示、历史对话、附加文档等。模型缺乏真正的持久记忆，每次回复都依赖这整块上下文。上下文可容纳的Token数量存在上限，即"上下文窗口"。

技术定义：Context是单次推理中模型可访问的完整Token序列；上下文窗口限定模型可"记忆"的历史长度与参考材料规模，超出部分将被截断或遗忘。

通俗理解：上下文如同AI面前的办公桌面。空间有限，可展开的资料取决于桌面容量——能容纳的才可供参考，超出范围则被忽略。因此AI"遗忘"之前的对话内容，通常不是"记忆力不足"，而是新内容占满桌面空间导致旧内容被挤出。

前三个概念确实存在递进关系

Token、提示词、上下文三者存在递进关系：Token作为基本单元构成提示词指令，多轮指令与资料汇聚形成上下文。它们共同构成AI的"输入与表示层"，即AI接收与理解信息的方式。

从下一个概念开始，性质发生转变。Agent、Harness、MCP、Skills不再是"更高层级的信息"，而是围绕信息运作的不同角色。继续用阶梯思维理解会偏离本质。

能够独立决策与执行的智能体。

Agent是具备自主决策与任务执行能力的智能体。不同于简单的问答交互，Agent能够分解目标、制定计划、调用工具、根据反馈调整行动——基于上下文信息进行判断后实际执行任务，如查询资料、编写代码、调用接口、复核结果。

技术定义：Agent以大模型为决策核心，具备规划、工具调用、记忆与反思能力的自主执行单元，能在多轮迭代中向目标推进。

通俗理解：前文中的"实习生"得到升级。之前是用户说一句执行一句；现在只需给出目标——"将本周销售数据整理成报告"，Agent会自主思考：数据来源、计算工具、报告结构、结果核对。Agent是能独立完成全流程的角色，而非某层信息。

承载Agent并保障其稳定运行的工程框架。

无论Agent多么智能，都需要框架支撑：管理运行循环、控制工具调用权限、记录执行步骤、提供容错机制、必要时中止操作。这套工程框架即Harness。它不参与Agent决策，但决定Agent的"工作范围与方式"。

技术定义：Harness是承载与编排Agent的运行时框架，负责执行循环、工具注册与权限、状态管理、错误处理与可观测性，实现Agent从"构思"到"可控运行"的工程化落地。

通俗理解：若Agent是驾驶员，Harness则是车辆与交通规则——方向盘、刹车、仪表盘、防护栏一应俱全。司机决定"行驶方向"，车辆与规则确保"安全行驶、紧急制动"。因此Harness并非比Agent"更高级"，而是包裹Agent、保障其稳定运行。两者是"承载"而非"超越"的关系。

使AI能够连接外部世界的标准化接口。

模型本身仅具备"对话"能力，若需查询数据库、读取文件、调用第三方服务，则必须连接外部工具。MCP作为标准化连接协议，规定AI与外部工具、数据源间的"通信方式、参数传递、结果返回"规范。统一协议使各类工具如同插头接入插座，Agent可即插即用。

技术定义：MCP（Model Context Protocol）作为标准化接口协议，在模型/Agent与外部工具、数据源、服务间建立统一的调用与数据交换方式，降低集成成本并提升复用性。

通俗理解：以往每接入新工具都需单独定制"连接方案"，耗时且易出错。MCP统一了插座标准——无论查询天气、读取邮件还是连接数据库，只要符合标准的"插头"，AI即可直接使用。需注意：插座是被使用的工具，不比使用者"更高级"。因此将MCP置于Harness之上是方向错误。

将经过验证的有效流程封装为可复用的能力模块。

经过反复验证的有效流程——如"PDF转结构化表格""按公司规范撰写商务邮件"——可封装为Skill：包含步骤说明、注意事项、脚本或模板。下次处理同类任务时，Agent直接装配该Skill即可快速上手，无需重新探索。

技术定义：Skills是对经过验证的工作流、知识与工具组合的封装与沉淀，以可复用单元形式供Agent/Harness按需装配，提升一致性与执行效率。

通俗理解：Skill如同"傻瓜操作手册"或"现成菜谱"。厨师（Agent）无需每道菜都重新发明做法，翻出对应菜谱照做即可，又快又稳。但菜谱终究是被使用的资产，而非"最高级的能力"。将Skills视为七层楼梯的"封顶=终极"同样是误解——它是工具箱中最趁手的工具，而非金字塔顶端。

这些概念如何协同工作？

与其排列成阶梯结构，不如看清关系图：底部是输入基础，向上是决策与运行层，外部连接可调用的工具与资产。

概括链路关系：Harness编排并运行Agent；Agent消费由Token→提示词→上下文构成的输入；在执行过程中，Agent通过MCP连接外部工具、装配现成Skills。各角色各司其职，共同构成从"理解信息"到"完成行动"的完整闭环。

Token、提示词、上下文是AI接收世界的方式，三者层层递进；而Agent（决策者）、Harness（运行环境与规则）、MCP（外部连接器）、Skills（现成方案）是四种不同角色，通过消费、编排、调用、装配相互协作。

因此再次看到"七级阶梯"图时需心中有数：它适合快速科普这七个名词，但准确理解应是——七个关键概念从输入到行动各司其职，共同支撑现代AI系统从"理解"到"执行"的完整过程。

← 上一篇：人工智能动态日报 | 2026年6月23日焦点：智谱估值突破万亿，谷歌AI精英大量外流下一篇：AI能否成为真正的朋友？ →