揭秘AI核心运作机制

发布时间：2026-06-14 02:04阅读：16

当下各类AI术语与技术创新层出不穷，诸如MCP、Skills、LLM wiki、Hermes乃至此前备受关注的龙虾等概念。

究竟哪些底层逻辑能助我们真正理解AI产品或新兴技术？

掌握这些核心概念，基本便能读懂绝大多数新发布的AI论文、产品及其包装概念，故此写下这篇笔记以供记录。

它绝非数据库。

也非传统搜索引擎。

更非具备自我意识的生命体。

AI本质上是一个基于海量数据训练而成的预测系统。其最擅长的本领仅有一项：

依据已见内容，推测接下来最可能出现的状况。

理解这一核心，便能读懂AI：

假设你向AI提问：

对你而言，这是一句完整语句。但对AI来说，其处理流程如下：

让我们逐步拆解分析。

由于计算机无法直接识别文字。

对计算机而言：

与：

仅仅代表不同的字符。

因此，AI接收语句后，首要步骤是进行分词。

例如：

可能被拆解为：

这些最小处理单元被称为：Token。

“明天东京会下雨吗？”这句话在大模型中对应4个Token。Token并非字符，而是语义切分后的最小单位。

诸多模型常宣传：

其实际含义是：

可将其理解为：

AI的短期记忆容量。

容量越大，单次能阅读并记忆的内容越丰富。这也解释了为何部分模型更擅长处理长文档及大型代码项目。某些模型若上传几十MB的文档便无法运行。

因此：上下文窗口、记忆长度、API费用本质上均归结为Token问题。

分词完成后。

AI依然无法知晓：

具体含义。

于是进入下一阶段：

可将Embedding理解为：

为所有词汇构建一张庞大地图。不过，这张地图通过高维坐标进行关联与计算。

例如：

它们在向量空间中经计算后，Token间距离极近。

而：

在向量空间计算后距离则较远。

于是AI逐渐习得：

属于同一语义领域，故当在大模型中搜索日本景点关键词时，可能关联显示最近机票价格，这正是RAG知识库的基础。

简而言之：

在此阶段，Embedding赋予AI将文字转化为数学向量的能力，从而能够衡量词语间的相似度与关联性。

Transformer使模型能同时关注上下文中的关键信息，看这一句：

这里的：

究竟指代何人？

对人类而言并不困难，但对AI来说：

仅是几个Token。

于是Attention机制应运而生。

它协助AI思考：

处理某个Token时，动态决定应参考上下文中的哪些Token。

因此当模型看到：

便会在整个上下文中参考其他Token：

进而动态决定赋予每个词的关注度：

例如：

最终推断：

例如：

在编程场景下

生成第二行解释时：

模型则会重点聚焦，password。

Embedding解决的是：

Attention解决的是：

Transformer最重要的创新之一，在于引入了Self-Attention机制。

使模型在处理每个Token时能动态关注上下文中的其他Token，从而理解词语间的关系。

许多人都有过类似经历：AI回答得头头是道，结果查证后发现完全错误。

这究竟是为何？

因为AI并非搜索引擎。

搜索引擎负责：

AI负责：

这两项任务截然不同。

例如，你询问：

无人知晓答案。

但AI仍会尝试作答。因其工作并非判断真假，而是继续预测最合理的内容。

这如同考试遇到不会的题目。有人选择留白，有人则依据已有信息猜测答案。AI属于后者。

因此：

AI未必知晓答案，但定会努力生成一个看似答案的内容。

这便是所谓的：

既然AI会猜测，是否有办法让它先查阅资料再作答？

于是RAG应运而生。

RAG全称：

中文通常译为：

名称看似复杂。其实非常简单，一句话即可解释：

先查资料，再回答问题。

例如，你问：

系统将：

如此答案源自资料，而非猜测。

因此：

RAG解决了模型获取外部知识的问题，而Agent进一步赋予模型规划、决策及调用工具以完成任务的能力。

例如：

这是一个信息查询问题。

而：

则是一个需多步骤协同完成的任务，为达成目标，AI可能需要：

例如用户表示：

Agent可能会：

与传统聊天机器人相比，Agent不仅能回答问题，更能主动调用工具并执行多步骤以达成目标。

若将AI发展历程压缩为一张流程图：

许多新名词（MCP、A2A、Agentic Workflow、Memory、Computer Use、Tool Use、Deep Research等）本质上都是在：

这四大基础之上进行工程化组合。真正不易过时的，是这几层底层原理，而非某个具体框架或产品名称。

← 上一篇：AI浪潮下，设计的真正价值被忽视了下一篇：AI Agent 接管工作，白领危机加剧 →