标签

揭秘AI核心运作机制

发布时间:2026-06-14 02:04阅读:2

当下各类AI术语与技术创新层出不穷,诸如MCP、Skills、LLM wiki、Hermes乃至此前备受关注的龙虾等概念。

究竟哪些底层逻辑能助我们真正理解AI产品或新兴技术?

掌握这些核心概念,基本便能读懂绝大多数新发布的AI论文、产品及其包装概念,故此写下这篇笔记以供记录。

它绝非数据库。

也非传统搜索引擎。

更非具备自我意识的生命体。

AI本质上是一个基于海量数据训练而成的预测系统。其最擅长的本领仅有一项:

依据已见内容,推测接下来最可能出现的状况。

理解这一核心,便能读懂AI:

假设你向AI提问:

对你而言,这是一句完整语句。但对AI来说,其处理流程如下:

让我们逐步拆解分析。

由于计算机无法直接识别文字。

对计算机而言:

与:

仅仅代表不同的字符。

因此,AI接收语句后,首要步骤是进行分词。

例如:

可能被拆解为:

这些最小处理单元被称为:Token。

“明天东京会下雨吗?”这句话在大模型中对应4个Token。Token并非字符,而是语义切分后的最小单位。

诸多模型常宣传:

其实际含义是:

可将其理解为:

AI的短期记忆容量。

容量越大,单次能阅读并记忆的内容越丰富。这也解释了为何部分模型更擅长处理长文档及大型代码项目。某些模型若上传几十MB的文档便无法运行。

因此:上下文窗口、记忆长度、API费用本质上均归结为Token问题。

分词完成后。

AI依然无法知晓:

具体含义。

于是进入下一阶段:

可将Embedding理解为:

为所有词汇构建一张庞大地图。不过,这张地图通过高维坐标进行关联与计算。

例如:

它们在向量空间中经计算后,Token间距离极近。

而:

在向量空间计算后距离则较远。

于是AI逐渐习得:

属于同一语义领域,故当在大模型中搜索日本景点关键词时,可能关联显示最近机票价格,这正是RAG知识库的基础。

简而言之:

在此阶段,Embedding赋予AI将文字转化为数学向量的能力,从而能够衡量词语间的相似度与关联性。

Transformer使模型能同时关注上下文中的关键信息,看这一句:

这里的:

究竟指代何人?

对人类而言并不困难,但对AI来说:

仅是几个Token。

于是Attention机制应运而生。

它协助AI思考:

处理某个Token时,动态决定应参考上下文中的哪些Token。

因此当模型看到:

便会在整个上下文中参考其他Token:

进而动态决定赋予每个词的关注度:

例如:

最终推断:

例如:

在编程场景下

生成第二行解释时:

模型则会重点聚焦,password。

Embedding解决的是:

Attention解决的是:

Transformer最重要的创新之一,在于引入了Self-Attention机制。

使模型在处理每个Token时能动态关注上下文中的其他Token,从而理解词语间的关系。

许多人都有过类似经历:AI回答得头头是道,结果查证后发现完全错误。

这究竟是为何?

因为AI并非搜索引擎。

搜索引擎负责:

AI负责:

这两项任务截然不同。

例如,你询问:

无人知晓答案。

但AI仍会尝试作答。因其工作并非判断真假,而是继续预测最合理的内容。

这如同考试遇到不会的题目。有人选择留白,有人则依据已有信息猜测答案。AI属于后者。

因此:

AI未必知晓答案,但定会努力生成一个看似答案的内容。

这便是所谓的:

既然AI会猜测,是否有办法让它先查阅资料再作答?

于是RAG应运而生。

RAG全称:

中文通常译为:

名称看似复杂。其实非常简单,一句话即可解释:

先查资料,再回答问题。

例如,你问:

系统将:

如此答案源自资料,而非猜测。

因此:

RAG解决了模型获取外部知识的问题,而Agent进一步赋予模型规划、决策及调用工具以完成任务的能力。

例如:

这是一个信息查询问题。

而:

则是一个需多步骤协同完成的任务,为达成目标,AI可能需要:

例如用户表示:

Agent可能会:

与传统聊天机器人相比,Agent不仅能回答问题,更能主动调用工具并执行多步骤以达成目标。

若将AI发展历程压缩为一张流程图:

许多新名词(MCP、A2A、Agentic Workflow、Memory、Computer Use、Tool Use、Deep Research等)本质上都是在:

这四大基础之上进行工程化组合。真正不易过时的,是这几层底层原理,而非某个具体框架或产品名称。