揭秘AI核心运作机制
当下各类AI术语与技术创新层出不穷,诸如MCP、Skills、LLM wiki、Hermes乃至此前备受关注的龙虾等概念。
究竟哪些底层逻辑能助我们真正理解AI产品或新兴技术?
掌握这些核心概念,基本便能读懂绝大多数新发布的AI论文、产品及其包装概念,故此写下这篇笔记以供记录。
它绝非数据库。
也非传统搜索引擎。
更非具备自我意识的生命体。
AI本质上是一个基于海量数据训练而成的预测系统。其最擅长的本领仅有一项:
依据已见内容,推测接下来最可能出现的状况。
理解这一核心,便能读懂AI:
假设你向AI提问:
对你而言,这是一句完整语句。但对AI来说,其处理流程如下:
让我们逐步拆解分析。
由于计算机无法直接识别文字。
对计算机而言:
与:
仅仅代表不同的字符。
因此,AI接收语句后,首要步骤是进行分词。
例如:
可能被拆解为:
这些最小处理单元被称为:Token。
“明天东京会下雨吗?”这句话在大模型中对应4个Token。Token并非字符,而是语义切分后的最小单位。
诸多模型常宣传:
其实际含义是:
可将其理解为:
AI的短期记忆容量。
容量越大,单次能阅读并记忆的内容越丰富。这也解释了为何部分模型更擅长处理长文档及大型代码项目。某些模型若上传几十MB的文档便无法运行。
因此:上下文窗口、记忆长度、API费用本质上均归结为Token问题。
分词完成后。
AI依然无法知晓:
具体含义。
于是进入下一阶段:
可将Embedding理解为:
为所有词汇构建一张庞大地图。不过,这张地图通过高维坐标进行关联与计算。
例如:
它们在向量空间中经计算后,Token间距离极近。
而:
在向量空间计算后距离则较远。
于是AI逐渐习得:
属于同一语义领域,故当在大模型中搜索日本景点关键词时,可能关联显示最近机票价格,这正是RAG知识库的基础。
简而言之:
在此阶段,Embedding赋予AI将文字转化为数学向量的能力,从而能够衡量词语间的相似度与关联性。
Transformer使模型能同时关注上下文中的关键信息,看这一句:
这里的:
究竟指代何人?
对人类而言并不困难,但对AI来说:
仅是几个Token。
于是Attention机制应运而生。
它协助AI思考:
处理某个Token时,动态决定应参考上下文中的哪些Token。
因此当模型看到:
便会在整个上下文中参考其他Token:
进而动态决定赋予每个词的关注度:
例如:
最终推断:
例如:
在编程场景下
生成第二行解释时:
模型则会重点聚焦,password。
Embedding解决的是:
Attention解决的是:
Transformer最重要的创新之一,在于引入了Self-Attention机制。
使模型在处理每个Token时能动态关注上下文中的其他Token,从而理解词语间的关系。
许多人都有过类似经历:AI回答得头头是道,结果查证后发现完全错误。
这究竟是为何?
因为AI并非搜索引擎。
搜索引擎负责:
AI负责:
这两项任务截然不同。
例如,你询问:
无人知晓答案。
但AI仍会尝试作答。因其工作并非判断真假,而是继续预测最合理的内容。
这如同考试遇到不会的题目。有人选择留白,有人则依据已有信息猜测答案。AI属于后者。
因此:
AI未必知晓答案,但定会努力生成一个看似答案的内容。
这便是所谓的:
既然AI会猜测,是否有办法让它先查阅资料再作答?
于是RAG应运而生。
RAG全称:
中文通常译为:
名称看似复杂。其实非常简单,一句话即可解释:
先查资料,再回答问题。
例如,你问:
系统将:
如此答案源自资料,而非猜测。
因此:
RAG解决了模型获取外部知识的问题,而Agent进一步赋予模型规划、决策及调用工具以完成任务的能力。
例如:
这是一个信息查询问题。
而:
则是一个需多步骤协同完成的任务,为达成目标,AI可能需要:
例如用户表示:
Agent可能会:
与传统聊天机器人相比,Agent不仅能回答问题,更能主动调用工具并执行多步骤以达成目标。
若将AI发展历程压缩为一张流程图:
许多新名词(MCP、A2A、Agentic Workflow、Memory、Computer Use、Tool Use、Deep Research等)本质上都是在:
这四大基础之上进行工程化组合。真正不易过时的,是这几层底层原理,而非某个具体框架或产品名称。