AI大模型核心架构与基础概念全解析

发布时间：2026-06-20 17:33阅读：1

AI大模型核心架构与基础概念全解析

视频概要

本视频由马克老师从工程实践角度系统拆解当下AI领域的核心要素，涵盖大语言模型（LLM）、Token、上下文（Context）、提示词（Prompt）、工具（Tool）、统一接入协议（MCP）、代理（Agent）以及代理技能（Agent Skill）等。通过梳理这些基础概念及其相互关联，帮助观众掌握大模型的运行机制以及如何借助外围组件增强实际应用效果。

1.大语言模型（LLM）与生成原理

LLM定义：大语言模型以Transformer架构为基石，由Google团队于2017年率先提出，OpenAI的GPT系列（GPT-3.5、GPT-4、GPT-5.4）则引爆了现代AI浪潮。

运行机制：模型犹如“文字接龙”游戏，依次预测下一个最可能的词汇，直至输出结束标记。

数字化流程：人类语言经Tokenizer转换为数字Token后输入模型，模型以数字矩阵形式进行运算，最终再由Tokenizer将数字Token还原为文字。

Tokenizer职能：将文字编码为Token ID，并把输出的Token ID解码回文字。Token并非简单对应词语，与词划分不存在严格的一一映射。

2. Token及文本切分机制

Token与词的差异：Token是模型理解的最小粒度，中文词汇可能被切分为多个Token，英文单词通常对应一个Token，但复杂单词同样可拆解。

示例说明："马克的技术工作坊"切分为5个Token，"程序员"则拆为"程序"与"员"两个Token。

Token体量换算：平均而言，1 Token约等于0.75个英文单词或1.5~2个汉字。

深入原理：Token切分细节可参考BPE算法相关视频。

3.上下文（Context）与上下文窗口（Context Window）Context定义：大模型单次处理任务时接收的全部信息，涵盖当前问题、历史对话、系统指令、工具列表及模型输出的Token，本质上可视为模型的临时记忆。

上下文窗口容量：模型所能承载的最大Token数量，例如GPT-5.4具备105万个Token的窗口，可容纳百万字级文本(相当于整套《哈利波特》)。

超长文本挑战：直接输入海量文本成本高昂且存在限制，需借助RAG（检索增强生成）技术，从长文本中提取匹配片段后再生成答案。

4.提示词（Prompt）与提示策略Prompt定义：用户或系统向模型发出的具体问题或指令。

User Prompt：用户输入的请求，例如“帮我写首诗”。

System Prompt：开发者后台配置的人设与规则，比如让模型扮演耐心的数学教师，引导学生思考而非直接给出答案。

Prompt价值：精准且具体的Prompt能显著优化模型输出质量，提示词工程（Prompt Engineering）正是专注于这一优化过程。

门槛降低趋势：随着模型能力提升，模糊的Prompt也能获得较好的理解效果。

5.工具（Tool）与调用流程Tool定义：模型无法直接感知实时外部环境，需要工具（即函数）来提供并影响外界实际信息，例如查询天气。

调用流程示例：用户询问天气→平台转发问题及工具列表→模型选定调用天气工具→平台调用接口获取结果→回传模型→模型整理后输出给用户。

职责划分：模型承担工具选择与调用指令生成，平台负责实际工具调用与信息传递，工具完成具体请求处理。

模型仅产出调用指令，具体执行由平台负责。

6.统一工具接入协议（MCP）背景痛点：不同大模型平台工具接入标准各异，工具开发者需反复适配，开发成本居高不下。

MCP内涵：Model Context Protocol，即统一的工具接入规范。

核心价值：工具开发者仅需按MCP标准开发一次，即可在所有支持MCP的平台通用，恰似手机Type-C接口的统一标准。

深入指引：前期视频系列对MCP进行了详细拆解与讲解。

7.代理（Agent）及其工作机制Agent定义：能够自主规划、连续调用多个工具直至完成复杂任务的智能程序。

示例演示：用户提出“帮我查天气和附近卖雨伞的店”，Agent按序执行：先调用定位工具获取经纬度→调用天气工具查询天气→若为雨天则调用店铺查询工具→汇总结果反馈给用户。

Agent具备规划与决策能力，源自多种构建模式（如ReAct、Plan and Execute等）。

推荐视频：专讲Agent构建模式及简化代码实现。

8.代理技能（Agent Skill）定义：为Agent预置的行为说明文档，规定操作步骤、判断规则与输出格式。

结构组成：

元数据层（Name、Description）说明技能名称与功能。

指令层明确目标、执行步骤、判断规则、输出格式及示例。

应用示例：出门备忘技能“Go out checklist”，涵盖定位与天气查询工具调用规则，以及依据天气判断携带物品并输出特定格式。

存储规范：技能存放于特定文件夹且固定命名为SKILL.Md，便于Agent自动读取与调用。

运行流程：Agent依据用户请求匹配对应技能，逐步调用工具并输出符合格式的结果，增强个性化和规则管控能力。

高级功能涵盖代码执行与资源引用，支持逐步加载以节省Token。

9.概念体系回顾和总结

概念作用与定义备注

LLM大型语言模型，是所有AI技术的核心Transformer架构训练，文字接龙游戏本质

Token模型处理文本的最基础单位，非等同于词中文词可能拆分成多个Token，英文单词一般对应一个Token

Context当前模型处理任务所接受的全部信息，相当于临时记忆含历史聊天、系统规则、输入、工具列表等

Context WindowContext所能容纳的最大Token数量GPT-5.4支持百万级Token上下文，极大提升连续理解能力

Prompt给模型的具体指令或问题，包括User Prompt和System PromptSystem Prompt定义规则和人设，User Prompt是用户输入

Tool外部可调用函数，为模型提供实时数据或操作模型负责选择和指令生成，平台负责执行调用

MCP统一的工具接入协议，为工具开发者降低跨平台接入难度类似手机Type-C标准，实现工具一次开发多平台通用

Agent能持续自主规划、多工具调用完成任务的智能程序结合多种构建模式实现复杂任务自动化

Agent Skill给Agent的使用说明文档，规定执行步骤、规则与输出格式提升Agent应答的规范化和个性化

理解以上关键概念及组合使用的方法，能够帮助开发者与使用者更好地掌握AI模型的实际应用场景，推动大模型与外部工具的协同创新。对从事AI开发或应用的朋友而言，这是一套从底层原理到工程实现的系统知识框架。

← 上一篇：人类何以胜AI 下一篇：AI造梦浪潮下，电影如何守住灵魂？让技术为你所用 →