AI认知 005：揭秘模型能力是如何被“训练”出来的

发布时间：2026-05-29 07:05阅读：10

AI 认知导图005🗺️

在上一篇中，我们探讨了“模型架构”。架构决定了信息在模型内部的流动，而参数则决定了这些流动中的具体权重与关联。然而，文章结尾留出了一个疑问：架构搭建完毕，参数也已填入，模型为何能展现出实际能力？

刚开始时，即便架构复杂，初始参数也缺乏实际意义。模型并不会天生就知道“苹果”在什么语境下指代水果，何时指代公司，也不会自动掌握总结文章、回答问题或编写代码的技能。那么，这些能力源自何处？答案便是：训练。

训练的核心任务在于：如何将一组初始参数，优化为能够胜任特定任务的参数组合。

许多人对“训练”存在误区，误以为是将知识强行“灌入”模型。仿佛模型训练就是将互联网上的文章、书籍、网页和代码一股脑塞进去，日后需要时再调取。这种理解虽直观，但并不精准；训练并非简单的答案存储。

更准确的说法是，训练通过海量样本反复调整参数，使模型逐渐习得稳定的规律与关联。例如，模型阅览了“北京是中国的首都”、“巴黎是法国的首都”、“东京是日本的首都”等句式。它并非像存文件那样原样存储每句话，也没有单独建立一张“国家—首都”的映射表。更真实的情形是，大量相似表达共同调整了众多参数，使模型内部形成一种分布式的关联模式。

此处的“分布式”并非指服务器那样整齐分布，而是指某个知识点或能力并非由单一参数独立持有，而是由众多参数协同承载。换言之，模型内部通常不存在专门负责“北京是中国首都”这一事实的参数，而是北京、中国、首都、城市、国家、问答句式等多种关系，共同作用于大量参数。

不妨打个比方。一道菜的“红烧味”并非只存在于某粒盐、某滴酱油或某块肉中，而是由调料、食材、火候及烹饪过程共同孕育。模型内的知识亦是如此。“北京是中国首都”这一关系，非由单一参数保存，而是众多参数共同形成的一种倾向。日后遇到“中国的首都是哪里”这类问题时，这些关系协同作用，促使“北京”更易成为输出结果。

因此，训练可简化为一句话：训练并非将知识生硬塞入模型，而是通过数据持续调整参数，使模型构建出可用的模式。模型或许会记住某些具体内容，尤其是高频、重复或特殊信息；但从整体视角看，训练更关键的是将海量数据中的规律压缩进参数关联之中，而非单纯“死记硬背”答案。

若训练非“塞答案”，参数究竟是如何被优化的？

一次训练过程可粗略拆解为四个步骤：前向传播、损失计算、反向传播、参数更新。

第一步是前向传播。数据输入模型后，沿架构层叠向前计算。模型依据当前参数输出预测结果。例如输入“今天天气很”，模型可能预测下一个token为“好”、“热”、“冷”、“差”等，并赋予相应概率。

第二步是计算损失。模型将预测值与目标值比对。若真实文本下一token为“好”，但模型高估了“热”的概率，则说明存在偏差。此差距转化为可计算的数值，即损失。

第三步是反向传播。基于损失值，模型需确定哪些参数需调整及调整方向。反向传播即从输出端层层回溯，计算各参数对误差的贡献。简而言之，模型不仅要知晓“错了”，更要知晓“错在何处”。

第四步是参数更新。优化器依据反向传播信息调整参数。部分连接增强，部分减弱，某些模式更易被激活。随后新数据进入，模型重复此流程。

故而，训练不仅是“前馈”或“前向计算”。前向仅负责预测，真正引发模型变化的是后续的损失计算、反向传播及参数更新。一次训练可视为链式过程：输入 -> 前向预测 -> 计算损失 -> 反向传播 -> 参数更新。此过程反复迭代，参数方逐渐变得有效。

在具体训练前，需阐明关键机制：为何仅预测下一个token，大模型却能展现写作、总结、翻译、代码甚至推理能力？

此目标看似简单：基于上文预测后续最可能内容。关键在于，为提升准确率，模型必须利用上下文关联。Token是模型读写文本的基本单位，不等于完整单词。中文中，token可能是一个字、词或常用组合。如“北京”可能为一个token，也可能被切分为“北”和“京”。

这不代表模型仅学习零散字符。模型基于这些单位，层层计算组合出更大含义。“中”与“国”常共现，模型便习得其组合指向“中国”实体；“北”与“京”亦形成“北京”概念。更高层，“中国”“首都”“北京”共同构建国家、城市及首都的关系模式。

故而，预测下一个token看似细微，实则逼着模型学习更大结构：词、短语、实体、概念、句式与关系。如“太阳从东方升起，从西方……”后接“落下”；“如果今天下雨，出门应该带……”后接“伞”。此目标虽似句子补全，为求精准，模型必须理解上文语境。

为预测token，需知词义；为预测整段，需懂语法与上下文；为预测问答，需吸收事实常识；为预测代码，需习得代码结构、函数关系与错误模式；为预测推理文本，需捕捉步骤关联。

故而，预测下一个token非最终目的，而是训练入口。它促使模型在海量文本中练习：见前文，判后续最合理。为做好此事，模型不得不将语言、知识、格式、风格、代码及部分推理模式压缩进参数。

这便是为何看似简单的目标能衍生出复杂能力。但需注意，此能力非人类经验层面的理解。模型非亲身经历世界，而是学习统计关系、结构模式与表达方式。这也解释了其为何有时精准，有时失误。

明了机制后，再观其在真实训练流程的作用。对今日大模型，此机制首先大规模发生于预训练阶段。

预训练可理解为：先让模型从海量数据中习得基础规律。数据涵盖网页、书籍、百科、代码、论文、问答、论坛等。模型借此学习语言组织、知识表达、文章展开、代码结构及概念关联。此阶段，模型习得非单一任务，而是广泛基础能力。

例如，习得词间关系、句段衔接、事实表达、文体语气与格式，甚至代码、数学、逻辑与常识模式。此即预训练价值：为模型打底。无此底，难成通用助手。

然预训练模型未必好用。虽擅长续写，未必听从指令；虽知大量知识，回答未必符合需求；虽顺承上文，未必像助手般认真完成任务。故预训练解决“有无基础能力”，未完全解决“如何成为助手”。

若预训练赋予基础规律，下一步便是让模型学会：接收到任务时，如何回应。此即指令微调，常称SFT（监督微调）。

其利用大量“指令—回答”样本。如用户求“总结为三点”，模型应提取重点分条；求“解释Transformer”，应用清晰结构、例子解释；求“写Python函数”，应给出合规代码及用法说明。

这些样本告知模型：见何种请求，何种回应更像合格助手。数据来源可包括人工编写、公开任务改造、合规对话数据或强模型生成的合成数据（早期多依赖人工及既有数据，使用闭源模型生成则涉授权与蒸馏争议）。

此步关键。预训练模型更似强力文本续写器，知多种模式，未必知“这是任务，需按任务完成”。指令微调助其从“会接着写”进阶为“会按令答”。故今日大模型好用，不仅因预训练，更因指令微调。

指令微调后，模型更似助手，但一题多解，何者更优？如解释“注意力机制”，模型可能给短而浅、长而术语多、或例证清晰三种回答。单靠“指令—回答”样本不足。模型需进一步学习人类偏好：何种回答更助、更准、更合场景。此即偏好训练。

常见方法有RLHF、DPO、RLAIF。虽名目繁杂，核心皆围绕：让模型学会区分人类偏好的回答与不佳回答。

RLHF用人类反馈训练偏好，DPO直接用偏好数据调整，RLAIF引入AI反馈辅助。细节各异，方向相近：让模型不仅会答，更会选“如何答好”。

故偏好训练塑造回答风格与行为倾向。影响模型是否简洁、有条理、愿认不确定、少胡编、合习惯。亦涉及安全、拒答、风险提示等，如何拒绝、如何提醒、何时不装确定。此已非“训练能力”，而是“约束与使用能力”，后文详述。

训练非模型发布前的一次性动作。

模型发布后，仍可继续调整。如继续预训练（加强法律、医学、金融、代码领域能力），或领域微调（适应客服、合同审查、代码补全、企业问答等具体任务）。

此处先分全量与局部。全量改参成本高、显存与管理成本高。故实践中涌现“少改参数”路线，即PEFT（参数高效微调）。非单一方法，而是一类思路：不动原模型主体，仅训练少量新增或局部参数以适应新任务。

LoRA是PEFT常见方法。可粗解为：不动大模型主体，在特定计算层旁加“可调插件”，仅训练此插件以适应特定任务。

好处是成本低、速度快、易为不同任务存不同版本。同一基础模型，可配法律场景LoRA，亦可配客服场景LoRA，按需加载。

然LoRA非越多越好。未加载时不影响基础模型；加载后即参与计算。若训练偏颇、场景不匹配或多LoRA未协调，可能导致模型风格变窄、表现不稳。

故继续训练与微调非“多喂专业数据”或“多挂插件”那么简单。能力非分存不同抽屉，而是分布在同一套参数关系。若某领域数据占比过高或训练不当，模型可能过度向该领域靠拢，致风格变窄、通用能力降、遇偏离样本不灵活。

所谓“遗忘旧能力”与“过度适应”，皆可视为参数平衡被打破后的表现。

更佳目标是：保留通用能力，同时更好适应特定领域或任务。

至此可见，训练非单一动作，而是塑造模型的整套过程。预训练赋基础能力，指令微调学听指令，偏好训练学选好答，继续训练与微调适多场景。

故模型最终面貌，不仅取决于参数量与结构，更取决于训练数据、目标、微调方式、偏好训练及评估效果。

此即不同模型气质迥异之因。有的写作自然，有的代码稳健，有的推理强，有的回答谨慎，有的多模态佳。背后非仅结构不同，更与训练过程紧密相关。

训练带来能力，亦划定边界。若数据有偏，模型学偏；若目标奖励“像答案”，模型生成顺而不准；若某领域数据不足，该领域即不稳。若后训过度讨好用户，模型易迎合；若过度强调拒答风险，模型易保守。

故观AI模型，不仅要看其“会什么”，更要看其“怎么学会”。

因其学习方式，往往决定了其强弱之处。

本篇讲能力生成链条第四层：训练。

训练非简单按钮，而是连接数据、目标、反馈与参数调整的整套过程。

下一篇，看“规模效应”。

即为何模型变大、数据增多、算力增加后，能力会突然变强？是线性增加，还是出现跃迁？

若文中有不准确或不完善之处，欢迎留言补充。

← 上一篇：讯飞首款AI眼镜亮相，4299元开启预售下一篇：AI日报：企业开发者破百万，三大巨头冲刺上市，产业竞争升级 →