标签

AI认知 005:揭秘模型能力是如何被“训练”出来的

发布时间:2026-05-29 07:05来源:微信阅读:4

AI 认知导图005🗺️

在上一篇中,我们探讨了“模型架构”。架构决定了信息在模型内部的流动,而参数则决定了这些流动中的具体权重与关联。然而,文章结尾留出了一个疑问:架构搭建完毕,参数也已填入,模型为何能展现出实际能力?

刚开始时,即便架构复杂,初始参数也缺乏实际意义。模型并不会天生就知道“苹果”在什么语境下指代水果,何时指代公司,也不会自动掌握总结文章、回答问题或编写代码的技能。那么,这些能力源自何处?答案便是:训练。

训练的核心任务在于:如何将一组初始参数,优化为能够胜任特定任务的参数组合。

许多人对“训练”存在误区,误以为是将知识强行“灌入”模型。仿佛模型训练就是将互联网上的文章、书籍、网页和代码一股脑塞进去,日后需要时再调取。这种理解虽直观,但并不精准;训练并非简单的答案存储。

更准确的说法是,训练通过海量样本反复调整参数,使模型逐渐习得稳定的规律与关联。例如,模型阅览了“北京是中国的首都”、“巴黎是法国的首都”、“东京是日本的首都”等句式。它并非像存文件那样原样存储每句话,也没有单独建立一张“国家—首都”的映射表。更真实的情形是,大量相似表达共同调整了众多参数,使模型内部形成一种分布式的关联模式。

此处的“分布式”并非指服务器那样整齐分布,而是指某个知识点或能力并非由单一参数独立持有,而是由众多参数协同承载。换言之,模型内部通常不存在专门负责“北京是中国首都”这一事实的参数,而是北京、中国、首都、城市、国家、问答句式等多种关系,共同作用于大量参数。

不妨打个比方。一道菜的“红烧味”并非只存在于某粒盐、某滴酱油或某块肉中,而是由调料、食材、火候及烹饪过程共同孕育。模型内的知识亦是如此。“北京是中国首都”这一关系,非由单一参数保存,而是众多参数共同形成的一种倾向。日后遇到“中国的首都是哪里”这类问题时,这些关系协同作用,促使“北京”更易成为输出结果。

因此,训练可简化为一句话:训练并非将知识生硬塞入模型,而是通过数据持续调整参数,使模型构建出可用的模式。模型或许会记住某些具体内容,尤其是高频、重复或特殊信息;但从整体视角看,训练更关键的是将海量数据中的规律压缩进参数关联之中,而非单纯“死记硬背”答案。

若训练非“塞答案”,参数究竟是如何被优化的?

一次训练过程可粗略拆解为四个步骤:前向传播、损失计算、反向传播、参数更新。

第一步是前向传播。数据输入模型后,沿架构层叠向前计算。模型依据当前参数输出预测结果。例如输入“今天天气很”,模型可能预测下一个token为“好”、“热”、“冷”、“差”等,并赋予相应概率。

第二步是计算损失。模型将预测值与目标值比对。若真实文本下一token为“好”,但模型高估了“热”的概率,则说明存在偏差。此差距转化为可计算的数值,即损失。

第三步是反向传播。基于损失值,模型需确定哪些参数需调整及调整方向。反向传播即从输出端层层回溯,计算各参数对误差的贡献。简而言之,模型不仅要知晓“错了”,更要知晓“错在何处”。

第四步是参数更新。优化器依据反向传播信息调整参数。部分连接增强,部分减弱,某些模式更易被激活。随后新数据进入,模型重复此流程。

故而,训练不仅是“前馈”或“前向计算”。前向仅负责预测,真正引发模型变化的是后续的损失计算、反向传播及参数更新。一次训练可视为链式过程:输入 -> 前向预测 -> 计算损失 -> 反向传播 -> 参数更新。此过程反复迭代,参数方逐渐变得有效。

在具体训练前,需阐明关键机制:为何仅预测下一个token,大模型却能展现写作、总结、翻译、代码甚至推理能力?

此目标看似简单:基于上文预测后续最可能内容。关键在于,为提升准确率,模型必须利用上下文关联。Token是模型读写文本的基本单位,不等于完整单词。中文中,token可能是一个字、词或常用组合。如“北京”可能为一个token,也可能被切分为“北”和“京”。

这不代表模型仅学习零散字符。模型基于这些单位,层层计算组合出更大含义。“中”与“国”常共现,模型便习得其组合指向“中国”实体;“北”与“京”亦形成“北京”概念。更高层,“中国”“首都”“北京”共同构建国家、城市及首都的关系模式。

故而,预测下一个token看似细微,实则逼着模型学习更大结构:词、短语、实体、概念、句式与关系。如“太阳从东方升起,从西方……”后接“落下”;“如果今天下雨,出门应该带……”后接“伞”。此目标虽似句子补全,为求精准,模型必须理解上文语境。

为预测token,需知词义;为预测整段,需懂语法与上下文;为预测问答,需吸收事实常识;为预测代码,需习得代码结构、函数关系与错误模式;为预测推理文本,需捕捉步骤关联。

故而,预测下一个token非最终目的,而是训练入口。它促使模型在海量文本中练习:见前文,判后续最合理。为做好此事,模型不得不将语言、知识、格式、风格、代码及部分推理模式压缩进参数。

这便是为何看似简单的目标能衍生出复杂能力。但需注意,此能力非人类经验层面的理解。模型非亲身经历世界,而是学习统计关系、结构模式与表达方式。这也解释了其为何有时精准,有时失误。

明了机制后,再观其在真实训练流程的作用。对今日大模型,此机制首先大规模发生于预训练阶段。

预训练可理解为:先让模型从海量数据中习得基础规律。数据涵盖网页、书籍、百科、代码、论文、问答、论坛等。模型借此学习语言组织、知识表达、文章展开、代码结构及概念关联。此阶段,模型习得非单一任务,而是广泛基础能力。

例如,习得词间关系、句段衔接、事实表达、文体语气与格式,甚至代码、数学、逻辑与常识模式。此即预训练价值:为模型打底。无此底,难成通用助手。

然预训练模型未必好用。虽擅长续写,未必听从指令;虽知大量知识,回答未必符合需求;虽顺承上文,未必像助手般认真完成任务。故预训练解决“有无基础能力”,未完全解决“如何成为助手”。

若预训练赋予基础规律,下一步便是让模型学会:接收到任务时,如何回应。此即指令微调,常称SFT(监督微调)。

其利用大量“指令—回答”样本。如用户求“总结为三点”,模型应提取重点分条;求“解释Transformer”,应用清晰结构、例子解释;求“写Python函数”,应给出合规代码及用法说明。

这些样本告知模型:见何种请求,何种回应更像合格助手。数据来源可包括人工编写、公开任务改造、合规对话数据或强模型生成的合成数据(早期多依赖人工及既有数据,使用闭源模型生成则涉授权与蒸馏争议)。

此步关键。预训练模型更似强力文本续写器,知多种模式,未必知“这是任务,需按任务完成”。指令微调助其从“会接着写”进阶为“会按令答”。故今日大模型好用,不仅因预训练,更因指令微调。

指令微调后,模型更似助手,但一题多解,何者更优?如解释“注意力机制”,模型可能给短而浅、长而术语多、或例证清晰三种回答。单靠“指令—回答”样本不足。模型需进一步学习人类偏好:何种回答更助、更准、更合场景。此即偏好训练。

常见方法有RLHF、DPO、RLAIF。虽名目繁杂,核心皆围绕:让模型学会区分人类偏好的回答与不佳回答。

RLHF用人类反馈训练偏好,DPO直接用偏好数据调整,RLAIF引入AI反馈辅助。细节各异,方向相近:让模型不仅会答,更会选“如何答好”。

故偏好训练塑造回答风格与行为倾向。影响模型是否简洁、有条理、愿认不确定、少胡编、合习惯。亦涉及安全、拒答、风险提示等,如何拒绝、如何提醒、何时不装确定。此已非“训练能力”,而是“约束与使用能力”,后文详述。

训练非模型发布前的一次性动作。

模型发布后,仍可继续调整。如继续预训练(加强法律、医学、金融、代码领域能力),或领域微调(适应客服、合同审查、代码补全、企业问答等具体任务)。

此处先分全量与局部。全量改参成本高、显存与管理成本高。故实践中涌现“少改参数”路线,即PEFT(参数高效微调)。非单一方法,而是一类思路:不动原模型主体,仅训练少量新增或局部参数以适应新任务。

LoRA是PEFT常见方法。可粗解为:不动大模型主体,在特定计算层旁加“可调插件”,仅训练此插件以适应特定任务。

好处是成本低、速度快、易为不同任务存不同版本。同一基础模型,可配法律场景LoRA,亦可配客服场景LoRA,按需加载。

然LoRA非越多越好。未加载时不影响基础模型;加载后即参与计算。若训练偏颇、场景不匹配或多LoRA未协调,可能导致模型风格变窄、表现不稳。

故继续训练与微调非“多喂专业数据”或“多挂插件”那么简单。能力非分存不同抽屉,而是分布在同一套参数关系。若某领域数据占比过高或训练不当,模型可能过度向该领域靠拢,致风格变窄、通用能力降、遇偏离样本不灵活。

所谓“遗忘旧能力”与“过度适应”,皆可视为参数平衡被打破后的表现。

更佳目标是:保留通用能力,同时更好适应特定领域或任务。

至此可见,训练非单一动作,而是塑造模型的整套过程。预训练赋基础能力,指令微调学听指令,偏好训练学选好答,继续训练与微调适多场景。

故模型最终面貌,不仅取决于参数量与结构,更取决于训练数据、目标、微调方式、偏好训练及评估效果。

此即不同模型气质迥异之因。有的写作自然,有的代码稳健,有的推理强,有的回答谨慎,有的多模态佳。背后非仅结构不同,更与训练过程紧密相关。

训练带来能力,亦划定边界。若数据有偏,模型学偏;若目标奖励“像答案”,模型生成顺而不准;若某领域数据不足,该领域即不稳。若后训过度讨好用户,模型易迎合;若过度强调拒答风险,模型易保守。

故观AI模型,不仅要看其“会什么”,更要看其“怎么学会”。

因其学习方式,往往决定了其强弱之处。

本篇讲能力生成链条第四层:训练。

训练非简单按钮,而是连接数据、目标、反馈与参数调整的整套过程。

下一篇,看“规模效应”。

即为何模型变大、数据增多、算力增加后,能力会突然变强?是线性增加,还是出现跃迁?

若文中有不准确或不完善之处,欢迎留言补充。