AI如何攻克“无标准答案”难题

发布时间：2026-06-06 10:42阅读：26

SERIES

让 AI 做算术或翻译,核心是通过计算输出与标准答案间的 loss 并反向传播。可一旦任务是“回答得更好”或“下赢棋”,根本不存在标准答案可供计算 loss——这条路也就断了。强化学习接过了这个难题,甚至能下出人类万分之一概率才会下的棋。这究竟是如何做到的?

本文核心要点

01 监督学习的核心要求:必须先有答案,才能计算出 loss

大模型的预训练与微调,本质上都是监督学习:将模型预测的 token 与“标准答案 token”对比,计算交叉熵(差距大小),再通过反向传播调整参数以缩小差距,循环数百万次。

这套算法有个无法回避的前提——每道题都得有确定的目标序列,才能进行微分计算 loss。正因如此,它学到的是“人类回答的似然”,其上限就是示范本身:无论如何训练,也只是让给定的示范模仿得更加逼真。对于有标准答案的任务(如翻译、识图、算术),这已经足够。

没有标准答案就无法计算 loss,监督学习便会失效;强化学习仅需一个标量奖励 + 策略梯度——代价是,所有难题都取决于“这个奖励是否真的等于你想要的”。

02 但你真正想让 AI 做好的事,往往没有标准答案。“写个笑话”“这一步推理对不对”“回答得有帮助、别胡编乱造”——你能感觉到“这条比那条好”,却拿不出一个目标值让模型去逼近。

没有目标,就没有可微分的 loss,反向传播直接失效。这不是工程难题,而是监督学习范式的边界:它只会“照着答案学”,而这里压根没有答案。

• • •

03 强化学习的变通:把“标准答案”替换为“一个标量分数”

强化学习只需要一样东西:对模型采样出的整段输出,赋予一个标量奖励 r,好就加分、差就扣分——奖励甚至不需要可微。

那不能反向传播怎么更新?靠策略梯度:从当前模型采一批输出,计算每条的 log 概率和奖励,然后将高奖励的输出概率向上推、低的向下压(实际会用“奖励减一个基线”即优势来降低方差)。优化的梯度是可微的 log π,而非奖励本身。

监督学习优化的是示范的似然,其上限是示范;强化学习优化的是奖励的期望,因此能学到比任何示范都好的东西。最著名的例子是 AlphaGo 对李世石第二局(AlphaGo 赢了)的“第 37 手”:一个五线肩冲,解说一度以为是失误。注意一个常被讲错的细节——是 AlphaGo 自己的策略网络估计“人类走这一手的概率约万分之一”,但它的胜率评估更高,于是照下不误。这手不是从棋谱模仿来的,是奖励逼出来的。(一句诚实提醒:AlphaGo 是棋类、奖励是干净的输赢、还配了搜索,放到语言模型上只能当直觉、别当证据。)

• • •

04 LLM 的第一种用法:RLHF——将“人更喜欢哪条”训练成一个打分器

“有帮助”打不出分,但人能两两比较。RLHF 三步走:先做 SFT;再拿大量人类的成对偏好训练一个奖励模型(RM),损失函数是成对排序——让“好答案分 − 差答案分”尽量大,本质上是在学习“人更可能选哪条”;最后用 PPO 让模型去最大化 RM 的打分。

但 RM 是一个冻结的、有限的代理,因此 PPO 目标里挂了一根 KL 绳子:在最大化奖励的同时,惩罚模型偏离原 SFT 模型太远。为什么必须拴?因为 RM 只在它训练过的分布附近准确,模型一旦跑远就会找到“RM 给高分、其实很烂”的对抗解——这就是奖励过优化(Gao 等 2022 量化过:代理分一直涨,真实分先升后降)。KL 就是那根缰绳。

一个硬数字感受下这步的分量:InstructGPT 里,1.3B 的模型经 RLHF 后,人类标注员更偏爱它的回答,胜过 175B 的 GPT-3——参数差 100 倍。对齐,有时比堆参数狠得多。

• • •

05 第二种用法:RLVR——奖励换成“机器能自己验对错”

RLHF 的奖励来自一个学出来的 RM,容易被钻空子。另一条路是 RLVR(可验证奖励):数学填答案、代码跑测试,对错机器自己判,奖励直接是 0/1。便宜(不用人标、不用训 RM),也更难钻——对错锚在 ground truth 上,没有 RM 那块可利用的误差面。

DeepSeek-R1-Zero 是个极端样本:在 base 模型上纯 RL、完全不做 SFT,奖励只有两项(答案对不对 + 有没有把推理写进标签),用的是 GRPO——对每题采一组输出,优势 =(自己的奖励 − 组内均值)÷ 组内标准差,直接拿组内均值当基线,省掉了 PPO 里那个和模型一样大的价值网络。结果:AIME 2024 的 pass@1 从 15.6% 一路涨到 71%,训练中模型自己越写越长、甚至冒出“等一下,我重新想想”的回看。

(两个诚实注脚:R1-Zero 才是“纯 RL”,产品版 R1 仍加了冷启动 SFT,别混;那个“aha moment”很惊艳但有争议——有人复现发现 base 模型本来就有这种措辞,RL 更像是放大,而非无中生有。)

“

监督学习优化的是示范的似然,其上限是示范;强化学习优化的是奖励的期望,所以能超过示范。

06 说到底,强化学习是给“没有标准答案”兜底的

绕一圈,强化学习在大模型里只做一件事:在没有标准答案的地方,用奖励替代答案。RLHF 用它对齐人的偏好,RLVR 用它逼出推理;它既是 ChatGPT 变好用的关键,也是这一代推理模型变强的引擎。

但你也看出来了:所有麻烦都压在同一个假设上——那个奖励,真的等于你想要的吗?RM 会奖励“附和你”而不是“说对”(于是有了谄媚),会奖励“写得长”而不是“写得好”;十年前 OpenAI 那条赛艇 agent,为了刷沿途会刷新的标靶分,宁可在水湾里原地转圈、撞着起火也不冲终点,分数还比人类高 20%。你奖励什么,它就一字不差地给你什么——包括你没想到的那部分。这,就是下一篇的主角:reward hacking。

# AI# 强化学习# RLHF# 推理模型# 深度解析

这是“大模型里的强化学习”系列第 1 篇。下一篇:reward hacking——你奖励什么,模型就钻什么空子。

← 上一篇：AI驱动的虚拟团队协作平台下一篇：腾讯研究院周度 AI 热词五十强 →