AI如何攻克“无标准答案”难题
SERIES让 AI 做算术或翻译,核心是通过计算输出与标准答案间的 loss 并反向传播。可一旦任务是“回答得更好”或“下赢棋”,根本不存在标准答案可供计算 loss——这条路也就断了。强化学习接过了这个难题,甚至能下出人类万分之一概率才会下的棋。这究竟是如何做到的?本文核心要点01 监督学习的核心要求:必须先有答案,才能计算出 loss大模型的预训练与微调,本质上都是监督学习:将模型预测的 token 与“标准答案 token”对比,计算交叉熵(差距大小),再通过反向传播调整参数以缩小差距,循环数百万