AI时代需求定义新范式：从评估视角重塑产品思维

发布时间：2026-05-17 15:07阅读：29

评估不仅是业务层面的议题，更涉及组织协调，达成一致的过程往往比结果本身更值得关注。

AI 产品经理手册 · 第一章

— 第一节 —

PRD 已成过去式，Eval 重塑需求边界

区别于传统软件时代在确定性环境下的增删改查操作，

大模型时代让一切都演变为概率驱动的输出模式。

我们无法再用一份 PRD 完整描述一个 AI 产品的所有表现；

需求定义，几乎进入了样本定义时代。

这不难理解：算法研发依赖的是训练素材与评估样本，

而非一份仅阐述规则的规格文档。

区别于第零章对理念和工具的引入，从这一节开始，我们正式进入实战环节。后续每一节都会涉及一些从业务角度看相对复杂的概念——我会尽可能剥离与业务无关的技术细节，用产品经理易于理解的方式进行阐述。

接下来要解答的问题是：当产品从确定性操作转变为概率驱动输出时，需求应如何被定义？

先回顾传统软件时代的产品形态。

在相当长的时间里，我们所做的产品，本质上都是定义一组确定性的操作：增、删、改、查，加上权限、流程、状态机和异常处理。

这些需求当然也会复杂，但它们有一个共同前提：输入、流程和输出都相对确定，可以被规则枚举和代码实现。

所以 PRD 在这个时代非常有效。它不需要描述世界上所有可能发生的结果，只要把关键流程、边界条件、业务规则和价值判断阐述清楚，工程团队就能将其落地为软件系统。

传统软件时代，PRD 的核心作用是：把需求的含义与价值，转化为工程团队可以实现的确定性规则。

它适合描述的是：流程、字段、状态、权限、异常、页面与交互。

但大模型产品不是这样。

同一个用户问题，模型会生成不同的答案；同一个任务，模型会走出不同的推理路径；同一个 Agent，在不同 context 下会调用不同的工具、走出不同的中间状态。

这不是 bug，而是大模型产品的基本形态：它提供的不是确定性操作，而是概率驱动输出。

也就是说，一个 AI 产品真正交付给用户的，不是某个固定页面、某个固定按钮、某条固定规则，而是在给定 context 下，模型对答案、计划、建议、动作路径的一次概率采样。

这时，传统 PRD 的局限就出现了。

你可以在 PRD 里写：

AI 应该给出专业、安全、个性化、可执行的运动建议。

但这句话无法穷尽描述产品的所有效果。什么叫专业？什么叫安全？个性化到什么程度？可执行的标准是什么？在高温高湿、用户疲劳、心率异常、训练目标冲突的场景下，哪一个优先级最高？

这些问题不能靠一句需求描述解决。它们必须被拆成一组带 context 的样本，以及围绕这些样本定义的判断标准。

所以，大模型时代并不意味着 PRD 没用了。

PRD 依然有价值：它负责说明背景、用户问题、业务目标、约束条件和产品边界。但如果我们要定义一个 AI 产品的实际效果，仅靠 PRD 已经不够了。

因为算法开发真正需要的，不是一段"希望模型怎么表现"的文字，而是：

换句话说，需求定义正在从"写规则"转向"给样本"。这里的 sample，不是一句孤立的 query，而是一条带完整 context 的业务场景：谁，在什么状态下，带着什么目标，提出了什么问题。

Sample 是原子，Dataset 是分布。

单条 sample 让需求变具体，一组 dataset 才让需求具备覆盖面。

所以在 AI 时代，一份可被执行的需求，必须至少包含三件事：Dataset（Samples + Context）+ Rubric + Metric。

需求没有消失，PRD 也没有彻底失效。

真正发生变化的是：

传统软件的需求，可以主要写成规则；

AI 产品的需求，必须进一步写成样本 + 标准。

这就是为什么我说：评测即需求，评测即产品。

而 Eval 内部的结构，恰好和产品经理对"需求"的经典定义一一对应。下面，我们就把这层对应关系拆开来看。

主流认知里，评测是一种相对狭义的存在——它是模型 / Agent 项目的收尾动作，是上线前的离线效果验收，是发布前的最后一道守门员。

这个定位本身没错，但它丢掉了 90% 的价值——它把评测的位置摆在链路最末端，把它的意义压缩成了"合格 / 不合格"的二元判断。

让我们重新拆解：一份评测里到底包含什么？

还记得我们之前讲过的，产品经理对"需求"的核心定义：需求 = 理想 − 现状。把这个定义和评测结构对应起来：

两边一一对应：评测的本质，就是用产品语言把需求"写"了一遍。

▲ 图 1 · 评测的三要素和产品经理的需求模型一一对应

所以——

评测，是需求和产品能力的形式化抽象——Dataset 把"现状"抽成可枚举的输入分布，Rubric + Metric 把"理想"抽成可衡量的输出标准。

一句话：评测即需求，评测即产品。

它不是上线前的守门员，而应该出现在需求被定义的那一刻——甚至可以说，它本身就是 AI 时代里真正能被工程团队消费的那一份需求。

抽象的概念到这里说完了，给一个最小化的具体例子，让"评测即需求"这件事可以在你脑子里立刻动起来：

场景：运动健康类 AI 助手。

Dataset（现状）

一条 dataset case 远不是一句 query 这么简单——它必须带上足够还原"用户处境"的 context：

同一句"心率 170"，对一个跑步新手与一位有 2 年跑龄的跑者来说，合理答案完全不同——所以 context 不是"附加信息"，它就是 Dataset 本身的一部分。

Rubric（理想）

Metric（量化）

把上面三件事写下来——从「带 context 的 Dataset」到「分层 Rubric」再到「可量化的 Metric」——需求才算真正被定义了。

反过来：如果你只能写出一句"我希望它能回答好运动问题"，那它根本不是一个需求，只是一句一厢情愿的「想法」。

前面我们说"评测即需求"。

但你可能会问一个尖锐的问题：评测从来都重要——为什么偏偏到 AI 时代，它才被推到"需求的载体"这个位置？

答案藏在更底层的一件事里——机器学习的"监督信号"，正在从 label 迁移到 data。而当监督信号变了，定义"什么算好"这件事，就被从模型团队的工具箱里拿了出来，交回到了产品团队的手里。

下面我们分两个时代来看清这件事。

评测并不是什么新概念。我们对任务效果的评估，长期以来都被分成几个环节：

这套逻辑在大模型时代依然适用——搜推时代有句行业玩笑话："评测属于人工智能"（这里的"人工智能" =人工 + 测试，是个谐音梗）。当年沉淀下来的方法（比如 GSB、SBS 这类两两对比评测），今天依然有不少应用场景。

但搜推时代的评测有一个非常独特的便利条件——主导监督信号来自用户行为。

点击、停留、转化、负反馈……人工标注当然也存在（相关性等级、广告质量、风控样本），但更多是辅助。最妙的是——"好"几乎可以让用户行为自己说出来。

搜推时代的内容供给发生在前，而且是确定的——候选池由内容运营、专家审核与库存策略提前定义好，本身就是一个传统的 CRUD 环节。

真正交给用户行为回答的，是后一步：在这批已经确定的候选里，哪一条更好。

所以 PM 不需要先回答"什么是好的搜索结果"——只要把候选送到用户面前，他点不点击会替你回答。

这就是为什么过去十几年，绝大多数 PM 都没有"亲手定义评测"这件事——因为线上的用户，每天都在替你定义。

但大模型时代不一样。

从基模预训练到后训练，模型学习的对象不再是"行为打过的标签"，而是数据本身——不是 label，是 data；不是"用户点了什么"，是"专家做了什么演示"。

这意味着：

而最关键的一个变化是："什么算好"再也不能让用户行为自动告诉你了。为什么？

搜推时代，模型在向"用户的行为"学习；

大模型时代，模型在向"人类提供的样本"学习。

当学习的对象从 label 变成 data，定义"什么算好"这件事，就不再是模型自己的任务，而是产品的任务。

这正是评测被推到"需求载体"位置的根本原因——不是大家突然觉得评测重要了，而是除了评测之外，没有其他载体能装下这件事了。

这种新的学习模式也带来了一些非常严重的问题——两个最直接的痛点，今天每个做大模型业务的团队都在头疼：

这两个痛点目前并没有标准答案，行业还在持续摸索。我个人的一种思路是——

用线上用户的真实 feedback（点赞、点踩、追问、修改、采纳、留存等隐式信号），训练一个专门用来打分的小模型，让"什么算好"直接和线上端到端的用户感受对齐。

这只是我自己的一种构思，不是行业里已经验证过的最佳实践。但背后的判断是清晰的：当人和人之间打分一致率长期停留在 75% 左右时，单纯依赖更多人力，或者继续加厚一份静态 rubric，都很难真正解决离线评测和线上效果之间的偏差。更有价值的方向，可能是从真实线上行为里反向学习"什么算好"。

不管这个具体方案最终是否成立，有一点是确定的：这个方向上做的任何尝试，本质上仍然是"一份评测"。它只是把"谁来打分"从人换成了 LLM 或小模型而已。评测 = 需求这件事的本质并没有变，变的只是评测自己的实现方式。

这里需要特别强调一下：搜推 / 广告不是一个可以轻描淡写带过的"例外"。

恰恰相反，过去十几年，对人类社会发挥最大规模影响的 AI 产品，很大程度上就是搜推和广告系统——Google、Facebook、抖音、TikTok、淘宝、YouTube，这些产品都建立在同一个底层逻辑上：用海量用户行为，持续优化信息分发。

搜推时代的特殊性在于，它面对的是一个天然适合规模化学习的问题：候选内容很多，用户行为极其密集，点击、停留、转化、划走、负反馈每天都在产生。当行为规模足够大时，"什么是好"可以被用户行为近似表达出来。

搜推时代，PM 仍然要定义目标：是优化点击、停留、转化，还是长期留存。

但一旦目标确定，系统就可以从海量行为里自动学习——用户每天都在用自己的行为给模型打分。

大模型时代的难点正好相反。模型提供的是生成式、概率型供给：一段回答、一份计划、一次推理路径、一次工具调用链。这些输出的好坏很难被一个简单的点击或停留直接解释。用户可能没有追问，不代表回答正确；用户点了赞，也不代表专业、安全、合规都满足；用户留存，也无法告诉你某一次回答里的错误到底发生在哪个维度。

所以，大模型时代不是没有 feedback，而是feedback 太稀疏、太滞后、太难归因，无法像搜推时代那样直接承担主监督信号。这就是为什么 AI 产品需要把需求重新写成Sample + Rubric + Metric：先由人定义一批典型场景和判断标准，再用线上 feedback 持续校准。

▲ 表 1 · 搜推时代与大模型时代的核心区别

所以这两个时代最大的区别，不是"有没有 AI"，而是好坏标准能不能主要从线上行为里自动长出来。搜推时代可以，大模型时代大多数场景不行。形式变了，产品经理的核心工作也就变了：不再只是定义功能和漏斗，而是要亲手定义样本、标准与指标。

到这里，"为什么评测重要"这件事已经讲清楚了。接下来是更接地气的三个问题：

下面我们一个个回答。

很多公司都设有专门的评测团队。我的观点是——评测团队作为「独立打分组织」的存在合理性，正在快速消失。

逻辑很简单：

需要补充一句：在高合规领域（医疗、法律、金融、教育、运动健康），人工 / 专家评测仍然是合规和信任的硬性要求——这部分不会消失，只会变得更"专"、更"贵"，不再是大公司里十几人规模的"评测团队"形态。

所以更准确的说法是：评测团队不会一夜消失，但它的组织形态正在被重构——独立打分组织会快速退场，评测的能力会被重新嵌回业务团队内部。

未来更可能的分工是：业务的产品经理定义评测、LLM Judge承担规模化打分、研发与算法维护评测流水线、专家只在最难的合规与价值判断上出现。

如果我们承认"评测即需求"，那合理的流程其实顺理成章——但在开始之前，有一件事需要先澄清：

benchmark 不是流程上的"第一步"。

它是任务边界 + Dataset + Rubric + Metric这几件事合起来的产物——是产品经理交付给研发团队的「需求形式化合约」。

理解了这一点，整个流程其实是两个阶段：

阶段一：构建 Benchmark（PM 主导）

三者合起来 = 一份完整的 benchmark

↓

阶段二：研发同步

评测与代码一起长出来

数据集和目标标准，是和需求一起被定义的——不是等开发完了再补一个评测出来。

▲ 图 2 · 阶段一三件事合起来就是 benchmark，阶段二的研发与评测要同步进行

具体来说：

阶段一：产品经理构建 benchmark

以上三件事合在一起，就是这个产品的 benchmark。benchmark 不是流程上的"第一步"，它是这三步加在一起的产物。

阶段二：研发与评测同步进行

数据集和目标标准要和需求一起被定义出来——否则后续所有研发动作，都没有真正的指向和目标。

更值得长期投入的是另一件事：评测标准与线上用户指标的一致性——这是一个会持续很多年的命题。

把上面提到的几个概念再向下展开一层，一份完整的评测设计，至少需要回答下面这六个问题：

▲ 表 2 · 评测设计的六要素：从"评什么"到"怎么评"的完整骨架

最后还有一个不能不提的趋势——随着 Agent 越来越复杂，评测的难度还在指数级上升。

在传统问答场景里，评测是eval answer：模型给出一个最终回答，评分人 / Judge 看这个答案对不对就够了。

但 Agent 的世界完全不同——模型不是只输出一个答案，而是输出一整条决策链路：

所以评测的对象，从一个"答案"变成了一条"轨迹"——不再是 eval answer，而是 eval trace。这意味着Dataset / Rubric / Metric / Judge这四件事，都要在"轨迹级别"被重新设计——关于 Agent 评测，我们会在专门的一节里展开。

回到文章开头那个问题：当产品从确定性操作变成概率型供给，需求该如何被定义？走到这里，答案应该已经清楚了。

PRD 是传统软件时代的重要载体，Sample / Eval 是 AI 时代的新语言。

不会写 PRD 的人，做不出软件产品；

不会写 Eval 的人，做不出 AI 产品。

你的Dataset决定了你看到的世界有多丰满；

你的Rubric决定了你定义的"好"有多锋利；

你的Metric决定了你的迭代有没有方向。

行业里有一句名言——评测就是护城河。这句话基本对，但需要补一句限定：

而最重要的一点是——

评测从来不是一锤定音。

它既是起点的定义（前置时定义需求），

也是终点的校准（上线后跟着 feedback 继续校准）。

评测跟着产品一起活——你的产品成熟到哪里，评测就该长到哪里。

第零章我们讲过 AI PM 的能力模型与工具箱——那是打基础的部分。

而从这里开始，我们进入"真正的工作"：所有 AI 产品的迭代节奏、成本结构、商业天花板，都要从一件事开始：先学会衡量，再谈做产品。

到这里，我们只完成了一件事：把评测从"上线前测试"，重新放回"需求定义"的位置。至于 Dataset 怎么构建、Rubric 怎么写、Metric 怎么量化、Judge 怎么校准、Agent trace 怎么评，每一个环节都有自己的难点，也都值得单独拆开讲。读到这里，你只需要先记住一个总判断：AI 产品的需求，不再只写在 PRD 里，而是写在 Sample、Rubric 和 Metric 里。

— 第一章第一节完 —

历史内容：

AI产品经理手册：第零章-第一节：生成式 AI 可能是人类信息革命的终局

AI产品手册：第零章第二节模型即产品，重新理解PM的角色：未来只有AI产品经理

AI产品手册第零章第三节：产品Agent化，软件形态正在发生什么变化

AI产品手册：第零章第四节：AIPM的能力模型，一个有战斗力的AIPM长什么样

AI产品手册：第零章第五节：AIPM的工具箱:以产出倒逼工具，让AI把你变成超级人类

← 上一篇：知网维普升级检测算法，易笔AI适配升级助力降重下一篇：摩尔线程携手国家级基地推进具身智能发展 →