AI赋能需求工程：明确应用边界，媲美专家判断

发布时间：2026-05-03 19:49阅读：21

字数 2335，阅读大约需 12 分钟

在系统与软件工程领域，需求工程是整个产品开发生命周期的基石。一份清晰、合规、可验证的需求文档，能从源头规避后期高昂的返工成本与项目风险；而低质量的需求定义，始终是项目延期、成本超支甚至失败的核心诱因之一。

随着大语言模型的快速发展，AI开始逐步渗透到需求工程的各个环节。但AI能否对标资深系统工程师的专业判断？其能力边界与适用场景究竟在哪里？以色列理工团队最新发布的《AI-Assisted Requirements Engineering: An Empirical Evaluation Relative to Expert Judgment》一文，通过严格的对照实验，以国际系统工程理事会（INCOSE）的行业标准为锚点，给出了实证层面的答案。

需求工程的核心，是将利益相关方的诉求转化为精准、可落地的系统规范。INCOSE在《需求编写指南》中明确了“优质需求”的核心特质，而传统需求评估高度依赖专家经验，不仅耗时耗力，还会受工程师主观判断、认知疲劳的影响。

过往关于AI在需求工程的研究，大多聚焦于单一、碎片化的任务，比如功能/非功能需求分类、模糊语言检测，却很少将AI评估与INCOSE的标准化准则深度对齐，更缺乏AI与资深系统工程师判断的系统性实证对比。这也导致行业始终无法清晰回答：AI究竟能在需求工程中承担什么角色？是替代专家，还是辅助决策？

图1 需求工程核心阶段流程图

为了解答这个问题，研究团队设定了三个核心研究问题：

为了保证研究结果的普适性与可靠性，团队采用了两套独立数据集，覆盖了工业级真实项目与公开标准语料，同时引入三款主流大语言模型，与21位资深系统工程师的专业判断做对标。

研究选用的两套数据集分别为：

表4 PROMISE数据集需求类型分布

基于INCOSE标准，研究剔除了需要深度领域上下文的“正确性”“合规性”两个维度，最终锁定7项可客观评估的核心指标，作为AI与人类专家的统一评估标尺：必要性、独立性、无歧义性、完整性、单一性、可行性、可验证性。

研究团队为两项实验设计了专属提示词工程，使用Claude 3.5 Sonnet、GPT-4、Llama 3三款模型完成需求评估与分类任务；同时面向全球300余名系统工程师发放调研问卷，最终回收21位专业人士的有效评估数据，其中86%的参与者拥有8年以上系统工程从业经验，形成了权威的人类专家基准。

图3 研究全流程：从需求采集到结论输出

在基于INCOSE准则的需求质量评估中，研究团队对比了3款模型与21位工程师的380个有效评估点，结果呈现出显著的模型差异：

表2 模型性能95%置信区间

从违规维度来看，工程师评估中，66%的需求存在完整性问题，42%的需求不满足可验证性要求，而无歧义性的达标率最高，达到74%。这也印证了需求工程的行业痛点：结构与句法层面的问题容易识别，而上下文完整性、可落地的可验证性，才是需求质量的核心难点。

图6 INCOSE质量准则违规情况分布

值得注意的是，即便AI与专家对“需求是否需要修改”达成了一致，二者的判断逻辑也存在明显差异：AI更关注形式化的规则违反，而人类专家更在意需求的歧义性、上下文缺失与核心设计意图。

在功能（FR）与非功能需求（NFR）的分类任务中，三款模型均未完全复刻数据集的真实分布，各自呈现出系统性的分类偏差：

图7 功能/非功能需求预测分布对比

而在细分能力上，不同模型各有优势：

表5 模型功能/非功能需求分类召回率对比

这项研究最核心的价值，是彻底厘清了AI在需求工程中的定位：它不是系统工程师的替代者，而是可靠的“副驾驶”与决策辅助工具。研究团队基于实验结果，明确划分了AI与人类专家的职责边界，并提出了可直接落地的三步工作流。

表6 INCOSE准则下，AI副驾驶与人类专家的职责划分

这项实证研究，为AI在需求工程领域的落地提供了清晰的路线图。AI的核心价值，在于以标准化、无疲劳的方式，完成重复性的结构与句法校验工作，大幅降低需求评审的基础工作量，缓解行业内的同行评审瓶颈；而人类专家的核心价值，始终不可替代——领域上下文的解读、歧义的消解、技术可行性的判断、项目权衡的决策，这些需求工程的核心环节，依然需要专业工程师的深度把控。

对于行业而言，理性看待AI的能力边界，构建“人在回路”的AI辅助工作流，将AI作为标准化的预审计工具嵌入需求工程全流程，同时牢牢守住专家在核心决策中的主导权，才是AI时代需求工程提质增效的最优解。

（全文约2100字）

← 上一篇：AI助您将创意变现：从想法到现金流的转化之路下一篇：AI动态：Grok 4.3降价争夺市场，AI招聘薪资飙升 →