标签

AI赋能需求工程:明确应用边界,媲美专家判断

发布时间:2026-05-03 19:49来源:微信阅读:5

字数 2335,阅读大约需 12 分钟

在系统与软件工程领域,需求工程是整个产品开发生命周期的基石。一份清晰、合规、可验证的需求文档,能从源头规避后期高昂的返工成本与项目风险;而低质量的需求定义,始终是项目延期、成本超支甚至失败的核心诱因之一。

随着大语言模型的快速发展,AI开始逐步渗透到需求工程的各个环节。但AI能否对标资深系统工程师的专业判断?其能力边界与适用场景究竟在哪里?以色列理工团队最新发布的《AI-Assisted Requirements Engineering: An Empirical Evaluation Relative to Expert Judgment》一文,通过严格的对照实验,以国际系统工程理事会(INCOSE)的行业标准为锚点,给出了实证层面的答案。

需求工程的核心,是将利益相关方的诉求转化为精准、可落地的系统规范。INCOSE在《需求编写指南》中明确了“优质需求”的核心特质,而传统需求评估高度依赖专家经验,不仅耗时耗力,还会受工程师主观判断、认知疲劳的影响。

过往关于AI在需求工程的研究,大多聚焦于单一、碎片化的任务,比如功能/非功能需求分类、模糊语言检测,却很少将AI评估与INCOSE的标准化准则深度对齐,更缺乏AI与资深系统工程师判断的系统性实证对比。这也导致行业始终无法清晰回答:AI究竟能在需求工程中承担什么角色?是替代专家,还是辅助决策?

图1 需求工程核心阶段流程图

为了解答这个问题,研究团队设定了三个核心研究问题:

为了保证研究结果的普适性与可靠性,团队采用了两套独立数据集,覆盖了工业级真实项目与公开标准语料,同时引入三款主流大语言模型,与21位资深系统工程师的专业判断做对标。

研究选用的两套数据集分别为:

表4 PROMISE数据集需求类型分布

基于INCOSE标准,研究剔除了需要深度领域上下文的“正确性”“合规性”两个维度,最终锁定7项可客观评估的核心指标,作为AI与人类专家的统一评估标尺:必要性、独立性、无歧义性、完整性、单一性、可行性、可验证性。

研究团队为两项实验设计了专属提示词工程,使用Claude 3.5 Sonnet、GPT-4、Llama 3三款模型完成需求评估与分类任务;同时面向全球300余名系统工程师发放调研问卷,最终回收21位专业人士的有效评估数据,其中86%的参与者拥有8年以上系统工程从业经验,形成了权威的人类专家基准。

图3 研究全流程:从需求采集到结论输出

在基于INCOSE准则的需求质量评估中,研究团队对比了3款模型与21位工程师的380个有效评估点,结果呈现出显著的模型差异:

表2 模型性能95%置信区间

从违规维度来看,工程师评估中,66%的需求存在完整性问题,42%的需求不满足可验证性要求,而无歧义性的达标率最高,达到74%。这也印证了需求工程的行业痛点:结构与句法层面的问题容易识别,而上下文完整性、可落地的可验证性,才是需求质量的核心难点。

图6 INCOSE质量准则违规情况分布

值得注意的是,即便AI与专家对“需求是否需要修改”达成了一致,二者的判断逻辑也存在明显差异:AI更关注形式化的规则违反,而人类专家更在意需求的歧义性、上下文缺失与核心设计意图。

在功能(FR)与非功能需求(NFR)的分类任务中,三款模型均未完全复刻数据集的真实分布,各自呈现出系统性的分类偏差:

图7 功能/非功能需求预测分布对比

而在细分能力上,不同模型各有优势:

表5 模型功能/非功能需求分类召回率对比

这项研究最核心的价值,是彻底厘清了AI在需求工程中的定位:它不是系统工程师的替代者,而是可靠的“副驾驶”与决策辅助工具。研究团队基于实验结果,明确划分了AI与人类专家的职责边界,并提出了可直接落地的三步工作流。

表6 INCOSE准则下,AI副驾驶与人类专家的职责划分

这项实证研究,为AI在需求工程领域的落地提供了清晰的路线图。AI的核心价值,在于以标准化、无疲劳的方式,完成重复性的结构与句法校验工作,大幅降低需求评审的基础工作量,缓解行业内的同行评审瓶颈;而人类专家的核心价值,始终不可替代——领域上下文的解读、歧义的消解、技术可行性的判断、项目权衡的决策,这些需求工程的核心环节,依然需要专业工程师的深度把控。

对于行业而言,理性看待AI的能力边界,构建“人在回路”的AI辅助工作流,将AI作为标准化的预审计工具嵌入需求工程全流程,同时牢牢守住专家在核心决策中的主导权,才是AI时代需求工程提质增效的最优解。

(全文约2100字)