标签

AI应用测试:与传统测试的关键不同

发布时间:2026-05-06 00:47来源:微信阅读:7

做了好几年测试,最近才听说 AI 应用特别火,自己也想往这个方向转。

你最先可能想到的问题是:

"AI 应用测试跟我以前负责的相比,到底改了什么?我原本的测试经验还能用吗?"

这篇文章直接做对比,不绕弯子。

在传统测试里,你验证的是确定性的代码逻辑。

输入 A,对应预期输出 B。代码写对了,每次结果都是 B。你的工作是核实"代码有没有按预期被执行"。

而 AI 应用测试,你面对的是带概率波动的模型输出。

给定输入 A,模型可能返回 B、B'或 B''——这些内容语义相近,但文本并不完全一样。你的任务是判断"该输出是否算合格",而不是"它是否完全对上"。

这就是根本性的变化。

传统测试中,测试数据是"用例"——每条用例都有明确的输入与预期输出。

在 AI 测试里,更多对应的是"样本"——你提供输入和参考输出,但模型的结果不需要与参考一模一样,只要达标即可。

你需要具备的能力包括:识别边缘场景、构造有代表性的测试样本,并为每个样本设定评估维度。

传统测试通过比对来发现 Bug,根因通常是代码逻辑错误。

AI 测试发现效果不达标,根因可能在于:

你需要的能力:读懂 Evals 报告,进一步判断问题到底出在 Prompt、知识库,还是模型本身。

传统应用上线后,你测的是"功能有没有坏"。

AI 应用上线后,你还要测"效果有没有退化"——模型供应商升级模型版本后,某些场景可能变差;用户的使用方式也可能发生变化,从而触达到之前没覆盖的边缘 case。

你需要的能力:建立线上效果监控指标,设定告警阈值,并定期抽检线上输出。

这是最容易混淆的地方。

一句话总结:

AI PM 负责定义"什么是好",AI 测试工程师负责验证"有没有达到好",同时建立机制确保"一直好下去"。

两者高度协作,但职责边界清晰——PM 关注产品价值,测试关注产品质量。

传统测试工程师的核心能力是:用系统的方法,发现系统层面的潜在问题。

AI 应用测试工程师的核心能力是:同样用系统化思路,定位并发现 AI 输出的质量问题,并建立机制避免复发。

工具变了,但思维框架高度相似。你积累的经验不会白费。