AI应用测试:与传统测试的关键不同
做了好几年测试,最近才听说 AI 应用特别火,自己也想往这个方向转。
你最先可能想到的问题是:
"AI 应用测试跟我以前负责的相比,到底改了什么?我原本的测试经验还能用吗?"
这篇文章直接做对比,不绕弯子。
在传统测试里,你验证的是确定性的代码逻辑。
输入 A,对应预期输出 B。代码写对了,每次结果都是 B。你的工作是核实"代码有没有按预期被执行"。
而 AI 应用测试,你面对的是带概率波动的模型输出。
给定输入 A,模型可能返回 B、B'或 B''——这些内容语义相近,但文本并不完全一样。你的任务是判断"该输出是否算合格",而不是"它是否完全对上"。
这就是根本性的变化。
传统测试中,测试数据是"用例"——每条用例都有明确的输入与预期输出。
在 AI 测试里,更多对应的是"样本"——你提供输入和参考输出,但模型的结果不需要与参考一模一样,只要达标即可。
你需要具备的能力包括:识别边缘场景、构造有代表性的测试样本,并为每个样本设定评估维度。
传统测试通过比对来发现 Bug,根因通常是代码逻辑错误。
AI 测试发现效果不达标,根因可能在于:
你需要的能力:读懂 Evals 报告,进一步判断问题到底出在 Prompt、知识库,还是模型本身。
传统应用上线后,你测的是"功能有没有坏"。
AI 应用上线后,你还要测"效果有没有退化"——模型供应商升级模型版本后,某些场景可能变差;用户的使用方式也可能发生变化,从而触达到之前没覆盖的边缘 case。
你需要的能力:建立线上效果监控指标,设定告警阈值,并定期抽检线上输出。
这是最容易混淆的地方。
一句话总结:
AI PM 负责定义"什么是好",AI 测试工程师负责验证"有没有达到好",同时建立机制确保"一直好下去"。
两者高度协作,但职责边界清晰——PM 关注产品价值,测试关注产品质量。
传统测试工程师的核心能力是:用系统的方法,发现系统层面的潜在问题。
AI 应用测试工程师的核心能力是:同样用系统化思路,定位并发现 AI 输出的质量问题,并建立机制避免复发。
工具变了,但思维框架高度相似。你积累的经验不会白费。