AI应用测试：与传统测试的关键不同

发布时间：2026-05-06 00:47阅读：20

做了好几年测试，最近才听说 AI 应用特别火，自己也想往这个方向转。

你最先可能想到的问题是：

"AI 应用测试跟我以前负责的相比，到底改了什么？我原本的测试经验还能用吗？"

这篇文章直接做对比，不绕弯子。

在传统测试里，你验证的是确定性的代码逻辑。

输入 A，对应预期输出 B。代码写对了，每次结果都是 B。你的工作是核实"代码有没有按预期被执行"。

而 AI 应用测试，你面对的是带概率波动的模型输出。

给定输入 A，模型可能返回 B、B'或 B''——这些内容语义相近，但文本并不完全一样。你的任务是判断"该输出是否算合格"，而不是"它是否完全对上"。

这就是根本性的变化。

传统测试中，测试数据是"用例"——每条用例都有明确的输入与预期输出。

在 AI 测试里，更多对应的是"样本"——你提供输入和参考输出，但模型的结果不需要与参考一模一样，只要达标即可。

你需要具备的能力包括：识别边缘场景、构造有代表性的测试样本，并为每个样本设定评估维度。

传统测试通过比对来发现 Bug，根因通常是代码逻辑错误。

AI 测试发现效果不达标，根因可能在于：

你需要的能力：读懂 Evals 报告，进一步判断问题到底出在 Prompt、知识库，还是模型本身。

传统应用上线后，你测的是"功能有没有坏"。

AI 应用上线后，你还要测"效果有没有退化"——模型供应商升级模型版本后，某些场景可能变差；用户的使用方式也可能发生变化，从而触达到之前没覆盖的边缘 case。

你需要的能力：建立线上效果监控指标，设定告警阈值，并定期抽检线上输出。

这是最容易混淆的地方。

一句话总结：

AI PM 负责定义"什么是好"，AI 测试工程师负责验证"有没有达到好"，同时建立机制确保"一直好下去"。

两者高度协作，但职责边界清晰——PM 关注产品价值，测试关注产品质量。

传统测试工程师的核心能力是：用系统的方法，发现系统层面的潜在问题。

AI 应用测试工程师的核心能力是：同样用系统化思路，定位并发现 AI 输出的质量问题，并建立机制避免复发。

工具变了，但思维框架高度相似。你积累的经验不会白费。