AI系统质量评价新标准：ISO/IEC 25059解析

发布时间：2026-06-30 06:10阅读：1

前几篇，我们讨论了AI可信度、风险、数据品质、影响评估、稳健性和偏差管理。

本篇探讨基础问题：如何评价AI系统质量？

许多企业评估AI，只关注：能否回答？准不准确？速度快慢？用户满意度？

但这不足够。ISO/IEC 25059:2023《AI系统质量模型》将AI质量分解为一组可描述、可度量、可评估的质量属性。

简言之：AI质量不是简单的“好用”，而是一套可评估的质量框架。

一、为何AI需要质量模型？

但AI系统更为复杂。

相同输入，可能因模型版本、上下文、提示方式差异而产生不同结果。

数据质量、样本结构、标注规则和训练流程，均会影响系统质量。

模型会更新，数据会漂移，场景会变化，用户行为也会改变。

一旦应用于质量、安全、合同、金融、城市治理等领域，AI质量就不再是体验问题，而是责任问题。

因此，AI质量评估不能依赖主观感受，必须建立统一质量模型。

二、ISO/IEC 25059的核心定位

ISO/IEC 25059:2023属于SQuaRE系列，即系统与软件质量要求和评价体系。

其核心作用是为AI系统构建专门的质量模型。

AI质量涵盖哪些方面？如何描述AI质量要求？如何设计AI质量指标？如何测试评估AI系统？如何改进AI质量问题？

它并非仅测试单一指标，而是提供一组质量属性，助力企业全面审视AI系统质量。

24028讲述可信AI。42001阐述AI管理体系。23894介绍AI风险管理。5259涉及数据质量。24029说明稳健性。24027讨论偏差管理。25059则聚焦：如何系统化评估AI系统质量。

简言之：25059是AI质量评估的“总体框架”之一。

三、AI系统质量关注什么？

AI系统质量并非单一指标，而是一组综合能力。

AI是否真正满足业务场景需求？不是能回答即可，而是要回答正确、实用、符合边界。

响应速度、资源消耗、并发能力、运行成本是否满足要求？

系统能否持续稳定运行？异常情况下能否恢复？输出是否一致？

是否防范攻击、泄露、越权、篡改和滥用？

用户是否易于理解和使用AI？是否了解AI能力边界和限制条件？

模型、数据、规则、接口、日志和版本是否可维护、可更新、可追溯？

AI系统能否适配不同环境、平台和业务场景？

AI输出能否说明依据？用户是否知晓系统适合什么场景、不适合什么场景？

简言之：AI质量不只是准确率，而是功能、性能、安全、可靠、可用、可维护、可解释的综合表现。

四、AI质量与传统软件质量有何差异？

AI系统既是软件系统，又非普通软件系统。

传统软件通常按明确规则执行，输入输出关系相对确定。

AI系统通过数据学习规律，输出具有概率性和不确定性。

传统软件缺陷多源于需求、设计、代码、测试和运维。

AI质量问题可能来自数据偏差、标注错误、模型退化、场景变化和人机交互误用。

AI上线后，质量不会自动稳定，需持续监测、复评和改进。

简言之：传统软件质量重在“是否按规则运行”，AI系统质量还需关注“学习结果是否稳定、可靠、可控”。

五、AI质量评估如何实施？

企业可将AI质量评估简化为五步。

先明确AI用于办公辅助、客户服务、合同审核、质量检测、安全预警，还是关键决策支持。

根据场景确定准确性、稳定性、安全性、可解释性、响应速度、人工复核和责任边界。

将质量要求转化为准确率、误判率、漏判率、响应时间、可用率、复核通过率、投诉率等指标。

围绕数据、模型、系统、场景和用户行为测试评估，不能仅测试单一模型输出。

上线后持续监测性能、质量、漂移、异常、投诉、风险事件和模型更新影响。

简言之：AI质量评估不是一次性验收，而是全生命周期质量管理。

六、建筑业AI质量为何更复杂？

建筑业AI应用场景复杂、责任重大、周期长，质量评估更不能只看“模型准不准”。

能否识别规范冲突、图纸缺陷、碰撞问题和设计风险？结果是否可复核？责任是否清晰？

识别裂缝、渗漏、缺陷、材料问题时，数据是否真实？场景是否覆盖？误判漏判如何处理？

报警是否准确？是否误报过多？是否漏报严重隐患？现场响应是否闭环？

参与城市体检、房屋体检、结构风险识别时，模型是否适配本地建筑和真实环境？

进行能耗预测、碳排核算、优化建议时，数据、算法和报告是否可审计？

简言之：建筑业AI质量评估，必须同时关注结果准确、过程可控、责任可追溯。

七、TIC行业的新任务：从合格评估到AI质量评估

过去，TIC主要验证产品是否合格、过程是否受控、体系是否有效、服务是否满足要求。

AI时代，TIC还需评估：

AI质量要求是否明确；

AI质量指标是否合理；AI测试数据是否可信；AI模型是否稳定；AI系统是否安全可靠；AI输出是否可解释；AI运行是否持续监测；AI质量是否持续改进。

这意味着，TIC机构不仅要做AI风险评估、数据质量评估、模型稳健性测试、偏差评估，还要建立AI系统质量评估能力。

简言之：未来TIC不仅验证AI是否合规，还要评估AI是否真正高质量。

八、企业可从何处着手？

企业导入AI质量评估，可先做七件事。

梳理正在使用的AI工具、模型、平台、插件和系统。

不同场景设定不同质量目标：效率、准确、稳定、安全、可解释、可复核。

将目标转化为准确率、误判率、响应时间、可用率、复核率、投诉率等指标。

准备覆盖真实场景、边界条件、异常情况和关键业务对象的测试数据。

不仅测试模型，还测试数据、接口、权限、日志、人工复核和运行流程。

上线后持续监测输出质量、用户反馈、异常事件、模型变化和系统稳定性。

发现质量问题后，及时调整数据、模型、流程、权限、供应商和人工复核机制。

简言之：AI质量管理，不是从模型参数开始，而是从质量目标和评估指标开始。

九、总结：可信AI，必须先成为高质量AI

ISO/IEC 25059:2023的核心价值，是帮助企业将AI质量从“主观好用”变为“可定义、可度量、可评估”。

它提醒我们：

AI不是只看准确率；AI不是只看功能演示；AI不是只看用户体验；AI不是只看一次测试；AI质量必须覆盖全系统、全场景、全生命周期。

真正高质量AI，需要做到：

质量要求明确；评估指标合理；测试数据可信；模型表现稳定；系统运行安全；输出结果可解释；人工复核有效；运行质量可监测；质量问题可改进。

对企业而言，AI质量是规模化应用的基础。

对建筑业而言，AI质量是进入工程质量、安全生产、城市体检和能碳管理的前提。对TIC行业而言，AI质量评估是AI合格评定的重要能力。

最终一句话：可信AI，必须先成为高质量AI；没有可评估的质量，就没有可持续的信任。

← 上一篇：AI浪潮下无人机飞手的生存之道下一篇：OpenAI名称竟出自马斯克之手 →