标签

AI系统质量评价新标准:ISO/IEC 25059解析

发布时间:2026-06-30 06:10阅读:1

前几篇,我们讨论了AI可信度、风险、数据品质、影响评估、稳健性和偏差管理。

本篇探讨基础问题:如何评价AI系统质量?

许多企业评估AI,只关注:能否回答?准不准确?速度快慢?用户满意度?

但这不足够。ISO/IEC 25059:2023《AI系统质量模型》将AI质量分解为一组可描述、可度量、可评估的质量属性。

简言之:AI质量不是简单的“好用”,而是一套可评估的质量框架。

一、为何AI需要质量模型?

但AI系统更为复杂。

相同输入,可能因模型版本、上下文、提示方式差异而产生不同结果。

数据质量、样本结构、标注规则和训练流程,均会影响系统质量。

模型会更新,数据会漂移,场景会变化,用户行为也会改变。

一旦应用于质量、安全、合同、金融、城市治理等领域,AI质量就不再是体验问题,而是责任问题。

因此,AI质量评估不能依赖主观感受,必须建立统一质量模型。

二、ISO/IEC 25059的核心定位

ISO/IEC 25059:2023属于SQuaRE系列,即系统与软件质量要求和评价体系。

其核心作用是为AI系统构建专门的质量模型。

AI质量涵盖哪些方面?如何描述AI质量要求?如何设计AI质量指标?如何测试评估AI系统?如何改进AI质量问题?

它并非仅测试单一指标,而是提供一组质量属性,助力企业全面审视AI系统质量。

24028讲述可信AI。42001阐述AI管理体系。23894介绍AI风险管理。5259涉及数据质量。24029说明稳健性。24027讨论偏差管理。25059则聚焦:如何系统化评估AI系统质量。

简言之:25059是AI质量评估的“总体框架”之一。

三、AI系统质量关注什么?

AI系统质量并非单一指标,而是一组综合能力。

AI是否真正满足业务场景需求?不是能回答即可,而是要回答正确、实用、符合边界。

响应速度、资源消耗、并发能力、运行成本是否满足要求?

系统能否持续稳定运行?异常情况下能否恢复?输出是否一致?

是否防范攻击、泄露、越权、篡改和滥用?

用户是否易于理解和使用AI?是否了解AI能力边界和限制条件?

模型、数据、规则、接口、日志和版本是否可维护、可更新、可追溯?

AI系统能否适配不同环境、平台和业务场景?

AI输出能否说明依据?用户是否知晓系统适合什么场景、不适合什么场景?

简言之:AI质量不只是准确率,而是功能、性能、安全、可靠、可用、可维护、可解释的综合表现。

四、AI质量与传统软件质量有何差异?

AI系统既是软件系统,又非普通软件系统。

传统软件通常按明确规则执行,输入输出关系相对确定。

AI系统通过数据学习规律,输出具有概率性和不确定性。

传统软件缺陷多源于需求、设计、代码、测试和运维。

AI质量问题可能来自数据偏差、标注错误、模型退化、场景变化和人机交互误用。

AI上线后,质量不会自动稳定,需持续监测、复评和改进。

简言之:传统软件质量重在“是否按规则运行”,AI系统质量还需关注“学习结果是否稳定、可靠、可控”。

五、AI质量评估如何实施?

企业可将AI质量评估简化为五步。

先明确AI用于办公辅助、客户服务、合同审核、质量检测、安全预警,还是关键决策支持。

根据场景确定准确性、稳定性、安全性、可解释性、响应速度、人工复核和责任边界。

将质量要求转化为准确率、误判率、漏判率、响应时间、可用率、复核通过率、投诉率等指标。

围绕数据、模型、系统、场景和用户行为测试评估,不能仅测试单一模型输出。

上线后持续监测性能、质量、漂移、异常、投诉、风险事件和模型更新影响。

简言之:AI质量评估不是一次性验收,而是全生命周期质量管理。

六、建筑业AI质量为何更复杂?

建筑业AI应用场景复杂、责任重大、周期长,质量评估更不能只看“模型准不准”。

能否识别规范冲突、图纸缺陷、碰撞问题和设计风险?结果是否可复核?责任是否清晰?

识别裂缝、渗漏、缺陷、材料问题时,数据是否真实?场景是否覆盖?误判漏判如何处理?

报警是否准确?是否误报过多?是否漏报严重隐患?现场响应是否闭环?

参与城市体检、房屋体检、结构风险识别时,模型是否适配本地建筑和真实环境?

进行能耗预测、碳排核算、优化建议时,数据、算法和报告是否可审计?

简言之:建筑业AI质量评估,必须同时关注结果准确、过程可控、责任可追溯。

七、TIC行业的新任务:从合格评估到AI质量评估

过去,TIC主要验证产品是否合格、过程是否受控、体系是否有效、服务是否满足要求。

AI时代,TIC还需评估:

AI质量要求是否明确;

AI质量指标是否合理;AI测试数据是否可信;AI模型是否稳定;AI系统是否安全可靠;AI输出是否可解释;AI运行是否持续监测;AI质量是否持续改进。

这意味着,TIC机构不仅要做AI风险评估、数据质量评估、模型稳健性测试、偏差评估,还要建立AI系统质量评估能力。

简言之:未来TIC不仅验证AI是否合规,还要评估AI是否真正高质量。

八、企业可从何处着手?

企业导入AI质量评估,可先做七件事。

梳理正在使用的AI工具、模型、平台、插件和系统。

不同场景设定不同质量目标:效率、准确、稳定、安全、可解释、可复核。

将目标转化为准确率、误判率、响应时间、可用率、复核率、投诉率等指标。

准备覆盖真实场景、边界条件、异常情况和关键业务对象的测试数据。

不仅测试模型,还测试数据、接口、权限、日志、人工复核和运行流程。

上线后持续监测输出质量、用户反馈、异常事件、模型变化和系统稳定性。

发现质量问题后,及时调整数据、模型、流程、权限、供应商和人工复核机制。

简言之:AI质量管理,不是从模型参数开始,而是从质量目标和评估指标开始。

九、总结:可信AI,必须先成为高质量AI

ISO/IEC 25059:2023的核心价值,是帮助企业将AI质量从“主观好用”变为“可定义、可度量、可评估”。

它提醒我们:

AI不是只看准确率;AI不是只看功能演示;AI不是只看用户体验;AI不是只看一次测试;AI质量必须覆盖全系统、全场景、全生命周期。

真正高质量AI,需要做到:

质量要求明确;评估指标合理;测试数据可信;模型表现稳定;系统运行安全;输出结果可解释;人工复核有效;运行质量可监测;质量问题可改进。

对企业而言,AI质量是规模化应用的基础。

对建筑业而言,AI质量是进入工程质量、安全生产、城市体检和能碳管理的前提。对TIC行业而言,AI质量评估是AI合格评定的重要能力。

最终一句话:可信AI,必须先成为高质量AI;没有可评估的质量,就没有可持续的信任。