AI在可用性测试中表现出比人类更高的稳定性

发布时间：2026-05-06 12:04阅读：28

近期MeasuringU发布了一项研究，旨在评估AI在分析可用性测试视频并识别问题方面的可靠性。

此前，该机构已进行过相关研究，证实AI能够从视频中有效找出可用性方面的缺陷。

然而，本次研究的重点在于探讨AI分析的一致性——

当同一AI模型被要求对同一视频进行四次独立分析时，每次生成的可用性问题列表是否相同？

如果结果不一致，那么“AI代看视频”的应用价值将大打折扣，因为它缺少了关键的稳定性保障。

研究人员选取了一段时长15秒的可用性测试视频。

视频内容模拟了在OpenTable上预订丹佛寿司餐厅的场景。尽管任务看似简单，但测试者遇到了障碍：在筛选“sushi”并输入“Denver”后，“sushi”筛选条件意外失效，导致用户需要重新选择。此外，长达86个菜系的列表难以浏览，用户甚至尝试使用Ctrl-F搜索“sushi”也未能成功。

研究人员将这段视频输入了两个不同的AI模型，并对每个模型进行了四次独立运行：

使用的提示词（Prompt）也遵循了标准格式：

完成四次运行后，研究人员将每次生成的可用性问题列表进行两两对比，并计算“any-2 agreement”（一种UX领域常用的Jaccard相似度指标，可理解为“两份列表的重叠程度”）。

举例说明：若一个模型第一次识别出14个问题，第二次识别出17个问题，其中有10个问题是双方都识别到的。那么，一致性计算如下：

10 ÷（14 + 17 - 10）= 10 ÷ 21 ≈ 48%

根据行业基准，人类用户研究员在执行类似任务时，其一致性大约为47%。

首先来看ChatGPT的表现。

经过四次运行，其平均一致性仅为31%。

更令人意外的是，第二次和第四次运行生成的列表之间，竟然没有任何一个问题是重合的，完全为零。

这意味着，在相同的模型、相同的视频和相同的提示词条件下，两次运行的结果却像是分析了两个截然不同的视频。

相比之下，Gemini在四次测试中的一致性表现超过了人类基准的47%，达到了57%。在其识别出的9个问题中，有3个问题在所有四次运行中均被反复提及。

这意味着Gemini在分析可用性测试视频的可靠性上，已经超越了人类用户研究员的平均水平，而ChatGPT仍有较大差距。

Gemini之所以能取得如此优异的表现，主要归功于其原生多模态模型的架构。它能够将视频分解为多个帧、音频、文本以及时间序列信息，然后将这些信息压缩成模型可处理的“token”，最后利用语言模型进行推理分析。

这个过程可以概括为：视频 → 帧提取 → 图像编码 → 音频/字幕转录 → 多模态token化 → 语言模型推理 → 输出可用性问题

帧提取可以简单理解为将视频分解为一系列连续的静态图像。在本研究的可用性测试场景中，Gemini实际上是通过以下方式“观看”视频的：

第0秒：展示OpenTable主页第3秒：用户点击搜索栏第6秒：用户输入“Sushi” 第9秒：用户输入“Denver” 第12秒：页面刷新，“Sushi”筛选条件消失第15秒：用户开始重新寻找筛选选项

需要强调的是，一致性衡量的是多次测量结果的重叠程度，而非“准确性”或与人类测量结果的重叠程度。研究作者也提到，这方面的工作仍在进行中。

鉴于Gemini在处理此类任务时已展现出超越人类基准的可靠性，如果仅依赖单一模型进行可用性测试，建议优先考虑Gemini。为了最大化地发现潜在问题，可以考虑结合不同模型的结果取交集，这或许是当前提高AI分析可信度的最经济有效的方法。

原文链接：https://measuringu.com/ai-usability-problem-analysis-of-a-video/

如果您手头有可用性测试视频，不妨尝试运行您正在使用的模型，以评估其一致性水平。