标签

AI在可用性测试中表现出比人类更高的稳定性

发布时间:2026-05-06 12:04来源:微信阅读:7

近期MeasuringU发布了一项研究,旨在评估AI在分析可用性测试视频并识别问题方面的可靠性。

此前,该机构已进行过相关研究,证实AI能够从视频中有效找出可用性方面的缺陷。

然而,本次研究的重点在于探讨AI分析的一致性——

当同一AI模型被要求对同一视频进行四次独立分析时,每次生成的可用性问题列表是否相同?

如果结果不一致,那么“AI代看视频”的应用价值将大打折扣,因为它缺少了关键的稳定性保障。

研究人员选取了一段时长15秒的可用性测试视频。

视频内容模拟了在OpenTable上预订丹佛寿司餐厅的场景。尽管任务看似简单,但测试者遇到了障碍:在筛选“sushi”并输入“Denver”后,“sushi”筛选条件意外失效,导致用户需要重新选择。此外,长达86个菜系的列表难以浏览,用户甚至尝试使用Ctrl-F搜索“sushi”也未能成功。

研究人员将这段视频输入了两个不同的AI模型,并对每个模型进行了四次独立运行:

使用的提示词(Prompt)也遵循了标准格式:

完成四次运行后,研究人员将每次生成的可用性问题列表进行两两对比,并计算“any-2 agreement”(一种UX领域常用的Jaccard相似度指标,可理解为“两份列表的重叠程度”)。

举例说明:若一个模型第一次识别出14个问题,第二次识别出17个问题,其中有10个问题是双方都识别到的。那么,一致性计算如下:

10 ÷(14 + 17 - 10)= 10 ÷ 21 ≈ 48%

根据行业基准,人类用户研究员在执行类似任务时,其一致性大约为47%。

首先来看ChatGPT的表现。

经过四次运行,其平均一致性仅为31%。

更令人意外的是,第二次和第四次运行生成的列表之间,竟然没有任何一个问题是重合的,完全为零。

这意味着,在相同的模型、相同的视频和相同的提示词条件下,两次运行的结果却像是分析了两个截然不同的视频。

相比之下,Gemini在四次测试中的一致性表现超过了人类基准的47%,达到了57%。在其识别出的9个问题中,有3个问题在所有四次运行中均被反复提及。

这意味着Gemini在分析可用性测试视频的可靠性上,已经超越了人类用户研究员的平均水平,而ChatGPT仍有较大差距。

Gemini之所以能取得如此优异的表现,主要归功于其原生多模态模型的架构。它能够将视频分解为多个帧、音频、文本以及时间序列信息,然后将这些信息压缩成模型可处理的“token”,最后利用语言模型进行推理分析。

这个过程可以概括为: 视频 → 帧提取 → 图像编码 → 音频/字幕转录 → 多模态token化 → 语言模型推理 → 输出可用性问题

帧提取可以简单理解为将视频分解为一系列连续的静态图像。在本研究的可用性测试场景中,Gemini实际上是通过以下方式“观看”视频的:

第0秒:展示OpenTable主页 第3秒:用户点击搜索栏 第6秒:用户输入“Sushi” 第9秒:用户输入“Denver” 第12秒:页面刷新,“Sushi”筛选条件消失 第15秒:用户开始重新寻找筛选选项

需要强调的是,一致性衡量的是多次测量结果的重叠程度,而非“准确性”或与人类测量结果的重叠程度。研究作者也提到,这方面的工作仍在进行中。

鉴于Gemini在处理此类任务时已展现出超越人类基准的可靠性,如果仅依赖单一模型进行可用性测试,建议优先考虑Gemini。为了最大化地发现潜在问题,可以考虑结合不同模型的结果取交集,这或许是当前提高AI分析可信度的最经济有效的方法。

原文链接:https://measuringu.com/ai-usability-problem-analysis-of-a-video/

如果您手头有可用性测试视频,不妨尝试运行您正在使用的模型,以评估其一致性水平。