AI素养量表:评估与应用
推荐理由:尽管该量表发表于中等影响力期刊,但其在内容效度构建、结构界定及测量设计方面表现出较高的规范性。量表题项精简(12项),结构清晰(四维模型),能够有效降低测量负担并提升实证研究的可操作性。同时,该量表以通用型AI使用情境为基础,适用于不同人群与研究场域,具有较强的外部适用性。此外,该量表发表于生成式人工智能快速发展前期,在后续AI教育与人机交互研究中具有较高的参考价值与可复用性,因此已逐渐成为相关研究中具有代表性的基础测量工具。
随着人工智能(Artificial Intelligence, AI)逐渐融入日常生活,如何评估用户使用 AI 技术的能力愈发重要。本研究提出“人工智能素养”(AI literacy)的概念,并开发了一套用于测量普通用户 AI 素养水平的量化工具。
研究首先界定了 AI 素养的四个核心维度:认知、使用、评估与伦理。在此基础上,初步生成 65 个题项,并通过三阶段内容效度检验筛选至 31 项。随后基于两组样本数据,对量表进行精简与验证,最终形成包含 12 个题项的简化量表。结果表明,该四维结构模型具有良好的结构效度与内部一致性。
进一步分析发现,AI 素养与数字素养、对机器人的态度以及日常 AI 使用行为之间存在显著相关关系。本研究为评估用户 AI 能力提供了可靠工具,有助于深化对人机交互过程的理解,并为智能系统设计提供基于用户能力差异的参考依据。
现实需要
应对人工智能融入日常生活的现实需求:随着人工智能嵌入各类设备与应用,用户在日常生活中越来越频繁地与AI进行交互,因此有必要界定并评估其在这一环境中的基本能力。
提升人机智能交互效果:已有研究表明,用户能力水平会影响其与AI系统的交互表现。通过测量AI素养,可以为系统设计提供依据,使技术更好地匹配用户能力水平。
弥补现有测量方式的局限:既有研究通常使用“使用经验”或“使用频率”作为代理变量来衡量用户能力,但这些指标无法全面反映用户在理解、使用与判断AI方面的真实水平,因此需要开发更为系统的量化工具。
支持人工智能教育与能力培养:AI素养的多维结构(认知、使用、评估与伦理)可作为能力框架,为课程设计与教育实践提供参考。
理论需要
填补AI素养测量的研究空白:尽管已有研究涉及AI相关能力,但缺乏系统化的构念界定及其对应的标准化测量工具,本研究旨在构建并验证这一测量框架。
引入心理模型视角解释人机交互差异:AI素养会影响用户对系统的心理模型(mental models),进而影响其在交互中的理解与行为,该量表为研究这一机制提供了可操作的测量基础。
区分AI素养与数字素养:虽然两者存在交叉,但人工智能具有更强的复杂性与社会属性。用户在与AI(如智能体或机器人)交互时,往往不仅基于技术逻辑,还涉及社会性认知,因此传统数字素养框架难以充分解释相关能力。
构建多维综合能力结构:借鉴相关素养研究,本量表将AI素养界定为包含认知、使用、评估与伦理的四维结构,以覆盖从理解到操作,再到批判性判断与伦理反思的完整能力体系。
人工智能素养(AI Literacy)是指个体在与人工智能交互过程中,理解、使用并评估AI技术的能力,以及对其潜在风险与伦理问题的认知能力。
量表结构
该量表包含 4 个维度,共 12 个题项:
1. 意识(Awareness) 指个体对人工智能技术的基本认知与理解能力,包括识别AI技术及其在应用中的功能与作用。
2. 使用(Usage) 指个体操作和使用人工智能技术以完成任务的能力,包括使用现有工具及学习新应用。
3. 评估(Evaluation) 指个体对人工智能系统及其输出结果进行分析、比较与判断的能力,包括识别其局限性并做出合理选择。
4. 伦理(Ethics) 指个体在使用人工智能过程中,对相关伦理问题、责任归属及潜在风险(如隐私与安全)的认知能力。
意识(Awareness)
用于测量个体对人工智能技术的识别与理解能力。
Item 1 我能区分智能设备和非智能设备。 I can distinguish between smart devices and non-smart devices.
Item 2(反向计分) 我不知道人工智能技术如何帮助我。 I do not know how AI technology can help me.
Item 3 我能识别我所使用的应用或产品中所采用的人工智能技术。 I can identify the AI technology employed in the applications and products I use.
用于测量个体应用人工智能技术完成任务的能力。
Item 4 我能够使用人工智能应用或产品来辅助我的日常工作。 I can use AI applications or products to help me with my daily work.
Item 5(反向计分) 对我来说,学习使用新的人工智能应用或产品通常是困难的。 It is usually hard for me to learn to use a new AI application or product.
Item 6 我能够利用人工智能应用或产品来提高工作效率。 I can use AI applications or products to improve my work efficiency.
用于测量个体对人工智能系统及其输出结果进行判断与选择的能力。
Item 7 在使用一段时间后,我能评估一个人工智能应用或产品的能力和局限性。 I can evaluate the capabilities and limitations of an AI application or product after using it for a while.
Item 8 我能从智能代理提供的各种方案中选择一个合适的方案。 I can choose a proper solution from various solutions provided by a smart agent.
Item 9 我能针对特定任务从多种产品中选择最合适的人工智能应用或产品。 I can choose the most appropriate AI application or product from a variety for a particular task.
用于测量个体在使用人工智能过程中对伦理问题与风险的认知能力。
Item 10 我在使用人工智能应用或产品时会遵循伦理原则。 I comply with ethical principles when using AI applications or products.
Item 11(反向计分) 我在使用人工智能时不会警惕隐私和信息安全问题。 I am never alert to privacy and information security issues when using AI applications or products.
Item 12 我对人工智能技术的滥用保持警惕。 I am always alert to the abuse of AI technology.
信度与效度
信度(Reliability)
本量表整体及各维度均表现出良好的内部一致性。具体而言:
意识(Awareness):Cronbach’s α =0.73
使用(Usage):Cronbach’s α =0.75
评估(Evaluation):Cronbach’s α =0.78
伦理(Ethics):Cronbach’s α =0.74
整体量表的 Cronbach’s α =0.83。
上述结果表明,各维度α系数均达到0.70以上的推荐标准,说明量表在不同题项之间具有良好的内部一致性,能够稳定测量个体的人工智能素养水平。
此外,各维度的组合信度(Composite Reliability, CR)均高于0.70,进一步支持量表的信度质量。
本量表通过系统的三阶段专家评估过程建立内容效度。研究邀请5位领域专家(SMEs)对初始题项进行多轮筛选与修订,包括题项分类、一致性检验及焦点访谈,从而确保量表题项能够充分覆盖人工智能素养的四个核心构面(意识、使用、评估与伦理)。
研究采用验证性因子分析(Confirmatory Factor Analysis, CFA)对量表结构进行检验。结果表明,四因子模型拟合良好,各项模型拟合指标均达到推荐标准,支持人工智能素养的四维结构设定。
各维度的平均方差提取值(Average Variance Extracted, AVE)介于0.48 至 0.55之间。尽管个别维度略低于0.50的推荐阈值,但结合较高的组合信度(CR),仍可认为量表具有可接受的聚合效度。
各维度之间具有良好的区分性,不同构面之间能够有效区分,表明量表在结构上具有清晰的维度划分。
研究进一步检验了量表的效标关联效度。结果表明:
人工智能素养与数字素养呈显著正相关
与对机器人的负面态度呈显著负相关
与个体的AI使用行为(包括使用频率、广度与多样性)呈显著正相关
上述结果表明,该量表在预测相关行为与态度变量方面具有良好的效标效度。
综上所述,该量表在内容效度、结构效度、聚合效度及效标关联效度等多个层面均获得支持,同时具有良好的内部一致性,属于信效度较为完善的人工智能素养测量工具。
使用方法
本量表采用 7 点李克特量表(7-point Likert scale)进行计分。受访者根据自身在日常生活、学习或工作中与人工智能技术交互的实际情况,对各题项的符合程度进行评价(1 = 强烈不同意,7 = 强烈同意)。
量表用于测量个体的人工智能素养水平,包括认知、使用、评估与伦理四个维度。因此:得分越高,表示个体在人工智能环境中的综合能力水平越高;得分越低,则表明其在相关能力方面仍有提升空间。需要注意的是,量表包含反向计分题项(Item 2、5、11),在数据分析前需进行反向处理。
数据分析
研究者可基于12个题项计算总量表得分,或分别计算意识(Awareness)、使用(Usage)、评估(Evaluation)与伦理(Ethics)四个维度的平均得分,以评估个体整体及各维度的人工智能素养水平。需要注意的是,原研究表明总量表的信度(α = 0.83)高于各单一维度,因此在实证分析中建议优先将该量表作为整体构念(composite construct)使用。在进一步分析中,该量表可作为潜变量纳入结构方程模型(SEM或PLS-SEM),用于探讨人工智能素养与数字素养、对机器人的态度以及AI使用行为等变量之间的关系,同时也可拓展至技术接受模型(如TAM、UTAUT)或人机交互(HAII)研究框架中。
适用场景
教育研究:用于评估学生或教师的AI素养水平,并分析其对学习效果与教学实践的影响。
技术接受研究:用于探讨AI素养在技术采纳过程中的作用,如其对使用意愿与行为的影响。
人机交互研究(HCI/HAII):用于分析用户AI能力差异如何影响其与智能系统的交互表现与决策过程。
AI产品设计:用于支持基于用户能力差异的系统设计与功能优化。
可解释人工智能(XAI)研究:用于评估解释机制对用户理解能力与信任形成的影响。
原文连接
https://doi.org/10.1080/0144929X.2022.2072768