标签

AI模型训练数据合规新趋势

发布时间:2026-05-24 13:08来源:微信阅读:4

2026年5月19日,全国网络安全标准化技术委员会发布了《人工智能应用伦理安全指引1.0》(简称“《伦理指引》”),其第6.3条(f)明确规定“确需收集使用者数据用于训练模型、改进服务的,宜持续对使用者提示收集数据的状态,并显著告知关闭方式”。而在2025年11月1日实施的《网络安全技术 生成式人工智能服务安全基本要求》(GB/T 45654-2025)(简称“《人工智能基本安全标准》”)已有类似表述“当收集使用者输人信息用于训练时,对服务提供者的要求如下:a)应为使用者提供关闭其输入信息用于训练的方式,例如为使用者提供选项或语音控制指令;关闭方式应便捷,例如采用选项方式时使用者从服务主界面开始到达该选项所需操作不超过4次点击。b)应将收集使用者输入信息用于训练的状态,以及a)中的关闭方式显著告知使用者”。

相应的规定是2023年发布的《生成式人工智能服务管理暂行办法》(简称“《AIGC办法》”)第11条“提供者对使用者的输入信息和使用记录应当依法履行保护义务,不得收集非必要个人信息,不得非法留存能够识别使用者身份的输入信息和使用记录,不得非法向他人提供使用者的输入信息和使用记录”。

尽管上述文件均不具备强制性,但将其与《AIGC办法》的条款对比,可以看出一个明确趋势:针对人工智能用户数据使用的透明度标准正在提升。对于众多AI企业来说,利用用户数据进行模型训练及服务优化,将遭遇更严苛的合规门槛。

一、《AIGC办法》的核心准则

《AIGC办法》第11条确立了人工智能服务商使用用户输入及记录的基础规范:

1.依据《个人信息保护法》,“个人信息是以电子或者其他方式记录的与已识别或者可识别的自然人有关的各种信息”,参照《信息安全技术 个人信息安全规范》(GB/T 35273-2020)附录对个人上网记录的定义“指通过日志储存的个人信息主体操作记录,包括网站浏览记录、软件使用记录、点击记录、收藏列表等”,在掌握可直接识别用户的信息(如注册手机号或其他可实现实名制的信息)的前提下,用户的输入信息和使用记录均属于用户个人信息,AI服务商需依法保护,并遵循《个人信息保护法》的“最小必要”原则,严禁强迫或变相强迫或通过技术手段收集非必要信息,例如,用户在使用生成式AI服务时,强制要求提供位置信息才能使用,或利用后台抓取用户的应用列表。

2.在使用生成式AI服务时,用户难免会输入可能识别其身份的个人信息,例如姓名、电话、住址、包含用户面部图像的照片等。针对此类信息及记录,仅能于服务必要期限内留存,未经用户许可不得非法保存,并须依法采取必要的安全防护手段。

3.人工智能服务商不得非法向第三方提供用户的输入信息和使用记录。判断是否构成“非法”的依据,主要参照《个人信息保护法》的相关规定。

二、用户输入信息与记录用于模型训练及性能优化的合规规范

首先,模型训练和性能优化并非用户使用AI服务的必经个人信息处理步骤,需对用户进行告知并获取其同意。这一点在《人工智能基本安全标准》中亦有明确,其4.2.3条指出“在使用包含个人信息的训练数据前,应取得对应个人同意或者符合法律、行政法规规定的其他情形。在使用包含敏感个人信息的训练数据前,应取得对应个人单独同意或者符合法律、行政法规规定的其他情形”。

其次,关于同意的形式,若在将用户输入信息和使用记录进行“去标识化”处理,使其不包含可直接识别用户身份的信息后进行模型训练和优化,目前实践中多通过在用户隐私政策中包含“模型训练和优化”用途条款的方式,获得用户同意和授权。

最后,对于用户输入的可直接识别其身份的个人信息,特别是人脸图像等敏感信息,若用于模型训练和优化,需取得其单独同意,即单纯的隐私政策授权并不充分,且该等单独同意不得影响用户使用生成式AI服务功能,否则涉嫌构成“强迫同意”。

三、新动向:合规标准的升级

除《AIGC办法》的要求外,《人工智能基本安全标准》和《伦理指引》对使用用户数据进行模型训练提出了更严格的标准,主要体现在两个方面:

一是必要性,《伦理指引》规定仅在“确需”使用用户数据进行模型训练及服务改进时,方可使用用户数据;

二是透明度,《伦理指引》和《人工智能基本安全标准》均要求向用户告知使用其数据进行模型训练的情况及关闭方式,《伦理指引》更明确要求“持续提示用户收集数据的状态”。

在我国数据合规立法与执法“软硬结合”的背景下,针对AI服务领域使用用户输入及记录进行模型训练,这些标准的提出意味着对《个人信息保护法》下“公开透明”、“最小必要”原则的进一步解读;同时,这也预示着目前通用的在隐私政策中告知用户将其输入内容用于训练及优化的做法,未来可能面临合规挑战。AI企业需提前规划其训练数据的合规路径。