欧盟AI监管体系的结构性挑战与演进
欧盟人工智能法律框架正面临深层次的结构性张力。从训练、模型到输出三个技术层级切入,审视数据保护法、著作权法与《人工智能法案》的协同适用,可清晰呈现技术中立型规制与技术特设型规制之间的根本冲突,也凸显出现行法律在应对生成式人工智能时的系统性适配不足。
在训练环节,欧盟《通用数据保护条例》(GDPR)对AI训练施加的关键约束首先体现于合法性基础的选择。由于海量网络数据抓取难以逐一获取数据主体同意,开发者普遍援引第6条第1款(f)项“合法利益”作为处理依据。该条款要求完成三重检验:控制者须追求正当利益、处理行为对该利益实现确属必要、且该利益不得压倒数据主体的基本权利。尽管社会价值显著的人工智能应用及隐私增强技术有助于在利益权衡中占据优势,但GDPR序言第47条所强调的“数据主体合理预期”标准却构成实质性障碍——绝大多数用户并未预见到其公开数据将被用于AI模型训练。然而,数据保护的核心争议焦点并非集中于第6条,而在于第9条关于特殊类别数据的例外适用。欧盟法院大审判庭在Meta诉德国联邦卡特尔局案中对第9条作出极为宽泛解释:数据无需直接标识健康、宗教或种族等敏感属性,只要处理行为“可能揭示”此类信息,即触发第9条严格规制。这一判例对AI训练影响深远——现代机器学习已能从表层中性数据推断出敏感特征,而大规模训练语料库几乎不可避免地混杂敏感信息。依Meta案确立的宽泛路径,即便控制者并无主动识别意图,仅存在推断可能性,即足以将相关处理纳入第9条管辖范围。与第6条不同,第9条未设一般性利益衡量机制,开发者必须严格对应第9条第2款所列具体例外情形;除明示同意外,其余可用例外极为稀少。德国科隆高等法院对此采取了颇具争议的回避策略,径直认定第9条不构成AI训练障碍,理由是《人工智能法案》隐含限缩了第9条适用以保障欧盟AI竞争力——该推论在教义学层面缺乏支撑,实质是以政策目标取代法律推理。欧盟委员会提出的GDPR综合修订草案拟通过两项关键调整回应上述困境:新增第88c条明确将AI开发与运营列为第6条第1款(f)项下的合法利益;新增第9条第2款(k)项,专为AI系统与模型研发设立敏感数据处理例外,并于第9条第5款配套强制性技术与组织保障措施。该修法方向具有积极意义,因若无此类例外,欧盟境内多数商业性AI训练事实上将难以合规开展。
著作权法则构成AI训练另一关键规制维度。《数字单一市场版权指令》设置了两项文本与数据挖掘(TDM)例外:第3条面向研究机构与文化遗产机构提供强制性豁免;第4条则向所有合法获取内容的使用者开放更广范围的例外,但受制于权利人的“选择退出”机制。商业AI开发者通常只能依赖第4条。需注意的是,TDM例外并不附带报酬义务,反映出立法者预设前提——将作品用于自动化分析不会实质性损害权利人利益。但在生成式AI语境下,该前提是否仍具正当性,已成为学界与实务界激烈争辩的焦点。慕尼黑地方法院于2025年12月就GEMA诉OpenAI案作出的判决具有里程碑意义。法院将训练过程划分为三阶段:训练数据准备、模型参数中的记忆化、以及最终输出中的再现。法院认定前两阶段均属于《德国著作权法》第16条意义上的复制行为。就数据准备阶段,法院认为将素材提取并转为机器可读格式属TDM例外覆盖范围;但进一步指出,TDM例外不涵盖模型参数中形成的记忆化,因其仅适用于“以TDM为目的”的复制,而参数内嵌的复制已脱离后续分析功能,故超出例外边界。法院亦明确拒绝类推扩张TDM例外以涵盖记忆化——即便承认立法存在空白,二者间亦不存在可比的利益结构。该裁决与英国高等法院在Getty Images诉Stability AI案中的立场形成鲜明反差:英方否认训练后模型本身存储或复制任何受保护作品。两大法域司法分歧凸显一项根本性法律不确定性:模型参数中的记忆化是否构成著作权法意义上的复制?若在合理用户经合理努力即可令模型复现原作的前提下成立复制,则将对AI开发产生重大影响,尤其涉及许可获取义务、损害赔偿责任乃至模型删除风险。
关于此问题的讨论,参见本人合著论文:Kaigeng Li, Hong Wu and Yupeng Dong,‘Copyright Protection During the Training Stage of Generative AI: Industry-Oriented US Law, Rights-Oriented EU Law, and Fair Remuneration Rights for Generative AI Training Under the UN’s International Governance Regime for AI’ (2024) 55 Computer Law & Security Review 1.
在模型层面,数据保护问题同样突出。训练完成后的模型本身是否属于GDPR定义的“个人数据”?数据泄露与模型逆向攻击两类技术现象与此密切相关。依据欧盟法院Breyer案确立的标准,只要通过合理可行手段能够识别特定自然人,即构成个人数据。鉴于当前大型语言模型仅凭简单提示即可还原大量个人信息,模型参数在诸多场景下极可能被认定为个人数据——这意味着其存储与部署将全面适用GDPR各项义务,包括第17条规定的被遗忘权。该前景推动了“机器遗忘”技术的研究热潮。
在输出层面,大型语言模型的“幻觉”现象对数据准确性提出严峻挑战。当AI输出涉及可识别自然人信息时,GDPR第5条第1款(d)项的准确性原则即予适用。但该原则通常仅针对重大失实情形。可从双重维度理解:某些错误在绝对意义上严重至无论语境如何均构成违法——例如将某人虚构为儿童犯罪者;另一些错误则仅在特定使用场景中才具实质危害——例如出生日期偏差在普通文本中微不足道,但在AI生成的身份证申请中即构成实质性违约。从欧盟产品责任法视角观之,生成式AI的“幻觉”风险并不当然阻碍其进入市场,但其可接受性并非取决于抽象的技术容错阈值,而取决于该产品是否仍能满足公众有权期待的安全水准。依据新修订的《欧盟产品责任指令》,软件及AI系统已被明确纳入产品责任范畴;当生成式AI因训练偏差、更新缺陷或学习过程系统性失准而输出严重错误信息,并导致死亡、人身伤害、财产损失或数据损毁时,受害人原则上无需证明开发者存在过错,即可依缺陷产品的严格责任路径主张救济。由此,欧盟法提供的核心启示并非构建以“幻觉率”为中心的抽象风险区间,而是将AI残余风险转化为安全预期、缺陷认定与严格责任的规范判断框架。只要残余幻觉风险致使产品安全性低于法律与社会合理期待水平,且该缺陷引发法定损害,即应触发无过错责任。
贯穿数据保护与著作权两大领域的一项特殊结构性对称值得深入省思。在两个场域中,核心难题均源于嵌入AI模型参数中的信息片段可能构成法律保护客体——GDPR下的个人数据或著作权法下的受保护作品。而技术上,在保持模型整体功能完好的前提下精准识别并剔除仅涉侵权的参数片段,几乎不可行。强制整机删除不仅造成巨大经济损耗,亦带来显著生态代价——大规模模型训练所耗能源一旦模型废弃即不可回收。尽管结构性挑战高度相似,两类领域的适配救济路径却可能存在差异。在数据保护领域,个人数据难以被数据主体货币化,亦不存在运转良好的市场使个体能以有效价格向AI开发者授权其信息,故必须在财产权规则框架下通过立法明确设定AI训练的具体例外。著作权领域则呈现不同图景:权利人利益与AI开发间的张力,可通过责任规则最优化化解。法律可允许AI训练乃至参数记忆化,但作为对价,构建一种基于输出的报酬机制,由集体管理组织在模型生成内容借鉴特定作品时向作者支付合理补偿。
关于报酬框架,参见本人合著论文:Kaigeng Li, Hong Wu and Yupeng Dong,‘Copyright Protection During the Training Stage of Generative AI: Industry-Oriented US Law, Rights-Oriented EU Law, and Fair Remuneration Rights for Generative AI Training Under the UN’s International Governance Regime for AI’ (2024) 55 Computer Law & Security Review 1.
由此可见,欧盟GDPR与传统著作权法在应对大规模训练、参数记忆化及幻觉等AI特有现象时已显疲态;《人工智能法案》虽引入技术专属规则,却难以独自支撑AI全生命周期的连贯治理。欧盟在此关键节点所作的规制抉择,将在未来数年内深刻塑造欧洲AI治理格局,以及AI研发与落地的基本范式。