标签

数字时代声音权益的法律边界:从AI声音侵权案例谈起

发布时间:2026-06-26 08:37阅读:2

法律视角探析

AI化声音侵权的法律审视

从“AI偷声”事件看数字时代声音权益的保障

01

离职后,你的声音还属于前公司吗?

2024年9月,周某从某文化公司离职后,发现自己的声音正被前公司用于给一个虚拟角色配音。

不是回放录音,是AI合成的“新声音”。虚拟角色“梦某”出现在直播、商场展示甚至Steam商品页面上,用的语调、发音风格,和周某本人如出一辙。

事情要追溯到2023年8月。公司以“内部测试急用”为由,安排周某录制了一批声音素材,项目名称就叫“梦某-周某-声音使用及AI训练项目”。

周某当时就授权费问题与公司沟通,公司没有明确回复。双方始终没签正式合作协议。

周某发现公司不仅把声音素材拿去做了AI训练,还用在了商业场景中,于是提起诉讼,请求停止侵权、赔偿10万元并赔礼道歉。

公司的抗辩看起来站得住脚:双方签过《劳动合同》,附件《保密及知识产权协议》约定工作期间的知识产权及财产权利归公司所有。公司享有录音制品的著作权,拿来AI化使用,有什么问题?

杭州市滨江区人民法院却最终判令:公司停止侵权、赔偿经济损失2万元、出具书面道歉声明。判决已生效。

这个案子的核心矛盾,恰恰是大多数人的认知盲区——著作权保护的是“录音制品”这个载体,不是“声音”本身。

你花钱请人录了音,你拥有的是那段录音的著作权,但你没有权利把录音里那个人的声音提取出来,喂给AI,训练出一个可以无限生成的“数字替身”。

从北京互联网法院的殷某案到杭州滨江法院的周某案,AI声音侵权的裁判规则正在经历一场从“有没有”到“边界在哪”的演进。

这场演进涉及两个层次的追问:AI处理后的声音还能被认出来吗?认出来之后,著作权为什么不能覆盖人格权?

02

殷某案:AI声音侵权第一案的“三步走”

要理解周某案,得先看殷某案。

2023年,配音师殷某经朋友告知,发现短视频平台上出现了“自己的声音”。那些影视解说、游戏解说视频里的旁白,音色、语调、发音习惯,都和她高度一致。但她从未授权任何人把自己的声音AI化。

声音从哪来的?殷某溯源发现,源头是她2019年为一家文化传媒公司录制的有声读物。此后,这段录音经历了一条五层转授权的链条,最终播放量高达32亿次。

北京互联网法院组成五人合议庭审理此案。2024年4月23日一审宣判:被告赔偿殷某25万元并书面赔礼道歉。该案后被最高人民法院发布为典型案例。

法院的认定逻辑可以概括为三步:

第一步:声音具有可识别性。AI合成声音在音色、语调、发音风格上与殷某高度一致,一般社会公众或特定领域公众能依据这些特征识别出殷某,不要求完全一致,只要能产生特定联想即可。

第二步:AI生成声音落入声音权益保护范围。在具备可识别性的前提下,自然人声音权益的保护范围可及于AI生成声音,技术处理不改变声音的人格属性。

第三步:著作权不能覆盖人格权。录音制品著作权与声音人格权是两个层面的权利,文化公司对录音制品享有的著作权,不等于对殷某声音的人格权授权。

三步走的逻辑很清晰:先解决“能不能认出来”(可识别性),再解决“认出来之后受不受保护”(保护范围),最后解决“有著作权为什么还侵权”(权利边界)。

03

可识别性:AI处理后的声音,还是“你的”吗?

“可识别性”是声音权益保护的门槛。

民法典第1023条第2款规定,对自然人声音的保护参照适用肖像权有关规定。

而肖像权保护的前提是“可以被识别”——声音能否被识别出特定自然人,是主张声音权益的第一道关。

《民法典》

第1023条对自然人声音的保护,参照适用肖像权保护的有关规定。

王利明教授在《论声音权益的法律保护模式》一文中论述,声音的三要素包括音调、音色和音量,其中可识别性主要通过音色判断。

史尚宽先生曾言:“声音标识人格之特征,为人格之重要利益,与姓名、肖像相同。”

AI场景下,这道门槛面临新的考验:经过算法处理的声音,还是原来的声音吗?

殷某案和周某案给出了基本一致的回答——AI处理后的声音只要还能被认出来,就仍然落入声音权益的保护范围。

两案在表述上有细微差异:殷某案强调“一般社会公众或特定领域公众”能识别,周某案强调“一般公众”能“准确识别”。但底层逻辑一致:技术加工不改变声音的可识别性。

那么,原告如何证明AI合成的声音就是自己的声音?实务中的基本路径是“初步举证+举证责任转移”。

权利人只需初步举证AI生成声音与自身特征高度相似、具备可识别性,后续举证责任即可转移至AI平台或内容生成方。

声纹鉴定是关键手段——声纹与指纹一样具有唯一性和稳定性,当侵权方否认时,权利人可通过专业声纹比对报告完成举证。

但声纹取证与鉴定专业门槛高、耗时长,侵权内容分散、源头难追溯。吴汉东教授提出,应以可识别性为核心侵权要件,结合声纹鉴定与传播场景综合界定人格权益边界。

殷某案中,法院对可识别性的认定并非仅凭主观听感,而是从三个方面综合判定:

主观标准,以一般社会公众或一定范围内的公众能否识别来判断;客观标准,从声纹辨认、声纹确认、声音的音色和语调等方面综合判断;使用方式,也作为判定因素之一。

也就是说,法院既有“听”的维度,也有“比”的维度——声纹辨认和声纹确认提供了技术层面的客观依据。

但AI技术的发展正在制造新的难题。

“局部高仿”——有选择性地模仿显著特征,嵌入其他声音或全新语句中,是否构成可识别性变得模糊。

“声音融合篡改”——杂糅多人声线生成新变体,原始声纹