数字时代声音权益的法律边界：从AI声音侵权案例谈起

发布时间：2026-06-26 08:37阅读：2

法律视角探析

AI化声音侵权的法律审视

从“AI偷声”事件看数字时代声音权益的保障

离职后，你的声音还属于前公司吗？

2024年9月，周某从某文化公司离职后，发现自己的声音正被前公司用于给一个虚拟角色配音。

不是回放录音，是AI合成的“新声音”。虚拟角色“梦某”出现在直播、商场展示甚至Steam商品页面上，用的语调、发音风格，和周某本人如出一辙。

事情要追溯到2023年8月。公司以“内部测试急用”为由，安排周某录制了一批声音素材，项目名称就叫“梦某-周某-声音使用及AI训练项目”。

周某当时就授权费问题与公司沟通，公司没有明确回复。双方始终没签正式合作协议。

周某发现公司不仅把声音素材拿去做了AI训练，还用在了商业场景中，于是提起诉讼，请求停止侵权、赔偿10万元并赔礼道歉。

公司的抗辩看起来站得住脚：双方签过《劳动合同》，附件《保密及知识产权协议》约定工作期间的知识产权及财产权利归公司所有。公司享有录音制品的著作权，拿来AI化使用，有什么问题？

杭州市滨江区人民法院却最终判令：公司停止侵权、赔偿经济损失2万元、出具书面道歉声明。判决已生效。

这个案子的核心矛盾，恰恰是大多数人的认知盲区——著作权保护的是“录音制品”这个载体，不是“声音”本身。

你花钱请人录了音，你拥有的是那段录音的著作权，但你没有权利把录音里那个人的声音提取出来，喂给AI，训练出一个可以无限生成的“数字替身”。

从北京互联网法院的殷某案到杭州滨江法院的周某案，AI声音侵权的裁判规则正在经历一场从“有没有”到“边界在哪”的演进。

这场演进涉及两个层次的追问：AI处理后的声音还能被认出来吗？认出来之后，著作权为什么不能覆盖人格权？

殷某案：AI声音侵权第一案的“三步走”

要理解周某案，得先看殷某案。

2023年，配音师殷某经朋友告知，发现短视频平台上出现了“自己的声音”。那些影视解说、游戏解说视频里的旁白，音色、语调、发音习惯，都和她高度一致。但她从未授权任何人把自己的声音AI化。

声音从哪来的？殷某溯源发现，源头是她2019年为一家文化传媒公司录制的有声读物。此后，这段录音经历了一条五层转授权的链条，最终播放量高达32亿次。

北京互联网法院组成五人合议庭审理此案。2024年4月23日一审宣判：被告赔偿殷某25万元并书面赔礼道歉。该案后被最高人民法院发布为典型案例。

法院的认定逻辑可以概括为三步：

第一步：声音具有可识别性。AI合成声音在音色、语调、发音风格上与殷某高度一致，一般社会公众或特定领域公众能依据这些特征识别出殷某，不要求完全一致，只要能产生特定联想即可。

第二步：AI生成声音落入声音权益保护范围。在具备可识别性的前提下，自然人声音权益的保护范围可及于AI生成声音，技术处理不改变声音的人格属性。

第三步：著作权不能覆盖人格权。录音制品著作权与声音人格权是两个层面的权利，文化公司对录音制品享有的著作权，不等于对殷某声音的人格权授权。

三步走的逻辑很清晰：先解决“能不能认出来”（可识别性），再解决“认出来之后受不受保护”（保护范围），最后解决“有著作权为什么还侵权”（权利边界）。

可识别性：AI处理后的声音，还是“你的”吗？

“可识别性”是声音权益保护的门槛。

民法典第1023条第2款规定，对自然人声音的保护参照适用肖像权有关规定。

而肖像权保护的前提是“可以被识别”——声音能否被识别出特定自然人，是主张声音权益的第一道关。

《民法典》

第1023条对自然人声音的保护，参照适用肖像权保护的有关规定。

王利明教授在《论声音权益的法律保护模式》一文中论述，声音的三要素包括音调、音色和音量，其中可识别性主要通过音色判断。

史尚宽先生曾言：“声音标识人格之特征，为人格之重要利益，与姓名、肖像相同。”

AI场景下，这道门槛面临新的考验：经过算法处理的声音，还是原来的声音吗？

殷某案和周某案给出了基本一致的回答——AI处理后的声音只要还能被认出来，就仍然落入声音权益的保护范围。

两案在表述上有细微差异：殷某案强调“一般社会公众或特定领域公众”能识别，周某案强调“一般公众”能“准确识别”。但底层逻辑一致：技术加工不改变声音的可识别性。

那么，原告如何证明AI合成的声音就是自己的声音？实务中的基本路径是“初步举证+举证责任转移”。

权利人只需初步举证AI生成声音与自身特征高度相似、具备可识别性，后续举证责任即可转移至AI平台或内容生成方。

声纹鉴定是关键手段——声纹与指纹一样具有唯一性和稳定性，当侵权方否认时，权利人可通过专业声纹比对报告完成举证。

但声纹取证与鉴定专业门槛高、耗时长，侵权内容分散、源头难追溯。吴汉东教授提出，应以可识别性为核心侵权要件，结合声纹鉴定与传播场景综合界定人格权益边界。

殷某案中，法院对可识别性的认定并非仅凭主观听感，而是从三个方面综合判定：

主观标准，以一般社会公众或一定范围内的公众能否识别来判断；客观标准，从声纹辨认、声纹确认、声音的音色和语调等方面综合判断；使用方式，也作为判定因素之一。

也就是说，法院既有“听”的维度，也有“比”的维度——声纹辨认和声纹确认提供了技术层面的客观依据。

但AI技术的发展正在制造新的难题。

“局部高仿”——有选择性地模仿显著特征，嵌入其他声音或全新语句中，是否构成可识别性变得模糊。

“声音融合篡改”——杂糅多人声线生成新变体，原始声纹