构建AI训练数据合理使用新机制

发布时间：2026-05-27 07:26阅读：14

近期，中央网信办发布通知，在全国范围内启动为期四个月的“清朗·整治AI应用乱象”专项行动。该行动第一阶段聚焦的核心问题之一便是大模型训练语料安全，例如语料审核不严导致违法不良信息混入模型训练数据；训练数据来源合规性存疑，未经许可使用文字、图片、音视频等素材，旨在从源头强化对AI技术的治理。

回顾人工智能演进历程，从早期的文本生成到如今涵盖图像、音乐、视频的多模态内容创作，每前进一步，对训练数据的广度、深度及复杂度的要求便提升一个层级。可以说，无数据则无模型，无高质量数据则无高水平模型。当前大模型的竞争，表面是算法与算力的比拼，实则是数据供给能力与数据治理水平的较量。谁能合法合规地稳定获取可用数据，构建高质量语料与数据集，谁就能在未来的人工智能角逐中掌握主动权乃至主导权。

目前，关于人工智能训练数据的使用，尚缺乏统一的制度规范。实践中主要依据《生成式人工智能服务管理暂行办法》《中共中央国务院关于构建数据基础制度更好发挥数据要素作用的意见》等规定，并辅以著作权法中的合理使用条款进行调节。整体而言，仍需完善与其他部门法协调统一、内容明确且具直接针对性的制度体系。鉴于现实中模型训练数据来源复杂、层级繁多、流转频繁，大量数据面临权属不明、授权不清、来源难溯的困境。加之算法训练过程高度复杂，模型机制具有显著的“黑箱”特征，进一步加剧了权利识别难、侵权举证难、责任划分难等普遍存在的现实难题。因此，建立人工智能训练数据合理使用的制度规则已刻不容缓。数据治理不能仅依赖事后个案裁决，更应建立分类分级、授权留痕、来源可溯、风险评估及争议救济等机制。尤其需区分训练阶段的数据摄取、模型输出阶段的内容生成以及平台传播阶段的责任承担，避免将不同环节的法律责任简单混淆。

事实上，“十五五”规划纲要已作出针对性部署，提出“完善数据标准体系和质量管理体系，加快建设人工智能语料库，面向能源、交通、制造、教育、健康、金融等领域建设高质量数据集，建立人工智能训练数据合理使用制度”。这意味着训练数据治理已非单纯的技术企业合规问题，而是关乎数据资源开发、人工智能产业竞争力及数字中国建设全局的基础性制度议题。构建科学有效的制度规则是人工智能稳健发展的关键保障。要让该制度立得住、行得通，两方面问题尤为值得关注。

一方面，需统筹好多元关系。人工智能训练数据从生成、处理、流通至进入模型训练，涉及原始权利人、数据处理者、交易平台、模型开发者、应用企业及最终用户等多方主体。制度设计既不能将数据资源简单视为可随意抓取公共素材，也不能因权利边界模糊而使创新活动陷入过度不确定性。关键在于建立清晰、可操作、可预期的规则：对可自由使用、需授权、限制使用及禁止使用的数据进行分类安排，并对授权、收益分配、来源追溯及责任承担形成明确机制。

另一方面，人工智能训练数据的使用天然具备跨境属性，涉及版权例外、文本与数据挖掘、跨境数据流动、数字贸易及平台治理等多重议题。这要求我们在制度制定中，既要立足国内产业实践，也要重视与国际通行规则的兼容、对话及转化。尤其在相关国际规则仍处于形成与调整期的背景下，应通过知识产权、数字经济和人工智能治理等多边平台，积极提出兼具实践基础与制度解释力的中国方案。

面向人工智能快速发展的新阶段，我们应以训练数据合理使用制度建设为核心抓手，加速推动形成分类清晰、授权明确、流通有序、责任可追的治理体系，在保护权利人合法权益的同时释放数据要素价值，在规范市场秩序的同时激发技术创新活力。唯有如此，人工智能产业方能在法治轨道上行稳致远，我们也才能在全球人工智能治理规则塑造中贡献更多“中国智慧”。

（作者：孙晓麒、邓宏光，分别系中国政法大学刑民交叉研究中心特约研究员，西南政法大学民商法学院教授、博士生导师）

← 上一篇：中国足球青训迎来曙光下一篇：国产创新药爆发：研发提速与质量获国际肯定 →