标签

构建AI训练数据合理使用新机制

发布时间:2026-05-27 07:26来源:光明日报阅读:5

近期,中央网信办发布通知,在全国范围内启动为期四个月的“清朗·整治AI应用乱象”专项行动。该行动第一阶段聚焦的核心问题之一便是大模型训练语料安全,例如语料审核不严导致违法不良信息混入模型训练数据;训练数据来源合规性存疑,未经许可使用文字、图片、音视频等素材,旨在从源头强化对AI技术的治理。

回顾人工智能演进历程,从早期的文本生成到如今涵盖图像、音乐、视频的多模态内容创作,每前进一步,对训练数据的广度、深度及复杂度的要求便提升一个层级。可以说,无数据则无模型,无高质量数据则无高水平模型。当前大模型的竞争,表面是算法与算力的比拼,实则是数据供给能力与数据治理水平的较量。谁能合法合规地稳定获取可用数据,构建高质量语料与数据集,谁就能在未来的人工智能角逐中掌握主动权乃至主导权。

目前,关于人工智能训练数据的使用,尚缺乏统一的制度规范。实践中主要依据《生成式人工智能服务管理暂行办法》《中共中央 国务院关于构建数据基础制度更好发挥数据要素作用的意见》等规定,并辅以著作权法中的合理使用条款进行调节。整体而言,仍需完善与其他部门法协调统一、内容明确且具直接针对性的制度体系。鉴于现实中模型训练数据来源复杂、层级繁多、流转频繁,大量数据面临权属不明、授权不清、来源难溯的困境。加之算法训练过程高度复杂,模型机制具有显著的“黑箱”特征,进一步加剧了权利识别难、侵权举证难、责任划分难等普遍存在的现实难题。因此,建立人工智能训练数据合理使用的制度规则已刻不容缓。数据治理不能仅依赖事后个案裁决,更应建立分类分级、授权留痕、来源可溯、风险评估及争议救济等机制。尤其需区分训练阶段的数据摄取、模型输出阶段的内容生成以及平台传播阶段的责任承担,避免将不同环节的法律责任简单混淆。

事实上,“十五五”规划纲要已作出针对性部署,提出“完善数据标准体系和质量管理体系,加快建设人工智能语料库,面向能源、交通、制造、教育、健康、金融等领域建设高质量数据集,建立人工智能训练数据合理使用制度”。这意味着训练数据治理已非单纯的技术企业合规问题,而是关乎数据资源开发、人工智能产业竞争力及数字中国建设全局的基础性制度议题。构建科学有效的制度规则是人工智能稳健发展的关键保障。要让该制度立得住、行得通,两方面问题尤为值得关注。

一方面,需统筹好多元关系。人工智能训练数据从生成、处理、流通至进入模型训练,涉及原始权利人、数据处理者、交易平台、模型开发者、应用企业及最终用户等多方主体。制度设计既不能将数据资源简单视为可随意抓取公共素材,也不能因权利边界模糊而使创新活动陷入过度不确定性。关键在于建立清晰、可操作、可预期的规则:对可自由使用、需授权、限制使用及禁止使用的数据进行分类安排,并对授权、收益分配、来源追溯及责任承担形成明确机制。

另一方面,人工智能训练数据的使用天然具备跨境属性,涉及版权例外、文本与数据挖掘、跨境数据流动、数字贸易及平台治理等多重议题。这要求我们在制度制定中,既要立足国内产业实践,也要重视与国际通行规则的兼容、对话及转化。尤其在相关国际规则仍处于形成与调整期的背景下,应通过知识产权、数字经济和人工智能治理等多边平台,积极提出兼具实践基础与制度解释力的中国方案。

面向人工智能快速发展的新阶段,我们应以训练数据合理使用制度建设为核心抓手,加速推动形成分类清晰、授权明确、流通有序、责任可追的治理体系,在保护权利人合法权益的同时释放数据要素价值,在规范市场秩序的同时激发技术创新活力。唯有如此,人工智能产业方能在法治轨道上行稳致远,我们也才能在全球人工智能治理规则塑造中贡献更多“中国智慧”。

(作者:孙晓麒、邓宏光,分别系中国政法大学刑民交叉研究中心特约研究员,西南政法大学民商法学院教授、博士生导师)