AI训练数据治理的“术”与“道”

发布时间：2026-03-29 00:10阅读：23

人工智能正以前所未有的速度重塑人类社会的生产生活方式。数据显示，2025年我国人工智能企业数量已超过6000家，核心产业规模预计突破1.2万亿元。人工智能正加速融入千行百业，成为培育新质生产力的重要引擎。

然而，在人工智能产业高歌猛进的同时，一个根本性的安全问题不容忽视：驱动人工智能发展的海量训练数据，是否合法安全？人工智能的“源头”若受污染，下游应用必将面临极大的风险。正因如此，人工智能训练数据的治理问题引发了广泛关注。

今年全国两会期间，许多代表建议，要加强数据语料源头治理。这传递出明确的信号：人工智能训练数据治理已刻不容缓，要推动人工智能健康发展，必须净化数据源头，筑牢安全底座。

在瑞士日内瓦举行的2024年“人工智能造福人类全球峰会”上，绘画机器人演示作画。新华社发

数据之“患”：

“先使用后治理”的风险

当下，海量数据是训练人工智能模型的重要基础。因此，人工智能企业把训练数据视为“多多益善”的资源，努力获取海量数据并快速用于训练。但问题在于，一些企业往往按照“先使用后治理”思路来获取和使用训练数据，忽视了其中潜在的合法性和安全性风险。

首先是合法性风险。海量训练数据