标签

AI训练数据治理的“术”与“道”

发布时间:2026-03-29 00:10来源:微信阅读:8

人工智能正以前所未有的速度重塑人类社会的生产生活方式。数据显示,2025年我国人工智能企业数量已超过6000家,核心产业规模预计突破1.2万亿元。人工智能正加速融入千行百业,成为培育新质生产力的重要引擎。

然而,在人工智能产业高歌猛进的同时,一个根本性的安全问题不容忽视:驱动人工智能发展的海量训练数据,是否合法安全?人工智能的“源头”若受污染,下游应用必将面临极大的风险。正因如此,人工智能训练数据的治理问题引发了广泛关注。

今年全国两会期间,许多代表建议,要加强数据语料源头治理。这传递出明确的信号:人工智能训练数据治理已刻不容缓,要推动人工智能健康发展,必须净化数据源头,筑牢安全底座。

在瑞士日内瓦举行的2024年“人工智能造福人类全球峰会”上,绘画机器人演示作画。新华社发

数据之“患”:

“先使用后治理”的风险

当下,海量数据是训练人工智能模型的重要基础。因此,人工智能企业把训练数据视为“多多益善”的资源,努力获取海量数据并快速用于训练。但问题在于,一些企业往往按照“先使用后治理”思路来获取和使用训练数据,忽视了其中潜在的合法性和安全性风险。

首先是合法性风险。海量训练数据