数据标注的“阴影”:AI模型“学坏”的根源
> 2024年,麻省理工学院(MIT)的一项引起学术界广泛关注的研究揭示,包括ImageNet在内的十个主流人工智能基准数据集,其平均标注错误率高达3.3%。其中,ImageNet验证集竟有2,916张图片被错误标记——这意味着全球无数AI模型在过去的数年间,都是基于这些“错误答案”进行训练的。数据标注,这一常常被忽视的AI基础环节,正悄然成为影响模型成败的关键“隐形战场”。在深度学习飞速发展的今天,AI模型本质上是一个“模仿学习者”:如果我们向其展示一百万张被标记为“猫”的图片,它便能学会识别猫。