AI数据告急:训练素材快用光了怎么办?
你每天用来聊天、写方案、生成图片的AI,知识到底从哪来?
答案很简单:来自人类过去几十年留在互联网上的所有文字、图片和视频。大模型就像一头食量惊人的巨兽,把百科、书籍、论文、帖子、开源代码统统“吃”进肚子里,才练就了如今的能力。
但一个越来越现实的问题正在摆在整个行业面前:这份“免费的数据午餐”,快吃完了。
从2024年“数据枯竭论”首次引发争议,到2026年成为行业共识,短短两年时间,“数据会不会不够用”已经从学术猜想,变成了巨头们必须直面的产业瓶颈。
中国信通院总工程师何宝宏直言:当前大模型已经撞上了“数据墙”,数据正取代算力,成为制约模型能力提升的核心因素。