当AI开始消化自己生成的内容
2022年前,AI训练素材尚属纯净。
GPT-3与GPT-4所'消化'的书籍,百分之百源自人类创作。
豆包(Seed)的'食谱'同样完全由人类著作构成。
文心、通义摄取的书籍中,人类作品占比超过95%。
然而2025年起,局面发生转变。
GPT-5、Gemini 4等新一代模型,其训练数据已掺入10%~20%的AI产出内容。
AI正在以自身生成的内容喂养自己。
如同人类食用'人造食品',不求营养只求填饱肚子。
周而复始,陷入无限内卷。
来看一组统计数据:
2022至2026年间:
• 全球年度新书出版量:约300万至400万本(含自出版)
• AI深度介入(代笔/润饰/生成)占比约20%~30%
这意味着:
2025年后,每年将有60万至120万本AI深度参与的书籍涌入市场。
这些书籍最终将流向何处?
答案很简单:被爬取、被清洗、投喂给下一代AI模型作为训练养料。
AI创作的书籍,由AI自身消耗,用以训练更智能的AI。
明知AI生成内容水准不一,为何仍要采用?
看似不可思议,实则源于三大动因。
大模型训练需要吞噬海量文本。
人类纯原创书籍:数量受限,更新迟缓
人类纯原创深度内容:稀缺、昂贵、难以获取
AI生成内容:近乎无限、极其廉价、随时可得
训练方追求的并非'句句经典',而是:
说到底:用AI内容训练AI,本质是在'填补数据缺口'。
人类经典著作多属旧作,缺乏2022年后的:
新兴网络用语
新潮热点逻辑
新式表达习惯
新剧情架构、新文案风格
而海量AI辅助创作的小说、文案、干货、短视频脚本,恰好填补了这一空白。
目的:让模型表达更'贴合当代人',而非像从古籍中走出的老学究。
庞大的语料库,使模型掌握当代人的说话方式?学会当下的梗、句式与热点。
人工筛选、清洗、获取人类书籍授权:
成本极高
速度极慢
版权纠纷不断
AI生成内容:
暂无版权纠纷(目前)
体量巨大
随手可取
因此:这些内容虽非最优,但最为省心。
本质上,AI产出内容实为人类书籍的翻版、重组与复述。
无论是AI书籍还是AI训练AI,追根溯源,99%的源头仍来自早期人类创作的小说、心理学、社科、历史、哲学著作及学术论文。
当下AI处理的文字内容仅分三类:
1、转述:将人类已有知识以不同方式重新表述。
2、重组:把不同