酷阅新闻

当AI开始消化自己生成的内容

发布时间：2026-04-16 20:30阅读：9

2022年前，AI训练素材尚属纯净。

GPT-3与GPT-4所'消化'的书籍，百分之百源自人类创作。

豆包（Seed）的'食谱'同样完全由人类著作构成。

文心、通义摄取的书籍中，人类作品占比超过95%。

然而2025年起，局面发生转变。

GPT-5、Gemini 4等新一代模型，其训练数据已掺入10%～20%的AI产出内容。

AI正在以自身生成的内容喂养自己。

如同人类食用'人造食品'，不求营养只求填饱肚子。

周而复始，陷入无限内卷。

来看一组统计数据：

2022至2026年间：

• 全球年度新书出版量：约300万至400万本（含自出版）

• AI深度介入（代笔/润饰/生成）占比约20%～30%

这意味着：

2025年后，每年将有60万至120万本AI深度参与的书籍涌入市场。

这些书籍最终将流向何处？

答案很简单：被爬取、被清洗、投喂给下一代AI模型作为训练养料。

AI创作的书籍，由AI自身消耗，用以训练更智能的AI。

明知AI生成内容水准不一，为何仍要采用？

看似不可思议，实则源于三大动因。

大模型训练需要吞噬海量文本。

人类纯原创书籍：数量受限，更新迟缓

人类纯原创深度内容：稀缺、昂贵、难以获取

AI生成内容：近乎无限、极其廉价、随时可得

训练方追求的并非'句句经典'，而是：

说到底：用AI内容训练AI，本质是在'填补数据缺口'。

人类经典著作多属旧作，缺乏2022年后的：

新兴网络用语

新潮热点逻辑

新式表达习惯

新剧情架构、新文案风格

而海量AI辅助创作的小说、文案、干货、短视频脚本，恰好填补了这一空白。

目的：让模型表达更'贴合当代人'，而非像从古籍中走出的老学究。

庞大的语料库，使模型掌握当代人的说话方式？学会当下的梗、句式与热点。

人工筛选、清洗、获取人类书籍授权：

成本极高

速度极慢

版权纠纷不断

AI生成内容：

暂无版权纠纷（目前）

体量巨大

随手可取

因此：这些内容虽非最优，但最为省心。

本质上，AI产出内容实为人类书籍的翻版、重组与复述。

无论是AI书籍还是AI训练AI，追根溯源，99%的源头仍来自早期人类创作的小说、心理学、社科、历史、哲学著作及学术论文。

当下AI处理的文字内容仅分三类：

1、转述：将人类已有知识以不同方式重新表述。

2、重组：把不同

← 上一篇：六部门重磅出击"AI+电商"：从标题优化到智能客服的全链路替代指南下一篇：AI正在"偷走"我的价值 →