标签

当AI开始消化自己生成的内容

发布时间:2026-04-16 20:30来源:微信阅读:4

2022年前,AI训练素材尚属纯净。

GPT-3与GPT-4所'消化'的书籍,百分之百源自人类创作。

豆包(Seed)的'食谱'同样完全由人类著作构成。

文心、通义摄取的书籍中,人类作品占比超过95%。

然而2025年起,局面发生转变。

GPT-5、Gemini 4等新一代模型,其训练数据已掺入10%~20%的AI产出内容。

AI正在以自身生成的内容喂养自己。

如同人类食用'人造食品',不求营养只求填饱肚子。

周而复始,陷入无限内卷。

来看一组统计数据:

2022至2026年间:

• 全球年度新书出版量:约300万至400万本(含自出版)

• AI深度介入(代笔/润饰/生成)占比约20%~30%

这意味着:

2025年后,每年将有60万至120万本AI深度参与的书籍涌入市场。

这些书籍最终将流向何处?

答案很简单:被爬取、被清洗、投喂给下一代AI模型作为训练养料。

AI创作的书籍,由AI自身消耗,用以训练更智能的AI。

明知AI生成内容水准不一,为何仍要采用?

看似不可思议,实则源于三大动因。

大模型训练需要吞噬海量文本。

人类纯原创书籍:数量受限,更新迟缓

人类纯原创深度内容:稀缺、昂贵、难以获取

AI生成内容:近乎无限、极其廉价、随时可得

训练方追求的并非'句句经典',而是:

说到底:用AI内容训练AI,本质是在'填补数据缺口'。

人类经典著作多属旧作,缺乏2022年后的:

新兴网络用语

新潮热点逻辑

新式表达习惯

新剧情架构、新文案风格

而海量AI辅助创作的小说、文案、干货、短视频脚本,恰好填补了这一空白。

目的:让模型表达更'贴合当代人',而非像从古籍中走出的老学究。

庞大的语料库,使模型掌握当代人的说话方式?学会当下的梗、句式与热点。

人工筛选、清洗、获取人类书籍授权:

成本极高

速度极慢

版权纠纷不断

AI生成内容:

暂无版权纠纷(目前)

体量巨大

随手可取

因此:这些内容虽非最优,但最为省心。

本质上,AI产出内容实为人类书籍的翻版、重组与复述。

无论是AI书籍还是AI训练AI,追根溯源,99%的源头仍来自早期人类创作的小说、心理学、社科、历史、哲学著作及学术论文。

当下AI处理的文字内容仅分三类:

1、转述:将人类已有知识以不同方式重新表述。

2、重组:把不同