标签

AI训练数据即将见底

发布时间:2026-04-23 18:35来源:微信阅读:5

当前主流人工智能技术大多依托机器学习与深度学习架构,其本质在于从海量数据中提取隐藏的模式与规律。缺少训练数据,模型将无法完成学习,人工智能的智能属性也就无从谈起,正因如此,数据常被视为人工智能的“能量来源”。

步入大模型时代,采用自监督学习的预训练策略显著降低了对人工标注数据的依赖,使模型能够以更低成本、更高效率处理大规模数据集,推动了数据、模型参数与计算资源三者的协同发展。

基于此,业界归纳出著名的规模定律:大语言模型的能力与模型参数量、训练数据规模、计算资源之间呈现平滑的幂律关系,简言之,就是模型规模越大、训练数据越丰富、算力越强大,模型表现就越优异。

然而,人工智能的进一步发展正遭遇严峻的数据瓶颈,其中最受关注的是“数据枯竭”问题。

原因不难看出:人工智能训练实际上在消耗人类长期积累的“存量”数据。预训练数据中占比可观的互联网数据,是过去数十年人类在网络上创造、数字化并保存的信息。例如维基百科,虽然数据量占比有限,却在大模型训练中提供高质量文本内容,这是数千人20多年持续维护的成果;训练语料中的书籍与经典文献则凝聚了人类数千年的智慧结晶。

尽管人类社会每年也在持续产生新数据——新闻报道、学术论文等,但这些线性增长的高质量数据难以跟上如今人工智能的超高速发展预期。据独立研究机构EpochAI的最新预测,语言模型训练将在2026年至2032年间耗尽人类公开的文本数据。

人工智能发展面临双重数据挑战:一方面是数据量是否充足,即数据的规模和覆盖范围;另一方面是数据质量能否保证,包括真实性、标注精度、结构化程度等。

人工智能开发与应用的各环节、各场景都面临这两个维度的挑战:预训练阶段面临前文所述的数据枯竭及互联网数据质量问题;后训练和对齐阶段缺乏高质量标注数据;基座模型的行业微调与应用面临专业数据极度匮乏、噪声高的问题;多模态模型训练缺少高质量配对数据;具身模型则受困于真实数据采集成本过高的制约。

如何应对人工智能发展中的这些数据挑战?大致有三条路径:深入挖掘人类社会积累的数据及人脑中的知识;借助机器智能挖掘和生成数据;通过算法与模型创新降低对数据的依赖。这里重点讨论前两条路径。

数据扩展方法一:整合分散的数据资源

对于人类社会积累的数据,所谓“数据枯竭”更多反映的是容易获取的资源即将耗尽:公开的、未受版权保护的文本数据确实在被大模型快速消耗,但人类社会和人脑中仍存在大量未被开发利用的数据与知识空间。

首先,各行各业都有海量的非公开数据。许多高价值数据掌握在平台、企业、专业机构、设备端和工作流系统中,例如电商平台的交易记录、用户评价、用户画像等;医疗领域的病历资料、影像诊断、治疗记录等;制造业的工艺参数、质量检测标准、设备故障记录等;科研领域的实验数据、研究过程、未发表的失败实验结果等。

这些数据通常涉及隐私保护、知识产权、商业机密或监管合规,以私有化、分散的“数据孤岛”形态存在。它们在具体应用中可以通过检索增强生成等方式发挥局部价值,但难以汇聚成能够持续提升通用智能的大规模训练语料。

以上大部分场景相对容易理解,这里补充一个常被忽视的例子:学术界长期存在“发表偏差”现象——只有成功的实验才会发表,失败的研究被束之高阁。但对人工智能而言,失败案例和成功案例都具有学习价值,大量未被共享的失败实验构成了尚未开采的知识宝藏。

人工智能领域专家已在探索一些技术手段来释放这些数据在训练上的潜力。典型做法包括:通过联邦学习在不转移原始数据的前提下进行联合训练;以及运用差分隐私等技术,从数学层面保证个体信息无法被还原,为跨机构数据协作提供安全保障。这类手段解决的是“在不泄露隐私的前提下,如何让数据参与训练”的问题。

但要让这些数据在人工智能发展中发挥最大价值,技术手段之外还需要制度与机制的设计。

有两条路径可以探索:一是自下而上的市场化与利益激励导向的路径,例如建立数据交易市场、数据信托、数据要素入表等机制,让数据拥有者在合规前提下有动力开放数据,分享增值收益;另一条是自上而下的路径,由政府或行业监管者在涉及国计民生、公共安全、基础科研等领域做统一规划,通过制定统一标准、建设基础平台和公共数据集,加快数据从“零散资源”转变为“公共基础设施”的进程。技术手段提供安全阀,机制设计提供流动性和可持续激励,两者缺一不可。

其次,人类大脑中还有不少尚未数字化的认知资产,其中有两类对人工智能的能力上限影响尤为关键:复杂决策背后的思维过程,以及专家的隐性知识。这些认知如果不被数字化,人工智能就难以学习和复制,未来有很大的挖掘空间。

从思维过程看,许多高价值任务,如企业家的重大决策、医生对疑难杂症的诊断、工程师处理罕见故障等,人类通常会记录“做了什么”和“结果如何”,但缺乏“这么做背后的思考、还考虑过哪些备选方案”这种详细的思维过程数据。这就像只存下数学题的题目和答案,却没有列出中间的解题步骤。

对于人工智能来说,缺乏这些“思维链条”数据,就很难真正学到可迁移的推理能力,只能在大量输入输出对上做模式拟合。这也是为什么过去一年多加入“思维链”能力的模型往往性能跃升,但目前可用的高质量思维轨迹数据依然非常有限。

从隐性知识看,人类认知中有大量难以清晰描述的部分,例如资深专家的直觉、情境化的感知、具身的“肌肉记忆”、团队协作中的默契规则等。隐性知识放到人工智能语境下,就是难以完整标注、难以形成训练样本的信息,人工智能也就难以利用。

思维轨迹和隐性知识的系统性数字化虽然成本高、难度大,但从信息密度和独特性来看,是一座挖掘难度大但价值极高的金矿,很可能成为未来人工智能能力持续提升的关键。