标签

人工智能学习机制的演变

发布时间:2026-04-20 21:26来源:微信阅读:5

第三章:AI中的学习

我们之前探讨过AI中的知识本质——简单来说就是人类语言的空间结构和规律特征。AI通过压缩与提炼过程,从互联网海量文本中捕捉到人类语言的空间结构与常见规律。我之前提到生成式AI的训练分为预训练和后训练两个阶段,真正决定AI能力上限的是预训练阶段。

预训练看似复杂,其实质就是完形填空。通过对互联网数据进行大规模的完形填空训练,AI掌握了人类语言的空间结构和内在逻辑,这正是AI能够根据你的开头续写全文的原因。由于编程语言属于人类广义语言的子集,AI因此能够生成代码。只要你使用的术语和编码属于人类语言的子集,理论上AI就能掌握其空间结构并生成新内容。

如今的AI已经迭代了多个版本,最初的AI基于规则和逻辑推理,也被称为专家系统。曾经的人工智能专家们认为只需一到两年就能基于人类总结的知识和逻辑创造出足够智能的人工智能。然而现实却给了他们一记响亮的嘴巴——基于规则和逻辑推理的专家系统只能处理一些特别简单的场景,一旦场景略微复杂,这些专家系统就会彻底失灵。

正是由于专家系统的脆弱性,加上马文·明斯基对神经网络方向的过度打压,才导致人工智能迎来了第一轮寒冬。马文·明斯基这位人工智能的初代教父对AI的作用与其说是推动,不如说是阻碍和刹车。人工智能寒冬中专家系统已无人问津,只有辛顿等少数几位坚持者仍在走模拟人类神经网络的道路。

幸好有这些坚持者,模拟神经网络的人工智能才有机会重新迎来春天。早期的专家系统为何失败?AI中的知识是通过压缩获得的,而专家系统的压缩范围过于狭窄——只能压缩已经格式化的人类知识,比如严格遵循三段论的知识体系,遗憾的是这种情况少之又少。

我们常说科学知识蕴含真理,但科学家们从未声称自己说的是真理。任何科学结论都可以质疑和推翻,这正是科学作为人类最有效知识构建方式的原因。科学结论只是我们观察世界的地图,遗憾的是地图永远不是疆界本身,只是现实疆界的近似模拟。

科学结论也只是现实世界的近似模拟。既然是模拟,模型面临的永恒难题是用有限的数据和精度来模拟比模型本身更丰富、颗粒度更细的世界。正因如此,所有的模拟和模型都有其限制和边界,一旦触及边界,模型就会失效。

专家系统只能压缩和使用人类总结的模型和逻辑,而这些模型和逻辑很难穷尽所有可能性。如前所述:地图永远不是疆界本身。一旦现实情况触及这些模型和逻辑的边界,它们就会失效。最简单的例子就是理发师悖论——按逻辑理发师不给自己刮胡子的人刮胡子,那么他到底要不要给自己刮胡子呢?伟大的哥德尔早已揭示:任何形式化的逻辑系统要么是不完备的,要么是自相矛盾的。也就是说,一个模型和逻辑能覆盖的情况越多,它就越可能自相矛盾。

正是由于专家系统的压缩范围太有限太狭窄,所以它能处理的范围极为有限,这种人工智能很快就被现实打脸。早期的模拟神经网络的人工智能作用更有限,因为神经元的层次太少了。后来这些模拟神经网络的人工智能拥有越来越多的神经元层级,能处理的问题就更多了。正因为模拟的神经网络层次越来越深,才有了深度网络这些称呼。

模拟神经网络层次加深后又遇到了新问题:预测结果与正确答案不符,到底该调整哪层中的神经元连接权重?1986年辛顿等人发表的论文《Learning Arguments by Back-Propagating Errors》给出了解决方案。经过一代代人工智能专家的努力和优化,如今我们已经可以训练高达一百多层的模拟神经网络了。

这些多层模拟神经网络为何比早期专家系统能解决更多问题?因为它们不仅能压缩人类总结的模型和逻辑,还能通过压缩互联网海量文本得出人类语言中的空间结构和内在规律。最早的word2vec就能把文本中词语之间的关系压缩成高维向量。transformer架构在这些代表词之间关系的高维向量基础上又加上了多头注意力机制,不仅能算出静态的高维向量,还能根据输入文本的上下文算出动态的、基于输入文本的高维向量来表达文本中的语言空间结构。

换句话说,基于模型和逻辑的人工智能只能压缩组织好的、逻辑化的知识,但基于模拟神经网络的人工智能可以从任何人类文本、图像和视频中压缩出内在的模式和关系。不管什么时代的人工智能都像一条压缩饼干流水线,能够把输入的面粉和水压缩成饼干。

早期的人工智能只能输入特定类型的面粉,自然用处有限;现在的人工智能变成来者不拒,任何人类语言的语料都能经过压缩之后变成模式和知识。scaling law的含义是:只要你喂进去更多的面粉,使用更多的能源,就能得到更多的饼干。

虽然人工智能现在越来越强大,但大家需要记住再强大的流水线也是流水线,永远遵循“垃圾进,垃圾出”的原则。要想让人工智能得到更高质量的输出,就必须喂进去更高质量的输入。如今大模型的scaling law面对的最大障碍就是从哪去找更大规模的高质量训练数据。一旦以后的AI只能用自己产生的数据作为训练数据,AI的质量就很难进一步提高了。

我不知道大家注意到没有,从2026年开始AI的主要厂商OpenAI和Anthropic一直强调各种配套措施的重要性,从agent skill到现在的harness engineering,各种概念层出不穷,看得人眼花缭乱。

如果我们仔细分析这些新概念,就会发现这些新概念与其说是新概念,不如说是老概念——不过是把以前的专家系统搬出来,换个高深莫测的名字,让大家重新去压缩那些规则、逻辑和模型。

为什么这些AI厂商会走这条路?原因很简单:训练数据不够用了,互联网上的高质量数据快耗尽了,大量的企业专用文本他们又拿不到。这些AI厂商就用了一个曲线救国的法子:让你从自己的知识体系内进行大量的规则、逻辑和模型的提取,然后你再把这些提取出来的文本上传到大模型公司的平台上。你猜一下这些AI厂商会不会用你上传的skill中的数据进行训练呢?呵呵哒,不会才怪呢,他们连出版书籍的版权都不尊重,难道还会尊重你的版权?

说白了,skill、harness这些看似炫酷的新概念不过是宣告了一件事:作为新时代电力的AI模型的能力已经阶段性地触顶了,接下来就要看看谁能用这个新时代的电力构建出一个更高效的系统来解决自己生意中的实际问题。接下来的比赛不是比谁用的AI更强大,而是比谁组装的系统更高效,完成的任务更多,消耗的token更少。如果说用电量和产能的比值是衡量旧时代产业效率的指标,那么每个任务消耗的token数量就是衡量新时代产业效率的唯一指标。