标签

三条“超级AI”路径:未来三年架构如何演进

发布时间:2026-05-07 09:22来源:微信阅读:5

近日,业界将AlphaGo和AlphaZero并称为“之父”之一的原谷歌DeepMind研究员David Silver,凭借其新公司Ineffable Intelligence以51亿美元估值完成11亿美元融资的消息引发广泛讨论。

David Silver被视为现代人工智能、尤其是强化学习领域的核心人物。他曾担任Google DeepMind首席研究科学家与强化学习研究组负责人,长期在公司深耕12年。其不仅主导了2016年战胜李世乭的AlphaGo,还为后续自我对弈并超越人类水平的AlphaZero与MuZero提供了关键设计思路。

在Ineffable,Silver把目标聚焦在强化学习:这类方法让AI通过试错来学习,而不是依赖人类整理好的示例。公司宣称要打造一种无需人类数据也能主动挖掘知识与技能的“超级学习者”,而这恰恰是Silver的专业方向。

他强调,AI的路线应当从“人类数据时代”走向“经验时代”——通过自我对抗与经验积累来推动复杂任务求解,例如数学与生物学中的蛋白质折叠,而不是仅靠模仿人类行为。

在DeepMind任职期间,Silver参与建设了让程序仅从经验中学习、无需额外喂入人类策略或对局记录,就能在国际象棋与围棋中击败职业选手的系统。并且在多种棋类项目上,它都能战胜当时最强的世界级计算机对手,其中最具代表性的是AlphaZero。

他还主导研发了利用人工智能进行蛋白质结构预测的AlphaFold。该成果深刻改变了结构生物学研究:研究人员只需几分钟即可依据氨基酸序列推算出高质量的三维结构。它不仅破解了困扰学界长达50年的“蛋白质折叠”难题,还把结构预测精度推升到接近原子级,并与X射线晶体学等实验手段的表现相当。

如今,他把关注点从棋盘与实验室场景延伸到更贴近现实的世界,希望这类“超级人工智能”能够从自身积累的经验中找到人类尚未识别的知识。

需要指出的是,这三条路径并不是单纯的相互替代或竞争关系,而是在共同指向一个更复杂的判断:未来AI将不再是单一模型,而更像是一套持续演进的系统架构。

本文将从“超级人工智能”的几种代表性路径切入,结合产业落地情况,推演未来3年AI架构的具体演进方向,并进一步拆解到技术栈层面。

当前主流路线的逻辑相当直接:

其主要代表公司包括OpenAI、Anthropic以及Google。

这一路线的核心思路是:把人类已有知识转化为统计压缩,再借助规模(Scaling Law)实现能力跃迁;同时通过RLHF完成行为对齐。其效果显著——从代码生成到复杂推理,大模型已逐渐成为一种“通用认知引擎”。

不过,局限也同样清楚:系统缺少真实世界经验(no grounding),泛化能力容易受数据分布限制,并且在长期决策层面存在不足等问题。

David Silver给出的关键观点可以归纳为:现阶段的AI更像是在“学会模仿人类”,而不是“具备智能体能力”。

他所代表的路线更加强调三类机制:自我对弈(self-play)、与环境交互(environment interaction),以及持续学习(continual learning);

其中典型案例是AlphaZero:

该范式的要点在于:智能