Transformer面临颠覆危机,五位发明人同台对决决定AI未来
五位Transformer创造者狭路相逢,O(n²)复杂度被视为致命缺陷,ChatGPT底层架构正接受终极审视。
一场足以撼动整个AI产业根基的“思想拳击赛”正在硅谷展开。对阵双方并非外人,正是Transformer架构的缔造者们自己。
5月初,旧金山,AI基础设施公司Pathway组织了一场辩论。舞台中央是Łukasz Kaiser——Transformer联合发明人、ChatGPT和GPT系列核心工程参与者。对面站着三位挑战者:Llion Jones,另一位Transformer联合发明人、Sakana AI联合创始人;Adrian Kosowski,Pathway首席科学官;Matthias Lechner,MIT液态神经网络共同发明人。
这不是学术探讨,而是一次“架构审判”。挑战者列举了Transformer五大“死穴”:O(n²)计算复杂度随序列长度呈平方级爆炸、灾难性遗忘导致每次对话重置、推理能力存在上限、长上下文依赖昂贵的KV Cache、Scaling边际收益递减。这场辩论的胜负直接关乎ChatGPT、Claude、Gemini等百亿美元级AI产品的底层地基是否需要推倒重来。
挑战者精准剖析了Transformer架构层无法回避的难题。O(n²)复杂度是头号命门——当上下文从几千Token扩展到百万级,计算开销从百万级激增到万亿级。灾难性遗忘则更为致命:即便聊了十小时,下次会话启动时,模型依然是“失忆的白痴”,工业界用RAG和KV Cache“贴创可贴”,但这并非架构级解法。
面对攻势,Kaiser没有逐一反驳,而是抛出核心论点:“除非Post-Transformer证明更好的Scaling曲线,否则Transformer仍是主流。”这一逻辑极其犀利——Transformer统治近十年,核心原因并非无缺陷,而是其Scaling曲线至今未被超越。这是OpenAI敢砸几十亿美元训练GPT的底气。Kaiser展示了工程验证:在最新Nvidia硬件上,一个小型GRU比大得多的Transformer慢50倍。但他也承认,AI Agent已学会写CUDA和Triton核函数,硬件优化壁垒正被AI自身打破。一旦新架构在百万Token级任务上跑出更优曲线,哪怕只有微弱优势,也会在Scaling放大镜下形成致命一击。他的结语意味深长:“目前,Transformer仍然赢。”“目前”二字,是留给挑战者的唯一缝隙。
百度是Transformer在中国的“头号信徒”。文心一言基于飞桨框架深度优化,若Transformer被颠覆,技术栈将面临大规模重构。李彦宏曾指出“大模型核心竞争力在工程化能力”——百度更看重实际Scaling曲线而非理论完美。字节跳动采取“多架构并行”策略,同时探索Transformer、Mamba和混合架构三条路线。字节2026年Q1 AI投入超150亿元,多线并进本质是为“后Transformer时代”做准备。豆包在长上下文任务上的突破,部分得益于对新架构的早期布局。阿里通义千问团队2026年初发表了“线性注意力机制”论文,尝试将O(n²)降至O(n)。阿里云CTO周靖人曾表示:“谁先找到替代品,谁就掌握下一个十年的入场券。”
华为盘古大模型走行业路线,但昇腾芯片生态围绕Transformer矩阵运算优化——架构变化将冲击其“芯片+框架+模型”全栈战略。
短期无感,长期影响深远:如果更高效架构出现,AI推理成本可能下降一到两个数量级,免费AI服务将更普及;突破上下文长度限制后,“陪伴你一年的AI助手”不再是科幻;更重要的是,如果“后Transformer”时代到来,中国AI企业与硅谷将站在同一起跑线上——中国在工程化落地上的优势可能超越美国在基础研究上的领先。
这场辩论引发的连锁反应远超学术圈。多位风投人士已开始在评估AI项目时,要求创始人说明“若Transformer被取代,技术栈如何应对”——这在一年前不可想象。一位硅谷投资人透露:“我们正在重新评估所有Transformer-based AI公司的估值。”
资本市场上,Nvidia股价在辩论报道扩散期间出现短期波动;Pathway、Sakana AI等新架构公司融资咨询量明显上升。
学术界也激烈分化。MIT教授Yann LeCun认为Transformer至少还能统治5-8年——“批评Transformer很容易,但造一个更好的很难。”反对方则指出:2017年Transformer取代RNN时,RNN的支持者也是这么说的。
巨头反应:Google DeepMind已在评估将Gemini部分模块迁移至非Transformer架构;OpenAI内部在推进“下一代架构”预研;Anthropic CEO承认“架构创新是AI发展的核心瓶颈之一”。
① AI架构的“十年魔咒”正在应验。从CNN(2012-2017)到Transformer(2017-2026),每个统治性架构的生命周期约十年。五位发明人同台“互撕”意味着下一代架构的种子已经埋下。2027-2028年很可能成为“后Transformer”架构的爆发窗口。
② 中国AI产业面临“换赛道”的历史机遇。架构变革将重新洗牌全球AI竞争格局——在旧赛道上落后几个身位的中国AI企业,在新赛道上可能获得弯道超车的机会。关键在于能否提前布局、精准卡位。
③ “谁的Scaling曲线更优”将成为AI竞争的终极裁决标准。Kaiser的辩护揭示了残酷真相:架构优越性不取决于它能解决多少理论问题,而取决于每单位算力投入能产出多少智能能力。未来AI竞争的胜负手不在实验室论文里,而在训练集群的效率和推理芯片的适配优化上——这恰好是中国科技企业最擅长的领域。
参考资料:Sina Finance深度报道、Pathway辩论录像、各公司公开技术博客