AI 瓶颈论:是终结还是赛道切换?
引言:近两年,"AI 将取代万物"的论调铺天盖地。然而近期硅谷却在热议一个反向话题——AI 的发展速度是否正在放缓?本文将为您厘清"缩放定律"、"数据墙"及"撞墙论"等核心概念,助您分辨哪些是真实困境,哪些仅是喧嚣之争。
你是否察觉,过去一年中,AI 新模型发布时的惊艳感已大不如前?
往昔并非如此。2023 年,新模型问世常令人瞠目结舌:既能编程、解题,又能绘图,迭代速度极快。那种体验,宛如目睹孩童从爬行到行走再到奔跑,令人应接不暇。
然而进入 2025 至 2026 年,局面生变。尽管新模型仍在涌现,参数更庞大、基准测试分数更高,但内心的震撼却日益难以被激发。更为关键的是,2026 年 6 月,一篇题为《AI 正在放缓》的评论在程序员聚集的 Hacker News 上引发轰动——收获五百多赞与五百多条评论,争论激烈。一方认为"减速是必然,泡沫即将破裂";另一方则反驳"你们未懂其意,行业正切换赛道"。
这令人费解:企业高呼"通用人工智能近在咫尺",而技术圈内却有人唱衰"已触及天花板"。究竟谁在理?
欲解此争,必先理解"缩放定律(Scaling Laws)"。简言之,它是过去五年 AI 行业的"信仰基石"。本文将由此切入,探讨其为何如今面临动摇。
事件回顾
理解今日之争,需回溯至 2020 年。
彼时,OpenAI 的研究者 Kaplan 等人发表了一篇极具"理工思维"的论文:通过扩大模型规模、增加数据量、提升算力,绘制出一条曲线。结果发现——模型的"损失"(可粗略视为"错误率")随这三要素增加,竟以相当规律且可预测的方式下降。
这意味着什么?意味着 AI 的演进首次有了"配方"。无需依赖灵感或运气,只需投入资金、数据与算力,模型便会沿曲线稳步增强。这在科学界极为罕见——多数领域,投入翻倍未必带来成倍产出。
2022 年,DeepMind 通过一组名为"Chinchilla"的实验优化了该配方:指出此前普遍存在"参数过多、数据不足"的问题,最优策略是参数与数据按比例同步增长。这便是著名的"Chinchilla 最优解"。
打个比方:Kaplan 指出"火越旺、料越多、时长越久,汤越鲜";Chinchilla 则补充"料水需按比例,光加料不加水,汤会咸得难以下咽"。
有了此配方,过去五年行业逻辑清晰:全力求大。谁显卡多、数据多、敢烧钱,谁的模型就强。于是爆发了疯狂的军备竞赛——英伟达显卡被抢购一空,数百亿美元涌入数据中心,电力供应几近告急。
这条曲线,是 AI 行业笃信五年的"上帝公式"。问题在于——它,开始失效了。
注意,无人宣称曲线断裂或反转。争论焦点仅在于二字:递减。
何谓递减?再看那条曲线。它并非 45 度直线,而是一条"先陡后缓"的弧线。初期,投入翻倍,能力暴涨;越往后,同等翻倍,涨幅却渐微。至某阶段,投入双倍资金,模型仅在最难推理题上提升 10% 至 20%。
麻烦由此而生。早期,从"小学生"到"大学生",投入少、提升大;如今已是"博士",欲再精进,需数倍资源。金钱投入实实在在翻倍,体感进步却愈发微弱。
为何必然如此?至少存在三道关卡,我们逐一剖析。
第一关,数据墙。这是最硬且易被忽视的障碍。前述配方包含"数据"项。然而数据并非无限——高质量人类文本,全网估算约在 10 万亿至 50 万亿 token 之间(token 可粗略理解为"词碎片")。看似庞大?但万亿级参数模型,按 Chinchilla 配方,胃口需达 20 万亿 token 上下。
换言之,人类数千年积累的文字,即将不够 AI 消化。犹如学霸背完图书馆所有书籍,欲再聪慧,何处寻新书?剩余多为低质网络垃圾,或 AI 自生内容——以 AI 产出喂养 AI,易致"近亲繁殖",越练越愚。此关,仅靠资金难以逾越。
第二关,成本墙。缩放定律隐含残酷前提:欲获线性能力提升,往往需指数级投入。结果导致训练成本飙升。业内估算,当前训练前沿模型,仅算力成本约 5 亿美元;下一代数字,据分析已达 10 亿乃至 100 亿美元。
钱能解决所有问题?当账单至此规模,其本身即成问题。因商业需计算回报。耗资百亿训练的模型,若仅比前代略优,用户感知不强、付费意愿有限,交易便显亏损。资本非慈善,递减的不仅是技术曲线,更是投资回报曲线。
第三关,体感墙。此关最为微妙。模型在榜单上仍在攀升,普通用户的"惊叹"为何减少?因人类对"智能"的感知本是非线性的。能答对 80% 问题的助手与 90% 者,日常使用中差异未必如数字般显著;但啃下那 10%,研发难度堪比地狱。分数仍在涨,惊艳感已封顶——这是递减最直观的表现。
将三关叠加,便明白:所谓"放缓",非 AI 不行,而是"仅靠扩大预训练"这条捷径,愈发昂贵、拥挤且不划算。
那 AI 是否已至尽头?这正是反驳方要争辩之处。他们称:你们紧盯的是一条快走完的老路,人家早已切换赛道。
此言有据。2024 年底,连"缩放定律"旗手之一、OpenAI 联合创始人 Ilya Sutskever,在 NeurIPS 大会上公开发表重磅言论——"我们所知的预训练,即将终结。"他还指出,2010 年代是"缩放时代",而今我们重回"探索与发现时代"。
请注意,他说的是"我们所知的预训练"终结,非"AI"终结。二者相差甚远。意指:单纯扩大模型规模的红利将尽,但故事主角已换。
新主角是谁?目前业界大致将"缩放"拆为三条轴线,预训练仅为其一:
第一条,预训练(pre-training)。即前述老路——海量文本喂给模型,让其先"阅读"世界。此路遇数据墙,红利收窄。
第二条,后训练(post-training)。模型"读"完书后,利用人类反馈、强化学习进行"调教",使其知识运用更精准、更符合人意。犹如读完万卷书的学生,需有人引导实习、纠正缺点。此路近两年发展迅猛。
第三条,推理时计算(test-time compute)。此为当下最热方向,亦是 o 系列等"推理模型"核心。简言之,不在训练时死磕,而是让模型回答问题时多思考一会儿。以往模型"脱口而出",现今"先在草稿纸演算,再给答案"。同一模型,多花思考时间,难题正确率显著提升。
打个比方便懂。预训练,如学生背熟所有教材;此路书快背完。但你还有两招:一是请名师开小灶、改错题(后训练);二是考试时不抢答,给足时间打草稿(推理时计算)。书背到头,不代表分数到头。此即反驳方底气所在。
故"AI 放缓"之说,实有偷换概念之嫌。准确表述应为:预训练这条特定路径在放缓,但 AI 整体正沿另外两条路径前行。至于新路能走多远,老实说,无人敢打包票——这正是 Sutskever 所言"重回探索时代"之意:配方失效,需靠真本事摸索尝试。
若觉此"曲线压扁"故事似曾相识,那是因——科技史上此类戏码上演过多。
最经典对照,乃摩尔定律。半个多世纪,芯片晶体管数约两年翻番,电脑逐年提速,与今日 AI 剧本如出一辙。然近十余载,物理极限逼近,晶体管难再缩小,"摩尔定律将死"的讣告年年都有。
结果如何?芯片确无法仅靠"单纯缩小"狂飙,但行业换打法:多核、堆叠、专用芯片、先进封装……性能依旧增长,只是非昔日陡峭直线。一条路到头,绝非终点,而是逼你寻新路。
AI 此刻正立于此路口。预训练这条"等比例放大"的高速公路快至尽头,但这不意味 AI 停车,只意味需下高速、走国道,速度与姿态皆需改变。
另有更日常之例:飞机。上世纪民航速度狂飙,曾以为速即人人可乘超音速客机。结果协和飞机退役,数十年来民航巡航速度几无增长——因再快,油耗、噪音、成本难控,性价比失衡。但航空业停滞了吗?未也,只是不再死磕"速度"指标,转而省油、安全、航程、舒适上进步。这与 AI 剧本相同:当最显眼指标(飞机速度、AI 预训练规模)涨不动,行业不会坐以待毙,而是将发力点移至其他维度。故紧盯"模型是否更大"喊完蛋者,很可能错过其在"更会想、更便宜、更好用"上发生之事。
此处多言一句,亦是争论最易被情绪带偏之处。技术圈有老毛病:非神化即唱衰。前几年无脑神化——"明年 AGI、后年失业潮";如今风向一转,又有人无脑唱衰——"泡沫破裂、AI 完蛋"。二者皆属偷懒。真实情况往往最不性感:既非神,亦非衰,乃具体技术于具体曲线上遇具体瓶颈,继而设法绕行。
争论半天,落到你我身上,究竟有何用?我认为有三条实在启示。
第一,对"AGI 明年就来"之类论调,可放轻松。当行业最佳路径开始递减,关键人物皆言"老法将终结",便应明白,那种"指数级起飞、迅速超越人类"的剧本,至少未如宣传般临近。进步仍在,但似爬坡非起飞。这对常被"AI 焦虑"轰炸的普通人,实为解压消息。
第二,亦勿轻信"AI 是泡沫、马上完蛋"。唱衰者忽略后训练与推理时计算两条新路,亦忽略一事实:即便 AI 今日停步不再增强,仅将现有能力用透、铺至各行各业,红利已足够享用多年。技术成熟与技术扩散,乃两回事。电早发明,然将电普及至每个角落,耗时百年。
第三,看 AI 新闻,学会问:你言之"进步",属哪条轴?是预训练更大(红利减),还是推理更强、使用更顺、更便宜(这些恰在快速变好)?分清此点,便不被任何标题党裹挟。简言之,莫问"AI 行不行",要问"AI 何处行、何处卡"。前者是站队,后者才是判断。
缩放定律赐 AI 行业五年好光景:只要够有钱、够胆,进步几似"买"来。今此捷径变窄,大家被迫重回"动脑筋"状态——未必是坏事。
史上每次"定律失灵",事后看皆非终点,而是换挡。摩尔定律如此,今日缩放定律大概亦如此。真正危险从非曲线压扁,而是你只会沿单一线思考。
故下次再见"AI 撞墙"或"AGI 将至"等大标题,不妨一笑,然后问一句:你所指,究竟是哪条轴?
参考