AI 强到令人畏惧?Transformer 遇瓶颈,下一代架构路在何方
6 月 11 日,计算神经科学领域的博士生 Ido Aizenbud 在 X 平台发起探讨:单个神经元究竟具备多大的计算潜力?他指出,团队利用名为 TwinProp 的创新手段,成功让一个皮层神经元独立完成了猫狗图像分类、语音词汇识别以及 10 比特奇偶校验等任务,而这些过往常被视为必须依赖整体网络才能解决的问题。
当前我们构建的 AI 系统好似由“简易开关”堆砌而成,相比之下,大自然运用的则是“微型超级计算机”。
长久以来,该领域始终欠缺一套系统化的手段来深入探究:精细化的神经元模型到底能执行何种计算。此类模型难以通过解析法求解,且因涉及数以千计的突触权重调节,依靠人工手动搜寻参数空间完全不切实际。
我们该如何突破这些优化困境?
对于 AI 而言,关键或许并非“将每个 Transformer 前馈网络神经元替换为生物神经元”,否则将立即遭遇效率低下、训练困难及硬件适配等难题。可行的路径之一是将脑科学拆解为若干工程模块:局部学习机制、稀疏脉冲编码、事件驱动计算、结构归纳偏置以及低能耗约束。
当今的大模型看似与脑科学相距甚远:Transformer、混合专家模型(MoE)、人类反馈强化学习(RLHF)、工具调用、长上下文处理及推理时搜索,这些术语鲜少出现在生物教科书里。
然而,AI 的演进历程始终借鉴了人脑的设计逻辑。神经网络、感知机、卷积操作、注意力机制及强化学习,均在不同程度上受到认知科学、神经科学或行为心理学的启发。只不过,它们之所以能落地生效,并非因为“模拟了大脑”,而是经过工程化改造后更易于训练、具备扩展性且能在硬件上高效运行。
脑科学赋予 AI 的一个核心启示是:若某种理论仅能解释生命现象,却无法转化为可训练、可量化、可部署的计算机制,便很难融入主流技术路线。反之,若其能催生新的表示形式、学习规则或能耗曲线,即便仅保留了生物原型的少许特征,也可能极具价值。
在现行主流 AI 框架中,能力往往源于规模效应:更多的参数、更大的数据量、更长的训练周期及更强的推理算力。这背后隐含着一个前提:单个局部单元无需过于智能,复杂性可交由网络整体承担。
神经元研究则提出了新视角:倘若局部单元内部就具备强大的计算力,整体系统是否就能精简许多?
就表示层面而言,脉冲本身携带时间信号。针对视频、语音等任务,时序信息本就是输入结构的关键组成部分。
在学习层面,大模型训练依赖于全局反向传播与海量矩阵运算,这也是 GPU 集群规模不断扩大的根源。而在脑科学中,局部可塑性、突触更新及短期记忆机制至少提供了另一种构想:能否让部分学习过程在局部发生,而非每次都要调动整个网络?
在结构层面,真实神经元的树突形态、突触位置及膜电位动态绝非“装饰”。它们决定了输入信号如何相遇、增强或抵消。对应到 AI 领域的问题则是:我们能否将部分归纳偏置嵌入模块结构中,而非完全依赖训练数据去学习?
但这并不意味着单个神经元就能取代整个网络,或脑科学能彻底重构 AI。它仅在特定方法、特定任务及特定神经元模型下有效。这不能直接推导出“真实生物神经元能在自然环境中独立识别猫狗”。况且这仅是一项基础实验,要应对复杂任务仍需更多设计与验证。
首先可考量事件驱动的计算模式。
如今许多 AI 系统将世界切割为帧、令牌或固定窗口。大脑处理信息则更像事件流:仅在变化发生时触发,时间差才具有意义。对于机器人、可穿戴设备、低功耗传感器及实时交互系统,事件驱动可能比“固定频率的全量计算”更节能、更迅捷。
其次是局部学习机制。
大模型的参数更新成本高昂,在线个性化还面临隐私泄露与灾难性遗忘的挑战。若未来 AI 需常驻终端设备、长期陪伴用户并在局部环境中持续适应,它就不能每次都把学习请求回传至云端大型训练场。脑科学中的突触可塑性虽不必全盘照搬,但“局部可更新、全局可约束”的方向值得深耕。
再者是结构带来的归纳偏置。
AI 如今虽强,但诸多能力源自数据堆叠出的统计关联。生物系统的优势之一,在于将身体、感官、动作、反馈及能耗置于同一约束体系下。下一代 AI 若要步入物理世界,将愈发需要此类结构约束:明确何种可动、何种不可动;界定先感知还是后决策;预判何种动作将改变下一秒的输入。
这些启发不会取代 Transformer,也不会令 GPU 集群明日即失业。它们更可能率先应用于边缘 AI、机器人、神经形态芯片、事件相机、低功耗语音及持续学习系统中。
下一代 AI 是否需要从脑科学汲取灵感?答案是肯定的。
若 AI 继续向真实世界迈进,参数规模固然重要,但它绝不会是唯一的解药。模型扩容虽能解决部分问题,但如今参数激增与功耗飙升已成瓶颈。
让计算单元更智能、学习过程更局部、表示方式更稀疏,将解决另一部分难题。