标签

AI推理新纪元:芯片逻辑重塑

发布时间:2026-05-29 19:25来源:微信阅读:5

从英伟达的巨额投资,到初创企业密集推出产品,再到资本市场对这些企业展开估值,可以清晰看出,在AI推理阶段,行业竞争焦点已从“更大模型”逐步转向“更高效模型”。AI芯片产业的核心逻辑,正从训练算力向推理效率转变。

在2022年生成式AI爆发初期,行业竞争的核心集中在模型训练上。谁能训练出最强模型,谁就占据竞争优势。因此,大量资本涌入参数规模和芯片资源堆叠,以追求模型能力与规模的飞跃。

但随着AI服务进入常态化部署阶段,成本结构已发生改变。训练属于高资本投入、低频次的研发行为,而推理则是高频、长期的持续性成本,并直接关系到营收能力。

每token成本与能效,直接影响毛利率和扩张能力。每一次API调用、每一个生成token,都意味着算力消耗与利润压力。如果token成本无法随规模下降,商业模式的可持续性将受质疑。

因此,行业优化重点正从“峰值算力”转向“系统效率”。吞吐量、功耗、内存带宽、数据搬运效率以及低延迟能力,成为AI基础设施的新核心指标。

传统通用GPU的架构瓶颈,在推理时代也逐步显现。

当前GPU大多依赖HBM与外部DRAM存储模型权重,计算核心与内存物理分离,数据需频繁在芯片与封装间移动。随着推理请求持续增加,这种架构开始遭遇典型的“Memory Wall(内存墙)”问题。

对于基于矩阵乘法的Transformer推理而言,真正限制性能的已非理论算力,而是内存带宽与访问延迟。尽管HBM提供极高带宽,但其代价同样巨大,包括复杂封装、良率压力、成本上升以及不断攀升的功耗。

尤其在低batch、低延迟请求场景下,GPU难以充分利用其大规模并行架构优势,导致利用率下降,单token成本持续上升。

与此同时,行业逐渐意识到,模型规模不再是唯一竞争指标。模型压缩、低比特量化以及稀疏化技术正快速成熟。例如1.58-bit量化、权重裁剪以及MoE(Mixture-of-Experts)架构,都在尝试以更低计算量维持模型性能。

这意味着一个重要变化:当模型结构与权重趋于稳定后,AI芯片不再必须保持高度通用性。于是,“将模型直接写入芯片”开始具备商业可行性。

硬编码推理芯片(Hard-coded Inference Chip)正是在这样的背景下诞生。

以Taalas为代表的厂商,开始将模型权重直接写入Mask ROM(只读存储器),并利用片上SRAM处理动态数据,从而大幅减少外部内存的数据搬运。

这种架构的最大价值,在于极致效率。

由于大量数据无需离开芯片,系统可显著降低功耗、延迟、散热需求及封装复杂度,同时大幅提升tokens/watt与tokens/dollar。

其结果是,即便使用普通风冷机柜,也能实现极高推理吞吐。

不过,市场对硬编码架构的最大担忧,仍是“灵活性”。

AI模型迭代极快,而专用芯片一旦固化,调整空间极小。因此,只有当模型结构相对稳定、部署规模足够大、应用场景高度确定时,硬编码芯片才具备经济性。

此外,云计算市场长期依赖通用平台生态,客户往往更倾向于能随模型升级持续演进的灵活方案。因此,如何在“效率”与“灵活性”之间取得平衡,成为推理芯片创业公司的核心问题。

目前行业正尝试通过自动化model-to-chip流程、预制晶圆、LoRA微调以及混合可编程架构,来降低硬编码方案的风险。

TrendForce认为,未来行业不会是“GPU被替代”,而是进入“通用计算+专用计算”并存的双轨时代。通用GPU仍将主导训练与多模型环境,而专用推理架构将在稳定、可预测、高密度部署场景中占据重要位置。

2026年2月20日,加拿大AI芯片创业公司Taalas发布HC1,将Llama 3.1 8B模型直接硬编码进芯片,实现了每用户16,960 tokens/s的推理吞吐。

更关键的是,该芯片采用台积电N6工艺,无需HBM,无需CoWoS封装,单芯片TDP约250W,且可采用风冷散热。

根据Taalas的分析,在运行Llama 3.1 8B时,Nvidia B200的推理成本约为每百万token 3.79美分,而Taalas HC1仅为0.75美分,约为前者的五分之一。

Taalas的核心技术基础,是Computing-in-Memory(CIM,存内计算)。

CIM的核心思想,是让计算直接在内存内部完成,而不是在计算单元与内存之间频繁搬运数据。

自1945年冯·诺依曼提出经典计算架构以来,芯片设计一直采用“计算”与“存储”分离的模式。这种结构虽灵活,但随着AI模型规模不断增长,数据搬运逐渐成为性能瓶颈。

于是,行业开始发展Digital CIM(DCIM)、Analog CIM(ACIM)以及Hybrid CIM等多种存内计算路线。

不过,目前CIM的软件生态仍不成熟,包括编程语言、编译器、软件框架以及应用生态,都仍处于早期阶段。

相比传统CIM,Taalas的路线更加激进。

其理念是“The Model is The Computer(模型即计算机)”。

Taalas将模型权重直接写入芯片Mask ROM,构建完全硬件定义的AI模型。这种方式既获得CIM的低延迟与低功耗优势,又绕开CIM软件生态尚未成熟的问题。

更重要的是,通过高密度ROM存储模型权重,Taalas只需修改2层mask,就能为新AI模型制造专用芯片,实现“2个月将AI模型变成实体芯片”。

同时,Taalas仍保留部分SRAM用于KV Cache与LoRA微调,以提高一定程度的灵活性。

尽管实现方式不同,但Taalas的“全硬件定义”路线,与Groq的“全软件定义”路线,本质目标一致,都是尽可能实现静态调度与确定性计算,以牺牲部分动态灵活性换取极致效率。

除了Taalas,目前大量AI推理芯片创业公司正在涌现,包括Tenstorrent、Groq、Cerebras、SambaNova、Etched、d-Matrix、Untether AI、Axelera AI等。

目前行业仍处于早期探索阶段,多条技术路线并行发展,包括CIM(存内计算)、SRAM-first架构、晶圆级集成(Wafer-Scale Integration)以及Tensor Contraction Processor等方向。

未来推理芯片架构,很可能会逐步融合这些路线,以满足AI推理对性能与能效的持续需求。

其中,Cerebras是当前推理芯片赛道最受关注的公司之一。

其核心技术是Wafer-Scale Integration(WSI,晶圆级集成),即直接将整块12英寸晶圆做成单芯片WSE-3。

其参数包括44GB片上SRAM与21 PB/s带宽。

同时,Cerebras还获得了与OpenAI的三年算力合作协议,总规模超过200亿美元,对应750MW算力容量。

AI推理时代正在重塑芯片产业逻辑。

过去行业追求的是“更大模型+更多GPU”,而未来行业竞争的核心,将逐渐转向token成本、功耗效率、数据搬运效率以及系统级延迟优化。

这意味着,AI芯片架构正从“通用计算时代”,进入“场景专用化时代”。

而硬编码推理、CIM、SRAM-first、晶圆级集成等新路线,正在共同推动AI芯片产业进入新的分化周期。

AI推理概念核心

#推理