AI推理新纪元：芯片逻辑重塑

发布时间：2026-05-29 19:25阅读：32

从英伟达的巨额投资，到初创企业密集推出产品，再到资本市场对这些企业展开估值，可以清晰看出，在AI推理阶段，行业竞争焦点已从“更大模型”逐步转向“更高效模型”。AI芯片产业的核心逻辑，正从训练算力向推理效率转变。

在2022年生成式AI爆发初期，行业竞争的核心集中在模型训练上。谁能训练出最强模型，谁就占据竞争优势。因此，大量资本涌入参数规模和芯片资源堆叠，以追求模型能力与规模的飞跃。

但随着AI服务进入常态化部署阶段，成本结构已发生改变。训练属于高资本投入、低频次的研发行为，而推理则是高频、长期的持续性成本，并直接关系到营收能力。

每token成本与能效，直接影响毛利率和扩张能力。每一次API调用、每一个生成token，都意味着算力消耗与利润压力。如果token成本无法随规模下降，商业模式的可持续性将受质疑。

因此，行业优化重点正从“峰值算力”转向“系统效率”。吞吐量、功耗、内存带宽、数据搬运效率以及低延迟能力，成为AI基础设施的新核心指标。

传统通用GPU的架构瓶颈，在推理时代也逐步显现。

当前GPU大多依赖HBM与外部DRAM存储模型权重，计算核心与内存物理分离，数据需频繁在芯片与封装间移动。随着推理请求持续增加，这种架构开始遭遇典型的“Memory Wall（内存墙）”问题。

对于基于矩阵乘法的Transformer推理而言，真正限制性能的已非理论算力，而是内存带宽与访问延迟。尽管HBM提供极高带宽，但其代价同样巨大，包括复杂封装、良率压力、成本上升以及不断攀升的功耗。

尤其在低batch、低延迟请求场景下，GPU难以充分利用其大规模并行架构优势，导致利用率下降，单token成本持续上升。

与此同时，行业逐渐意识到，模型规模不再是唯一竞争指标。模型压缩、低比特量化以及稀疏化技术正快速成熟。例如1.58-bit量化、权重裁剪以及MoE（Mixture-of-Experts）架构，都在尝试以更低计算量维持模型性能。

这意味着一个重要变化：当模型结构与权重趋于稳定后，AI芯片不再必须保持高度通用性。于是，“将模型直接写入芯片”开始具备商业可行性。

硬编码推理芯片（Hard-coded Inference Chip）正是在这样的背景下诞生。

以Taalas为代表的厂商，开始将模型权重直接写入Mask ROM（只读存储器），并利用片上SRAM处理动态数据，从而大幅减少外部内存的数据搬运。

这种架构的最大价值，在于极致效率。

由于大量数据无需离开芯片，系统可显著降低功耗、延迟、散热需求及封装复杂度，同时大幅提升tokens/watt与tokens/dollar。

其结果是，即便使用普通风冷机柜，也能实现极高推理吞吐。

不过，市场对硬编码架构的最大担忧，仍是“灵活性”。

AI模型迭代极快，而专用芯片一旦固化，调整空间极小。因此，只有当模型结构相对稳定、部署规模足够大、应用场景高度确定时，硬编码芯片才具备经济性。

此外，云计算市场长期依赖通用平台生态，客户往往更倾向于能随模型升级持续演进的灵活方案。因此，如何在“效率”与“灵活性”之间取得平衡，成为推理芯片创业公司的核心问题。

目前行业正尝试通过自动化model-to-chip流程、预制晶圆、LoRA微调以及混合可编程架构，来降低硬编码方案的风险。

TrendForce认为，未来行业不会是“GPU被替代”，而是进入“通用计算+专用计算”并存的双轨时代。通用GPU仍将主导训练与多模型环境，而专用推理架构将在稳定、可预测、高密度部署场景中占据重要位置。

2026年2月20日，加拿大AI芯片创业公司Taalas发布HC1，将Llama 3.1 8B模型直接硬编码进芯片，实现了每用户16,960 tokens/s的推理吞吐。

更关键的是，该芯片采用台积电N6工艺，无需HBM，无需CoWoS封装，单芯片TDP约250W，且可采用风冷散热。

根据Taalas的分析，在运行Llama 3.1 8B时，Nvidia B200的推理成本约为每百万token 3.79美分，而Taalas HC1仅为0.75美分，约为前者的五分之一。

Taalas的核心技术基础，是Computing-in-Memory（CIM，存内计算）。

CIM的核心思想，是让计算直接在内存内部完成，而不是在计算单元与内存之间频繁搬运数据。

自1945年冯·诺依曼提出经典计算架构以来，芯片设计一直采用“计算”与“存储”分离的模式。这种结构虽灵活，但随着AI模型规模不断增长，数据搬运逐渐成为性能瓶颈。

于是，行业开始发展Digital CIM（DCIM）、Analog CIM（ACIM）以及Hybrid CIM等多种存内计算路线。

不过，目前CIM的软件生态仍不成熟，包括编程语言、编译器、软件框架以及应用生态，都仍处于早期阶段。

相比传统CIM，Taalas的路线更加激进。

其理念是“The Model is The Computer（模型即计算机）”。

Taalas将模型权重直接写入芯片Mask ROM，构建完全硬件定义的AI模型。这种方式既获得CIM的低延迟与低功耗优势，又绕开CIM软件生态尚未成熟的问题。

更重要的是，通过高密度ROM存储模型权重，Taalas只需修改2层mask，就能为新AI模型制造专用芯片，实现“2个月将AI模型变成实体芯片”。

同时，Taalas仍保留部分SRAM用于KV Cache与LoRA微调，以提高一定程度的灵活性。

尽管实现方式不同，但Taalas的“全硬件定义”路线，与Groq的“全软件定义”路线，本质目标一致，都是尽可能实现静态调度与确定性计算，以牺牲部分动态灵活性换取极致效率。

除了Taalas，目前大量AI推理芯片创业公司正在涌现，包括Tenstorrent、Groq、Cerebras、SambaNova、Etched、d-Matrix、Untether AI、Axelera AI等。

目前行业仍处于早期探索阶段，多条技术路线并行发展，包括CIM（存内计算）、SRAM-first架构、晶圆级集成（Wafer-Scale Integration）以及Tensor Contraction Processor等方向。

未来推理芯片架构，很可能会逐步融合这些路线，以满足AI推理对性能与能效的持续需求。

其中，Cerebras是当前推理芯片赛道最受关注的公司之一。

其核心技术是Wafer-Scale Integration（WSI，晶圆级集成），即直接将整块12英寸晶圆做成单芯片WSE-3。

其参数包括44GB片上SRAM与21 PB/s带宽。

同时，Cerebras还获得了与OpenAI的三年算力合作协议，总规模超过200亿美元，对应750MW算力容量。

AI推理时代正在重塑芯片产业逻辑。

过去行业追求的是“更大模型+更多GPU”，而未来行业竞争的核心，将逐渐转向token成本、功耗效率、数据搬运效率以及系统级延迟优化。

这意味着，AI芯片架构正从“通用计算时代”，进入“场景专用化时代”。

而硬编码推理、CIM、SRAM-first、晶圆级集成等新路线，正在共同推动AI芯片产业进入新的分化周期。

AI推理概念核心

#推理

← 上一篇：智能时代的数据安全与隐私边界下一篇：AI原点社区联合LEC与海创元，共推OPC生态全球化 →