AI芯片的分类详解
人工智能(Artificial Intelligence,AI)芯片的界定:广义上讲,凡是能执行人工智能算法的芯片均可称为AI芯片。然而,通常所指的AI芯片,是专为人工智能算法进行加速优化的芯片。当前,这类芯片主要针对深度学习算法,但也涵盖了其他机器学习算法。
人工智能与深度学习
深度学习算法通常涉及对连续数值的接收、学习处理及输出,这虽无法完全复刻生物大脑的运作。基于此,学术界提出了SNN(Spiking Neural Network,脉冲神经网络)模型。作为第三代神经网络,SNN更接近生物神经网络,引入了时域信息。目前基于SNN的芯片代表有IBM的TrueNorth、Intel的Loihi及清华大学的“天机芯”。
(1)AI芯片按技术架构分类
GPU(Graphics Processing Unit,图形处理单元):在传统的冯·诺依曼架构中,CPU执行指令需从存储器读取数据,处理大量数据时,CPU常因专注于数据读取、指令分析等非运算任务而受限。相比之下,GPU控制逻辑简单,晶体管构成专用电路和多条流水线,计算速度远超CPU,且浮点运算能力强。这有助于解决深度学习训练难题,但GPU无法独立运行,需CPU调度,且功耗较高。
半定制化FPGA:FPGA(Field Programmable Gate Array,现场可编程门阵列)通过更新配置文件来定义内部门电路和存储器的连接。与GPU相比,FPGA兼具硬件流水线并行和数据并行能力,整数运算性能好,适合深度学习的推断阶段。FPGA省去了内存和控制单元的存储读取,速度快、功耗低,但编程复杂、价格高、整体算力有限。国内深鉴科技等提供了基于FPGA的方案。
全定制化ASIC:ASIC(Application-Specific Integrated Circuit)是专为特定需求定制的芯片。定制化能提升性能功耗比,但在设计、开发周期和扩展性上有劣势。其优势在于功耗、可靠性和集成度高,尤其适合高性能、低功耗的移动端。谷歌TPU、寒武纪、地平线BPU均属此类。TPU通过简化控制电路,将面积和功耗降至最低,速度比CPU/GPU快30至80倍。
神经拟态芯片:模拟生物神经网络机制,从结构上逼近大脑。分为两个层次:一是神经网络层面,如IBM TrueNorth,将定制数字内核作神经元,内存作突触,集成内存、CPU和通信部件,解决速度瓶颈。二是神经元与突触层面,如IBM制造的人造纳米尺度随机相变神经元,支持高速无监督学习。
(2)AI芯片按功能分类
依据机器学习步骤,分为训练和推断:训练需大量数据输入构建复杂模型,计算量巨大,对处理器能力要求高,常用英伟达GPU集群或TPU加速;推断则是用模型处理新数据得出结论,计算量较小但涉及矩阵运算,CPU、GPU、FPGA、ASIC均可参与。
(3)AI芯片按应用场景分类
服务器端(云端):训练阶段数据运算量大,需高性能计算,支持多网络结构、浮点运算及阵列结构以提升性能;推断阶段模型复杂,亦属计算密集型,通常部署在服务器端。
移动端(手机、智能家居、无人车等):设计思路与服务器端不同,首要保证高计算能效,且需在设备端完成实时推断(如ADAS)。此外,还需满足低功耗、低延迟、低成本的要求,因此移动端芯片形态多样。