标签

AI加速器:驱动智能算法的核心引擎

发布时间:2026-05-23 21:26来源:微信阅读:5

如今,人工智能正迅速融入我们的学习、工作与日常生活,深刻重塑社会发展形态,推动其向更智能、更便捷的方向演进。

当我们使用AI聊天机器人或大型模型时,背后离不开强大的算力支持。本文将探讨支撑这些应用的AI硬件底层逻辑,揭示复杂底层架构如何转化为强大的服务效能。

智能技术与智能社会是当今时代的迫切需求。人工智能(AI)与深度学习(DL)算法在构建智能世界和系统方面发挥着关键作用。计算能力的飞跃、传感器数据的爆发以及算法的持续优化,正推动基于云和边缘的机器学习(ML)趋势。这些技术已广泛应用于智能设备、可穿戴产品、智能手机、汽车、机器人及无人机等领域。然而,仅靠软件难以独立满足运行这些算法所需的性能,因此,AI加速器成为电路与系统设计者及学术界的焦点。面对计算密集型AI应用无止境的算力渴求,AI加速器不可或缺。

通常,四大研究领域催生了对AI加速器的需求(如图1所示)。神经科学揭示了人类大脑获取智能的机制,AI研究者据此模仿并开发算法,将智能植入机器。网络物理系统(CPS)或智能系统研究人员则致力于将这些创新转化为构建智能社会的解决方案,这些方案可能基于软件,也可能依托可穿戴设备。无论如何,要在实际场景中落地这些创新,高效硬件是根本。因此,AI加速器成为AI研究领域备受瞩目的方向。

端侧AI是另一种新兴的系统级芯片(SoC)技术,它让汽车、高清摄像头、智能手机、可穿戴设备及各类物联网(IoT)设备更加智能高效。端侧热门应用涵盖人脸检测、物体识别与追踪、姿态估计、语音识别等。此外,由于端侧推理具有更低延迟和更强隐私保护,相比云端模式更受青睐。然而,在小型设备上运行这类计算密集型任务挑战重重,因设备算力有限且功耗较高。此外,全球疫情催生了“新常态”,加速了多领域的数字化转型,如数字经济、数字金融、数字政务、数字医疗、数字教育等。事实上,众多数字平台与解决方案已应运而生,AI与SoC正将这些愿景变为现实。

此外,端侧AI能实现即时响应、增强系统可靠性、提升隐私保护水平,并有效节省网络带宽,支持从超越人类水平的计算机视觉与自然语言处理,到无线连接、电源管理、摄影等丰富功能。然而,智能系统的算法优势依赖极高的计算能力与内存支持,简言之,即依靠高性能硬件。设计能无缝运行最先进AI与ML算法的硬件平台面临巨大挑战。同时,此类设备还需具备更低延迟、更高可靠性及更强的用户隐私保护能力。因此,为满足这些无尽需求,设备上集成AI加速器势在必行。

此外,交通领域的自动化对应对日益增长的城市化与交通需求至关重要。人工智能将智能交通系统(ITS)提升至新高度,即高度自动驾驶(4级)与完全自动驾驶(5级)。然而,将4级及以上自动驾驶汽车(AV)引入现实世界仍面临诸多障碍。此外,还需建立识别机制与备用系统,以应对自动驾驶汽车遭遇异常情况。例如:人车区分、交通标志与手势识别、车内监控、隐私保护、嫌疑人识别、恶劣天气、道路损毁、障碍物跨越检测等。

人工智能(AI)是一种在设备、机器、软件及硬件中引入智能的技术。它是涵盖机器学习(ML)及受大脑启发的方法(如脉冲神经元、神经网络(NN)和深度学习(DL)技术,如图2所示)的庞大范畴。随着机器学习与深度学习算法的持续研发,人工智能不断壮大。深度神经网络(DNN)已在多种认知任务上超越人类。一些AI表现优于人类的著名案例包括艺术与风格模仿、图像与物体识别、预测、电子游戏、语音生成与识别、网站设计优化等。

它赋予机器智能。神经科学推动了这一进程。神经科学家的思想与发现已被融入AI方法,以开发受大脑启发的算法。人工神经网络(ANN)、脉冲神经网络(SNN)和深度学习(DL)便是典型代表。

机器学习(ML)是让机器掌握解决问题技能的方法。一个ML模型需经历训练与推理两个阶段:训练阶段学习技能,推理阶段进行实际预测。ML算法进一步细分为四大类:监督学习、半监督学习、无监督学习与强化学习(图3展示了相关内容)

监督学习:利用带标签数据集训练算法。训练过程中,模型识别具有相同标签元素的特征,并据此在推理时将输入分类至合适类别。

半监督学习:适用于包含少量已标注样本及大量未标注样本的数据集。利用少量已标注数据,半监督学习方法尝试为更多未标注数据进行伪标注,并结合已标注与伪标注数据训练模型。该算法应能通过所学特征预测新样本。

无监督学习:当缺乏明确类别或现有标签时,可用于聚类。此方法旨在学习数据集中样本间的既有相似性,并依据相似特征对数据进行聚类。

强化学习:此类ML算法无需数据集。智能体在模拟环境中寻找达成目标的最佳策略。智能体在与环境互动中获得奖励,奖励可为正(代表正确决策)或负(代表错误行为或动作的惩罚)。奖励机制助力智能体找到最优策略,从而采取最佳行动。

工业界与学术界以多种形式应用AI技术。许多应用均以某种方式涉及AI。图4展示了AI已深入应用的领域。在航空航天领域,用于商业飞行自动驾驶、气象监测等。在体育领域,涉及可穿戴技术、智能票务、自动精彩片段剪辑及各类计算机视觉应用。移动(智能手机)通过AI提升应用智能化水平。同样,工作场所、娱乐、酒店、媒体、游戏、教育、包含零售与网购的商业中心、交通、银行金融、政府政治、活动、保险、网络安全、智能家居、国防、社交网络、房地产、农业、医疗保健等领域均以多种形式应用了AI技术。

AI的热门领域包括:

计算机视觉(CV):涵盖机器视觉、视频/图像识别等细分方向。

机器学习(ML):包括监督学习、半监督学习、无监督学习与强化学习。

自然语言处理(NLP):聊天机器人、分类、内容生成及内容/语义识别是典型NLP应用。

专家系统:基于知识的系统,旨在通过知识推理解决专业领域复杂问题,模拟人类专家决策能力。

推荐引擎:利用数据过滤工具向个人推荐最相关项目。Netflix、YouTube、Amazon等均为典型推荐系统。

机器人:机器人应能复制人类动作,而AI使其能实现无缝复制。

语音:AI驱动的语音识别提供语音转文本或文本转语音功能。

工业界对AI算法实现的需求日益增长。基于深度学习的AI算法通常遵循训练与推理趋势,如图5所示。

传感器是AI系统的端点,为训练与推理提供所需数据库。训练与推理可托管于云端,也可在板端、芯片端或边缘设备上实现。深度学习模型应通过从训练期可用数据库提取信息来学习技能或特征。训练数据集通常带标签。因此,AI算法在“前向”传递中通过调整与相应神经元及连接相关的权重和偏置来识别特征/模式。在“反向”传递中,通过计算误差更新这些权重和偏置。卷积神经网络(CNN)用于深度学习算法。图6阐释了典型CNN概念。输入图像特征通过卷积核(滤波器)层、池化层及应用激活函数(亦称传递函数,如线性整流单元(ReLU)等)来提取。

全连接层用于输出层分类操作。可能存在最大池化操作,即将卷积核值中的最大值作为最大池化层输出。同样,平均池化或对应平均值的求和池化,以及求和值,分别代表相应池化层输出。CNN中使用的某些标准概念也在图6中展示。步幅定义卷积操作时在输入矩阵上移动的像素数;填充则通过补零保持输入大小等。卷积层输出高度与宽度可从(1)和(2)推导:

图7描述了卷积层在训练与推理中的前向与反向传播,以及乘加(MAC)操作。

在前向传播中,核权重(W)对输入进行卷积,并加上相应偏置(b),以生成第l层激活前的中间输出(u)。激活函数在前向与反向传播中表示为(f)。前向与反向传播分别由(3)和(4)定义,如下所示:

前向与反向传播在硬件上通过寄存器、乘法器和加法器实现,如图7所示,在七个时钟周期(T1至T7)内完成。层间并行性通过在同一时间周期引入并行性来说明计算加速。

智能机器概念早在20世纪40年代便已提出。图8展示了部分突破性算法时间线及人工智能两次寒冬(在深度神经网络即深度学习之前)。著名组合McCulloch与Pitts引入了电子大脑概念。它学习了AND、OR和NOT等基本逻辑运算。Rosenblatt引入“感知器”,可模拟这些逻辑操作。

同样,ADALINE于1960年问世,具备可学习权重与阈值能力。1969年,XOR问题引发AI研究第一次寒冬。尽管导致研究停滞,但也催生了对高效算法的需求。因此,这可视为AI研究中的软件(算法)需求。研究人员一直在寻找解决XOR及非线性问题的方法。Rumelhart等人通过多层感知器学习(MLP)解决了经典XOR问题。然而,MLP模型处理复杂问题需大量计算,又引发AI又一次寒冬。第二次AI寒冬再次减缓了AI研究进展,但也推动了对高效计算系统的需求。因此,这可视为AI研究中的硬件(加速器)需求。

因AI经历两次寒冬,研究一度陷入伪科学状态。幸运的是,部分研究人员持续进行AI与深度学习研究,在很大程度上维系了AI进展。1995年,Cortes与Vapnik开发了支持向量机(SVM),这是一个用于映射与识别相似数据的系统。1997年,Hochreiter等人开发了用于循环神经网络的长短期记忆(LSTM)。1999年,图形处理单元(GPU)的快速处理开始冲击AI研究。它使图像与图形计算速度提升数倍。因此,随着GPU与更大数据集的出现,AI研究在2000年代初重获动力。2006年,Hinton等人显著提升其在深度学习方面的研究,以确保其对未来AI研究的潜力与成果。

此外,开发如Theano、Torch、Caffe、TensorFlow、PyTorch等开源且灵活的软件平台,为当前AI研究提供了必要推动力。因此,更先进的AI算法相继问世。图9给出了深度学习中部分流行AI算法的时间线。

通常有两种方法衡量AI算法准确性:Top-1准确率与Top-5准确率。表1中,Top-1与Top-5准确率表示模型在ImageNet验证数据集上的性能。Depth表示网络拓扑深度,包括卷积层、池化层、激活层、批归一化层等。Top-1准确率是传统准确率版本,仅考虑概率最高的单一类别。Top-5准确率使用前五个类别而非单一类别。例如:对于一张蓝莓图片,AI算法预测概率如下:樱桃:0.35%;覆盆子:0.25%;蓝莓:0.2%;草莓:0.1%;苹果:0.06%;橘子:0.04%。按Top-1准确率测量,预测(樱桃:0.35%)错误。但按Top-5准确率测量,预测正确,因为蓝莓仍位于五个概率最高类别中。

表1:几种主流AI模型的大小、准确率、参数量与深度对比

开发出高效AI方法后,出现了多种将机器智能转化为增强智能的应用。换言之,当前AI正增强设备智能。因此,边缘设备上的AI与设备内的AI正展现巨大发展潜力。在AI研究的另一领域,特别是在未见环境与场景方面,主动学习与联邦学习方法发挥重要作用。图10展示了主动学习与联邦学习方法的基本组成部分。主动学习(亦称“查询学习”或有时称“最优实验设计”)是一种半监督学习形式。此处“主动”意味着AI模型的持续学习。

在语音识别、信息抽取、分类、过滤等多种复杂任务中,获取带标签实例通常复杂耗时或成本高昂。主动学习(AL)提供了一种自我标注方法,常用于此类问题。AL会选择最不确定的未标注样本(查询)由人类(专家)标注,并迭代标注剩余类似数据。主动学习的关键特征是好奇心,这也是其在较少标注实例下仍能获得更高准确率的原因。在主动学习循环中,包含四个方面:训练、查询、标注与追加。在主动学习循环中,“训练”指在带标签数据集上训练模型。“查询”是使用某种获取函数从数据集中选择未标注样本。“标注”指由oracle(主题专家)对选中样本进行标注。最后,“追加”是将新标注样本添加到训练数据集中。

基于AI的主动学习(AL)架构通常会比较未标注数据集的预测置信度,并据此决定是否向专家(如人类)咨询。根据预测置信度,未标注数据集会被添加到标注数据集中,用于进一步训练。因此,“查询”是基于AI的主动学习架构中重要任务。另一重要任务是“标注”,由专家完成。那么,谁应是专家?专家应是领域专家(SME)。因此,根据查询不同,最好利用来自不同