标签

前沿观察:AI供应链安全挑战与防御体系设计

发布时间:2026-06-25 18:43阅读:2

郑 兴

文 | 腾讯朱雀实验室负责人 郑兴;北京大学 王滨 刘泽心;腾讯朱雀实验室安全专家 伍惠宇;清华大学教授 江勇*

当前,我国人工智能产业已迈入规模化发展的新阶段。中国政府网公开数据显示,截至2025年7月,国内人工智能大模型的数量已突破1500个,广泛覆盖政务、金融、医疗等众多关键领域;2025年8月,国务院印发的《关于深入实施“人工智能+”行动的意见》将“人工智能+安全”列为重点任务,在推进技术创新与产业融合的同时,需构建稳固的安全防护屏障。人工智能的安全保障范畴已不限于算法模型本身,而是延伸到支撑其运行的全链条基础设施供应链——从底层的硬件芯片、算力框架,到中间层的数据服务、工具组件,再到上层的应用集成,供应链各环节的安全漏洞都可能引发系统性风险,甚至威胁关键信息基础设施安全与公共利益。然而,当前人工智能供应链安全防护问题依然突出,全球人工智能基础设施供应链呈现“全球化采购+本地化部署”的复杂格局,现有安全检测工具大多缺乏对“硬件层—软件层—服务层”全链条的覆盖能力。因此,研发针对人工智能基础设施供应链的一体化安全检测体系,成为破解“重发展、轻防护”困境的关键。

一、人工智能供应链存在的安全风险

人工智能基础设施构建涵盖硬件基础、软件栈支撑及运行服务集成等多个维度,其供应链安全问题贯穿“硬件层—软件层—服务层”全链条,此类架构在提升产业效率的同时,也让供应链安全风险呈现“单点突破”与“全链传导”的特点。

(一)硬件层:核心组件的后门威胁与物理级漏洞

硬件作为人工智能系统的物理载体,其安全性直接构成整个供应链信任体系的基石。以图形处理器芯片、存储芯片及边缘推理处理器等为代表的关键硬件器件,在产业组织格局上呈现设计高度集中、制造跨国分散的特征。加之系统性审计难度较大,硬件本身具有一定的黑箱属性,导致后门植入与物理级漏洞成为人工智能供应链安全的核心风险所在。

一是后门威胁与地缘政治风险。硬件后门通常表现为芯片设计阶段植入的隐蔽控制逻辑或制造环节添加的恶意固件,可依靠远程指令触发机制,实现数据窃取或功能破坏。2025年7月,国家互联网信息办公室约谈多个国外厂商,要求其就人工智能算力芯片中存在的潜在安全风险作出说明并限期整改。该事件凸显了在国际博弈背景下,硬件信任问题的严峻性。此类后门检测难度极大,例如,芯片核心模块封装于片上系统(SoC)内部,关键驱动与固件均为闭源。一旦后门被激活,攻击者不仅可窃取敏感的模型参数、篡改训练数据与结果,甚至可能远程操控大规模算力集群,对国家关键信息基础设施构成“釜底抽薪”式的系统性安全威胁。

二是物理级漏洞与算力失控。除了蓄意后门外,硬件设计缺陷导致的物理级漏洞可能引发算力资源的“不可控使用”风险——算力设施虽然在物理上由组织拥有和部署,但因底层硬件漏洞的存在,其计算结果的准确性、可信度及资源调度的自主性实际上已不受组织完全控制,导致“有其形而失其实”的失控状态。2025年7月,多伦多大学的研究团队首次披露图形处理器(GPU)上可实证的RowHammer变体——“GPUHammer”漏洞,其技术原理是依靠反复高速访问GPU显存某一行,引发邻近行的电干扰,导致数据位翻转,篡改人工智能模型权重。这类物理级攻击导致的“算力失控”主要体现在两个层面:首先,计算结果失控,漏洞攻击验证表明,仅需一次比特翻转,就能将图像分类模型(ImageNet)的准确率从80%大幅降至0.1%;其次,资源隔离失控,在云端共享GPU平台中,攻击者可利用该漏洞实施跨租户攻击,仅凭借显存干扰就能操控邻近任务的推理结果,组织无法确保其购买和使用的算力单元处于安全隔离状态。这将对自动驾驶、金融风控等高精度要求场景造成致命影响。

三是供应链全球化存在风险。在中国人工智能基础设施的范畴内,全球化所带来的供应链风险主要呈现为对高端芯片、关键硬件及上游原材料的高度依赖,若因地缘政治冲突、出口管制或国际制裁导致这些关键环节中断,则可能使人工智能算力平台、数据中心部署等基础设施无法按计划推进。同时,全球供应链多点故障(如运输瓶颈、原料稀缺等状况)同样会引发系统性风险,对整体的安全与稳定性产生影响。

(二)软件层:开源生态依赖下的漏洞传导与供应链污染

开源框架已成为人工智能软件生态的核心支柱,构建起了一套“训练框架—中间件—依赖库”紧密相连、协同发展的复杂技术体系,常见人工智能应用所使用的开源组件大多未经全面的安全审计,导致软件层成为漏洞传导的主要承载主体。

一是核心框架漏洞与大规模攻击方面。人工智能算力及分布式计算框架是软件层的“中枢神经”,其存在的漏洞可能引发一系列广泛的连锁反应,例如,开源分布式计算框架(Ray)所公开的漏洞CVE-2023-48022长期处于存在争议且未完全修复的状态。安全研究人员报告了针对大量分布式计算节点的主动利用与攻击行为,这类漏洞可导致远程代码执行、集群调度被篡改及敏感凭证泄露,对依赖分布式训练与推理的企业造成严重影响。

二是应用框架代码执行风险方面。面向开发者的人工智能应用框架因功能繁杂、接口开放,成为漏洞高发区域。以LangChain为例,其组件LLMMathChain曾因缺少对“```python”标记后代码的过滤,直接交由PythonREPL执行,结果导致攻击者可借助提示词工程诱导模型输出恶意代码,实现服务器文件读取及命令执行。类似的风险在LlamaIndex、pandas-ai等同类框架中普遍存在,根源在于设计未遵循“最小权限原则”,将用户输入与代码执行逻辑直接关联,且缺少输入验证与沙箱隔离机制。

三是依赖链污染与供应链级风险方面。人工智能软件的“多层依赖”特性导致漏洞可借助依赖链级联传导,形成“供应链污染”。更为隐蔽的攻击方式是“恶意依赖替换”,例如,伪造容器化服务(Docker)镜像或借助注册表代理篡改镜像层摘要,植入恶意组件,在GPU推理过程中窃取张量数据,企业对开源组件管理的缺陷放大了风险:多数人工智能企业未建立开源组件全生命周期管理机制,存在“版本混用”“依赖未锁定”“镜像缓存滞后”等问题,导致攻击者可依靠不同漏洞实施组合攻击。

(三)服务层:集成链路脆弱性与运行态攻击

服务层作为人工智能系统与用户及外部系统交互的关键“窗口”,其中包含模型服务化、应用程序编程接口(API)调用及第三方数据对接等多个环节,因该层级接口开放且数据流复杂,成为攻击者重点关注的目标,风险呈现“多样化、场景化”的特征。

一是恶意软件与模型资产窃取。针对运行态人工智能系统的恶意攻击正逐渐向专业化、系统化方向发展,形成“渗透—窃取—变现”的完整攻击链。与传统恶意软件主要窃取通用数据或计算资源不同,针对人工智能基础设施的新型恶意软件将模型权重、训练数据等核心知识产权作为主要攻击目标。以近期披露的ShadowInit恶意软件为例,其攻击链条包括三个关键环节。首先,初始渗透阶段,攻击者利用人工智能开发环境的安全薄弱点获取访问权限。ShadowInit通过滥用广泛共享但未固定版本的交互式训练文档(Jupyter Notebook)植入恶意依赖,或伪造容器镜像注入内核探针等方式,成功渗透GPU集群、模型服务网关及编排管道。其次,模型资产窃取与篡改阶段,攻击者在获得系统访问权限后实施核心攻击。与早期加密货币挖矿攻击不同,ShadowInit旨在窃取专有模型权重并悄然操纵推理输出,对下游应用造成破坏。例如,某制造企业的视觉检测模型遭篡改后,安全关键缺陷分类出现错误,导致装配线停机,造成严重经济损失。最后,地下市场变现阶段,被窃取的模型权重在暗网论坛以低价交易,使攻击者能以极低成本制作高度逼真的钓鱼内容或微调竞争模型,造成长期的残留威胁,加剧企业核心技术资产的流失。这一完整攻击链说明,运行态人工智能系统面临的威胁已从简单的资源滥用演变为针对性的知识产权窃取与业务破坏,需部署运行时权重完整性验证等专门防护机制。

二是接口防护缺失与未授权访问。若人工智能服务的API缺乏统一的安全规范,例如,强身份验证、令牌管理及输入/输出审查等方面,则极易被不法分子滥用或借助暴力手段破解。另外,在默认配置情况下将模型服务端口直接暴露于公网的做法,也会导致越权或未授权访问事件的发生。

三是第三方依赖与供应链级风险。服务层对云服务及第三方数据源的依赖,会扩大攻击的范围,典型案例就是微软人工智能团队在GitHub仓库中意外暴露了有过度权限的共享访问令牌(SAS),导致数十TB的内部数据被外部人员访问。近期爆发的LiteLLM供应链投毒事件同样是典型教训,攻击者通过污染其CI/CD流程植入恶意代码,导致大量开发者的API密钥与云环境凭证瞬间泄露。这些事件充分说明,人工智能模型所依赖的云平台与开源组件如果在权限管理或代码审查方面存在漏洞,则极易引发数据泄露及模型训练“输入污染”的问题,对推理的准确性构成严重威胁。

在人工智能供应链中,硬件、软件及服务之间相互关联,紧密相连,任何一个环节出现风险都会沿着“硬件层—软件层—服务层”这条链条进行传导,同时还会与其他层级的风险相互叠加并放大。这种“多层联动”的特性,使得仅关注单一环节的“点式防护”毫无作用,需构建覆盖全链路的一体化安全防护体系,才可有效抵御风险。

二、人工智能供应链安全防护体系构建

基于上述对人工智能供应链“硬件层—软件层—服务层”风险的系统剖析,本节着重关注现有应对途径及行业实践情况,依据相关证据,以问题为导向,对治理、技术及产业层面的主要方案进行评价,并对有代表性的工具给出客观评估。当前所采取的对策可归纳为三条同时推进的主线:其一,借助制度与标准化建设来构建治理框架;其二,针对不同层级采取工程技术对策,以降低风险暴露面;其三,借助开源与商用工具达成检测、响应及复原的可运维能力。

(一)治理与标准:从政策导向至合规基线

国家及行业层面在治理方面的努力,为供应链安全奠定了顶层设计基础并确立了合规基线。在国际领域,美国国家标准与技术研究院(NIST)的《人工智能风险管理框架》为各组织识别、评估及管理人工智能风险提供了通用的风险管理逻辑,该逻辑强调生命周期管理及跨职能协同,此框架已成为各类组织构建人工智能风险治理体系的关键参考依据。在国内,我国近年来陆续出台了关于《生成式人工智能服务管理暂行办法》《国家人工智能产业综合标准化体系建设指南(2024版)》《关于深入实施“人工智能+”行动的意见》等文件,这些文件逐渐将人工智能安全纳入产业政策及监管轨道,提出了分类分级监管、合规评估及安全能力建设等要求。一方面,制度与标准的推进,可在制度层面约束高风险行为,明确分级责任,并推动检测与报告机制的建立。另一方面,标准制定与修订的速度往往跟不上技术与威胁态势的变化,且制度本身难以直接解决硬件后门、物理级攻击等技术性问题,需与工程手段协同实施才能发挥实际作用。

(二)工程与技术对策:分层的技术路线

技术对策需依据不同层级的风险采用差异化策略。在硬件层面,应优先实施可信链及完整性验证,在共享算力场景下采用硬件纠错码、系统级内存校验等缓解手段,以降低物理级故障或干扰带来的影响,这在最近针对GPU的Rowhammer变体研究及厂商的响应中得到充分印证。研究表明,GPU显存可被用来实现比特翻转,对模型权重或推理结果进行篡改,厂商基于此建议启用硬件纠错码及系统级补偿策略。

软件供应链与依赖治理层面更侧重于可见性与可控性手段:构建软件组成清单、对容器镜像及第三方包实施签名与镜像校验、在持续集成/持续交付(CI/CD)中嵌入依赖扫描与安全检查、对常见人工智能框架的快速响应与补丁机制。实践说明,分布式框架与应用层框架(如Ray、LangChain、LlamaIndex等)曾出现过被主动利用的重大漏洞,这些事件表明,需将依赖链治理和流水线前置检测作为常态化工作。

服务层暴露了新的攻击面,在服务层中,例如,模型上下文协议(Model Context Protocol)及类似协议虽简化了模型与外部数据源、工具的集成,但也存在认证、授权与隔离的复杂性问题。业界对模型上下文协议的安全性、身份管理及最小权限实践一直保持关注,针对运行时的防护,需在网络隔离、多租户隔离、行为基线检测与API访问控制上进行精细化设计,并结合实时日志审计与威胁情报实现由检测到响应的闭环。

从方法论角度看,上述技术对策应基于“纵深防御”理念,通过制度与标准界定安全边界、明确合规要求;依托工程技术与部署实践,构建多层缓解机制;结合运行时监测与威胁情报,赋予系统动态检测能力。三者协同作用,方能有效提升供应链的整体韧性。

(三)产业实践与工具:多元化检测平台的发展现状

当前,人工智能供应链安全检测工具呈现“开源与商用并行、专业化与平台化融合”的发展态势。各类机构基于自身技术积累与应用场景,推出了涵盖不同层级、针对不同风险类型的检测解决方案,为行业提供了多样化的技术选择。

一是开源检测平台的兴起与特点。开源社区正成为人工智能供应链安全检测的核心创新力量。以腾讯朱雀实验室推出的AI Infra Guard为例,其定位为“综合、智能、易用的人工智能红队平台”,集成人工智能基础设施漏洞扫描、MCP服务器风险扫描、越狱评估等功能模块;支持对三十余种人工智能框架进行指纹识别,并提供轻量化命令行接口,便于企业将检测能力融入既有安全流程。与之相近的开源项目还包括开源软件安全基金会(OpenSSF)的Scorecards,其以自动化检查评估开源项目的安全风险;Aqua Security的Trivy,用于容器镜像漏洞扫描。此类工具以标准化与自动化降低了中小企业的技术门槛,显著推动供应链安全检测的普及与落地。

二是商用解决方案的专业化发展。商用检测平台在深度专业化与企业级服务能力方面具备优势。传统应用安全厂商如Checkmarx、Veracode等开始扩展其静态/动态应用安全测试(SAST/DAST)产品线,将人工智能应用的代码安全检测纳入覆盖范围;新兴的人工智能安全初创公司则专注于模型层面的安全风险,提供对抗攻击检测、模型偏见识别等专业化服务。国内方面,许多传统网络安全厂商也正将人工智能安全检测融入其现有产品体系,推出面向企业级用户的综合性解决方案。商用工具的优势在于提供专业技术支持、定制化开发与合规报告生成,但其局限性在于采购成本较高、可能存在厂商技术栈绑定问题。

三是云平台集成化趋势。主流云服务商正将人工智能供应链安全检测作为平台能力予以集成。亚马逊云服务(AWS)的Inspector、微软云服务(Azure)的Security Center等服务,均新增了对人工智能工作负载的安全检测支持,实现了从基础设施到应用层的统一监控。这种“云原生”的检测模式具备部署便捷、与云服务深度集成的优势,但也存在厂商锁定风险与跨云环境兼容性问题。

四是行业实践的典型模式与挑战。从实际应用效果看,当前产业实践呈现“分层部署、重点防护”的典型模式:大型科技企业多采用“自研+开源”组合方式,基于开源工具构建内部安全检测平台,并针对业务特点开发定制化检测规则;传统企业则倾向于采购成熟的商用解决方案,注重与现有信息技术(IT)基础设施的兼容性;中小企业主要依赖云服务商提供的集成化安全服务,追求快速部署与低维护成本。

三、结论与展望

在人工智能产业呈现高速发展态势的同时,“人工智能+”行动也在不断深入推进,在此背景下,供应链安全成为保障人工智能技术顺利落地及产业健康发展的“生命线”。本文通过对人工智能基础设施供应链安全风险的系统梳理,明确了“硬件层—软件层—服务层”全链路风险传导逻辑。硬件层的核心组件存在漏洞及后门风险,这构成了安全防护的底层短板;软件层开源生态存在漏洞传导及合规问题,形成了风险扩散的关键路径;服务层存在集成缺陷及外部攻击风险,这直接对人工智能应用的稳定运行及数据安全构成威胁。这三个层面的风险相互叠加,使得传统的单点防护模式难以应对复杂的供应链安全挑战。

人工智能供应链安全已超越传统信息安全范畴,成为关乎技术主权、产业韧性与国家战略安全的核心议题。随着大模型规模化部署加速、“人工智能+”深度融入关键基础设施,供应链的复杂性、开放性与攻击面将持续扩大。未来,防护体系的构建不能停留在被动响应或局部加固,而要以“全链路韧性”为目标,推动从技术架构、产业协同到治理规则的系统性升级。安全能力必须深度内嵌于供应链的技术演进中。在硬件层面,应加快构建覆盖设计、制造、验证全环节的可信机制,推动国产芯片与安全标准的同步发展,探索基于硬件指纹、运行时完整性度量等手段的动态信任链;在软件层面,亟须改变对开源生态“拿来即用”的惯性,建立覆盖依赖识别、漏洞追踪、镜像签名与自动修复的全生命周期治理能力,尤其要将安全左移至持续集成/持续交付(CI/CD)流程前端,实现风险早发现、早阻断;在服务层面,则需将零信任架构、最小权限原则与行为基线检测融入模型即服务(MaaS)的运行环境,防范API滥用、跨租户攻击与第三方依赖引发的级联风险。

单点防御已无法应对跨层传导的复合型威胁,必须推动产业级协同。建议由行业主管部门牵头,联合芯片厂商、云服务商、开源社区与人工智能应用企业,共建人工智能供应链安全风险数据库与共享响应机制,统一关键组件的安全基线与检测规范。鼓励龙头企业开放安全能力,通过“平台+生态”模式赋能中小企业,避免因资源不均导致的安全洼地。尤其在政务、金融、医疗等高敏领域,应率先试点“安全可验证、组件可追溯、风险可隔离”的供应链准入机制。

面对全球供应链的高度耦合,我国需在坚持自主可控的同时,积极参与国际规则共建。一方面,加快将国内实践转化为可输出的技术标准与检测方法,提升在全球人工智能安全治理中的话语权;另一方面,通过双边或多边合作机制,推动漏洞披露、威胁情报与应急响应的跨国协同,避免安全问题被泛政治化或武器化。唯有构建“技术有底座、产业有协同、治理有规则”的三位一体防护生态,才能在保障发展速度的同时守住安全底线,真正支撑我国人工智能行稳致远,并为全球人工智能供应链安全贡献兼具原则性与实操性的中国方案。(江勇系本文通讯作者)

(本文刊登于《中国信息安全》杂志2026年第4期)