FlagOS工作坊:AI自主部署时代来临,大模型基建迈入自动驾驶
让 AI 自主编写算子、自主部署模型、自主完成跨芯迁移,甚至自主解决那些繁杂的环境报错,这一切,在第八届北京智源大会的“FlagOS 技术开发工作坊”中成为现实。
这场全天候的活动,不仅全方位展示了 FlagOS 在编译器优化、端侧使能、中间表示层、量子计算、LLM Agent 自动部署、算子自动生成等领域的最新突破,还为现场开发者搭建了真实的机考实操环境。从利用 Triton-TLE 手写高性能算子,到借助 KernelGen “一句话”生成算子,开发者得以现场演练,并有智源技术专家从旁指导,真正达成学以致用、听完即落地。
01
夯实 FlagOS 底层基石 :编译器、算子库与端侧全链路优化
北京智源人工智能研究院 AI 系统研究团队负责人门春雷在开场致辞中强调,大模型的井喷导致底层编译器与算子开发人才缺口巨大,但系统软件门槛极高、专业人员匮乏。看似枯燥的底层软件,实则直接左右 Token 成本——高效统一的系统软件栈能显著提升硬件利用率,削减算力开销。本次工作坊实现技术深度下探,涵盖从芯片层到上层模型的完整链路,期望开发者获得三层收益:洞察底层软件价值、掌握实践落地路径、进阶优化现有开发流程。
北京智源人工智能研究院编译器研究员郭晖分享了如何利用 Triton-TLE 轻松编写出高性能的稀疏注意力算子 SparseMLA。
随着大模型上下文长度急剧扩张(从几K到百万乃至千万),Attention 的 O(N²)计算复杂度成为瓶颈。DeepSeek Sparse Attention 让每个 Query 仅从完整 KVCache 中提取少量 TopK Token 参与计算,但这些 Token 位置不连续,导致实现高性能算子面临三大难题:缓存不友好(无法大块连续 load)、计算维度宽(Value 维度 512 加尾部共 576,寄存器压力大)、调度困难(load 与计算单元串行,利用率低)。
郭晖介绍了 TLE(Triton Language Extensions)的三个层次:Lite(轻量级扩展,一次编写到处运行)、Struct(架构感知扩展,可显式控制存储层级)和Raw。他重点展示了 TLE Lite 新增的核心抽象——Tle.pipe。通过生产者-消费者的编程范式,开发者仅需声明 Pipe、调用 acquire/commit/wait/release 等 API,编译器便会自动完成 mbarrier 分配与同步管理,“心智负担大幅减轻,出错概率显著降低”。
代码对比表明,手工 Pipeline 方案充斥大量 barrier wait/arrive 和 phase bit 逻辑,而 TLE 版本只需声明三个 Pipe(Qpipe、KVpipe、Scorepipe)对应三条数据传输链。实测在 NVIDIA H800上,TLE Pipeline 版本相比原生Triton Baseline 获得 1.9 倍到 2.1 倍加速,达到 DeepSeek 官方 Flash MLA 90% 以上的性能,同时代码量缩减 60% 以上。这套代码无需修改即可运行在 AMD 及国产 GPU 上。
在现场实操环节,郭晖邀请开发者基于 TLE 的Tle.pipe抽象现场编写 SparseMLA 的核心流水线逻辑。技术专家巡回指导,协助参与者理解生产者-消费者编程范式如何替代繁琐的手动 barrier 管理,并解答 Pipe API 使用、同步机制等具体疑问。
北京智源人工智能研究院性能优化工程师赵帅分享了 FlagOS 在 Arm64 CPU 上的使能与性能优化实践。这是一场带有“真机实操”的演讲,他在台前摆了 4 台接有开发板的显示器,每个开发板均已预装好 FlagOS 端侧环境,邀请观众亲身上手体验。
赵帅表示,端侧 NPU 算力正迅猛提升,今年预计达 100TOPS,但以往 NPU 软件栈多以闭源为主,模型转换受限、模型大小受限制。随着越来越多厂商推出基于开源编译器的实现,FlagOS 推向端侧的时机已成熟。他们重点关注此芯的 Arm v9 平台(支持SVE2) ,以及 RISC-V 平台和高通机器人平台。
在 FlagTree CPU 的实践中,他们基于 Triton CPU v3.3 版本(后续将演进到 3.6)进行了扩展。赵帅指出,直接复用 Triton CPU 的线程模型,模仿 GPU 的 CMP 模式,在 CPU 上性能衰减严重,每次调用仅处理一小段数据,8个 core 不停调度,每次 Token产生约 3500 次调用。他们的解法是通过 TLE 扩展将计算和线程管理“下沉”到 Kernel 内部,让 CPU 处理连续的大块数据,避免 Python 到 C 的频繁调用,并尽可能进行算子融合。
在优化手段上,绑大核、设置线程数(与大小核一致)、让线程忙等不休眠、钉在物理核上等线程管理优化带来 40% 以上收益。在算子层面,INT8 GEMM 加速达 519 GOPS,RMSNorm 提升 1.5 倍,SwiGLU 提升 40%,GEMV 相比 ARM ACL 再提升 30%,FlashAttention 相比 ATen 提升 9 倍。最终,在 INT8 量化下,MiniCPM 和千问 1.7B 模型的推理性能达到 Llama CPP 同水平的 70%-80%。
北京智源人工智能研究院编译器研究员肖航以《从算子全覆盖到性能突破:FlagOS 如何打通大模型推理优化最后一公里》为主题,完整拆解了 FlagOS “编译器-算子库-模型”协同优化体系:
Day0 极速适配能力:DeepSeek V4 发布当日,FlagOS 即完成 10 款芯片全覆盖,依托 FlagGems 600+ 跨芯片算子库和 FlagTree 统一编译器,快速完成 FP8 Matmul、Sparse Attention 核心算子的深度调优。
多层算子优化路径:从算法层算子重构(Fused MoE 分组计算、混合精度访存压缩)、FlagOSTune 自动调优到编译器三层协同提效,Fused MoE 最高提速 1.87 倍,FP8 量化算子性能翻倍。
FlagTree 编译器核心优化:新增自动 Layout 消除、循环展开+指令重排、 Warp Specialization 流水线等 Pass,大幅削减张量转换开销,多款主流量化算子实现最高 2.2 倍加速。
路线规划:FlagGems 算子规模将拓展至 2000 个,完善 MegaKernel 算子融合、全链路混合精度支持,持续扩充国产芯片适配矩阵。
北京智源人工智能研究院AI 编译器研究员郑杨详细阐述了统一编译器 Flagtree 在多后端接入上的核心基建。为了避免 Triton 生态在各个厂商间发散,Flagtree 采用单仓库多后端策略。
对于 GPGPU 类芯片(如英伟达、摩尔、海光等),可直接复用 Triton GPU IR路线;但对于 DSA、NPU 类芯片(如昇腾、清微等),与英伟达架构差异大,原有开源基建不足。为此,团队发展出以线性代数表示为基础的 FlagIR 中间表示层。FlagIR 负责从 TTIR 到中间层的转换,支持结构化/非结构化访存和张量计算,打通了 DSA/NPU 接入 Triton 生态的桥梁,并完美支撑了 TLE 语言扩展的编译降级。
02
前沿创新与工程自动化 :量智、AI 生成、智能体全链路落地
北京智源人工智能研究院量子与 AI 融合系统研究员柳伟首先介绍了量智融合。量子计算具备指数级加速潜力,但当下量子算力稀缺,需用经典 AI 芯片模拟,带来指数爆炸与跨节点通信难题。
FlagQuantum 的解法是“量智融合”异构协同框架——不试图让量子计算机取代经典计算机,而是让其作为协处理器(QPU)嵌入神经网络。其两大核心技术:
一是动态二维切分。 在多 GPU 分布式模拟中,跟随量子线路实时数据流变化调整切分策略,将跨节点的昂贵通信开销降至最低。在 32 卡规模下性能提升曲线依然陡峭,而静态切分方案(如 cuQuantum)早已陷入“规模墙”。
二是可逆梯度方法。 利用量子门的酉矩阵可逆性,在反向传播时重计算中间态,避免缓存每层结果,稳定带来 2 到 4 个可训练量子比特的收益,打破“层数墙”。对于含噪声环境,还支持参数移位(两次前向传播)计算梯度。
柳伟强调,FlagQuantum 是目前首个能够统一调度国产 AI 芯片(海光、摩尔线程等)以及国产量子芯片的 AI 框架,基于 PyTorch 生态构建,支持 OpenQASM 2.0/3.0 跨平台导出到真实量子计算机(IBM、本源等)。他还展示了对国内不同量子云平台的测评——通过增加量子线路深度,真实反映各平台在噪声环境下的表现差异,并澄清了“真机推理精度高于模拟器”的偶然现象(小数据集下的统计波动)。
北京智源人工智能研究院AI 系统软件研发工程师石浤澔提出,AI 推理软件栈的难点在于组合部署时的"集成摩擦"。借鉴 OS 与 TCP 分层隔离思路,FlagOS 将适配复杂度从"M × N"压缩为"M + N"。
基于此,团队构建了 FlagRelease 系统,用状态机驱动而非让 Agent 自决状态切换,定义了 13 步全自动流水线。针对 Agent 的不确定性,系统借鉴 OSD 的 OOM 做降级容错,引入独立外部验证杜绝造假,并以多层沙箱和 32 条约束规则管控权限。最终,单模型迁移仅需 100 元 Token 费、92 分钟,相比资深工程师人工的 2-3 天大幅降本。
北京智源人工智能研究院系统智能研究组研究员韩冬煦分享了 FlagScale Agent 在训推迁移领域的系统级创新。他指出,算子开发需要软硬件、数学、编译器四门学科交叉,且需适配多款芯片,时间消耗爆炸。而 KernelGen 2.0 内置了十余年算子专家经验沉淀的知识库,让 AI 像"老师傅带徒弟"一样按既定目标生成算子。
在 LayerNorm 算子的真实对决中,KernelGen 用 14 分钟、1 万 Token 完成,性能达专家手写的 1.14 倍;而主流 AI 助手用 35 分钟、2 万余 Token,性能仅为 0.6 倍。他介绍,KernelGen 已适配昇腾、海光等多款芯片,支持自然语言描述需求,自动完成正确性与加速比测试。
为了让开发者直观体验这一生产力变革,韩冬煦现场演示了在 KernelGen 平台用自然语言生成 ReLU 算子并跑出 1.18 倍加速比的过程。随后,现场开发者纷纷登录kernelgen.Flagos.io平台进行实操,尝试用“一句话”生成适配不同芯片的算子,智源技术团队则在现场随时解答参数配置与性能调优的疑问。结合智源大会期间举办的“48 小时算子赏金挑战赛北京站”,现场实操氛围推向高潮。
北京智源人工智能研究院AI 框架研究员曹州针对训推迁移的长链路痛点,分享了 FlagScale Agent 在训推迁移领域的系统级创新。
曹州指出三大产业痛点:算法研究员手搓模型后需专业 Infra 人员迁移到高效引擎(Megatron、vLLM等);算力芯片碎片化,插件适配仍需人工完成模型适配、算子替换、性能调优;上游框架频繁更新,版本回归测试和适配修复持续消耗人力。而 FlagScale Agent 带来了两大创新:
一是约束编译执行。 与通用 Skill 不同,FlagScale 的 Skill 不是“建议”而是“约束”。通过 YAML 格式定义触发条件、检查逻辑和纠正措施,在运行时形成 Guard 门控系统。Guard 分三级:注入提醒(连续错三次时提示)、拦截 action(连续错五次时阻止执行)、等待人类指令(问题无法解决时交接)。Guard 触发分两阶段:先用正则快速拦截(无 LLM 开销),再用 LLM 精确判断。
二是渐进上下文压缩。 实时监控 Context 使用量,35% 时触发压缩,75% 预警,85% 强制压缩。通过“内容价值感知”——实验错误永不压缩,安装日志只保留 200 字组——保证长任务中 Agent 保持“记忆在线”。压缩比从 60% 逐步降至 35%。
对比测试中,FlagScale Agent 在英伟达与沐曦两平台间做精度对齐,全程无人工介入跑完 100 步实现收敛(diff 0.12%);而 Claude Code 中途跑偏需人工拉回,仅跑 10 步(diff 9.14%)。未来 FlagScale Agent 将上线 Skill 自进化路线——Skill 不再由人写,而由 Agent 自主产生。在实操环节,开发者们也现场体验了配置 LLM API 并启动 FlagScale-Agent,观察其如何自主拆解任务、进行跨芯自动迁移。
北京智源人工智能研究院大模型推理优化工程师朱瑞迪以 vLLM-Plugin-FL 为例,介绍了如何用 Skill 化解环境安装、版本升级、模型迁移三大繁琐环节:
环境安装 Skill:自动解析多硬件依赖,新人十余分钟从零搭建完整推理环境;
版本升级 Skill:解决 vLLM 高低版本代码冲突,自动完成补丁适配与回归测试;
模型迁移 Skill:自动移植模型代码、校验 Token 级推理精度,规避人工漏改、精度失效问题。 区别于固定脚本,Skill 具备自主推理、异常泛化能力,把团队口头经验转化为可执行代码资产,大幅降低对资深工程师依赖,实现模型迁移轻量化、一键化落地。
现场,开发者跟随指导,实操调用了这些开源的 Skill,切身体会了“解放双手”的工程快感。
03
结语:从"组件正确"到"系统协同"的范式跃迁
纵观全天的 FlagOS 技术开发工作坊,一条清晰的脉络浮现出来:FlagOS 正在从"提供若干正确的单体组件",转向"用AI让这些组件在真实场景中协同运转"。
全天高密度的理论拆解与手把手的真机实操交织,让这场工作坊不再是纸上谈兵。一方面,Triton-TLE、FlagTree CPU 扩展与 FlagIR 编译器基建,展示了打通多芯片孤岛、榨干硬件性能的硬核底力;另一方面,FlagQuantum、FlagRelease、KernelGen、FlagScale Agent 与 Skills 库,则用 AI Agent 接管了繁杂的迁移、适配与算子生成工作。
当底层编译器、量子协处理器、Agent 编排器与 Skill 库共同构成一张可持续演进的软件栈图谱,AI 系统软件的"无人驾驶"时代,正从这一场工作坊走向更广阔的产业现场。
关于众智FlagOS社区
为解决不同 AI 芯片大规模落地应用,北京智源研究院联合众多科研机构、芯片企业、系统厂商、算法和软件相关单位等国内外机构共同发起并创立了众智 FlagOS 社区。成员单位包括北京智源研究院、中科院计算所、中科加禾、安谋科技、北京大学、北京师范大学、百度飞桨、硅基流动、寒武纪、海光信息、华为、基流科技、摩尔线程、沐曦股份、澎峰科技、清微智能、天数智芯、先进编译实验室、移动研究院、中国矿业大学(北京)等多家在 FlagOS 软件栈研发中做出卓越贡献的单位。
FlagOS 是一款专为异构 AI 芯片打造的开源、跨芯系统软件栈,支持 AI 模型一次开发即可无缝移植至各类硬件平台,大幅降低迁移与适配成本。它包括大型算子库、跨芯AI编译器、并行训推框架、跨芯通信库等核心开源项目,致力于构建「模型-系统-芯片」三层贯通的开放技术生态,通过“一次开发跨芯迁移”释放硬件计算潜力,打破不同芯片软件栈之间生态隔离。
官网:https://flagos.io
GitHub 项目地址:https://github.com/flagos-ai
GitCode 项目地址:https://gitcode.com/flagos-ai
SkillHub: https://skillhub.flagos.io