FlagOS工作坊：AI自主部署时代来临，大模型基建迈入自动驾驶

发布时间：2026-06-22 19:34阅读：2

让 AI 自主编写算子、自主部署模型、自主完成跨芯迁移，甚至自主解决那些繁杂的环境报错，这一切，在第八届北京智源大会的“FlagOS 技术开发工作坊”中成为现实。

这场全天候的活动，不仅全方位展示了 FlagOS 在编译器优化、端侧使能、中间表示层、量子计算、LLM Agent 自动部署、算子自动生成等领域的最新突破，还为现场开发者搭建了真实的机考实操环境。从利用 Triton-TLE 手写高性能算子，到借助 KernelGen “一句话”生成算子，开发者得以现场演练，并有智源技术专家从旁指导，真正达成学以致用、听完即落地。

夯实 FlagOS 底层基石：编译器、算子库与端侧全链路优化

北京智源人工智能研究院 AI 系统研究团队负责人门春雷在开场致辞中强调，大模型的井喷导致底层编译器与算子开发人才缺口巨大，但系统软件门槛极高、专业人员匮乏。看似枯燥的底层软件，实则直接左右 Token 成本——高效统一的系统软件栈能显著提升硬件利用率，削减算力开销。本次工作坊实现技术深度下探，涵盖从芯片层到上层模型的完整链路，期望开发者获得三层收益：洞察底层软件价值、掌握实践落地路径、进阶优化现有开发流程。

北京智源人工智能研究院编译器研究员郭晖分享了如何利用 Triton-TLE 轻松编写出高性能的稀疏注意力算子 SparseMLA。

随着大模型上下文长度急剧扩张（从几K到百万乃至千万），Attention 的 O(N²)计算复杂度成为瓶颈。DeepSeek Sparse Attention 让每个 Query 仅从完整 KVCache 中提取少量 TopK Token 参与计算，但这些 Token 位置不连续，导致实现高性能算子面临三大难题：缓存不友好（无法大块连续 load）、计算维度宽（Value 维度 512 加尾部共 576，寄存器压力大）、调度困难（load 与计算单元串行，利用率低）。

郭晖介绍了 TLE（Triton Language Extensions）的三个层次：Lite（轻量级扩展，一次编写到处运行）、Struct（架构感知扩展，可显式控制存储层级）和Raw。他重点展示了 TLE Lite 新增的核心抽象——Tle.pipe。通过生产者-消费者的编程范式，开发者仅需声明 Pipe、调用 acquire/commit/wait/release 等 API，编译器便会自动完成 mbarrier 分配与同步管理，“心智负担大幅减轻，出错概率显著降低”。

代码对比表明，手工 Pipeline 方案充斥大量 barrier wait/arrive 和 phase bit 逻辑，而 TLE 版本只需声明三个 Pipe（Qpipe、KVpipe、Scorepipe）对应三条数据传输链。实测在 NVIDIA H800上，TLE Pipeline 版本相比原生Triton Baseline 获得 1.9 倍到 2.1 倍加速，达到 DeepSeek 官方 Flash MLA 90% 以上的性能，同时代码量缩减 60% 以上。这套代码无需修改即可运行在 AMD 及国产 GPU 上。

在现场实操环节，郭晖邀请开发者基于 TLE 的Tle.pipe抽象现场编写 SparseMLA 的核心流水线逻辑。技术专家巡回指导，协助参与者理解生产者-消费者编程范式如何替代繁琐的手动 barrier 管理，并解答 Pipe API 使用、同步机制等具体疑问。

北京智源人工智能研究院性能优化工程师赵帅分享了 FlagOS 在 Arm64 CPU 上的使能与性能优化实践。这是一场带有“真机实操”的演讲，他在台前摆了 4 台接有开发板的显示器，每个开发板均已预装好 FlagOS 端侧环境，邀请观众亲身上手体验。

赵帅表示，端侧 NPU 算力正迅猛提升，今年预计达 100TOPS，但以往 NPU 软件栈多以闭源为主，模型转换受限、模型大小受限制。随着越来越多厂商推出基于开源编译器的实现，FlagOS 推向端侧的时机已成熟。他们重点关注此芯的 Arm v9 平台（支持SVE2），以及 RISC-V 平台和高通机器人平台。

在 FlagTree CPU 的实践中，他们基于 Triton CPU v3.3 版本（后续将演进到 3.6）进行了扩展。赵帅指出，直接复用 Triton CPU 的线程模型，模仿 GPU 的 CMP 模式，在 CPU 上性能衰减严重，每次调用仅处理一小段数据，8个 core 不停调度，每次 Token产生约 3500 次调用。他们的解法是通过 TLE 扩展将计算和线程管理“下沉”到 Kernel 内部，让 CPU 处理连续的大块数据，避免 Python 到 C 的频繁调用，并尽可能进行算子融合。

在优化手段上，绑大核、设置线程数（与大小核一致）、让线程忙等不休眠、钉在物理核上等线程管理优化带来 40% 以上收益。在算子层面，INT8 GEMM 加速达 519 GOPS，RMSNorm 提升 1.5 倍，SwiGLU 提升 40%，GEMV 相比 ARM ACL 再提升 30%，FlashAttention 相比 ATen 提升 9 倍。最终，在 INT8 量化下，MiniCPM 和千问 1.7B 模型的推理性能达到 Llama CPP 同水平的 70%-80%。

北京智源人工智能研究院编译器研究员肖航以《从算子全覆盖到性能突破：FlagOS 如何打通大模型推理优化最后一公里》为主题，完整拆解了 FlagOS “编译器-算子库-模型”协同优化体系：

Day0 极速适配能力：DeepSeek V4 发布当日，FlagOS 即完成 10 款芯片全覆盖，依托 FlagGems 600+ 跨芯片算子库和 FlagTree 统一编译器，快速完成 FP8 Matmul、Sparse Attention 核心算子的深度调优。

多层算子优化路径：从算法层算子重构（Fused MoE 分组计算、混合精度访存压缩）、FlagOSTune 自动调优到编译器三层协同提效，Fused MoE 最高提速 1.87 倍，FP8 量化算子性能翻倍。

FlagTree 编译器核心优化：新增自动 Layout 消除、循环展开+指令重排、 Warp Specialization 流水线等 Pass，大幅削减张量转换开销，多款主流量化算子实现最高 2.2 倍加速。

路线规划：FlagGems 算子规模将拓展至 2000 个，完善 MegaKernel 算子融合、全链路混合精度支持，持续扩充国产芯片适配矩阵。

北京智源人工智能研究院AI 编译器研究员郑杨详细阐述了统一编译器 Flagtree 在多后端接入上的核心基建。为了避免 Triton 生态在各个厂商间发散，Flagtree 采用单仓库多后端策略。

对于 GPGPU 类芯片（如英伟达、摩尔、海光等），可直接复用 Triton GPU IR路线；但对于 DSA、NPU 类芯片（如昇腾、清微等），与英伟达架构差异大，原有开源基建不足。为此，团队发展出以线性代数表示为基础的 FlagIR 中间表示层。FlagIR 负责从 TTIR 到中间层的转换，支持结构化/非结构化访存和张量计算，打通了 DSA/NPU 接入 Triton 生态的桥梁，并完美支撑了 TLE 语言扩展的编译降级。

前沿创新与工程自动化：量智、AI 生成、智能体全链路落地

北京智源人工智能研究院量子与 AI 融合系统研究员柳伟首先介绍了量智融合。量子计算具备指数级加速潜力，但当下量子算力稀缺，需用经典 AI 芯片模拟，带来指数爆炸与跨节点通信难题。

FlagQuantum 的解法是“量智融合”异构协同框架——不试图让量子计算机取代经典计算机，而是让其作为协处理器（QPU）嵌入神经网络。其两大核心技术：

一是动态二维切分。在多 GPU 分布式模拟中，跟随量子线路实时数据流变化调整切分策略，将跨节点的昂贵通信开销降至最低。在 32 卡规模下性能提升曲线依然陡峭，而静态切分方案（如 cuQuantum）早已陷入“规模墙”。

二是可逆梯度方法。利用量子门的酉矩阵可逆性，在反向传播时重计算中间态，避免缓存每层结果，稳定带来 2 到 4 个可训练量子比特的收益，打破“层数墙”。对于含噪声环境，还支持参数移位（两次前向传播）计算梯度。

柳伟强调，FlagQuantum 是目前首个能够统一调度国产 AI 芯片（海光、摩尔线程等）以及国产量子芯片的 AI 框架，基于 PyTorch 生态构建，支持 OpenQASM 2.0/3.0 跨平台导出到真实量子计算机（IBM、本源等）。他还展示了对国内不同量子云平台的测评——通过增加量子线路深度，真实反映各平台在噪声环境下的表现差异，并澄清了“真机推理精度高于模拟器”的偶然现象（小数据集下的统计波动）。

北京智源人工智能研究院AI 系统软件研发工程师石浤澔提出，AI 推理软件栈的难点在于组合部署时的"集成摩擦"。借鉴 OS 与 TCP 分层隔离思路，FlagOS 将适配复杂度从"M × N"压缩为"M + N"。

基于此，团队构建了 FlagRelease 系统，用状态机驱动而非让 Agent 自决状态切换，定义了 13 步全自动流水线。针对 Agent 的不确定性，系统借鉴 OSD 的 OOM 做降级容错，引入独立外部验证杜绝造假，并以多层沙箱和 32 条约束规则管控权限。最终，单模型迁移仅需 100 元 Token 费、92 分钟，相比资深工程师人工的 2-3 天大幅降本。

北京智源人工智能研究院系统智能研究组研究员韩冬煦分享了 FlagScale Agent 在训推迁移领域的系统级创新。他指出，算子开发需要软硬件、数学、编译器四门学科交叉，且需适配多款芯片，时间消耗爆炸。而 KernelGen 2.0 内置了十余年算子专家经验沉淀的知识库，让 AI 像"老师傅带徒弟"一样按既定目标生成算子。

在 LayerNorm 算子的真实对决中，KernelGen 用 14 分钟、1 万 Token 完成，性能达专家手写的 1.14 倍；而主流 AI 助手用 35 分钟、2 万余 Token，性能仅为 0.6 倍。他介绍，KernelGen 已适配昇腾、海光等多款芯片，支持自然语言描述需求，自动完成正确性与加速比测试。

为了让开发者直观体验这一生产力变革，韩冬煦现场演示了在 KernelGen 平台用自然语言生成 ReLU 算子并跑出 1.18 倍加速比的过程。随后，现场开发者纷纷登录kernelgen.Flagos.io平台进行实操，尝试用“一句话”生成适配不同芯片的算子，智源技术团队则在现场随时解答参数配置与性能调优的疑问。结合智源大会期间举办的“48 小时算子赏金挑战赛北京站”，现场实操氛围推向高潮。

北京智源人工智能研究院AI 框架研究员曹州针对训推迁移的长链路痛点，分享了 FlagScale Agent 在训推迁移领域的系统级创新。

曹州指出三大产业痛点：算法研究员手搓模型后需专业 Infra 人员迁移到高效引擎（Megatron、vLLM等）；算力芯片碎片化，插件适配仍需人工完成模型适配、算子替换、性能调优；上游框架频繁更新，版本回归测试和适配修复持续消耗人力。而 FlagScale Agent 带来了两大创新：

一是约束编译执行。与通用 Skill 不同，FlagScale 的 Skill 不是“建议”而是“约束”。通过 YAML 格式定义触发条件、检查逻辑和纠正措施，在运行时形成 Guard 门控系统。Guard 分三级：注入提醒（连续错三次时提示）、拦截 action（连续错五次时阻止执行）、等待人类指令（问题无法解决时交接）。Guard 触发分两阶段：先用正则快速拦截（无 LLM 开销），再用 LLM 精确判断。

二是渐进上下文压缩。实时监控 Context 使用量，35% 时触发压缩，75% 预警，85% 强制压缩。通过“内容价值感知”——实验错误永不压缩，安装日志只保留 200 字组——保证长任务中 Agent 保持“记忆在线”。压缩比从 60% 逐步降至 35%。

对比测试中，FlagScale Agent 在英伟达与沐曦两平台间做精度对齐，全程无人工介入跑完 100 步实现收敛（diff 0.12%）；而 Claude Code 中途跑偏需人工拉回，仅跑 10 步（diff 9.14%）。未来 FlagScale Agent 将上线 Skill 自进化路线——Skill 不再由人写，而由 Agent 自主产生。在实操环节，开发者们也现场体验了配置 LLM API 并启动 FlagScale-Agent，观察其如何自主拆解任务、进行跨芯自动迁移。

北京智源人工智能研究院大模型推理优化工程师朱瑞迪以 vLLM-Plugin-FL 为例，介绍了如何用 Skill 化解环境安装、版本升级、模型迁移三大繁琐环节：

环境安装 Skill：自动解析多硬件依赖，新人十余分钟从零搭建完整推理环境；

版本升级 Skill：解决 vLLM 高低版本代码冲突，自动完成补丁适配与回归测试；

模型迁移 Skill：自动移植模型代码、校验 Token 级推理精度，规避人工漏改、精度失效问题。区别于固定脚本，Skill 具备自主推理、异常泛化能力，把团队口头经验转化为可执行代码资产，大幅降低对资深工程师依赖，实现模型迁移轻量化、一键化落地。

现场，开发者跟随指导，实操调用了这些开源的 Skill，切身体会了“解放双手”的工程快感。

结语：从"组件正确"到"系统协同"的范式跃迁

纵观全天的 FlagOS 技术开发工作坊，一条清晰的脉络浮现出来：FlagOS 正在从"提供若干正确的单体组件"，转向"用AI让这些组件在真实场景中协同运转"。

全天高密度的理论拆解与手把手的真机实操交织，让这场工作坊不再是纸上谈兵。一方面，Triton-TLE、FlagTree CPU 扩展与 FlagIR 编译器基建，展示了打通多芯片孤岛、榨干硬件性能的硬核底力；另一方面，FlagQuantum、FlagRelease、KernelGen、FlagScale Agent 与 Skills 库，则用 AI Agent 接管了繁杂的迁移、适配与算子生成工作。

当底层编译器、量子协处理器、Agent 编排器与 Skill 库共同构成一张可持续演进的软件栈图谱，AI 系统软件的"无人驾驶"时代，正从这一场工作坊走向更广阔的产业现场。

关于众智FlagOS社区

为解决不同 AI 芯片大规模落地应用，北京智源研究院联合众多科研机构、芯片企业、系统厂商、算法和软件相关单位等国内外机构共同发起并创立了众智 FlagOS 社区。成员单位包括北京智源研究院、中科院计算所、中科加禾、安谋科技、北京大学、北京师范大学、百度飞桨、硅基流动、寒武纪、海光信息、华为、基流科技、摩尔线程、沐曦股份、澎峰科技、清微智能、天数智芯、先进编译实验室、移动研究院、中国矿业大学(北京)等多家在 FlagOS 软件栈研发中做出卓越贡献的单位。

FlagOS 是一款专为异构 AI 芯片打造的开源、跨芯系统软件栈，支持 AI 模型一次开发即可无缝移植至各类硬件平台，大幅降低迁移与适配成本。它包括大型算子库、跨芯AI编译器、并行训推框架、跨芯通信库等核心开源项目，致力于构建「模型-系统-芯片」三层贯通的开放技术生态，通过“一次开发跨芯迁移”释放硬件计算潜力，打破不同芯片软件栈之间生态隔离。

官网：https://flagos.io

GitHub 项目地址：https://github.com/flagos-ai

GitCode 项目地址：https://gitcode.com/flagos-ai

SkillHub: https://skillhub.flagos.io

← 上一篇：星海图高继扬：具身智能的GPT时刻或将悄然而至下一篇：人工智能应用培训服务与实践案例 →