AI运维进阶：从能力堆砌到可管理的Skills体系

发布时间：2026-06-07 10:12阅读：19

我们走过的弯路：功能齐全了，流程却丢了

智能运维平台已经集成了大量AI功能：

看似无所不能，却缺少最核心的一环。

我们内部将这个问题归纳为一句话：

具体困扰，从事一线运维的同行应该深有体会：

老张习惯先查告警，小李习惯先SSH登录，新人可能直接问模型"帮我处理"。同一故障，三种处理方式，复盘时无法对齐。

Agent模式能todo_write、能远程执行命令，规划模板适合常规巡检，却无法覆盖开放式故障场景——CPU高可能是进程泄漏，也可能是上游流量突增，模板无法套用。

指标在/data-query，日志在另一个Tab，告警在监控模块——AI对话中无法调用这些基础能力，运维人员仍需手动切换复制粘贴。

配置类命令需要快照、高危操作需要二次确认、华三/中兴/迈普设备必须先走知识库RAG——这些限制写在文档里，模型不一定每次都能遵循。

为了解决上述问题，我们在AIOps智能运维平台中引入了Skills（智能运维技能）模块。

一句话定义：

三者职责清晰：

Skill是一份Markdown格式的运维Runbook，包含：

它不是可执行脚本，而是注入Agent规划Prompt的领域约束——就像给AI配了一位经验丰富的老手，在旁边指导："先查告警，再拉指标，证据够了再SSH，别乱动配置。"

这意味着：标准化操作不走弯路，复杂排障不失灵活。

Skills与Agent模式深度绑定（多步Runbook天然匹配Agent的ReAct执行循环），使用流程极简：

第一步：进入AIChat，切换到Agent模式

Skills是多步排障Runbook，Chat单轮问答路径不注入Skill约束——这是刻意设计，避免短问答被长SOP干扰。

第二步：选择Skill或让系统自动匹配

路由优先级：显式选择 > 关键词规则 > 语义匹配（规划中）

第三步：@设备，描述问题，看着Agent按SOP执行

平台会将Skill约束注入规划Prompt与ReAct每轮system message，Agent按步骤调用内置Tool、SSH命令，并输出结构化结论。

管理员可在系统设置 → Skills页面查看全部内置技能、启用/禁用、分配角色，并支持Git热加载——改一份SKILL.md，无需重启服务。

目前平台已内置三个经过生产场景验证的Skill，覆盖「排障—纳管—治理」三类高频需求。更多技能正在研发中（网络故障诊断、容量分析、配置变更复盘、日志关联等已在路线图上）。

适用场景

核心方法论

吸收SRE证据链思路，遵循USE/RED指标优先原则：

风险等级：read_only——禁止规划任何配置类命令，安全底线写死在Skill里。

规划模式：guided —— 开放式排障，LLM按决策树动态规划，不僵化。

适用场景

核心原则

规划模式：strict —— 平台直接解析执行步骤，生成标准化任务计划：

风险等级：may_write—— 写操作步骤顺序执行，命中安全规则时走danger_confirm + force_override二次确认，不会静默执行高危命令。

适用场景

MVP清理能力（仅三项，边界清晰）

执行流程

规划模式：strict —— 步骤固化，LLM不参与自由规划，减少误操作空间。

Skills背后，是AIOps平台在AI编排层的系统性升级：

Skill引用的Tool不再是抽象概念，而是平台级统一注册的原子能力：

@设备后，平台自动注入DeviceContext——网络设备用ident标签，服务器用agent_hostname，无需手动拼PromQL。

Skill不改变意图路由优先级（config_impact → platform_query → kb_query → execute），仅在意图确定后附加SkillContext，约束该路径下的推理与输出。

Agent模板语义匹配仍优先——Skill补充「异常时如何扩展」，而非替代标准巡检。

Skills模块于2026年6月完成P0核心闭环，团队仍在快速迭代：

已落地

研发中 / 规划中

更多内置Skill正在编写，包括但不限于：

我们的目标很明确：让每一类高频运维场景，都有对应的标准化Skill；让每一位值班同学，都能调用同一份「老师傅经验」。

大模型时代，运维团队面临的不是「要不要用AI」，而是：

没有SOP约束的AI，像一个什么都懂但什么都不按章法的新人——说得头头是道，关键时刻靠不住。

Skills要做的，就是把团队十年排障经验、变更规范、安全红线，写成AI读得懂、平台管得住、审计查得到的Runbook。

凌晨三点的告警还会来，但我们希望下一次，你的第一反应不是切八个页面，而是：

这才是AI运维该有的样子。

AIOps智能运维平台是一体化网络与服务器运维解决方案，集成AI对话运维、Agent自动化、监控告警、智能巡检、配置备份与影响分析、知识库RAG、MCP外部工具等能力。

Skills智能运维技能是平台AI编排层的核心升级，现已随平台版本发布，内置incident-triage、server-bootstrap、system-cleanup三个技能，更多能力持续研发中。

👉体验Skills：登录平台 → AIChat → 切换Agent模式 → 选择Skill → 开始对话

👉管理Skills：系统设置 → Skills → 查看/启用/分配角色

← 上一篇：AI 日报 | 2026年6月7日下一篇：AI并非高冷：它正在悄然改变普通人生活 →