标签

AI运维进阶:从能力堆砌到可管理的Skills体系

发布时间:2026-06-07 10:12来源:微信阅读:2

我们走过的弯路:功能齐全了,流程却丢了

智能运维平台已经集成了大量AI功能:

看似无所不能,却缺少最核心的一环。

我们内部将这个问题归纳为一句话:

具体困扰,从事一线运维的同行应该深有体会:

老张习惯先查告警,小李习惯先SSH登录,新人可能直接问模型"帮我处理"。同一故障,三种处理方式,复盘时无法对齐。

Agent模式能todo_write、能远程执行命令,规划模板适合常规巡检,却无法覆盖开放式故障场景——CPU高可能是进程泄漏,也可能是上游流量突增,模板无法套用。

指标在/data-query,日志在另一个Tab,告警在监控模块——AI对话中无法调用这些基础能力,运维人员仍需手动切换复制粘贴。

配置类命令需要快照、高危操作需要二次确认、华三/中兴/迈普设备必须先走知识库RAG——这些限制写在文档里,模型不一定每次都能遵循。

为了解决上述问题,我们在AIOps智能运维平台中引入了Skills(智能运维技能)模块。

一句话定义:

三者职责清晰:

Skill是一份Markdown格式的运维Runbook,包含:

它不是可执行脚本,而是注入Agent规划Prompt的领域约束——就像给AI配了一位经验丰富的老手,在旁边指导:"先查告警,再拉指标,证据够了再SSH,别乱动配置。"

这意味着:标准化操作不走弯路,复杂排障不失灵活。

Skills与Agent模式深度绑定(多步Runbook天然匹配Agent的ReAct执行循环),使用流程极简:

第一步:进入AIChat,切换到Agent模式

Skills是多步排障Runbook,Chat单轮问答路径不注入Skill约束——这是刻意设计,避免短问答被长SOP干扰。

第二步:选择Skill或让系统自动匹配

路由优先级:显式选择 > 关键词规则 > 语义匹配(规划中)

第三步:@设备,描述问题,看着Agent按SOP执行

平台会将Skill约束注入规划Prompt与ReAct每轮system message,Agent按步骤调用内置Tool、SSH命令,并输出结构化结论。

管理员可在系统设置 → Skills页面查看全部内置技能、启用/禁用、分配角色,并支持Git热加载——改一份SKILL.md,无需重启服务。

目前平台已内置三个经过生产场景验证的Skill,覆盖「排障—纳管—治理」三类高频需求。更多技能正在研发中(网络故障诊断、容量分析、配置变更复盘、日志关联等已在路线图上)。

适用场景

核心方法论

吸收SRE证据链思路,遵循USE/RED指标优先原则:

风险等级:read_only——禁止规划任何配置类命令,安全底线写死在Skill里。

规划模式:guided —— 开放式排障,LLM按决策树动态规划,不僵化。

适用场景

核心原则

规划模式:strict —— 平台直接解析执行步骤,生成标准化任务计划:

风险等级:may_write—— 写操作步骤顺序执行,命中安全规则时走danger_confirm + force_override二次确认,不会静默执行高危命令。

适用场景

MVP清理能力(仅三项,边界清晰)

执行流程

规划模式:strict —— 步骤固化,LLM不参与自由规划,减少误操作空间。

Skills背后,是AIOps平台在AI编排层的系统性升级:

Skill引用的Tool不再是抽象概念,而是平台级统一注册的原子能力:

@设备后,平台自动注入DeviceContext——网络设备用ident标签,服务器用agent_hostname,无需手动拼PromQL。

Skill不改变意图路由优先级(config_impact → platform_query → kb_query → execute),仅在意图确定后附加SkillContext,约束该路径下的推理与输出。

Agent模板语义匹配仍优先——Skill补充「异常时如何扩展」,而非替代标准巡检。

Skills模块于2026年6月完成P0核心闭环,团队仍在快速迭代:

已落地

研发中 / 规划中

更多内置Skill正在编写,包括但不限于:

我们的目标很明确:让每一类高频运维场景,都有对应的标准化Skill;让每一位值班同学,都能调用同一份「老师傅经验」。

大模型时代,运维团队面临的不是「要不要用AI」,而是:

没有SOP约束的AI,像一个什么都懂但什么都不按章法的新人——说得头头是道,关键时刻靠不住。

Skills要做的,就是把团队十年排障经验、变更规范、安全红线,写成AI读得懂、平台管得住、审计查得到的Runbook。

凌晨三点的告警还会来,但我们希望下一次,你的第一反应不是切八个页面,而是:

这才是AI运维该有的样子。

AIOps智能运维平台是一体化网络与服务器运维解决方案,集成AI对话运维、Agent自动化、监控告警、智能巡检、配置备份与影响分析、知识库RAG、MCP外部工具等能力。

Skills智能运维技能是平台AI编排层的核心升级,现已随平台版本发布,内置incident-triage、server-bootstrap、system-cleanup三个技能,更多能力持续研发中。

👉体验Skills:登录平台 → AIChat → 切换Agent模式 → 选择Skill → 开始对话

👉管理Skills:系统设置 → Skills → 查看/启用/分配角色