AI运维进阶:从能力堆砌到可管理的Skills体系
我们走过的弯路:功能齐全了,流程却丢了智能运维平台已经集成了大量AI功能:看似无所不能,却缺少最核心的一环。我们内部将这个问题归纳为一句话:具体困扰,从事一线运维的同行应该深有体会:老张习惯先查告警,小李习惯先SSH登录,新人可能直接问模型"帮我处理"。同一故障,三种处理方式,复盘时无法对齐。Agent模式能todo_write、能远程执行命令,规划模板适合常规巡检,却无法覆盖开放式故障场景——CPU高可能是进程泄漏,也可能是上游流量突增,模板无法套用。指标在/data-query,日志在另一个Tab,告