标签

运维人必看:大模型AIOps学习资源汇总

对于运维从业者而言,这种场景再熟悉不过:系统一旦崩溃,群聊瞬间警报四起,还没处理完告警,日志又疯狂刷屏。无论是定位故障源头、聚合告警、分析日志还是撰写复盘,每一项都耗时耗力。更棘手的是,虽然大家都认可AI的价值,但在落地AIOps时,面对海量论文和方向,往往不知从何入手。最近,东哥发现GitHub上有一个名为awesome-LLM-AIOps的仓库,非常值得大家先收藏。该仓库并非简单的概念炒作,而是对大模型在运维领域的学术研究与实战案例进行了系统梳理。目前收录了超过78篇论文,并按故障管理、日志分析、基础

2026-06-20 10:30:09  |  2 阅读

AI运维进阶:从能力堆砌到可管理的Skills体系

我们走过的弯路:功能齐全了,流程却丢了智能运维平台已经集成了大量AI功能:看似无所不能,却缺少最核心的一环。我们内部将这个问题归纳为一句话:具体困扰,从事一线运维的同行应该深有体会:老张习惯先查告警,小李习惯先SSH登录,新人可能直接问模型"帮我处理"。同一故障,三种处理方式,复盘时无法对齐。Agent模式能todo_write、能远程执行命令,规划模板适合常规巡检,却无法覆盖开放式故障场景——CPU高可能是进程泄漏,也可能是上游流量突增,模板无法套用。指标在/data-query,日志在另一个Tab,告

2026-06-07 10:12:37  |  15 阅读