排障_标签-酷阅新闻

运维人必看：大模型AIOps学习资源汇总

对于运维从业者而言，这种场景再熟悉不过：系统一旦崩溃，群聊瞬间警报四起，还没处理完告警，日志又疯狂刷屏。无论是定位故障源头、聚合告警、分析日志还是撰写复盘，每一项都耗时耗力。更棘手的是，虽然大家都认可AI的价值，但在落地AIOps时，面对海量论文和方向，往往不知从何入手。最近，东哥发现GitHub上有一个名为awesome-LLM-AIOps的仓库，非常值得大家先收藏。该仓库并非简单的概念炒作，而是对大模型在运维领域的学术研究与实战案例进行了系统梳理。目前收录了超过78篇论文，并按故障管理、日志分析、基础

2026-06-20 10:30:09 | 2 阅读

AI运维进阶：从能力堆砌到可管理的Skills体系

我们走过的弯路：功能齐全了，流程却丢了智能运维平台已经集成了大量AI功能：看似无所不能，却缺少最核心的一环。我们内部将这个问题归纳为一句话：具体困扰，从事一线运维的同行应该深有体会：老张习惯先查告警，小李习惯先SSH登录，新人可能直接问模型"帮我处理"。同一故障，三种处理方式，复盘时无法对齐。Agent模式能todo_write、能远程执行命令，规划模板适合常规巡检，却无法覆盖开放式故障场景——CPU高可能是进程泄漏，也可能是上游流量突增，模板无法套用。指标在/data-query，日志在另一个Tab，告

2026-06-07 10:12:37 | 15 阅读