运维人必看：大模型AIOps学习资源汇总

发布时间：2026-06-20 10:30阅读：2

对于运维从业者而言，这种场景再熟悉不过：系统一旦崩溃，群聊瞬间警报四起，还没处理完告警，日志又疯狂刷屏。

无论是定位故障源头、聚合告警、分析日志还是撰写复盘，每一项都耗时耗力。更棘手的是，虽然大家都认可AI的价值，但在落地AIOps时，面对海量论文和方向，往往不知从何入手。

最近，东哥发现GitHub上有一个名为awesome-LLM-AIOps的仓库，非常值得大家先收藏。

该仓库并非简单的概念炒作，而是对大模型在运维领域的学术研究与实战案例进行了系统梳理。目前收录了超过78篇论文，并按故障管理、日志分析、基础设施管理等场景进行了分类。

其中故障管理板块最为详尽。

涵盖了从告警聚合、根因定位到故障修复及事后复盘的全流程，完整呈现了incident从爆发到结束的完整链条。东哥特别关注这一点，因为实际排障中最大的难点往往不是模型本身，而是信息割裂：告警、日志、变更记录分散在不同系统，导致上下文断裂。

日志分析板块同样实用，涵盖了日志解析、异常检测等方向，且每篇论文都标注了具体任务和技术方法，便于快速筛选。

这类仓库适合谁？

它并非提供即插即用的运维Agent。它更适合运维团队、SRE及平台工程同学作为选题调研和内部Demo前的资料库。例如，如果你计划用LLM进行RCA（根因分析），与其漫无目的地搜索，不如先通读这里的论文，了解他人如何处理数据、评估效果以及是否具备真实场景支撑。

东哥要提醒一句，AIOps领域切勿幻想全自动修复故障。权限限制、误操作回滚、日志脱敏及告警噪声等传统问题，依然难以彻底解决。

不过，将其作为导航地图使用，已经足够高效。

GitHub地址：Jun-jie-Huang/awesome-LLM-AIOps