运维人必看:大模型AIOps学习资源汇总
对于运维从业者而言,这种场景再熟悉不过:系统一旦崩溃,群聊瞬间警报四起,还没处理完告警,日志又疯狂刷屏。
无论是定位故障源头、聚合告警、分析日志还是撰写复盘,每一项都耗时耗力。更棘手的是,虽然大家都认可AI的价值,但在落地AIOps时,面对海量论文和方向,往往不知从何入手。
最近,东哥发现GitHub上有一个名为awesome-LLM-AIOps的仓库,非常值得大家先收藏。
该仓库并非简单的概念炒作,而是对大模型在运维领域的学术研究与实战案例进行了系统梳理。目前收录了超过78篇论文,并按故障管理、日志分析、基础设施管理等场景进行了分类。
其中故障管理板块最为详尽。
涵盖了从告警聚合、根因定位到故障修复及事后复盘的全流程,完整呈现了incident从爆发到结束的完整链条。东哥特别关注这一点,因为实际排障中最大的难点往往不是模型本身,而是信息割裂:告警、日志、变更记录分散在不同系统,导致上下文断裂。
日志分析板块同样实用,涵盖了日志解析、异常检测等方向,且每篇论文都标注了具体任务和技术方法,便于快速筛选。
这类仓库适合谁?
它并非提供即插即用的运维Agent。它更适合运维团队、SRE及平台工程同学作为选题调研和内部Demo前的资料库。例如,如果你计划用LLM进行RCA(根因分析),与其漫无目的地搜索,不如先通读这里的论文,了解他人如何处理数据、评估效果以及是否具备真实场景支撑。
东哥要提醒一句,AIOps领域切勿幻想全自动修复故障。权限限制、误操作回滚、日志脱敏及告警噪声等传统问题,依然难以彻底解决。
不过,将其作为导航地图使用,已经足够高效。
GitHub地址:Jun-jie-Huang/awesome-LLM-AIOps