运维拥抱大模型?这份AIOps论文地图比造机器人更急
运维人应该深有体会,线上出故障时,最头疼的并非"收到告警"这件事。
真正让人崩溃的是告警蜂拥而至、日志浩如烟海、群里消息不断追问进度,而你得同时排查根因、甄别误报,事后还得写复盘报告。想引入 AI 赋能,却压根不清楚该从何处切入。
GitHub 上的 awesome-LLM-AIOps 项目,东哥认为值得优先加入收藏夹。它并非那种能让运维瞬间实现全自动化的神器,别抱太高期望,它本质上是一份大模型与 AIOps 交叉领域的文献导航,将 LLM 在故障管控、日志解析、基础设施治理等方向的研究成果进行了系统梳理。项目 README 也已按 Incident Management、Log Analysis、Infrastructure Management 三大板块分门别类。
我个人会优先浏览故障管理章节。
从 incident lifecycle、incident reporting,一路覆盖到 Root Cause Analysis、mitigation、postmortem,基本上把一次线上事故的完整链路——从"警报响起"到"复盘归档"——都梳理了一遍。东哥这老程序员的职业病又犯了:我不太在意论文标题多么炫酷,首要关注的是是否涉及 RCA、告警收敛、SOP、置信度评估、工具链调用等核心能力。毕竟线上排障,最怕的就是模型信口开河,日志还没读完就胡编乱造。
日志分析板块同样值得细读。日志解析、异常检测、logging statement generation 等方向均有涉猎。不过各位别光看热闹,真要工程化落地,首要任务并非一股脑把全量日志丢给大模型,而是先厘清数据脱敏方案、采样策略、字段规范化,以及不可忽视的 token 开销。尤其是那些遗留老系统,日志级别混乱、traceId 缺失的情况比比皆是,LLM 能力再强也需要先喂到结构清晰的数据。
基础设施管理章节也纳入了视野,涵盖 benchmark、IaC、LLM training platform 等细分方向。这部分我会多加关注,毕竟未来的 AI Ops 绝不会止步于"帮我解读这段日志",迟早要直面 Terraform、K8s、CI 环境变量、回滚策略等硬核场景。
项目托管于 GitHub,从事运维、SRE、云平台、可观测性相关工作的同仁,可以将其作为常备资料库。不必急于通读全书,找准当前最棘手的痛点——比如 RCA 或日志异常检测——按图索骥地研读相关论文和任务,更为务实。
GitHub地址:Jun-jie-Huang/awesome-LLM-AIOps