Elastic发布Kubernetes智能调查功能,帮助SRE即时诊断故障
Elastic(纽约证券交易所代码:ESTC)近日发布了一项基于代理的Kubernetes调查工作流,以及基于模型上下文协议的可观测性技能。该功能能够在告警触发瞬间自动诊断问题,当站点可靠性工程师(SRE)查看告警信息时,根因分析、证据链和修复建议已全部准备完毕。
对于大规模部署Kubernetes的团队来说,从接收到告警到定位问题的时间间隔,不仅会拉长故障持续时间、加重服务中断后果,还会让值班工程师不堪重负。Elastic通过自动启动调查流程,在工程师收到通知前就已开始工作,有效弥补了这一缺口。
这一新功能在Elastic现有的Kubernetes仪表盘、预置告警模板和机器学习异常检测基础上构建,提供两种加快故障排查的途径:一是在告警触发时自动执行诊断的智能调查工作流;二是将相同的调查能力整合到工程师日常使用的AI工具和集成开发环境,如Claude、Cursor、VS Code等。
借助Elastic Observability MCP应用,SRE可以通过对话方式调查Kubernetes环境。AI代理能够实时查询Elasticsearch中的日志和指标数据,并直接在工具内展示交互式视图,包括集群健康状态总览、服务依赖关系图、异常详情、终端故障的爆炸半径分析以及告警规则管理。Elasticsearch凭借比竞品高2.5倍的存储效率,确保工程师在调查事件时能够获取完整的运营上下文。
Elastic可观测性总经理Bahaaldine Azarmi表示:“凌晨3点被叫醒的工程师不希望从零开始调查,他们需要的是答案。通过此次发布,Elastic在告警触发的那一刻就启动了调查流程,让团队能够更快、更自信地解决问题。而且由于它运行在工程师已使用的工具内部,无需切换上下文,也无需学习新界面。”
Elastic Kubernetes集成(包含仪表盘、告警模板和机器学习异常检测)目前已向所有Elastic Cloud Hosted、Serverless和自管部署用户开放。新的Kubernetes调查工作流和MCP应用则处于技术预览阶段。