基调听云北冥
AI实现告警收敛,场景化告警触发避免告警风暴
AI实现告警收敛,场景化告警触发避免告警风暴
基调听云北冥统一告警管理平台,利用AI技术实现对Zabbix、Prometheus等监控平台的告警收敛,以及基于机器学习技术的场景化告警触发,有效避免告警风暴及告警疲劳。
多数据接入
多元数据采集
多元数据采集
在建的监控系统多,各自产生的数据相互割裂,无法形成有效的关联,产生不了价值。针对运维数据(指标、日志、事件和拓扑),可从开源监控工具、商用监控软件、API、消息队列、邮件、文档等多种数据来源中实时采集元数据,并对数据进行数据清洗、加工、计算和分析,最终作集中统一的可视化展现。
异常检测
指标异常检测
指标异常检测
指标告警的阈值太高会导致漏报遭到投诉,阈值太低会导致噪音太多错过真正的异常。告别传统指标固定阈值、基线阈值不准确问题,根据指标波动的变化例如周期、趋势、时间模式等因素来综合判断指标的波动变化,系统自动优选合适的异常检测算法,针对指标动态变化数据进行实时检测,识别出真正的异常行为触发告警,提高告警准确率。
告警收敛
告警风暴抑制
告警风暴抑制
当管理大规模的服务架构时,一旦发生系统故障,将导致大量重复无用的告警风暴,给运维人员造成困扰。基调听云北冥告警平台对警报事件智能的、自动的进行过滤、压缩、合并、去重,最终聚合成一种高级事件即故障通知用户进行处理,减少警报噪音,降低信息干扰,减轻运维人员处理警报的压力。
根因分析
故障根因分析
故障根因分析
在当今虚拟化和高度冗余的IT环境中,如何快速确定故障发生原因?基调听云北冥告警平台致力于调查影响业务服务的根本原因,利用机器学习技术对大数据提供的上下文信息进行分析,了解事件的相关性、依赖关系和因果关系等相关性特征,推断出可能的根本原因;还可根据用户的反馈提升根因分析算法的准确度,提高运维解决效率,降低服务中断的影响。
多元管理
与外围系统结合
与外围系统结合
通过集成CMDB使告警事件丰富化,并根据CMDB的资源关联关系增强事件关联能力,在扩大聚合范围、提升聚合精准度的同时,将聚合后的故障与ITSM工单系统打通,形成故障闭环的全生命周期管理,还可通过与呼叫中心集成实现故障语音呼叫。