当前传统监控体系所面临的诸多局限真的能够通过可观测性解决吗?企业又该如何构建适配自身的可观测性体系?
可观测性“火热出圈”
“可观测性”并不是一个新词,其概念最早由现代控制理论之父 Rudolf Kalman 提出:“如果对于状态和控制向量的任何可能演变,仅使用输出的信息就可以估计当前状态,则称系统是可观测的。”
那为什么近年来可观测性的热度不断飙升,一度火热出圈呢?
主要原因在于云原生时代下,系统复杂性的逐步增强。数字化浪潮推动,企业 IT 业务开始向云上迁移,为提高迁移效率、运行效率以及服务的灵活性,企业大多会采用多云/混合云架构,这将大大增加 IT 模型的复杂性。
过去简单、变更不频繁的单体式架构可以使用监控查看系统运行状态,但随着分布式架构、云原生架构的变迁,越来越多的新诉求开始逐步显现。
用户体验和应用比以往任何时候都重要,企业依赖于体系化的 IT 系统来实现增长。
数字化转型过程中,应用的数量、数据的体量、变化的频率和增加的速度,都已经远远超越了仅通过固定仪表盘就可以管理复杂 IT 系统的能力。
多云/混合云的部署模式都是容器化且动态变化的,容器创建的速度和规模及其生命周期,已超出数据中心时代管理边界。
多种多样的开发语言、运行时以及当前采用的支持软件和数据库等,都已经超越了IT从业者的沟通界面,单独的沟通形式难以满足开发者之间的沟通需求。
企业资源是有限的,不断增加的系统复杂性、故障排查难度正在窃取企业的创新时间,消耗 IT 从业者的时间。
点亮监控变革信号灯
企业上云或服务改造的过程中,通常会引入大量新兴工具,服务业务爆炸性增长。云、微服务及容器的使用,将会对 IT 运维及数字化转型带来巨大挑战。显然,开源集成或传统监控工具的管理方式已不合时宜,难以助力企业的数字化转型。
● 每位用户每一秒的体验都非常重要,APM采样方法无法做到全面、全量监控。
● 微服务快速更新的需求会使得监控的对象和指标量呈指数级增长,传统方式难以实现海量数据的采集和分析。
相比传统监控,可观测性的侧重点不同。传统监控是对被监控设施所进行的明确的、可预测的审视和度量,是为了提高系统可观测性而使用的手段,注重现实状态的变化。而可观测性是一种方法,通过检查系统的外部输出衡量系统内部状态的能力,也是系统的核心能力。
因此,Gartner认证的应用性能管理(APM)解决方案提供商基调听云认为,可观测性是 IT 建设过程中的必要手段。在开发与维护的生命周期中,都应具备可观测性能力,动态高效地定位并解决突发性问题,在系统不可用时,快速了解问题现状及原因,有效预防故障发生,而不是简单地降级限流。
可观测性构建的正确打开方式
既然可观测性相比传统监控体系具有诸多优势和价值,那么该如何构建呢?首先需要了解一个优秀的可观测性平台应具备什么样的能力:
● 全面、全量的数据采集能力,扩大数据采集的广度、深度及数量;
● 通过自动化技术实现数据采集的可伸缩和完整性;
● 高基分析的能力;
● 超大规模实时计算能力;
● 多源集成能力;
● 基于AI和确定性因果关系的根因分析能力;
● 业务实时洞察能力。
(基调听云智能业务可观测性平台)
不同企业诉求不同,又该如何快速构建适合自身业务系统的可观测性呢?以基调听云可观测性平台的发展为例,构建完备的可观测性平台可以分三步走。
融汇:以用户体验和业务为中心,夯实数据基础
全面丰富的数据是一切分析工具及决策的来源,尽可能收集基础数据将有利于后续分析,否则当系统故障需要排查分析时,将难以有效评估当时的状态。
为完善技术栈可观测性数据的采集能力,基调听云以Tracing为核心,全面采集APP、Web、小程序及系统应用的指标数据,以业务承载关系采集主机、云原生组件、数据库、信息队列指标数据。
● 融合拨测平台(STM)主动采集可观测性数据;
● OneSDK / OneJS 采集集DEM终端的性能,会话和行为可观测数据;
● 一体化 Agent 采集后端应用性能、基础组件及日志数据,覆盖从业务层、应用层到云原生基础资源层全量可观测数据采集;
● 支持 OpenTelemetry,第三方 APM 数据接入,指标体系基于 OpenMetrics 实现广泛第三方可观测性指标及元数据的接入。
融通:注重数据的治理与应用,数据关联丰富化
众所周知,传统意义上可观测性有三大支柱:Metrics 、Logging、Tracing,但割裂、无关联的数据会对数据检索带来严峻的挑战,更难进一步定位根因。
基调听云将用户体验、Metrics 、Logging、Tracing为可观测性的四大支柱,重点关注用户体验数据,以Tracing为核心,连通Mertrics、Logs 数据,实现数据间的关联分析、统一建模与转化关联,做到问题的精准定位与数据的精准检索,有效解决传统监控的数据孤岛问题。
以 Tracing 为核心融合可观测性三大支柱
此外,基调听云通过实时的业务洞察、业务影响及流程分析,实现性能数据与客户业务数据的有机结合,让 IT 和业务在同一套平台下协作,这也是基调听云可观测性平台的核心竞争力之一。
如上图所示,通过指标与 Tracing 的结合可以对 VIP 用户进行识别,设置 VIP 用户的业务性能阈值,最终实现 VIP 用户的告警和体验保障。
融智:多元数据整合,增强数据应用能力及可观测性
智能化技术在可观测性数据分析中的作用不可或缺,可观测性的数据只有被关联起来一起分析时才能发挥出它们最大的价值,但可观测性的数据是海量的,只靠人力分析、运维很难全面考虑,而人工智能算法是当前处理海量数据最有希望的方法。
此外,智能化技术在云原生系统运维中还将作为可观测性的重要补充,发挥不可替代的作用,通过引入 AI 算法模型和机器学习,整合原有数据,可以进一步增强可观测能力,如使用AI 进行容量预测,提前发现系统性能容量瓶颈,实现故障发现与预防。
智能故障管理
可观测性体系的实践案例
案例一:常见场景之客户投诉
任何行业都有可能遇到客户投诉的场景,面对客户投诉,在使用可观测性平台的情况下,只需知道一个用户标识即可轻松查询相关信息。
相较传统监控将信息传给运维部门,再由研发人员检索日志的方式,使用可观测性平台能够大大提升检索效率,减少时间成本。此外,除了快速响应客户投诉解决问题外,还能够通过对投诉时间段内所观测信息的分析复盘,挖掘深层次的原因并掌握故障的影响范围。
案例二:某大型银行可观测性实践
随着应用系统架构由传统向新的架构平台转换,硬件架构由独立服务器向虚拟资源池、容器环境转换,某大型银行面临监控数据割裂,缺乏端到端应用性能观测手段、用户体验观测手段亟待建设等诸多业务挑战。
如上图所示,融合基调听云SDK、SkyWalking和 OpenTelemetry 的调用链数据,通过抽取链路指标、关联日志,实现可观测数据的关联融合。通过UserId及 TraceId的关联,实现端到端的交易全链路问题追溯;通过基于真实用户的用户旅途,还原用户会话行为;通过异常检测、相关性分析和根因分析,实现IT系统问题的根因定位。
案例三:某运营商可观测性建设
面对运营商缺少统一的DevOps监控工具、缺乏全链路调用追踪和故障异常快速分析手段、难以保障重大体育赛事直播等种种业务挑战,基调听云从容迎战。
通过基调听云智能可观测性平台,将基调听云APM监控、Zabbix基础监控、日志易日志监控有机集合,实现一体化可观测平台。
最终该运营商从容地支撑了高达70万tps的业务峰值,在国家级奥运盛事的直播期间,经第三方中立机构评测,用户体验性能得分第一。
案例四:某头部城商行可观测性一体化平台建设
某银行随着信息科技系统架构日趋复杂、 客户人数急剧增长,对需求快速交付,系统的稳定性、高效性、服务水平等方面都提出了更高的要求。
针对该银行对实现管理对象统一调度、数据统一加工、工具统一治理,以及统一采控、统一数据、工具打通,优先解决故障告警分析的需求,基调听云从多个方面助力改造:
● 通过可观测性一体化平台对接已有各专业运维工具,形成一体化的智能运维平台,提升系统运行状态感知能力,问题分析定位,应急处置能力,并提供统一运维门口,提升运维效率和业务连续性服务水平;
● 通过可观测性一体化平台构建智能运维大数据平台,提供运维管理数据加工,指标体系计算能力,性能容量分析能力,业务系统健康度分析能力,智能告警分析能力;
● 通过可观测性一体化平台建设以用户旅程为抓手的业务体验端到端可观测体系,为提升用户体验、系统健壮性提供支撑。
可观测性的用武之地才刚刚开始
庞大的数据量,系统架构的演化,让容器、数据之间的关系变得错综复杂,故障排查棘手,此时打造具备可观测性的系统成为应对之策。
可观测性是云原生时代下能够联动 IT 与业务的能力,它本质上符合云原生环境以业务应用为核心的趋势。从监控到可观测性的发展,拓宽了传统监控的能力边界,打破了传统被动监控方式,形成了主动、全局式的统一智能观测能力,更有利地帮助我们掌握系统健康程度。
未来,随着云原生的快速发展,可观测性的发展潜力巨大,其用武之地才刚刚开始。