2023年1月12日,由中国信息通信研究院主办,混沌工程实验室、云上软件工程社区支持的“混沌工程实验室2023年会暨年度颁奖典礼”圆满召开。在当前IT系统全面上云,云原生与微服务的架构趋势的时代背景下,提升云系统稳定运行能力的重要性日益凸显。中国信通院于2022年11月启动“首届云系统稳定安全运行优秀案例征集”活动,以期激发云系统稳定性领域磅礴的创新力量,为数字化转型稳步推进奠定基础。
会上公布了“云系统稳定安全运行优秀案例”评选结果,基调听云凭借与金茂集团共创《基于用户体验的多维可观测能力体系建设实践》入选中国信通院可观测性优秀实践评定的“卓越级”名单。
中国金茂作为地产行业数字化建设的先行者与领跑者,目前已建设覆盖地产行业投资、营销、经营、会员运营等全业务场景的应用系统200余套。系统规模与复杂度的快速提升引发众多用户体验问题,集团对建设具备高效可观测性能力的监控需求愈发迫切。
2020年基调听云与金茂集团合作以来,通过对金茂系统的逐步调研,围绕业务可用性、稳定性及质量三个维度开展可观测能力体系建设及应用落地的共创合作,支撑金茂逐步形成以APM为核心,CMDB为数据底座,结合拨测、基础监控能力的发展布局建设,基于金茂自身业务特性,形成以可观测能力建设、数据融通、深度治理的三阶段建设路径。为在更多大型国央企中成功落地可观测性监控平台的思路和方法,提供可借鉴的优秀实践案例。
实践一:解决可观测信号覆盖不全。
在体系建设初期,集团内的多数应用存在监控手段不全,数据采集覆盖度低的现象,基调听云助力金茂从信号采集、信号关联和信号告警三个环节规划可观测能力的覆盖策略。在信号采集环节依据指标体系开展全IT资源可观测能力建设;在信号关联环节进行Tracing数据关联、告警数据规范化,实现跨层数据打通;在信号告警环节制定精准告警策略,统一规范告警通知及处置动作,实现用户侧感知一致。
实践二:解决业务可观测链路完整度缺失。
在可观测能力建设中,将信号采集、信号关联和信号告警的三大支柱数据的实现互联互通。基于对用户体验、网络、服务器、操作系统、数据库、中间件、应用软件的可观测性数据的采集,形成日志、指标和追踪数据的关联分析,实现了在一个可观测性系统中联动分析与下钻,通过多个信号或视角来观测系统时,更加的灵活和平滑,大大提高了分析的效率和精准度,减少排障时间。
实践三:解决现有研运体系(DevOps、CMDB、ITSM)缺少可观测能力。
可观测性平台与金茂体系内DevOps流程深度融合,在应用的发布流程中结合可观测性信号采集的不同形式探针,形成系统发布时即具备了完成的可观测性,将可观测性能力左移到开发测试阶段,上线即纳管,增强系统上线后的健壮度,提高运维管理效率。
建设成效:
- 助力金茂集团内重点系统开展常态化监测预警,配置7×24小时主动观测能力,使各类用户体验问题可控、可量、可管。
- 助力金茂集团实现覆盖终端、网络、主机、中间件、应用系统的多维可观测能力体系建设,并搭建闭环流程实现数据告警事件闭环处置。实现对多类告警场景的统一格式展示,目前已在各重点业务系统中落地应用。
- 集团内系统整体性能及用户体验数据优化效果显著。通过质量优化专项优化行动,用白屏时间、首屏时间、可交互时间、慢页面占比、后端错误数和数据库响应时间的六大指标对用户体验形成标准化评估规范,实现业务价值快速规模化落地。
- 将可观测能力与DevOps流程接入,在代码集成发版环节通过CICD方式进行观测能力自动嵌入,实现项目全生命周期可观测。