基于云原生的轻量级框架在云上通过敏捷开发快速实现数字化转型的业务,目前是比较流行的做法。但是享受云原生技术带来的敏捷和便利的同时 ,技术团队也会面临一些新的挑战,比如上层应用复杂度的增加,出现问题时,分析需要使用不同维度的工具,这意味着服务维持、维护运营会更加的困难。比如近期,英国空管系统故障,一条小小的飞行记录导致航班中断 4 小时,给企业预计造成了 1 亿英镑损失。这意味着一旦企业转型,业务高度依赖数字化,系统的可运维性、连续性和可观测性就变得非常的重要。近期,CSDN专访了国内性能监测领域头部厂商基调听云产品VP陈靖华,他从系统性能监测的新手段——可观测性核心技术思路,以及未来性能监测发展,给出了详细的见解。
可观测性:提升云原生复杂系统的监控能力
随着企业数字化转型的加速,传统的基础设施监控(ITIM)、应用性能监控(APM)、网络性能监控(NPM)和日志监控技术已无法满足云原生环境下的应用系统高度连续性的运维监控诉求。可观测性(Observability)作为新兴的技术和理念,近年来得到了广泛关注。基调听云作为国内可观测性技术的探索者和实践者,在产品矩阵中增加了可观测性,并针对云原生环境进行了技术创新,以提升在复杂系统中的观测能力。
基调听云产品 VP 陈靖华在采访中表示,可观测性兴起的原因在于云原生和微服务架构下,系统的复杂度大幅提升,传统的监控手段效率下降,无法在复杂系统中快速定位问题。而基于CNCF OpenTelemetry标准的确立,可观测性系统或平台通过统一采集各维度监控数据,构建关联性,在未来将有效提升复杂系统的可观测能力。
具体来看,疫情期间远程办公和线上业务需求激增,促使许多企业加速了数字化转型步伐,这使系统架构也向微服务和云原生演进。这给传统的监控带来了巨大挑战。以往传统的监控系统依赖人工构建的模板和经验进行问题分析定位,但云原生系统复杂动态,许多问题并不在预判范围内。传统监控系统效率下降,无法快速定位复杂的未知的系统故障。而可观测性正是通过采集更多维度监控数据,实现更全面的系统洞察,才得以应对云原生环境的监控难题。
可观测性的核心能力是什么
作为国内性能监测领域的重要厂商,基调听云探索和总结了可观测性的四大核心能力,具体来说:
采集即治理,构建一体化探针能力
基调听云通过自主研发的一体化 Agent 探针,实现了从底层基础设施到应用层、业务层和体验层各维度监控数据的自动化采集。这套探针体系经过多年积累,支持国产操作系统和中间件,对云原生组件和信创组件都具有非常好的适配性。其中的关键创新在于“采集即治理”的理念,不再是传统的分离采集和治理,而是在探针端就完成监控数据的标注、过滤等治理工作。这种一体化采集和即时治理的设计,大幅降低了后端的数据处理压力,也提升了监控分析的效果。
用户体验至上,打造 DEM 能力
新冠疫情的影响,让数字化转型比以往更加注重用户体验,无论是最终用户的办事和购物体验,还是公司员工和合作伙伴的远程办公体验。基调听云非常重视对终端用户体验的监测,这与可观测性要以用户和业务为中心的思想高度一致。基调听云通过前端探针采集移动App,网站和各种小程序的用户操作行为和体验数据,再与后台系统性能数据关联,可以准确反映用户视角下的体验状况。这套能力也称为DEM(Digital Experience Management)。未来基调听云还会持续加强DEM建设,使得业务系统的监测更加用户导向。
构建可扩展的数据湖仓
为了支持可观测性的落地,基调听云专门设计并搭建了一个可以并行存取多源异构数据的“数据湖仓”平台。一方面如“数据湖”般可以低成本容纳各类结构化和非结构化的数据;另一方面又具备“数据仓库”的快速查询与分析功能。可以作为可观测性后端的数据交互引擎,充分支撑数据聚合、处理和分析等诉求。该存储方案也具备良好的横向扩展能力,可以适应未来数据量的拓展需要。
提供开放式的探索分析能力
基调听云正在打造的新一代可观测平台,在保证数据采集完整性的前提下,将提供开放式的探索分析能力,支持客户进行 Open-ended 的问题发现和根因追踪,而不是仅仅依赖固化的分析流程或模板。这种“无边界探索”的能力是可观测性监控与传统监控最核心的区别所在,也是基调听云在产品设计上的一大创新点。
有了上面可观测性的四大能力,在产品规划上,基调听云正致力打造一个开放、适应性强的新一代可观测性平台。该平台预计会在 2023 年底正式发布,届时将呈现基调听云在可观测性监控领域的系列创新。
具体来看,新平台在数据采集端会提供业界领先的一体化探针能力,实现全面的监控数据自动收集,同时也将用户体验数据(DEM)有机纳入;在数据处理端将具备可并行处理多源海量异构数据的可扩展“数据湖仓”方案;在分析和运维端将重点赋能开放式的探索分析能力,支持客户自主、快速地进行问题发现和根因分析。
可以看出,新平台在设计理念上更契合可观测性的价值所在,既提供完备的监控数据,也让客户更自主地进行故障追踪和定位,而不是依赖固定的模板或流程,可以更好应对云原生环境下的动态变化。这也使基调听云的可观测平台方案在行业中能够脱颖而出。
多年来,基调听云始终是国内 APM 和可观测性技术的引领者。这次新的可观测平台发布也将进一步巩固基调听云在行业中的技术优势地位。目前基调听云是国内唯一5次成功入选 Gartner APM及可观测性魔力象限的国产可观测性厂商,在未来的可观测性赛道中,基调听云也将保持持续领先的地位。
可观测性监控的未来走向哪里
展望未来,陈靖华认为可观测性监控将朝两个方向发展:
一是构建可观测性文化体系。可观测性不仅仅是技术,需要贯穿整个软件交付链。从产品设计到开发测试再到运维,每一个环节都要将可观测性理念融入,逐步形成一整套可观测性方法论。这套方法论将基于基本原理不断迭代优化。
二是结合人工智能赋能自动化。在可观测性方法论成熟后,可以尝试使用人工智能技术进行自动化。未来可期待出现一个类似 ChatGPT 的 AI Agent,通过可交互的方式快速进行故障分析和定位。最终实现故障自愈,无需人工参与。但目前行业仍处在可观测性方法论构建阶段,完全自动化还需 5-10 年时间。
随着 IT 系统向云原生架构演进,可观测性必将成为监控体系的重要组成部分。陈靖华表示,基调听云将继续耕耘这个蓝海技术领域,坚持以客户需求为导向,持续进行技术创新与迭代。相信在不久的将来,基调听云将会用自己的可观测性实践,帮助更多的企业实现数字化转型,提升系统稳定性和运维效率,创造更大的商业价值。
基调听云智能可观测性平台
基调听云智能可观测性平台围绕企业的信息化与数字化业务提供一套全面覆盖终端用户体验、应用性能、业务性能、基础设施和多云环境的基于AI的智能可观测性平台。经过大量金融、运营商等客户的生产验证,高效保证企业数字化业务稳定运行,提高SLA,降低MTTR。该平台持续自动化的获取数据,辅以AI技术,持续的自动分析,自动告警,并能能够主动提供答案,做到全栈的可观测性,帮助客户持续优化用户体验、提高研发运维效率和加快业务创新速率,实现助力企业加速数字化转型,提升企业数字化竞争力。