近日,成都核酸、东软集团回应等词条频频冲上热搜,而多次的回应也被网友们戏称为“甩锅”行为,那么,成都核酸系统的崩溃究竟是谁的锅呢?这要从成都市9月1日发布通知说起。

据成都相关部门消息,9月1日至4日,成都在全市范围内开展全员核酸检测。9月2日晚,核酸检测系统出现异常,导致采样排队时间过长,核酸检测进度缓慢,给市民群众带来困扰和不便。做核酸的队伍至少排3个小时,还有工作人员齐齐举起手机找信号的场面也令人唏嘘,网友调侃原来抬头并不一定是看星星。这也是继西安健康码崩溃后的又一大核酸系统故障事件。

而根据东软的回应来看,东软认为此次问题的出现并不是系统层面的问题,而是网络性能问题导致。随后,四川省通信管理局发文反驳了东软说法,表示全市通信网络运行平稳,各核酸检测点移动网络覆盖良好,没有出现网络拥塞和故障。

各方说法不一,对故障原因始终没有明确的界定,让舆论不断发酵,最重要的是影响了全市用户生活。

为此,我们对基调听云9.2号监控的成都当地网络状态进行了分析。共统计了 100万+的终端设备,总计访问量达到 2.3亿次。
查看网络延时和丢包率的指标,发现9月2日网络延时平均在46ms左右,丢包率稳定在 0.2%以下。经数据分析表明,并未发现网络故障

所以,在面对突如其来的甩锅问题上,我们应该如何正确界定故障发生的责任从而避免甩锅行为呢?

要知道的是,外包项目在交付和验收过程中,我们除了验证基本的功能可用外,不能忽视一个很重要的问题就是压力测试与性能监控。

争做事前诸葛亮,提早预知问题

 

据统计成都市人口2千万多人。假设集中在6小时内做核酸,平均每小时支持的并发人数是3531666。每秒支持的并发约为1000。基于检测人员的集中度不均衡的因素,假设高峰期是平均并发的2-3倍。则每秒并发“核酸登记”2000-3000左右。

基于以上问题,我们可以在系统上线前针对服务商提供的系统进行全方位的健康度检测,针对使用过程中的任意场景完成压力测试,以确保系统正式使用中能够达到交付标准,从而对系统供应商有量级的考核标准,也就是完成事前定量。

明确问题所在,防止被“甩锅”

 

中国企业家采访报道,核酸系统看似简单,但背后涉及到电信运营商、云服务平台、运维系统、数据库等多个供应商,还要协调官方管理体系,在执行层面就像装满水的木桶,抽掉任何一条木板,工作都会停摆。有时候某一家供应商出现问题,就会影响整体工作。因此在系统正式上线后的日常运行中,了解用户体验情况,实时分析用户所遇到的问题从而在用户访问过程中对波动情况进行及时分析极为重要。

这里推荐一套基调听云压测和性能监控解决方案。这套方案首先可以帮我们明确以下几点:系统正常运转需要关注的指标用户体验良好这些指标需要达到什么样的标准系统不能达到预期瓶颈和问题根源所在

基调听云很明确的指出保障小程序用户体验良好需要关注的指标有:页面加载耗时、卡顿率、操作可用性、请求耗时、JS错误率、请求错误率、onReady。

同时基调听云也会给出每个指标的评分标准和行业参考值,最终产出一个性能评分,基于性能评分即可判断系统的用户体验和可用性。

借助基调听云的压力测试产品即可基于软件未来交付后需要支撑的用户规模进行模拟压力,通过逐步增加并发数,可以看到页面打开时间、接口响应时间、卡顿率等关键指标等变化。

在看到前端用户体验的指标变化的同时,也能看到后端服务指标的变化,如下图。

根据服务的指标再去分析性能变差的原因和错误率上升的原因。

分析性能变差可以通过请求分析、追踪分析定位具体慢的原因。下图是一个获取数据库连接超时造成的整个请求变慢。

错误是服务变差的重要信息,基调听云的错误分析可以通过错误趋势->错误列表->错误Message的汇总->Stracetace来由粗粒度到细粒度的逐层分析错误的原因。

一般来说造成服务错误率升高或者响应时间变慢的原因是基础组件问题导,如JVM GC时间过长、CPU利用率过高、内存不足、IO延迟过高、网卡带宽占满等。确认了服务问题后还可以进一步下钻主机、进程、Pod等相关的指标信息,从而确认故障的根因。

因此如果在遇到突发的系统问题时基调听云可以精准识别出是软件问题还是如东软所声明的网络问题,帮助用户轻松定责

基调听云不仅仅在前期压测工作可以提供帮助在日常系统运行中,如用户遇到性能问题我们也可以快速定位该用户的访问轨迹以及针对问题进行全链路追踪问题定位👇~

用户访问轨迹可以看到每个用户访问系统的全过程以及是否发现性能问题每一步都可以追踪

当接口慢的时候可以直观分析是当前用户网络还是服务端响应比较慢。

如果确认为服务端响应慢还可以进行深入的全链路追踪到服务端查看调用链路系统会自动判断疑似问题

全方位可观测体系建立,让问题无所遁形

 

目前,疫情形势仍十分严峻,各省市的核酸检测机构均承担着较大的责任,因为其承担着全省市级别的用户,无论是对系统的容量、稳定性还是网络性能,都面临着更为严格的挑战和考验。

此次成都核酸检测系统崩溃事件,面对东软突如其来的甩锅行为,成都市疫情防控指挥部相关负责人对媒体表示是核酸系统对短时超大并发量预估不足,导致系统出现卡顿问题。四川省通信管理局随后也第一时间自查网络性能数据指标公布了系统运行数据确认了所出问题并非网络层面,对这口锅格挡并成功防守。

由此可见,在问题出现后,除了要保证自家系统性能稳定,如何精准识别“甩锅”和如何利用性能数据有理有据地“甩锅”也是应具备的技能。基调听云新一代贯通全栈IT与业务的智能可观测性平台的五大层面能力升级:全栈数据采集、多维多源智能分析、以应用和业务为中心、可观测数据的纵横融合打通、全方位可观测。强调了数据所发挥的强大作用。智能可观测性平台的建立,可以极大的保障核酸检测应用系统的稳定运行,从而保障市民权益。

新一代贯通全栈IT与业务的智能可观测性平台,通过对600+技术栈进行适配扩展,将追踪、日志、指标、行为、业务等多源数据统一采集、处理和分析模型,构建基调听云可观测中台,纳入现有技术实践成果,对其进行融合分析,通过OneTrace模型展示整个应用的调用结构,结合独有的AI能力实现根因诊断、异常监测、智能告警,形成完整的可观测体系,最终建立基于业务分析的可视化模型,更深入的帮助用户实现业务可观测性。

  • 随着网络技术的快速发展网络性能监控变得越来越重要。网络性能监控是对网络设备、服务器、应用程序等进行监控和管理的过程,以确保网络的稳定性和可靠性。网络性能监控基础​包括以下四个方面。

    2023-10-20

    继续阅读
  • 在数字化时代,应用程序接口(API)已成为企业和组织内部及外部交流和协作的关键。然而,api的稳定性和性能对整个系统的运行至关重要,在整个运行过程中,该种系统呈现出了较高的稳定性和自动化,这就引出api监控​这个话题,其优点和注意事项值得深入探讨。

    2023-09-19

    继续阅读
  • 在当今数字化时代,企业it系统的可靠性至关重要。it运维监控系统​的安装成为企业保障系统稳定运行的重要一环。本文将从两个关键角度出发,深入探讨it运维监控系统安装过程,并突显其在行业内的重要性和影响。

    2024-01-16

    继续阅读
  • 业务运维是指在企业内部,通过网络技术、信息技术、物联网技术等手段,实现对企业内部资源的有效管理和优化配置,提高企业运营效率的一系列活动的总称,简单来说就是对企业内部的各种业务进行全方位的监控和管理,包括对企业内部的各种数据的采集、分析、处理、存储、传输、共享等。

    2023-03-06

    继续阅读
  • 在重大节假日或重大业务事件如“春晚”、双“十一”、健康码压测、银行灾备演练等期间,我们经常会面临业务系统高峰期的访问压力。为了保障系统的稳定运行和提供舒适的用户体验,应用性能管理软件成为不可或缺的工具。通过深入分析实时监控数据、及时发现问题、提出优化建议,并协调相关厂商和技术人员进行优化,应用性能管理软件可以帮助我们应对业务中断的挑战,提升业务稳定性和用户体验。

    2023-07-18

    继续阅读