一次因核酸系统崩溃而引发的思考

近日，成都核酸、东软集团回应等词条频频冲上热搜，而多次的回应也被网友们戏称为“甩锅”行为，那么，成都核酸系统的崩溃究竟是谁的锅呢？这要从成都市9月1日发布通知说起。

据成都相关部门消息，9月1日至4日，成都在全市范围内开展全员核酸检测。9月2日晚，核酸检测系统出现异常，导致采样排队时间过长，核酸检测进度缓慢，给市民群众带来困扰和不便。做核酸的队伍至少排3个小时，还有工作人员齐齐举起手机找信号的场面也令人唏嘘，网友调侃原来抬头并不一定是看星星。这也是继西安健康码崩溃后的又一大核酸系统故障事件。

而根据东软的回应来看，东软认为此次问题的出现并不是系统层面的问题，而是网络性能问题导致。随后，四川省通信管理局发文反驳了东软说法，表示全市通信网络运行平稳，各核酸检测点移动网络覆盖良好，没有出现网络拥塞和故障。

各方说法不一，对故障原因始终没有明确的界定，让舆论不断发酵，最重要的是影响了全市用户生活。

为此，我们对基调听云9.2号监控的成都当地网络状态进行了分析。共统计了 100万+的终端设备，总计访问量达到 2.3亿次。

查看网络延时和丢包率的指标，发现9月2日网络延时平均在46ms左右，丢包率稳定在 0.2%以下。经数据分析表明，并未发现网络故障。

所以，在面对突如其来的甩锅问题上，我们应该如何正确界定故障发生的责任从而避免甩锅行为呢？

要知道的是，外包项目在交付和验收过程中，我们除了验证基本的功能可用外，不能忽视一个很重要的问题就是压力测试与性能监控。

争做事前诸葛亮，提早预知问题

据统计成都市人口2千万多人。假设集中在6小时内做核酸，平均每小时支持的并发人数是3531666。每秒支持的并发约为1000。基于检测人员的集中度不均衡的因素，假设高峰期是平均并发的2-3倍。则每秒并发“核酸登记”2000-3000左右。

基于以上问题，我们可以在系统上线前针对服务商提供的系统进行全方位的健康度检测，针对使用过程中的任意场景完成压力测试，以确保系统正式使用中能够达到交付标准，从而对系统供应商有量级的考核标准，也就是完成事前定量。

明确问题所在，防止被“甩锅”

中国企业家采访报道，核酸系统看似简单，但背后涉及到电信运营商、云服务平台、运维系统、数据库等多个供应商，还要协调官方管理体系，在执行层面就像装满水的木桶，抽掉任何一条木板，工作都会停摆。有时候某一家供应商出现问题，就会影响整体工作。因此在系统正式上线后的日常运行中，了解用户体验情况，实时分析用户所遇到的问题从而在用户访问过程中对波动情况进行及时分析极为重要。

这里推荐一套基调听云压测和性能监控解决方案。这套方案首先可以帮我们明确以下几点：系统正常运转需要关注的指标；用户体验良好，这些指标需要达到什么样的标准；系统不能达到预期瓶颈和问题根源所在。

基调听云很明确的指出保障小程序用户体验良好需要关注的指标有：页面加载耗时、卡顿率、操作可用性、请求耗时、JS错误率、请求错误率、onReady。

同时基调听云也会给出每个指标的评分标准和行业参考值，最终产出一个性能评分，基于性能评分即可判断系统的用户体验和可用性。

借助基调听云的压力测试产品即可基于软件未来交付后需要支撑的用户规模进行模拟压力，通过逐步增加并发数，可以看到页面打开时间、接口响应时间、卡顿率等关键指标等变化。

在看到前端用户体验的指标变化的同时，也能看到后端服务指标的变化，如下图。

根据服务的指标再去分析性能变差的原因和错误率上升的原因。

分析性能变差可以通过请求分析、追踪分析定位具体慢的原因。下图是一个获取数据库连接超时造成的整个请求变慢。

错误是服务变差的重要信息，基调听云的错误分析可以通过错误趋势->错误列表->错误Message的汇总->Stracetace来由粗粒度到细粒度的逐层分析错误的原因。

一般来说造成服务错误率升高或者响应时间变慢的原因是基础组件问题导，如JVM GC时间过长、CPU利用率过高、内存不足、IO延迟过高、网卡带宽占满等。确认了服务问题后还可以进一步下钻主机、进程、Pod等相关的指标信息，从而确认故障的根因。

因此如果在遇到突发的系统问题时，基调听云可以精准识别出是软件问题还是如东软所声明的网络问题，帮助用户轻松定责。

基调听云不仅仅在前期压测工作可以提供帮助，在日常系统运行中，如用户遇到性能问题，我们也可以快速定位该用户的访问轨迹，以及针对问题进行全链路追踪问题定位👇~

用户访问轨迹，可以看到每个用户访问系统的全过程以及是否发现性能问题，每一步都可以追踪。

当接口慢的时候可以直观分析是当前用户网络还是服务端响应比较慢。

如果确认为服务端响应慢，还可以进行深入的全链路追踪到服务端，查看调用链路。系统会自动判断疑似问题。

全方位可观测体系建立，让问题无所遁形

目前，疫情形势仍十分严峻，各省市的核酸检测机构均承担着较大的责任，因为其承担着全省市级别的用户，无论是对系统的容量、稳定性还是网络性能，都面临着更为严格的挑战和考验。

此次成都核酸检测系统崩溃事件，面对东软突如其来的甩锅行为，成都市疫情防控指挥部相关负责人对媒体表示是核酸系统对短时超大并发量预估不足，导致系统出现卡顿问题。四川省通信管理局随后也第一时间自查网络性能数据指标公布了系统运行数据确认了所出问题并非网络层面，对这口锅格挡并成功防守。

由此可见，在问题出现后，除了要保证自家系统性能稳定，如何精准识别“甩锅”和如何利用性能数据有理有据地“甩锅”也是应具备的技能。基调听云新一代贯通全栈IT与业务的智能可观测性平台的五大层面能力升级：全栈数据采集、多维多源智能分析、以应用和业务为中心、可观测数据的纵横融合打通、全方位可观测。强调了数据所发挥的强大作用。智能可观测性平台的建立，可以极大的保障核酸检测应用系统的稳定运行，从而保障市民权益。

新一代贯通全栈IT与业务的智能可观测性平台，通过对600+技术栈进行适配扩展，将追踪、日志、指标、行为、业务等多源数据统一采集、处理和分析模型，构建基调听云可观测中台，纳入现有技术实践成果，对其进行融合分析，通过OneTrace模型展示整个应用的调用结构，结合独有的AI能力实现根因诊断、异常监测、智能告警，形成完整的可观测体系，最终建立基于业务分析的可视化模型，更深入的帮助用户实现业务可观测性。

物联网运维监控平台
物联网运维监控平台是一种集成化的软件系统，用于监控和管理物联网设备和系统的运行状态。它可以实时收集和分析设备数据、网络状况和系统指标，并提供警报和异常报告。该平台具有远程监控、故障诊断、资源管理、日志记录等丰富功能，为物联网系统的运维人员提供全面的控制和管理。

2024-01-09

继续阅读
前端性能监控
在今天的数字时代，网站和Web应用的性能已经成为用户体验和业务成功的关键因素之一，用户不再容忍加载缓慢的网页或卡顿的应用程序，而且这种不满意往往会导致用户流失和降低转化率。因此，前端性能监控变得至关重要。

2023-09-25

继续阅读
数据库性能监控
在当今数字化时代，数据库是企业信息管理的核心。它不仅存储着大量的关键业务数据，还承载着企业运营的重要功能。因此，保持数据库的能有作用和可靠性对于企业的成功有些许大的重要作用。而如何实现数据库性能监控和优化，成为了每个企业都需要深入研究的课题。

2023-09-26

继续阅读

根因分析服务厂家
我国仍然是以工业生产为主，在这样的环境下根因分析服务厂家显得愈发重要。随着生产流程越来越复杂，越来越多的问题慢慢突显出来。找到问题的根源才能有效地解决相应地问题，因此根因分析服务厂家在这种情况下，就显得尤为重要。

2023-09-18

继续阅读
网络链路故障分析
网络链路故障的发生可能导致网站访问延迟、数据丢失以及在线服务中断等问题。为了快速解决这些故障，我们需要进行科学而系统的链路故障分析。网络链路故障分析是一项复杂的工作，需要技术专家对网络结构、设备以及数据流进行仔细的排查和分析。

2023-07-06

继续阅读

一次因核酸系统崩溃而引发的思考

一次因核酸系统崩溃而引发的思考

争做事前诸葛亮，提早预知问题

明确问题所在，防止被“甩锅”

全方位可观测体系建立，让问题无所遁形

能力

关于

工具