2021年蒲公英企服开放平台1024开发者活动日前在线举行,中国应用性能监控和智能运维领军企业基调听云CEO赵宇辰,就行业关键性运维事件,数字化企业应对快速迭代和系统稳定,数字化组织、政府如何在疫情和灾害面前快速安全启动数字化应用等相关问题与开发者进行了深入的探讨,面对挑战你可以放心起飞、基调听云智能运维空中为你护航。

TracupTalk 主持人:很高兴能在蒲公英1024程序员节邀请到基调听云CEO赵宇辰先生。赵总,近期全球数字化技术水平的标杆Facebook出现了长达7小时的重大故障,Facebook的管理团队、技术团队、运维团队几乎无计可施,整个系统瘫痪了7个小时。那么我们的CTO、运维团队、运维工程师是不是也面临同样的问题如果这样的事情发生在我身上,我是不是也无计可施?而关键的问题是有没有办法提前发现一些问题,有没有办法能找到一个背锅侠,谁能帮我解决问题,谁能帮我在真正出现问题的时候能够帮我解决,当然我们希望所有的问题是防患于未然。

基调听云CEO赵宇辰:我们一直做的是软件层面的监控,那就像您刚刚讲的Facebook的这种事件其实是经常发生的为什么呢?我们10年前或者15年前做监控,往往是硬件层面监控,但是我们现在发现其实硬件的故障已经很少发生了,同时因为软件设计的一些冗余,包括高可用,底层硬件件别的故障,并不会影响我们数字化整个的健康状况。

那么用户为什么软件经常出错?因为我们知道软件是高度迭代的,很有可能我们会每两周或者每几个月发布一个新的版本,去应对一些新的业务上的挑战,所以软件层面的变更会特别大,也会特别多,凡事只要是变化的,他就容易出错。所以一旦软件进行频繁的变动的时候、更新的时候往往会出现这样或那样的故障。

我们也听到了很多客户的反馈,因为基调听云支持了国内很多的互联网客户,包括现在越来越多的行业客户,政府客户、金融客户,其实都有这样的一个痛点,大家都很担心,很多时候开发是想上新的东西,去提供更好的数字化的服务和体验给我们的终端客户,但是运维相对来说他们是确保数字化系统数字基建不要出问题,如何应对这样一个看似好像有点矛盾,但是最终都是为了提供一个更好的数字化体验的事情,基调听云认为需要去做到整个的业务的数字化监控

以前传统的监控,我们是偏硬件层或者偏基础架构层,只能看到cpu内存或者是硬盘,这样一些偏传统的基础架构的数据,其实我们现在很多的客户其实关注的是业务的连续性或者业务的稳定性

我们看今天系统上面跑了多少订单,跑了多少合同,如果是一个ToC的可能是我有多少用户在上面,我在我平台上面所有的这一切是建筑在业务逻辑之上的,所以我们希望能打造一个端到端的监控体系,就是从业务逻辑到客户端,客户端可能是网页小程序或者是APP, App又分iOS和安卓等等,通过后端的服务器,经过多个组件到了数据库,这些后端的服务器上面可能跑的是Java、Python、SQL各种编程语言写的软件系统,这样形成一个整体的端到端的监控,因为只有把这些数据抓取下来,把整个的数据链条打通,这样在出现一个比较大的故障的时候,比如您刚提到的Facebook,包括一些之前像航空公司出现那些故障的时候,我们才能快速定位到说哪里出现了问题,而不像以前可能盲人摸象,每人看到的是系统的一部分对吧?

运维同学说数据库没问题,网络说网络好像也ok,前端说可能是后端的问题,就是大家会相互扯皮或者问题定位不清晰,因为每人只能看到自己的一角,我们现在希望数据都能抓取下来,然后再结合一点AI算法。算法是不是能根据以前发生的一些故障,或者说其他客户发现的故障,以前是因为一个数据库连接池导致了某一个服务的阻塞,然后服务阻塞又导致了可能我们面向客户的最终的支付系统的故障,这样一个链条的传导。

现在结合人工智能,我们是不是能快速地分析到,是不是哪里可能出现了问题,先缩小定位的范围,然后再最终确认到底是哪出现了问题,所以客户经常给我们提的一个需求就是能不能1分钟发现,5分钟定位,10分钟解决,这是个长期目标,也取决于自动化运维的各种工具手段。这也代表了现在客户对数字系统的连续性有比较强的诉求。我们再往前走一步,我们未来是不是尽量连这种问题都不要发生,在出现这些表征的问题的情况下,我们是不是能提前的预警?例如磁盘快打满了,或者消息队列已经涨得很多了,在这个时候是不是能提前做一些预警,所以这方面还需要有一些前瞻性的工作,这也是我们探索的目标。

总体而言就是希望大家在日常的运营维护数字化系统的时候,基调听云能成为这样一个背锅侠,甚至以后可能就没有锅,还没有掉下来的时候,这个锅已经被基调听云接走了。

TracupTalk 主持人:感谢赵总对数字化监控深入浅出的讲解,我记得梅花创投创始合伙人吴世春先生曾经说过:创业过程中不确定性永远会存在,我们怎么办?“强行起飞,空中加油”。我们不能等所有的bug都不存在的情况下再。您对这个观点是怎么看的?

 

基调听云CEO赵宇辰:

首先这其实一直是基调听云在努力的方向。基调听云就像一个加油机永远伴随在客户产品的旁边,出现任何问题,都能够进行空中救援、空中支持、空中加油。确保系统不出现问题。我们在软件开发的时候,其实起飞是很快的,但是长时间是要在空中的飞行,飞行怎么确保万无一失,其实是一个特别难的事儿,也是我们一直基调听云在追求的一个事情。

在数字化进程当中,不论是组织、企业、政府还是社会都需要数字化系统来支撑我们运转。其实在疫情当下没有一个数字化的健康码,你可能是寸步难行,而健康码我们偶尔会遇到一些问题,前不久我们也发生了一些问题,码扫不出来了,它可能是系统的问题,也可能是网络的问题,所以我们非常期待在数字化系统运行当中能有一个空中护航机,随着我们一起去发展延伸吴世春的这句名言,“强行起飞,空中护航”

基调听云有十几年历史,最早服务了很多互联网的客户,因为互联网公司他们就是建立在数字系统之上,特别疫情之后,我们发现很多的行业包括政府客户其实都很追求数字化体验,就像您刚才说的比如健康码,健康码这些小程序很多是各地政府48小时甚至24小时连夜开发上线的,上线之后一下它的访问量就很大,比如一个城市百万人口进出楼宇进出火车站机场都需要扫这样的一个健康码。它的用户体验关系到了民生,一旦我的健康码扫不出来,很有可能我今天耽误行程,甚至回家都回不了,那就造成了很大的一个困扰。

所以我们当时也是跟腾讯包括各地政府去合作,希望保障这样一个数字化体验。就像您说的很有可能是网络的问题,当地的网络设施不太好,也有可能是前端的问题,手机适配,那是不是iOS没问题,但安卓某一个具体的一个机型可能适配出现了问题,也有可能是后端服务器压力太大,没有经过完整的压力测试出现问题,包括一些数据库,是不是语句写的不够优美,或者是性能不够好,导致整个体验加载不出来,这也有可能,所以我们也会帮助各地政府去做这样一个端到端的监控。

其实不光是像健康码,我们现在去体检,我们现在去医院挂号,可能都是用数字化的手段对吧?我们去做一个核酸检测,很有可能就在附近的一个医院通过手机挂个号,然后提前注册一下,把个人信息全部注册进去,到了就直接扫了二维码,就直接可以去做核酸检测了。

在税务方面,我们每个人可能都是通过手机的APP去报个税,包括各地的医保很多都是建筑在数字系统之上,所以我们现在看到各行各业其实都依赖于数字系统去维持我们的日常生活,吃喝住行可能都会覆盖到,所以我们在这一块也坚定地相信数字化体验或者数字基建的性能和它的稳定性、可持续性或者可观测性,其实是未来一个非常重要的也是很大的一个契机,我们也希望能帮助我们的客户提升他们的用户体验和系统性能。

TracupTalk 主持人:感谢基调听云赵总给开发者朋友们带来的数字化监控讲解和对企业全程的陪护,我相信大家听完后也会对数字化监控的重要性有一个新的认知。再次感谢赵总能参加1024蒲公英程序员节线上直播活动!

就像赵总提到的疫情促使各行各业加快了企业数字化进程,而越来越多的软件加持,为企业的软件安全和稳定性提出了考验,数字化监控是一个很专业的领域,同时也是一个至关重要的领域。如果需要类似基调听云这样的数字化监控软件,小编建议可以在蒲公英企服企服开放平台进行选择,蒲公英企服平台汇集了4000+ToB软件,更多的选择和横向对比帮助您更快找到适合您需求的软件、产品与服务。

  • 全面数字化时代已经到来,企业数字化发展不仅要注重产出也要注重成果,基调听云已全身心投入数字经济新蓝海建设中,积极发挥数字时代下产品及平台的“融汇”、“融通”、“融智”的核心优势,携手金融行业及等更多行业玩转数字时代

    2022-08-23

    继续阅读
  • 身处数字时代,数字化转型对企业的重要性不言而喻。统计数据显示,91%的企业都参与了某种形式的数字化计划。87%的企业认为数字化将颠覆他们的行业。政策驱动、技术发展等等因素都在推动着企业走向数字化领域,从而在激烈的市场竞争中脱颖而出。

    2023-09-13

    继续阅读
  • 在当今数字化时代,企业的运营和发展与各种技术和系统的稳定运行息息相关。随着云计算、大数据、人工智能和物联网等新兴技术的普及,企业的业务运行和用户体验对这些技术的依赖程度日益加深。然而,技术复杂性的提升也带来了系统稳定性和性能的挑战。

    2023-10-19

    继续阅读
  • 数字化转型已成为热门话题,大家对于数字化转型的重要性已有一定认识。根据咨询机构的分析报告,91%的企业正在计划进行数字化转型,87%的企业认为数字化转型可能颠覆行业。从另一个角度分析,数字化转型以业务为中心,目标是提升服务和用户体验。如果企业在数字化转型过程中只关注系统可用性而忽视用户体验评估,很可能导致数字化转型失败。

    2023-08-01

    继续阅读
  • 保障系统稳定性是现代软件开发中最具挑战性的问题之一,也是确保业务连续运行的重要因素。云服务、大型互联网平台、新型网络和关键业务的稳定安全运行,是我国信息通信行业高质量发展的基石,也是我国数字经济快速发展的必要条件。因此,针对系统稳定安全运行的技术研究和实践推广具有重要意义。

    2023-07-25

    继续阅读