本申请涉及计算机领域,具体而言,涉及一种集群服务异常分析方法、存储介质及电子装置。
背景技术:
1、互联网平台发展到今天,业务场景不断丰富,技术团队不断扩大,形成多个业务集群和对应的技术团队,业务的复杂性叠加开发人员的编码质量有差异,导致业务系统的稳定性受到挑战,在此背景下,如何持续监控业务稳定性,并在业务稳定性出现异常的时候,及时高效预警,助力开发人员第一时间定位问题根因,进而快速修复问题,进行业务挽损,显得尤为必要。
2、相应地,本领域需要一种新的集群异常分析方案来解决上述问题。
技术实现思路
1、为了克服上述缺陷,提出了本申请,以解决或至少部分地解决如何实现对集群服务进行有效的异常监控、根因分析和快速修复的问题。
2、在第一方面,提供一种集群服务异常分析方法,其特征在于,所述方法包括:
3、根据集群服务中异常服务对应的异常接口,获取所述异常接口对应的跟踪链路;
4、根据所述跟踪链路,获取所述异常服务对应的问题代码;其中,所述跟踪链路为基于分布式调用链构建的能够实现排查功能的链路;所述问题代码为导致所述异常服务发生的代码;
5、根据所述问题代码,获取所述异常服务的问题原因。
6、在上述集群服务异常分析方法的一个技术方案中,根据预设的业务实时监控服务,获取所述跟踪链路。
7、在上述集群服务异常分析方法的一个技术方案中,所述方法还包括根据以下步骤建立所述业务实时监控服务:
8、根据所述集群服务,增加集群服务代理;
9、将所述集群服务代理上报至api调用追踪接口;
10、根据所述api调用追踪接口和所述集群服务的场景接口,建立所述业务实时监控服务。
11、在上述集群服务异常分析方法的一个技术方案中,所述方法还包括根据以下步骤获取所述场景接口:
12、根据所述集群服务的业务场景,获取所述场景接口。
13、在上述集群服务异常分析方法的一个技术方案中,所述方法还包括根据以下步骤获取所述集群服务的异常业务的数量:
14、根据所述场景接口和所述集群服务的日志,获取所述异常业务的数量,并保存在数据库(mysql)中。
15、在上述集群服务异常分析方法的一个技术方案中,所述方法还包括根据以下步骤获取系统异常数量:
16、遍历所述集群服务的业务场景;
17、根据所述业务场景,遍历所述业务场景对应的场景接口;
18、根据所述场景接口和所述集群服务的日志,查询所述系统异常数量。
19、在上述集群服务异常分析方法的一个技术方案中,所述方法还包括根据以下步骤进行所述集群服务的日志的持久化管理:
20、根据所述集群服务,获取所述集群服务中包含的应用的应用列表;
21、根据所述应用列表,获取所述应用的应用业务日志;
22、根据所述应用业务日志进行所述日志的持久化管理。
23、在上述集群服务异常分析方法的一个技术方案中,所述方法还包括:
24、根据所述问题原因和预设的问题等级划分标准,对所述异常服务进行分级管理。
25、在第二方面,提供一种电子装置,包括存储器和处理器,其特征在于,所述存储器中存储有计算机程序,所述处理器被设置为通过所述计算机程序执行上述集群服务异常分析方法技术方案中任一项所述集群服务异常分析方法。
26、在第三方面,提供一种计算机可读存储介质,该计算机可读存储介质其中存储有多条程序代码,所述程序代码适于由处理器加载并运行以执行上述集群服务异常分析方法技术方案中任一项所述集群服务异常分析方法。
27、本申请上述一个或多个技术方案,至少具有如下一种或多种有益效果:
28、在实施本申请提供的集群服务异常分析方法技术方案中,本申请能够根据集群服务中异常服务对应的异常接口,获取对应的跟踪链路,根据跟踪链路获取异常服务对应的问题代码,根据问题代码获取异常服务的问题原因。通过上述配置方式,本申请能够实现针对集群服务中的异常服务的进行准确地定位,建立稳定性高的异常服务的闭环分析链路,实现更为有效地异常服务的根因分析,实现前端业务异常到后端技术问题定位以及根因分析到直连路径,便于研发人员第一时间定为问题原因,进而快速进行异常服务的修复,进行业务挽损,提升集群服务异常分析的自动化程度。
1.一种集群服务异常分析方法,其特征在于,所述方法包括:
2.根据权利要求1所述的集群服务异常分析方法,其特征在于,所述方法还包括:
3.根据权利要求2所述的集群服务异常分析方法,其特征在于,所述方法还包括根据以下步骤建立所述业务实时监控服务:
4.根据权利要求3所述的集群服务异常分析方法,其特征在于,所述方法还包括根据以下步骤获取所述场景接口:
5.根据权利要求4所述的集群服务异常分析方法,其特征在于,所述方法还包括根据以下步骤获取所述集群服务的异常业务的数量:
6.根据权利要求5所述的集群服务异常分析方法,其特征在于,所述方法还包括根据以下步骤获取系统异常数量:
7.根据权利要求6所述的集群服务异常分析方法,其特征在于,所述方法还包括根据以下步骤进行所述集群服务的日志的持久化管理:
8.根据权利要求1所述的集群服务异常分析方法,其特征在于,所述方法还包括:
9.一种计算机可读的存储介质,其特征在于,所述计算机可读的存储介质包括存储的程序,其中,所述程序运行时执行权利要求1至7中任一项所述的集群服务异常分析方法。
10.一种电子装置,包括存储器和处理器,其特征在于,所述存储器中存储有计算机程序,所述处理器被设置为通过所述计算机程序执行权利要求1至7中任一项所述的集群服务异常分析方法。