操作系统在线故障检测方法、装置及存储介质

allin2025-10-09  29


本发明涉及计算机操作系统,具体涉及一种操作系统在线故障检测方法、装置及存储介质。


背景技术:

1、在linux操作系统广泛应用的背景下,故障检测技术面临着一些挑战和问题。目前,传统的故障检测方法主要采用client-server架构,前端client负责采集系统运行状态信息,后端server进行数据处理和故障分析。然而,这种方法存在以下几个主要问题。

2、其一容错性不足,传统方法比较依赖后台服务端,如果服务端出现故障,整个检测流程将受阻,导致系统容错性不足。其二实时性不足,检测过程经历数据采集、网络传输、数据处理等多个环节,使得故障检测的实时性较低,不能及时响应系统运行中的问题。其三网络依赖性过强,数据传输依赖网络稳定性,网络延迟或中断可能导致数据丢失,从而影响故障检测的完整性和时效性。

3、针对这些问题,迫切需要一种更先进的在线故障检测方法,提升操作系统故障检测的实时性和容错性,减少对网络的依赖,使得系统能够更快速、更可靠地响应和处理各类故障和异常情况。


技术实现思路

1、针对现有技术的上述问题,本发明提供一种操作系统在线故障检测方法、装置及存储介质,以解决相关技术故障检测技术。

2、一方面,本发明提供了一种操作系统在线故障检测方法,所述方法应用于终端操作系统,所述方法包括:

3、训练故障规则模型得到故障规则库,所述故障规则模型根据故障信息建立;

4、管理所述故障规则库;

5、通过动态捕获方式在线获取所述操作系统的运行状态信息,所述操作系统的运行状态信息与系统调用和运行程序状态相关;

6、在所述故障规则库下结合所述操作系统的运行状态信息,进行故障的在线诊断。

7、可选的,所述管理所述故障规则库,包括:

8、对所述故障规则库进行数据初始化;

9、对所述故障规则库中的规则数据进行在线更新或离线更新;

10、响应于所述规则数据更新过程中出现异常状态,执行异常处理流程或回滚操作;

11、对所述终端操作系统上不再需要的规则数据进行删除。

12、可选的,所述对所述故障规则库进行数据初始,包括:

13、在所述故障规则库中,将结构化的规则数据存储在轻量级数据库中;

14、在所述故障规则库中,将非结构化的规则数据通过文件存储方式存放于本地目录中。

15、可选的,所述对所述故障规则库中的规则数据进行在线更新或离线更新,包括:

16、在线更新模式下,与后端的规则引擎服务器进行对接,所述规则引擎服务器用于主动推送最新的规则数据至所述终端操作系统;

17、离线更新模式下,从后端的规则引擎服务器导出数据文件并拷贝到所述终端操作系统中;

18、利用数据库管理工具或特定命令将所述最新的规则数据导入到轻量级数据库中。

19、可选的,所述对所述终端操作系统上不再需要的规则数据进行删除,包括:

20、对所述终端操作系统上不再需要的结构化的规则数据在所述故障规则库中删除相应的数据项;

21、对所述终端操作系统上不再需要的非结构化的规则数据删除相应的规则存储文件。

22、可选的,所述在所述故障规则库下结合所述操作系统的运行状态信息,进行故障的在线诊断,包括:

23、通过智能化分析模型挖掘所述运行状态信息的故障特征信息;

24、将所述故障特征信息与轻量级数据库的故障规则库数据进行匹配;

25、响应于存在匹配数据,触发故障告警流程,所述故障告警流程通过调用所述终端操作系统内置的消息弹窗机制完成。

26、可选的,所述故障规则库的类型包括缺陷规则库、io特征库、性能基准库、资源使用模式库、bcc工具集、libc库和libbpf库。

27、另一方面,提供了一种操作系统在线故障检测装置,所述装置包括:

28、规则建立模块,用于训练故障规则模型得到故障规则库,所述故障规则模型根据故障信息建立;

29、模块规则管理模块,用于管理所述故障规则库;

30、动态监控模块,用于通过动态捕获方式在线获取所述操作系统的运行状态信息,所述操作系统的运行状态信息与系统调用和运行程序状态相关;

31、故障检测模块,用于在所述故障规则库下结合所述操作系统的运行状态信息,进行故障的在线诊断。

32、另一方面,提供了一种计算机可读存储介质,所述计算机可读存储介质中存储有计算机程序,所述计算机程序由处理器加载并执行以实现如上述权利要求1至7任一项所述的操作系统在线故障检测方法。

33、本发明至少存在如下有益效果。

34、本发明提出了一种适用于终端操作系统的在线故障检测方法,其中,首先训练故障规则模型得到故障规则库,其次通过动态捕获方式在线获取终端操作系统的运行状态信息,再次在故障规则库下结合操作系统的运行状态信息,进行故障的在线诊断。实现高实时性、高容错性和低资源消耗,即无需额外配置或重启系统,即可在系统运行时进行不间断的故障检测,提升故障检测的实时性,以及,通过将模型训练得到的故障规则库本地化与故障检测机制相结合的方法,可在不依赖外部服务器和网络环境的条件下进行故障检测,有效提升了系统的容错能力和扩展灵活性,适应复杂多变的运行环境,此外,通过动态捕获方式的监控过程对系统资源的占用极低,减少对软件性能的影响,降低了运维成本。



技术特征:

1.一种操作系统在线故障检测方法,其特征在于,所述方法应用于终端操作系统,所述方法包括:

2.根据权利要求1所述的方法,其特征在于,所述管理所述故障规则库,包括:

3.根据权利要求2所述的方法,其特征在于,所述对所述故障规则库进行数据初始,包括:

4.根据权利要求2所述的方法,其特征在于,所述对所述故障规则库中的规则数据进行在线更新或离线更新,包括:

5.根据权利要求2所述的方法,其特征在于,所述对所述终端操作系统上不再需要的规则数据进行删除,包括:

6.根据权利要求1所述的方法,其特征在于,所述在所述故障规则库下结合所述操作系统的运行状态信息,进行故障的在线诊断,包括:

7.根据权利要求1至6任一所述的方法,其特征在于,所述故障规则库的类型包括缺陷规则库、io特征库、性能基准库、资源使用模式库、bcc工具集、libc库和libbpf库。

8.一种操作系统在线故障检测装置,其特征在于,所述装置包括:

9.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质中存储有计算机程序,所述计算机程序由处理器加载并执行以实现如上述权利要求1至7任一项所述的操作系统在线故障检测方法。


技术总结
本发明公开了一种操作系统在线故障检测方法、装置及存储介质。属于计算机操作系统技术领域。该方法中,首先训练故障规则模型得到故障规则库,其次通过动态捕获方式在线获取终端操作系统的运行状态信息,再次在故障规则库下结合操作系统的运行状态信息,进行故障的在线诊断。实现高实时性、高容错性和低资源消耗,即无需额外配置或重启系统,即可在系统运行时进行不间断的故障检测,提升故障检测的实时性,以及,通过将模型训练得到的故障规则库本地化与故障检测机制相结合的方法,可在不依赖外部服务器和网络环境的条件下进行故障检测,有效提升了系统的容错能力和扩展灵活性,适应复杂多变的运行环境,此外,通过动态捕获方式的监控过程对系统资源的占用极低,减少对软件性能的影响,降低了运维成本。

技术研发人员:李小玲,屈磊,马俊,贾周阳,李姗姗,余杰,谭郁松,熊韬,王静,秦莹,赵欣,王尚文
受保护的技术使用者:中国人民解放军国防科技大学
技术研发日:
技术公布日:2024/10/31
转载请注明原文地址: https://www.8miu.com/read-24099.html

最新回复(0)