故障主机的处理方法、装置、存储介质和电子设备与流程

allin2026-01-27  19


本申请实施例涉及故障主机领域,具体而言,涉及一种故障主机的处理方法、装置、存储介质和电子设备。


背景技术:

1、目前,各厂商在主机恢复的流程上基本为将云主机从故障主机节点疏散到其他健康主机节点上。需要用户设定集群运行的主机故障数目,当主机故障数目超过设定阈值时,则需要进行熔断控制。虽然能够处理云计算平台中的单主机节点或小规模主机的故障,但是对于大规模的主机故障却力不从心,进而导致对故障主机的处理效率低的技术问题。

2、针对相关技术中,对故障主机的处理效率低的技术问题,尚未提出有效的解决方案。


技术实现思路

1、本申请实施例提供了一种故障主机的处理方法、装置、存储介质和电子设备,以至少解决相关技术中对故障主机的处理效率低的技术问题。

2、根据本申请的一个实施例,提供了一种故障主机的处理方法,包括:获取云平台中故障主机的故障恢复指令,其中,故障恢复指令用于触发故障主机的故障恢复功能;响应于故障恢复指令,获取云平台的第一资源信息和故障主机的第二资源信息;基于第一资源信息和第二资源信息中的已使用资源信息,确定云平台的可用资源信息,其中,可用资源信息用于表征保障故障主机能够安全恢复的可用资源;基于可用资源信息和第二资源信息,确定故障主机的恢复结果,其中,恢复结果用于表征是否对故障主机进行恢复处理。

3、在一个示例性实施例中,基于第一资源信息和第二资源信息中的已使用资源信息,确定云平台的可用资源信息,包括:基于已使用资源信息,确定多个目标主机的密度值,以及与多个密度值对应的多个权重系数,其中,目标主机为在云平台中处于运行状态的主机节点;基于多个密度值和多个权重系数,确定云平台的安全系数;基于第一资源信息和安全系数,确定云平台的可用资源信息。

4、在一个示例性实施例中,基于多个密度值和多个权重系数,确定云平台的安全系数,包括:将多个密度值和,与密度值对应的权重系数之间的积,确定为多个第一运算值;将多个第一运算值之间的和,确定为安全系数。

5、在一个示例性实施例中,第一资源信息包括:资源池的资源信息和资源池的已分配资源信息,其中,资源池的资源信息用于表征多个目标主机的资源信息,资源池的已分配资源信息用于表征多个目标主机进行资源分配的状态。

6、在一个示例性实施例中,基于第一资源信息和安全系数,确定云平台的可用资源信息,包括:将资源池的资源信息与资源池的已分配资源信息之间的差,确定为目标差值信息;将目标差值信息与安全系数之间的积,确定为可用资源信息。

7、在一个示例性实施例中,基于可用资源信息和第二资源信息,确定故障主机的恢复结果,包括:响应于可用资源信息大于第二资源信息中的已分配资源信息,对故障主机进行恢复;响应于可用资源信息小于等于第二资源信息中的已分配资源信息,停止故障主机进行恢复。

8、在一个示例性实施例中,该方法还包括:监测到云平台中多个故障主机;基于多个故障主机的优先级,获取多个故障主机的故障恢复指令;响应于故障恢复指令,按照优先级,对多个故障主机进行恢复。

9、在一个示例性实施例中,响应于故障恢复指令,按照优先级,对多个故障主机进行恢复,包括:响应于故障恢复指令,按照优先级,对多个故障主机进行熔断处理,确定熔断结果,其中,熔断结果用于表征是否已经中止对故障主机进行恢复;响应于熔断结果为已中止对故障主机进行恢复,重新对多个故障主机进行恢复。

10、在一个示例性实施例中,响应于熔断结果为已中止对故障主机进行恢复,重新对多个故障主机进行恢复,包括:响应于熔断结果为已中止对故障主机进行恢复,对云平台进行限流处理,得到限流结果;按照限流结果,对多个故障主机进行恢复。

11、根据本申请的另一个实施例,提供了一种故障主机的处理装置,包括:第一获取单元,用于获取云平台中故障主机的故障恢复指令,其中,故障恢复指令用于触发故障主机的故障恢复功能;第二获取单元,用于响应于故障恢复指令,获取云平台的第一资源信息和故障主机的第二资源信息;第一确定单元,用于基于第一资源信息和第二资源信息中的已使用资源信息,确定云平台的可用资源信息,其中,可用资源信息用于表征保障故障主机能够安全恢复的可用资源;第二确定单元,用于基于可用资源信息和第二资源信息,确定故障主机的恢复结果,其中,恢复结果用于表征是否对故障主机进行恢复处理。

12、根据本申请的又一个实施例,还提供了一种计算机可读存储介质,计算机可读存储介质中存储有计算机程序,其中,计算机程序被设置为运行时执行上述任一项方法实施例中的步骤。

13、根据本申请的又一个实施例,还提供了一种电子设备,包括存储器和处理器,存储器中存储有计算机程序,处理器被设置为运行计算机程序以执行上述任一项方法实施例中的步骤。

14、通过本申请,获取云平台中故障主机的故障恢复指令,其中,故障恢复指令用于触发故障主机的故障恢复功能;响应于故障恢复指令,获取云平台的第一资源信息和故障主机的第二资源信息;基于第一资源信息和第二资源信息中的已使用资源信息,确定云平台的可用资源信息,其中,可用资源信息用于表征保障故障主机能够安全恢复的可用资源;基于可用资源信息和第二资源信息,确定故障主机的恢复结果,其中,恢复结果用于表征是否对故障主机进行恢复处理。也就是说,由于考虑到根据获得的云平台中故障主机的故障恢复指令,确定云平台的第一资源信息和故障主机的第二资源信息,进而基于上述获得的第一资源信息和第二资源信息中的已使用资源信息,确定云平台的可用资源信息,从而根据上述获得的可用资源信息和第二资源信息,达到确定故障主机的恢复结果的目的。因此,可以解决对故障主机的处理效率低的技术问题,达到提高对故障主机的处理效率的技术效果。



技术特征:

1.一种故障主机的处理方法,其特征在于,

2.根据权利要求1所述的方法,其特征在于,

3.根据权利要求2所述的方法,其特征在于,

4.根据权利要求2所述的方法,其特征在于,所述第一资源信息包括:资源池的资源信息和所述资源池的已分配资源信息,其中,所述资源池的资源信息用于表征多个所述目标主机的资源信息,所述资源池的已分配资源信息用于表征多个所述目标主机进行资源分配的状态。

5.根据权利要求4所述的方法,其特征在于,

6.根据权利要求1所述的方法,其特征在于,

7.根据权利要求1所述的方法,其特征在于,

8.根据权利要求7所述的方法,其特征在于,

9.根据权利要求8所述的方法,其特征在于,

10.一种故障主机的处理装置,其特征在于,

11.一种计算机可读存储介质,其特征在于,

12.一种电子设备,包括存储器、处理器以及存储在所述存储器上并可在所述处理器上运行的计算机程序,其特征在于,


技术总结
本申请实施例提供了一种故障主机的处理方法、装置、存储介质和电子设备,其中,该方法包括:获取云平台中故障主机的故障恢复指令,其中,故障恢复指令用于触发故障主机的故障恢复功能;响应于故障恢复指令,获取云平台的第一资源信息和故障主机的第二资源信息;基于第一资源信息和第二资源信息中的已使用资源信息,确定云平台的可用资源信息,其中,可用资源信息用于表征保障故障主机能够安全恢复的可用资源;基于可用资源信息和第二资源信息,确定故障主机的恢复结果,其中,恢复结果用于表征是否对故障主机进行恢复处理。通过本申请,解决了对故障主机的处理效率低的技术问题,进而达到了提高对故障主机的处理效率的技术效果。

技术研发人员:苏正伟,徐源浩,苏广峰
受保护的技术使用者:济南浪潮数据技术有限公司
技术研发日:
技术公布日:2024/10/31
转载请注明原文地址: https://www.8miu.com/read-25932.html

最新回复(0)