功率控制方法和计算设备与流程

allin2026-02-04  7


本技术实施例涉及计算设备,尤其涉及一种功率控制方法和计算设备。


背景技术:

1、服务器在整机供电不足时,可以通过触发整机功率封顶机制来降低功率消耗,以避免服务器整机掉电。

2、在相关技术中,用户可以基于人工智能(artificial intelligence,ai)服务器的功率封顶功能来设置ai服务器的设备最大功率(在一些示例中,也可以称为整机功率封顶值),ai服务器可以基于该设备最大功率对ai服务器的计算系统(包括处理器和内存)的功率进行调节,以控制ai服务器的整机功率小于或等于该设备最大功率。

3、上述功率控制方法降低了ai服务器的计算系统的功率消耗,然而,降低计算系统的功率消耗难以保障ai服务器的整机功率低于设备最大功率。


技术实现思路

1、本技术实施例提供一种功率控制方法和计算设备,使得计算设备在降低计算系统的功率消耗的基础上,还降低了gpu的功率消耗,从而有利于保障计算设备的整机功率低于设备最大功率。

2、第一方面,本技术实施例提供一种功率控制方法,应用于计算设备,所述计算设备包括图形处理器gpu和计算系统,包括:

3、确定预设时长内所述gpu的第一功率和所述计算设备的总功率;

4、基于所述第一功率、所述总功率和所述计算设备的最大功率,确定所述gpu对应的第一最大功率以及所述计算系统对应的第二最大功率;所述第一功率和所述总功率的第一比值,与所述第一最大功率呈正相关;

5、基于所述第一最大功率控制所述gpu的实际功率,以及基于所述第二最大功率控制所述计算系统的实际功率。

6、在上述技术方案中,通过确定gpu的第一最大功率和计算系统的第二最大功率,并基于第一最大功率对gpu的实际功率进行调控以降低gpu的功率消耗,以及基于第二最大功率对计算系统的实际功率进行调控以降低计算系统的功率消耗,使得计算设备在降低计算系统的功率消耗的基础上,还降低了gpu的功率消耗,从而有利于保障计算设备的整机功率低于计算设备的最大功率。

7、在一种可能的实施方式中,所述计算设备还包括电源;确定预设时长内所述gpu的第一功率和所述计算设备的总功率,包括:

8、获取所述gpu在多个时刻对应的多个gpu功率,所述预设时长包括所述多个时刻,所述多个时刻中任意两个时刻之间的时长相同;

9、对所述多个gpu功率进行加和处理,得到所述第一功率;

10、获取所述电源在所述多个时刻对应的多个电源功率;

11、对所述多个电源功率进行加和处理,得到所述总功率。

12、在上述技术方案中,可以获取gpu在各时刻对应的gpu功率、以及各电源在各时刻对应的电源功率,以便于计算设备可以基于各时刻对应的gpu功率确定预设时长内gpu对应的第一功率,以及基于各时刻对应的电源功率确定预设时长内计算设备对应的总功率,使得计算设备可以及时监控gpu的功率消耗情况和计算设备的功率消耗情况,并在功率消耗过大时及时调整,避免计算设备出现整机掉电问题。

13、在一种可能的实施方式中,基于所述第一功率、所述总功率和所述计算设备的最大功率,确定所述gpu对应的第一最大功率以及所述计算系统对应的第二最大功率,包括:

14、确定所述第一功率和所述总功率的第一比值,并基于所述第一比值和所述最大功率,确定所述第一最大功率;

15、根据所述总功率和所述第一功率,确定预设时长内所述计算系统的第二功率;

16、确定所述第二功率和所述总功率的第二比值,并基于所述第二比值和所述最大功率,确定所述第二最大功率。

17、在上述技术方案中,可以通过分别计算预设时长内gpu实际消耗的第一功率与计算设备实际消耗的总功率的第一比值、以及计算系统实际消耗的第二功率与该总功率的第二比值,使得计算设备可以基于第一比值和第二比值,对计算设备的最大功率进行合理分配,以确保gpu和计算系统的实际功率的消耗比例与计算设备为gpu和计算系统分配的最大功率的比例一致,以减少计算设备的功率控制过程对业务的影响。

18、在一种可能的实施方式中,根据所述总功率和所述第一功率,确定预设时长内所述计算系统的第二功率,包括:

19、针对所述多个时刻中的任意一个时刻,基于所述时刻对应的电源功率和gpu功率,确定所述时刻对应的计算系统功率;

20、对所述多个时刻对应的多个计算系统功率进行加和处理,得到所述第二功率。

21、在上述技术方案中,可以基于各时刻的gpu功率和电源功率,计算各时刻的计算系统功率,以便于计算设备可以基于各时刻对应的计算系统功率确定预设时长内计算系统对应的第二功率,计算设备可以基于各时刻的计算系统功率,及时监控计算系统的功率消耗情况,并在功率消耗过大时及时调整,以降低计算系统的功率消耗。

22、在一种可能的实施方式中,在基于所述第一功率、所述总功率和所述计算设备的最大功率,确定所述gpu对应的第一最大功率以及所述计算系统对应的第二最大功率之前,所述方法还包括:

23、确定计算设备的当前总额定功率;

24、若所述总功率与所述当前总额定功率的比值大于或者等于预设阈值,则将所述当前总额定功率确定为所述最大功率;

25、若所述总功率与所述当前总额定功率的比值小于所述预设阈值,则将预设最大功率确定为所述最大功率。

26、在上述技术方案中,可以实时或周期性地获取计算设备的总功率和总额定功率,以及基于总功率和总额定功率的比值判断计算设备是否存在异常(电源故障或业务过载)场景,并在确定存在异常场景时,对计算设备的最大功率及时进行调节,以便于更准确地确定第一最大功率和第二最大功率。

27、在一种可能的实施方式中,所述计算设备还包括基板管理控制器bmc;基于所述第一最大功率控制所述gpu的实际功率,包括:

28、通过所述bmc向所述gpu发送第一功率调节指令,所述第一功率调节指令包括所述第一最大功率;

29、响应于所述第一功率调节指令,通过所述gpu控制所述gpu的实际功率小于所述第一最大功率。

30、在上述技术方案中,可以通过bmc控制gpu基于第一最大功率对自身的实际功率进行调节,以避免gpu的功率消耗过大,导致计算设备的功率消耗过大。

31、在一种可能的实施方式中,所述计算设备还包括管理控制器,所述计算系统还包括处理器;基于所述第二最大功率控制所述计算系统的实际功率,包括:

32、通过所述bmc向所述管理控制器发送第二功率调节指令,所述第二功率调节指令包括所述第二最大功率;

33、响应于所述第二功率调节指令,通过所述管理控制器向所述bmc请求获取所述计算系统在当前时刻对应的当前计算系统功率;

34、在确定所述当前计算系统功率大于或等于所述第二最大功率时,通过所述管理控制器向所述处理器发送降耗指令;

35、根据所述降耗指令,通过所述处理器控制所述计算系统的实际功率小于所述第二最大功率。

36、在上述技术方案中,可以通过bmc控制管理控制器对计算系统的实际功率进行调节,管理控制器可以在确定当前计算系统功率大于或等于第二最大功率时,基于降耗指令控制处理器调节计算系统的实际功率,以避免计算系统的功率消耗过大,导致计算设备的功率消耗过大。

37、在一种可能的实施方式中,所述计算设备还包括电源;在通过所述管理控制器向所述bmc请求获取所述计算系统在当前时刻对应的当前计算系统功率之前,所述方法还包括:

38、通过所述bmc获取所述gpu在所述当前时刻对应的当前gpu功率;

39、通过所述bmc获取所述电源在所述当前时刻对应的当前电源功率;

40、根据所述当前gpu功率和所述当前电源功率,通过所述bmc确定所述当前计算系统功率。

41、在上述技术方案中,bmc可以基于电源和gpu的实时功率,实时确定计算系统的当前计算系统功率,以便于在管理控制器请求时可以得到最准确的当前计算系统功率。

42、在一种可能的实施方式中,所述计算系统包括处理器;基于所述第二最大功率控制所述计算系统的实际功率,包括:

43、通过所述bmc向所述处理器发送第二功率调节指令,所述第二功率调节指令包括所述第二最大功率;

44、响应于所述第二功率调节指令,通过所述处理器对所述计算系统进行降耗处理,以控制所述计算系统的实际功率小于所述第二最大功率。

45、在上述技术方案中,可以通过bmc控制处理器进行计算系统的实际功率的调节,处理器可以控制计算系统的实际功率小于第二最大功率,以避免计算系统的功率消耗过大,导致计算设备的功率消耗过大。

46、第二方面,本技术实施例提供一种功率控制装置,包括:

47、确定模块,用于确定预设时长内所述gpu的第一功率和所述计算设备的总功率;

48、所述确定模块,还用于基于所述第一功率、所述总功率和所述计算设备的最大功率,确定所述gpu对应的第一最大功率以及所述计算系统对应的第二最大功率;所述第一功率和所述总功率的第一比值,与所述第一最大功率呈正相关;

49、控制模块,用于基于所述第一最大功率控制所述gpu的实际功率,以及基于所述第二最大功率控制所述计算系统的实际功率。

50、在一种可能的实施方式中,所述计算设备还包括电源;所述确定模块具体用于:

51、获取所述gpu在多个时刻对应的多个gpu功率,所述预设时长包括所述多个时刻,所述多个时刻中任意两个时刻之间的时长相同;

52、对所述多个gpu功率进行加和处理,得到所述第一功率;

53、获取所述电源在所述多个时刻对应的多个电源功率;

54、对所述多个电源功率进行加和处理,得到所述总功率。

55、在一种可能的实施方式中,所述确定模块具体还用于:

56、确定所述第一功率和所述总功率的第一比值,并基于所述第一比值和所述最大功率,确定所述第一最大功率;

57、根据所述总功率和所述第一功率,确定预设时长内所述计算系统的第二功率;

58、确定所述第二功率和所述总功率的第二比值,并基于所述第二比值和所述最大功率,确定所述第二最大功率。

59、在一种可能的实施方式中,所述确定模块具体还用于:

60、针对所述多个时刻中的任意一个时刻,基于所述时刻对应的电源功率和gpu功率,确定所述时刻对应的计算系统功率;

61、对所述多个时刻对应的多个计算系统功率进行加和处理,得到所述第二功率。

62、在一种可能的实施方式中,在基于所述第一功率、所述总功率和所述计算设备的最大功率,确定所述gpu对应的第一最大功率以及所述计算系统对应的第二最大功率之前,所述确定模块具体还用于:

63、确定计算设备的当前总额定功率;

64、若所述总功率与所述当前总额定功率的比值大于或者等于预设阈值,则将所述当前总额定功率确定为所述最大功率;

65、若所述总功率与所述当前总额定功率的比值小于所述预设阈值,则将预设最大功率确定为所述最大功率。

66、在一种可能的实施方式中,所述计算设备还包括基板管理控制器bmc;所述控制模块具体用于:

67、向所述gpu发送第一功率调节指令,所述第一功率调节指令包括所述第一最大功率,所述第一功率调节指令用于指示所述gpu控制所述gpu的实际功率小于所述第一最大功率。

68、在一种可能的实施方式中,所述计算设备还包括管理控制器,所述计算系统还包括处理器;所述控制模块具体用于:

69、向所述管理控制器发送第二功率调节指令,所述第二功率调节指令包括所述第二最大功率,所述第二功率调节指令用于指示所述管理控制器在确定所述当前计算系统功率大于或等于所述第二最大功率时,向所述处理器发送降耗指令,所述降耗指令用于指示所述处理器控制所述计算系统的实际功率小于所述第二最大功率。

70、在一种可能的实施方式中,所述计算设备还包括电源;所述控制模块具体用于:

71、获取所述gpu在所述当前时刻对应的当前gpu功率;

72、获取所述电源在所述当前时刻对应的当前电源功率;

73、根据所述当前gpu功率和所述当前电源功率,确定所述当前计算系统功率。

74、在一种可能的实施方式中,所述计算系统包括处理器;所述控制模块具体用于:

75、向所述处理器发送第二功率调节指令,所述第二功率调节指令包括所述第二最大功率,所述第二功率调节指令用于指示所述处理器对所述计算系统进行降耗处理,以控制所述计算系统的实际功率小于所述第二最大功率。

76、本技术实施例提供的功率控制装置,可以执行如第一方面任一项所述的技术方案,其有益效果类似,此处不再进行赘述。

77、第三方面,本技术实施例提供一种计算设备,所述计算设备包括处理器和存储器,所述存储器用于存储计算机指令,所述处理器用于执行所述计算机指令,实现如第一方面中任一项所述的方法。

78、本技术实施例提供的计算设备,可以执行如第一方面任一项所述的技术方案,其有益效果类似,此处不再进行赘述。

79、第四方面,本技术实施例提供一种芯片,所述芯片用于实现如第一方面中任一项所述的方法。

80、本技术实施例提供的芯片,可以执行如第一方面任一项所述的技术方案,其有益效果类似,此处不再进行赘述。

81、第五方面,本技术实施例提供一种计算机可读存储介质,所述计算机可读存储介质中存储有计算机执行指令,当所述计算机执行指令被计算机执行时实现如第一方面中任一项所述的方法。

82、本技术实施例提供的计算机可读存储介质,可以执行如第一方面任一项所述的技术方案,其有益效果类似,此处不再进行赘述。

83、第六方面,本技术实施例提供一种计算机程序产品,包括计算机程序,所述计算机程序被处理器执行时,实现如第一方面任一项所述的方法。

84、本技术实施例提供的计算机程序产品,可以执行如第一方面任一项所述的技术方案,其有益效果类似,此处不再进行赘述。

85、本技术实施例提供的功率控制方法和计算设备,该方法基于计算设备的总功率、gpu对应的第一功率和计算设备的最大功率,确定gpu对应的第一最大功率和计算系统对应的第二最大功率,并基于第一最大功率对gpu的实际功率进行调控以降低gpu的功率消耗,以及基于第二最大功率对计算系统的实际功率进行调控以降低计算系统的功率消耗,使得计算设备在降低计算系统的功率消耗的基础上,还降低了gpu的功率消耗,从而有利于保障计算设备的整机功率低于计算设备的最大功率。


技术特征:

1.一种功率控制方法,其特征在于,应用于计算设备,所述计算设备包括图形处理器gpu和计算系统,包括:

2.根据权利要求1所述的方法,其特征在于,所述计算设备还包括电源;确定预设时长内所述gpu的第一功率和所述计算设备的总功率,包括:

3.根据权利要求2所述的方法,其特征在于,基于所述第一功率、所述总功率和所述计算设备的最大功率,确定所述gpu对应的第一最大功率以及所述计算系统对应的第二最大功率,包括:

4.根据权利要求3所述的方法,其特征在于,根据所述总功率和所述第一功率,确定预设时长内所述计算系统的第二功率,包括:

5.根据权利要求1-4任一项所述的方法,其特征在于,在基于所述第一功率、所述总功率和所述计算设备的最大功率,确定所述gpu对应的第一最大功率以及所述计算系统对应的第二最大功率之前,所述方法还包括:

6.根据权利要求1-5任一项所述的方法,其特征在于,所述计算设备还包括基板管理控制器bmc;基于所述第一最大功率控制所述gpu的实际功率,包括:

7.根据权利要求6所述的方法,其特征在于,所述计算设备还包括管理控制器,所述计算系统还包括处理器;基于所述第二最大功率控制所述计算系统的实际功率,包括:

8.根据权利要求7所述的方法,其特征在于,所述计算设备还包括电源;在通过所述管理控制器向所述bmc请求获取所述计算系统在当前时刻对应的当前计算系统功率之前,所述方法还包括:

9.根据权利要求6所述的方法,其特征在于,所述计算系统包括处理器;基于所述第二最大功率控制所述计算系统的实际功率,包括:

10.一种计算设备,其特征在于,所述计算设备包括处理器和存储器,所述存储器用于存储计算机指令,所述处理器用于执行所述计算机指令,实现如权利要求1至9任一项所述的方法。


技术总结
本申请实施例提供一种功率控制方法和计算设备,该方法应用于计算设备,计算设备包括图形处理器GPU和计算系统,包括:确定预设时长内GPU的第一功率和计算设备的总功率;基于第一功率、总功率和计算设备的最大功率,确定GPU对应的第一最大功率以及计算系统对应的第二最大功率;第一功率和总功率的第一比值,与第一最大功率呈正相关;基于第一最大功率控制GPU的实际功率,以及基于第二最大功率控制计算系统的实际功率。该方法可以实现计算设备在降低计算系统的功率消耗的基础上,还可以降低GPU的功率消耗,从而有利于保障计算设备的整机功率低于计算设备的最大功率。

技术研发人员:何文星
受保护的技术使用者:超聚变数字技术有限公司
技术研发日:
技术公布日:2024/10/31
转载请注明原文地址: https://www.8miu.com/read-26200.html

最新回复(0)