本发明涉及计算集群管理领域,尤其涉及一种高性能计算集群管理系统。
背景技术:
1、计算机是全球协作的网络设备,用来在因特网络基础设施上传递、加速、展示、计算、存储数据信息,为了保证计算机运行时的安全性和可靠性,各个计算机机房都部署有计算集群管理系统。
2、目前,总部获取各个计算集群管理系统的数据时,需要由工作人员去往各个数据中心手动传送各个计算集群管理系统的数据,
3、这种方法使得总部无法实时对各个数据中心的数据进行实时自动获取,使得总部获取各个数据中心机房计算集群管理系统的数据时效率较低。
4、中国专利申请公开号:cn111373373b公开了一种用于在具有多个处理节点的分布式数据处理系统中处理状态更新请求的方法包括维护多个计数器,这些计数器包括:工作计数器,该工作计数器指示当前时间间隔;复制计数器,该复制计数器指示这样的时间间隔,在该时间间隔内,在该多个处理节点中的数个处理节点处复制与该时间间隔相关联的所有请求;以及持久性计数器,该持久性计数器指示该多个时间间隔中的某个时间间隔,在该时间间隔内,与该时间间隔相关联的所有请求均被存储在持久性存储装置中。这些计数器用于管理对这些状态更新请求的处理。
5、中国专利申请号:cn111295643a公开了一种用于管理包括多个处理节点的分布式数据处理系统中的数据的方法包括将数据单元存储在与多个不同耐久性等级相关联的数据存储装置中。该方法包括维护指示符,这些指示符包括与第一耐久性等级相关联的第一指示符和与第二耐久性等级相关联的第二指示符。维护该第一指示符以反映这样的时间间隔,在该时间间隔处,与该时间间隔相关联的所有数据单元集均以该第一耐久性等级被存储。维护该第二指示符以反映这样的时间间隔,在该时间间隔处,与该时间间隔相关联的所有数据单元集均以该第二耐久性等级被存储。该第一指示符和该第二指示符用于管理对该分布式数据处理系统中的数据单元的处理。
6、但是,上述方法存在以下问题:无法实时对计算集群进行调控,计算集群运作效率低。
技术实现思路
1、为此,本发明提供一种高性能计算集群管理系统,用以克服现有技术中无法实时对计算集群进行调控,计算集群运作效率低的问题。
2、为实现上述目的,本发明提供一种高性能计算集群管理系统,包括:
3、若干集群模块,其用以发送和接收计算集群中主机广播的集群数据;
4、监测模块,其与所述集群模块相连,用以监测所述集群模块中接收所述集群数据的响应时间,并生成对应的响应数据,
5、其中,所述监测模块设有监测器,用以收集并生成对应的响应数据;
6、机器学习模块,其与所述监测模块相连,用以预处理所述响应数据,生成对应的预处理数据,并选取所述预处理数据的若干指标特征进行学习;
7、其中,所述机器学习模块设有响应时间阈值,所述预处理数据为根据所述响应数据进行拟合,并生成采样率为标准采样率的若干数据,并生成对应的指标特征;
8、分配模块,其与所述机器学习模块和所述集群模块相连,用以根据所述机器学习模块的学习结果调整所述计算集群。
9、进一步地,所述集群模块设定为第一类集群和第二类集群,其中,
10、对于第一类集群,其设有接收主机和若干从机,用以接收其他集群主机广播的集群数据;
11、第二类集群,其与所述第一类集群相连,设有发送主机和若干从机,用以收集从机数据,由所述发送主机向所述第一类集群广播,
12、其中,所述第二类集群为所述接收主机确定所述发送主机时对应形成的集群。
13、进一步地,所述接收主机接收到所述发送主机的上线消息后,将所述发送主机确定所述第二类集群中的主机。
14、进一步地,所述发送主机中设有间隔时长,每过所述间隔时长对所述接收主机广播第一消息,所述接收主机接收到所述第一消息后,将所述第一类集群的若干从机存储的集群数据更新为所述第一消息携带的集群数据,
15、其中,所述第一消息携带第二类集群的集群数据,所述集群数据包括所述第二类集群中主机和从机的缓存使用信息。
16、进一步地,所述响应时间为所述接收主机接收所述第一消息至所述集群数据更新的时长,所述监测器监测所述响应时间并生成对应的响应数据,输入至所述机器学习模块。
17、进一步地,所述机器学习模块根据所述响应数据生成对应的指标特征,对所述响应数据进行拟合,并生成采样率为标准采样率的若干处理数据,将得到的若干所述处理数据按标准采样率进行分割,生成对应的所述预处理数据,
18、其中,所述标准采样率与学习模块的最小识别能力有关。
19、进一步地,所述机器学习模块中设有所述响应时间监测模型,将所述预处理数据通过所述响应时间监测模型。
20、进一步地,所述机器学习模块中设有所述响应时间阈值,若所述响应时间超过所述响应时间阈值,所述分配模块向所述接收主机发送第二消息。
21、进一步地,若所述响应时间未超过所述响应时间阈值,所述分配模块不对所述集群模块做调整。
22、进一步地,所述接收主机接收到所述第二消息时,将所述第一类集群的部分从机重新标记为第二类集群的从机。
23、与现有技术相比,本发明利用设置若干集群模块、监测模块、机器学习模块、分配模块的方式,通过在机器学习模块中设置响应时间阈值和响应时间监测模型,根据计算集群的响应时间,确定计算集群是否需要调整,并利用响应时间监测模型对计算集群之间的响应时间进行了可视化,在有效提升了计算集群之间响应时间识别的准确性的同时,提升了计算集群的运作效率,从而进一步降低了对计算集群管理的复杂度。
24、进一步地,通过在计算集群中设置主机,能够通过主机对从机进行数据收集和数据更新,提高了计算集群的运作效率,从而降低了对计算集群管理的复杂度。
25、进一步地,通过在第二计算机中设置间隔时长对第一计算机广播第一消息,避免了广播间隔时长不一对响应时间产生的误差,提升了响应时长收集的准确度,从而提升了机器学习结果的准确性。
26、进一步地,通过将第一集群的若干从机存储的集群数据更新为第一消息携带的集群数据,能够使计算集群数据实时更新,提升了计算集群的运作效率,从而进一步降低了对计算集群管理的复杂度。
27、进一步地,通过利用机器学习模块对响应数据进行预处理的方式,形成对应的预处理数据,提升了响应数据的识别效率,从而能够快速地选取响应数据的有效特征,从而进一步提升了机器学习结果的准确性。
28、进一步地,通过在机器学习模块中设置对应的响应时间监测模型,对预处理后的数据进行学习,提升了响应数据的识别效率,从而进一步降低了对计算集群管理的复杂度。
29、进一步地,通过在机器学习模块中设置响应时间阈值,能够快速区分是否需要对集群模块进行调整,提升了计算集群的运作效率,从而进一步降低了对计算集群管理的复杂度。
30、进一步地,通过分配模块对集群模块做调整,能够使计算集群的管理更加简便,从而进一步降低了对计算集群管理的复杂度。
1.一种高性能计算集群管理系统,其特征在于,包括:
2.根据权利要求1所述的高性能计算集群管理系统,其特征在于,所述集群模块将计算集群设定为第一类集群和第二类集群,其中,
3.根据权利要求2所述的高性能计算集群管理系统,其特征在于,所述接收主机接收到所述发送主机的上线消息后,将所述发送主机确定所述第二类集群中的主机。
4.根据权利要求3所述的高性能计算集群管理系统,其特征在于,所述发送主机中设有间隔时长,每过所述间隔时长对所述接收主机广播第一消息,所述接收主机接收到第一消息后,将所述第一类集群的若干从机存储的集群数据更新为第一消息携带的集群数据;
5.根据权利要求1所述的高性能计算集群管理系统,其特征在于,所述响应时间为所述接收主机接收所述第一消息至所述集群数据更新的时长,所述监测器监测所述响应时间并生成对应的响应数据,输入至所述机器学习模块。
6.根据权利要求5所述的高性能计算集群管理系统,其特征在于,所述机器学习模块根据所述响应数据生成对应的指标特征,对所述响应数据进行拟合,并生成采样率为标准采样率的若干处理数据,将得到的若干所述处理数据按标准采样率进行分割,生成对应的所述预处理数据,
7.根据权利要求6所述的高性能计算集群管理系统,其特征在于,所述机器学习模块中设有所述响应时间监测模型,用以将所述预处理数据通过所述响应时间监测模型。
8.根据权利要求7所述的高性能计算集群管理系统,其特征在于,所述机器学习模块中设有响应时间阈值,若所述响应时间超过响应时间阈值,所述分配模块向所述接收主机发送第二消息。
9.根据权利要求8所述的高性能计算集群管理系统,其特征在于,若所述响应时间未超过所述响应时间阈值,所述分配模块不对所述集群模块做调整。
10.根据权利要求9所述的高性能计算集群管理系统,其特征在于,所述接收主机接收到所述第二消息时,将所述第一类集群的部分从机重新标记为第二类集群的从机。