一种故障记录、定位方法、装置以及服务器与流程

allin2024-07-11  94



1.本说明书涉及通信技术领域,尤其涉及一种故障记录、定位方法、装置以及服务器。


背景技术:

2.随着网络技术的发展,承载网络服务以及数据存储的服务器的应用也逐渐增加。在数据中心里,部署有大量的服务器,这样的环境下,如何使工作人员高效便捷地实现服务器的运维是本领域技术人员亟待解决的问题。
3.在现有的服务器中,为了方便工作人员查看服务器的运行数据,通常会采用带内和带外的管理模式,带内管理分为bios(基础输入输出系统,basic input output system)和os(操作系统,operation system)两部分,带外管理通过bmc(基板管理控制器,baseboard management controller)实现。在服务器正常工作的情况下,os通过bios将服务器的运行信息发送给bmc进行记录,在os出现异常被挂死时,os无法将故障时的运行信息(也可以称为故障信息)发送给bios,bmc也无法获得,使得工作人员难以确定故障原因,从而降低了工作人员对服务器进行维护的效率。


技术实现要素:

4.为克服相关技术中存在的问题,本说明书提供了一种故障记录、定位方法、装置以及服务器。
5.根据本说明书实施例的第一方面,提供了一种故障记录方法,应用于服务器中的bios芯片,包括:
6.在确定服务器中运行的os出现不可纠正故障时,获取服务器中与不可纠正故障相关联的第一故障参数;
7.将第一故障参数记录至存储介质,其中,存储介质分别通过第一总线连接至bios芯片和bmc;
8.在os重启后,将存储介质中记录的第一故障参数发送至bmc。
9.可选的,该方法,还包括:
10.在确定服务器中运行os出现可纠正故障时,获取服务器中与可纠正故障相关联的第二故障参数;
11.通过第二总线将第二故障参数发送至bmc。
12.可选的,该方法,还包括:
13.在服务器启动时,对服务器中的各类器件进行检测,并记录启动参数;
14.通过第二总线将第二故障参数发送至bmc;或者,
15.在服务器正常工作时,在预设的时间节点获取并记录服务器中的各类器件的正常参数;
16.通过第二总线将正常参数发送至bmc。
17.可选的,第二总线为vga总线。
18.可选的,第一总线为集成电路i2c总线。
19.根据本说明书实施例的第二方面,提供了一种故障定位方法,应用于服务器中的bmc,包括:
20.通过第一总线获取并记录服务器中的第一故障参数,其中,第一故障参数为服务器中运行的os出现不可纠正故障时,写入与bmc以及服务器中的bios芯片所连接的存储介质中的运行参数;
21.根据第一故障参数与比对参数,确定服务器中出现故障的器件。
22.可选的,比对参数,包括:启动参数和\或正常参数,其中,启动参数为服务器启动时所记录的运行参数,正常参数为在服务器正常工作时,在预设的时间节点获取并记录服务器中的各类器件的运行参数;
23.该方法,还包括:
24.通过第二总线获取并记录服务器中的启动参数和\或正常参数;
25.根据第一故障参数与比对参数,确定服务器中出现故障的器件,具体为:
26.通过第一故障参数比对启动参数和\或正常参数,确定服务器中出现故障的器件。
27.可选的,该方法,还包括:
28.通过第二总线获取并记录服务器中的第二故障参数,其中,第二故障参数为在确定服务器中运行的os出现可纠正故障时所记录的运行参数;
29.比对正常参数和第二故障参数,确定服务器中出现故障的器件。
30.根据本说明书实施例的第三方面,提供了一种故障记录装置,应用于服务器中的bios芯片,包括:
31.获取单元,用于在确定服务器中运行的os出现不可纠正故障时,获取服务器中与不可纠正故障相关联的第一故障参数;
32.记录单元,用于将第一故障参数记录至存储介质,其中,存储介质分别通过第一总线连接至bios芯片和bmc;
33.发送单元,用于在os重启后,将存储介质中记录的第一故障参数发送至bmc。
34.根据本说明书实施例的第四方面,提供了一种故障定位装置,应用于服务器中的bmc,包括:
35.记录单元,用于通过第一总线获取并记录服务器中的第一故障参数,其中,第一故障参数为服务器中运行的os出现不可纠正故障时,写入与bmc以及服务器中的bios芯片所连接的存储介质中的运行参数;
36.定位单元,用于根据第一故障参数与比对参数,确定服务器中出现故障的器件。
37.可选的,比对参数,包括:启动参数和\或正常参数,其中,启动参数为服务器启动时所记录的运行参数,正常参数为在服务器正常工作时,在预设的时间节点获取并记录服务器中的各类器件的运行参数;
38.该记录单元,还用于通过第二总线获取并记录服务器中的启动参数和\或正常参数;
39.定位单元,具体用于通过第一故障参数比对启动参数和\或正常参数,确定服务器中出现故障的器件。
40.可选的,该记录单元,还用于通过第二总线获取并记录服务器中的第二故障参数,其中,第二故障参数为在确定服务器中运行的os出现可纠正故障时所记录的运行参数;
41.定位单元,还用于比对正常参数和第二故障参数,确定服务器中出现故障的器件。
42.根据本说明书实施例的第五方面,提供了一种服务器,包括处理器、bios芯片、bmc以及存储介质;
43.存储介质通过第一总线分别连接bios芯片和bmc,bios芯片通过第二总线分别连接处理器和bmc;
44.在确定服务器中的处理器运行的os出现不可纠正故障时,bios芯片获取服务器中与故障相关联的第一故障参数;
45.bios芯片将第一故障参数记录至存储介质;
46.在os重启后,bios芯片将存储介质中记录的第一故障参数发送至bmc;
47.bmc根据第一故障参数和bmc中已存储的比对参数,对服务器中所出现的不可纠正故障进行定位。
48.本说明书的实施例提供的技术方案可以包括以下有益效果:
49.本说明书实施例中,通过在bios芯片和bmc之间设置共享的存储介质,在bios芯片基于硬件故障检测确定服务器中运行的os出现不可纠正故障时,从服务器中读取相关的故障参数并写入到存储介质中,在os重新启动后,再将存储介质中所保存的故障参数传输至bmc,避免os出现不可纠正故障时能够反映故障原因的故障参数丢失所带来的难以定位的问题,从而提升了服务器故障定位的效率。
50.应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本说明书。
附图说明
51.此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本说明书的实施例,并与说明书一起用于解释本说明书的原理。
52.图1是本技术实施方式所涉及的一种故障记录方法的流程图;
53.图2是本技术实施方式所涉及的一种服务器的结构示意图;
54.图3是本技术实施方式所涉及的一种故障定位方法的流程图;
55.图4是本技术实施方式所涉及的一种故障记录装置的结构示意图;
56.图5是本技术实施方式所涉及的一种故障定位装置的结构示意图。
具体实施方式
57.这里将详细地对示例性实施例进行说明,其示例表示在附图中。下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本说明书相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本说明书的一些方面相一致的装置和方法的例子。
58.本技术提供了一种故障记录方法,应用于服务器中的bios芯片,如图1所示,包括:
59.s100、在确定服务器中运行的os出现不可纠正故障时,获取服务器中与不可纠正故障相关联的第一故障参数。
60.服务器内部的结构,如图2所示,包括处理器、bios芯片、bmc以及存储介质,在处理器中运行有os。在bios芯片中可以设定为固件优先模式,即在smi(串行管理接口,serial management interface)中断被处理器检测到后,协调bios芯片收集运行参数。在bios芯片中可以划定一段存储空间用于暂存收集到的运行参数,或者,可以在内存中设定一段存储空间暂存收集到的运行参数。
61.存储介质通过第一总线分别连接bios芯片和bmc,bios芯片通过第二总线分别连接处理器和bmc。其中,第一总线可以为i2c(集成电路,inter-integrated circuit)总线、lpc(低引脚树接口,low pin count)总线以及espi(增强型串行外接接口,enhanced serial peripheral interface)总线等符合ipmi标准的总线之一,根据实际需求设置即可。具体而言,该存储介质为非易失性存储介质,在下电后数据不会丢失。
62.os在运行过程中可能出现可纠正故障以及不可纠正故障。其中,在不可纠正故障的情况下,os被挂起无法继续运行,处理器无法继续获取到故障后运行参数,该运行参数后续可以被称为第一故障参数。
63.需要说明的是,该第一故障参数可以根据smi中断上报的信息进行选择,比如处理器故障、内存故障、pcie(外围部件高速互联,peripheral component interconnect express)故障等,则bios芯片该器件所对应的寄存器获取运行参数作为第一故障信息。
64.s101、将第一故障参数记录至存储介质。
65.由于在os出现不可纠正故障时,os将会被重新加载,此时,故障情况下的运行参数将被丢失,从而难以实现故障定位。因此,bios芯片在获取到第一故障参数后,可以通过第一总线,将获取到的第一故障参数传输到存储介质,以避免os重新加载时运行参数丢失的问题。
66.s102、在os重启后,将存储介质中记录的第一故障参数发送至bmc。
67.在确定os被挂死后,基于服务器中的机制,比如看门狗等,重新启动os,恢复其运行。
68.在bios芯片检测到os重新启动后,bios芯片可以检测存储介质中是否存储有数据。如果有,则可以认为os重启前出现过不可纠正故障,bios芯片将存储介质中存储的第一故障参数输出至bmc,或者,通知bmc向存储介质发起读取请求,以使存储介质将第一故障参数反馈给bmc。如果没有,则可以认为os重启为正常,无需进行处理。
69.另外,在服务器中,针对处理器运行的os所出现的可纠正故障,该方法,还包括:
70.s103、在确定服务器中运行os出现可纠正故障时,获取服务器中与可纠正故障相关联的第二故障参数。
71.s104、通过第二总线将第二故障参数发送至bmc。
72.由于os的运行不会停止,处理器可以记录这些故障的运行参数。那么,bios芯片如果确定os出现的故障为可纠正故障,则可以选择主动向处理器读取第二故障参数或者等待处理器发送第二故障参数,这里可以根据实际的需求选择,不做限制。
73.其中,第二总线可以为视频图形矩阵vga(视频图形阵列,video graphics array)总线、本地总线(local bus)等,具体而言,由于vga总线的传输能够具有更大传输空间,因此,能够将更多的运行参数发送至bmc,以实现更加准确的故障定位。
74.为了获取服务器全周期的运行参数,可选的,该方法,还包括:
75.s105a、在服务器启动时,对服务器中的各类器件进行检测,并记录启动参数。
76.s106a、通过第二总线将第二故障参数发送至bmc;或者,
77.s105b、在服务器正常工作时,在预设的时间节点获取并记录服务器中的各类器件的正常参数;
78.s106b、通过第二总线将正常参数发送至bmc。
79.在服务器启动时,bios芯片可以对服务器中的器件进行自检,比如,检测硬盘、内存、处理器以及显卡等。此时,bios芯片可以通过第二总线发送至bmc,以使bmc进行记录。这里所说的启动,也包含在os出现不可纠正故障的情况下进行的重启。
80.或者,在服务器的os中可以设置有多个时间节点,比如设置12小时为一个时间节点,并且在服务器中可以设置有一计时器。在计时器到达该时间节点时,处理器可以出发bios芯片收集服务器的运行参数,并由该bios芯片将这些运行参数发送给bmc进行保存。
81.相对应的,本技术还提供了一种故障定位方法,应用于服务器中的bmc,如图3所示,包括:
82.s200、通过第一总线获取并记录服务器中的第一故障参数。
83.其中,第一故障参数为服务器中运行的os出现不可纠正故障时,写入与bmc以及服务器中的bios芯片所连接的存储介质中的运行参数。
84.s201、根据第一故障参数与比对参数,确定服务器中出现故障的器件。
85.其中,比对参数已经被记录于bmc中,可以包含有启动参数和正常参数等,当然也可以包含有上一次启动时所生成的第一故障参数。
86.通过服务器发生故障时,存储到存储介质的第一故障参数,与bmc中已经存储的比对参数进行比对,可以更加简便高效地确定出服务器的故障发生在哪一器件,并可以根据对比分析确定出具体的故障原因,从而使得工作人员能够更快地排除该故障。
87.可选的,该方法,还包括:
88.s202、通过第二总线获取并记录服务器中的启动参数和\或正常参数。
89.比对参数可以包含启动参数和\或正常参数,具体比对参数的选用和获取可以根据实际需求选择。其中,启动参数为服务器启动时所记录的运行参数,正常参数为在服务器正常工作时,在预设的时间节点获取并记录服务器中的各类器件的运行参数。
90.步骤s201,具体为:比对服务器相邻两次启动时所记录的启动参数,确定服务器中出现故障的器件。
91.比如,在服务器正常工作时,bmc可以按照一定时间间隔,比如5分钟,通过第二总线通过显卡抓取到显示信息,该显示信息即可以作为正常参数。在服务器发送不可纠正故障时,bios芯片可以再次抓取显卡的显示信息,并存储到存储介质,作为第一故障参数。
92.在os重启后,bios芯片检测到存储介质中具有第一故障参数,则将该第一故障参数传输至bmc进行记录。此时,bmc则可以根据两次显示信息进行比对,如果两次显示信息中的内容没有变化,则可以说明,在服务器仍运行的过程中,显示的内容没有改变,则可以确定出显卡可能出现问题,从而使工作人员对显卡进行更为具体的检测。
93.再比如,在服务器启动时,bios芯片检测内存大小为4吉比特,该内存大小作为启动参数中所包含的内容被存储到bmc中。在os故障时,bios芯片再次获取到内存大小,比如为2吉比特,并作为第一故障参数中的内容存储到存储介质。
94.在os重启后,bios芯片将该第一故障参数发送至bmc进行记录,以使工作人员在进行比对时,能够确定出内存大小的下降,从而定位出内存可能出现损坏。
95.当然,第一故障参数中并非仅包含显示信息和内存大小,此处仅为举例描述。
96.作为另一种定位故障的运行参数,可选的,该方法,还包括:
97.s203、通过第二总线获取并记录服务器中的第二故障参数。
98.其中,第二故障参数为在确定服务器中运行的os出现可纠正故障时所记录的运行参数。
99.步骤s201、具体为:比对正常参数和第二故障参数,确定服务器中出现故障的器件。
100.由于第二故障参数为可纠正故障所对应的运行参数,其并不会导致os直接被挂死,因此,处理器仍可以通过第二总线进行传输。此时第二故障参数会经由bios芯片写入到bmc中。
101.bmc可以根据服务器正常运行过程中的正常参数与该第二故障参数进行比对,从而定位出第二故障参数所对应的故障位置。
102.相对应的,提供了一种故障记录装置,应用于服务器中的bios芯片,如图4所示,包括:
103.获取单元,用于在确定服务器中运行的os出现不可纠正故障时,获取服务器中与不可纠正故障相关联的第一故障参数;
104.记录单元,用于将第一故障参数记录至存储介质,其中,存储介质分别通过第一总线连接至bios芯片和bmc;
105.发送单元,用于在os重启后,将存储介质中记录的第一故障参数发送至bmc。
106.可选的,该获取单元,还用于在确定所述服务器中运行os出现可纠正故障时,获取所述服务器中与可纠正故障相关联的第二故障参数;
107.该发送单元,还用于通过第二总线将所述第二故障参数发送至所述bmc。
108.可选的,该获取单元,还用于在所述服务器启动时,对所述服务器中的各类器件进行检测,并记录启动参数;
109.该发送单元,还用于通过第二总线将所述第二故障参数发送至所述bmc;或者,
110.该获取单元,还用于在所述服务器正常工作时,在预设的时间节点获取并记录所述服务器中的各类器件的正常参数;
111.该记录单元,还用于通过第二总线将所述正常参数发送至所述bmc。
112.可选的,所述第二总线为视频图形矩阵vga总线。
113.可选的,所述第一总线为集成电路i2c总线。
114.相对应的,提供了一种故障定位装置,应用于服务器中的bmc,如图5所示,包括:
115.记录单元,用于通过第一总线获取并记录服务器中的第一故障参数,其中,第一故障参数为服务器中运行的os出现不可纠正故障时,写入与bmc以及服务器中的bios芯片所连接的存储介质中的运行参数;
116.定位单元,用于根据第一故障参数与比对参数,确定服务器中出现故障的器件。
117.可选的,比对参数,包括:启动参数和\或正常参数,其中,启动参数为服务器启动时所记录的运行参数,正常参数为在服务器正常工作时,在预设的时间节点获取并记录服
务器中的各类器件的运行参数;
118.该记录单元,还用于通过第二总线获取并记录服务器中的启动参数和\或正常参数;
119.定位单元,具体用于通过第一故障参数比对启动参数和\或正常参数,确定服务器中出现故障的器件。
120.可选的,该记录单元,还用于通过第二总线获取并记录服务器中的第二故障参数,其中,第二故障参数为在确定服务器中运行的os出现可纠正故障时所记录的运行参数;
121.定位单元,还用于比对正常参数和第二故障参数,确定服务器中出现故障的器件。
122.相对应的,提供了一种服务器,如图2所示,包括处理器、bios芯片、bmc以及存储介质;
123.存储介质通过第一总线分别连接bios芯片和bmc,bios芯片通过第二总线分别连接处理器和bmc;
124.在确定服务器中的处理器运行的os出现不可纠正故障时,bios芯片获取服务器中与故障相关联的第一故障参数;
125.bios芯片将第一故障参数记录至存储介质;
126.在os重启后,bios芯片将存储介质中记录的第一故障参数发送至bmc;
127.bmc根据第一故障参数和bmc中已存储的比对参数,对服务器中所出现的不可纠正故障进行定位。
128.可选的,第二总线为vga总线。
129.可选的,第一总线为i2c总线。
130.本说明书的实施例提供的技术方案可以包括以下有益效果:
131.本说明书实施例中,通过在bios芯片和bmc之间设置共享的存储介质,在bios芯片基于硬件故障检测确定服务器中运行的os出现不可纠正故障时,从服务器中读取相关的故障参数并写入到存储介质中,在os重新启动后,再将存储介质中所保存的故障参数传输至bmc,避免os出现不可纠正故障时能够反映故障原因的故障参数丢失所带来的难以定位的问题,从而提升了服务器故障定位的效率。
132.应当理解的是,本说明书并不局限于上面已经描述并在附图中示出的精确结构,并且可以在不脱离其范围进行各种修改和改变。本说明书的范围仅由所附的权利要求来限制。
133.以上所述仅为本说明书的较佳实施例而已,并不用以限制本说明书,凡在本说明书的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本说明书保护的范围之内。

技术特征:
1.一种故障记录方法,其特征在于,应用于服务器中的基础输入输出系统bios芯片,包括:在确定所述服务器中运行的操作系统os出现不可纠正故障时,获取所述服务器中与不可纠正故障相关联的第一故障参数;将所述第一故障参数记录至存储介质,其中,所述存储介质分别通过第一总线连接至所述bios芯片和基板管理控制器bmc;在所述os重启后,将所述存储介质中记录的第一故障参数发送至所述bmc。2.根据权利要求1所述的方法,其特征在于,还包括:在确定所述服务器中运行os出现可纠正故障时,获取所述服务器中与可纠正故障相关联的第二故障参数;通过第二总线将所述第二故障参数发送至所述bmc。3.根据权利要求1所述的方法,其特征在于,还包括:在所述服务器启动时,对所述服务器中的各类器件进行检测,并记录启动参数;通过第二总线将所述第二故障参数发送至所述bmc;或者,在所述服务器正常工作时,在预设的时间节点获取并记录所述服务器中的各类器件的正常参数;通过第二总线将所述正常参数发送至所述bmc。4.根据权利要求2或3所述的方法,其特征在于,所述第二总线为视频图形矩阵vga总线。5.根据权利要求1-3任一项所述的方法,其特征在于,所述第一总线为集成电路i2c总线。6.一种故障定位方法,其特征在于,应用于服务器中的bmc,包括:通过第一总线获取并记录所述服务器中的第一故障参数,其中,所述第一故障参数为所述服务器中运行的os出现不可纠正故障时,写入与所述bmc以及所述服务器中的bios芯片所连接的存储介质中的运行参数;根据所述第一故障参数与比对参数,确定所述服务器中出现故障的器件。7.根据权利要求6所述的方法,其特征在于,所述比对参数,包括:启动参数和\或正常参数,其中,所述启动参数为所述服务器启动时所记录的运行参数,所述正常参数为在所述服务器正常工作时,在预设的时间节点获取并记录所述服务器中的各类器件的运行参数;所述方法,还包括:通过第二总线获取并记录所述服务器中的启动参数和\或正常参数;所述根据所述第一故障参数与比对参数,确定所述服务器中出现故障的器件,具体为:通过所述第一故障参数比对所述启动参数和\或所述正常参数,确定所述服务器中出现故障的器件。8.根据权利要求7所述的方法,其特征在于,还包括:通过第二总线获取并记录所述服务器中的第二故障参数,其中,所述第二故障参数为在确定所述服务器中运行的os出现可纠正故障时所记录的运行参数;比对所述正常参数和所述第二故障参数,确定所述服务器中出现故障的器件。9.一种故障记录装置,其特征在于,应用于服务器中的bios芯片,包括:
获取单元,用于在确定所述服务器中运行的os出现不可纠正故障时,获取所述服务器中与不可纠正故障相关联的第一故障参数;记录单元,用于将所述第一故障参数记录至存储介质,其中,所述存储介质分别通过第一总线连接至所述bios芯片和bmc;发送单元,用于在所述os重启后,将所述存储介质中记录的第一故障参数发送至所述bmc。10.一种故障定位装置,其特征在于,应用于服务器中的bmc,包括:记录单元,用于通过第一总线获取并记录所述服务器中的第一故障参数,其中,所述第一故障参数为所述服务器中运行的os出现不可纠正故障时,写入与所述bmc以及所述服务器中的bios芯片所连接的存储介质中的运行参数;定位单元,用于根据所述第一故障参数,确定所述服务器中出现故障的器件。11.一种服务器,其特征在于,包括处理器、bios芯片、bmc以及存储介质;所述存储介质通过第一总线分别连接所述bios芯片和所述bmc,所述bios芯片通过第二总线分别连接所述处理器和所述bmc;在确定所述服务器中的处理器运行的os出现不可纠正故障时,所述bios芯片获取所述服务器中与故障相关联的第一故障参数;所述bios芯片将所述第一故障参数记录至存储介质;在所述os重启后,所述bios芯片将所述存储介质中记录的第一故障参数发送至所述bmc;所述bmc根据所述第一故障参数和bmc中已存储的比对参数,对所述服务器中所出现的不可纠正故障进行定位。

技术总结
本说明书提供一种故障记录、定位方法、装置以及服务器,涉及通信技术领域。一种故障记录方法,应用于服务器中的BIOS芯片,包括:在确定服务器中运行的OS出现不可纠正故障时,获取服务器中与不可纠正故障相关联的第一故障参数;将第一故障参数记录至存储介质,其中,存储介质分别通过第一总线连接至BIOS芯片和BMC;在OS重启后,将存储介质中记录的第一故障参数发送至BMC。通过上述方法,能够提高服务器中的故障定位效率。故障定位效率。故障定位效率。


技术研发人员:林震华
受保护的技术使用者:新华三信息技术有限公司
技术研发日:2022.03.28
技术公布日:2022/7/5
转载请注明原文地址: https://www.8miu.com/read-15268.html

最新回复(0)