本发明涉及数据处理领域,特别涉及一种自动化数据异常检测与处理方法、装置、设备及介质。
背景技术:
1、在当前大数据治理过程中,主流的数据异常识别和处理技术包括统计学方法、基于机器学习的方法以及一些特定的算法和模型。统计学方法依赖于数据的概率分布,例如使用zscore、iqr(interquartile range,四分位距)法则或dbscan(density-basedspatial clustering of applications with noise,基于密度的聚类算法)聚类等来识别异常值。基于机器学习的方法则利用算法从数据中学习并识别异常,例如使用生成对抗网络(generative adversarial network,gan)进行用户与实体行为的异常检测处理技术。
2、这些技术对识别数据异常有很大提升,但在异常数据的处理方面,尤其是要满足一定标准的数据治理方面,存在着识别和处理过程衔接不畅的问题,对于异常问题的处理仍需要根据识别的结果,人工创建和维护数据处理的过程和脚本。
技术实现思路
1、有鉴于此,本发明的目的在于提供一种自动化数据异常检测与处理方法、装置、设备及介质,可以通过大模型自动识别异常数据,并生成相应的处理脚本,提高处理效率。其具体方案如下:
2、第一方面,本技术公开了一种自动化数据异常检测与处理方法,应用于生产系统,包括:
3、从若干预设数据源采集原始数据,并根据所述原始数据构建训练数据集;
4、通过所述训练数据集对初始数据质量检测模型进行训练,以得到训练后数据质量检测模型;
5、收集历史处理数据,以根据历史处理数据构建知识库,并通过预设规则引擎框架构建规则引擎,将所述知识库以及所述规则引擎集成至所述训练后数据质量检测模型,以得到目标数据质量检测模型;
6、通过所述目标数据质量检测模型对实时生产数据进行质量检测,以识别所述实时生产数据中的异常数据,并通过所述知识库以及所述规则引擎生成与所述异常数据对应的处理流程;
7、基于所述处理流程生成相应的处理脚本,并执行所述处理脚本,以完成异常数据处理。
8、可选的,所述从若干预设数据源采集原始数据,并根据所述原始数据构建训练数据集,包括:
9、从若干预设数据源采集原始数据,并对所述原始数据进行数据清洗操作,以得到处理后数据;
10、根据预设异常数据标准对所述原始数据进行标注,以将所述处理后数据标注为正常数据以及异常数据,并根据所述正常数据以及所述异常数据构建训练数据集。
11、可选的,所述通过所述训练数据集对初始数据质量检测模型进行训练,以得到训练后数据质量检测模型,包括:
12、通过所述训练数据集对初始数据质量检测模型进行训练,并通过反向传播算法以及随机梯度下降算法对所述初始数据质量检测模型进行调整优化,以得到待确定数据质量检测模型;
13、对所述待确定数据质量检测模型的模型性能进行评估,以根据得到的评估结果确定所述待确定数据质量检测模型的模型性能是否满足预设性能要求;
14、若不满足,则跳转至所述通过所述训练数据集对初始数据质量检测模型进行训练的步骤,以进行下一轮模型训练,直至所述待确定数据质量检测模型的模型性能满足预设性能要求;
15、若满足,则将所述待确定数据质量检测模型作为进行数据质量检测的训练后数据质量检测模型。
16、可选的,所述收集历史处理数据,以根据历史处理数据构建知识库,包括:
17、通过网络爬虫收集数据异常处理流程,并通过所述数据异常处理流程以及所述预设异常数据标准构建知识库。
18、可选的,所述通过所述目标数据质量检测模型对实时生产数据进行质量检测,以识别所述实时生产数据中的异常数据,并通过所述知识库以及所述规则引擎生成与所述异常数据对应的处理流程,包括:
19、采集实时生产数据,并通过所述目标数据质量检测模型对所述实时生产数据进行质量检测,以确定所述实时生产数据中是否存在异常数据;
20、若存在异常数据,则提取所述异常数据的异常数据特征,以将所述异常数据特征输入至所述规则引擎;
21、通过所述规则引擎访问所述知识库,以检索与所述异常数据特征匹配的处理措施,并基于所述处理措施生成与所述异常数据对应的处理流程。
22、可选的,所述基于所述处理流程生成相应的处理脚本,并执行所述处理脚本,以完成异常数据处理,包括:
23、确定所述处理流程对应的若干处理节点,并确定所述若干处理节点的处理顺序;
24、生成与所述若干处理节点对应的若干处理脚本,并基于所述处理顺序执行所述若干处理脚本,以完成异常数据处理。
25、可选的,所述自动化数据异常检测与处理方法,还包括:
26、若检测到系统性能下降或数据异常引起的系统异常,则生成系统异常提醒,并将所述异常提醒推送至系统前端。
27、第二方面,本技术公开了一种自动化数据异常检测与处理装置,应用于生产系统,包括:
28、数据集构建模块,用于从若干预设数据源采集原始数据,并根据所述原始数据构建训练数据集;
29、模型训练模块,用于通过所述训练数据集对初始数据质量检测模型进行训练,以得到训练后数据质量检测模型;
30、模型集成模块,用于收集历史处理数据,以根据历史处理数据构建知识库,并通过预设规则引擎框架构建规则引擎,将所述知识库以及所述规则引擎集成至所述训练后数据质量检测模型,以得到目标数据质量检测模型;
31、流程生成模块,用于通过所述目标数据质量检测模型对实时生产数据进行质量检测,以识别所述实时生产数据中的异常数据,并通过所述知识库以及所述规则引擎生成与所述异常数据对应的处理流程;
32、脚本执行模块,用于基于所述处理流程生成相应的处理脚本,并执行所述处理脚本,以完成异常数据处理。
33、第三方面,本技术公开了一种电子设备,包括:
34、存储器,用于保存计算机程序;
35、处理器,用于执行所述计算机程序以实现如前述的自动化数据异常检测与处理方法。
36、第四方面,本技术公开了一种计算机可读存储介质,用于保存计算机程序,所述计算机程序被处理器执行时实现如前述的自动化数据异常检测与处理方法。
37、本技术中,首先从若干预设数据源采集原始数据,并根据所述原始数据构建训练数据集,通过所述训练数据集对初始数据质量检测模型进行训练,以得到训练后数据质量检测模型,然后收集历史处理数据,以根据历史处理数据构建知识库,并通过预设规则引擎框架构建规则引擎,将所述知识库以及所述规则引擎集成至所述训练后数据质量检测模型,以得到目标数据质量检测模型,并通过所述目标数据质量检测模型对实时生产数据进行质量检测,以识别所述实时生产数据中的异常数据,并通过所述知识库以及所述规则引擎生成与所述异常数据对应的处理流程,最后基于所述处理流程生成相应的处理脚本,并执行所述处理脚本,以完成异常数据处理。由此可见,通过本技术的方法可以基于采集到的原始数据构建训练数据集,以通过训练数据集对初始数据质量检测模型进行训练,得到训练后数据质量检测模型,然后根据收集的历史处理数据构建知识库,并通过预设规则引擎框架构建规则引擎,以将知识库及规则引擎集成至训练后数据质量检测模型,得到目标数据质量检测模型,最后可以通过目标数据质量检测模型识别实时生产数据中的异常数据,并通过知识库及规则引擎生成与异常数据对应的处理流程,进而根据处理流程生成相应的处理脚本,以通过执行处理脚本完成异常数据处理。这样一来,可以利用大模型识别数据中的异常数据,并且可以自动化生成处理流程,且自动识别异常后,系统能够动态自动生成并执行数据处理脚本,减少了人工干预,并有效提高了数据处理的速度和一致性。
1.一种自动化数据异常检测与处理方法,其特征在于,应用于生产系统,包括:
2.根据权利要求1所述的自动化数据异常检测与处理方法,其特征在于,所述从若干预设数据源采集原始数据,并根据所述原始数据构建训练数据集,包括:
3.根据权利要求1所述的自动化数据异常检测与处理方法,其特征在于,所述通过所述训练数据集对初始数据质量检测模型进行训练,以得到训练后数据质量检测模型,包括:
4.根据权利要求2所述的自动化数据异常检测与处理方法,其特征在于,所述收集历史处理数据,以根据历史处理数据构建知识库,包括:
5.根据权利要求1所述的自动化数据异常检测与处理方法,其特征在于,所述通过所述目标数据质量检测模型对实时生产数据进行质量检测,以识别所述实时生产数据中的异常数据,并通过所述知识库以及所述规则引擎生成与所述异常数据对应的处理流程,包括:
6.根据权利要求1所述的自动化数据异常检测与处理方法,其特征在于,所述基于所述处理流程生成相应的处理脚本,并执行所述处理脚本,以完成异常数据处理,包括:
7.根据权利要求1至6任一项所述的自动化数据异常检测与处理方法,其特征在于,还包括:
8.一种自动化数据异常检测与处理装置,其特征在于,应用于生产系统,包括:
9.一种电子设备,其特征在于,包括:
10.一种计算机可读存储介质,其特征在于,用于保存计算机程序,所述计算机程序被处理器执行时实现如权利要求1至7任一项所述的自动化数据异常检测与处理方法。