本发明涉及数据处理方法,更具体地说是指数据分析标准化治理方法、装置、计算机设备及存储介质。
背景技术:
1、随着大数据行业的蓬勃发展,数据的重要性愈发凸显,各类数据应用工具层出不穷,为企业带来了巨大的经济效益。然而,随之而来的是一系列数据管理问题,这些问题严重制约了数据应用的持续发展。企业在解决数据问题时采取的方式会导致问题反复出现。要从根本上解决这些问题,必须从数据标准管理入手,规范化管理数据的整个生命周期。数据标准确保了数据在内外部使用和交换过程中的一致性和准确性,简言之,就是为企业制定统一的数据类型、长度、归属部门等规范,以确保不同业务系统对数据的理解和使用达成一致。
2、大多数企业的系统建设通常是根据具体业务需求进行的,缺乏整体规划,很少考虑与其他系统功能或数据的重复问题;不同系统由不同厂商和产品构建,导致数据不一致性难以避免,进而影响数据共享、增加沟通成本,甚至使得数据来源难以追溯等多种问题。数据标准化的过程实质上是通过清洗、转换、加载数据到标准化的数据模型中。常见的数据标准化方法包括基于某些标准的定义,但这种方法通常只适用于通用数据元或常见行业数据元,对于行业细分领域或企业内部数据不够适用。另一种方法是基于数据现状调研的定义,通过多层面的数据现状调研和借鉴成熟的实践经验和标准来制定企业自身的数据标准体系框架,尽管该方法覆盖面广,但其定义过程主观性强、成本高,耗费时间和人力资源。
3、因此,有必要设计一种新的方法,实现能够覆盖行业细分领域或企业内部绝大部分数据,定义流程规范,显著减少主观性影响,降低人力投入和成本。
技术实现思路
1、本发明的目的在于克服现有技术的缺陷,提供数据分析标准化治理方法、装置、计算机设备及存储介质。
2、为实现上述目的,本发明采用以下技术方案:数据分析标准化治理方法,包括:
3、获取待标准化数据;
4、对所述待标准化数据进行etl处理,以得到处理结果;
5、对所述处理结果进行血缘分析,以得到分析结果;
6、基于所述待标准化数据、所述处理结果以及所述分析结果进行sql分类,以得到分类结果;
7、基于所述分类结果以及所述分析结果对所述待标准化数据进行标准化计算,以得到标准化结果。
8、其进一步技术方案为:所述对所述待标准化数据进行etl处理,以得到处理结果,包括:
9、对所述待标准化数据进行清洗、转换、加载脚本,以得到处理结果。
10、其进一步技术方案为:所述基于所述待标准化数据、所述处理结果以及所述分析结果进行sql分类,以得到分类结果,包括:
11、提取所述处理结果中相关的etl语句;
12、判断所述etl语句中是否包含when语句;
13、若所述etl语句不包含when语句,则确定etl过程类别为非离散型,设置对应离散度为1,以得到分类结果;
14、若所述etl语句包含when语句,则确定etl过程类别为离散型,设置对应离散度等于所述etl语句中的when语句和else语句的数量,以得到分类结果。
15、其进一步技术方案为:所述基于所述分类结果以及所述分析结果对所述待标准化数据进行标准化计算,以得到标准化结果,包括:
16、根据所述待标准化数据、所述分析结果中的底层数据以及所述分类结果进行数据实例标准化,以得到标准化结果。
17、其进一步技术方案为:所述根据所述待标准化数据、所述分析结果中的底层数据以及所述分类结果进行数据实例标准化,以得到标准化结果,包括:
18、根据所述待标准化数据和所述底层数据的技术属性进行技术属性标准化;
19、根据所述分类结果以及所述底层数据的编码规则进行编码规则的标准化处理,以得到标准化结果。
20、其进一步技术方案为:所述根据所述待标准化数据和所述底层数据的技术属性进行技术属性标准化,包括:
21、根据所述待标准化数据和所述底层数据的技术属性进行数据类型、长度以及默认规则的标准化。
22、其进一步技术方案为:所述根据所述分类结果以及所述底层数据的编码规则进行编码规则的标准化处理,以得到标准化结果,包括:
23、根据所述底层数据对应的元数据中的编码规则确定底层数据的离散度;
24、根据所述分类结果以及所述底层数据的离散度确定编码范围;
25、根据所述编码范围对所述待标准化数据进行编码标准化处理,以得到标准化结果。
26、本发明还提供了数据分析标准化治理装置,包括:
27、数据获取单元,用于获取待标准化数据;
28、etl处理单元,用于对所述待标准化数据进行etl处理,以得到处理结果;
29、血缘分析单元,用于对所述处理结果进行血缘分析,以得到分析结果;
30、分类单元,用于基于所述待标准化数据、所述处理结果以及所述分析结果进行sql分类,以得到分类结果;
31、标准化单元,用于基于所述分类结果以及所述分析结果对所述待标准化数据进行标准化计算,以得到标准化结果。
32、本发明还提供了一种计算机设备,所述计算机设备包括存储器及处理器,所述存储器上存储有计算机程序,所述处理器执行所述计算机程序时实现上述的方法。
33、本发明还提供了一种存储介质,所述存储介质存储有计算机程序,所述计算机程序被处理器执行时实现上述的方法。
34、本发明与现有技术相比的有益效果是:本发明通过从获取待标准化数据开始,经过etl处理、血缘分析和sql分类,最终对数据进行标准化计算,得到标准化结果,实现能够覆盖行业细分领域或企业内部绝大部分数据,定义流程规范,显著减少主观性影响,降低人力投入和成本。
35、下面结合附图和具体实施例对本发明作进一步描述。
1.数据分析标准化治理方法,其特征在于,包括:
2.根据权利要求1所述的数据分析标准化治理方法,其特征在于,所述对所述待标准化数据进行etl处理,以得到处理结果,包括:
3.根据权利要求1所述的数据分析标准化治理方法,其特征在于,所述基于所述待标准化数据、所述处理结果以及所述分析结果进行sql分类,以得到分类结果,包括:
4.根据权利要求1所述的数据分析标准化治理方法,其特征在于,所述基于所述分类结果以及所述分析结果对所述待标准化数据进行标准化计算,以得到标准化结果,包括:
5.根据权利要求4所述的数据分析标准化治理方法,其特征在于,所述根据所述待标准化数据、所述分析结果中的底层数据以及所述分类结果进行数据实例标准化,以得到标准化结果,包括:
6.根据权利要求5所述的数据分析标准化治理方法,其特征在于,所述根据所述待标准化数据和所述底层数据的技术属性进行技术属性标准化,包括:
7.根据权利要求5所述的数据分析标准化治理方法,其特征在于,所述根据所述分类结果以及所述底层数据的编码规则进行编码规则的标准化处理,以得到标准化结果,包括:
8.数据分析标准化治理装置,其特征在于,包括:
9.一种计算机设备,其特征在于,所述计算机设备包括存储器及处理器,所述存储器上存储有计算机程序,所述处理器执行所述计算机程序时实现如权利要求1至7中任一项所述的方法。
10.一种存储介质,其特征在于,所述存储介质存储有计算机程序,所述计算机程序被处理器执行时实现如权利要求1至7中任一项所述的方法。