本发明属于数据处理领域,特别是关于一种二手车实时数仓的构建方法、二手车实时数仓及其应用。
背景技术:
1、近年来,随着大数据技术和二手车市场的迅猛发展,二手车企业对实时数据分析的需求日益增长,传统的数据仓库架构难以满足商业智能(business intelligence,bi)数据分析、销售业绩分析、车商画像、检测师画像等需求,为了更好地管理、分析二手车数据,二手车企业越来越依赖实时数据仓库。
2、目前,常见的二手车数据分析系统主要基于批处理数据仓库架构,存在以下缺陷:1、处理复杂查询的性能较差,难以满足实时分析的需求,多系统间的数据同步困难,影响数据分析的准确性,难以应对不断增长的数据量;2、需要大量的服务器和存储资源,成本较高,需要专业人员进行管理、维护,维护成本高;3、实时性差,无法实时处理、分析数据,影响业务决策的实时性,处理大规模数据的效率较低,难以快速响应业务需求。
技术实现思路
1、为解决问题前述,本发明提供一种二手车实时数仓的构建方法,包括以下步骤:
2、s1、通过flinkcdc监控mysql binlog日志,将mysql中的业务表分为至少一个事实表、维度表,分别存储至少一个事实表、维度表;
3、s2、基于至少一个事实表、维度表,生成大宽表数据并将其写入kafka;
4、s3、基于大宽表数据生成ods层基础表,通过物化视图和投影技术开发上层数据,实现二手车实时数仓的构建。
5、进一步地,至少一个事实表均为订单消费类事实表。
6、进一步地,分别存储至少一个事实表、维度表,包括:将订单消费类事实表写入kafka,且每个订单消费类事实表作为一个单独的第一topic表;将维度表根据mysql主键写入redis。
7、进一步地,维度表用于维度扩展查询,包括维度数据,维度数据为二手车辆数据、用户数据、城市数据。
8、进一步地,步骤s2包括:通过flink读取至少一个第一topic表中的订单消费类数据,并关联维度表的对应维度数据,形成多个kafka数据流,再对多个kafka数据流进行联合操作,按照kafka主键进行group by聚合,生成大宽表数据,将大宽表数据写入kafka。
9、进一步地,将大宽表数据写入kafka,包括:将大宽表数据写入kafka中的第二topic表,且第二topic表与至少一个第一topic表不同。
10、进一步地,步骤s3中,基于大宽表数据生成ods层基础表,包括:通过flinksql读取大宽表数据,将其按最细粒度聚合后写入clickhouse,作为ods层基础表。
11、进一步地,通过物化视图和投影技术开发上层数据,包括:在ods层基础表的基础上,采用replacingmergetree、aggregatingmergetree或其他合适的clickhouse表引擎,使用clickhouse中的物化视图和投影技术,结合具体业务逻辑,开发dwd层和dws层的数据。
12、本发明还提供一种二手车实时数仓,由前述的二手车实时数仓的构建方法构建。
13、本发明又提供一种二手车实时数仓在商业智能数据分析、销售业绩分析、车商画像、二手车检测师画像上的应用。
14、与现有技术相比,本发明提供的二手车实时数仓的构建方法,实现了实时数据流即业务表、维度表的动态分流,可实时处理二手车交易数据,数据查询效率高,成本低、维护容易,可扩展性佳、能灵活应对业务需求的变化,支持多应用场景。
1.二手车实时数仓的构建方法,其特征在于,包括以下步骤:
2.根据权利要求1所述的二手车实时数仓的构建方法,其特征在于,所述至少一个事实表均为订单消费类事实表。
3.根据权利要求2所述的二手车实时数仓的构建方法,其特征在于,所述分别存储至少一个事实表、维度表,包括:将所述订单消费类事实表写入kafka,且每个所述订单消费类事实表作为一个单独的第一topic表;将所述维度表根据mysql主键写入redis。
4.根据权利要求3所述的二手车实时数仓的构建方法,其特征在于,所述维度表用于维度扩展查询,包括维度数据,所述维度数据为二手车辆数据、用户数据、城市数据。
5.根据权利要求4所述的二手车实时数仓的构建方法,其特征在于,所述步骤s2包括:通过flink读取至少一个所述第一topic表中的订单消费类数据,并关联所述维度表的对应维度数据,形成多个kafka数据流,再对所述多个kafka数据流进行联合操作,按照kafka主键进行group by聚合,生成大宽表数据,将所述大宽表数据写入kafka。
6.根据权利要求5所述的二手车实时数仓的构建方法,其特征在于,将所述大宽表数据写入kafka,包括:将所述大宽表数据写入kafka中的第二topic表,且所述第二topic表与至少一个第一topic表不同。
7.根据权利要求6所述的二手车实时数仓的构建方法,其特征在于,步骤s3中,基于所述大宽表数据生成ods层基础表,包括:通过flinksql读取所述大宽表数据,将其按最细粒度聚合后写入clickhouse,作为ods层基础表。
8.根据权利要求7所述的二手车实时数仓的构建方法,其特征在于,所述通过物化视图和投影技术开发上层数据,包括:在所述ods层基础表的基础上,采用replacingmergetree、aggregatingmergetree或其他合适的clickhouse表引擎,使用所述clickhouse中的物化视图和投影技术,结合具体业务逻辑,开发dwd层和dws层的数据。
9.二手车实时数仓,其特征在于,由权利要求1~8中任一项所述的二手车实时数仓的构建方法构建。
10.权利要求9所述的二手车实时数仓在商业智能数据分析、销售业绩分析、车商画像、二手车检测师画像上的应用。