二手车实时数仓的构建方法、二手车实时数仓及其应用与流程

allin2025-10-08  8


本发明属于数据处理领域,特别是关于一种二手车实时数仓的构建方法、二手车实时数仓及其应用。


背景技术:

1、近年来,随着大数据技术和二手车市场的迅猛发展,二手车企业对实时数据分析的需求日益增长,传统的数据仓库架构难以满足商业智能(business intelligence,bi)数据分析、销售业绩分析、车商画像、检测师画像等需求,为了更好地管理、分析二手车数据,二手车企业越来越依赖实时数据仓库。

2、目前,常见的二手车数据分析系统主要基于批处理数据仓库架构,存在以下缺陷:1、处理复杂查询的性能较差,难以满足实时分析的需求,多系统间的数据同步困难,影响数据分析的准确性,难以应对不断增长的数据量;2、需要大量的服务器和存储资源,成本较高,需要专业人员进行管理、维护,维护成本高;3、实时性差,无法实时处理、分析数据,影响业务决策的实时性,处理大规模数据的效率较低,难以快速响应业务需求。


技术实现思路

1、为解决问题前述,本发明提供一种二手车实时数仓的构建方法,包括以下步骤:

2、s1、通过flinkcdc监控mysql binlog日志,将mysql中的业务表分为至少一个事实表、维度表,分别存储至少一个事实表、维度表;

3、s2、基于至少一个事实表、维度表,生成大宽表数据并将其写入kafka;

4、s3、基于大宽表数据生成ods层基础表,通过物化视图和投影技术开发上层数据,实现二手车实时数仓的构建。

5、进一步地,至少一个事实表均为订单消费类事实表。

6、进一步地,分别存储至少一个事实表、维度表,包括:将订单消费类事实表写入kafka,且每个订单消费类事实表作为一个单独的第一topic表;将维度表根据mysql主键写入redis。

7、进一步地,维度表用于维度扩展查询,包括维度数据,维度数据为二手车辆数据、用户数据、城市数据。

8、进一步地,步骤s2包括:通过flink读取至少一个第一topic表中的订单消费类数据,并关联维度表的对应维度数据,形成多个kafka数据流,再对多个kafka数据流进行联合操作,按照kafka主键进行group by聚合,生成大宽表数据,将大宽表数据写入kafka。

9、进一步地,将大宽表数据写入kafka,包括:将大宽表数据写入kafka中的第二topic表,且第二topic表与至少一个第一topic表不同。

10、进一步地,步骤s3中,基于大宽表数据生成ods层基础表,包括:通过flinksql读取大宽表数据,将其按最细粒度聚合后写入clickhouse,作为ods层基础表。

11、进一步地,通过物化视图和投影技术开发上层数据,包括:在ods层基础表的基础上,采用replacingmergetree、aggregatingmergetree或其他合适的clickhouse表引擎,使用clickhouse中的物化视图和投影技术,结合具体业务逻辑,开发dwd层和dws层的数据。

12、本发明还提供一种二手车实时数仓,由前述的二手车实时数仓的构建方法构建。

13、本发明又提供一种二手车实时数仓在商业智能数据分析、销售业绩分析、车商画像、二手车检测师画像上的应用。

14、与现有技术相比,本发明提供的二手车实时数仓的构建方法,实现了实时数据流即业务表、维度表的动态分流,可实时处理二手车交易数据,数据查询效率高,成本低、维护容易,可扩展性佳、能灵活应对业务需求的变化,支持多应用场景。



技术特征:

1.二手车实时数仓的构建方法,其特征在于,包括以下步骤:

2.根据权利要求1所述的二手车实时数仓的构建方法,其特征在于,所述至少一个事实表均为订单消费类事实表。

3.根据权利要求2所述的二手车实时数仓的构建方法,其特征在于,所述分别存储至少一个事实表、维度表,包括:将所述订单消费类事实表写入kafka,且每个所述订单消费类事实表作为一个单独的第一topic表;将所述维度表根据mysql主键写入redis。

4.根据权利要求3所述的二手车实时数仓的构建方法,其特征在于,所述维度表用于维度扩展查询,包括维度数据,所述维度数据为二手车辆数据、用户数据、城市数据。

5.根据权利要求4所述的二手车实时数仓的构建方法,其特征在于,所述步骤s2包括:通过flink读取至少一个所述第一topic表中的订单消费类数据,并关联所述维度表的对应维度数据,形成多个kafka数据流,再对所述多个kafka数据流进行联合操作,按照kafka主键进行group by聚合,生成大宽表数据,将所述大宽表数据写入kafka。

6.根据权利要求5所述的二手车实时数仓的构建方法,其特征在于,将所述大宽表数据写入kafka,包括:将所述大宽表数据写入kafka中的第二topic表,且所述第二topic表与至少一个第一topic表不同。

7.根据权利要求6所述的二手车实时数仓的构建方法,其特征在于,步骤s3中,基于所述大宽表数据生成ods层基础表,包括:通过flinksql读取所述大宽表数据,将其按最细粒度聚合后写入clickhouse,作为ods层基础表。

8.根据权利要求7所述的二手车实时数仓的构建方法,其特征在于,所述通过物化视图和投影技术开发上层数据,包括:在所述ods层基础表的基础上,采用replacingmergetree、aggregatingmergetree或其他合适的clickhouse表引擎,使用所述clickhouse中的物化视图和投影技术,结合具体业务逻辑,开发dwd层和dws层的数据。

9.二手车实时数仓,其特征在于,由权利要求1~8中任一项所述的二手车实时数仓的构建方法构建。

10.权利要求9所述的二手车实时数仓在商业智能数据分析、销售业绩分析、车商画像、二手车检测师画像上的应用。


技术总结
本发明公开了一种二手车实时数仓的构建方法、二手车实时数仓及其应用,所述二手车实时数仓的构建方法包括以下步骤:通过FlinkCDC监控MySQL binlog日志,将MySQL中的业务表分为至少一个事实表、维度表,分别存储至少一个事实表、维度表;基于至少一个事实表、维度表,生成大宽表数据并将其写入kafka;基于大宽表数据生成ODS层基础表,通过物化视图和投影技术开发上层数据。所述二手车实时数仓的构建方法实现了实时数据流即业务表、维度表的动态分流,可实时处理二手车交易数据,数据查询效率高,成本低、维护容易,可扩展性佳、能灵活应对业务需求的变化,支持多应用场景。

技术研发人员:刘明
受保护的技术使用者:北京酷车易美网络科技有限公司
技术研发日:
技术公布日:2024/10/31
转载请注明原文地址: https://www.8miu.com/read-24089.html

最新回复(0)