租户级别资源隔离的数据写入通道管理方法和系统与流程

allin2025-04-06  26


本发明涉及数据管理,具体地,涉及一种租户级别资源隔离的数据写入通道管理方法和系统。


背景技术:

1、随着工业的信息化与智能化发展推进,工业生产中产生的数据量,以及生产数据的价值,都在日益提升。现有基于hadoop的hive数据仓库,对于高频近实时数据写入场景,如何高效率将不同来源的数据写入对应的存储位置,又能避免小文件问题,是个很大的挑战。

2、现有技术中,申请号为202310745568.5的中国专利,公开了“一种数据写入大数据仓的方法和装置”,其虽然能够虽然可以实现数据写入hdfs,但是数据落盘的时效性不可控,适用场景有限。


技术实现思路

1、针对现有技术中的缺陷,本发明的目的是提供一种租户级别资源隔离的数据写入通道管理方法和系统。

2、根据本发明提供的租户级别资源隔离的数据写入通道管理方法,包括:

3、步骤1:部署负载均衡集群;

4、步骤2:进行多租户隔离;

5、步骤3:数据通过rest网关写入后,被送到数据缓存层kafka,然后通过sparkstreaming程序消费并写入hdfs,将数据缓存层和spark streaming程序的组合作为数据写入通道;

6、步骤4:设置消费组和消费实例,从而改变数据消费速度;

7、步骤5:部署文件合并服务,负责监控文件数量和大小,当文件个数或大小达到预设阈值,则自动触发小文件合并。

8、优选地,使用restful api方式写入数据,rest服务以集群模式部署,支持横向扩展,使用nginx作为负载均衡服务,对外提供统一的访问地址。

9、优选地,数据文件存储在hadoop分布式文件系统hdfs上,hdfs上存储的数据文件通过impala查询引擎对外提供查询服务,数据表先在impala上进行授权,再进行访问,不同的租户只能看到各自租户下的表和数据;数据写入时,支持以租户粒度配置写入通道,不同租户的数据写入互相不受影响,租户根据各自数据写入量调整通道使用的资源,按需配置。

10、优选地,sts提供web管理页面,管理数据写入通道和配置写入策略,租户和数据写入通道的配置关系为一对一或多对一;rest网关收到用户写入数据的请求后,根据用户所属的租户查询对应写入策略,根据写入策略将数据发送至对应的写入通道,直到最终落盘,通道之间资源隔离,整个过程互相不受影响。

11、优选地,数据写入到缓存层kafka时,被保存在不同的主题中,使用sparkstreaming程序消费并写入hdfs;将一组spark streaming程序称为消费组,每个消费组负责消费一个或多个主题的数据,消费组根据实际消费的数据量,配置相应数量的消费实例,在预设范围内,消费实例数量增加时,消费速度呈线性提升;

12、一个消费组包含一个或多个spark streaming实例,每个消费组从kafka订阅一个或多个主题的数据,spark streaming实例定时从kafka中拉取订阅主题中的数据,写入hdfs,如果数据积压,则在消费组管理页面增加消费实例的数量,以此提升数据消费速度。

13、根据本发明提供的租户级别资源隔离的数据写入通道管理系统,包括:

14、模块m1:部署负载均衡集群;

15、模块m2:进行多租户隔离;

16、模块m3:数据通过rest网关写入后,被送到数据缓存层kafka,然后通过sparkstreaming程序消费并写入hdfs,将数据缓存层和spark streaming程序的组合作为数据写入通道;

17、模块m4:设置消费组和消费实例,从而改变数据消费速度;

18、模块m5:部署文件合并服务,负责监控文件数量和大小,当文件个数或大小达到预设阈值,则自动触发小文件合并。

19、优选地,使用restful api方式写入数据,rest服务以集群模式部署,支持横向扩展,使用nginx作为负载均衡服务,对外提供统一的访问地址。

20、优选地,数据文件存储在hadoop分布式文件系统hdfs上,hdfs上存储的数据文件通过impala查询引擎对外提供查询服务,数据表先在impala上进行授权,再进行访问,不同的租户只能看到各自租户下的表和数据;数据写入时,支持以租户粒度配置写入通道,不同租户的数据写入互相不受影响,租户根据各自数据写入量调整通道使用的资源,按需配置。

21、优选地,sts提供web管理页面,管理数据写入通道和配置写入策略,租户和数据写入通道的配置关系为一对一或多对一;rest网关收到用户写入数据的请求后,根据用户所属的租户查询对应写入策略,根据写入策略将数据发送至对应的写入通道,直到最终落盘,通道之间资源隔离,整个过程互相不受影响。

22、优选地,数据写入到缓存层kafka时,被保存在不同的主题中,使用sparkstreaming程序消费并写入hdfs;将一组spark streaming程序称为消费组,每个消费组负责消费一个或多个主题的数据,消费组根据实际消费的数据量,配置相应数量的消费实例,在预设范围内,消费实例数量增加时,消费速度呈线性提升;

23、一个消费组包含一个或多个spark streaming实例,每个消费组从kafka订阅一个或多个主题的数据,spark streaming实例定时从kafka中拉取订阅主题中的数据,写入hdfs,如果数据积压,则在消费组管理页面增加消费实例的数量,以此提升数据消费速度。

24、与现有技术相比,本发明具有如下的有益效果:

25、本发明提供了一种可扩展的数据写入通道,可以按需配置计算资源,提升数据吞吐量和写入的效率;支持租户级别的资源隔离配置;数据落盘后,使用后台服务监控并自动合并小文件,且合并过程对用户无感。



技术特征:

1.一种租户级别资源隔离的数据写入通道管理方法,其特征在于,包括:

2.根据权利要求1所述的租户级别资源隔离的数据写入通道管理方法,其特征在于,使用restful api方式写入数据,rest服务以集群模式部署,支持横向扩展,使用nginx作为负载均衡服务,对外提供统一的访问地址。

3.根据权利要求1所述的租户级别资源隔离的数据写入通道管理方法,其特征在于,数据文件存储在hadoop分布式文件系统hdfs上,hdfs上存储的数据文件通过impala查询引擎对外提供查询服务,数据表先在impala上进行授权,再进行访问,不同的租户只能看到各自租户下的表和数据;数据写入时,支持以租户粒度配置写入通道,不同租户的数据写入互相不受影响,租户根据各自数据写入量调整通道使用的资源,按需配置。

4.根据权利要求1所述的租户级别资源隔离的数据写入通道管理方法,其特征在于,sts提供web管理页面,管理数据写入通道和配置写入策略,租户和数据写入通道的配置关系为一对一或多对一;rest网关收到用户写入数据的请求后,根据用户所属的租户查询对应写入策略,根据写入策略将数据发送至对应的写入通道,直到最终落盘,通道之间资源隔离,整个过程互相不受影响。

5.根据权利要求1所述的租户级别资源隔离的数据写入通道管理方法,其特征在于,数据写入到缓存层kafka时,被保存在不同的主题中,使用spark streaming程序消费并写入hdfs;将一组spark streaming程序称为消费组,每个消费组负责消费一个或多个主题的数据,消费组根据实际消费的数据量,配置相应数量的消费实例,在预设范围内,消费实例数量增加时,消费速度呈线性提升;

6.一种租户级别资源隔离的数据写入通道管理系统,其特征在于,包括:

7.根据权利要求6所述的租户级别资源隔离的数据写入通道管理系统,其特征在于,使用restful api方式写入数据,rest服务以集群模式部署,支持横向扩展,使用nginx作为负载均衡服务,对外提供统一的访问地址。

8.根据权利要求6所述的租户级别资源隔离的数据写入通道管理系统,其特征在于,数据文件存储在hadoop分布式文件系统hdfs上,hdfs上存储的数据文件通过impala查询引擎对外提供查询服务,数据表先在impala上进行授权,再进行访问,不同的租户只能看到各自租户下的表和数据;数据写入时,支持以租户粒度配置写入通道,不同租户的数据写入互相不受影响,租户根据各自数据写入量调整通道使用的资源,按需配置。

9.根据权利要求6所述的租户级别资源隔离的数据写入通道管理系统,其特征在于,sts提供web管理页面,管理数据写入通道和配置写入策略,租户和数据写入通道的配置关系为一对一或多对一;rest网关收到用户写入数据的请求后,根据用户所属的租户查询对应写入策略,根据写入策略将数据发送至对应的写入通道,直到最终落盘,通道之间资源隔离,整个过程互相不受影响。

10.根据权利要求6所述的租户级别资源隔离的数据写入通道管理系统,其特征在于,数据写入到缓存层kafka时,被保存在不同的主题中,使用spark streaming程序消费并写入hdfs;将一组spark streaming程序称为消费组,每个消费组负责消费一个或多个主题的数据,消费组根据实际消费的数据量,配置相应数量的消费实例,在预设范围内,消费实例数量增加时,消费速度呈线性提升;


技术总结
本发明提供了一种租户级别资源隔离的数据写入通道管理方法和系统,包括:步骤1:部署负载均衡集群;步骤2:进行多租户隔离;步骤3:数据通过Rest网关写入后,被送到数据缓存层,然后通过Spark Streaming程序消费并写入HDFS,将数据缓存层和Spark Streaming程序的组合作为数据写入通道;步骤4:设置消费组和消费实例,从而改变数据消费速度;步骤5:部署文件合并服务,负责监控文件数量和大小,当文件个数或大小达到预设阈值,则自动触发小文件合并。本发明可以按需配置计算资源,提高了数据吞吐量和写入的效率,支持租户级别的资源隔离配置。

技术研发人员:朱森,李亚贝,黄明,万英杰,李帅
受保护的技术使用者:上海宝信软件股份有限公司
技术研发日:
技术公布日:2024/10/31
转载请注明原文地址: https://www.8miu.com/read-19982.html

最新回复(0)