本发明涉及数据库,具体涉及一种基于联邦湖仓的数据共享系统。
背景技术:
1、随着大数据时代的到来,数据已逐渐成为推动社会进步和经济发展的重要资源。然而,传统的数据共享方式往往需要将数据集中存储和处理,这不仅增加了数据泄露和滥用的风险,也限制了数据在不同组织之间的流通和共享,进而限制了数据价值的深度挖掘。
2、分布式数据共享技术允许数据在多个位置进行存储和处理,同时保持数据的一致性和可访问性。分布式存储共享是一种基于网络的存储技术,它将数据分散存放在多个独立的节点上,通过网络连接将这些节点组成一个整体,从而实现数据的统一管理和访问。
3、区块链数据共享技术提供了去中心化、不可篡改、可追溯的数据共享解决方案。通过区块链,不同组织可以在保证数据安全的前提下共享数据。区块链技术支持一组特定的参与方共享数据。借助区块链云技术服务,可以轻松收集、集成和共享多个来源的交易数据。数据被细分为多个共享区块,并以加密哈希形式的唯一标识符链接在一起。在区块链系统中,未经法定人数许可,数据将无法更改,这一特点有助于防范欺诈和数据篡改。换言之,区块链账本可以共享,但不能更改。如果有一方尝试更改数据,区块链所有参与方都将收到警报,知晓哪一方试图更改数据。区块链通过单一信息源确保数据完整性,消除数据重复,提高数据安全性。但是,该技术存在以下问题:
4、1、数据孤岛问题
5、传统方式建设企业系统时,不同部门或团队通常会构建独立的数据库,导致的问题有:同一份数据存在于多个业务系统内且内容不一致,缺少统一的数据标准、数据管理流程及可靠的管理工具,出现质量问题时往往无法有效追溯并修正。
6、2、烟囱开发问题
7、“烟囱”式架构是传统企业数据系统开发的弊病,不同团队独立建设、独立开发数据服务和应用,带来安全、运维、升级、部署等通用功能的重复开发和投入问题,这种开发的低复用率带来了巨大资源的浪费,难以形成技术合力,也不利于团队间的研发管控和质量提升。
8、3、部署和维护成本
9、分布式数据共享技术的部署和维护成本相对较高。需要配置多个节点、安装和配置数据共享软件、建立网络连接等,这些都需要专业的技术人员进行操作。在系统运行过程中,还需要进行定期的监控、备份、恢复等操作,以确保系统的稳定性和数据的安全性。
10、4、数据确认的延迟性
11、在区块链中,数据确认的时间相对较长。这种延迟性会影响区块链在需要即时确认的应用场景中的使用。对于需要高效、快速响应的数据交易或其他应用,这种延迟会成为一个重要的限制因素。
12、因此有必要设计一种能够提高资源利用效率的数据共享系统。
技术实现思路
1、为了解决现有技术中的不足,本发明提出了一种基于联邦湖仓的数据共享系统,该系统结合以数字对象为基础的数联网系统解决数据缺乏有效治理,以及由于资金,人才和设备的不足,形成的企业各自独立维护数据,缺乏统一治理而形成数据孤岛的问题。
2、本发明具体通过如下技术方案实现:
3、一种基于联邦湖仓的数据共享系统,所述系统基于以数字对象为基础的数联网,所述系统包括多个数据湖仓、数据共享平台、数据访问和分析服务;所述系统包括多个服务层级,每一层承担不同的职能,具有松耦合关系,所述多个服务层级包括:
4、数据摄入层,用于从各种数据源采集数据,并将其加载到所述多个数据湖仓中;
5、数据湖层,作为数据的集中存储库,保存来自多个来源的原始数据,以所述多个数据湖仓的形式呈现;
6、数据处理层,用于对所述多个数据湖中的原始数据进行清洗、转换和加工,为下游分析做准备;
7、数据治理层,用于数据的元数据管理、数据标准化、数据质量控制、数据安全与隐私保护;其中,在所述数据治理层引入数字对象;
8、数据分析层,用于提供各种分析工具和模型,对治理后的数据进行商业智能分析、预测分析;
9、数据安全层,用于确保整个数据湖仓系统的数据安全性,包括访问控制、身份认证、加密等机制;
10、数据服务层,用于将分析结果和数据资产通过api、可视化仪表盘的形式对外提供服务。
11、作为本发明的进一步改进,其中,所述多个数据湖位于不同的位置,包括本地、云端或边缘设备。
12、作为本发明的进一步改进,其中,所述系统在数据权属确权与跨界共享方面,利用数字对象编码实现数据确权,通过数联网支持跨界共享,结合隐私计算保证安全,并建立数据溯源交易机制。
13、作为本发明的进一步改进,其中,所述系统在企业数据统一治理方面,构建基于数字对象的企业数据湖仓平台,汇集数据资产;利用数字对象实现数据全生命周期溯源管理和合规性;基于数字对象元数据支持数据标准化治理。
14、作为本发明的进一步改进,其中,所述系统在跨界数据价值挖掘方面,建设数字对象智能总线实现异构数据互联互通。
15、作为本发明的进一步改进,其中,所述系统将新数据导入到所述数据湖仓的流程包括:
16、步骤1.计算引擎与标识解析系统建立连接,上述标识解析系统负责为共享数据分配全网唯一标识;
17、步骤2.计算引擎将所述数据的存储位置传递给数字对象标识解析系统,所述数字对象标识解析系统将为数据分配一个唯一标识;
18、步骤3.计算引擎进行数据清洗;
19、步骤4.处理过的数据被写入存储系统,完成数据的持久化;
20、步骤5.数据写入完成后,计算引擎与数字对象注册系统建立连接,计算引擎通过数字对象接口协议将数据的元数据写入数字对象注册系统;
21、步骤6.所述数字对象注册系统将接收到的元数据用于创建数字对象;
22、步骤7.如果导入过程发生失败,数据仍然具有唯一标识、存储位置和检查点,但没有写入元数据,此时所述数据湖仓处于部分导入状态;通过数字对象标识解析系统获取数据存储位置,并根据检查点日志继续完成剩余数据导入并写入元数据。
23、作为本发明的进一步改进,其中,所述数据清洗包括处理缺失值,数据格式转换和计算数据的元数据。
24、作为本发明的进一步改进,其中,所述步骤4中,在写入过程中,计算引擎定时添加检查点,记录导入数据的完成部分。
25、作为本发明的进一步改进,能在数字对象注册系统检索到数据元数据是导入的成功标志。
26、本发明的有益效果是:本发明的优点在于:1)资源高效利用:共享系统能够整合和利用个人或企业的数据资源,减少浪费,提高数据资源利用率,实现数据资源的最优配置。2)降低成本:通过共享系统,用户可以以较低的成本获取所需数据资源,同时数据提供者也可以通过共享系统获取额外收入,实现双赢局面。3)创造新商机:共享系统为整个数据行业提供了丰富的商机,可以通过建立共享平台或提供相关技术服务等方式创造新的价值和利润。4)促进社交互动:共享系统通过连接数据供需双方,在数据共享的过程中促进社交互动,增强社会联系。
1.一种基于联邦湖仓的数据共享系统,其特征在于,所述系统基于以数字对象为基础的数联网,所述系统包括多个数据湖仓、数据共享平台、数据访问和分析服务;所述系统包括多个服务层级,每一层承担不同的职能,具有松耦合关系,所述多个服务层级包括:
2.在根据权利要求1所述的数据共享系统,其中,所述多个数据湖位于不同的位置,包括本地、云端或边缘设备。
3.根据权利要求1所述的数据共享系统,其中,所述系统在数据权属确权与跨界共享方面,利用数字对象编码实现数据确权,通过数联网支持跨界共享,结合隐私计算保证安全,并建立数据溯源交易机制。
4.根据权利要求1所述的数据共享系统,其中,所述系统在企业数据统一治理方面,构建基于数字对象的企业数据湖仓平台,汇集数据资产;利用数字对象实现数据全生命周期溯源管理和合规性;基于数字对象元数据支持数据标准化治理。
5.根据权利要求1所述的数据共享系统,其中,所述系统在跨界数据价值挖掘方面,建设数字对象智能总线实现异构数据互联互通。
6.根据权利要求1所述的数据共享系统,其中,所述系统将新数据导入到所述数据湖仓的流程包括:
7.根据权利要求6所述的数据共享系统,其中,所述数据清洗包括处理缺失值,数据格式转换和计算数据的元数据。
8.根据权利要求6所述的数据共享系统,其中,所述步骤4中,在写入过程中,计算引擎定时添加检查点,记录导入数据的完成部分。
9.根据权利要求6所述的数据共享系统,能在数字对象注册系统检索到数据元数据是导入的成功标志。