本技术涉及数据处理,具体来说涉及一种基于大模型的企业物料清洗方法及设备。
背景技术:
1、随着企业物料数据的快速增长,数据质量成为影响企业运营效率和决策准确性的关键因素。由于物料数据涵盖企业生产、采购、库存管理等多个环节,其准确性和一致性对于保障生产效率和产品质量至关重要。然而,由于数据录入、传输和存储过程中的各种因素,导致物料数据中经常存在不一致、错误和冗余等问题。这些问题不仅增加了数据处理的难度,还可能导致错误的决策和经济损失。
2、现有技术中,许多企业采用手工方式或简单的规则进行物料数据的清洗和整理,不仅操作过程繁琐且容易出现疏漏,难以满足大规模数据处理的需求。另外,现有方法在处理复杂的语义信息时存在局限性,难以全面解析物料数据中的非结构化信息。此外,现有方法对同义词和近义词的识别和处理也存在一定难度,导致数据冗余和不一致问题难以解决。
技术实现思路
1、本发明的目的在于提供一种基于大模型的企业物料清洗方法及设备,通过训练企业物料大模型、建立同义词库和清洗规则,对物料数据进行清洗,有效减少数据冗余和错误,提升物料数据的准确性和一致性。
2、为实现上述目的,本发明公开了如下技术方案:
3、本发明一方面提供了一种基于大模型的企业物料清洗方法,该方法包括以下步骤:
4、采集原始物料信息,并对所述原始物料信息进行初始化处理,得到标准化的物料数据;
5、利用图神经网络对物料数据进行重要属性筛选,得到关键物料数据;
6、基于所述标准化的物料数据构建企业物料大模型,并结合所述关键物料数据,利用深度学习方法对所述企业物料大模型进行训练,以解析物料数据的语义信息;
7、建立所述企业物料大模型的同义词库,对物料数据进行同义词和/或近义词的识别和处理;
8、基于国家标准和行业标准建立标准库,并将物料数据与所述标准库进行数据关联;
9、建立清洗规则,并基于所述同义词库、所述标准库和所述清洗规则,利用所述企业物料大模型对物料数据进行物料清洗;
10、对物料清洗结果进行输出展示和更新优化,生成最新的物料数据。
11、可选地,上述的企业物料清洗方法,所述采集原始物料信息,并对所述原始物料信息进行初始化处理,包括:
12、从企业系统中采集原始物料信息,所述企业系统包括erp系统、仓库管理系统和/或采购系统;
13、对所述原始物料信息进行数据整理,包括数据清洗和标准格式转换,生成整理后的数据;
14、基于物料的属性和用途,对所述整理后的数据进行数据分类。
15、优选地,上述的企业物料清洗方法,所述利用图神经网络对物料数据进行重要属性筛选,得到关键物料数据,包括:
16、将物料数据表示为由节点和边组成的图结构,其中,每个节点表示一个物料,边表示节点之间的连接关系;
17、对物料数据进行预处理和特征提取,根据节点特征和边的连接关系,生成图的邻接矩阵a和特征矩阵h,其中,邻接矩阵a表示节点之间的连接关系,特征矩阵h表示节点的特征向量;
18、基于图卷积网络公式进行模型构建和训练,所述图卷积网络公式如下:
19、;
20、其中,表示第层的节点特征矩阵,表示加上自环的邻接矩阵,式中表示单位矩阵,表示的度矩阵,表示第层需要训练的权重矩阵,表示激活函数;
21、利用交叉熵损失函数和梯度下降法进行图神经网络模型参数优化;
22、通过所述图神经网络模型遍历相邻节点,采集具有相似特征的正样本和具有不同特征的负样本,并筛选重要的物料属性,得到关键物料数据。
23、进一步的,所述结合所述关键物料数据,利用深度学习方法对所述企业物料大模型进行训练,包括:
24、设置用于训练所述企业物料大模型的prompt模板,所述prompt模板包括物料数据的重要信息字段;
25、将所述关键物料数据填充到所述prompt模板中;
26、利用深度学习方法对所述企业物料大模型进行训练。
27、可选地,上述的企业物料清洗方法,所述建立所述企业物料大模型的同义词库,对物料数据进行同义词和/或近义词的识别和处理,包括:
28、建立所述企业物料大模型的同义词库,对物料数据进行同义词分类,分类类别包括企业名称缩写、错别字录入、单位不统一、中英文不统一、比较对象不统一和/或专有名词重复;
29、对同义词进行准确率增强,增强方法包括利用所述企业物料大模型对企业名称进行语义相似度判断、对错别字进行记录和纠正、对单位进行归一化、对中英文进行中英文对照、对比较对象进行自动转换和/或对专有名词进行合并。
30、优选地,上述的企业物料清洗方法,所述对同义词进行准确率增强,还包括基于不同模型的输出结果,设置权重和阈值,对同义词进行准确率增强识别,具体包括:
31、基于不同模型,设定每个模型对应的权重,加权得到同义词对的组合评分如下:
32、;
33、其中,表示模型对同义词对的评分;
34、设定阈值,判断所述组合评分和所述阈值的大小,
35、若,则接受和为同义词;
36、若,则拒绝和为同义词。
37、可选地,上述的企业物料清洗方法,所述基于国家标准和行业标准建立标准库,并将物料数据与所述标准库进行数据关联,包括:
38、收集国家标准和行业标准文档;
39、对所述收集的文档进行解析,提取与物料数据相关的标准和规范内容;
40、将所述提取出的标准和规范内容整理成标准库,所述标准库包括标准编号、名称、发布日期和/或适用范围;
41、将所述标准库与物料数据进行数据关联。
42、可选地,上述的企业物料清洗方法,所述建立清洗规则,并基于所述同义词库、所述标准库和所述清洗规则,利用所述企业物料大模型对物料数据进行物料清洗,包括:
43、建立清洗规则,包括建立必填项库和清洗规则库;
44、将待清洗的物料数据导入清洗系统中,根据所述必填项库检查所述物料数据中的缺失项,并进行缺失项处理;
45、根据所述标准库检查物料数据中的不符合标准项,并进行不符合标准项处理;
46、利用所述同义词库对物料数据中的同义词和近义词进行更新替换。
47、可选地,上述的企业物料清洗方法,所述对物料清洗结果进行输出展示和更新优化,包括:
48、在物料清洗完成后,生成初步的拟合并物料报告,用于展示物料数据的清洗结果和合并情况,并收集各企业对所述清洗结果的反馈意见,根据所述反馈意见对清洗结果进行初步调整;
49、制定统一的物料库约定,并根据所述物料库约定生成合并物料模板;
50、基于所述合并物料模板和物料数据的清洗结果,生成合并物料报告, 并收集各企业对所述合并物料报告的反馈意见,根据所述反馈意见更新物料数据。
51、本发明另一方面提供了一种基于大模型的企业物料清洗系统,所述系统包括:
52、物料采集模块,用于采集原始物料信息,并对所述原始物料信息进行初始化处理,得到标准化的物料数据;
53、数据筛选模块,用于利用图神经网络对物料数据进行重要属性筛选,得到关键物料数据;
54、模型构建模块,用于基于所述标准化的物料数据构建企业物料大模型,并结合所述关键物料数据,利用深度学习方法对所述企业物料大模型进行训练,以解析物料数据的语义信息;
55、词库建立模块,用于建立所述企业物料大模型的同义词库,对物料数据进行同义词和/或近义词的识别和处理;
56、标准关联模块,用于基于国家标准和行业标准建立标准库,并将物料数据与所述标准库进行数据关联;
57、物料清洗模块,用于建立清洗规则,并基于所述同义词库、所述标准库和所述清洗规则,利用所述企业物料大模型对物料数据进行物料清洗;
58、物料优化模块,用于对物料清洗结果进行输出展示和更新优化,生成最新的物料数据。
59、本发明还提供了一种电子设备,包括存储器、处理器以及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现如上所述的基于大模型的企业物料清洗方法。
60、
技术实现要素:
中提供的效果仅仅是实施例的效果,而不是发明所有的全部效果,上述技术方案中的一个技术方案具有如下优点或有益效果:
61、本公开实施例提供的技术方案,通过图神经网络和深度学习方法自动解析物料数据的语义信息,并结合同义词库、标准库和清洗规则,对物料数据进行自动化数据清洗和处理,减少了人工操作,提高了数据处理的效率和准确性。本方案通过标准化物料数据和建立同义词库、标准库,消除了数据中的错误和不一致,提高了数据的规范性和可用性;通过图神经网络自动筛选关键物料数据用于模型训练,有效提升了模型的收敛速度和性能;利用深度学习方法解析物料数据的语义信息,能够自动识别和处理数据中的同义词和近义词,提高数据的准确性和一致性;基于同义词库、标准库和清洗规则进行物料清洗,减少了数据中的冗余和错误,确保了物料数据的完整性和准确性。
1.一种基于大模型的企业物料清洗方法,其特征在于,所述方法包括以下步骤:
2.根据权利要求1所述的企业物料清洗方法,其特征在于,所述采集原始物料信息,并对所述原始物料信息进行初始化处理,包括:
3.根据权利要求1或2所述的企业物料清洗方法,其特征在于,所述利用图神经网络对物料数据进行重要属性筛选,得到关键物料数据,包括:
4.根据权利要求3所述的企业物料清洗方法,其特征在于,所述结合所述关键物料数据,利用深度学习方法对所述企业物料大模型进行训练,包括:
5.根据权利要求4所述的企业物料清洗方法,其特征在于,所述建立所述企业物料大模型的同义词库,对物料数据进行同义词和/或近义词的识别和处理,包括:
6.根据权利要求5所述的企业物料清洗方法,其特征在于,所述对同义词进行准确率增强,还包括基于不同模型的输出结果,设置权重和阈值,对同义词进行准确率增强识别,具体包括:
7.根据权利要求1至6中任一项所述的企业物料清洗方法,其特征在于,所述基于国家标准和行业标准建立标准库,并将物料数据与所述标准库进行数据关联,包括:
8.根据权利要求7所述的企业物料清洗方法,其特征在于,所述建立清洗规则,并基于所述同义词库、所述标准库和所述清洗规则,利用所述企业物料大模型对物料数据进行物料清洗,包括:
9.根据权利要求8所述的企业物料清洗方法,其特征在于,所述对物料清洗结果进行输出展示和更新优化,包括:
10.一种电子设备,包括存储器、处理器以及存储在所述存储器上并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现如权利要求1至9中任一项所述的基于大模型的企业物料清洗方法。