应用于不同业务系统的元数据匹配的方法和系统与流程

allin2023-04-06  58



1.本技术涉及术语匹配技术领域,特别是涉及一种应用于不同业务系统的元数据匹配的方法和系统。


背景技术:

2.在业务系统中,元数据是对数据及信息资源的描述性信息。作为业务系统的重要组成部分,在系统的正常运行中有着举足轻重的地位。如在医院中,众多业务系统运行在院内的生产环境。由于不同业务系统中的元数据表述丰富多样,并且元数据的命名是基于具体的业务场景,因此同含义的元数据命名却不同,这极大地影响院内医疗数据的关联和应用。
3.过往,不同业务系统数据的对接是基于人工匹配的方式,该方法需要大量时间和人工投入,极大地延长业务系统地上线时间。如何快速、简便、高效地匹配元数据,已经成为迫切需要解决的问题。
4.相似度算法是术语匹配技术领域的通用方法。然而,相似度算法一般指文字表面、文字顺序等算法。上述算法匹配的结果不尽如人意,这是因为元数据包含丰富的语义归类和抽象化的语义信息。
5.目前针对相关技术中不同业务系统间元数据匹配效率低和精度差的问题,尚未提出有效的解决方案。


技术实现要素:

6.本技术实施例提供了一种应用于不同业务系统的元数据匹配的方法和系统,以至少解决相关技术中不同业务系统间元数据匹配效率低和精度差的问题。
7.第一方面,本技术实施例提供了一种应用于不同业务系统的元数据匹配的方法,所述方法包括:
8.根据先验知识库构建训练集和测试集,再根据所述训练集和所述测试集,训练得到混合算法模型;
9.获取待匹配元数据,查询所述先验知识库是否存在匹配结果;
10.若是,则直接返回所述匹配结果;
11.若否,则通过粗排模型从所述先验知识库中得到所述待匹配元数据的候选集,再通过所述混合算法模型从所述候选集中得到所述待匹配元数据的匹配结果。
12.在其中一些实施例中,所述混合算法模型包括特征提取器和分类器,其中,所述特征提取器包括编辑距离算法模型、部首相似度算法模型和语义相似度算法模型,所述分类器基于adaboost算法训练得到。
13.在其中一些实施例中,通过粗排模型从所述先验知识库中得到所述待匹配元数据的候选集包括:
14.利用前后向最大匹配算法对所述先验知识库中的词汇数据进行分词,根据所述分
词的结果,通过基于bm25算法的粗排模型筛选出所述待匹配元数据的候选集。
15.在其中一些实施例中,通过所述混合算法模型从所述候选集中得到所述待匹配元数据的匹配结果包括:
16.通过编辑距离算法模型,得到所述待匹配元数据和所述候选集的字面相似度特征;
17.通过部首相似度算法模型,将所述待匹配元数据和所述候选集的词汇按照偏旁部首拆分,得到字形相似度特征;
18.通过语义相似度算法模型,将所述待匹配元数据和所述候选集的词汇映射在高维的语义空间内,基于向量计算得到语义相似度特征;
19.根据所述字面相似度特征、所述字形相似度特征和所述语义相似度特征,通过分类器从所述候选集中得出所述待匹配元数据的匹配结果。
20.在其中一些实施例中,根据所述训练集和所述测试集,训练得到混合算法模型包括:
21.根据所述训练集和所述测试集,对语义相似度算法模型进行训练,其中,所述语义相似度算法模型为simcse算法模型,所述simcse算法模型由预训练的bert模型和对比学习方法组成;
22.根据所述训练集和所述测试集,利用编辑距离算法模型、部首相似度算法模型和语义相似度算法模型作为特征提取器,对分类器进行训练,其中,所述分类器为adaboost算法模型。
23.在其中一些实施例中,所述方法还包括:
24.将所述应用于不同系统的元数据匹配的方法和依赖环境,通过容器技术集成到docker容器中。
25.在其中一些实施例中,获取待匹配元数据之后,所述方法包括:
26.同一化所述待匹配元数据的标点符号,统一所述待匹配元数据的字符表示,删除所述待匹配元数据中重复和无效语义的字符,得到处理后的待匹配元数据。
27.在其中一些实施例中,在根据先验知识库构建训练集和测试集之前,所述方法包括:
28.获取书籍和互联网中的元数据,通过数据清洗和校检得到所述元数据的数据同义词和核心语义词汇,进而构建先验知识库。
29.在其中一些实施例中,查询所述先验知识库是否存在匹配结果包括:
30.通过全词匹配来查询所述先验知识库是否存在匹配结果。
31.第二方面,本技术实施例提供了一种应用于不同业务系统的元数据匹配的系统,所述系统包括模型训练模块和元数据匹配模块;
32.所述模型训练模块用于根据先验知识库构建训练集和测试集,再根据所述训练集和所述测试集,训练得到混合算法模型;
33.所述元数据匹配模块用于获取待匹配元数据,查询所述先验知识库是否存在匹配结果;
34.若是,则直接返回所述匹配结果;
35.若否,则通过粗排模型从所述先验知识库中得到所述待匹配元数据的候选集,再
等类似词语并不表示数量限制,可表示单数或复数。本技术所涉及的术语“包括”、“包含”、“具有”以及它们任何变形,意图在于覆盖不排他的包含;例如包含了一系列步骤或模块(单元)的过程、方法、系统、产品或设备没有限定于已列出的步骤或单元,而是可以还包括没有列出的步骤或单元,或可以还包括对于这些过程、方法、产品或设备固有的其它步骤或单元。本技术所涉及的“连接”、“相连”、“耦接”等类似的词语并非限定于物理的或者机械的连接,而是可以包括电气的连接,不管是直接的还是间接的。本技术所涉及的“多个”是指两个或两个以上。“和/或”描述关联对象的关联关系,表示可以存在三种关系,例如,“a和/或b”可以表示:单独存在a,同时存在a和b,单独存在b这三种情况。字符“/”一般表示前后关联对象是一种“或”的关系。本技术所涉及的术语“第一”、“第二”、“第三”等仅仅是区别类似的对象,不代表针对对象的特定排序。
49.目前,不同业务系统数据的对接是基于人工匹配的方式,该方法需要大量时间和人工投入,极大地延长业务系统地上线时间。如何快速、简便、高效地匹配元数据,已经成为迫切需要解决的问题。
50.相似度算法是术语匹配技术领域的通用方法。然而,相似度算法一般指文字表面、文字顺序等算法。上述算法匹配的结果不尽如人意,这是因为元数据包含丰富的语义归类和抽象化的语义信息。
51.因此,本发明提出一种应用于不同业务系统间的元数据匹配方法和系统,该方法内含算法模型和容器技术封装两部分,算法模型是知识信息和机器学习算法的结合,容器技术是实现医院内的快速部署和使用。
52.算法模型具体包括混合算法模型,adaboost算法模型作为混合算法模型的分类器,其核心思想是针对同一个训练集训练不同的弱分类器,然后将不同的弱分类器集合起来,构成一个强分类器。混合算法模型中每一个算法(编辑距离算法、部首相似度算法、语义相似度算法)作为特征提取器,从字面、序列、语义等多个角度评估相似度,adaboost算法利用众多特征训练一个高效地、准确地强分类器。多相似度的混合模型,从多个角度评估元数据的匹配程度,提升单一算法的泛化性能,有效地拓宽算法使用场景。
53.此外,医院的数据具有极强的隐私性,为了防止数据泄露,需要一套可在院内快速部署实现的元数据匹配工具。容器技术是将应用以及依赖环境打包到一个轻量级、可移植的虚拟环境中,然后发布到任何流行的linux机器上。docker容器作为容器技术的具体体现,可内置稳定和安全的系统环境,并预先将服务和程序所需要的文件集成在容器中,达到快速、高效地部署服务或程序。因此运用容器技术(特指docker),轻量化地将元数据匹配工具部署到医院内部。
54.本技术实施例提供了一种应用于不同业务系统的元数据匹配的方法,图1是根据本技术实施例的应用于不同业务系统的元数据匹配方法的步骤流程图,如图1所示,该方法包括以下步骤:
55.步骤s102,根据先验知识库构建训练集和测试集,再根据训练集和测试集,训练得到混合算法模型;
56.具体地,根据训练集和测试集,对语义相似度算法模型进行训练,其中,语义相似度算法模型为simcse算法模型,simcse算法模型由预训练的bert模型和对比学习方法组成。预训练的bert模型采用bert-wwm-ext模型,其具有训练数据集大、训练步数多等优点,
能更好地诠释中文词汇的语义表示;对比学习方法是帮助预训练模型继续深挖潜藏语义,解决bert模型的坍缩问题,满足语义在向量空间地合理表示。
57.优选地,图2是根据本技术实施例的语义相似度算法模型训练的流程示意图,如图2所示,根据先验知识库,构建训练集和测试集,数据内容比例为8:2。其中,同义词映射作为训练集和测试集的正样本,负样本为遍历先验知识库中每一个元数据,随机从非同义词集合中筛选16个元数据,如元数据“上呼吸道感染”,“上感”即为正样本,“皮肤感染”、“呼吸道感染”、“外伤感染”等作为负样本。
58.simcse算法模型的目标是训练一个编码器f,使得:
59.score(f(x),f(x
+
))>>score(f(x),f(x-))
60.其中,x
+
是和x相似的正样本,x-是和x不相似的负样本,score是一个度量函数衡量样本间的相似度;
61.simcse算法模型的损失函数为infonce损失,公式如下:
[0062][0063]
其中,对应样本x有1个正样本和n-1个负样本,目标是x的特征和正样本特征更相似,同时和n-1个负样本的特征更不相似。
[0064]
由于预训练的bert模型已学习大量中文预料的信息,且采用bert-wwm-ext模型,其具有训练数据集大、训练步数多等优点,能更好地诠释中文词汇的语义表示,通过预训练输出元数据的语义表示是合理的。在此基础上,通过计算与负例的infonce损失,反向传播修正模型参数,保证不同的元数据在高维向量空间中具有各异性。
[0065]
具体地,根据训练集和测试集,利用编辑距离算法模型、部首相似度算法模型和语义相似度算法模型作为特征提取器,获取元数据之间地多元特征,以对分类器进行训练,其中,分类器为adaboost算法模型,以决策树(desision tree)作为adaboost的弱分类器,迭代训练上述的多元特征,得到强分类器。
[0066]
优选地,图3是根据本技术实施例的分类器训练的流程示意图,如图3所示,基于编辑距离、偏旁部首分割和语义表示等三种算法提取特征,训练强分类器。步骤如下:
[0067]
分别利用编辑距离算法、部首相似度算法、语义相似度算法计算正例和负例地相似度,分别为x,y,z。统计所有正例和负例形成(xn,yn,zn)

{0,1}。
[0068]
初始化训练数据权重分布,即:
[0069][0070]
其中,w
1i
为权重且均匀分布,n为样本数目。
[0071]
使用具有权值分布dm的数据集学习得到弱分类器,即:
[0072]
g(x):x

{0,1}
[0073]
其中,g(x)为弱分类器组合。
[0074]
计算弱分类器的误差率,即:
[0075][0076]
其中,xi和yi分别为第i个样本和标签,w
1i
为弱分类器权重。
[0077]
计算gm(x)系数,即em为当前权重分布下的弱分类器的误差率。
[0078]
更新训练数据集权值分布,提高判别错误样本的权重,同时降低正确样本的权重,即:
[0079]dm+1
=(w
m+1,1
,...,w
m+1,n

[0080][0081]
zm是规范化因子,即:
[0082][0083]
构建弱分类器的线性组合,即:
[0084][0085]
从而得到强分类器:
[0086]
g(x)=sin(f(x))
[0087]
步骤s104,获取待匹配元数据,查询先验知识库是否存在匹配结果;
[0088]
优选地,获取待匹配元数据之后,同一化待匹配元数据的标点符号,如“细菌性痢疾,其他的”转化为“细菌性痢疾,其他的”;统一待匹配元数据的字符表示,如“a族链球菌性败血症”转化为“a族链球菌性败血症”;删除待匹配元数据中重复和无效语义的字符,得到处理后的待匹配元数据,如“肠粘连[带]伴有梗阻”转化为“肠粘连伴有梗阻”;
[0089]
根据处理后的待匹配元数据,查询先验知识库是否存在匹配结果,其中,先验知识库的查询是根据全词匹配方式来快速实现的,返回的结果是快速准确的;先验知识库不仅为训练模型提供训练和测试数据,而且减少元数据匹配工作量,有效缩短查询时间。
[0090]
步骤s106,若是,则直接返回匹配结果;
[0091]
步骤s108,若否,则通过粗排模型从先验知识库中得到待匹配元数据的候选集,再通过混合算法模型从候选集中得到待匹配元数据的匹配结果。
[0092]
具体地,利用前后向最大匹配算法对先验知识库中的词汇数据进行分词,根据分词的结果,通过基于bm25算法的粗排模型筛选出待匹配元数据的候选集。
[0093]
优选地,粗筛模型基于bm25算法,分词器拆分元数据集中的词汇,bm25计算与待匹配词汇的相关程度,步骤如下:
[0094]
加载先验知识库中的核心词字典到系统缓存中,核心词字典为元数据本体词汇;
[0095]
获取元数据集,调用前后向最大匹配算法来切分词语,返回分词结果;
[0096]
根据分词结果,通过bm25计算其相关性,获取相关性较高的词汇汇总成候选集。
[0097]
具体地,再通过编辑距离算法模型,得到待匹配元数据和候选集的字面相似度特征;通过部首相似度算法模型,将待匹配元数据和候选集的词汇按照偏旁部首拆分,得到字形相似度特征;通过语义相似度算法模型,将待匹配元数据和候选集的词汇映射在高维的语义空间内,基于向量计算得到语义相似度特征。
[0098]
最后根据字面相似度特征、字形相似度特征和语义相似度特征,通过分类器从候选集中得出待匹配元数据的匹配结果。
[0099]
通过本技术实施例的步骤s102至步骤s108,解决了不同业务系统间元数据匹配效率低和精度差的问题,实现了基于先验知识库和粗排模型从数据层面降低算法的复杂度,混合算法模型进一步提高匹配的准确度。
[0100]
在其中一些实施例中,在步骤s102,根据先验知识库构建训练集和测试集之前,获取书籍和互联网中的元数据,通过数据清洗和校检得到元数据的数据同义词和核心语义词汇,进而构建先验知识库。
[0101]
具体地,根据元数据类别和特点,整合多来源的已存在的元数据知识,通过数据清洗,校验(如人工校验等)获取元数据同义词和核心语义词汇,将先验的映射关系以键值对的形式存储,如整理成“上呼吸道感染”和“上感”对应形式,进而构建先验知识库。
[0102]
在其中一些实施例中,再根据上述步骤训练好模型后,将该应用于不同系统的元数据匹配的方法模型和依赖环境,通过容器技术集成到docker容器中。
[0103]
具体地,通过容器技术封装是将前述的算法模型利用容器技术,封装到一个新的系统环境中。dockek封装的镜像内部是包含完整的应用系统环境和算法模型的依赖,容器内程序可独立运行在任何服务器和单机上,稳定地术语匹配实现功能。
[0104]
本技术具体实施例提供了一种应用于不同业务系统的元数据匹配的方法,图4是根据本技术具体实施例的训练完成的模型匹配的流程示意图,如图4所示,
[0105]
待匹配元数据“上呼吸道感染”先要经过数据预处理层,具体过程与前述实施例的步骤s104中的预处理过程相似。
[0106]
经过预处理后,查询构建的先验知识库,如返回结果,即为最终结果,否则进入到算法粗排中。
[0107]
在算法粗排中,通过分词器分词,bm25算法计算相关度,初步筛选一些较相似的词汇,作为候选元数据级,进入到精排模块中。如查询例“上呼吸道感染”,粗排结果为“呼吸道感染”、“呼吸感染”、“皮肤感染”、“头部感染”等。
[0108]
算法精排是对每一个候选元数据词汇,从字面、偏旁部首、语义等角度计算相似度,然后将相似度特征作为模型输入到adaboost中,获取最终的相似度。相似度的值域在[0,1]之间,越接近0表示元数据之间相似度较差,越接近1表示元数据之间相似度越高。
[0109]
需要说明的是,在上述流程中或者附图的流程图中示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行,并且,虽然在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤。
[0110]
本技术实施例提供了一种应用于不同业务系统的元数据匹配的系统,图5是根据本技术实施例的应用于不同业务系统的元数据匹配系统的结构框图,如图5所示,系统包括
模型训练模块51和元数据匹配模块52;
[0111]
模型训练模块51用于根据先验知识库构建训练集和测试集,再根据训练集和测试集,训练得到混合算法模型;
[0112]
元数据匹配模块52用于获取待匹配元数据,查询先验知识库是否存在匹配结果;
[0113]
若是,则直接返回匹配结果;
[0114]
若否,则通过粗排模型从先验知识库中得到待匹配元数据的候选集,再通过混合算法模型从候选集中得到待匹配元数据的匹配结果。
[0115]
通过本技术实施例的模型训练模块51和元数据匹配模块52,解决了不同业务系统间元数据匹配效率低和精度差的问题,实现了基于先验知识库和粗排模型从数据层面降低算法的复杂度,混合算法模型进一步提高匹配的准确度。
[0116]
需要说明的是,上述各个模块可以是功能模块也可以是程序模块,既可以通过软件来实现,也可以通过硬件来实现。对于通过硬件来实现的模块而言,上述各个模块可以位于同一处理器中;或者上述各个模块还可以按照任意组合的形式分别位于不同的处理器中。
[0117]
本实施例还提供了一种电子装置,包括存储器和处理器,该存储器中存储有计算机程序,该处理器被设置为运行计算机程序以执行上述任一项方法实施例中的步骤。
[0118]
可选地,上述电子装置还可以包括传输设备以及输入输出设备,其中,该传输设备和上述处理器连接,该输入输出设备和上述处理器连接。
[0119]
需要说明的是,本实施例中的具体示例可以参考上述实施例及可选实施方式中所描述的示例,本实施例在此不再赘述。
[0120]
另外,结合上述实施例中的应用于不同业务系统的元数据匹配的方法,本技术实施例可提供一种存储介质来实现。该存储介质上存储有计算机程序;该计算机程序被处理器执行时实现上述实施例中的任意一种应用于不同业务系统的元数据匹配的方法。
[0121]
在一个实施例中,提供了一种计算机设备,该计算机设备可以是终端。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口、显示屏和输入装置。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统和计算机程序。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种应用于不同业务系统的元数据匹配的方法。该计算机设备的显示屏可以是液晶显示屏或者电子墨水显示屏,该计算机设备的输入装置可以是显示屏上覆盖的触摸层,也可以是计算机设备外壳上设置的按键、轨迹球或触控板,还可以是外接的键盘、触控板或鼠标等。
[0122]
在一个实施例中,图6是根据本技术实施例的电子设备的内部结构示意图,如图6所示,提供了一种电子设备,该电子设备可以是服务器,其内部结构图可以如图6所示。该电子设备包括通过内部总线连接的处理器、网络接口、内存储器和非易失性存储器,其中,该非易失性存储器存储有操作系统、计算机程序和数据库。处理器用于提供计算和控制能力,网络接口用于与外部的终端通过网络连接通信,内存储器用于为操作系统和计算机程序的运行提供环境,计算机程序被处理器执行时以实现一种应用于不同业务系统的元数据匹配的方法,数据库用于存储数据。
[0123]
本领域技术人员可以理解,图6中示出的结构,仅仅是与本技术方案相关的部分结构的框图,并不构成对本技术方案所应用于其上的电子设备的限定,具体的电子设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
[0124]
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,该计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本技术所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(rom)、可编程rom(prom)、电可编程rom(eprom)、电可擦除可编程rom(eeprom)或闪存。易失性存储器可包括随机存取存储器(ram)或者外部高速缓冲存储器。作为说明而非局限,ram以多种形式可得,诸如静态ram(sram)、动态ram(dram)、同步dram(sdram)、双数据率sdram(ddrsdram)、增强型sdram(esdram)、同步链路(synchlink)dram(sldram)、存储器总线(rambus)直接ram(rdram)、直接存储器总线动态ram(drdram)、以及存储器总线动态ram(rdram)等。
[0125]
本领域的技术人员应该明白,以上所述实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
[0126]
以上所述实施例仅表达了本技术的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本技术构思的前提下,还可以做出若干变形和改进,这些都属于本技术的保护范围。因此,本技术专利的保护范围应以所附权利要求为准。

技术特征:
1.一种应用于不同业务系统的元数据匹配的方法,其特征在于,所述方法包括:根据先验知识库构建训练集和测试集,再根据所述训练集和所述测试集,训练得到混合算法模型;获取待匹配元数据,查询所述先验知识库是否存在匹配结果;若是,则直接返回所述匹配结果;若否,则通过粗排模型从所述先验知识库中得到所述待匹配元数据的候选集,再通过所述混合算法模型从所述候选集中得到所述待匹配元数据的匹配结果。2.根据权利要求1所述的方法,其特征在于,所述混合算法模型包括特征提取器和分类器,其中,所述特征提取器包括编辑距离算法模型、部首相似度算法模型和语义相似度算法模型,所述分类器基于adaboost算法训练得到。3.根据权利要求1所述的方法,其特征在于,通过粗排模型从所述先验知识库中得到所述待匹配元数据的候选集包括:利用前后向最大匹配算法对所述先验知识库中的词汇数据进行分词,根据所述分词的结果,通过基于bm25算法的粗排模型筛选出所述待匹配元数据的候选集。4.根据权利要求1所述的方法,其特征在于,通过所述混合算法模型从所述候选集中得到所述待匹配元数据的匹配结果包括:通过编辑距离算法模型,得到所述待匹配元数据和所述候选集的字面相似度特征;通过部首相似度算法模型,将所述待匹配元数据和所述候选集的词汇按照偏旁部首拆分,得到字形相似度特征;通过语义相似度算法模型,将所述待匹配元数据和所述候选集的词汇映射在高维的语义空间内,基于向量计算得到语义相似度特征;根据所述字面相似度特征、所述字形相似度特征和所述语义相似度特征,通过分类器从所述候选集中得出所述待匹配元数据的匹配结果。5.根据权利要求1所述的方法,其特征在于,根据所述训练集和所述测试集,训练得到混合算法模型包括:根据所述训练集和所述测试集,对语义相似度算法模型进行训练,其中,所述语义相似度算法模型为simcse算法模型,所述simcse算法模型由预训练的bert模型和对比学习方法组成;根据所述训练集和所述测试集,利用编辑距离算法模型、部首相似度算法模型和语义相似度算法模型作为特征提取器,对分类器进行训练,其中,所述分类器为adaboost算法模型。6.根据权利要求1所述的方法,其特征在于,所述方法还包括:将所述应用于不同系统的元数据匹配的方法和依赖环境,通过容器技术集成到docker容器中。7.根据权利要求1所述的方法,其特征在于,获取待匹配元数据之后,所述方法包括:同一化所述待匹配元数据的标点符号,统一所述待匹配元数据的字符表示,删除所述待匹配元数据中重复和无效语义的字符,得到处理后的待匹配元数据。8.根据权利要求1所述的方法,其特征在于,在根据先验知识库构建训练集和测试集之前,所述方法包括:
获取书籍和互联网中的元数据,通过数据清洗和校检得到所述元数据的数据同义词和核心语义词汇,进而构建先验知识库。9.根据权利要求1所述的方法,其特征在于,查询所述先验知识库是否存在匹配结果包括:通过全词匹配来查询所述先验知识库是否存在匹配结果。10.一种应用于不同业务系统的元数据匹配的系统,其特征在于,所述系统包括模型训练模块和元数据匹配模块;所述模型训练模块用于根据先验知识库构建训练集和测试集,再根据所述训练集和所述测试集,训练得到混合算法模型;所述元数据匹配模块用于获取待匹配元数据,查询所述先验知识库是否存在匹配结果;若是,则直接返回所述匹配结果;若否,则通过粗排模型从所述先验知识库中得到所述待匹配元数据的候选集,再通过所述混合算法模型从所述候选集中得到所述待匹配元数据的匹配结果。

技术总结
本申请涉及一种应用于不同业务系统的元数据匹配的方法和系统,其中,该方法包括:根据先验知识库构建训练集和测试集,再根据训练集和测试集,训练得到混合算法模型;获取待匹配元数据,查询先验知识库是否存在匹配结果;若是,则直接返回匹配结果;若否,则通过粗排模型从先验知识库中得到待匹配元数据的候选集,再通过混合算法模型从候选集中得到待匹配元数据的匹配结果。通过本申请,解决了不同业务系统间元数据匹配效率低和精度差的问题,实现了基于先验知识库和粗排模型从数据层面降低算法的复杂度,混合算法模型进一步提高匹配的准确度。确度。确度。


技术研发人员:郭亚强 甄化春 杨金义
受保护的技术使用者:医惠科技有限公司
技术研发日:2022.03.18
技术公布日:2022/7/5
转载请注明原文地址: https://www.8miu.com/read-9278.html

最新回复(0)