信息检索方法、装置、设备及计算机可读介质与流程

allin2024-03-20  105



1.本技术涉及自然语言处理技术领域,尤其涉及一种信息检索方法、装置、设备及计算机可读介质。


背景技术:

2.信息检索是根据用户的输入,即关键词,从大量的文章中进行相关度匹配和查找,然后将匹配到的文章根据相关度进行排序,提供给用户。
3.目前,相关技术中,往往直接将用户的输入信息作为关键词进行信息检索,若用户的输入信息中包含无关的冗余信息,则会影响信息检索的准确度和检索效率,即使用户在输入时已经尽量避免了冗余信息的存在,但若输入信息中存在较为复杂的领域交叉关系,信息检索系统就会将输入的输入信息全都作为关键词进行信息检索,从而检索出多个领域的内容,这样就极大降低了用户只想在某一特定领域内进行检索的效率的准确度,影响用户体验。
4.针对信息检索效率低、准确度低的问题,目前尚未提出有效的解决方案。


技术实现要素:

5.本技术提供了一种信息检索方法、装置、设备及计算机可读介质,以解决信息检索效率低、准确度低的技术问题。
6.根据本技术实施例的一个方面,本技术提供了一种信息检索方法,包括:
7.获取目标对象针对目标领域输入的检索文本;
8.采用多级信息抽取策略在检索文本中抽取出与目标领域关联的领域信息;
9.将领域信息作为关键词进行信息检索,并按照关键词在召回文档中的提及频率从大到小的顺序对召回文档进行排序;
10.将目标排序位置之前的召回文档作为检索结果展示给目标对象。
11.可选地,采用多级信息抽取策略在检索文本中抽取出与目标领域关联的领域信息包括:
12.将检索文本输入第一实体识别模型,以利用第一实体识别模型识别并抽取出检索文本中属于目标领域的目标实体,其中,第一实体识别模型为预先使用目标领域的领域实体知识对预训练语言模型进行二次训练得到的,领域实体知识包括目标领域的关联文档,目标领域的领域信息包括目标实体;
13.在第一实体识别模型未抽取到目标实体的情况下,将检索文本输入第一名词抽取模型,以利用第一名词抽取模型抽取出检索文本中属于目标领域的目标名词,其中,第一名词抽取模型为预先使用目标领域的领域名词知识对预训练名词抽取模型进行二次训练得到的,领域名词知识包括目标领域的关联文档,目标领域的领域信息包括目标名词;
14.在第一名词抽取模型未抽取到目标名词的情况下,将检索文本输入第一摘要抽取模型,以用第一摘要抽取模型抽取出检索文本的目标摘要,其中,第一摘要抽取模型为预先
使用目标领域的领域事件知识对预训练摘要抽取模型进行二次训练得到的,领域事件知识包括目标领域的关联文档,目标领域的领域信息包括目标摘要。
15.可选地,将检索文本输入第一实体识别模型,以利用第一实体识别模型识别并抽取出检索文本中属于目标领域的目标实体包括:
16.遍历检索文本,并在遍历到当前字符时,将当前字符作为起始字符,将当前字符以及当前字符之后的字符逐一作为结束字符,得到多个候选实体;
17.将遍历检索文本的所有字符后得到的所有候选实体输入第一实体识别模型,以利用第一实体识别模型从候选实体中抽取出属于目标领域的目标实体。
18.可选地,将检索文本输入第一实体识别模型之前,所述方法还包括按照如下方式训练得到第一实体识别模型:
19.采集目标领域的领域实体知识,并基于预设知识库搭建远程监督任务,以通过远程监督任务对领域实体知识中属于目标领域的实体进行标注,得到第一训练数据;
20.对第一训练数据进行数据增强,得到第二训练数据;
21.使用第二训练数据微调第二实体识别模型的参数,直至第二实体识别模型对目标领域的测试数据的实体识别准确度达到目标阈值时,将训练后的第二实体识别模型保存得到第一实体识别模型,其中,第二实体识别模型为基于预训练语言模型构建得到的。
22.可选地,对第一训练数据进行数据增强,得到第二训练数据包括:
23.确定第一训练数据中标注实体的最长实体长度;
24.遍历第一训练数据,并在遍历到当前字符时,将当前字符作为起始字符,将当前字符至当前字符之后最长实体长度位置的字符逐一作为结束字符,得到多个候选实体;
25.将遍历第一训练数据的所有字符得到的所有候选实体与第一训练数据中的标注实体进行匹配;
26.将匹配到对应的标注实体的候选实体作为正样本,其中,正样本的样本标签为对应的标注实体的实体标签和类型标签;
27.将未匹配到对应的标注实体的候选实体作为负样本,其中,负样本的样本标签为非实体标签和空类型标签;
28.将正样本和负样本作为第二训练数据。
29.可选地,将检索文本输入第一名词抽取模型之前,所述方法还包括按照如下方式训练得到第一名词抽取模型:采集目标领域的领域名词知识,并基于预设知识库搭建远程监督任务,以通过远程监督任务对领域名词知识中属于目标领域的名词进行标注,得到第三训练数据;使用第三训练数据微调第二名词抽取模型的参数,直至第二名词抽取模型对目标领域的测试数据的名词抽取准确度达到目标阈值时,将训练后的第二名词抽取模型保存得到第一名词抽取模型,其中,第二名词抽取模型为预训练名词抽取模型。
30.可选地,将检索文本输入第一摘要抽取模型之前,所述方法还包括按照如下方式训练得到第一摘要抽取模型:采集目标领域的领域事件知识,并基于预设知识库搭建远程监督任务,以通过远程监督任务对领域事件知识中属于目标领域的事件进行标注,得到第四训练数据;使用第四训练数据微调第二摘要抽取模型的参数,直至第二摘要抽取模型对目标领域的测试数据的摘要抽取准确度达到目标阈值时,将训练后的第二摘要抽取模型保存得到第一摘要抽取模型,其中,第二摘要抽取模型为预训练摘要抽取模型。
31.可选地,所述方法还包括:
32.获取目标对象输入的未指定领域的目标检索文本;
33.将目标检索文本输入业务领域识别模型,以利用业务领域识别模型确定目标检索文本所属的目标领域,其中,业务领域识别模型为预先使用带有标注数据的训练数据对预训练语义识别模型进行二次训练得到的,标注数据用于标注训练数据的所属业务领域;
34.按照多级信息抽取策略调取出与目标领域匹配的实体识别模型、名词抽取模型以及摘要抽取模型三者至少之一进行信息抽取。
35.根据本技术实施例的另一方面,本技术提供了一种信息检索装置,包括:
36.获取模块,用于获取目标对象针对目标领域输入的检索文本;
37.抽取模块,用于采用多级信息抽取策略在检索文本中抽取出与目标领域关联的领域信息;
38.检索模块,用于将领域信息作为关键词进行信息检索,并按照关键词在召回文档中的提及频率从大到小的顺序对召回文档进行排序;
39.推送模块,用于将目标排序位置之前的召回文档作为检索结果展示给目标对象。
40.根据本技术实施例的另一方面,本技术提供了一种信息检索设备,包括存储器、处理器、通信接口及通信总线,存储器中存储有可在处理器上运行的计算机程序,存储器、处理器通过通信总线和通信接口进行通信,处理器执行计算机程序时实现上述方法的步骤。
41.根据本技术实施例的另一方面,本技术还提供了一种具有处理器可执行的非易失的程序代码的计算机可读介质,程序代码使处理器执行上述的方法。
42.本技术技术方案可以应用于深度学习技术进行自然语言处理。本技术实施例提供的上述技术方案与相关技术相比具有如下优点:
43.本技术技术方案为,获取目标对象针对目标领域输入的检索文本;采用多级信息抽取策略在检索文本中抽取出与目标领域关联的领域信息;将领域信息作为关键词进行信息检索,并按照关键词在召回文档中的提及频率从大到小的顺序对召回文档进行排序;将目标排序位置之前的召回文档作为检索结果展示给目标对象。本技术通过多级信息抽取策略从用户输入的检索文本中抽取出特定领域的领域信息作为关键词进行信息检索,从而提高了用户对该特定领域的信息检索需求的信息检索准确度和检索效率,提升了用户体验,解决了信息检索效率低、准确度低的技术问题。
附图说明
44.此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本技术的实施例,并与说明书一起用于解释本技术的原理。
45.为了更清楚地说明本技术实施例或相关技术中的技术方案,下面将对实施例或相关技术描述中所需要使用的附图作简单地介绍,显而易见地,对于本领域普通技术人员而言,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
46.图1为根据本技术实施例提供的一种可选的信息检索方法硬件环境示意图;
47.图2为根据本技术实施例提供的一种可选的信息检索方法流程示意图;
48.图3为根据本技术实施例提供的一种可选的信息检索装置框图;
49.图4为本技术实施例提供的一种可选的信息检索设备结构示意图。
具体实施方式
50.为使本技术实施例的目的、技术方案和优点更加清楚,下面将结合本技术实施例中的附图,对本技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本技术的一部分实施例,而不是全部的实施例。基于本技术中的实施例,本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本技术保护的范围。
51.在后续的描述中,使用用于表示元件的诸如“模块”、“部件”或“单元”的后缀仅为了有利于本技术的说明,其本身并没有特定的意义。因此,“模块”与“部件”可以混合地使用。
52.相关技术中,往往直接将用户的输入信息作为关键词进行信息检索,若用户的输入信息中包含无关的冗余信息,则会影响信息检索的准确度和检索效率,即使用户在输入时已经尽量避免了冗余信息的存在,但若输入信息中存在较为复杂的领域交叉关系,信息检索系统就会将输入的输入信息全都作为关键词进行信息检索,从而检索出多个领域的内容,这样就极大降低了用户只想在某一特定领域内进行检索的效率的准确度,影响用户体验。
53.为了解决背景技术中提及的问题,根据本技术实施例的一方面,提供了一种信息检索方法的实施例。
54.可选地,在本技术实施例中,上述信息检索方法可以应用于如图1所示的由终端101和服务器103所构成的硬件环境中。如图1所示,服务器103通过网络与终端101进行连接,可用于为终端或终端上安装的客户端提供服务(如信息检索服务、实体识别服务、名词抽取服务、摘要抽取服务以及模型训练服务等),可在服务器上或独立于服务器设置数据库105,用于为服务器103提供数据存储服务,上述网络包括但不限于:广域网、城域网或局域网,终端101包括但不限于pc、手机、平板电脑等。
55.本技术实施例中的一种信息检索方法可以由服务器103来执行,还可以是由服务器103和终端101共同执行,如图2所示,该方法可以包括以下步骤:
56.步骤s202,获取目标对象针对目标领域输入的检索文本;
57.步骤s204,采用多级信息抽取策略在检索文本中抽取出与目标领域关联的领域信息;
58.步骤s206,将领域信息作为关键词进行信息检索,并按照关键词在召回文档中的提及频率从大到小的顺序对召回文档进行排序;
59.步骤s208,将目标排序位置之前的召回文档作为检索结果展示给目标对象。
60.通过上述步骤s202至s208,本技术通过多级信息抽取策略从用户输入的检索文本中抽取出特定领域的领域信息作为关键词进行信息检索,从而提高了用户对该特定领域的信息检索需求的信息检索准确度和检索效率,提升了用户体验,解决了信息检索效率低、准确度低的技术问题。
61.在步骤s202中,可以通过目标对象输入检索文本的位置确定该特定的目标领域,如目标对象在金融服务类网站进行信息检索的话,确定该特定的目标领域为金融领域,若目标对象在电子电路交流论坛上进行信息检索的话,确定该特定的目标领域为电子电路领域。因此,本技术技术方案尤其应用于针对特定领域提供高效、准确的信息检索服务的信息检索场景。
62.在步骤s204中,可以采用多级信息抽取策略从检索文本中抽取出该目标领域的领域信息,从而在步骤s206中将该领域信息作为关键词进行信息检索。
63.可选地,采用多级信息抽取策略在检索文本中抽取出与目标领域关联的领域信息包括:
64.步骤1,将检索文本输入第一实体识别模型,以利用第一实体识别模型识别并抽取出检索文本中属于目标领域的目标实体,其中,第一实体识别模型为预先使用目标领域的领域实体知识对预训练语言模型进行二次训练得到的,领域实体知识包括目标领域的关联文档,目标领域的领域信息包括目标实体;
65.步骤2,在第一实体识别模型未抽取到目标实体的情况下,将检索文本输入第一名词抽取模型,以利用第一名词抽取模型抽取出检索文本中属于目标领域的目标名词,其中,第一名词抽取模型为预先使用目标领域的领域名词知识对预训练名词抽取模型进行二次训练得到的,领域名词知识包括目标领域的关联文档,目标领域的领域信息包括目标名词;
66.步骤3,在第一名词抽取模型未抽取到目标名词的情况下,将检索文本输入第一摘要抽取模型,以用第一摘要抽取模型抽取出检索文本的目标摘要,其中,第一摘要抽取模型为预先使用目标领域的领域事件知识对预训练摘要抽取模型进行二次训练得到的,领域事件知识包括目标领域的关联文档,目标领域的领域信息包括目标摘要。
67.本技术实施例中,可以按照信息抽取准确度从高到低的顺序依次进行实体抽取、名词抽取以及摘要抽取。
68.实体抽取中,以化妆品领域为例,若检索文本为“欧莱雅保湿眼霜”,则第一实体识别模型抽取出的实体包括品牌实体“欧莱雅”以及产品实体“保湿眼霜”,据此可将以上抽取出的实体作为化妆品领域的关键词进行信息检索,从而即可快速、准确地得到欧莱雅品牌下的保湿眼霜产品信息。上述第一实体识别模型是基于预训练语言模型,使用目标领域的领域实体知识作为训练数据对预训练语言模型进行参数微调得到的,经过参数微调后,该第一实体识别模型针对该目标领域具有更强的适应能力。上述领域实体知识包括目标领域的关联文档,如化妆品的销售信息、宣传信息、测评信息等相关文档。
69.在实体抽取步骤未抽取出目标实体时,可以通过名词抽取来抽取出实体抽取未考虑到的范围。名词抽取中,可以采用stanford corenlp进行名词抽取,即以stanford corenlp为预训练名词抽取模型,使用特定领域的领域名词知识作为训练数据对模型参数进行微调,得到该第一名词抽取模型,经过参数微调后,该第一名词抽取模型针对该目标领域具有更强的适应能力。以航天装备领域为例,若检索文本为“在现代机载导弹中,空射巡航导弹均采用复合制导”,则通过stanford corenlp词性标注接口,获取到的名词列表为“机载”,“导弹”,“空射”,“巡航”,“导弹”,“制导”。上述领域名词知识包括目标领域的关联文档,如航天装备的介绍文档、使用文档、技术文档、科普文档等。
70.若名词抽取步骤仍未抽取出目标名词,则可以通过摘要抽取来抽取出检索文本的主要内容来来作为关键词进行信息检索。摘要抽取中,可以采用gtp2生成模型进行摘要抽取,即以gtp2生成模型为预训练摘要抽取模型,使用特定领域的领域事件知识作为训练数据对模型参数进行微调,得到该第一摘要抽取模型,经过参数微调后,该第一摘要抽取模型针对该目标领域具有更强的适应能力。上述领域事件知识包括目标领域的关联文档,如化妆品的销售信息、宣传信息、测评信息等相关文档,航天装备的介绍文档、使用文档、技术文
档、科普文档等。为了提高泛用性,则可以采用通用数据集进行模型训练,例如nlpcc数据集等。
71.下面对实体识别进行展开说明。
72.本技术实施例中,可以采用globalpointer进行实体识别。globalpointer方案利用全局归一化的思路进行命名实体识别,可以无差别识别嵌套实体和非嵌套实体。基本思路为:假设要识别文本序列长度为n,对于只有一种实体要识别的情况,其可能的候选实体是从任意位置开始,任意长度结束,因此总数量是n(n+1)/2个,我们要做的就是从这n(n+1)/2个候选实体里边找出真正的实体,其实就是一个“n(n+1)/2选k”的多标签分类问题。推而广之,如果有m种实体类型需要识别,那么就做成m个“n(n+1)/2选k”的多标签分类问题。
73.可选地,将检索文本输入第一实体识别模型,以利用第一实体识别模型识别并抽取出检索文本中属于目标领域的目标实体包括:
74.步骤1,遍历检索文本,并在遍历到当前字符时,将当前字符作为起始字符,将当前字符以及当前字符之后的字符逐一作为结束字符,得到多个候选实体;
75.步骤2,将遍历检索文本的所有字符后得到的所有候选实体输入第一实体识别模型,以利用第一实体识别模型从候选实体中抽取出属于目标领域的目标实体。
76.本技术实施例中,基于上述globalpointer方案利用全局归一化的思路,可将检索文本构建为多个候选实体,如检索文本“欧莱雅保湿眼霜”可逐一将每个字符作为起始字符,将起始字符之后的每个字符又逐一作为结束字符来构建候选实体。以起始字符为“欧”为例,可以得到的候选实体包括:欧、欧莱、欧莱雅、欧莱雅保、欧莱雅保湿、欧莱雅保湿眼、欧莱雅保湿眼霜。以起始字符为“保”为例,可以得到的候选实体包括:保、保湿、保湿眼、保湿眼霜。经过遍历检索文本的所有字符,即可得到所有候选实体,从而可利用第一实体识别模型从所有候选实体中找出真正的实体。
77.本技术实施例中,由于本技术技术方案尤其应用于针对特定领域提供高效、准确的信息检索服务的信息检索场景,而部分特定领域如新兴技术、核心保密技术等相关的语料十分稀少,因此为了保证实体识别模型的准确性,需要使用较少的训练语料构建更多相似的训练语料来支撑对预训练语言模型进行参数微调的二次训练阶段,下面对基于训练语料数据增强得到实体识别模型训练方法进行说明。
78.可选地,将检索文本输入第一实体识别模型之前,所述方法还包括按照如下方式训练得到第一实体识别模型:
79.步骤1,采集目标领域的领域实体知识,并基于预设知识库搭建远程监督任务,以通过远程监督任务对领域实体知识中属于目标领域的实体进行标注,得到第一训练数据;
80.步骤2,对第一训练数据进行数据增强,得到第二训练数据;
81.步骤3,使用第二训练数据微调第二实体识别模型的参数,直至第二实体识别模型对目标领域的测试数据的实体识别准确度达到目标阈值时,将训练后的第二实体识别模型保存得到第一实体识别模型,其中,第二实体识别模型为基于预训练语言模型构建得到的。
82.本技术实施例中,采集目标领域的领域实体知识可以通过公开网站、书籍等资料中获取该目标领域的相关文档作为领域实体知识的语料载体,并通过预设知识库来对该领域实体知识的语料中属于目标领域的实体的标注过程进行远程监督,如通过规则匹配、字典对齐等方式,上述预设知识库可以是由领域专家总结的先验知识构建得到的。由于直接
对采集得到的领域实体知识进行标注得到的第一训练数据的数据量较少,因此可以对对第一训练数据进行数据增强,以获得该目标领域相关的更多训练样本。数据增强后,即可使用第二训练数据来对基于预训练语言模型构建得到的第二实体识别模型(也即通用实体识别模型)进行参数微调,从而将通用实体识别模型引导训练为更适应目标领域的第一实体识别模型。
83.可选地,对第一训练数据进行数据增强,得到第二训练数据包括:
84.步骤1,确定第一训练数据中标注实体的最长实体长度;
85.步骤2,遍历第一训练数据,并在遍历到当前字符时,将当前字符作为起始字符,将当前字符至当前字符之后最长实体长度位置的字符逐一作为结束字符,得到多个候选实体;
86.步骤3,将遍历第一训练数据的所有字符得到的所有候选实体与第一训练数据中的标注实体进行匹配;
87.步骤4,将匹配到对应的标注实体的候选实体作为正样本,其中,正样本的样本标签为对应的标注实体的实体标签和类型标签;
88.步骤5,将未匹配到对应的标注实体的候选实体作为负样本,其中,负样本的样本标签为非实体标签和空类型标签;
89.步骤6,将正样本和负样本作为第二训练数据。
90.本技术实施例中,为了对第一训练数据进行数据增强,可以遍历第一训练数据,依次将第一训练数据的每个字符作为起始转字符,将起始字符之后的每个字符再逐一作为结束字符来构建多个候选实体。为了避免过多冗余语料,可以对数据增强的范围进行缩限,即将第一训练数据中标注实体的最长实体长度确定为候选实体的最长长度,如第一训练数据“欧莱雅保湿眼霜方为娇嫩脆弱的眼周肌肤定制”中,通过远程监督任务将“欧莱雅”标注为品牌实体,将“保湿眼霜”标注为产品实体,将“眼周肌肤”标注为涂抹区域实体,则此时最长实体长度为4个字符,若存在实体嵌套的情况,如“欧莱雅保湿眼霜”也标注为产品实体,则品牌实体“欧莱雅”和产品实体“保湿眼霜”嵌套于产品实体“欧莱雅保湿眼霜”中,此时最长实体长度为7个字符,遍历第一训练数据以构建更多候选实体时,每个候选实体的长度均小于或等于该最长实体长度。例如,上述第一训练数据中,以“欧”为起始字符构建得到的所有候选实体包括:欧、欧莱、欧莱雅、欧莱雅保、欧莱雅保湿、欧莱雅保湿眼、欧莱雅保湿眼霜,之后再以“莱”为起始字符构建候选实体,包括:莱、莱雅、莱雅保、莱雅保湿、莱雅保湿眼、莱雅保湿眼霜、莱雅保湿眼霜配。经过遍历第一训练数据的所有字符,即可得到所有候选实体。接着再用构建出来的候选实体去匹配第一训练数据中的标注实体,匹配成功的划分为正样本,匹配失败的划分为负样本,如上述候选实体“欧莱雅”匹配到相同的标注实体“欧莱雅”,则将该候选实体划分为正样本,候选实体“欧莱雅保”则未匹配到任何标注实体,则将“欧莱雅保”划分为负样本。其中正样本的样本标签包括实体标签和类型标签,实体标签用1表示,类型标签则标注具体的实体类型,如候选实体“欧莱雅”的样本标签为[1品牌],表示“欧莱雅”是化妆品领域的实体,其实体类型为品牌。负样本的样本标签包括非实体标签和空类型标签,非实体标签用0表示,空类型标签用null表示。上述正样本和负样本即构成数据增强后的所述第二训练数据。
[0091]
可选地,将检索文本输入第一名词抽取模型之前,所述方法还包括按照如下方式
训练得到第一名词抽取模型:采集目标领域的领域名词知识,并基于预设知识库搭建远程监督任务,以通过远程监督任务对领域名词知识中属于目标领域的名词进行标注,得到第三训练数据;使用第三训练数据微调第二名词抽取模型的参数,直至第二名词抽取模型对目标领域的测试数据的名词抽取准确度达到目标阈值时,将训练后的第二名词抽取模型保存得到第一名词抽取模型,其中,第二名词抽取模型为预训练名词抽取模型。
[0092]
本技术实施例中,为了提高名词抽取模型对目标领域的适应能力,也可以用目标领域的领域名词知识对预训练名词抽取模型(第二名词抽取模型)进行参数微调,上述领域名词知识可以通过采集目标领域的相关语料后进行分词、词性标注得到。
[0093]
可选地,将检索文本输入第一摘要抽取模型之前,所述方法还包括按照如下方式训练得到第一摘要抽取模型:采集目标领域的领域事件知识,并基于预设知识库搭建远程监督任务,以通过远程监督任务对领域事件知识中属于目标领域的事件进行标注,得到第四训练数据;使用第四训练数据微调第二摘要抽取模型的参数,直至第二摘要抽取模型对目标领域的测试数据的摘要抽取准确度达到目标阈值时,将训练后的第二摘要抽取模型保存得到第一摘要抽取模型,其中,第二摘要抽取模型为预训练摘要抽取模型。
[0094]
本技术实施例中,为了提高摘要抽取模型对目标领域的适应能力,也可以用目标领域的领域事件知识对预训练摘要抽取模型(第二摘要抽取模型)进行参数微调,上述领域事件知识可以通过采集目标领域的相关语料后进行语义分析得出。
[0095]
本技术实施例中,若目标对象直接在通用搜索引擎进行信息检索,则此时为了确定目标对象输入的检索文本所属的目标领域,可以先对检索文本进行领域识别,再进一步地根据领域识别结果调取相关模型来抽取目标领域的领域数据作为关键词进行信息检索。
[0096]
可选地,所述方法还包括:
[0097]
步骤1,获取目标对象输入的未指定领域的目标检索文本;
[0098]
步骤2,将目标检索文本输入业务领域识别模型,以利用业务领域识别模型确定目标检索文本所属的目标领域,其中,业务领域识别模型为预先使用带有标注数据的训练数据对预训练语义识别模型进行二次训练得到的,标注数据用于标注训练数据的所属业务领域;
[0099]
步骤3,按照多级信息抽取策略调取出与目标领域匹配的实体识别模型、名词抽取模型以及摘要抽取模型三者至少之一进行信息抽取。
[0100]
本技术通过多级信息抽取策略从用户输入的检索文本中抽取出特定领域的领域信息作为关键词进行信息检索,从而提高了用户对该特定领域的信息检索需求的信息检索准确度和检索效率,提升了用户体验,解决了信息检索效率低、准确度低的技术问题。
[0101]
根据本技术实施例的又一方面,如图3所示,提供了一种信息检索装置,包括:
[0102]
获取模块301,用于获取目标对象针对目标领域输入的检索文本;
[0103]
抽取模块303,用于采用多级信息抽取策略在检索文本中抽取出与目标领域关联的领域信息;
[0104]
检索模块305,用于将领域信息作为关键词进行信息检索,并按照关键词在召回文档中的提及频率从大到小的顺序对召回文档进行排序;
[0105]
推送模块307,用于将目标排序位置之前的召回文档作为检索结果展示给目标对象。
[0106]
需要说明的是,该实施例中的获取模块301可以用于执行本技术实施例中的步骤s202,该实施例中的抽取模块303可以用于执行本技术实施例中的步骤s204,该实施例中的检索模块305可以用于执行本技术实施例中的步骤s206,该实施例中的推送模块307可以用于执行本技术实施例中的步骤s208。
[0107]
此处需要说明的是,上述模块与对应的步骤所实现的示例和应用场景相同,但不限于上述实施例所公开的内容。需要说明的是,上述模块作为装置的一部分可以运行在如图1所示的硬件环境中,可以通过软件实现,也可以通过硬件实现。
[0108]
可选地,该抽取模块,具体用于:
[0109]
将检索文本输入第一实体识别模型,以利用第一实体识别模型识别并抽取出检索文本中属于目标领域的目标实体,其中,第一实体识别模型为预先使用目标领域的领域实体知识对预训练语言模型进行二次训练得到的,领域实体知识包括目标领域的关联文档,目标领域的领域信息包括目标实体;
[0110]
在第一实体识别模型未抽取到目标实体的情况下,将检索文本输入第一名词抽取模型,以利用第一名词抽取模型抽取出检索文本中属于目标领域的目标名词,其中,第一名词抽取模型为预先使用目标领域的领域名词知识对预训练名词抽取模型进行二次训练得到的,领域名词知识包括目标领域的关联文档,目标领域的领域信息包括目标名词;
[0111]
在第一名词抽取模型未抽取到目标名词的情况下,将检索文本输入第一摘要抽取模型,以用第一摘要抽取模型抽取出检索文本的目标摘要,其中,第一摘要抽取模型为预先使用目标领域的领域事件知识对预训练摘要抽取模型进行二次训练得到的,领域事件知识包括目标领域的关联文档,目标领域的领域信息包括目标摘要。
[0112]
可选地,该抽取模块,还用于:
[0113]
遍历检索文本,并在遍历到当前字符时,将当前字符作为起始字符,将当前字符以及当前字符之后的字符逐一作为结束字符,得到多个候选实体;
[0114]
将遍历检索文本的所有字符后得到的所有候选实体输入第一实体识别模型,以利用第一实体识别模型从候选实体中抽取出属于目标领域的目标实体。
[0115]
可选地,该信息检索系统,还包括实体识别模型训练模块,用于:
[0116]
采集目标领域的领域实体知识,并基于预设知识库搭建远程监督任务,以通过远程监督任务对领域实体知识中属于目标领域的实体进行标注,得到第一训练数据;
[0117]
对第一训练数据进行数据增强,得到第二训练数据;
[0118]
使用第二训练数据微调第二实体识别模型的参数,直至第二实体识别模型对目标领域的测试数据的实体识别准确度达到目标阈值时,将训练后的第二实体识别模型保存得到第一实体识别模型,其中,第二实体识别模型为基于预训练语言模型构建得到的。
[0119]
可选地,该实体识别模型训练模块,还包括数据增强单元,用于:
[0120]
确定第一训练数据中标注实体的最长实体长度;
[0121]
遍历第一训练数据,并在遍历到当前字符时,将当前字符作为起始字符,将当前字符至当前字符之后最长实体长度位置的字符逐一作为结束字符,得到多个候选实体;
[0122]
将遍历第一训练数据的所有字符得到的所有候选实体与第一训练数据中的标注实体进行匹配;
[0123]
将匹配到对应的标注实体的候选实体作为正样本,其中,正样本的样本标签为对
应的标注实体的实体标签和类型标签;
[0124]
将未匹配到对应的标注实体的候选实体作为负样本,其中,负样本的样本标签为非实体标签和空类型标签;
[0125]
将正样本和负样本作为第二训练数据。
[0126]
可选地,该信息检索系统,还包括名词抽取模型训练模块,用于:
[0127]
采集目标领域的领域名词知识,并基于预设知识库搭建远程监督任务,以通过远程监督任务对领域名词知识中属于目标领域的名词进行标注,得到第三训练数据;使用第三训练数据微调第二名词抽取模型的参数,直至第二名词抽取模型对目标领域的测试数据的名词抽取准确度达到目标阈值时,将训练后的第二名词抽取模型保存得到第一名词抽取模型,其中,第二名词抽取模型为预训练名词抽取模型。
[0128]
可选地,该信息检索系统,还包括摘要抽取模型训练模块,用于:
[0129]
采集目标领域的领域事件知识,并基于预设知识库搭建远程监督任务,以通过远程监督任务对领域事件知识中属于目标领域的事件进行标注,得到第四训练数据;使用第四训练数据微调第二摘要抽取模型的参数,直至第二摘要抽取模型对目标领域的测试数据的摘要抽取准确度达到目标阈值时,将训练后的第二摘要抽取模型保存得到第一摘要抽取模型,其中,第二摘要抽取模型为预训练摘要抽取模型。
[0130]
可选地,该信息检索系统,还包括领域识别模块,用于:
[0131]
获取目标对象输入的未指定领域的目标检索文本;
[0132]
将目标检索文本输入业务领域识别模型,以利用业务领域识别模型确定目标检索文本所属的目标领域,其中,业务领域识别模型为预先使用带有标注数据的训练数据对预训练语义识别模型进行二次训练得到的,标注数据用于标注训练数据的所属业务领域;
[0133]
按照多级信息抽取策略调取出与目标领域匹配的实体识别模型、名词抽取模型以及摘要抽取模型三者至少之一进行信息抽取。
[0134]
根据本技术实施例的另一方面,本技术提供了一种信息检索设备,如图4所示,包括存储器401、处理器403、通信接口405及通信总线407,存储器401中存储有可在处理器403上运行的计算机程序,存储器401、处理器403通过通信接口405和通信总线407进行通信,处理器403执行计算机程序时实现上述方法的步骤。
[0135]
上述信息检索设备中的存储器、处理器通过通信总线和通信接口进行通信。所述通信总线可以是外设部件互连标准(peripheral component interconnect,简称pci)总线或扩展工业标准结构(extended industry standard architecture,简称eisa)总线等。该通信总线可以分为地址总线、数据总线、控制总线等。
[0136]
存储器可以包括随机存取存储器(random access memory,简称ram),也可以包括非易失性存储器(non-volatile memory),例如至少一个磁盘存储器。可选的,存储器还可以是至少一个位于远离前述处理器的存储装置。
[0137]
上述的处理器可以是通用处理器,包括中央处理器(central processing unit,简称cpu)、网络处理器(network processor,简称np)等;还可以是数字信号处理器(digital signal processing,简称dsp)、专用集成电路(application specific integrated circuit,简称asic)、现场可编程门阵列(field-programmable gate array,简称fpga)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。
[0138]
根据本技术实施例的又一方面还提供了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行上述任一实施例的步骤。
[0139]
可选地,在本技术实施例中,计算机可读介质被设置为存储用于所述处理器执行以下步骤的程序代码:
[0140]
获取目标对象针对目标领域输入的检索文本;
[0141]
采用多级信息抽取策略在检索文本中抽取出与目标领域关联的领域信息;
[0142]
将领域信息作为关键词进行信息检索,并按照关键词在召回文档中的提及频率从大到小的顺序对召回文档进行排序;
[0143]
将目标排序位置之前的召回文档作为检索结果展示给目标对象。
[0144]
可选地,本实施例中的具体示例可以参考上述实施例中所描述的示例,本实施例在此不再赘述。
[0145]
本技术实施例在具体实现时,可以参阅上述各个实施例,具有相应的技术效果。
[0146]
可以理解的是,本文描述的这些实施例可以用硬件、软件、固件、中间件、微码或其组合来实现。对于硬件实现,处理单元可以实现在一个或多个专用集成电路(application specific integrated circuits,asic)、数字信号处理器(digital signal processing,dsp)、数字信号处理设备(dsp device,dspd)、可编程逻辑设备(programmable logic device,pld)、现场可编程门阵列(field-programmable gate array,fpga)、通用处理器、控制器、微控制器、微处理器、用于执行本技术所述功能的其它电子单元或其组合中。
[0147]
对于软件实现,可通过执行本文所述功能的单元来实现本文所述的技术。软件代码可存储在存储器中并通过处理器执行。存储器可以在处理器中或在处理器外部实现。
[0148]
本领域普通技术人员可以意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本技术的范围。
[0149]
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统、装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
[0150]
在本技术所提供的实施例中,应该理解到,所揭露的装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述模块的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个模块或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
[0151]
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
[0152]
另外,在本技术各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。
[0153]
所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本技术实施例的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本技术各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:u盘、移动硬盘、rom、ram、磁碟或者光盘等各种可以存储程序代码的介质。需要说明的是,在本文中,诸如“第一”和“第二”等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个
……”
限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
[0154]
以上所述仅是本技术的具体实施方式,使本领域技术人员能够理解或实现本技术。对这些实施例的多种修改对本领域的技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本技术的精神或范围的情况下,在其它实施例中实现。因此,本技术将不会被限制于本文所示的这些实施例,而是要符合与本文所申请的原理和新颖特点相一致的最宽的范围。

技术特征:
1.一种信息检索方法,其特征在于,包括:获取目标对象针对目标领域输入的检索文本;采用多级信息抽取策略在所述检索文本中抽取出与所述目标领域关联的领域信息;将所述领域信息作为关键词进行信息检索,并按照所述关键词在召回文档中的提及频率从大到小的顺序对所述召回文档进行排序;将目标排序位置之前的所述召回文档作为检索结果展示给所述目标对象。2.根据权利要求1所述的方法,其特征在于,采用多级信息抽取策略在所述检索文本中抽取出与所述目标领域关联的领域信息包括:将所述检索文本输入第一实体识别模型,以利用所述第一实体识别模型识别并抽取出所述检索文本中属于所述目标领域的目标实体,其中,所述第一实体识别模型为预先使用所述目标领域的领域实体知识对预训练语言模型进行二次训练得到的,所述领域实体知识包括所述目标领域的关联文档,所述目标领域的所述领域信息包括所述目标实体;在所述第一实体识别模型未抽取到所述目标实体的情况下,将所述检索文本输入第一名词抽取模型,以利用所述第一名词抽取模型抽取出所述检索文本中属于所述目标领域的目标名词,其中,所述第一名词抽取模型为预先使用所述目标领域的领域名词知识对预训练名词抽取模型进行二次训练得到的,所述领域名词知识包括所述目标领域的关联文档,所述目标领域的所述领域信息包括所述目标名词;在所述第一名词抽取模型未抽取到所述目标名词的情况下,将所述检索文本输入第一摘要抽取模型,以用所述第一摘要抽取模型抽取出所述检索文本的目标摘要,其中,所述第一摘要抽取模型为预先使用所述目标领域的领域事件知识对预训练摘要抽取模型进行二次训练得到的,所述领域事件知识包括所述目标领域的关联文档,所述目标领域的所述领域信息包括所述目标摘要。3.根据权利要求2所述的方法,其特征在于,将所述检索文本输入第一实体识别模型,以利用所述第一实体识别模型识别并抽取出所述检索文本中属于所述目标领域的目标实体包括:遍历所述检索文本,并在遍历到当前字符时,将所述当前字符作为起始字符,将所述当前字符以及所述当前字符之后的字符逐一作为结束字符,得到多个候选实体;将遍历所述检索文本的所有字符后得到的所有候选实体输入所述第一实体识别模型,以利用所述第一实体识别模型从所述候选实体中抽取出属于所述目标领域的所述目标实体。4.根据权利要求3所述的方法,其特征在于,将所述检索文本输入第一实体识别模型之前,所述方法还包括按照如下方式训练得到所述第一实体识别模型:采集所述目标领域的所述领域实体知识,并基于预设知识库搭建远程监督任务,以通过所述远程监督任务对所述领域实体知识中属于所述目标领域的实体进行标注,得到第一训练数据;对所述第一训练数据进行数据增强,得到第二训练数据;使用所述第二训练数据微调第二实体识别模型的参数,直至所述第二实体识别模型对所述目标领域的测试数据的实体识别准确度达到目标阈值时,将训练后的所述第二实体识别模型保存得到所述第一实体识别模型,其中,所述第二实体识别模型为基于所述预训练
语言模型构建得到的。5.根据权利要求4所述的方法,其特征在于,对所述第一训练数据进行数据增强,得到第二训练数据包括:确定所述第一训练数据中标注实体的最长实体长度;遍历所述第一训练数据,并在遍历到当前字符时,将所述当前字符作为起始字符,将所述当前字符至所述当前字符之后所述最长实体长度位置的字符逐一作为结束字符,得到多个候选实体;将遍历所述第一训练数据的所有字符得到的所有候选实体与所述第一训练数据中的所述标注实体进行匹配;将匹配到对应的所述标注实体的所述候选实体作为正样本,其中,所述正样本的样本标签为对应的所述标注实体的实体标签和类型标签;将未匹配到对应的所述标注实体的所述候选实体作为负样本,其中,所述负样本的样本标签为非实体标签和空类型标签;将所述正样本和所述负样本作为所述第二训练数据。6.根据权利要求2所述的方法,其特征在于,将所述检索文本输入第一名词抽取模型之前,所述方法还包括按照如下方式训练得到所述第一名词抽取模型:采集所述目标领域的所述领域名词知识,并基于预设知识库搭建远程监督任务,以通过所述远程监督任务对所述领域名词知识中属于所述目标领域的名词进行标注,得到第三训练数据;使用所述第三训练数据微调第二名词抽取模型的参数,直至所述第二名词抽取模型对所述目标领域的测试数据的名词抽取准确度达到目标阈值时,将训练后的所述第二名词抽取模型保存得到所述第一名词抽取模型,其中,所述第二名词抽取模型为所述预训练名词抽取模型;将所述检索文本输入第一摘要抽取模型之前,所述方法还包括按照如下方式训练得到所述第一摘要抽取模型:采集所述目标领域的所述领域事件知识,并基于所述预设知识库搭建远程监督任务,以通过所述远程监督任务对所述领域事件知识中属于所述目标领域的事件进行标注,得到第四训练数据;使用所述第四训练数据微调第二摘要抽取模型的参数,直至所述第二摘要抽取模型对所述目标领域的测试数据的摘要抽取准确度达到所述目标阈值时,将训练后的所述第二摘要抽取模型保存得到所述第一摘要抽取模型,其中,所述第二摘要抽取模型为所述预训练摘要抽取模型。7.根据权利要求1至6任一所述的方法,其特征在于,所述方法还包括:获取所述目标对象输入的未指定领域的目标检索文本;将所述目标检索文本输入业务领域识别模型,以利用所述业务领域识别模型确定所述目标检索文本所属的所述目标领域,其中,所述业务领域识别模型为预先使用带有标注数据的训练数据对预训练语义识别模型进行二次训练得到的,所述标注数据用于标注所述训练数据的所属业务领域;按照所述多级信息抽取策略调取出与所述目标领域匹配的实体识别模型、名词抽取模型以及摘要抽取模型三者至少之一进行信息抽取。8.一种信息检索装置,其特征在于,包括:获取模块,用于获取目标对象针对目标领域输入的检索文本;
抽取模块,用于采用多级信息抽取策略在所述检索文本中抽取出与所述目标领域关联的领域信息;检索模块,用于将所述领域信息作为关键词进行信息检索,并按照所述关键词在召回文档中的提及频率从大到小的顺序对所述召回文档进行排序;推送模块,用于将目标排序位置之前的所述召回文档作为检索结果展示给所述目标对象。9.一种信息检索设备,包括存储器、处理器、通信接口及通信总线,所述存储器中存储有可在所述处理器上运行的计算机程序,所述存储器、所述处理器通过所述通信总线和所述通信接口进行通信,其特征在于,所述处理器执行所述计算机程序时实现上述权利要求1至7任一项所述的方法的步骤。10.一种具有处理器可执行的非易失的程序代码的计算机可读介质,其特征在于,所述程序代码使所述处理器执行所述权利要求1至7任一所述方法。

技术总结
本申请涉及一种信息检索方法、装置、设备及计算机可读介质。该方法包括:获取目标对象针对目标领域输入的检索文本;采用多级信息抽取策略在检索文本中抽取出与目标领域关联的领域信息;将领域信息作为关键词进行信息检索,并按照关键词在召回文档中的提及频率从大到小的顺序对召回文档进行排序;将目标排序位置之前的召回文档作为检索结果展示给目标对象。本申请通过多级信息抽取策略从用户输入的检索文本中抽取出特定领域的领域信息作为关键词进行信息检索,从而提高了用户对该特定领域的信息检索需求的信息检索准确度和检索效率,提升了用户体验,解决了信息检索效率低、准确度低的技术问题。确度低的技术问题。确度低的技术问题。


技术研发人员:唐广法 董世鹏
受保护的技术使用者:北京明略昭辉科技有限公司
技术研发日:2022.03.28
技术公布日:2022/7/5
转载请注明原文地址: https://www.8miu.com/read-12563.html

最新回复(0)