一种长文本数据检索方法、装置、设备、存储介质与流程

allin2023-03-09  50



1.本发明涉及计算机信息检索技术领域,特别涉及一种长文本数据检索方法、装置、设备、存储介质。


背景技术:

2.目前对数据库条目进行查找的方式主要是通过数据库提供的索引功能,然后根据查找的需要,对特定的字段进行查找,然后层层筛选,最后得到目标数据集合,而现有数据库或搜索引擎检索技术面向的都是通用领域,在面对特定领域下的文本检索效率不高,数据库一般采用顺序扫描法对目标字段的长文本进行关键字匹配,在面对海量数据时需要扫描全部数据,且长文本数据所占用的系统资源较高,字符串匹配效率很低,浪费时间。
3.综上,如何实现高效率的垂直领域下的长文本数据检索,减少检索时的系统资源占用,提高运行效率是本领域有待解决的问题。


技术实现要素:

4.有鉴于此,本发明的目的在于提供及一种长文本数据检索方法、装置、设备、存储介质,能够实现高效率的垂直领域下的长文本数据检索,减少检索时的系统资源占用,提高运行效率。其具体方案如下:
5.第一方面,本技术公开了一种长文本数据检索方法,包括:
6.对待搜索文本进行分词处理以得到相应的目标单词,并计算所述待搜索文本的指纹序列;
7.从预先构建的权重搜索字典中提取出与所述目标单词对应的词性权重向量与词频权重向量;
8.基于所述词性权重向量与所述词频权重向量从所有的所述目标单词中筛选出权重满足预设条件的特征单词;
9.根据预先构建的全文指纹哈希桶查找与所述特征单词对应的历史文本以及与所述历史文本对应的全文指纹序列;
10.计算所述待搜索文本的指纹序列与所述历史文本的全文指纹序列的相似度得分,并基于所述相似度得分得到所述待搜索文本的检索结果。
11.可选的,所述从预先构建的权重搜索字典中提取出与所述目标单词对应的词性权重向量与词频权重向量之前,还包括:
12.对预设历史文本进行分词处理,并按照预设权重确定规则确定经过分词处理后得到的所述预设历史文本的单词的词性权重向量和词频权重向量;
13.构建携带所述词性权重向量与所述词频权重向量的单词的权重搜索字典。
14.可选的,所述根据预先构建的全文指纹哈希桶查找与所述特征单词对应的历史文本的全文指纹序列之前,还包括:
15.获取所述预设历史文本的全文指纹序列;
16.构建所述权重搜索字典的单词与包含所述单词的所述预设历史文本的全文指纹序列之间的哈希映射关系,并将所述哈希映射关系存储在所述权重搜索字典的单词的全文指纹哈希桶中。
17.可选的,所述对预设历史文本进行分词处理之前,还包括:
18.对所述预设历史文本进行结构化处理以得到相应的结构化数据,并将所述结构化数据保存在本地数据库中。
19.可选的,所述基于所述词性权重向量与所述词频权重向量从所有的所述目标单词中筛选出权重满足预设条件的特征单词,包括:
20.利用提取的所述目标单词对应的词性权重向量与词频权重向量对所述目标单词进行加权计算,以得到所述目标单词的权重向量结果;
21.从所述权重向量结果中筛选出基于预设筛选条件的所述权重向量结果,并基于筛选出的所述权重向量结果对所述目标单词进行筛选,以得到所述特征单词。
22.可选的,所述计算所述待搜索文本的指纹序列与所述历史文本的全文指纹序列的相似度得分,包括:
23.对所述待搜索文本的指纹序列进行分段处理,以得到不同的所述待搜索文本的指纹序列片段;
24.对每一条所述历史文本的全文指纹序列进行分段处理,以得到不同的历史文本的指纹序列片段;
25.计算所述待搜索文本的指纹序列片段与对应位置的所述历史文本的指纹序列片段的相似度,以得到所述待搜索文本的指纹序列与所述历史文本的全文指纹序列之间的相似度得分。
26.可选的,所述基于所述相似度得分得到所述待搜索文本的检索结果,包括:
27.按照所述历史文本的全文指纹序列的相似度得分大小顺序,对所述历史文本进行排列,并生成与所述待搜索文本对应的检索结果列表,以得到所述待搜索文本的检索结果。
28.第二方面,本技术公开了一种长文本数据检索装置,包括:
29.预处理模块,用于对待搜索文本进行分词处理以得到相应的目标单词,并计算所述待搜索文本的指纹序列;
30.向量提取模块,用于从预先构建的权重搜索字典中提取出与所述目标单词对应的词性权重向量与词频权重向量;
31.单词筛选模块,用于基于所述词性权重向量与所述词频权重向量从所有的所述目标单词中筛选出权重满足预设条件的特征单词;
32.指纹序列查找模块,用于根据预先构建的全文指纹哈希桶查找与所述特征单词对应的历史文本的全文指纹序列;
33.文本检索模块,用于计算所述待搜索文本的指纹序列与所述历史文本的全文指纹序列的相似度得分,并基于所述相似度得分得到所述待搜索文本的检索结果。
34.第三方面,本技术公开了一种电子设备,包括:
35.存储器,用于保存计算机程序;
36.处理器,用于执行所述计算机程序,以实现前述公开的长文本数据检索方法的步骤。
37.第四方面,本技术公开了一种计算机可读存储介质,用于存储计算机程序;其中,所述计算机程序被处理器执行时实现前述公开的长文本数据检索方法的步骤。
38.可见,本技术公开了一种长文本数据检索方法,包括:对待搜索文本进行分词处理以得到相应的目标单词,并计算所述待搜索文本的指纹序列;从预先构建的权重搜索字典中提取出与所述目标单词对应的词性权重向量与词频权重向量;基于所述词性权重向量与所述词频权重向量从所有的所述目标单词中筛选出权重满足预设条件的特征单词;根据预先构建的全文指纹哈希桶查找与所述特征单词对应的历史文本以及与所述历史文本对应的全文指纹序列;计算所述待搜索文本的指纹序列与所述历史文本对应的全文指纹序列的相似度得分,并基于所述相似度得分得到所述待搜索文本的检索结果。由此可见,本技术通过利用构建的权重搜索字典对待搜索文本单词的权重筛选,以及使用全文指纹哈希桶进行特征指纹比对的方式,提高了海量长文本数据定位检索的效率,大幅减少了需要查找近似长文本所需要的系统资源占用,进而大幅度提高了运行效率。
附图说明
39.为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。
40.图1为本技术公开的一种长文本数据检索方法流程图;
41.图2为本技术公开的一种具体的长文本数据检索方法流程图;
42.图3为本技术公开的一种具体的长文本数据检索方法流程图;
43.图4为本技术公开的一种具体的长文本数据检索方法流程图;
44.图5为本技术公开的一种具体的长文本数据检索装置结构示意图;
45.图6为本技术公开的一种电子设备结构图。
具体实施方式
46.下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
47.当前对数据库条目进行查找的方式主要是通过数据库提供的索引功能,然后根据查找的需要,对特定的字段进行查找,然后层层筛选,最后得到目标数据集合,而现有数据库或搜索引擎检索技术面向的都是通用领域,在面对特定领域下的文本检索效率不高,数据库一般采用顺序扫描法对目标字段的长文本进行关键字匹配,在面对海量数据时需要扫描全部数据,且长文本数据所占用的系统资源较高,字符串匹配效率很低,浪费时间。
48.为此,本技术提供了一种长文本数据检索方案,能够实现高效率的垂直领域下的长文本数据检索,减少检索时的系统资源占用,提高运行效率。
49.参照图1所示,本发明实施例公开了一种长文本数据检索方法,具体包括:
50.步骤s11:对待搜索文本进行分词处理以得到相应的目标单词,并计算所述待搜索
文本的指纹序列。
51.本实施例中,将所述待搜索文本拆分,以得到相应的目标单词并形成特定的词组列表,并通过指纹算法对所述待搜索文本进行全文的指纹序列的计算,以simhash算法为例,首先计算每一个所述目标单词的hash结果,并生成定长的128位bit序列,并根据每一个位bit值为1时,令权重为正,位bit为0时,令权重为负的规则,将每一个所述目标单词的hash结果的bit序列变成所述目标单词的128位权重序列,因为每一个所述目标单词的权重序列都是定长的128位,将权重叠加,所以进行累加后也会得到128位权重序列,然后对该128位权重序列进行降维度操作,按照正为1,负为0的规则生成128位bit序列,即为所述待搜索文本的指纹序列,可以理解的是,所述指纹算法具体还可以包括但不限于:k-shingle算法、minhash算法等。
52.步骤s12:从预先构建的权重搜索字典中提取出与所述目标单词对应的词性权重向量与词频权重向量。
53.本实施例中,可以理解的是,词频指的是某一个给定的词语在该文件中出现的频率。这个数字是对出现在该文件中的次数的归一化,以防止它偏向长的文件,也即,同一个词语在长文件里可能会比短文件有更高的出现次数,而不管该词语重要与否,词性指的是某一个指定的词语在该文件中所表示的词语的性质,所述词性具体可以包括但不限于:名词、动词、形容词、连词、介词等,这样一来,需要按照实际业务需求从预先在所述权重搜索字典中找到单词的词性权重向量与词频权重向量,而不是仅找到所述词性权重向量或所述词频权重向量。
54.步骤s13:基于所述词性权重向量与所述词频权重向量从所有的所述目标单词中筛选出权重满足预设条件的特征单词。
55.本实施例中,利用提取的所述目标单词对应的词性权重向量与词频权重向量对所述目标单词进行加权计算,以得到所述目标单词的权重向量结果;然后从所述权重向量结果中筛选出基于预设筛选条件的所述权重向量结果,并基于筛选出的所述权重向量结果对所述目标单词进行筛选,以得到所述特征单词。可以理解的是,通过提取出的所述目标单词对应的词性权重向量与词频权重向量对所述目标单词进行加权计算,以得到所述目标单词的权重向量结果,然后从所述权重向量结果中筛选出满足实际业务需求的所述权重向量结果,并基于筛选出的所述权重向量结果留取相应的目标单词,作为所述特征单词。
56.步骤s14:根据预先构建的全文指纹哈希桶查找与所述特征单词对应的历史文本的全文指纹序列。
57.本实施例中,将所述特征单词进行相应的拼接,已得到拼接后的特征单词,然后根据预先构建的全文指纹哈希桶中查找与所述拼接后的特征单词对应的历史文本的全文指纹序列,可以理解的是,由于所述全文指纹哈希桶中保存着单词与海量历史文本的全文指纹序列的映射关系,所以所述拼接后的特征单词可以通过所述全文指纹哈希桶,查找到多条包含所述拼接后的特征单词的历史文本的全文指纹序列,进一步的,可以理解的是,通过查找所述历史文本的全文指纹序列比直接查找包含所述拼接后特征单词的历史文本明文速度更快。
58.步骤s15:计算所述待搜索文本的指纹序列与所述历史文本的全文指纹序列的相似度得分,并基于所述相似度得分得到所述待搜索文本的检索结果。
59.本实施例中,通过对查找到若干数量的包含所述拼接后的特征单词的历史文本的全文指纹序列与所述待搜索文本的指纹序列进行相似度得分的计算,可以理解的是,对所述待搜索文本的指纹序列进行分段处理,以得到所述待搜索文本的指纹序列分片,例如:所述待搜索文本的指纹序列为128位bit序列,则对所述128位bit序列进行切分,分成8个片段,每个片段16位bit。同时,也将每一个查找到的所述历史文本的全文指纹序列进行分片,以得到所述历史文本的指纹序列分片,然后通过计算每一个所述待搜索文本的指纹序列分片与对应的所述历史文本的指纹序列分片之间的海明距离的大小来作为相似度大小的依据,并基于所述相似度得分得到所述待搜索文本的检索结果,也即检索索引。
60.可见,本技术公开了一种长文本数据检索方法,包括:对待搜索文本进行分词处理以得到相应的目标单词,并计算所述待搜索文本的指纹序列;从预先构建的权重搜索字典中提取出与所述目标单词对应的词性权重向量与词频权重向量;基于所述词性权重向量与所述词频权重向量从所有的所述目标单词中筛选出权重满足预设条件的特征单词;根据预先构建的全文指纹哈希桶查找与所述特征单词对应的历史文本的全文指纹序列;计算所述待搜索文本的指纹序列与所述历史文本的全文指纹序列的相似度得分,并基于所述相似度得分得到所述待搜索文本的检索结果。由此可见,本技术通过利用构建的权重搜索字典对待搜索文本单词的权重筛选,以及使用全文指纹哈希桶进行特征指纹比对的方式,提高了海量长文本数据定位检索的效率,大幅减少了需要查找近似长文本所需要的系统资源占用,进而大幅度提高了运行效率。
61.参照图2所示,本发明实施例公开了一种具体的长文本数据检索方法,相对于上一实施例,本实施例对技术方案作了进一步的说明和优化。具体的:
62.步骤s21:对待搜索文本进行分词处理以得到相应的目标单词,并计算所述待搜索文本的指纹序列。
63.步骤s22:对预设历史文本进行分词处理,并按照预设权重确定规则确定经过分词处理后得到的所述预设历史文本的单词的词性权重向量和词频权重向量;构建携带所述词性权重向量与所述词频权重向量的单词的权重搜索字典。
64.本实施例中,对预设历史文本进行分词处理,其中,分词处理的过程中可以选择预先剔除一些不影响文章的单词,以便减少后续的计算量和检索时间,然后可以通过预设专家知识接口获取自定义权重确定规则,进而通过所述自定义权重确定规则确定所述预设历史文本的每个单词的词性权重向量和词频权重向量,可以理解的是,由于不同的单词在不同预设历史文本中所占的重要性大多数不相同,所以在垂直领域下的长文本搜索过程中,所选取的预设文本应尽可能贴近待搜索文本所在的技术领域范围内,这样一来,所述构建的单词的权重搜索字典更加贴近实际应用场景。
65.步骤s23:从所述权重搜索字典中提取出与所述目标单词对应的词性权重向量与词频权重向量。
66.步骤s24:基于所述词性权重向量与所述词频权重向量从所有的所述目标单词中筛选出权重满足预设条件的特征单词。
67.步骤s25:根据预先构建的全文指纹哈希桶查找与所述特征单词对应的历史文本的全文指纹序列。
68.步骤s26:计算所述待搜索文本的指纹序列与所述历史文本的全文指纹序列的相
似度得分,并基于所述相似度得分得到所述待搜索文本的检索结果。
69.其中,步骤s21、s23、步骤s24、步骤s25、步骤s26中更加具体的处理步骤参照前述实施例公开的部分,在此不再赘述。
70.可见,本技术实施例通过预先构建的所述权重搜索字典,使所述目标单词能够从所述权重搜索字典找到匹配的所述词性权重向量和所述词频权重向量,进一步为提高在海量历史文本数据定位检索的效率做了铺垫,能够进一步提高在垂直领域下的检索效率。
71.参照图3所示,本发明实施例公开了一种具体的长文本数据检索方法,相对于上一实施例,本实施例对技术方案作了进一步的说明和优化。具体的:
72.步骤s31:对待搜索文本进行分词处理以得到相应的目标单词,并计算所述待搜索文本的指纹序列。
73.步骤s32:从预先构建的权重搜索字典中提取出与所述目标单词对应的词性权重向量与词频权重向量。
74.步骤s33:基于所述词性权重向量与所述词频权重向量从所有的所述目标单词中筛选出权重满足预设条件的特征单词。
75.步骤s34:获取预设历史文本的全文指纹序列;构建所述权重搜索字典的单词与包含所述单词的所述预设历史文本的全文指纹序列之间的哈希映射关系,并将所述哈希映射关系存储在所述权重搜索字典的单词的全文指纹哈希桶中。
76.本实施例中,对预设历史文本进行计算,以获取所述预设历史文本的全文指纹序列,然后建立所述权重搜索字典的单词与包含所述单词的所述预设历史文本的全文指纹序列之间的哈希映射关系,可以理解的是,所述单词可以与一个或多个所述预设历史文本的全文指纹序列之间建立哈希映射关系,并将所述哈希映射关系保存在所述单词的全文指纹哈希桶中。
77.本实施例中,所述对预设历史文本进行分词处理之前,还包括:对所述预设历史文本进行结构化处理以得到相应的结构化数据,并将所述结构化数据保存在本地数据库中。可以理解的是,预先对预设历史文本进行结构化处理,以得到相应的结构化数据,以便对所述预设历史文本后续的处理,然后将所述结构化数据保存在本地数据库中。
78.步骤s35:根据所述全文指纹哈希桶查找与所述特征单词对应的历史文本的全文指纹序列。
79.其中,步骤s31、步骤s32、步骤s33、步骤s35中更加具体的处理步骤参照前述实施例公开的部分,在此不再赘述。
80.步骤s36:对所述待搜索文本的指纹序列进行分段处理,以得到不同的所述待搜索文本的指纹序列片段;对每一条所述历史文本的全文指纹序列进行分段处理,以得到不同的历史文本的指纹序列片段;计算所述待搜索文本的指纹序列片段与对应位置的所述历史文本的指纹序列片段的相似度,以得到所述待搜索文本的指纹序列与所述历史文本的全文指纹序列之间的相似度得分。
81.本实施例中,所述计算待搜索文本的指纹序列与所述历史文本的全文指纹序列之间的相似度得分,也即对所述待搜索文本的分段指纹序列和对应的位置的所述历史文本的分段全文指纹序列之间的海明距离进行计算,然后综合计算所述待搜索文本所有分段指纹序列与所述历史文本分段全文指纹序列之间相似度得分。
82.步骤s37:按照所述历史文本的全文指纹序列的相似度得分大小顺序,对所述历史文本进行排列,并生成与所述待搜索文本对应的检索结果列表,以得到所述待搜索文本的检索结果。
83.参照图4所示,首先对已处理好的海量文本数据,根据特定的规则变换成包含数据指纹的结构化数据并保存在本地数据库中,对海量文本数据分词,建立带词性与词频权重向量的权重搜索字典,为所述权重搜索字典的每个词与出现过的文本数据的全文指纹序列建立哈希映射,并存在该词汇的全文指纹哈希桶中,为待搜索文本进行分词处理,取出每一个待搜索文本的分词在所述权重搜索字典中的词性词频权重向量,然后取待搜索文本的全文文本的指纹序列,将所述待搜索文本中的分词的权重向量通过特定的算法叠加在一起,根据业务需求对权重结果进行筛选,留取高于一定等级的权重词,并得到所述权重词对应的全文指纹哈希桶,根据所述待搜索文本的全文文本的指纹序列,计算所述文本数据的全文指纹序列与所述待搜索文本的全文文本的指纹序列之间的相似度,并按照相似度从高到低的顺序输出搜索结果列表。
84.本实施例中,将所述历史文本按照所述历史文本的全文指纹序列的相似度得分大小顺序进行排序,以得到所述待搜索文本对应的检索结果列表,可以理解的是,所述检索结果列表一般是所述历史文本所在的地址链接,而并非直接的整个的所述历史文本,因为数据库中存储所述历史文本所在的地址链接比存储所述历史文本的文本数据能够节省内存空间资源,并且也能防止由于其他因素导致所述数据库丢失所有所述历史文本的文本数据。
85.可见,本实施例中通过使用字典中的单词的权重筛选与全文指纹序列相似度比对的方式,大幅度提高海量数据定位检索的效率,减少了需要查找近似历史文本所需要的系统资源占用,从而大幅度的提高了运行效率。
86.参照图5所示,本发明实施例公开了一种具体的长文本数据检索装置,具体包括:
87.预处理模块11,用于对待搜索文本进行分词处理以得到相应的目标单词,并计算所述待搜索文本的指纹序列;
88.向量提取模块12,用于从预先构建的权重搜索字典中提取出与所述目标单词对应的词性权重向量与词频权重向量;
89.单词筛选模块13,用于基于所述词性权重向量与所述词频权重向量从所有的所述目标单词中筛选出权重满足预设条件的特征单词;
90.指纹序列查找模块14,用于根据预先构建的全文指纹哈希桶查找与所述特征单词对应的历史文本的全文指纹序列;
91.文本检索模块15,用于计算所述待搜索文本的指纹序列与所述历史文本的全文指纹序列的相似度得分,并基于所述相似度得分得到所述待搜索文本的检索结果。
92.可见,本技术公开了一种长文本数据检索方法,包括:对待搜索文本进行分词处理以得到相应的目标单词,并计算所述待搜索文本的指纹序列;从预先构建的权重搜索字典中提取出与所述目标单词对应的词性权重向量与词频权重向量;基于所述词性权重向量与所述词频权重向量从所有的所述目标单词中筛选出权重满足预设条件的特征单词;根据预先构建的全文指纹哈希桶查找与所述特征单词对应的历史文本的全文指纹序列;计算所述待搜索文本的指纹序列与所述历史文本的全文指纹序列的相似度得分,并基于所述相似度
得分得到所述待搜索文本的检索结果。由此可见,本技术通过利用构建的权重搜索字典对待搜索文本单词的权重筛选,以及使用全文指纹哈希桶进行特征指纹比对的方式,提高了海量长文本数据定位检索的效率,大幅减少了需要查找近似长文本所需要的系统资源占用,进而大幅度提高了运行效率。
93.进一步的,本技术实施例还公开了一种电子设备,图6是根据一示例性实施例示出的电子设备20结构图,图中的内容不能认为是对本技术的使用范围的任何限制。
94.图6为本技术实施例提供的一种电子设备20的结构示意图。该电子设备20,具体可以包括:至少一个处理器21、至少一个存储器22、电源23、通信接口24、输入输出接口25和通信总线26。其中,所述存储器22用于存储计算机程序,所述计算机程序由所述处理器21加载并执行,以实现前述任一实施例公开的长文本数据检索方法中的相关步骤。另外,本实施例中的电子设备20具体可以为电子计算机。
95.本实施例中,电源23用于为电子设备20上的各硬件设备提供工作电压;通信接口24能够为电子设备20创建与外界设备之间的数据传输通道,其所遵循的通信协议是能够适用于本技术技术方案的任意通信协议,在此不对其进行具体限定;输入输出接口25,用于获取外界输入数据或向外界输出数据,其具体的接口类型可以根据具体应用需要进行选取,在此不进行具体限定。
96.另外,存储器22作为资源存储的载体,可以是只读存储器、随机存储器、磁盘或者光盘等,其上所存储的资源可以包括操作系统221、计算机程序222等,存储方式可以是短暂存储或者永久存储。
97.其中,操作系统221用于管理与控制电子设备20上的各硬件设备以及计算机程序222,其可以是windows server、netware、unix、linux等。计算机程序222除了包括能够用于完成前述任一实施例公开的由电子设备20执行的长文本数据检索方法的计算机程序之外,还可以进一步包括能够用于完成其他特定工作的计算机程序。
98.进一步的,本技术还公开了一种计算机可读存储介质,用于存储计算机程序;其中,所述计算机程序被处理器执行时实现前述公开的长文本数据检索方法。关于该方法的具体步骤可以参考前述实施例中公开的相应内容,在此不再进行赘述。
99.本说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其它实施例的不同之处,各个实施例之间相同或相似部分互相参见即可。对于实施例公开的装置而言,由于其与实施例公开的方法相对应,所以描述的比较简单,相关之处参见方法部分说明即可。
100.专业人员还可以进一步意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、计算机软件或者二者的结合来实现,为了清楚地说明硬件和软件的可互换性,在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本技术的范围。结合本文中所公开的实施例描述的方法或算法的步骤可以直接用硬件、处理器执行的软件模块,或者二者的结合来实施。软件模块可以置于随机存储器(ram)、内存、只读存储器(rom)、电可编程rom、电可擦除可编程rom、寄存器、硬盘、可移动磁盘、cd-rom、或技术领域内所公知的任意其它形式的存储介质中。
101.最后,还需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个
……”
限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
102.以上对本发明所提供的一种长文本数据检索方法、装置、设备及存储介质进行了详细介绍,本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想;同时,对于本领域的一般技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本发明的限制。

技术特征:
1.一种长文本数据检索方法,其特征在于,包括:对待搜索文本进行分词处理以得到相应的目标单词,并计算所述待搜索文本的指纹序列;从预先构建的权重搜索字典中提取出与所述目标单词对应的词性权重向量与词频权重向量;基于所述词性权重向量与所述词频权重向量从所有的所述目标单词中筛选出权重满足预设条件的特征单词;根据预先构建的全文指纹哈希桶查找与所述特征单词对应的历史文本的全文指纹序列;计算所述待搜索文本的指纹序列与所述历史文本的全文指纹序列的相似度得分,并基于所述相似度得分得到所述待搜索文本的检索结果。2.根据权利要求1所述的长文本数据检索方法,其特征在于,所述从预先构建的权重搜索字典中提取出与所述目标单词对应的词性权重向量与词频权重向量之前,还包括:对预设历史文本进行分词处理,并按照预设权重确定规则确定经过分词处理后得到的所述预设历史文本的单词的词性权重向量和词频权重向量;构建携带所述词性权重向量与所述词频权重向量的单词的权重搜索字典。3.根据权利要求2所述的长文本数据检索方法,其特征在于,所述根据预先构建的全文指纹哈希桶查找与所述特征单词对应的历史文本的全文指纹序列之前,还包括:获取所述预设历史文本的全文指纹序列;构建所述权重搜索字典的单词与包含所述单词的所述预设历史文本的全文指纹序列之间的哈希映射关系,并将所述哈希映射关系存储在所述权重搜索字典的单词的全文指纹哈希桶中。4.根据权利要求2或3所述的长文本数据检索方法,其特征在于,所述对预设历史文本进行分词处理之前,还包括:对所述预设历史文本进行结构化处理以得到相应的结构化数据,并将所述结构化数据保存在本地数据库中。5.根据权利要求1所述的长文本数据检索方法,其特征在于,所述基于所述词性权重向量与所述词频权重向量从所有的所述目标单词中筛选出权重满足预设条件的特征单词,包括:利用提取的所述目标单词对应的词性权重向量与词频权重向量对所述目标单词进行加权计算,以得到所述目标单词的权重向量结果;从所述权重向量结果中筛选出基于预设筛选条件的所述权重向量结果,并基于筛选出的所述权重向量结果对所述目标单词进行筛选,以得到所述特征单词。6.根据权利要求1所述的长文本数据检索方法,其特征在于,所述计算所述待搜索文本的指纹序列与所述历史文本的全文指纹序列的相似度得分,包括:对所述待搜索文本的指纹序列进行分段处理,以得到不同的所述待搜索文本的指纹序列片段;对每一条所述历史文本的全文指纹序列进行分段处理,以得到不同的历史文本的指纹序列片段;
计算所述待搜索文本的指纹序列片段与对应位置的所述历史文本的指纹序列片段的相似度,以得到所述待搜索文本的指纹序列与所述历史文本的全文指纹序列之间的相似度得分。7.根据权利要求6所述的长文本数据检索方法,其特征在于,所述基于所述相似度得分得到所述待搜索文本的检索结果,包括:按照所述历史文本的全文指纹序列的相似度得分大小顺序,对所述历史文本进行排列,并生成与所述待搜索文本对应的检索结果列表,以得到所述待搜索文本的检索结果。8.一种长文本数据检索装置,其特征在于,包括:预处理模块,用于对待搜索文本进行分词处理以得到相应的目标单词,并计算所述待搜索文本的指纹序列;向量提取模块,用于从预先构建的权重搜索字典中提取出与所述目标单词对应的词性权重向量与词频权重向量;单词筛选模块,用于基于所述词性权重向量与所述词频权重向量从所有的所述目标单词中筛选出权重满足预设条件的特征单词;指纹序列查找模块,用于根据预先构建的全文指纹哈希桶查找与所述特征单词对应的历史文本的全文指纹序列;文本检索模块,用于计算所述待搜索文本的指纹序列与所述历史文本的全文指纹序列的相似度得分,并基于所述相似度得分得到所述待搜索文本的检索结果。9.一种电子设备,其特征在于,包括:存储器,用于保存计算机程序;处理器,用于执行所述计算机程序,以实现如权利要求1至7任一项所述的长文本数据检索方法的步骤。10.一种计算机可读存储介质,其特征在于,用于存储计算机程序;其中,所述计算机程序被处理器执行时实现如权利要求1至7任一项所述的长文本数据检索方法的步骤。

技术总结
本申请公开了一种长文本数据检索方法、装置、设备、存储介质,包括:对待搜索文本进行分词处理以得到相应的目标单词,并计算待搜索文本的指纹序列;从预先构建的权重搜索字典中提取出与目标单词对应的词性权重向量与词频权重向量;基于词性权重向量与词频权重向量从所有的目标单词中筛选出权重满足预设条件的特征单词;根据预先构建的全文指纹哈希桶查找与特征单词对应的历史文本的全文指纹序列;计算待搜索文本的指纹序列与历史文本的全文指纹序列的相似度得分,并基于相似度得分得到待搜索文本的检索结果。通过本申请能够实现垂直领域下的高效率的长文本数据搜索,减少搜索等待时间和系统资源占用,提高运行效率。提高运行效率。提高运行效率。


技术研发人员:韩硕
受保护的技术使用者:易薪路网络科技(上海)有限公司
技术研发日:2022.03.30
技术公布日:2022/7/5
转载请注明原文地址: https://www.8miu.com/read-5699.html

最新回复(0)