信息检索的方法及装置、知识图谱构建的方法及装置与流程

allin2024-07-03  87



1.本技术涉及知识图谱技术领域,例如涉及一种信息检索的方法及装置、 知识图谱构建的方法及装置。


背景技术:

2.目前,随着数字化进程的不断加深,叠加突发卫生状况的进一步助推, 企业协同办公平台迅猛发展,出现了企业微信、钉钉、飞书等多种企业协 同办公平台。这些企业协同办公平台,针对知识密集型企业轻流程重知识 的特点发展出了团队沟通工具、协同视频会议、协同云文档等工具来促进 团队协作,提高组织运转效率,加速创新,推动组织的数字化转型。
3.在实现本公开实施例的过程中,发现相关技术中至少存在如下问题:
4.上述协同办公平台中囊括了大量的企业内部信息和企业外部信息,这 类数据的特点就是来源渠道不同且混杂着内部产品、外部产品和特定名词 的不同叫法,企业的员工在进行信息检索时难度较大,往往会遗漏大量的 有效信息,导致实际检索结果的召回率较低。


技术实现要素:

5.为了对披露的实施例的一些方面有基本的理解,下面给出了简单的概 括。所述概括不是泛泛评述,也不是要确定关键/重要组成元素或描绘这 些实施例的保护范围,而是作为后面的详细说明的序言。
6.本公开实施例提供了一种信息检索的方法及装置、知识图谱构建的方 法及装置、电子设备和存储介质,以在面对企业协同平台中的庞杂数据时, 能够有效提高检索结果的召回率。
7.在一些实施例中,所述信息检索的方法,包括:
8.根据用户输入的检索内容中的关键词,在预设的关联知识图谱中获取 所述关键词对应的多个关联节点;
9.根据每个关联节点与所述关联知识图谱中的邻接节点之间的关联程度 值,将多个关联节点进行排序,并获取位于排序前n位的关联节点,其中, 所述n为大于等于1的正整数;
10.将位于排序前n位的关联节点在预设的数据库中进行检索,生成所述 关键词的检索结果集合;
11.对所述检索结果集合中的多个检索结果进行筛选,并将筛选后的检索 结果返回给用户。
12.在一些实施例中,所述知识图谱构建的方法,包括:
13.获取企业协同办公平台在使用过程中产生的至少一类办公文本信息;
14.对所述至少一类办公文本信息进行分词和匹配,生成多个办公词汇匹 配对;
15.对所述多个办公词汇匹配对进行筛选,生成办公词汇集合;
16.根据所述办公词汇集合以及所述办公词汇集合中的每个办公词汇匹配 对的关联次数,构建关联知识图谱。
17.在一些实施例中,所述信息检索的装置,包括:
18.节点匹配模块,被配置为根据用户输入的检索内容中的关键词,在预 设的关联知识图谱中获取所述关键词对应的多个关联节点;
19.节点筛选模块,被配置为根据每个关联节点与所述关联知识图谱中的 邻接节点之间的关联程度值,将多个关联节点进行排序,并获取位于排序 前n位的关联节点,其中,所述n为大于等于1的正整数;
20.信息检索模块,被配置为将位于排序前n位的关联节点在预设的数据 库中进行检索,生成所述关键词的检索结果集合;
21.信息反馈模块,被配置为对所述检索结果集合中的多个检索结果进行 筛选,并将筛选后的检索结果返回给用户。
22.在一些实施例中,所述知识图谱构建的装置,包括:
23.信息获取模块,被配置为获取企业协同办公平台在使用过程中产生的 至少一类办公文本信息;
24.信息匹配模块,被配置为对所述至少一类办公文本信息进行分词和匹 配,生成多个办公词汇匹配对;
25.信息筛选模块,被配置为对所述多个办公词汇匹配对进行筛选,生成 办公词汇集合;
26.图谱构建模块,被配置为根据所述办公词汇集合以及所述办公词汇集 合中的每个办公词汇匹配对的关联次数,构建关联知识图谱。
27.在一些实施例中,所述电子设备,包括存储器和处理器,其中:
28.所述存储器,用于保存计算机程序;
29.所述处理器,用于执行所述计算机程序,以实现如本技术所述的信息 检索的方法,或者实现如本技术所述的知识图谱构建的方法。
30.在一些实施例中,所述存储介质,存储有程序指令,所述程序指令在 运行时,执行如本技术所述的信息检索的方法,或者执行如本技术所述的 知识图谱构建的方法。
31.本公开实施例提供的信息检索的方法及装置、知识图谱构建的方法及 装置、电子设备和存储介质,可以实现以下技术效果:
32.本技术采用应用于推荐技术领域的技术手段,通过获取企业协同办公 平台在使用过程中产生的至少一类办公文本信息,并根据各类办公文本信 息之间的关联关系,从而构建一个基于企业协同平台中相关数据的关联知 识图谱,可以清晰的刻画出企业内各种杂乱的词汇的关联关系。同时,本 申请通过构造好的关联知识图谱获取关键词对应的多个关联节点,并根据 每个关联节点与关联知识图谱中的邻接节点之间的关联程度值,将多个关 联节点进行排序来构建基于词汇搜索和结果的合并方法,实现了基于企业 协同办公平台中上下文信息或者结构相关性的方式来识别企业中各类名称 的关联性,有效地提升了信息检索的召回率和效率。
33.以上的总体描述和下文中的描述仅是示例性和解释性的,不用于限制 本技术。
附图说明
34.一个或多个实施例通过与之对应的附图进行示例性说明,这些示例性 说明和附图并不构成对实施例的限定,附图中具有相同参考数字标号的元 件示为类似的元件,附图不构成比例限制,并且其中:
35.图1本公开实施例提供的一个信息检索的方法的示意图;
36.图2是本公开实施例提供的一个具体应用的示意图;
37.图3是本公开实施例提供的另一个信息检索的方法的示意图;
38.图4是本公开实施例提供的另一个信息检索的方法的示意图;
39.图5是本公开实施例提供的另一个信息检索的方法的示意图;
40.图6是本公开实施例提供的一个知识图谱构建的方法的示意图;
41.图7是本公开实施例提供的另一个知识图谱构建的方法的示意图;
42.图8是本公开实施例提供的另一个具体应用的示意图;
43.图9是本公开实施例提供的另一个知识图谱构建的方法的示意图;
44.图10是本公开实施例提供的一个信息检索的装置的示意图;
45.图11是本公开实施例提供的另一个知识图谱构建的装置的示意图;
46.图12是本公开实施例提供的另一个电子设备的示意图。
具体实施方式
47.为了能够更加详尽地了解本公开实施例的特点与技术内容,下面结合 附图对本公开实施例的实现进行详细阐述,所附附图仅供参考说明之用, 并非用来限定本公开实施例。在以下的技术描述中,为方便解释起见,通 过多个细节以提供对所披露实施例的充分理解。然而,在没有这些细节的 情况下,一个或多个实施例仍然可以实施。在其它情况下,为简化附图, 熟知的结构和装置可以简化展示。
48.本公开实施例的说明书和权利要求书及上述附图中的术语“第一”、“第 二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应 该理解这样使用的数据在适当情况下可以互换,以便这里描述的本公开实 施例的实施例。此外,术语“包括”和“具有”以及他们的任何变形,意图在于 覆盖不排他的包含。
49.除非另有说明,术语“多个”表示两个或两个以上。
50.本公开实施例中,字符“/”表示前后对象是一种“或”的关系。例如,a/b 表示:a或b。
51.术语“和/或”是一种描述对象的关联关系,表示可以存在三种关系。例 如,a和/或b,表示:a或b,或,a和b这三种关系。
52.术语“对应”可以指的是一种关联关系或绑定关系,a与b相对应指的 是a与b之间是一种关联关系或绑定关系。
53.企业协同办公平台中囊括了大量的企业内部和外部的办公文本信息, 包括员工沟通的会话数据、各种会议数据、邮件和文档等数据。这类信息 的特点就是来源渠道不同且混杂着内部和外部产品和特定名词的不同叫法, 在应用传统的基于bm25、tf-idf等算法来实现信息检索难度很大,很容 易漏掉大量信息,实际效果就是召回率非常低。
54.现有的技术主要还是通过elasticsearch等软件来完成全文索引的方式 来提升
搜索能力。近年来也出现了一些基于大规模文本语料信息来实现深 度学习的方式,通过对搜索内容和搜索词进行向量化的表示学习,然后通 过比较向量的相似度来确定搜索召回和排序。基于向量化的思路也诞生了 相关的向量化的数据库。
55.上述的一些方法在处理单一数据或者规范化数据方面效果非常好,但 是面对这种企业协同平台中的数据时,往往在庞杂的数据上构建索引的时 候召回率非常低。本技术要解决的正是这种多源异构下的庞杂的企业协同 办公平台中的信息检索方法。
56.结合图1所示,本公开实施例提供一种信息检索的方法,包括:
57.步骤101:根据用户输入的检索内容中的关键词,在预设的关联知识图 谱中获取所述关键词对应的多个关联节点。
58.在本技术的实施例中,本技术的信息检索平台可以获取用户输入的检 索内容,并对检索内容进行分词操作,从而找出检索内容中的关键词,然 后通过预设的基于企业协同办公平台的关联知识图谱,通过关键词匹配的 方式获取关联知识图谱中的多个关联节点。例如,如图2所示,在关键词 为“明略”的情况下,关联知识图谱返回的关联节点可以是关联节点“明 略”和关联节点“明略科技”。
59.步骤102:根据每个关联节点与所述关联知识图谱中的邻接节点之间的 关联程度值,将多个关联节点进行排序,并获取位于排序前n位的关联节 点,其中,所述n为大于等于1的正整数。
60.在本技术的实施例中,本技术的信息检索平台计算每个关联节点与对 应的邻接节点之间的关联程度值,进而基于关联程度值的大小将每多个关 联节点由高到低进行排序,并获取位于排序前n位的关联节点,以作为最 终用于检索的名称。
61.步骤103:将位于排序前n位的关联节点在预设的数据库中进行检索, 生成所述关键词的检索结果集合。
62.在本技术的实施例中,本技术的信息检索平台将位于排序前n位的关 联节点在预设的数据库中进行检索,即调用全文搜索引擎来查找相关的内 容,例如,企业协同办公平台在使用过程中产生的邮件信息、会议信息、 会话信息或文档信息等,以生成关键词对应的检索结果集合。
63.步骤104:对所述检索结果集合中的多个检索结果进行筛选,并将筛选 后的检索结果返回给用户。
64.在本技术的实施例中,本技术的信息检索平台进一步在本技术的实施 例中,本技术的信息检索平台,以实现检索结果的合并,最终将筛选后的 检索结果返回给用户。
65.采用本公开实施例提供的信息检索的方法,采用应用于推荐技术领域 的技术手段,通过构造好的关联知识图谱获取关键词对应的多个关联节点, 并根据每个关联节点与关联知识图谱中的邻接节点之间的关联程度值,将 多个关联节点进行排序来构建基于词汇搜索和结果的合并方法,实现了基 于企业协同办公平台中上下文信息或者结构相关性的方式来识别企业中各 类名称的关联性,有效地提升了信息检索的召回率和效率。
66.可选的,结合图3所示,在所述根据每个关联节点与所述关联知识图 谱中的邻接节点之间的关联程度值,将多个关联节点进行排序之前,还包 括:
67.步骤301:以每个关联节点为中心进行一度关系查找,确定每个关联节 点对应的多个邻接节点。
68.在本技术的实施例中,本技术的信息检索平台在关联知识图谱中以每 个关联节点为中心进行一度关系查找,从而确定每个关联节点对应的多个 邻接节点。例如,如图2所示,在关键词为“明略”的情况下,关联知识 图谱返回的关联节点可以是关联节点“明略”和关联节点“明略科技”, 同时,关联节点“明略”对应的邻接节点为“明略科技”、“mininglamp
”ꢀ
和“秒针”,关联节点“明略科技”对应的邻接节点为“明略”、“mininglamp
”ꢀ
和“秒针”。
69.步骤302:从所述关联知识图谱中获取每个关联节点分别与对应的每个 邻接节点之间的关联次数。
70.在本技术的实施例中,本技术的信息检索平台在关联知识图谱中获取 每个关联节点分别与对应的每个邻接节点之间的关联次数。例如,如图2 所示,关联节点“明略”与邻接节点“明略科技”的关联次数为90次、与 邻接节点“mininglamp”的关联次数为100次、与邻接节点“明略科技
”ꢀ
的关联次数为20次;关联节点“明略科技”与邻接节点“明略”的关联次 数为90次、与邻接节点“mininglamp”的关联次数为90次、与邻接节点
ꢀ“
明略科技”的关联次数为30次。
71.步骤303:根据关联次数和每个邻接节点的权重系数,计算每个关联节 点与对应的邻接节点之间的关联程度值。
72.在本技术的实施例中,本技术的信息检索平台根据关联次数和每个邻 接节点的权重系数进行加权求和计算,从而得到每个关联节点与对应的邻 接节点之间的关联程度值,用以表示关联知识图谱中关联词汇的关联频率。
73.这样,通过有利于实现基于关联知识图谱实现检索关键词的词汇扩展, 体上对于企业内部的信息检索平台有效提升了召回率。
74.可选的,结合图4所示,所述将位于排序前n位的关联节点在预设的 数据库中进行检索,生成所述关键词的检索结果集合,包括:
75.步骤401:将位于排序前n位的关联节点分别在预设的数据库中进行检 索,获取n个关联节点对应的内容信息和关联节点与所述内容信息的匹配 度得分。
76.在本技术的实施例中,本技术的信息检索平台将位于排序前n位的关 联节点分别在预设的数据库中进行检索,例如n可以是1至10中的任意一 个正整数,以获取n个关联节点对应的内容信息和关联节点与所述内容信 息的匹配度得分,例如,如图2所示,在关联节点为“明略”和“明略科 技”的情况下,可以仅获取关联节点“明略”对应的内容信息和匹配度得 分,也可以同时获取关联节点“明略”和“明略科技”对应的内容信息和 匹配度得分,其中,所述匹配度得分可以是通过elasticsearch的打分公式得 到分值。
77.步骤402:将关联节点的名称、内容信息和匹配度得分共同作为一个关 联节点的检索结果。
78.在本技术的实施例中,本技术的全文搜索引擎返回的检索结果包括检 索结果,其中,所述内容信息可以是企业协同办公平台在使用过程中产生 的邮件信息、会议信息、会话信息或文档信息等。
79.步骤403:合并n个关联节点的检索结果以生成所述关键词的检索结果 集合。
80.在本技术的实施例中,本技术的信息检索平台将n个关联节点的检索 结果合并,以生成所述关键词的检索结果集合。例如,如图2所示,将关 联节点“明略”和“明略科技”对
应的检索结果(名称、内容信息和匹配 度得分)进行合并,以生成关键词“明略”的检索结果集合。
81.这样,能更好地将关联程度最大的若干个关联节点进行保留,从而提 高检索结果的召回率,提高用户的使用体验。
82.可选的,结合图5所示,所述对所述检索结果集合中的多个检索结果 进行筛选,并将筛选后的检索结果返回给用户,包括:
83.步骤501:对所述检索结果集合进行去重操作,过滤掉重复的检索结果。
84.在本技术的实施例中,本技术的信息检索平台对所述检索结果集合进 行去重操作,去掉重复的检索结果,避免重复计算。
85.步骤502:根据所述检索结果中包含的匹配度得分,由高到低对多个检 索结果进行排序。
86.在本技术的实施例中,本技术的信息检索平台根据所述检索结果中包 含的匹配度得分,由高到低对多个检索结果进行排序,完成排序操作,将 分值最高的检索结果排在前列,以提高检索效率。
87.步骤503:获取位于排序前m位的检索结果并返回给用户,其中,所 述m为大于等于1的正整数。
88.在本技术的实施例中,本技术的信息检索平台在检索结果集合中获取 位于排序前m位的检索结果并返回给用户,其中,所述m可以是1至10 之间的任意正整数。
89.这样,能够是用户直接获得最贴近检索内容的检索结果,从而提高检 索效率。
90.结合图6所示,本公开实施例提供一种知识图谱构建的方法,包括:
91.步骤601:获取企业协同办公平台在使用过程中产生的至少一类办公文 本信息。
92.在本技术的实施例中,本技术的知识图谱构建平台首先获取企业协同 办公平台在使用过程中产生的至少一类办公文本信息,其中,所述办公文 本信息可以是企业办公平台中使用的邮件数据中的标题和正文内容、开会 信息中会议主题和开会成员发言内容,会话信息中每个会话单元中的内容, 文档信息中标题和文档摘要内容等。
93.步骤602:对所述至少一类办公文本信息进行分词和匹配,生成多个办 公词汇匹配对。
94.在本技术的实施例中,本技术的知识图谱构建平台对上述至少一类办 公文本信息进行分词和匹配,生成多个办公词汇匹配对,每个办公词汇匹 配对内包括两个存在关联关系的办公词汇。
95.步骤603:对所述多个办公词汇匹配对进行筛选,生成办公词汇集合。
96.在本技术的实施例中,本技术的知识图谱构建平台对多个办公词汇匹 配对进行筛选,例如过滤和去重,以得到最终用于构建关联知识图谱的办 公词汇集合。
97.步骤604:根据所述办公词汇集合以及所述办公词汇集合中的每个办公 词汇匹配对的关联次数,构建关联知识图谱。
98.在本技术的实施例中,本技术的知识图谱构建平台以办公词汇集合中 的办公词汇作为关联节点,以每个办公词汇匹配对的关联次数作为边,构 建关联知识图谱。
99.采用本公开实施例提供的知识图谱构建的方法,通过获取企业协同办 公平台在使用过程中产生的至少一类办公文本信息,并根据各类办公文本 信息之间的关联关系,从
而构建一个基于企业协同平台中相关数据的关联 知识图谱,可以清晰的刻画出企业内各种杂乱的词汇的关联关系。
100.可选的,结合图7所示,所述对所述至少一类办公文本信息进行分词 和匹配,生成多个办公词汇匹配对,包括:
101.步骤701:对所述至少一类办公文本信息进行分词,获取所述办公文本 信息对应的名词性质的办公词汇。
102.在本技术的实施例中,本技术的知识图谱构建平台收集办公文本信息 后进行分词操作,通过使用现在通用的分词工具,通过分词后对分词的词 性做标注的信息,过滤掉那些相关动词、虚词、助词、代词之类的,只留 下名词性质的办公词汇。
103.步骤702:根据所述办公词汇的在所述办公文本信息中的位置,将办公 词汇进行匹配,生成多个办公词汇匹配对。
104.在本技术的实施例中,结合图8所示,本技术的知识图谱构建平台将 每一类办公文本信息分词后的办公词汇划分为前部位置和后部位置,然后 将位于前部位置的办公词汇和位于后部位置的办公词汇进行全连接形式的 匹配,形成多个办公词汇匹配对。
105.这样,能够确保办公词汇之间的关联关系可以完整无误的得到保留。
106.可选的,结合图9所示,所述对所述多个办公词汇匹配对进行筛选, 包括:
107.步骤901:根据每个办公词汇匹配对中的两个办公词汇共同出现的频率, 统计每个办公词汇匹配对的关联次数。
108.步骤902:根据每个办公词汇匹配对的关联次数,获取大于预设的关联 次数阈值的至少一个办公词汇匹配对。
109.在本技术的实施例中,本技术的知识图谱构建平台统计每个办公词汇 匹配对中的两个办公词汇共同出现的频率,并生成三元组,例如,生成(办 公词汇a,办公词汇b,5次)这样的三元组,后通过设置共现率的阈值即 关联次数阈值来筛选办公词汇匹配对,以确定办公词汇匹配对的可行性, 最后把过滤后的办公词汇匹配对收集起来生成办公词汇集合,其中,所述 关联次数阈值可以是5次、6次或7次。
110.这样,通过对每个办公词汇匹配对的关联次数多个办公词汇匹配对进 行筛选,保证关联知识图谱中的关联节点之间具有相对紧密的关联关系, 以提高关联知识图谱的可靠性。
111.结合图10所示,本公开实施例提供一种信息检索的装置,包括:
112.节点匹配模块1001,被配置为根据用户输入的检索内容中的关键词, 在预设的关联知识图谱中获取所述关键词对应的多个关联节点;
113.节点筛选模块1002,被配置为根据每个关联节点与所述关联知识图谱 中的邻接节点之间的关联程度值,将多个关联节点进行排序,并获取位于 排序前n位的关联节点,其中,所述n为大于等于1的正整数;
114.信息检索模块1003,被配置为将位于排序前n位的关联节点在预设的 数据库中进行检索,生成所述关键词的检索结果集合;
115.信息反馈模块1004,被配置为对所述检索结果集合中的多个检索结果 进行筛选,并将筛选后的检索结果返回给用户。
116.可选的,所述节点筛选模块1002,还被配置为:
117.以每个关联节点为中心进行一度关系查找,确定每个关联节点对应的 多个邻接节点;
118.从所述关联知识图谱中获取每个关联节点分别与对应的每个邻接节点 之间的关联次数;
119.根据关联次数和每个邻接节点的权重系数,计算每个关联节点与对应 的邻接节点之间的关联程度值。
120.可选的,所述信息检索模块1003,具体被配置为:
121.将位于排序前n位的关联节点分别在预设的数据库中进行检索,获取n 个关联节点对应的内容信息和关联节点与所述内容信息的匹配度得分;
122.将关联节点的名称、内容信息和匹配度得分共同作为一个关联节点的 检索结果;
123.合并n个关联节点的检索结果以生成所述关键词的检索结果集合。
124.可选的,所述信息反馈模块1004,具体被配置为:
125.对所述检索结果集合进行去重操作,过滤掉重复的检索结果;
126.根据所述检索结果中包含的匹配度得分,由高到低对多个检索结果进 行排序;
127.获取位于排序前m位的检索结果并返回给用户,其中,所述m为大于 等于1的正整数。
128.采用本公开实施例提供的信息检索的装置,通过构造好的关联知识图 谱获取关键词对应的多个关联节点,并根据每个关联节点与关联知识图谱 中的邻接节点之间的关联程度值,将多个关联节点进行排序来构建基于词 汇搜索和结果的合并方法,实现了基于企业协同办公平台中上下文信息或 者结构相关性的方式来识别企业中各类名称的关联性,有效地提升了信息 检索的召回率和效率。
129.结合图11所示,本公开实施例提供一种知识图谱构建的装置,包括:
130.信息获取模块1101,被配置为获取企业协同办公平台在使用过程中产 生的至少一类办公文本信息;
131.信息匹配模块1102,被配置为对所述至少一类办公文本信息进行分词 和匹配,生成多个办公词汇匹配对;
132.信息筛选模块1103,被配置为对所述多个办公词汇匹配对进行筛选, 生成办公词汇集合;
133.图谱构建模块1104,被配置为根据所述办公词汇集合以及所述办公词 汇集合中的每个办公词汇匹配对的关联次数,构建关联知识图谱。
134.可选的,所述信息匹配模块1102,具体被配置为:
135.对所述至少一类办公文本信息进行分词,获取所述办公文本信息对应 的名词性质的办公词汇;
136.根据所述办公词汇的在所述办公文本信息中的位置,将办公词汇进行 匹配,生成多个办公词汇匹配对。
137.可选的,所述信息筛选模块1103,具体被配置为:
138.根据每个办公词汇匹配对中的两个办公词汇共同出现的频率,统计每 个办公词汇匹配对的关联次数;
139.根据每个办公词汇匹配对的关联次数,获取大于预设的关联次数阈值 的至少一
个办公词汇匹配对。
140.采用本公开实施例提供的信息检索的装置,通过获取企业协同办公平 台在使用过程中产生的至少一类办公文本信息,并根据各类办公文本信息 之间的关联关系,从而构建一个基于企业协同平台中相关数据的关联知识 图谱,可以清晰的刻画出企业内各种杂乱的词汇的关联关系。
141.结合图12所示,本公开实施例提供一种电子设备,包括处理器(processor) 1200和存储器(memory)1201。可选地,该装置还可以包括通信接口 (communication interface)1202和总线1203。其中,处理器1200、通信接口 1202、存储器1201可以通过总线1203完成相互间的通信。通信接口1202可 以用于信息传输。处理器1200可以调用存储器1201中的逻辑指令,以执行上 述实施例的信息检索的方法或知识图谱构建的方法。
142.此外,上述的存储器1201中的逻辑指令可以通过软件功能单元的形式 实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储 介质中。
143.存储器1201作为一种计算机可读存储介质,可用于存储软件程序、计 算机可执行程序,如本公开实施例中的方法对应的程序指令/模块。处理器 1200通过运行存储在存储器1201中的程序指令/模块,从而执行功能应用 以及数据处理,即实现上述实施例中信息检索的方法或知识图谱构建的方 法。
144.存储器1201可包括存储程序区和存储数据区,其中,存储程序区可存 储操作系统、至少一个功能所需的应用程序;存储数据区可存储根据终端 设备的使用所创建的数据等。此外,存储器1201可以包括高速随机存取存 储器,还可以包括非易失性存储器。
145.本公开实施例提供了一种存储介质,存储有计算机可执行指令,所述 计算机可执行指令设置为执行上述信息检索的方法或知识图谱构建的方法。
146.上述的存储介质可以是暂态计算机可读存储介质,也可以是非暂态计 算机可读存储介质。
147.本公开实施例的技术方案可以以软件产品的形式体现出来,该计算机 软件产品存储在一个存储介质中,包括一个或多个指令用以使得一台计算 机设备(可以是个人计算机,服务器,或者网络设备等)执行本公开实施 例所述方法的全部或部分步骤。而前述的存储介质可以是非暂态存储介质, 包括:u盘、移动硬盘、只读存储器(rom,read-only memory)、随机 存取存储器(ram,random access memory)、磁碟或者光盘等多种可以 存储程序代码的介质,也可以是暂态存储介质。
148.以上描述和附图充分地示出了本公开的实施例,以使本领域的技术人 员能够实践它们。其他实施例可以包括结构的、逻辑的、电气的、过程的 以及其他的改变。实施例仅代表可能的变化。除非明确要求,否则单独的 部件和功能是可选的,并且操作的顺序可以变化。一些实施例的部分和特 征可以被包括在或替换其他实施例的部分和特征。而且,本技术中使用的 用词仅用于描述实施例并且不用于限制权利要求。如在实施例以及权利要 求的描述中使用的,除非上下文清楚地表明,否则单数形式的“一个”(a)、
ꢀ“
一个”(an)和“所述”(the)旨在同样包括复数形式。类似地,如在本申 请中所使用的术语“和/或”是指包含一个或一个以上相关联的列出的任何以 及所有可能的组合。另外,当用于本技术中时,术语“包括”(comprise)及 其变型“包括”(comprises)和/或包括(comprising)等指陈述的特征、整体、 步骤、操作、元素,和/或组件的存在,但不排除一个或一个以上其它特征、 整
体、步骤、操作、元素、组件和/或这些的分组的存在或添加。在没有更 多限制的情况下,由语句“包括一个
…”
限定的要素,并不排除在包括所述要 素的过程、方法或者设备中还存在另外的相同要素。本文中,每个实施例 重点说明的可以是与其他实施例的不同之处,各个实施例之间相同相似部 分可以互相参见。对于实施例公开的方法、产品等而言,如果其与实施例 公开的方法部分相对应,那么相关之处可以参见方法部分的描述。
149.本领域技术人员可以意识到,结合本文中所公开的实施例描述的各示 例的单元及算法步骤,能够以电子硬件、或者计算机软件和电子硬件的结 合来实现。这些功能究竟以硬件还是软件方式来执行,可以取决于技术方 案的特定应用和设计约束条件。所述技术人员可以对每个特定的应用来使 用不同方法以实现所描述的功能,但是这种实现不应认为超出本公开实施 例的范围。所述技术人员可以清楚地了解到,为描述的方便和简洁,上述 描述的系统、装置和单元的具体工作过程,可以参考前述方法实施例中的 对应过程,在此不再赘述。
150.本文所披露的实施例中,所揭露的方法、产品(包括但不限于装置、 设备等),可以通过其它的方式实现。例如,以上所描述的装置实施例仅 仅是示意性的,例如,所述单元的划分,可以仅仅为一种逻辑功能划分, 实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可 以集成到另一个系统,或一些特征可以忽略,或不执行。另外,所显示或 讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置 或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。所述作 为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显 示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也 可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全 部单元来实现本实施例。另外,在本公开实施例中的各功能单元可以集成 在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个 以上单元集成在一个单元中。
151.附图中的流程图和框图显示了根据本公开实施例的系统、方法和计算 机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框 图中的每个方框可以代表一个模块、程序段或代码的一部分,所述模块、 程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行 指令。在有些作为替换的实现中,方框中所标注的功能也可以以不同于附 图中所标注的顺序发生。例如,两个连续的方框实际上可以基本并行地执 行,它们有时也可以按相反的顺序执行,这可以依所涉及的功能而定。在 附图中的流程图和框图所对应的描述中,不同的方框所对应的操作或步骤 也可以以不同于描述中所披露的顺序发生,有时不同的操作或步骤之间不 存在特定的顺序。例如,两个连续的操作或步骤实际上可以基本并行地执 行,它们有时也可以按相反的顺序执行,这可以依所涉及的功能而定。框 图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以 用执行规定的功能或动作的专用的基于硬件的系统来实现,或者可以用专 用硬件与计算机指令的组合来实现。

技术特征:
1.一种信息检索的方法,其特征在于,包括:根据用户输入的检索内容中的关键词,在预设的关联知识图谱中获取所述关键词对应的多个关联节点;根据每个关联节点与所述关联知识图谱中的邻接节点之间的关联程度值,将多个关联节点进行排序,并获取位于排序前n位的关联节点,其中,所述n为大于等于1的正整数;将位于排序前n位的关联节点在预设的数据库中进行检索,生成所述关键词的检索结果集合;对所述检索结果集合中的多个检索结果进行筛选,并将筛选后的检索结果返回给用户。2.根据权利要求1所述的信息检索的方法,其特征在于,在所述根据每个关联节点与所述关联知识图谱中的邻接节点之间的关联程度值,将多个关联节点进行排序之前,还包括:以每个关联节点为中心进行一度关系查找,确定每个关联节点对应的多个邻接节点;从所述关联知识图谱中获取每个关联节点分别与对应的每个邻接节点之间的关联次数;根据关联次数和每个邻接节点的权重系数,计算每个关联节点与对应的邻接节点之间的关联程度值。3.根据权利要求1所述的信息检索的方法,其特征在于,所述将位于排序前n位的关联节点在预设的数据库中进行检索,生成所述关键词的检索结果集合,包括:将位于排序前n位的关联节点分别在预设的数据库中进行检索,获取n个关联节点对应的内容信息和关联节点与所述内容信息的匹配度得分;将关联节点的名称、内容信息和匹配度得分共同作为一个关联节点的检索结果;合并n个关联节点的检索结果以生成所述关键词的检索结果集合。4.根据权利要求3所述的信息检索的方法,其特征在于,所述对所述检索结果集合中的多个检索结果进行筛选,并将筛选后的检索结果返回给用户,包括:对所述检索结果集合进行去重操作,过滤掉重复的检索结果;根据所述检索结果中包含的匹配度得分,由高到低对多个检索结果进行排序;获取位于排序前m位的检索结果并返回给用户,其中,所述m为大于等于1的正整数。5.一种知识图谱构建的方法,其特征在于,包括:获取企业协同办公平台在使用过程中产生的至少一类办公文本信息;对所述至少一类办公文本信息进行分词和匹配,生成多个办公词汇匹配对;对所述多个办公词汇匹配对进行筛选,生成办公词汇集合;根据所述办公词汇集合以及所述办公词汇集合中的每个办公词汇匹配对的关联次数,构建关联知识图谱。6.根据权利要求5所述的知识图谱构建的方法,其特征在于,所述对所述至少一类办公文本信息进行分词和匹配,生成多个办公词汇匹配对,包括:对所述至少一类办公文本信息进行分词,获取所述办公文本信息对应的名词性质的办公词汇;根据所述办公词汇的在所述办公文本信息中的位置,将办公词汇进行匹配,生成多个办公词汇匹配对。
7.根据权利要求6所述的知识图谱构建的方法,其特征在于,所述对所述多个办公词汇匹配对进行筛选,包括:根据每个办公词汇匹配对中的两个办公词汇共同出现的频率,统计每个办公词汇匹配对的关联次数;根据每个办公词汇匹配对的关联次数,获取大于预设的关联次数阈值的至少一个办公词汇匹配对。8.一种信息检索的装置,其特征在于,包括:节点匹配模块,被配置为根据用户输入的检索内容中的关键词,在预设的关联知识图谱中获取所述关键词对应的多个关联节点;节点筛选模块,被配置为根据每个关联节点与所述关联知识图谱中的邻接节点之间的关联程度值,将多个关联节点进行排序,并获取位于排序前n位的关联节点,其中,所述n为大于等于1的正整数;信息检索模块,被配置为将位于排序前n位的关联节点在预设的数据库中进行检索,生成所述关键词的检索结果集合;信息反馈模块,被配置为对所述检索结果集合中的多个检索结果进行筛选,并将筛选后的检索结果返回给用户。9.一种知识图谱构建的装置,其特征在于,包括:信息获取模块,被配置为获取企业协同办公平台在使用过程中产生的至少一类办公文本信息;信息匹配模块,被配置为对所述至少一类办公文本信息进行分词和匹配,生成多个办公词汇匹配对;信息筛选模块,被配置为对所述多个办公词汇匹配对进行筛选,生成办公词汇集合;图谱构建模块,被配置为根据所述办公词汇集合以及所述办公词汇集合中的每个办公词汇匹配对的关联次数,构建关联知识图谱。10.一种电子设备,其特征在于,包括存储器和处理器,其中:所述存储器,用于保存计算机程序;所述处理器,用于执行所述计算机程序,以实现如权利要求1至4任一项所述的信息检索的方法,或者实现如权利要求5至7任一项所述的知识图谱构建的方法。11.一种存储介质,存储有程序指令,其特征在于,所述程序指令在运行时,执行如权利要求1至4任一项所述的信息检索的方法,或者执行如权利要求5至7任一项所述的知识图谱构建的方法。

技术总结
本申请涉及知识图谱技术领域,公开一种信息检索的方法,包括:根据用户输入的检索内容中的关键词,在预设的关联知识图谱中获取所述关键词对应的多个关联节点;根据每个关联节点与所述关联知识图谱中的邻接节点之间的关联程度值,将多个关联节点进行排序,并获取位于排序前n位的关联节点;将位于排序前n位的关联节点在预设的数据库中进行检索,生成所述关键词的检索结果集合;对所述检索结果集合中的多个检索结果进行筛选,并将筛选后的检索结果返回给用户。本申请还公开一种知识图谱构建的方法、装置、电子设备和存储介质。电子设备和存储介质。电子设备和存储介质。


技术研发人员:梁秀钦 付金伟 齐云飞 徐凯波
受保护的技术使用者:北京明略昭辉科技有限公司
技术研发日:2022.03.16
技术公布日:2022/7/5
转载请注明原文地址: https://www.8miu.com/read-15049.html

最新回复(0)