一种知识网络构建方法、装置、设备及存储介质与流程

allin2023-05-04  50



1.本发明涉及知识图谱技术领域,具体地说,涉及一种知识网络构建方法、装置、设备及存储介质。


背景技术:

2.在目标知识领域中建立词汇与词汇关联的知识网络对该领域的研究有很大的指导作用。知识图谱的构建是一个很热门的领域,在中文分词的基础上构建知识图谱也是中文分析领域的更深入的分析任务之一。知识图谱是构建实体以及实体之间关系的重要表达形式,通常以三元组的形式表示,即实体1、关系,实体2。知识图谱的构建对于人们快速理解领域场景以及后续的基于知识的文本分析任务如知识问答的起重要作用。在文本分析领域,构建知识谱的方法,包括命名实体识别和关系抽取两个任务,目前基于词向量表示和神经网络已有很多进行关系提取的方法,如基于cnn、rnn等的方法,但是这些方法都是有监督的方法,需要大规模的标注数据,即实体间关系对,对于无标注数据的情况无法驾驭。对于缺乏标注数据的场景,即在专业领域如医疗、古文、法律文本等,目前的知识图谱构建方法均无较好的表现。


技术实现要素:

3.针对专业领域的知识图谱构建但无标注数据的问题,本技术提供了一种知识网络构建方法,包括:
4.将文本按照第一句长、第二句长、段落三个层次,并结合专业词表筛选词汇分别划分为三种文本语料,
5.其中,所述第一句长是以句中标点符号来划分文本,所述第二句长是以句尾标点符号来划分文本;
6.对于任一文本语料,都将文本语料中共同出现的词汇对列出并一一进行列联表假设检验,再通过卡方检验计算出假设检验的p_value值构成p_value集合;
7.对于任一p_value集合,将p_value值从小到大排序为p1,p2,

pn,并利用p_value阈值q,筛选符合下式的p_value值,并将筛选出的p_value值所对应的词汇对组成相关性显著词汇对集合,
[0008][0009]
其中,pi表示第i个p_value值;
[0010]
n表示任一文本语料中词汇对的数量,即做了n次假设检验;
[0011]
根据最小词频、词汇对共现数量阈值和最小相关性来进一步对相关性显著词汇对集合进行筛选。
[0012]
可选地,所述最小词频不小于2;
[0013]
词汇对共现数量阈值不小于2;
[0014]
所述最小相关性是指p_value值大于0.01的词汇对。
[0015]
可选地,所述文本包括分词的文本和不分词的文本两类,对应每一类文本都按照第一句长、第二句长、段落三个层次划分为三种文本语料。
[0016]
可选地,所述将文本语料中共同出现的词汇对列出并一一进行列联表假设检验,再通过卡方检验计算出假设检验的p_value值,从而任一文本语料都获得p_value集合,包括:
[0017]
对于词汇对(w1,w2),其中w1表示一个词汇,w2表示另一个词汇,列联表假设检验中,原假设是词汇对(w1,w2)的出现为随机碰撞,备择假设是词汇对(w1,w2)的出现是非随机的,形成的列联表形式为:
[0018] w1出现w1不出现w2出现w1、w2共同出现的次数为aw1不出现w2出现的次数为bw2不出现w2不出现w1出现的次数为cw1、w2都出现的次数为d
[0019]
其中,卡方检验的检验统计量为t=(a+b+c+d)*(ad-bc)2/(a+b)(c+d)(a+c)(b+d),在原假设成立的条件下,t服从自由度为1的卡方分布,p_value=p(x>t),其中,p(x>t)表示以x为变量的自由度为1的卡方分布中比t还大的概率,从而获得p_value值。可选地,所述p_value阈值q为0.05。
[0020]
可选地,对于任一文本语料,都将相关性显著词汇对集合的每一词汇作为一个节点,并在相关性显著的词汇之间设置连接边,从而建立图形化的词汇网络。
[0021]
可选地,还可以结合以下条件中一个或多个进一步调整词汇网络,例如:
[0022]
词汇网络边数;
[0023]
词汇的网格密度(网络密度=边的数量/(点的数量)/(点的数量-1));
[0024]
不同类别内的网络规模大小,所述不同类别是根据目标文本特征不同划分的;
[0025]
核心词汇周围的网络密度,所述核心词汇是根据需求在不同类别中自行设定的重要的词汇。
[0026]
本发明还提供一种知识网络构建装置,所述装置包括:
[0027]
文本语料获取模块,用于将文本按照第一句长、第二句长、段落三个层次,并结合专业词表筛选词汇分别划分为三种文本语料,
[0028]
其中,所述第一句长是以句中标点符号来划分文本,所述第二句长是以句尾标点符号来划分文本;
[0029]
假设检验模块,用于对于任一文本语料,都将文本语料中共同出现的词汇对列出并一一进行列联表假设检验,再通过卡方检验计算出假设检验的p_value值构成p_value集合;
[0030]
修正模块,用于对于任一p_value集合,将p_value值从小到大排序为p1,p2,

pn,并利用p_value阈值q,筛选符合下式的p_value值,并将筛选出的p_value值所对应的词汇对组成相关性显著词汇对集合,
[0031][0032]
其中,pi表示第i个p_value值;
[0033]
n表示任一文本语料中词汇对的数量,即做了n次假设检验;
[0034]
进一步筛选模块,用于根据最小词频、词汇对共现数量阈值和最小相关性来进一步对相关性显著词汇对集合进行筛选。
[0035]
本发明还提供一种电子设备,所述电子设备包括:
[0036]
至少一个处理器;以及,
[0037]
与所述至少一个处理器通信连接的存储器;其中,
[0038]
所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行如上所述的知识网络构建方法。
[0039]
本发明还提供一种计算机可读存储介质,存储有计算机程序,所述计算机程序被处理器执行时实现如上所述的知识网络构建方法。
[0040]
本发明首次从段落、长句、短句和分词、不分词的角度构建多层次的知识网络,并利用统计学的列联表假设检验的方式进行词汇对相关性的判断,最终构建不同维度下的知识网络,并根据多种参数指标对其进行评估。本发明的知识网络构建方法可以应用于各种文本领域,例如医学、古籍等专业领域的文本处理。
附图说明
[0041]
通过结合下面附图对其实施例进行描述,本发明的上述特征和技术优点将会变得更加清楚和容易理解。
[0042]
图1是表示本发明实施例的知识网络构建方法的流程示意图;
[0043]
图2是表示本发明实施例的知识网络构建装置的一实施例的功能模块示意图;
[0044]
图3是表示本发明实施例的电子设备一实施例的结构示意图。
具体实施方式
[0045]
下面将参考附图来描述本发明所述的实施例。本领域的普通技术人员可以认识到,在不偏离本发明的精神和范围的情况下,可以用各种不同的方式或其组合对所描述的实施例进行修正。因此,附图和描述在本质上是说明性的,而不是用于限制权利要求的保护范围。此外,在本说明书中,附图未按比例画出,并且相同的附图标记表示相同的部分。
[0046]
一种知识网络构建方法,包括:
[0047]
步骤s1,将文本按照第一句长(以句中标点符号为分隔)、第二句长(以句尾标点符号为分隔)、段落(以换行符为分隔)三个层次,并结合专业词表筛选词汇分别划分为三种文本语料。其中,句中标点符号是指用于句子中间的标点符号,例如顿号、逗号、冒号、括号、引号等等。通过句中标点符号可以将句子划分为更加短小的短句,即第一句长。其中句尾标点符号是指用于句子尾部的标点符号,用于表示句子已经结束的符号,例如句号、问号、叹号等。通过句尾标点符号将句子划分为较长的长句,即第二句长。
[0048]
通过以上划分可以获得三个层次的文本语料,另外从分词角度来看,将分词的文本和不分词的文本分别按照上述方法获得三个层次的文本语料,由此可以获得六个层次的文本语料。
[0049]
步骤s2,对于以上任一层次的文本语料,都分别将文本语料中共同出现的词汇对列出并一一进行列联表假设检验,再通过pearson's chi-squared test(卡方检验)计算出假设检验的p_value(假定值)。所述列联表假设检验是用于对列联表中两个词汇是否独立
的假设检验。
[0050]
例如,对于词汇对(w1,w2),其中w1表示一个词汇,w2表示另一个词汇。列联表假设检验中,原假设是词汇对(w1,w2)的出现为随机碰撞(即两个词汇之间无关),备择假设是词汇对(w1,w2)的出现是非随机的,即w1与w2是具有一定相关性的。例如,对于第一句长来说,统计在所有的第一句长中w1、w2共同出现次数,w1不出现w2出现次数、w2不出现w1出现次数、w1、w2都出现次数,形成的列联表形式为:
[0051] w1出现w1不出现w2出现w1、w2共同出现的次数为aw1不出现w2出现的次数为bw2不出现w2不出现w1出现的次数为cw1、w2都出现的次数为d
[0052]
其中,卡方检验的检验统计量为t=(a+b+c+d)*(ad-bc)2/(a+b)(c+d)(a+c)(b+d),在原假设成立的条件下,t服从自由度为1的卡方分布,p_value=p(x>t),即卡方分布中比t还大的概率,从而获得p_value值。
[0053]
对于第一句长文本语料,对其中的所有词汇对都采用列联表假设检验获得各个p_value,得到第一句长p_value集合。同样的,对于第二句长文本语料,也对其中的所有词汇对都采用列联表假设检验获得各个p_value,得到第二句长p_value集合。对六个层次的文本语料都可以获得对应的p_value集合。
[0054]
步骤s3,对于任一层次的文本语料,都对假设检验中的p_value集合进行修正。具体修正的方法是,假设进行了n次假设检验,将得到的p_value从小到大排序为p1,p2,

pn,预先设定的p_value阈值为q可以取值为0.05,则拒绝假设检验的标准为:
[0055][0056]
其中,i表示第i个p_value值;
[0057]
n表示任一文本语料中词汇对的数量,即做了n次假设检验。
[0058]
通过以上,即可筛选出符合要求的p_value,也即得到了相关性显著的各个词汇对,对于六个层次的文本语料,都分别得到了相关性显著词汇对集合。
[0059]
步骤s4,对于每一层次的文本语料,都将相关性显著词汇对集合(即拒绝词汇对的两个词汇无关的假设检验)的每一词汇作为一个节点,并在相关性显著的词汇之间设置连接边,从而建立更加直观的词汇网络。
[0060]
步骤s5,根据最小词频、词汇对共现数量阈值和最小相关性来进一步对词汇网络进行筛选和评估。
[0061]
其中,最小词频是指在每个层次的文本语料中,词汇出现的最小次数,优选为2次。
[0062]
其中,词汇对共现数量是指词汇a和b在每个层次的文本语料中同时出现的次数,例如,词汇w1在段落文本语料中出现的次数,词汇w1在第一句长文本语料中出现的次数,优选词汇对共现数量阈值为2。
[0063]
其中,所述最小相关性是指p_value值大于0.01的词汇对。
[0064]
进一步的,在筛选具有显著性的词汇对的同时,还可以结合以下条件对词汇网络进行筛选,例如:
[0065]
词汇网络边数;
[0066]
词汇的网格密度(网络密度=边的数量/(点的数量)/(点的数量-1));
[0067]
不同类别内的网络规模大小,所述不同类别是根据目标文本特征不同划分的;
[0068]
核心词汇周围的网络密度,所述核心词汇是根据需求在不同类别中自行设定的重要的词汇。
[0069]
如图2所示,是本发明知识网络构建装置一实施例的功能模块示意图。
[0070]
本发明的知识网络构建装置100可以安装于电子设备中。根据实现的功能,所述知识网络构建装置100可以包括文本语料获取模块101、假设检验模块102、修正模块103、进一步筛选模块104。本发明所述模块是指一种能够被电子设备处理器所执行,并且能够完成固定功能的一系列计算机程序段,其存储在电子设备的存储器中。
[0071]
在本实施例中,关于各模块的功能如下:
[0072]
其中文本语料获取模块101,用于将文本按照第一句长、第二句长、段落三个层次,并结合专业词表筛选词汇分别划分为三种文本语料,
[0073]
其中,所述第一句长是以句中标点符号来划分文本,所述句中标点符号是指在句子中间的标点符号,
[0074]
其中所述第二句长是以句尾标点符号来划分文本,所述句尾标点符号是指在句子尾部的标点符号;
[0075]
其中假设检验模块102,用于对于任一文本语料,都将文本语料中共同出现的词汇对列出并一一进行列联表假设检验,再通过卡方检验计算出假设检验的p_value值,从而任一文本语料都获得p_value集合;
[0076]
例如,对于词汇对(w1,w2),其中w1表示一个词汇,w2表示另一个词汇。列联表假设检验中,原假设是词汇对(w1,w2)的出现为随机碰撞(即两个词汇之间无关),备择假设是词汇对(w1,w2)的出现是非随机的,即w1与w2是具有一定相关性的。例如,对于第一句长来说,统计在所有的第一句长中w1、w2共同出现次数,w1不出现w2出现次数、w2不出现w1出现次数、w1、w2都出现次数,形成的列联表形式为:
[0077][0078][0079]
其中,卡方检验的检验统计量为t=(a+b+c+d)*(ad-bc)2/(a+b)(c+d)(a+c)(b+d),在原假设成立的条件下,t服从自由度为1的卡方分布,p_value=p(x>t),其中,p(x>t)表示以x为变量的自由度为1的卡方分布中比t还大的概率,从而获得p_value值。
[0080]
对于第一句长文本语料,对其中的所有词汇对都采用列联表假设检验获得各个p_value,得到第一句长p_value集合。同样的,对于第二句长文本语料,也对其中的所有词汇对都采用列联表假设检验获得各个p_value,得到第二句长p_value集合。对六个层次的文本语料都可以获得对应的p_value集合。
[0081]
其中修正模块103,用于对于任一p_value集合,将p_value值从小到大排序为p1,p2,

pn,并利用p_value阈值q,修正出符合下式的p_value值,并将筛选出的p_value值所对应的词汇对组成相关性显著词汇对集合,
[0082][0083]
其中,pi表示第i个p_value值;
[0084]
n表示任一文本语料中词汇对的数量,即做了n次假设检验。
[0085]
进一步筛选模块104,用于根据最小词频、词汇对共现数量阈值和最小相关性来进一步对相关性显著词汇对集合进行筛选。
[0086]
其中,最小词频是指在每个层次的文本语料中,词汇出现的最小次数,优选为2次。
[0087]
其中,词汇对共现数量是指词汇a和b在每个层次的文本语料中同时出现的次数,例如,词汇w1在段落文本语料中出现的次数,词汇w1在第一句长文本语料中出现的次数,优选词汇对共现数量阈值为2。
[0088]
其中,所述最小相关性是指p_value值大于0.01的词汇对。
[0089]
如图3所示,是本发明实现知识网络构建方法的电子设备一实施例的结构示意图。
[0090]
所述电子设备1可以包括处理器10、存储器11和总线,还可以包括存储在所述存储器11中并可在所述处理器10上运行的计算机程序,如知识网络构建程序12。
[0091]
其中,所述存储器11至少包括一种类型的可读存储介质,所述可读存储介质包括闪存、移动硬盘、多媒体卡、卡型存储器(例如:sd或dx存储器等)、磁性存储器、磁盘、光盘等。所述存储器11在一些实施例中可以是电子设备1的内部存储单元,例如该电子设备1的移动硬盘。所述存储器11在另一些实施例中也可以是电子设备1的外部存储设备,例如电子设备1上配备的插接式移动硬盘、智能存储卡(smart media card,smc)、安全数字(secure digital,sd)卡、闪存卡(flash card)等。进一步地,所述存储器11还可以既包括电子设备1的内部存储单元也包括外部存储设备。所述存储器11不仅可以用于存储安装于电子设备1的应用软件及各类数据,例如知识网络构建程序的代码等,还可以用于暂时地存储已经输出或者将要输出的数据。
[0092]
所述处理器10在一些实施例中可以由集成电路组成,例如可以由单个封装的集成电路所组成,也可以是由多个相同功能或不同功能封装的集成电路所组成,包括一个或者多个中央处理器(central processing unit,cpu)、微处理器、数字处理芯片、图形处理器及各种控制芯片的组合等。所述处理器10是所述电子设备的控制核心(control unit),利用各种接口和线路连接整个电子设备的各个部件,通过运行或执行存储在所述存储器11内的程序或者模块(例如知识网络构建程序等),以及调用存储在所述存储器11内的数据,以执行电子设备1的各种功能和处理数据。
[0093]
图3仅示出了具有部件的电子设备,本领域技术人员可以理解的是,图3示出的结构并不构成对所述电子设备1的限定,可以包括比图示更少或者更多的部件,或者组合某些部件,或者不同的部件布置。
[0094]
例如,尽管未示出,所述电子设备1还可以包括给各个部件供电的电源(比如电池),可选的,电源可以通过电源管理装置与所述至少一个处理器10逻辑相连,从而通过电源管理装置实现充电管理、放电管理、以及功耗管理等功能。电源还可以包括一个或一个以上的直流或交流电源、再充电装置、电源故障检测电路、电源转换器或者逆变器、电源状态指示器等任意组件。
[0095]
可选地,该电子设备1还可以包括用户接口,用户接口可以是显示器(display)、输
入单元(比如键盘(keyboard)),可选地,用户接口还可以是标准的有线接口、无线接口。可选地,在一些实施例中,显示器可以是led显示器、液晶显示器、触控式液晶显示器以及oled(organic light-emitting diode,有机发光二极管)触摸器等。其中,显示器也可以适当的称为显示屏或显示单元,用于显示在电子设备1中处理的信息以及用于显示可视化的用户界面。
[0096]
应该了解,所述实施例仅为说明之用,在专利申请范围上并不受此结构的限制。
[0097]
所述电子设备1中的所述存储器11存储的知识网络构建程序12是多个指令的组合,在所述处理器10中运行时,可以实现:
[0098]
步骤s1,将文本按照第一句长、第二句长、段落三个层次,并结合专业词表筛选词汇分别划分为三种文本语料,
[0099]
其中,所述第一句长是以句中标点符号来划分文本,所述句中标点符号是指在句子中间的标点符号,
[0100]
其中所述第二句长是以句尾标点符号来划分文本,所述句尾标点符号是指在句子尾部的标点符号;
[0101]
步骤s2,对于任一文本语料,都将文本语料中共同出现的词汇对列出并一一进行列联表假设检验,再通过卡方检验计算出假设检验的p_value值,从而任一文本语料都获得p_value集合;
[0102]
步骤s3,对于任一p_value集合,将p_value值从小到大排序为p1,p2,

pn,并利用p_value阈值q,筛选符合下式的p_value值,并将筛选出的p_value值所对应的词汇对组成相关性显著词汇对集合,
[0103][0104]
其中,pi表示第i个p_value值;
[0105]
n表示任一文本语料中词汇对的数量,即做了n次假设检验;
[0106]
步骤s5,根据最小词频、词汇对共现数量阈值和最小相关性来进一步对相关性显著词汇对集合进行筛选。
[0107]
具体的运行流程如图1所示的知识网络构建方法流程类型,具体可参见上述的知识网络构建方法的描述,此处不再赘述。
[0108]
进一步地,所述电子设备1集成的模块如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。所述计算机可读介质可以包括:能够携带所述计算机程序代码的任何实体或装置、记录介质、u盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(rom,read-only memory)。
[0109]
在本发明所提供的几个实施例中,应该理解到,所揭露的设备、装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述模块的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式。
[0110]
所述作为分离部件说明的模块可以是或者也可以不是物理上分开的,作为模块显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。
[0111]
另外,在本发明各个实施例中的各功能模块可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用硬件加软件功能模块的形式实现。
[0112]
以上所述仅为本发明的优选实施例,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

技术特征:
1.一种知识网络构建方法,其特征在于,包括:将文本按照第一句长、第二句长、段落三个层次,并结合专业词表筛选词汇分别划分为三种文本语料,其中,所述第一句长是以句中标点符号来划分文本,其中所述第二句长是以句尾标点符号来划分文本;对于任一文本语料,都将文本语料中共同出现的词汇对列出并一一进行列联表假设检验,再通过卡方检验计算出假设检验的p_value值构成p_value集合;对于任一p_value集合,将p_value值从小到大排序为p1,p2,

p
n
,并利用p_value阈值q,筛选符合下式的p_value值,并将筛选出的p_value值所对应的词汇对组成相关性显著词汇对集合,其中,p
i
表示第i个p_value值;n表示任一文本语料中词汇对的数量,即做了n次假设检验;根据最小词频、词汇对共现数量阈值和最小相关性来进一步对相关性显著词汇对集合进行筛选。2.根据权利要求1所述的知识网络构建方法,其特征在于,所述最小词频不小于2;词汇对共现数量阈值不小于2;所述最小相关性是指p_value值大于0.01的词汇对。3.根据权利要求1所述的知识网络构建方法,其特征在于,所述文本包括分词的文本和不分词的文本两类,对应每一类文本都按照第一句长、第二句长、段落三个层次划分为三种文本语料。4.根据权利要求1所述的知识网络构建方法,其特征在于,所述将文本语料中共同出现的词汇对列出并一一进行列联表假设检验,再通过卡方检验计算出假设检验的p_value值构成p_value集合,包括:对于词汇对(w1,w2),其中w1表示一个词汇,w2表示另一个词汇,列联表假设检验中,原假设是词汇对(w1,w2)的出现为随机碰撞,备择假设是词汇对(w1,w2)的出现是非随机的,形成的列联表形式为:w1出现w1不出现w2出现w1、w2共同出现的次数为aw1不出现w2出现的次数为bw2不出现w2不出现w1出现的次数为cw1、w2都出现的次数为d其中,卡方检验的检验统计量为t=(a+b+c+d)*(ad-bc)2/(a+b)(c+d)(a+c)(b+d),在原假设成立的条件下,t服从自由度为1的卡方分布,p_value=p(x>t),其中,p(x>t)表示以x为变量的自由度为1的卡方分布中比t还大的概率,从而获得p_value值。5.根据权利要求1所述的知识网络构建方法,其特征在于,所述p_value阈值q为0.05。6.根据权利要求1所述的知识网络构建方法,其特征在于,对于任一文本语料,都将相关性显著词汇对集合的每一词汇作为一个节点,并在相关性显著的词汇之间设置连接边,从而建立图形化的词汇网络。
7.根据权利要求6所述的知识网络构建方法,其特征在于,还结合以下条件中一个或多个对词汇网络进行筛选:词汇网络边数、词汇网格的密度、不同类别内的网络规模大小、核心词汇周围的网络密度。8.一种知识网络构建装置,其特征在于,所述装置包括:文本语料获取模块,用于将文本按照第一句长、第二句长、段落三个层次,并结合专业词表筛选词汇分别划分为三种文本语料,其中,所述第一句长是以句中标点符号来划分文本,所述第二句长是以句尾标点符号来划分文本;假设检验模块,用于对于任一文本语料,都将文本语料中共同出现的词汇对列出并一一进行列联表假设检验,再通过卡方检验计算出假设检验的p_value值构成p_value集合;修正模块,用于对于任一p_value集合,将p_value值从小到大排序为p1,p2,

p
n
,并利用p_value阈值q,筛选符合下式的p_value值,并将筛选出的p_value值所对应的词汇对组成相关性显著词汇对集合,其中,p
i
表示第i个p_value值;n表示任一文本语料中词汇对的数量,即做了n次假设检验;进一步筛选模块,用于根据最小词频、词汇对共现数量阈值和最小相关性来进一步对相关性显著词汇对集合进行筛选。9.一种电子设备,其特征在于,所述电子设备包括:至少一个处理器;以及,与所述至少一个处理器通信连接的存储器;其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行如权利要求1至7中任一所述的知识网络构建方法。10.一种计算机可读存储介质,存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至7中任一所述的知识网络构建方法。

技术总结
本申请提供了一种知识网络构建方法、装置、设备及存储介质,方法包括:将文本按照第一句长、第二句长、段落三个层次,并结合专业词表筛选词汇分别划分为三种文本语料;对于任一文本语料,都将文本语料中共同出现的词汇对列出并一一进行列联表假设检验,再通过卡方检验计算出假设检验的p_value值构成p_value集合;对于任一p_value集合,利用p_value阈值q筛选符合要求的p_value值,组成相关性显著词汇对集合;根据最小词频、词汇对共现数量阈值和最小相关性来进一步对相关性显著词汇对集合进行筛选。本发明从段落、长句、短句和分词、不分词的角度,利用假设检验对相关性判断,构建不同维度下的知识网络,并根据多种参数指标对其进行评估。行评估。行评估。


技术研发人员:邓柯 潘长在 米成 陈静 李梦琦 李宜斐
受保护的技术使用者:上海起承文化发展有限公司
技术研发日:2022.01.27
技术公布日:2022/7/5
转载请注明原文地址: https://www.8miu.com/read-11012.html

最新回复(0)