1.本发明涉及数据处理领域,具体涉及一种基于知识图谱的事件信息处理系统。
背景技术:2.随着互联网的迅速普及和发展,大量数据信息在网络中产生和传播,如何从海量自然语言文本中及时准确地找到需要的信息变得日益迫切。海量自然语言文档具有数据量大,结构不统一,冗余度较高、更新快等特点。现有技术中通常采用机器学习的方式训练得到一个事件抽取模型来进行事件抽取,事件抽取技术是从非结构化信息中抽取出用户感兴趣的事件,并以结构化呈现给用户。但是,直接采用一个事件抽取模型的方式进行事件抽取的方法比较依赖于关键词,如果关键词数量小、不全面或不合适的话会对事件抽取结果有很大的影响,尤其对于没有被作为训练样本的进行学习的事件类型,会导致事件抽取的准确度低,抽取的事件信息不完整。由此可知,如何提高事件抽取结果的完整性和准确性,成为亟待解决的技术问题。
技术实现要素:3.针对上述技术问题,本发明采用的技术方案为:一种基于知识图谱的事件信息处理系统,所述系统包括:第一数据库、第二数据库、处理器和存储有计算机程序的存储器,所述第一数据库包括:样本事件id和样本事件id对应的样本文本列表,第二数据库包括:样本事件id、样本事件id对应的事件类型和事件类型对应的预设多元组列表,当所述计算机程序被处理器执行时,实现以下步骤:s100、从所述数据库中获取a=(a1,a2,
……
,am),ai=(a
i1
,a
i2
,
……
, ),其中,a
ij
是指第i个样本事件id对应的第j个样本文本,i=1
……
m,m为样本事件数量,j=1
……
ni,ni为第i个样本事件id对应的样本文本列表中所有样本文本数量;s200、根据a
ij
,获取a
ij
对应的初始实体列表(a
1ij
、a
2ij
,
……
,a
pij
),其中,a
qij
是指a
ij
对应的第q个初始实体,q=1
……
p,p为初始实体数量;s300、根据a
qij
,获取ai对应的样本事件id的中间数据集=(a
1i
,a
2i
,
……
,a
pi
),其中,a
qi
=(a
qi1
、a
qi2
、
……
,);s400、根据,获取ai对应的样本事件id的训练集;s500、基于所有ai对应的样本事件id的训练集,构建成目标训练集数据。
4.s600、将目标训练集数据输入至事件图谱模型进行训练,得到目标事件图谱模型。
5.本发明提供了一种基于知识图谱的事件信息处理系统,所述系统包括:第一数据库、第二数据库、处理器和存储有计算机程序的存储器,所述第一数据库包括:样本事件id和样本事件id对应的样本文本列表,当所述计算机程序被处理器执行时,实现以下步骤:从所述第一数据库中获取样本事件id对应的样本文本并根据样本文本,获取样本文本对应的多元组列表;根据所有样本文本和样本文本对应的多元组列表,获取训练集数据;将获取训
练集数据输入至多元组构建模型进行训练,得到目标多元组构建模型,能够根据实际样本事件构建训练集并获取目标多元组构建模型提高了训练的准确性以及模型在实际应用中的适用性。
6.此外所述系统通过获取原始事件id对应的目标实体列表;将原始事件id对应的目标实体列表中任一目标实体与目标实体对应的预设阈值区域进行比对,获取目标实体对应的优先级;基于目标实体对应的优先级,获取原始事件id对应的优先级和原始事件id对应的报道次数;根据原始事件id对应的优先级、原始事件id对应的报道次数和报道次数预设条件,确定出原始事件id对应的实际优先级;当原始事件id对应的优先级与原始事件id对应的实际优先级时,调整原始事件id对应的优先级中所有初始权重,得到初始权重对应的目标权重;获取原始事件id且根据原始事件id的目标实体列表和调整后的所有目标权重,得到原始事件id对应的优先级,以使得根据原始事件id对应的优先级,发送原始事件id的事件消息;能够避免事件消息延迟发送,导致用户无法第一时间知晓重要事件。
附图说明
7.为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
8.图1为本发明实施例提供的一种基于知识图谱的事件信息处理系统的流程图;图2为本发明实施例提供的另一种基于知识图谱的事件信息处理系统的流程图。
具体实施方式
9.下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
10.如图1所示,本发明实施例提供一种基于知识图谱的事件信息处理系统,所述系统包括:数据库、处理器和存储有计算机程序的存储器,所述数据库包括:样本事件id和样本事件id对应的样本文本列表,当所述计算机程序被处理器执行时,实现以下步骤:s100、从所述数据库中获取a=(a1,a2,
……
,am),ai=(a
i1
,a
i2
,
……
,),其中,a
ij
是指第i个样本事件id对应的第j个样本文本,i=1
……
m,m为样本事件数量,j=1
……
ni,ni为第i个样本事件id对应的样本文本列表中所有样本文本数量。
11.具体地,所述样本事件id是指表征样本事件身份的唯一标识;其中,所述样本事件id对应的样本事件是指预设时间段内发生的事件。
12.进一步地,所述预设时间段的取值范围为1~3年,优选地,所述预设时间段的取值为3年。
13.具体地,所述样本文本是指从资讯平台中爬取的用于描述样本事件的文本。
14.s200、根据a
ij
,获取a
ij
对应的初始实体列表(a
1ij
、a
2ij
,
……
,a
pij
),其中,a
qij
是指a
ij
对应的第q个初始实体,q=1
……
p,p为初始实体数量。
15.具体地,所述系统中数据库还包括:样本事件id、样本事件id对应的事件类型、事件类型对应的预设多元组列表和每一预设多元组对应的预设触发词列表。
16.进一步地,本领域技术人员知晓在s200步骤中,还包括如下步骤:s201、获取a
ij
的触发词且根据所a
ij
的触发词与预设触发词列表中每一预设触发词进行比对,本领域技术人员知晓获取文本触发词的方法,在此不再赘述。
17.s203、当所a
ij
的触发词与预设触发词数据库中任一预设触发词一致时,确定出a
ij
的事件类型,可以理解为:当所a
ij
的触发词与预设触发词列表中任一预设触发词一致时,获取a
ij
对应的样本文件id,再根据a
ij
对应的样本文件id,获取a
ij
的事件类型。
18.s205、从第二数据库中获取a
ij
的事件类型对应的预设多元组且根据a
ij
的事件类型对应的预设多元组,获取a
ij
对应的初始实体列表;可以理解为:根据a
ij
对应的初始实体列表与a
ij
的事件类型对应的预设多元组一致。
19.优选地,当p=3时,a
ij
对应的多元组列表(a
1ij
、a
2ij
,a
3ij
),其中,a
1ij
为第i个样本事件中第j个样本文本中第一初始实体,a
2ij
为第i个样本事件中第j个样本文本中第二初始实体,a
3ij
是指a
1ij
和a
2ij
之间关系且作为第三实体;可以理解为:当a
ij
对应的事件类型为自然灾害事件,例如,a
1ij
为震源地址,a
2ij
为时间,a
3ij
为发生2.0级地震。
20.s300、根据a
qij
,获取ai对应的样本事件id的中间数据集=(a
1i
,a
2i
,
……
,a
pi
),其中,a
qi
=(a
qi1
、a
qi2
、
……
,);可以理解为:同一样本事件id的不同样本文本对应的单个实体,构建成一个实体列表。
21.s400、根据,获取ai对应的样本事件id的训练集。
22.具体地,在s400步骤中还包括如下步骤:s401、遍历a
qi
,获取a
qi
对应的实体数量列表b
qi
=(b
qi1
,b
qi2
,
……
,),b
qix
是指在a
qi
中第x实体种类的数量,其中,x=1
……
sq,sq为在a
qi
中第q实体的种类数量。
23.s403、根据b
qix
,获取b
qix
对应的概率值f
qix
,f
qix
符合如下条件:f
qix
=b
qix
/b
qi0
,其中,b
qi0
是指b
qi
中最大数量值。
24.s405、当f
qix
>预设的概率阈值f0时,确定f
qix
对应的实体作为中间实体,构建f
qix
对应的中间实体列表且确定b
qi0
对应的实体作为关键实体h
qi0
。
25.具体地,f0的取值范围为0.1~0.3;优选地,f0的取值范围为0.2。
26.s407、遍历f
qix
对应的中间实体列表且从f
qix
对应的中间实体列表中获取h
qi0
对应的所有关联实体(h
qi1
,h
qi2
,
……
,h
qikq
),kq为h
qi0
对应的关联实体数量。
27.具体地,所述关键实体对应的关联实体是指所述中间实体列表中除关键实 体之外的其他中间实体;可以理解为:关键实体的关联实体与关键实体表征同 一含义。通过将关键实体和关键实体的关联实体作为训练集,可将文本中的同 义词或近义词进行识别,进而提高模型识别的准确性同时降低数据处理的复杂 性。
[0028][0029]
s409、将h
qi0
和h
qi0
对应的所有关联实体(h
qi1
,h
qi2
,
……
,h
qik
),构建成a
qi
对应的关键实体列表h
qi
=(h
qi0
,h
qi1
,h
qi2
,
……
,h
qikq
)且基于h
qi
构建成ai对应的样本事件id的训练集。
[0030]
具体地,中除a
qi
对应的初始实体之外的其他初始实体对应的关键实体列表可以参照a
qi
对应的关键实体列表进行确定。
[0031]
具体地,在s409步骤中,将ai的所有初始实体对应的关键实体列表,构建成ai对应的样本事件id的训练集。
[0032]
s500、基于所有ai对应的样本事件id的训练集,构建成目标训练集数据。
[0033]
s600、将目标训练集数据输入至事件图谱模型进行训练,得到目标事件图谱模型;本领域技术人员知晓采用现有技术中任一事件图谱模型,在此不再赘述;能够在事件图谱模型中,同一文本不同含义的实体进行准确和快速的提取,避免将同一含义的实体进行遗漏,导致无法建立事件图谱。
[0034]
在一个具体的实施例中,在所述系统中当所述计算机程序被处理器执行时,还实现以下步骤,如图2所示:s1、获取原始事件id对应的目标实体列表d=(d1,d2,
……
,dg),dy是指原始事件id的第y个目标实体,y=1
……
g,g为原始事件id的目标实体数量。
[0035]
具体地,在s1步骤中还包括如下步骤d:s11、获取原始事件id对应的所有目标文本。
[0036]
具体地,原始事件id对应的任一目标文本与上述实例中样本文本的获取方式一致,在此不再赘述。
[0037]
s12、将原始事件id对应的所有目标文本输入至目标事件图谱模型中,原始事件id对应的所有关键实体列表。
[0038]
具体地,原始事件id对应的任一关键实体列表与上述实例中样本事件id对应的关键实体列表获取方式一致,在此不再赘述。
[0039]
s13、遍历任一原始事件id对应的关键实体列表且将原始事件id对应的关键实体列表中最大概率值对应的关键实体作为目标实体。
[0040]
具体地,将原始事件id对应的关键实体列表中关键实体的概率值与上述实例中样本事件id对应的初始实体概率值获取方式一致,在此不再赘述。
[0041]
s2、将dy与dy对应的预设阈值区域进行比对,获取dy对应的优先级cy。
[0042]
在一个具体的实施例中,在s2步骤中还通过如下步骤确定dy对应的预设阈值区域:s21、获取原始事件id对应的事件类型作为预设事件类型。
[0043]
s22、从a中获取所述预设事件类型对应的所有样本事件id作为初始事件id且构建成初始事件id列表u=(u1,u2,
……
,uf),其中,u
t
是指第t个初始事件id,t=1
……
f,f为初始事件id数量。
[0044]
s23、从a中获取u
t
对应的所有样本文本,构建成u
t
对应的目标实体列表q
t
=(q
t1
,q
t2
,
……
,q
tg
),其中,q
ty
是指u
t
中第y目标实体,g为u
t
中目标实体数量。
[0045]
具体地,s23步骤中初始事件id的目标实体列表可以参照s1步骤进行获取,在此不再赘述。
[0046]
s24、获取中间实体列表q'y=(q
1y
,q
2y
……
,q
fy
)。
[0047]
s25、根据q'y,获取py,py符合如下条件:。
[0048]
进一步地,ry符合如下条件:。
[0049]
进一步地,ey符合如下条件:。
[0050]
s25、根据py,划分成z个dy对应的预设阈值区域;可以理解为:以py为取值范围且以ry为中心点,本领域技术人员根据实际需求划分出z个取值范围作为一个预设阈值区域,并根据每一预设阈值区域对应一个预设优先级,例如对震级进行划分,可分为(0,1),[1,3),[3,4.5),[4.5,6),[6,7),[7,8),[8,+∞),需要报道震级为5级相关的事件时,只需在[4.5,6)对应的文本中进行获取,提高了事件抽取的效率。
[0051]
s3、基于cy,获取原始事件id对应的优先级c,c符合如下条件:,其中,wy是指第y个事件属性对应的初始权重。
[0052]
s4、获取原始事件id对应的报道次数t。
[0053]
s5、根据t和报道次数预设条件,确定出原始事件id对应的实际优先级c0。
[0054]
具体地,报道次数预设条件可以根据正态分布法确定划分的区域和区域对应优先级。
[0055]
s6、当c≠c0时,调整c中所有wy,得到wy对应的目标权重;本领域技术人员可知晓,调整方式可为任一现有技术,可根据实际情况选取。
[0056]
通过根据实际样本文本中的的优先级调整事件的属性权重,可以提高权重计算过程的准确性。
[0057]
在一个具体的实施例中,还包括如下步骤确定wy:根据dy,从第二数据库中获取当前时间段dy对应的权重列表w'y=(w'
y1
,w'
y2
,
……
,w'
yβ
)以及预设时间段内dy对应的权重值ε,其中,w'
yα
是指dy对应的第α个预设多元组列表的权重值,α=1
……
β;优选地,所述当前时间段为前一年的同一日期至当前日期;预设时间段为前两年的当前日期至前一年的当前日期,例如,当前日期为2021年12月21日,则当前时间段为2020年12月21日至2021年12月21日,预设时间段为2019年12月21日至2020年12月21日。
[0058]
从第三方权重平台获取dy中的每一关键词在若干个方面的基础值η;根据w'y,确定wy,wy符合如下条件:。
[0059]
s7、获取目标事件id且根据目标事件id的目标实体列表和调整后的所有w'y,得到目标事件id对应的优先级,以使得根据目标事件id对应的优先级,发送目标事件id的事件消息;能够避免事件消息延迟发送,导致用户无法第一时间知晓重要事件。
[0060]
具体地,所述目标事件id对应的事件类型与原始事件id对应的事件类型一致。
[0061]
本发明提供了一种基于知识图谱的事件信息处理系统,所述系统包括:第一数据库、第二数据库、处理器和存储有计算机程序的存储器,所述第一数据库包括:样本事件id和样本事件id对应的样本文本列表,第二数据库包括:样本事件id、样本事件id对应的事件类型和事件类型对应的预设多元组列表,当所述计算机程序被处理器执行时,实现以下步骤:从所述第一数据库中获取样本事件id对应的样本文本并根据样本文本,获取样本文本对应的多元组列表;根据所有样本文本和样本文本对应的多元组列表,获取训练集数据;将获取训练集数据输入至多元组构建模型进行训练,得到目标多元组构建模型。根据实际样本事件构建训练集并获取目标多元组构建模型提高了训练的准确性以及模型在实际应用中的适用性。通过使用目标多元组构建模型对目标事件进行权重调整。
[0062]
此外所述系统通过获取原始事件id对应的目标实体列表;将原始事件id对应的目标实体列表中任一目标实体与目标实体对应的预设阈值区域进行比对,获取目标实体对应的优先级;基于目标实体对应的优先级,获取原始事件id对应的优先级和原始事件id对应的报道次数;根据原始事件id对应的优先级、原始事件id对应的报道次数和报道次数预设条件,确定出原始事件id对应的实际优先级;当原始事件id对应的优先级与原始事件id对应的实际优先级时,调整原始事件id对应的优先级中所有初始权重,得到初始权重对应的目标权重;获取原始事件id且根据原始事件id的目标实体列表和调整后的所有目标权重,得到原始事件id对应的优先级,以使得根据原始事件id对应的优先级,发送原始事件id的事件消息;能够避免事件消息延迟发送,导致用户无法第一时间知晓重要事件。
[0063]
虽然已经通过示例对本发明的一些特定实施例进行了详细说明,但是本领域的技术人员应该理解,以上示例仅是为了进行说明,而不是为了限制本发明的范围。本领域的技术人员还应理解,可以对实施例进行多种修改而不脱离本发明的范围和精神。本发明开的范围由所附权利要求来限定。
技术特征:1.一种基于知识图谱的事件信息处理系统,其特征在于,所述系统包括:第一数据库、第二数据库、处理器和存储有计算机程序的存储器,所述第一数据库包括:样本事件id和样本事件id对应的样本文本列表,当所述计算机程序被处理器执行时,实现以下步骤:s100、从所述数据库中获取a=(a1,a2,
……
,a
m
),a
i
=(a
i1
,a
i2
,
……
,),其中,a
ij
是指第i个样本事件id对应的第j个样本文本,i=1
……
m,m为样本事件数量,j=1
……
n
i
,n
i
为第i个样本事件id对应的样本文本列表中所有样本文本数量;s200、根据a
ij
,获取a
ij
对应的初始实体列表(a
1ij
、a
2ij
,
……
,a
pij
),其中,a
qij
是指a
ij
对应的第q个初始实体,q=1
……
p,p为初始实体数量;s300、根据a
qij
,获取a
i
对应的样本事件id的中间数据集=(a
1i
,a
2i
,
……
,a
pi
),其中,a
qi
=(a
qi1
、a
qi2
、
……
, );s400、根据,获取a
i
对应的样本事件id的训练集;s500、基于所有a
i
对应的样本事件id的训练集,构建成目标训练集数据;s600、将目标训练集数据输入至事件图谱模型进行训练,得到目标事件图谱模型。2.根据权利要求1所述的基于知识图谱的事件信息处理系统,其特征在于,所述系统中还包括第二数据库包括:样本事件id、样本事件id对应的事件类型和事件类型对应的预设多元组列表。3.根据权利要求2所述的基于知识图谱的事件信息处理系统,其特征在于,在步骤s200中,还包括如下步骤:s201、获取a
ij
的触发词且根据a
ij
的触发词与预设触发词数据库中每一预设触发词进行比对;s203、根据所a
ij
的触发词与预设触发词数据库中任一预设触发词一致时,确定出b
ij
的事件类型;s205、从第二数据库中获取a
ij
的事件类型对应的预设多元组列且根据a
ij
的事件类型对应的预设多元组列表,获取a
ij
对应的多元组列表。4.根据权利要求1所述的基于知识图谱的事件信息处理系统,其特征在于,在步骤s300中,还包括如下步骤:s301、获取a
qi
=(a
qi1
、a
qi2
、
……
,);s303、遍历a
qi
,获取第q个实体数量列表b
qi
=(b
qi1
,b
qi2
,
……
,),b
qix
是指第i个样本事件id对应的第x类的第q实体数量,其中,x=1
……
s
i
,s
i
为第i个样本事件id对应的第q实体的种类数量;s305、根据b
qi
,b
qix
对应的第一概率值f
qix
,f
qix
符合如下条件:f
qix
=b
qix
/b
qi0
,其中,b
qi0
为b
qi
中最大值;s307、当f
qix
≥预设的概率阈值f0时,确定f
qix
对应的第q实体作为中间实体;s309、遍历b
q
i,获取最大实体数量b
qix
对应的实体作为关键实体且根据关键实体和关键实体的关联实体,构建成第q个样本数据列表。5.根据权利要求3所述的基于知识图谱的事件信息处理系统,其特征在于,关键实体的
关联实体是指所有中间实体中除关键实体之外的其他中间实体。6.根据权利要求1所述的基于知识图谱的事件信息处理系统,其特征在于,所述样本事件id对应的样本事件是指预设时间段内发生的事件,其中,所述预设时间段的取值范围为1~3年。7.根据权利要求1所述的基于知识图谱的事件信息处理系统,其特征在于,所有样本数据列表的确定方式一致。8.根据权利要求1所述的基于知识图谱的事件信息处理系统,其特征在于,p=3。9.根据权利要求7所述的基于知识图谱的事件信息处理系统,其特征在于,当p=3时,a
ij
对应的多元组列表(a
1ij
、a
2ij
,a
3ij
),其中,a
1ij
为第i个样本事件中第j个样本文本中第一实体,a
2ij
为第i个样本事件中第j个样本文本中第二实体,a
3ij
是指a
1ij
和a
2ij
之间关系。10.根据权利要求3所述的基于知识图谱的事件信息处理系统,其特征在于,所有样本数据列表的确定方式一致。
技术总结本发明提供了一种基于知识图谱的事件信息处理系统,所述系统包括:第一数据库、第二数据库、处理器和存储有计算机程序的存储器,第一数据库包括:样本事件ID和样本事件ID对应的样本文本列表,当计算机程序被处理器执行时,实现以下步骤:从第一数据库中获取样本事件ID对应的样本文本并根据样本文本,获取样本文本对应的多元组列表;根据所有样本文本和样本文本对应的多元组列表,获取训练集数据;将获取训练集数据输入至多元组构建模型进行训练,得到目标多元组构建模型。本发明能够根据实际样本事件构建训练集并获取目标多元组构建模型,使得准确的识别出同一实体不同描述,提高了模型的准确性和适用性。型的准确性和适用性。型的准确性和适用性。
技术研发人员:张正义 刘宸 傅晓航 常鸿宇
受保护的技术使用者:中科雨辰科技有限公司
技术研发日:2022.02.17
技术公布日:2022/7/5