本发明涉及气象预测,具体地说是一种基于gcn的农业气象灾害事件触发词抽取方法。
背景技术:
1、农业作为国民经济的基础产业,其生产活动深受各种因素的影响,其中气象灾害是影响最为严重的因素之一。因此提升农业生产的抗灾能力、减少灾害损失对保障粮食安全具有重要意义。
2、事件是一种特定的信息表示形式,描述了在特定时间、地点发生的客观事实。事件抽取作为信息抽取的子任务之一,其核心任务是从非结构化的文本中自动识别特定类型的事件及其论元,形成结构化的表示,是决策系统、知识图谱的基础。
3、目前农业气象灾害事件的信息获取与处理面临着新的挑战,随着互联网技术的飞速发展,大量的农业气象灾害信息以非结构化的形式呈现,信息量的指数级增长导致有效信息的提取效率降低;同时,大量的农业气象数据没有得到充分利用,其中蕴含的灾害事件信息没有得到有效挖掘。因此将事件抽取技术应用于农业气象领域,可以实现对灾害事件的快速识别和分析,为农业生产提供及时的预警和决策支持。
4、事件抽取任务通常包括两个子任务:事件检测与参数提取。事件检测旨在识别出触发词,并将其分类为相应的事件类型;而参数提取则侧重于识别事件论元及其所扮演的角色。
5、由于中文文本中缺乏自然的分隔符,存在着触发词边界与词边界不匹配的问题,这可能导致以触发词为核心的事件检测方法容易出现分类错误。此外,事件触发词存在一词多义的现象,不同的分词可能产生不同的语义,增加了事件抽取的复杂度。
6、因此,需要设计一种基于gcn的农业气象灾害事件触发词抽取方法,旨在探索高效、准确的事件触发词抽取方法,为农业生产提供及时的预警和决策支持,对提升农业气象灾害预警的准确性具有重要意义。
技术实现思路
1、本发明的目的是克服现有技术的不足,提供了一种基于gcn的农业气象灾害事件触发词抽取方法,旨在探索高效、准确的事件触发词抽取方法,为农业生产提供及时的预警和决策支持,对提升农业气象灾害预警的准确性具有重要意义。
2、为了达到上述目的,本发明提供一种基于gcn的农业气象灾害事件触发词抽取方法:
3、包括以下步骤:
4、s1,数据预处理:
5、s1-1,从各种数据来源收集与农业气象灾害有关的文本数据,并对文本数据进行数据清洗后去除无关信息;
6、s1-2,将清洗后的农业气象灾害文本数据进行分句处理,用于使每个句子都作为独立的处理单元;
7、s1-3,利用spacy工具进行分词操作,同时对每个词进行词性标注;
8、s1-4,利用spacy工具进行依存句法分析,为每个句子生成一个依存句法树,展示词语之间的依存关系;
9、s2,句子编码模块:
10、s2-1,对于给定的句子x=(x1,x2,…,xi,…,xn)其中xi表示第i个字,获取给定的句子的字编码的字向量、位置向量和段向量;
11、字向量表征每个字在词汇表中的索引;
12、段向量用于区分不同句子之间的字;
13、位置向量用于表示模型在处理输入时需要关注哪些部分;
14、s2-2,将字编码输入到预训练的bert模型中进行处理,将句子编码为语义丰富的向量表示b;
15、s3,中间词向量生成模块:
16、s3-1,采用图卷积网络gcn进行事件触发词抽取,用于捕捉文本中的复杂依赖关系和上下文信息;
17、s3-2,利用依存句法分析构建句子的句法图,用于构建图卷积网络,具体为:
18、s3-2-1,使用spacy工具对句子进行分词,用于获取文本的语法情况;得到词集合w=(w1,w2,…,wi,…,wm),获取每个词的词长,词长表示每个词包含的字符数,通过词长构建词长掩码矩阵m,所述m为一个m×n的矩阵,其中m为句子的词长,n为句子的字长。矩阵m中的元素mi,j表示第j个字是否属于第i个词,若是属于,则对应元素值为mi,j=1,反之,则mi,j=0;
19、s3-2-2,将词长掩码矩阵m与bert输出的字嵌入b相乘后取平均,将字符级别的嵌入向量转换为词级别的嵌入向量;
20、s3-2-3,使用spacy工具把词性标签映射为嵌入向量pos,将词性嵌入与词嵌入拼接起来形成新的词嵌入;
21、s4,图卷积网络模块:
22、s4-1,定义依存句法图g=(v,e),其中v=(v1,v2,…,vi,…,vm)包含了m个节点,每个节点对应一个词,e表示每个节点间边的集合;
23、s4-2,若属于v的两个节点vi与vj之间有依存关系,则存在边(vi,vj)为节点的正向句法边;
24、s4-3,添加反向句法边(vj,vi),用于保证信息的反向传输,并在此基础上为每个节点添加一个自环边(vi,vi)引入节点自身的信息;
25、s4-4,将中间词向量生成模块获取的词嵌入作为节点,由依存句法分析获取的正向句法边、反向句法边、自环边为依据构建邻接矩阵a;若节点vi、vj存在依存关系,则aij=1输入到gcn模型中;
26、s4-5,图卷积网络的计算公式为:
27、
28、其中,h(l+1)表示l+1层的节点特征矩阵,a表示邻接矩阵,是度矩阵,σ为激活函数,h(l)表示l层的节点特征矩阵,w(l)表示第l层的权重矩阵;图卷积网络通过聚合相邻节点的特征来更新节点的表示,进一步获取语义特征;
29、s5,双向长短时记忆网络模块:
30、在gcn模型获取词嵌入后,利用词长掩码矩阵对词嵌入进行处理生成字嵌入,并与bert模型的输出b进行拼接获取字的语义信息,将其输入到双向长短时记忆网络bilstm层中进行序列建模;
31、bilstm网络捕捉句子的长距离依赖,bilstm网络将字xi编码为:
32、
33、其中,xt表示时间步t的输入特征,表示正向lstm在时间步t的隐藏状态,
34、表示反向lstm在时间步t的隐藏状态。
35、经过bilstm编码后,字xi的编码为即将拼接起来,得到新的编码向量
36、s6,触发词识别及分类:
37、s6-1,将bilstm模型的输出传入中间线性层进行线性变换,将触发词识别转换为分类任务,再经由sigmoid激活函数将线性层的输出转换为0~1的概率值p;
38、s6-2,采用指针网络的方法进行触发词解码,对于每个token,分别计算其在每个事件类型开始位置和结束位置的概率值,并设定触发词开始索引与结束索引的阈值,当p大于阈值则标记为候选触发词的开始或结束位置,并将p最大的候选触发词确定为最终触发词。
39、本发明同现有技术相比,具备以下有益效果:
40、本发明利用大模型bert生成丰富语义信息字向量,通过构建词长掩码矩阵将bert输出的字嵌入转换为词嵌入,从而高效地实现字嵌入向词嵌入的转换,降低图构建的复杂度,提升事件抽取效率。
41、同时本发明利用gcn在建模复杂关系和语义信息方面的优势,解决中文事件抽取中触发词存在的不匹配与一词多义的问题,提升了事件抽取的准确率。
1.一种基于gcn的农业气象灾害事件触发词抽取方法,其特征在于,包括以下步骤: