基于自然语言处理和深度学习算法的知识抽取方法

allin2025-10-06  30


本发明属于计算机自然语言处理,具体涉及一种基于自然语言处理和深度学习算法的知识抽取方法。


背景技术:

1、耕地“非粮化”一直是粮食安全不可回避的重大问题。为了防止耕地“非粮化”,牢牢守住国家粮食安全的生命线,构建耕地数量、质量、生态“三位一体”的保护监管体系,国家和地方自然资源部门进行了统一调查监测,并产生和积累了海量的调查监测数据。然而,这些数据之间彼此孤立,未形成统一管理和系统整合,亦无法融合地理和专业知识进行推理从而产生高价值的知识性输出,使政府在面临海量数据时,导致了知识难求的尴尬局面,从而使决策者在应对“非粮化”问题时难以做出最佳决策和判断。

2、近年来,随着知识图谱技术的崭露头角,为应对“非粮化”问题提供了新的途径和思考方向,可以更有效地处理和整合海量的耕地“非粮化”调查监测数据,形成高价值的耕地“非粮化”知识输出。现阶段,针对构建知识图谱的关键技术知识抽取领域,长短期记忆网络(long short-term memory,lstm)是一种常用方法。然而,无论是传统的lstm模型还是改进的双向长短期记忆网络模型(bidirectional long short-term memory,bilstm),在处理句子时都存在一定的局限性,或无法利用后向信息进行建模,或无法处理复杂的语义关系和长期依赖性问题。


技术实现思路

1、本发明的目的在于提出一种基于自然语言处理和深度学习算法的知识抽取方法,以解决上述背景技术中提出的现有知识抽取的问题,该方法结合了双向长短期记忆网络模型(bilstm)和预训练语言模型roberta(robustly optimized bert approach)的优势,并加入了条件随机场crf(conditional random field,crf),能准确高效地提取耕地“非粮化”领域包含实体、关系与实体间的连接信息的三元组。

2、为实现上述目的,本发明提供如下技术方案:

3、一种基于自然语言处理和深度学习算法的知识抽取方法,包含以下步骤:

4、步骤一,获取某地区耕地的监测成果数据,采用斯坦福七步法构建耕地“非粮化”监测成果知识本体模型;

5、步骤二,提取包含实体、关系与实体间的连接信息的三元组结构,完成耕地“非粮化”监测成果非结构化数据的知识抽取,所述知识抽取具体包括实体识别和关系抽取,以深度学习模型作为核心,采用pipeline技术实施所述知识抽取任务,过程中将所述实体识别与所述关系提取两个过程独立开来。

6、进一步地,所述知识本体模型包含十大概念类别,分别是耕地、非粮化、非粮化作物、调查监测成果、调查监测方法、调查监测区域、行政区、耕地变化类型、永久基本农田和耕地保护目标范围;所述概念类别间存在相应的关系类型、关系参数,以及关系属性,其中,所述关系类型分别是属于、位于、种植、出现、耕地流出类型、使用、涉及、包含;利用protégé工具构建耕地“非粮化”领域的知识本体模型。

7、进一步地,所述实体识别采用roberta-bilstm-crf模型,在bilstm网络架构中,通过对正向隐层状态与反向隐层状态的整合,能够获得所述bilstm网络中的综合隐层状态ht,其计算公式如下:

8、

9、在crf层引入损失函数,所述损失函数根据实际路径得分与全体可能路径得分之间的关系进行构建,假设每一可能路劲的得分为s,总路径数量为n,则总路径得分p的计算方法如下式:

10、

11、其中,e代表自然对数的底数。由于实际路径在所有路径中是唯一的,故所述损失函数按照下式定义:

12、

13、对左右两端去对数即可得到所述损失函数的定义式如下所示:

14、

15、最小化损失函数如下式所示:

16、

17、进一步地,所述关系抽取采用预训练的中文版本bert模型,选择交叉熵损失函数对模型进行优化,在每一全连接层前均嵌入dropout层以进行规则化处理。

18、进一步地,在进行关系提取任务时,采用的序列输入构建方式为,将研究对象的每个句子作为输入序列进行处理,在序列的开端插入特殊符号[cls],用以标示序列起始,第一个实体的前后边界分别用“#”号标注,第二个实体的前后边界则使用“*”号标注。

19、进一步地,选择字符级的序列标记作为文本输入。

20、本发明具有以下有益效果:

21、针对耕地“非粮化”相关资源具有数据量大、语义关系复杂等特点,传统技术方法缺乏根据需求从海量调查监测数据中自动整合相关信息的能力,本发明构建roberta-bilstm-crf实体抽取模型和bert关系抽取模型实现了对耕地“非粮化”数据的知识抽取,该方法结合了双向长短期记忆网络模型(bilstm)和预训练语言模型roberta(robustlyoptimized bert approach)的优势,并加入了条件随机场crf(conditional randomfield,crf),能准确高效地提取耕地“非粮化”领域包含实体、关系与实体间的连接信息的三元组。



技术特征:

1.一种基于自然语言处理和深度学习算法的知识抽取方法,其特征在于,包含以下步骤:

2.根据权利要求1所述的一种基于自然语言处理和深度学习算法的知识抽取方法,其特征在于,所述知识本体模型包含十大概念类别,分别是耕地、非粮化、非粮化作物、调查监测成果、调查监测方法、调查监测区域、行政区、耕地变化类型、永久基本农田和耕地保护目标范围;所述概念类别间存在相应的关系类型、关系参数,以及关系属性,其中,所述关系类型分别是属于、位于、种植、出现、耕地流出类型、使用、涉及、包含;利用protégé工具构建耕地“非粮化”领域的知识本体模型。

3.根据权利要求2所述的一种基于自然语言处理和深度学习算法的知识抽取方法,其特征在于,所述实体识别采用roberta-bilstm-crf模型,所述roberta-bilstm-crf模型中的bilstm为双向长短期记忆网络模型,在所述bilstm网络架构中,通过对正向隐层状态与反向隐层状态的整合,能够获得所述bilstm网络中的综合隐层状态ht,其计算公式如下:

4.根据权利要求2所述的一种基于自然语言处理和深度学习算法的知识抽取方法,其特征在于,所述关系抽取采用预训练的中文版本bert模型,选择交叉熵损失函数对模型进行优化,在每一全连接层前均嵌入dropout层以进行规则化处理。

5.根据权利要求4所述的一种基于自然语言处理和深度学习算法的知识抽取方法,其特征在于,在进行关系提取任务时,采用的序列输入构建方式为,将研究对象的每个句子作为输入序列进行处理,在序列的开端插入特殊符号[cls],用以标示序列起始,第一个实体的前后边界分别用“#”号标注,第二个实体的前后边界则使用“*”号标注。

6.根据权利要求3至5任一项所述的一种基于自然语言处理和深度学习算法的知识抽取方法,其特征在于,选择字符级的序列标记作为文本输入。


技术总结
本发明提供一种基于自然语言处理和深度学习算法的知识抽取方法,在获取某地区耕地的监测成果数据的基础上,采用斯坦福七步法构建耕地“非粮化”监测成果知识本体模型;进而以深度学习模型作为核心,采用Pipeline技术实施所述知识抽取任务,提取包含实体、关系与实体间的连接信息的三元组结构,完成耕地“非粮化”监测成果非结构化数据的知识抽取。该方法结合了双向长短期记忆网络模型和预训练语言模型RoBERTa的优势,并加入了条件随机场CRF,能准确高效地提取耕地“非粮化”领域包含实体、关系与实体间的连接信息的三元组。

技术研发人员:王勇,郑晓莉,董宽林,张鹏,慎利
受保护的技术使用者:西南交通大学
技术研发日:
技术公布日:2024/10/31
转载请注明原文地址: https://www.8miu.com/read-24034.html

最新回复(0)