一种基于深度学习的格萨尔藏文命名实体识别方法

allin2025-12-02  4


本发明涉及格萨尔藏文文本处理,具体是指一种基于深度学习的格萨尔藏文命名实体识别方法。


背景技术:

1、人类社会从信息化时代迈向智能化时代的今天,基于深度学习的自然语言处理技术成为人工智能领域研究的重要目标之一。我国通用语言汉语自然语言处理技术已取得了很多创新性成果,为人工智能的发展做出了重要的贡献,使汉语成为各种智能系统的桥梁。少数民族文化造就了中华文化的多样性,《格萨尔》与《玛纳斯》《江格尔》是著名的古典民族史诗。

2、格萨尔藏文文本大多数以非结构化,甚至是非数字化的形式存在,因而伴随着存储技术以及互联网技术的不断发展,传统的格萨尔纸质文献已然不足以应对大数据时代的到来,近年来随着人工智能的发展,为基于深度学习的格萨尔藏文知识图谱研究奠定了坚实的基础,也使其变为可能。智能化的时代,用先进的技术研究格萨尔势在必行。

3、面向人工智能的格萨尔研究成果极少,基于深度学习的格萨尔藏文知识图谱构建技术几乎没有研究,这将制约格萨尔学的科学研究、数字化保护和传承发扬,目前还没有针对格萨尔藏文命名实体识别相关的研究报道。所以,如何利用深度学习技术在格萨尔藏文文本中自动识别命名实体是本项目所关注的问题。

4、格萨尔藏文文本中有大量的人名、地名、机构名等命名实体,并且用词比较自由,词长没有限制,实体结尾经常出现特征词,不同词性的词经常出现在命名实体的首词或中间词位置。而且,格萨尔藏文命名实体中存在兼类词和格助词现象,另外,格萨尔藏文命名实体信息中包含普通词语,这种实体有的以单个音节构成,有的以两个或三个音节构成,增加了识别难度,比如地名词和分别表示“白螺”和“藏羚羊”意义,这种兼类词是影响藏文实体识别性能的重要因素。格助词和接续词是组成藏文句子的主要单位,格助词链接词与词,表达完整的意义,但在实体信息中包含很多的格助词,比如:等,这些现象导致格萨尔藏文命名实体无法用简单的crf进行研究。


技术实现思路

1、本发明要解决的技术问题是,克服以上技术缺陷,提供一种方便使用,可以有效针对格萨尔藏文命名实体识别使用的一种基于深度学习的格萨尔藏文命名实体识别方法。

2、为解决上述技术问题,本发明提供的技术方案为:一种基于深度学习的格萨尔藏文命名实体识别方法,包括以下步骤:对格萨尔藏文实体信息特征预处理,提取格萨尔藏文的实体信息特征和藏文语法特征,构建格萨尔藏文命名实体识别模型,使用格萨尔藏文命名实体识别模型对格萨尔藏文的实体信息特征和藏文语法特征训练;

3、其中格萨尔藏文命名实体识别模型基于t-bert模型、bilstm模型、crf模型构建,格萨尔藏文命名实体识别模型包括句子输入层、输入嵌入层、特征抽取层、类别分类层和输出层。

4、优选的,所述格萨尔藏文实体信息特征预处理包括拼写检查、句子分割和分词标注。

5、优选的,所述t-bert模型训练的词向量和位置向量输入到特征抽取层,经过bilstm提取藏文文本特征,输出结果,最后通过crf模型进行修正和过滤,输出最终的结果。

6、优选的,所述t-bert模型包括基于格萨尔藏文的实体信息特征和藏文语法特征对整个实体或短语进行mask;

7、所述bilstm模型捕捉长距离的上下文信息,进行藏文语法特征的二次表示和提取,bilstm模型的输入为t-bert输出的词向量;

8、bilstm模型输出预测后crf模型基于已经预测的标签,输出全局最优的标注序列。

9、优选的,所述输入层包括句子序列与标签序列,t-bert模型生成每个词的上下文嵌入表示,bilstm层对嵌入表示进行双向序列建模,生成双向特征表示,所述bilstm的输出映射到标签空间,生成标签得分,crf模型通过考虑标签之间的依赖关系进行全局解码,输出最优标签序列。

10、本发明与现有技术相比的优点在于:现有的藏文命名实体识别方法没有融入藏文地名特征,或者没有深入分析藏文命名实体用字特征并且未能融入模型,导致藏文命名实体识别技术不能取得突破性进展,本发明在基于crf的藏文地名识别技术的基础上,结合格萨尔藏文命名实体的语法特征,首次将融合藏语知识的t-bert+bilstm+crf的深度学习模型应用到格萨尔藏文命名实体识别研究中,并在模型中融入藏文实体信息和藏文语法特征保证输出效果。



技术特征:

1.一种基于深度学习的格萨尔藏文命名实体识别方法,其特征在于:包括以下步骤:对格萨尔藏文实体信息特征预处理,提取格萨尔藏文的实体信息特征和藏文语法特征,构建格萨尔藏文命名实体识别模型,使用格萨尔藏文命名实体识别模型对格萨尔藏文的实体信息特征和藏文语法特征训练;

2.根据权利要求1所述的一种基于深度学习的格萨尔藏文命名实体识别方法,其特征在于:所述格萨尔藏文实体信息特征预处理包括拼写检查、句子分割和分词标注。

3.根据权利要求2所述的一种基于深度学习的格萨尔藏文命名实体识别方法,其特征在于:所述t-bert模型训练的词向量和位置向量输入到特征抽取层,经过bilstm提取藏文文本特征,输出结果,最后通过crf模型进行修正和过滤,输出最终的结果。

4.根据权利要求3所述的一种基于深度学习的格萨尔藏文命名实体识别方法,其特征在于:所述t-bert模型包括基于格萨尔藏文的实体信息特征和藏文语法特征对整个实体或短语进行mask;

5.根据权利要求3所述的一种基于深度学习的格萨尔藏文命名实体识别方法,其特征在于:所述输入层包括句子序列与标签序列,t-bert模型生成每个词的上下文嵌入表示,bilstm层对嵌入表示进行双向序列建模,生成双向特征表示,所述bilstm的输出映射到标签空间,生成标签得分,crf模型通过考虑标签之间的依赖关系进行全局解码,输出最优标签序列。


技术总结
本发明公开了一种基于深度学习的格萨尔藏文命名实体识别方法,包括以下步骤:对格萨尔藏文实体信息特征预处理,提取格萨尔藏文的实体信息特征和藏文语法特征,构建格萨尔藏文命名实体识别模型,使用格萨尔藏文命名实体识别模型对格萨尔藏文的实体信息特征和藏文语法特征训练;其中格萨尔藏文命名实体识别模型基于T‑BERT模型、BiLSTM模型、CRF模型构建,格萨尔藏文命名实体识别模型包括句子输入层、输入嵌入层、特征抽取层、类别分类层和输出层。本发明与现有技术相比的优点在于:提供一种方便使用,可以有效针对格萨尔藏文命名实体识别使用的一种基于深度学习的格萨尔藏文命名实体识别方法。

技术研发人员:头旦才让,仁青东主,班玛宝,尼玛扎西
受保护的技术使用者:青海师范大学
技术研发日:
技术公布日:2024/10/31
转载请注明原文地址: https://www.8miu.com/read-25029.html

最新回复(0)