一种端到端的实体链接模型训练方法、实体链接方法及装置

allin2023-01-04  146



1.本发明涉及自然语言处理技术领域,尤其涉及一种端到端的实体链接模型训练方法、 实体链接方法及装置。


背景技术:

2.由于自然语言表达的多样性,导致存在一词多义和多词同义的问题,实体链接技术正 是用于解决信息歧义问题的一种有效方法。目前实体链接的方法主要有两种:一种是实体 识别和实体消歧的两阶段方法进行实体链接。二是使用深度神经网络进行端到端的实体链 接。第一种技术将实体链接分为两个独立的阶段,第一阶段的结果作为第二阶段的输入; 第二种技术应用双向lstm网络(双向长短时记忆网络)得到所有可能的指称,然后和 所有候选实体计算相似度,相似度高于某个阈值即为预测结果。但是上述方法或多或少都 存在各自问题,第一种方法将实体链接任务分为两个独立的阶段,没有利用两阶段之间的 依赖关系,也使得第一阶段的误差不可修正地传递到第二阶段。而双向lstm网络相比 预训练模型表达特征的能力有限,且十分依赖前任工作的成果。因此,亟需一种新的实体 链接方法。


技术实现要素:

3.鉴于此,本发明实施例提供了一种端到端的实体链接模型训练方法、实体链接方法及 装置,以消除或改善现有技术中存在的一个或更多个缺陷,解决现有技术中实体识别和实 体消歧两阶段的误差相对独立无法传导修成导致的精确度不足的问题。
4.本发明的技术方案如下:
5.一方面,本发明提供一种端到端的实体链接模型训练方法,包括:
6.获取训练样本集,所述训练样本集中包含多个样本,每个样本为包含一个句子或多个 连续句子的段落,标记样本中的所有实体以及对应的描述信息作为标签;
7.获取预设知识库,所述预设知识库中记载有多个已知实体的描述信息,所述已知实体 包括一词多义以及多词同义的多种关系;
8.获取初始实体链接模型,所述初始实体链接模型包括第一bert(bidirectional encoder representations from transformer)模型、第二bert模型和global pointer层;所述第一 bert模型与所述global pointer层连接用于执行指称识别,获取每个样本中的句子或段 落中的所有预测实体;所述第一bert模型与所述第二bert模型连接用于对所有预测实 体逐一进行实体消歧,其中,对于一指定预测实体,将第一bert模型输出的全部作为第 一向量表示,将所述第一向量表示中与所述指定预测实体对应的部分作为实体向量表示, 将所述实体向量表示与所述第一向量表示加权求和得到整体向量表示;根据所述指定预测 实体检索所述预设知识库,找到与所述指定预测实体含义相同的一个正例以及含义不同的 两个负例,所述第二bert模型对所述指定预测实体对应的正例及负例的描述信息分别进 行向量表示操作得到对应的第二向量表示;将所述整体向量表示分别与所述指
定预测实体 对应的正例及负例的第二向量表示连接,并输入全连接层用于评分判断是否同义;
9.采用所述训练样本集对所述初始实体链接模型进行训练,其中,每个样本中的所有预 测实体逐一与各预测实体对应的所述预设知识库中的正例与负例进行实体消歧,计算联合 损失函数并反向传播,整体调节所述第一bert模型、所述第二bert模型和所述globalpointer层的参数,得到目标实体链接模型。
10.在一些实施例中,所述预设知识库对所述已知实体配置存在一词多义或多词同义关系 的候选词。
11.在一些实施例中,采用所述训练样本集对所述初始实体链接模型进行训练中,学习率 设置为2e-5,并采用adam算法进行梯度下降。
12.在一些实施例中,所述联合损失函数loss的计算式为:
13.loss=λloss
md
+(1-λ)loss
ed

14.其中,loss
md
为所述初始实体链接模型进行指称识别的损失,loss
ed
为所述初始实体 链接模型进行实体消歧的损失,λ为权重系数,0《λ《1。
15.在一些实施例中,loss
md
以及loss
ed
均采用交叉熵损失函数,λ为0.1。
16.在一些实施例中,将所述实体向量表示与所述第一向量表示加权求和得到整体向量表 示,所述实体向量表示的权重比例为0.7,所述第一向量表示的权重比例为0.3。
17.另一方面,本发明还提供一种端到端的实体链接方法,包括:
18.获取待处理语料以及预设知识库,所述预设知识库中记载有多个已知实体的描述信息, 所述已知实体包括一词多义以及多词同义的多种关系;
19.将所述待处理语料输入至上述端到端的实体链接模型训练方法中得到的目标实体链 接模型,由所述目标实体链接模型中依次连接的第一bert模型和global pointer层执行 指称识别,对识别得到的实体证逐一查询预设知识库,获取各实体存在一词多义关系的多 个候选词,由所述目标实体链接模型中的所述第一bert模型与第二bert模型对所有实 体逐一进行实体消歧,其中,对于一指定实体,将第一bert模型输出的全部作为第一向 量表示,将所述第一向量表示中与所述指定实体对应的部分作为实体向量表示,将所述实 体向量表示与所述第一向量表示加权求和得到整体向量表示;所述第二bert模型对所述 指定实体对应的多个候选词的描述信息分别进行嵌入操作得到对应的第二向量表示,将所 述整体向量表示分别与所述指定实体对应的候选词的第二向量表示连接,并输入全连接层 用于评分判断是否同义以消除歧义;
20.输出所述目标实体链接模型识别得到的所述待处理语料中的多个实体以及所述预设 知识库中与各实体对应的描述信息。
21.在一些实施例中,所述预设知识库中对各已知实体中包含一词多义的多个描述信息分 别进行编码标记,并对所述目标实体链接模型输出的实体标记相应描述信息的编码。
22.另一方面,本发明还提供一种电子设备,包括存储器、处理器及存储在存储器上并可 在处理器上运行的计算机程序,所述处理器执行上述方法的步骤。
23.另一方面,本发明还提供一种计算机可读存储介质,其上存储有计算机程序,该程序 被处理器执行时实现上述方法的步骤。
24.本发明的有益效果至少是:
25.本发明所述端到端的实体链接模型训练方法、实体链接方法及装置中,构建包含第一 bert模型、第二bert模型和global pointer层的初始实体链接模型,基于第一bert 模型和global pointer层进行指称识别,基于第一bert模型和第二bert模型执行实体 消歧。在模型的训练过程中,将指称识别和实体消歧两部分的损失函数进行联合,同时对 初始实体链接模型用于执行指称识别和实体消歧的两部分参数进行反向传播调参,有效传 递调节两部分误差,使其相互依赖,提升整体效果。在实体消歧的过程中,引入预设知识 库作为外部知识,能够极大提升消歧效果。
26.本发明的附加优点、目的,以及特征将在下面的描述中将部分地加以阐述,且将对于 本领域普通技术人员在研究下文后部分地变得明显,或者可以根据本发明的实践而获知。 本发明的目的和其它优点可以通过在书面说明及其权利要求书以及附图中具体指出的结 构实现到并获得。
27.本领域技术人员将会理解的是,能够用本发明实现的目的和优点不限于以上具体所述, 并且根据以下详细说明将更清楚地理解本发明能够实现的上述和其他目的。
附图说明
28.此处所说明的附图用来提供对本发明的进一步理解,构成本技术的一部分,并不构成 对本发明的限定。在附图中:
29.图1为本发明一实施例所述端到端的实体链接模型训练方法中初始实体链接模型的 结构示意图;
30.图2为本发明另一实施例所述端到端的实体链接模型训练方法中初始实体链接模型 训练流程示意图;
31.图3为本发明另一实施例所述端到端的实体链接模型训练方法中初始实体链接模型 测试流程示意图;
32.图4为本发明另一实施例所述端到端的实体链接模型训练方法中初始实体链接模型 测试流程示意图。
具体实施方式
33.为使本发明的目的、技术方案和优点更加清楚明白,下面结合实施方式和附图,对本 发明做进一步详细说明。在此,本发明的示意性实施方式及其说明用于解释本发明,但并 不作为对本发明的限定。
34.在此,还需要说明的是,为了避免因不必要的细节而模糊了本发明,在附图中仅仅示 出了与根据本发明的方案密切相关的结构和/或处理步骤,而省略了与本发明关系不大的 其他细节。
35.应该强调,术语“包括/包含”在本文使用时指特征、要素、步骤或组件的存在,但 并不排除一个或更多个其它特征、要素、步骤或组件的存在或附加。
36.在此,还需要说明的是,如果没有特殊说明,术语“连接”在本文不仅可以指直接连 接,也可以表示存在中间物的间接连接。
37.需要预先说明的是,实体链接(entity linking)就是将一段文本中的某些字符串映射 到知识库中对应的实体上。在很多时候,存在同名异实体或者同实体异名的现象,因
此这 个映射过程需要进行消歧,比如对于文本“我正在读《哈利波特》”,其中的“《哈利波特》
”ꢀ
应指的是“《哈利波特》(图书)”这一实体,而不是“《哈利波特》系列电影”这一实体。 当前的实体链接一般已经识别出实体名称的范围(一般称作mention),需要做的工作主 要是实体(称作entity)的消歧。也有一些工作同时做实体识别和实体消歧,变成了一个 端到端的任务。
38.现有技术中,实体链接模型大都采用独立两阶段的方法,先进行指称识别再进行,这 会导致丢失两阶段之间的依赖,并且会产生不可逆的误差传递问题,指称识别阶段的误差 会传到实体消歧阶段,并且不可调节。本发明基于预训练模型进行端到端中文实体链接, 通过设计端到端的预训练模型将指称识别和实体消歧两个阶段联合训练,充分利用两阶段 之间的联系和依赖,同时优化两个阶段的结果,使得两阶段的信息有效地相互融合,实验 证明通过使用端到端的方法,指称识别和实体链接的效果都得到提升。
39.具体的,本发明提供一种端到端的实体链接模型训练方法,参照图1,包括步骤 s101~s104:
40.步骤s101:获取训练样本集,训练样本集中包含多个样本,每个样本为包含一个句 子或多个连续句子的段落,标记样本中的所有实体以及对应的描述信息作为标签。
41.步骤s102:获取预设知识库,预设知识库中记载有多个已知实体的描述信息,已知 实体包括一词多义以及多词同义的多种关系。
42.步骤s103:获取初始实体链接模型,初始实体链接模型包括第一bert模型、第二 bert模型和global pointer层;第一bert模型与global pointer层连接用于执行指称识 别,获取每个样本中的句子或段落中的所有预测实体;第一bert模型与第二bert模型 连接用于对所有预测实体逐一进行实体消歧,其中,对于一指定预测实体,将第一bert 模型输出的全部作为第一向量表示,将第一向量表示中与指定预测实体对应的部分作为实 体向量表示,将实体向量表示与第一向量表示加权求和得到整体向量表示;根据指定预测 实体检索预设知识库,找到与指定预测实体含义相同的一个正例以及含义不同的两个负例, 第二bert模型对指定预测实体对应的正例及负例的描述信息分别进行向量表示操作得 到对应的第二向量表示;将整体向量表示分别与指定预测实体对应的正例及负例的第二向 量表示连接,并输入全连接层用于评分判断是否同义。
43.步骤s104:采用训练样本集对初始实体链接模型进行训练,其中,每个样本中的所 有预测实体逐一与各预测实体对应的预设知识库中的正例与负例进行实体消歧,计算联合 损失函数并反向传播,整体调节第一bert模型、第二bert模型和global pointer层的 参数,得到目标实体链接模型。
44.在步骤s101中,训练样本集中,每个样本是经过人工标注的语料,在一些实施例中, 可以直接采用现有的语料构建数据库,也可以针对目标类别的语料重新标注构建样本。具 体的,对每个样本中的命名实体进行标注,标注应当至少包含各实体的位置以及描述信息。 进一步的,描述信息可以按照预设的规则进行表示,也可以直接链接在预设知识库中对应 的已知实体上,并通过编码进行标记。
45.在步骤s102中,预设知识库用于记载多个语料的结构化信息,对于每个语料中的已 知实体,配置有对应的描述信息。进一步的,预设知识库中的多个已知实体之间存在一词 多义以及多词同义的关系。在一些实施例中,所述预设知识库对所述已知实体配置存在
一 词多义或多词同义关系的候选词。对于每一个已知实体,将与其存一词多义以及多词同义 关系的词语作为候选词构建查询子集,用于提高检索速度。另外,对于同一个已知实体的 多个描述信息以及具有多个含义的相同的词分别编码进行标记。步骤s101中对样本中各 实体的编码标记,应当按照预设知识库中对相应已知实体的标记保持一致。
46.在步骤s103中,本实施例构建了融合指称识别和实体消歧两部分的初始实体链接模 型,参照图1所示的结构。初始实体链接模型包括第一bert模型、第二bert模型和 global pointer层;其中,bert模型的全称是:bidirectional encoder representations fromtransformer,bert模型的目标是利用大规模无标注语料训练、获得文本的包含丰富语义 信息的文本的语义表示。global pointer层利用全局归一化的思路来进行命名实体识别 (ner),可以无差别地识别嵌套实体和非嵌套实体。相应的,样本中的语料输入第一 bert模型或第二bert模型的形式以及输出形式为通用的bert模型的输入输出形式。
47.具体的,参照图2,在本实施例中,第一bert模型与global pointer层进行连接用 于执行指称识别任务,而第一bert模型在指称识别任务和实体消歧任务中是共用的。在 训练过程中,初始实体链接模型的指称识别部分得到预测实体后,在预设知识库中逐一检 索预测实体,并获取每个预测实体对应的一个正例和两个负例。实际训练过程中,每个样 本中的实体均标记了其在预设知识库中对应已知实体和相应含义描述信息的编码。与预测 实体词相同且含义相同的已知实体为正例,与预测实体词相同但含义不同的已知实体为负 例。
48.对于实体消歧部分训练过程中,每一个样本中每一个预测实体均选取一个正例和两个 负例,分别进行训练,所以一个样本的预测实体对应三组数据用于训练。
49.在一些实施例中,将实体向量表示与第一向量表示加权求和得到整体向量表示,实体 向量表示的权重比例为0.7,所述第一向量表示的权重比例为0.3。
50.在步骤s104中,采用训练样本集对前述的初始实体链接模型进行训练,并在每一次 训练迭代过程中,利用初始实体链接模型中指称识别和实体消歧两部分的损失构建联合损 失,并反向传播,同时对指称识别和实体消歧两部分模型参数进行调节。
51.在一些实施例中,联合损失函数loss的计算式为:
52.loss=λloss
md
+(1-λ)loss
ed

ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(1)
53.其中,loss
md
为初始实体链接模型进行指称识别的损失,loss
ed
为初始实体链接模型 进行实体消歧的损失,λ为权重系数,0《λ《1。在一些实施例中,loss
md
以及loss
ed
均 采用交叉熵损失函数,λ为0.1。
54.在一些实施例中,采用训练样本集对初始实体链接模型进行训练中,学习率设置为 2e-5,并采用adam算法进行梯度下降。
55.通过使用本实施例提出的模型,能够有效地解决两阶段存在的误差传递和依赖缺失问 题。指称识别模型和实体消歧模型共同训练,指称识别阶段的误差可以在训练过程中被优 化,不会进一步传导到实体消歧阶段降低整体效果。通过利用两个阶段之间的依赖关系, 实体消歧模型的候选实体描述以及知识库信息为指称识别模型引入外部知识,对指称识别 阶段的效果带来很大的提升。通过使用该模型,指称识别和实体消歧的f1值都得到提升。
56.另一方面,本发明还提供一种端到端的实体链接方法,包括步骤s201~s203:
57.步骤s201:获取待处理语料以及预设知识库,预设知识库中记载有多个已知实体的 描述信息,已知实体包括一词多义以及多词同义的多种关系。
58.步骤s202:将待处理语料输入至上述步骤s101~s104所述端到端的实体链接模型训 练方法中得到的目标实体链接模型,由目标实体链接模型中依次连接的第一bert模型和 global pointer层执行指称识别,对识别得到的实体证逐一查询预设知识库,获取各实体 存在一词多义关系的多个候选词,由目标实体链接模型中的第一bert模型与第二bert 模型对所有实体逐一进行实体消歧,其中,对于一指定实体,将第一bert模型输出的全 部作为第一向量表示,将第一向量表示中与指定实体对应的部分作为实体向量表示,将实 体向量表示与第一向量表示加权求和得到整体向量表示;第二bert模型对指定实体对应 的多个候选词的描述信息分别进行嵌入操作得到对应的第二向量表示,将整体向量表示分 别与指定实体对应的候选词的第二向量表示连接,并输入全连接层用于评分判断是否同义 以消除歧义。
59.步骤s203:输出目标实体链接模型识别得到的待处理语料中的多个实体以及预设知 识库中与各实体对应的描述信息。
60.具体的,步骤s201中,基于步骤s101~s104训练得到的目标实体链接模型在进行指 称识别和实体消歧的过程中需要跟预设的知识库进行配合使用。所以本发明在进行实体链 接时,首先要获取待处理语料以及预设知识库,这里所采用的预设知识库应当与上文步骤 s102中用来训练模型时采用的形式一致,内容上可以存在差异。具体的,步骤s201中采 用的预设知识库,可以对每个已知实体都分别配置与之存在一词多义或多词同义关系的多 个候选词,并标记以提高检索效率。在一些实施例中,预设知识库中对各已知实体中包含 一词多义的多个描述信息分别进行编码标记,并对目标实体链接模型输出的实体标记相应 描述信息的编码。
61.在步骤s202中,将待处理语料输入步骤s101~s104所述端到端的实体链接模型训练 方法中得到的目标实体链接模型,其中,用于指称识别的部分首先获取待处理语料中的实 体,在通过实体消歧部分对识别出来的实体进行消歧处理。消歧过程中,借助预设知识库 中的已知实体进行消歧处理。
62.在步骤s203中,由目标实体链接模型识别并输出待处理语料中的实体,并输出消歧 处理后各实体对应的描述信息。具体的,也即输出识别得到的各实体对应预设知识库中的 实体链接关系,可以采用编码的形式进行标记。
63.另一方面,本发明还提供一种电子设备,包括存储器、处理器及存储在存储器上并可 在处理器上运行的计算机程序,所述处理器执行上述方法的步骤。
64.另一方面,本发明还提供一种计算机可读存储介质,其上存储有计算机程序,该程序 被处理器执行时实现上述方法的步骤。
65.下面结合以具体实施例对本发明进行说明:
66.本实施例提供一种用于端到端的实体链接模型,其工作过程分为如下几步:
67.1)对输入句子进行指称识别,由于输入是一整句话,所以需要先识别出句子中的指 称。指称识别的方法是使用bert+global pointer。2)对识别出来的指称进行实体消歧, 通过提取输入句子的向量表示、需要消歧的指称的向量表示,分别和所有可能的候选实体 描述的向量表示进行拼接,经过一个全连接层预测最终链接的结果。3)模型架构设计, 此
设计是本模型的重点技术点,指称识别模型的模型和实体消歧的模型构成双塔结构,使 用指称识别模型进行指称识别,然后复用指称识别的模型,提取出输入句子的向量表示参 与实体消歧,通过这样实现训练过程中指称识别模型和实体消歧模型的联合训练和相互优 化。
68.指称识别阶段可以看成是命名实体识别过程,输入一句文本,输出文本中预测的实体。 在实体链接中识别出来的实体成为指称,通常存在歧义性,需要在后面的阶段中进行链接 消除歧义。示例性的,指称识别模型如图3所示,将待识别的句子“刘某扮演者赵某评《大 秧歌》

大’在哪”输入文本经过bert模型,然后经过global pointer层,输出预测实体
ꢀ“
刘某、赵某、大秧歌”。global pointer利用全局归一化的思路来进行命名实体识别(ner), 可以很好地解决文本中存在嵌套实体而难以识别的问题。
69.在实体消歧阶段,如图3所示,对于指称识别阶段识别出来的指称,依次遍历所有指 称作为待消歧的对象,从知识库中该指称对应的候选实体集合中选取一个正例和两个负例 作为样本参与模型的训练,将被选实体的描述文本作为右边bert模型的输入。
70.将左边bert模型“刘某”对应的embedding(词嵌入、向量表示),与左边bert 模型最后一层的embedding通过加权求和得到entity embedding,同右边bert模型的 sentence embedding拼接起来,经过一个全连接层预测是否链接正确。其中,左边bert 模型的embedding表示左边指称向量表示,右边bert模型的embedding表示候选实体描 述的向量表示,拼接指称对应的embedding引入了指称的信息,实验证明有效地提升了模 型的效果。
71.在测试阶段,如图4所示,需要对指称识别模块识别出的所有指称都通过消歧模型进 行链接,链接时同样采样指称的所有候选实体,最终通过选择得分最高的实体作为最终链 接的实体。计算实体链接正确率,得到测试的结果。
72.本实施例中,对于模型的训练,设置bert词向量的维度为768维,句子的最大长度 为256,学习率设置为2e-5,实体消歧阶段mention embedding和sentence embedding的权 重为0.7和0.3。指称识别模型和实体消歧模型的损失函数都采用交叉熵损失函数,整体 模型的联合损失函数为:
73.loss=λloss
md
+(1-λ)loss
ed

ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(1)
74.其中,loss
md
为初始实体链接模型进行指称识别的损失,loss
ed
为初始实体链接模型 进行实体消歧的损失,λ为权重系数,0《λ《1。在一些实施例中,loss
md
以及loss
ed
均 采用交叉熵损失函数,λ为0.1。
75.本实施例所采用的训练数据为ccks2019(2019全国知识图谱与语义计算大会)面向 中文短文本的实体链指任务的数据集,知识库采取数据集中提供的百度整理的知识库。采 用adam算法进行梯度下降。
76.本实施例的端到端模型将指称识别模型和实体消歧模型联合起来,在训练阶段同时训 练指称识别模型和实体消歧模型,充分利用两阶段之间的依赖关系。该模型主要有以下几 个优点:两个模型联合训练,指称识别模型的误差可以在训练过程中被优化和修正,而独 立两阶段时指称识别的误差不可修正地传递到实体消歧阶段。消歧模型引入外部知识库信 息,一方面能够引入额外信息帮助指称识别模型更好地预测文本中的指称,另一方面引入 知识库信息能够很好地优化指称识别中存在的边界识别错误问题。在端到端消歧模型中, 通过指称识别阶段产生的大量正负样本,为实体消歧阶段引入更多训练数据,一
方面更多 的指称能够避免实体遗漏,另一方面更多的数据提升消歧模型的效果和泛化性能。实验证 明,端到端模型对于指称识别和实体消歧两个阶段的效果都有提升,充分说明该模型的有 效性。
77.综上所述,所述端到端的实体链接模型训练方法、实体链接方法及装置,构建包含第 一bert模型、第二bert模型和global pointer层的初始实体链接模型,基于第一bert 模型和global pointer层进行指称识别,基于第一bert模型和第二bert模型执行实体 消歧。在模型的训练过程中,将指称识别和实体消歧两部分的损失函数进行联合,同时对 初始实体链接模型用于执行指称识别和实体消歧的两部分参数进行反向传播调参,有效传 递调节两部分误差,使其相互依赖,提升整体效果。在实体消歧的过程中,引入预设知识 库作为外部知识,能够极大提升消歧效果。
78.本领域普通技术人员应该可以明白,结合本文中所公开的实施方式描述的各示例性的 组成部分、系统和方法,能够以硬件、软件或者二者的结合来实现。具体究竟以硬件还是 软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个 特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本发明的范 围。当以硬件方式实现时,其可以例如是电子电路、专用集成电路(asic)、适当的固件、 插件、功能卡等等。当以软件方式实现时,本发明的元素是被用于执行所需任务的程序或 者代码段。程序或者代码段可以存储在机器可读介质中,或者通过载波中携带的数据信号 在传输介质或者通信链路上传送。“机器可读介质”可以包括能够存储或传输信息的任何 介质。机器可读介质的例子包括电子电路、半导体存储器设备、rom、闪存、可擦除rom (erom)、软盘、cd-rom、光盘、硬盘、光纤介质、射频(rf)链路,等等。代码段 可以经由诸如因特网、内联网等的计算机网络被下载。
79.还需要说明的是,本发明中提及的示例性实施例,基于一系列的步骤或者装置描述一 些方法或系统。但是,本发明不局限于上述步骤的顺序,也就是说,可以按照实施例中提 及的顺序执行步骤,也可以不同于实施例中的顺序,或者若干步骤同时执行。
80.本发明中,针对一个实施方式描述和/或例示的特征,可以在一个或更多个其它实施 方式中以相同方式或以类似方式使用,和/或与其他实施方式的特征相结合或代替其他实 施方式的特征。
81.以上所述仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人 员来说,本发明实施例可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任 何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

技术特征:
1.一种端到端的实体链接模型训练方法,其特征在于,包括:获取训练样本集,所述训练样本集中包含多个样本,每个样本为包含一个句子或多个连续句子的段落,标记样本中的所有实体以及对应的描述信息作为标签;获取预设知识库,所述预设知识库中记载有多个已知实体的描述信息,所述已知实体包括一词多义以及多词同义的多种关系;获取初始实体链接模型,所述初始实体链接模型包括第一bert模型、第二bert模型和global pointer层;所述第一bert模型与所述global pointer层连接用于执行指称识别,获取每个样本中的句子或段落中的所有预测实体;所述第一bert模型与所述第二bert模型连接用于对所有预测实体逐一进行实体消歧,其中,对于一指定预测实体,将第一bert模型输出的全部作为第一向量表示,将所述第一向量表示中与所述指定预测实体对应的部分作为实体向量表示,将所述实体向量表示与所述第一向量表示加权求和得到整体向量表示;根据所述指定预测实体检索所述预设知识库,找到与所述指定预测实体含义相同的一个正例以及含义不同的两个负例,所述第二bert模型对所述指定预测实体对应的正例及负例的描述信息分别进行向量表示操作得到对应的第二向量表示;将所述整体向量表示分别与所述指定预测实体对应的正例及负例的第二向量表示连接,并输入全连接层用于评分判断是否同义;采用所述训练样本集对所述初始实体链接模型进行训练,其中,每个样本中的所有预测实体逐一与各预测实体对应的所述预设知识库中的正例与负例进行实体消歧,计算联合损失函数并反向传播,整体调节所述第一bert模型、所述第二bert模型和所述global pointer层的参数,得到目标实体链接模型。2.根据权利要求1所述的端到端的实体链接模型训练方法,其特征在于,所述预设知识库对所述已知实体配置存在一词多义或多词同义关系的候选词。3.根据权利要求1所述的端到端的实体链接模型训练方法,其特征在于,采用所述训练样本集对所述初始实体链接模型进行训练中,学习率设置为2e-5,并采用adam算法进行梯度下降。4.根据权利要求1所述的端到端的实体链接模型训练方法,其特征在于,所述联合损失函数loss的计算式为:loss=λloss
md
+(1-λ)loss
ed
;其中,loss
md
为所述初始实体链接模型进行指称识别的损失,loss
ed
为所述初始实体链接模型进行实体消歧的损失,λ为权重系数,0<λ<1。5.根据权利要求4所述的端到端的实体链接模型训练方法,其特征在于,loss
md
以及loss
ed
均采用交叉熵损失函数,λ为0.1。6.根据权利要求1所述的端到端的实体链接模型训练方法,其特征在于,将所述实体向量表示与所述第一向量表示加权求和得到整体向量表示,所述实体向量表示的权重比例为0.7,所述第一向量表示的权重比例为0.3。7.一种端到端的实体链接方法,其特征在于,包括:获取待处理语料以及预设知识库,所述预设知识库中记载有多个已知实体的描述信息,所述已知实体包括一词多义以及多词同义的多种关系;将所述待处理语料输入至如权利要求1至6任意一项所述端到端的实体链接模型训练
方法中得到的目标实体链接模型,由所述目标实体链接模型中依次连接的第一bert模型和global pointer层执行指称识别,对识别得到的实体证逐一查询预设知识库,获取各实体存在一词多义关系的多个候选词,由所述目标实体链接模型中的所述第一bert模型与第二bert模型对所有实体逐一进行实体消歧,其中,对于一指定实体,将第一bert模型输出的全部作为第一向量表示,将所述第一向量表示中与所述指定实体对应的部分作为实体向量表示,将所述实体向量表示与所述第一向量表示加权求和得到整体向量表示;所述第二bert模型对所述指定实体对应的多个候选词的描述信息分别进行嵌入操作得到对应的第二向量表示,将所述整体向量表示分别与所述指定实体对应的候选词的第二向量表示连接,并输入全连接层用于评分判断是否同义以消除歧义;输出所述目标实体链接模型识别得到的所述待处理语料中的多个实体以及所述预设知识库中与各实体对应的描述信息。8.根据权利要求7所述的端到端的实体链接方法,其特征在于,所述预设知识库中对各已知实体中包含一词多义的多个描述信息分别进行编码标记,并对所述目标实体链接模型输出的实体标记相应描述信息的编码。9.一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现如权利要求1至8任一项所述方法的步骤。10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现权利要求1至8任一项所述方法的步骤。

技术总结
本发明提供一种端到端的实体链接模型训练方法、实体链接方法及装置,构建包含第一BERT模型、第二BERT模型和Global Pointer层的初始实体链接模型,基于第一BERT模型和Global Pointer层进行指称识别,基于第一BERT模型和第二BERT模型执行实体消歧。在模型的训练过程中,将指称识别和实体消歧两部分的损失函数进行联合,同时对初始实体链接模型用于执行指称识别和实体消歧的两部分参数进行反向传播调参,有效传递调节两部分误差,使其相互依赖,提升整体效果。在实体消歧的过程中,引入预设知识库作为外部知识,能够极大提升消歧效果。能够极大提升消歧效果。能够极大提升消歧效果。


技术研发人员:李劼 蒲仁杰 于艳华 丁琳萱 马昂
受保护的技术使用者:北京邮电大学
技术研发日:2022.02.21
技术公布日:2022/7/5
转载请注明原文地址: https://www.8miu.com/read-4727.html

最新回复(0)