交通命名实体识别方法、装置、计算机设备及存储介质

allin2023-04-10 136

1.本发明涉及交通命名识别技术领域，尤其涉及一种交通命名实体识别方法、装置、计算机设备及存储介质。

背景技术：

2.随着交通复杂系统的自主化水平提高，智能交通系统(intelligenttransportation system，its)逐渐过渡到自主式交通系统(autonomoustransportation system，ats)，更多的物理组分被纳入其中。然而，关于物理组分的描述性知识通常存在于交通行业资料等非结构化数据中，知识集成度和共享度不高，展现形式不够直观，且在传播过程中极易造成误差放大，因此，如何高效精确地抽取这些组分是交通复杂巨系统的信息化表达和管理最重要的步骤之一。
3.知识图谱(knowledge graph，kg)作为一种语义化的知识表示方式，能够将无关联的非结构化文本提炼为高度关联的质量数据，以结构化方式为数据之间建立关系网络，系统性地描述知识体系，挖掘数据潜在价值。命名实体识别 (named entity recognition，ner)作为知识图谱信息抽取的基础任务，其目的是从自然语言文本中提取特定含义或指代的实体。
4.近年来，研究ner的方法大致可以分为两个阶段：传统ner方法主要基于规则提取和基于统计机器学习提取。基于规则提取的方法主要依赖语言专家或者领域专家人工构建大量的特征词，包括中心词、指示词、方向词和位置词(如尾字)等，进行序列标注后，通过模式匹配方式发现命名实体。基于统计机器学习的ner方法包括hmm、mem、crf等，其主要利用大规模语料学习序列标注特征。基于规则提取的方法依赖于特征工程和专家人工构建，构建代价大、系统可移植性差。基于统计机器学习的方法往往存在语料库依赖大、训练代价大和训练时间长的问题。进入深度学习阶段，词向量解决了向量空间的稀疏问题，神经网络大幅改善了ner任务的识别效果，包括cnn和rnn，继承了深度学习方法的优势，无需大量人工特征。现阶段的主流方法是采用cnn-crf 或rnn-crf。然而，以上研究方法主要针对具备一定规模训练集的识别任务，无法有效应对少量标注语料的训练。同时中文文本存在大量嵌套、一词多义以及中文语境问题，使得主流深度学习方法的识别性能有所下降，交通领域实体的专业性和特殊性也提出了一大考验。此外，在自主式交通领域，精确有效的 ner方法和模型尚待进一步研究和完善。

技术实现要素：

5.有鉴于此，本发明提供了一种交通命名实体识别方法、计算机设备及存储介质，此方法旨在面向自主式交通领域，克服现有技术未能有效识别该领域组分实体的问题。
6.为达到上述目的，本发明的技术方案是这样实现的：
7.第一方面，本发明提供了一种交通命名实体识别方法，所述方法包括：
8.获取语料集，对所述语料集进行预处理，所述预处理包括利用正则表达式对每一
语料进行文本划分成多个文本序列；
9.将所述多个文本字符输入训练后的双向循环神经网络和条件随机场，得到交通命名实体。
10.其中，所述将预训练后的所述文本字符输入训练后的双向循环神经网络和条件随机场，得到交通命名实体，包括：
11.将预训练后的所述文本字符输入训练后的双向循环神经网络，得到所述文本字符长时间的序列关系；
12.将所述文本字符长时间的序列关系输入训练后的条件随机场，获取目标文本序列，得到交通命名实体。
13.其中，所述获取语料集，对所述语料集进行预处理，所述预处理包括利用正则表达式对每一语料进行文本划分成多个文本序列之前，包括：
14.将所述多个文本序列进行预训练，获取包含融合有语义信息的词向量特征的文本序列长距离依赖关系；
15.将所述词向量特征输入双向循环神经网络训练，得到文本字符长时间的序列关系；
16.将所述文本字符长时间的序列关系输入条件随机场训练，得到目标文本序列；
17.基于所述目标文本序列对所述双向循环神经网络和所述条件随机场进行交替迭代，直至设置的损失函数满足收敛条件，获得训练后的双向循环神经网络和条件随机场。
18.其中，所述将所述多个文本序列进行预训练，获取包含融合有语义信息的词向量特征的文本序列长距离依赖关系，包括：
19.对所述多个文本序列进行词嵌入操作，包括词向量和位置嵌入，其中，所述词向量和所述位置嵌入为文本序列的特征表达；
20.基于注意力机制的预处理模型生成了文本特征向量，包含了词向量和字符的位置嵌入；
21.基于自注意力机制学习所述文本序列中字符的长距离依赖关系。
22.其中，所述基于自注意力机制学习所述文本序列中字符的长距离依赖关系后，还包括：
23.对所述文本序列进行模型轻量化的剪枝操作，包括层数剪枝和多头注意力数剪枝。
24.第二方面，本发明提供了一种交通命名实体识别装置，所述装置包括：
25.获取模块，用于获取语料集，对所述语料集进行预处理，所述预处理包括利用正则表达式对每一语料进行文本划分成多个文本序列；
26.处理模块，用于将所述多个文本字符输入训练后的双向循环神经网络和条件随机场，得到交通命名实体。
27.第三方面，本发明提供了一种计算机设备，包括：处理器和用于存储能够在处理器上运行的计算机程序的存储器；
28.其中，所述处理器用于运行所述计算机程序时，实现上述任意所述的交通命名实体识别方法。
29.第四方面，本发明提供了一种计算存储介质，所述计算机存储介质中存储有计算
机程序，所述计算机程序被处理器执行实现上述任意所述的交通命名实体识别方法。
30.本发明实施例提供的本发明实施例公开一种交通命名实体识别方法、装置、计算机设备及存储介质，所述方法包括：获取语料集，对所述语料集进行预处理，所述预处理包括利用正则表达式对每一语料进行文本划分成多个文本序列；将预训练后的所述文本字符输入训练后的双向循环神经网络和条件随机场，得到交通命名实体；如此，基于自注意力机制的语言预处理模型能够学习长距离文本的依赖关系，增强字符的语义特征，克服交通领域专有名词专业性强的问题，提升ner任务的准确率，相较于传统主流rnn-crf模型，bert能够并行处理，训练速度较快，综合识别性能更好，同时，bert-bi-lstm-crf善于挖掘字符的语义信息，能有效解决交通领域训练语料欠缺的问题。
附图说明
31.图1为本发明实施例提供的一种交通命名实体识别方法的流程示意图；
32.图2为本发明实施例提供的一种交通命名实体识别装置的结构示意图；
33.图3为本发明实施例提供的一种计算机设备的结构示意图。
具体实施方式
34.下面结合说明书附图及具体实施例对本发明技术方案做进一步的详细阐述。除非另有定义，本文所使用的所有的技术和科学术语与属于本发明的技术领域的技术人员通常理解的含义相同。本文中在本发明的说明书中所使用的术语只是为了描述具体的实施例的目的，不是旨在于限制本发明。本文所使用的术语“和 /或”包括一个或多个相关的所列项目的任意的和所有的组合。
35.本发明提出了一种交通命名实体识别方法，此方法旨在面向自主式交通领域，克服现有技术未能有效识别该领域组分实体的问题。
36.请参见图1，为本发明实施例提供的一种交通命名实体识别方法，包括以下步骤：
37.步骤101：获取语料集，对所述语料集进行预处理，所述预处理包括利用正则表达式对每一语料进行文本划分成多个文本序列；
38.这里，针对交通领域尚未有公开的标注的语料集，对专业资料进行收集整理和语料预处理。这里，利用正则表达式对每一语料进行文本划分成多个文本序列指利用正则表达式匹配剔除无关信息，如
″
章
″
、
″
节
″
等句子，得到批量交通知识描述句子。首先对这些句子按字符进行文本切分，主要是将连续句子打断，如句子
″
动态地为驾驶员提供交通流量
″
在切分后为一连串的单个字符
″
动
″
、
″
态
″
、
″
地
″
、
″
为
″
、
″
驾
″
、
″
驶
″
、
″
员
″
、
″
提
″
、
″
供
″
、
″
交
″
、
″
通
″
、
″
流
″
、
″
量
″
。其次对切分好的字符采用
″
bio
″
标注体系进行语料标注，为每个实体打上
″
b-x
″
、
″
i-x
″
或者
″o″
的实体标签。其中，
″
b-x
″
表示此实体所在片段位于此实体的起始部分，
″
i-x
″
则表示其他位置，
″o″
表示不属于任何类型，
″
x
″
代表实体类型，ats领域下的实体类型x包括use(使用者)、 man(管理者)、ope(运营者)等。标注后的句子形如
″
动o\n态o\n地o\n 为o\n驾b-use\n驶i-use\n员i-use\n提o\n供o\n交o\n通o\n流o\n 量o\n
″
。
39.对所有的交通语料完成标注后，按照7∶3的比例划分为互斥的训练集 train_data和测试集test_data以供实体识别模型训练和效果评估。
40.步骤102：将所述多个文本字符输入训练后的双向循环神经网络和条件随机场，得
到交通命名实体。
41.通过上述实施方式，基于自注意力机制的语言预处理模型能够学习长距离文本的依赖关系，增强字符的语义特征，克服交通领域专有名词专业性强的问题，提升ner任务的准确率，相较于传统主流rnn-crf模型，bert能够并行处理，训练速度较快，综合识别性能更好，同时，bert-bi-lstm-crf善于挖掘字符的语义信息，能有效解决交通领域训练语料欠缺的问题。
42.在一实施方式中，所述将预训练后的所述文本字符输入训练后的双向循环神经网络和条件随机场，得到交通命名实体，包括：
43.将预训练后的所述文本字符输入训练后的双向循环神经网络，得到所述文本字符长时间的序列关系；
44.将所述文本字符长时间的序列关系输入训练后的条件随机场，获取目标文本序列，得到交通命名实体。
45.在一实施方式中，所述获取语料集，对所述语料集进行预处理，所述预处理包括利用正则表达式对每一语料进行文本划分成多个文本序列之前，包括：
46.将所述多个文本序列进行预训练，获取包含融合有语义信息的词向量特征的文本序列长距离依赖关系；
47.将所述词向量特征输入双向循环神经网络训练，得到文本字符长时间的序列关系；
48.将所述文本字符长时间的序列关系输入条件随机场训练，得到目标文本序列；
49.基于所述目标文本序列对所述双向循环神经网络和所述条件随机场进行交替迭代，直至设置的损失函数满足收敛条件，获得训练后的双向循环神经网络和条件随机场。
50.这里，使用基于自注意力机制的双向编码器表征模型对标注工作完成后得到的语料集进行预训练，得到基于自注意力机制的预处理模型。bert模型基于双向的transformer编码器(encoder)，transformer编码器基于自注意力机制，摒弃了循环机制而完全依靠注意力机制在输入输出之间构建全局依赖项，同时 transformer允许计算并行化。
51.这里，bert模型的特点是在海量语料自监督学习特征表示，可以将bert 特征作为自然语言处理任务的高质量词嵌入。bert预训练分为遮盖词预测任务(mlm)和下一句预测任务(nsp)。本发明采用前者词遮盖mlm方法，通常会随机掩盖15％的序列标签token，生成embedding后喂给bert提取特征，训练时基于上下文关系仅预测被遮盖的部分，这样做的好处是迫使模型更多地依赖于上下文信息去预测词汇，并且赋予了模型一定的纠错能力。在bert 词典中，增加有特殊标识符：[cls]是句首标识，[sep]是分隔符，用于分隔两个独立句子，[unk]为未知标识符。[mask]遮盖标识符，在随机遮盖策略的15％序列中有80％的概率被[mask]遮盖，另有10％的概率替换为文本序列中的某个字，10％的概率不作任何改动。
[0052]
因此，bert模型的嵌入既有词向量(token embeddings)，还包括段向量 (segmentation embeddings)和位置向量(position embeddings)。tokenembeddings的操作是对文本进行标记，[cls]和[sep]用于标记头和尾。segmentembedding的主要作用是区分每个token属于前一个句子还是后一个句子，是一个可学习的嵌入向量，辅助bert区别不同的句子。position embeddings同 transformer都使用了位置编码，但bert是通过学习得到序列输入属性。
[0053]
在一实施方式中，所述将所述多个文本序列进行预训练，获取包含融合有语义信息的词向量特征的文本序列长距离依赖关系，包括：
[0054]
对所述多个文本序列进行词嵌入操作，包括词向量和位置嵌入，其中，所述词向量和所述位置嵌入为文本序列的特征表达；
[0055]
基于注意力机制的预处理模型生成了文本特征向量，包含了词向量和字符的位置嵌入；
[0056]
基于自注意力机制学习所述文本序列中字符的长距离依赖关系。
[0057]
这里，对所述多个文本序列进行词嵌入操作，包括词向量和位置嵌入是指表征字符的位置嵌入，交通文本中的字符处在文本中不同的位置，其携带的语义信息也存在差异，所以需要使用位置嵌入用以表达字符之间的位置关系。
[0058]
位置嵌入pe利用了字符在序列中的相对或绝对位置，从而获取字符的次序信息。位置嵌入的维度为x
position encoding
∈r
sequence
*
dimension
，sequence 表示sequence_lenth，即最大序列长度；dimension表示词向量维度。pe采用式(1)、式(2)关于sine和cosine的函数表达，其中pos表示当前字符在句子中的所处位置，i表示该字符在词向量维度中的位置，2i和2i+1分别表示偶数和奇数位置的维度，d表示词向量的维度。pe
(pos，2i)
表示pos位置字符的pe在偶数维度的值，pe
(pos，2i+1)
表示pos位置字符的pe在奇数维度的值。利用这样周期性函数的好处在于对任何固定的偏移量k而言，其位置嵌入pe
pos+k
可以通过 pe
pos
线性变换后表示。
[0059]
pe
(pos，2i)
＝sin(pos/10000
2i/d
)
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(1)
[0060]
pe
(pos，2i+1)
＝cos(pos/10000
2i/d
)
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(2)
[0061]
这里，词向量和位置嵌入相加得到文本序列的特征表达。一个文本序列 x＝{x1，x2，...，xn}，可以表示为v∈r
batch*sequence
，batch表示batch_size，即批次大小。通过词向量表示，每个字进行高维映射，x变为：
[0062]
x
embedding
∈r
batch*sequence*dimension
ꢀꢀꢀꢀꢀꢀꢀꢀ
(3)
[0063]
将词向量和位置嵌入相结合，最终得到词的表示向量x，同时也是 transformer的输入。
[0064]
x＝x
embedding
+x
position encoding
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(4)
[0065]
x∈r
batch
*
sequence
*
dimension
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(5)
[0066]
这里，基于自注意力机制学习所述文本序列中字符的长距离依赖关系是指基于自注意力机制学习交通语料字符的长距离依赖关系，使用注意力机制可以使得单个字符有效融合句子中其他所有字符的语义信息。
[0067]
基于自注意力机制，为x分配3个权重wq、wk、wv，分别得到q、k、 v，即：
[0068]
q＝linear(x)＝xwqꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(6)
[0069]
k＝linear(x)＝xwkꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(7)
[0070]
v＝linear(x)＝xwvꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(8)
[0071]
基于q、k、v，得到自注意力机制的输出，即
[0072]
[0073][0074]dk
是qk
t
矩阵的列数，用以防止q、k相乘时内积过大。之后用softmax归一化函数计算每个字符与其余字符的注意力系数，与v相乘后得到最终输出z。 zi表示第i个节点的输出值，m为分类的种类，通过softmax函数可以将输出值限制为[0，1]范围内，且字符的输出值之和为1。基于注意力机制的预处理模型生成了最终的文本特征向量，其包含了词向量和字符的位置嵌入，对长距离文本的依赖关系进行了建模，增强了字的语义表达能力，有助于提升自主式交通领域的命名实体识别模型的综合识别效果。
[0075]
考虑多头注意力机制(multi-head attention mechanism)进一步提取多重语义表达，能够增强每个字符与其他字符的关联性，更好地表达语义特征。多头注意力机制实质上是做两次及以上的注意力运算，具体做法是将x通过n(head 数目)个注意力机制层中，得到n个输出并做拼接操作。
[0076]
multihead(q，k，v)＝concat(head1，...，headn)woꢀꢀꢀꢀ
(11)
[0077][0078]
其中，multihead(q，k，v)表示多头注意力机制层的输出结果，wo为权重参数。headi为第i个注意力的计算结果。为第i个注意力的计算结果。
[0079]
这里，在对交通语料完成基于自注意力机制的bert语言模型预训练之后，提取到了字符和序列丰富的全局语义信息，尤其是长距离的依赖关系，得到了包含融合有语义信息的向量特征表示。通过双向循环神经网络和条件随机场，充分学习上下文关系和相邻字符间的依存关系，输出最优预测序列，根据预测的标签序列识别交通实体。
[0080]
这里，bi-lstm采用双向lstm神经网络，善于发现字符间关联关系，捕捉语料长远上下文序列信息，具备神经网络拟合非线性的能力。lstm基于门控单元实现长期记忆，解决了rnn训练时的梯度消失或者梯度爆炸问题。lstm 单元改进了rnn的隐藏层状态，通过3种不同的门结构，有所选择地剔除某些历史信息，同时增添部分当前输入信息，最终通过融合输出得到当前状态。在时刻t，lstm对应3种输入：当前输入x
t
，t-1时刻的输出h
t-1
，t-1时刻的单元状态c
t-1
；以及2种输出：t时刻的输出h
t
、t时刻单元状态c
t
。lstm通过输入门(input gate)、输出门(output gate)和遗忘门(forget gate)来控制单元状态，输入门接受当前时刻的保存信息，输出门控制着从当前状态到lstm输出的过程，遗忘门则决定单元状态中能够从t-1时刻保留到t时刻的信息。
[0081][0082][0083][0084]
[0085][0086]
其中，wi、wf、wc分别是输入门、遗忘门、输出门的权重矩阵，bi、bf、 bc分别是其偏差项。以t-1时刻的输出h
t-1
和当前输入x
t
分别得到当前的输入值和遗忘门的值，进而根据t-1时刻单元状态c
t-1
和当前输入值获得t时刻单元状态c
t
，实现当前记忆和长期记忆的结合，即长时间的序列关系。c
t
经由tanh函数变换后，与输出门的值相乘得到的t时刻的输出h
t
。σ函数和tanh激活函数的计算方法分别如式(18)、式(19)所示：
[0087][0088][0089]
bi-lstm仅依据最大概率输出预测标签，输出之间不受影响，导致序列出现如“b-per”后又接“i-org”的情况。crf优势在于学习状态之间的隐含条件，更加考虑句子的局部特征，通过临近标签获得最优序列，能够弥补bi-lstm的不足。因此考虑将bi-lstm和crf模型相结合，既能保持长期记忆，又能考虑局部依赖关系。如果一个句子x的标注序列为y＝(y1，y2，...，yn)，则bi-lstm-crf模型下，句子x的标注序列y的得分为：
[0090][0091]
式中，是bi-lstm的输出得分矩阵，是第i-1个标签到第i个标签的转移得分。得分分别由bi-lstm层的输出和crf的转移矩阵决定。标注结果概率如式(19)所示，其中y
′
为真实序列，并取对数得到似然函数求解，如式(20)。
[0092][0093]
最后，似然函数的目标是将最满意得分序列作为预测序列输出：
[0094][0095]
这里，建立评价体系，在测试集上测试该实体识别模型的识别性能。自主式交通领域实体识别实验结果评价指标主要采用消息理解会议muc会议规范评测体系，分别是精确率p(precision)、召回率r(recall)和f1(f
‑ꢀ
mearsure)值。f1是基于p和r调和平均值的综合性能考量。指标计算方法如式 (24)-式(26)所示。tp表示预测为正例的正样本，fp表示预测为正例的负样本，fn表示预测为负例的正样本。
[0096][0097][0098][0099]
自主式交通领域实体识别。将划分且标注好的测试数据输入基于注意力机制的bert模型中进行预训练，对长距离文本依赖关系建模，生成融合了全局语义信息的特征向量。通过加载已训练好的命名实体识别模型对特征向量预测并输出实体标签，从而完成自主式交通系统实体识别任务。
[0100]
在一实施方式中，所述基于自注意力机制学习所述文本序列中字符的长距离依赖关系后，还包括：
[0101]
对所述文本序列进行模型轻量化的剪枝操作，包括层数剪枝和多头注意力数剪枝。
[0102]
这里，为解决bert模型参数量过大、训练及推理速度过慢、时间过长的问题，在满足准确率的前提下对bert进行了模型轻量化的剪枝操作，包括层数剪枝和多头注意力数剪枝。剪枝后的预训练过程速度加快，更适合用于小样本数据集训练。
[0103]
本发明实施例还提供一种交通命名实体识别装置，，如图2所示，所述装置包括：
[0104]
获取模块21，用于获取语料集，对所述语料集进行预处理，所述预处理包括利用正则表达式对每一语料进行文本划分成多个文本序列；
[0105]
处理模块22，用于将所述多个文本字符输入训练后的双向循环神经网络和条件随机场，得到交通命名实体。
[0106]
在一个可选的实施例中，所述处理模块22，还用于：
[0107]
将所述多个文本字符输入训练后的双向循环神经网络，得到所述文本字符长时间的序列关系；
[0108]
将所述文本字符长时间的序列关系输入训练后的条件随机场，获取目标文本序列，得到交通命名实体。
[0109]
在一个可选的实施例中，所述装置还包括训练模块，用于：
[0110]
将所述多个文本序列进行预训练，获取包含融合有语义信息的词向量特征的文本序列长距离依赖关系；
[0111]
将所述词向量特征输入双向循环神经网络训练，得到文本字符长时间的序列关系；
[0112]
将所述文本字符长时间的序列关系输入条件随机场训练，得到目标文本序列；
[0113]
基于所述目标文本序列对所述双向循环神经网络和所述条件随机场进行交替迭代，直至设置的损失函数满足收敛条件，获得训练后的双向循环神经网络和条件随机场。
[0114]
在一个可选的实施例中，所述训练模块，还用于：
[0115]
对所述多个文本序列进行词嵌入操作，包括词向量和位置嵌入，其中，所述词向量和所述位置嵌入为文本序列的特征表达；
[0116]
基于注意力机制的预处理模型生成了文本特征向量，包含了词向量和字符的位置嵌入；
[0117]
基于自注意力机制学习所述文本序列中字符的长距离依赖关系。
[0118]
在一个可选的实施例中，所述装置还包括剪枝模块，用于：
[0119]
对所述文本序列进行模型轻量化的剪枝操作，包括层数剪枝和多头注意力数剪枝。
[0120]
需要说明的是：上述实施例提供的交通命名实体识别装置在实现交通命名实体识别方法时，仅以上述各程序模块的划分进行举例说明，实际应用中，可以根据需要而将上述处理分配由不同的程序模块完成，以完成以上描述的全部或者部分处理。另外，上述实施例提供的交通命名实体识别装置与对应的交通命名实体识别实施例属于同一构思，其具体实现过程详见方法实施例，这里不再赘述。
[0121]
本发明实施例提供了一种计算机设备，如图3所示，该计算机设备包括：处理器110和用于存储能够在处理器110上运行的计算机程序的存储器111；其中，图3中示意的处理器110并非用于指代处理器110的个数为一个，而是仅用于指代处理器110相对其他器件的位置关系，在实际应用中，处理器110 的个数可以为一个或多个；同样，图3中示意的存储器111也是同样的含义，即仅用于指代存储器111相对其他器件的位置关系，在实际应用中，存储器111 的个数可以为一个或多个。
[0122]
所述处理器110用于运行所述计算机程序时，执行如下步骤：
[0123]
获取语料集，对所述语料集进行预处理，所述预处理包括利用正则表达式对每一语料进行文本划分成多个文本序列；
[0124]
将所述多个文本字符输入训练后的双向循环神经网络和条件随机场，得到交通命名实体。
[0125]
在一可选的实施例中，所述处理器110还用于运行所述计算机程序时，执行如下步骤：
[0126]
将所述多个文本字符输入训练后的双向循环神经网络，得到所述文本字符长时间的序列关系；
[0127]
将所述文本字符长时间的序列关系输入训练后的条件随机场，获取目标文本序列，得到交通命名实体。
[0128]
在一可选的实施例中，所述处理器110还用于运行所述计算机程序时，执行如下步骤：
[0129]
将所述多个文本序列进行预训练，获取包含融合有语义信息的词向量特征的文本序列长距离依赖关系；
[0130]
将所述词向量特征输入双向循环神经网络训练，得到文本字符长时间的序列关系；
[0131]
将所述文本字符长时间的序列关系输入条件随机场训练，得到目标文本序列；
[0132]
基于所述目标文本序列对所述双向循环神经网络和所述条件随机场进行交替迭代，直至设置的损失函数满足收敛条件，获得训练后的双向循环神经网络和条件随机场。
[0133]
在一可选的实施例中，所述处理器110还用于运行所述计算机程序时，执行如下步骤：
memory)、只读存储器(rom，read only memory)、可编程只读存储器(prom，programmable read-only memory)、可擦除可编程只读存储器(eprom，erasable programmable read-only memory)、电可擦除可编程只读存储器(eeprom，electrically erasable programmable read-only memory)、快闪存储器(flash memory)、磁表面存储器、光盘、或只读光盘(cd-rom， compact disc read-only memory)等存储器；也可以是包括上述存储器之一或任意组合的各种设备，如移动电话、计算机、平板设备、个人数字助理等。所述计算机存储介质中存储的计算机程序被处理器运行时，实现上述车辆识别方法。所述计算机程序被处理器执行时实现的具体步骤流程请参考图1所示实施例的描述，在此不再赘述。
[0143]
以上所述实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。
[0144]
在本文中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，除了包含所列的那些要素，而且还可包含没有明确列出的其他要素。
[0145]
以上所述，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应以所述权利要求的保护范围为准。

技术特征：
1.一种交通命名实体识别方法，其特征在于，所述方法包括：获取语料集，对所述语料集进行预处理，所述预处理包括利用正则表达式对每一语料进行文本划分成多个文本序列；将所述多个文本字符输入训练后的双向循环神经网络和条件随机场，得到交通命名实体。2.根据权利要求1所述的交通命名实体识别方法，其特征在于，所述将所述多个文本字符输入训练后的双向循环神经网络和条件随机场，得到交通命名实体，包括：将所述多个文本字符输入训练后的双向循环神经网络，得到所述文本字符长时间的序列关系；将所述文本字符长时间的序列关系输入训练后的条件随机场，获取目标文本序列，得到交通命名实体。3.根据权利要求1所述的交通命名实体识别方法，其特征在于，所述获取语料集，对所述语料集进行预处理，所述预处理包括利用正则表达式对每一语料进行文本划分成多个文本序列之前，包括：将所述多个文本序列进行预训练，获取包含融合有语义信息的词向量特征的文本序列长距离依赖关系；将所述词向量特征输入双向循环神经网络训练，得到文本字符长时间的序列关系；将所述文本字符长时间的序列关系输入条件随机场训练，得到目标文本序列；基于所述目标文本序列对所述双向循环神经网络和所述条件随机场进行交替迭代，直至设置的损失函数满足收敛条件，获得训练后的双向循环神经网络和条件随机场。4.根据权利要求2所述的交通命名实体识别方法，其特征在于，所述将所述多个文本序列进行预训练，获取包含融合有语义信息的词向量特征的文本序列长距离依赖关系，包括：对所述多个文本序列进行词嵌入操作，包括词向量和位置嵌入，其中，所述词向量和所述位置嵌入为文本序列的特征表达；基于注意力机制的预处理模型生成了文本特征向量，包含了词向量和字符的位置嵌入；基于自注意力机制学习所述文本序列中字符的长距离依赖关系。5.根据权利要求1所述的交通命名实体识别方法，其特征在于，所述基于自注意力机制学习所述文本序列中字符的长距离依赖关系后，还包括：对所述文本序列进行模型轻量化的剪枝操作，包括层数剪枝和多头注意力数剪枝。6.一种交通命名实体识别装置，其特征在于，所述装置包括：获取模块，用于获取语料集，对所述语料集进行预处理，所述预处理包括利用正则表达式对每一语料进行文本划分成多个文本序列；处理模块，用于将所述多个文本字符输入训练后的双向循环神经网络和条件随机场，得到交通命名实体。7.一种计算机设备，其特征在于，包括：处理器和用于存储能够在处理器上运行的计算机程序的存储器；其中，所述处理器用于运行所述计算机程序时，实现权利要求1至5任一项所述的交通命名实体识别方法。
8.一种计算机存储介质，其特征在于，所述计算机存储介质中存储有计算计程序，其特征在于，所述计算机程序被处理器执行实现权利要求1至5中任一项所述的交通命名实体识别方法。

技术总结
本发明实施例公开一种交通命名实体识别方法、装置、计算机设备及存储介质，所述方法包括：获取语料集，对所述语料集进行预处理，所述预处理包括利用正则表达式对每一语料进行文本划分成多个文本序列；将所述多个文本字符输入训练后的双向循环神经网络和条件随机场，得到交通命名实体；如此，基于自注意力机制的语言预处理模型能够学习长距离文本的依赖关系，增强字符的语义特征，克服交通领域专有名词专业性强的问题，提升NER任务的准确率，相较于传统主流RNN-CRF模型，BERT能够并行处理，训练速度较快，综合识别性能更好，同时，BERT-Bi-LSTM-CRF善于挖掘字符的语义信息，能有效解决交通领域训练语料欠缺的问题。交通领域训练语料欠缺的问题。交通领域训练语料欠缺的问题。

技术研发人员：唐进君庹昊南刘佑付强
受保护的技术使用者：中南大学
技术研发日：2022.03.29
技术公布日：2022/7/5

转载请注明原文地址: https://www.8miu.com/read-9997.html

专利

最新回复(0)