引入数据增强的SA-LSTM对停电新闻的文本分类方法

allin2024-04-01 160

引入数据增强的sa-lstm对停电新闻的文本分类方法
技术领域
1.本发明涉及文本分类技术领域，特别是涉及一种引入数据增强的sa-lstm 对停电新闻的文本分类方法。

背景技术：

2.电力是现代社会不可缺少的能源之一，它支撑着我们生活中各类电器的正常运转。如果由于计划检修、自然灾害、外部破坏等原因造成停电事故的出现，导致电力供应减少或电力传输中断等异常情况，会给人们的正常生活会带来相应的影响，甚至是带来巨大的经济损失。另外根据研究证明，现有电力系统发生停电事故是不可避免的，特别是危害程度较高的大停电事故也有微小的发生概率。因此，为了电力系统的稳定运行，需要分析已发生的停电事故并总结经验教训。其中分析已发生的停电事故就需要对各类停电新闻文本进行分类整理，确定每段文本所涉及的主题。该文本分类过程一般是采取人工整理方式，需要研究员对各类报告和收集的停电新闻手动或使用文本分类工具进行分类。
3.在深度学习方法尚未出现之前，文本分类任务通常采用人工特征工程方式完成，即通过专家提前从文本中选取一些适用于分类器的特征或规则，包括语法或词性等，然后通过k近邻、朴素贝叶斯等分类器得到分类结果。在深度学习方法出现之后，文本分类任务不再需要耗费大量时间通过人工设计特征和规则，而是使用深度学习方法自动从文本中挖掘出相应的特征，这些特征相比于人工设计的特征具有更加丰富的语义信息，并且基于深度学习的文本分类模型更加准确且更稳定。
4.虽然基于深度学习的文本分类模型在多个领域取得了较好的分类效果，但仍然有需要解决的一些问题。通常基于深度学习的文本分类模型需要大量带标注的数据对模型进行训练才能得到良好的性能，但某些领域获取大量带标注的数据较为困难，需要通过数据增强方式自动扩大标注数据的数量。另外低资源的数据中蕴含的上下文信息较少，模型无法有效的提取出足够的特征用于分类。

技术实现要素：

5.本发明的目的是针对现有技术中存在的技术缺陷，而提供一种引入数据增强的sa-lstm对停电新闻的文本分类方法，能够自动对网上获取的停电新闻中的文本进行分类，能更好地提高对停电新闻的文本分类准确率，对后续的停电分析工作提供帮助。
6.为实现本发明的目的所采用的技术方案是：
7.一种引入数据增强的sa-lstm对停电新闻的文本分类方法，包括数据增强以及模型训练两个阶段：
8.数据增强是用于将标注的少量停电新闻文本训练数据集按预设方法产生更多的带标注数据；步骤是：
9.从训练数据集的句子中提取p个关键词，从提取的关键词中随机选取n个不属于指定停用词集的关键词，p需要小于该句子分词后的长度，n≤p，从每个被选取的关键词的同
义词集中随机选取一个同义词对被选取的关键词进行替换，得到第一新句子；
10.随机选取i个标点符号并随机选取一个位置插入到所述句子中，得到第二新句子；
11.将第一新句子及第二新句子与初始的训练数据集进行合并得到数据增强后的新训练数据集；
12.模型训练是用数据增强后形成的新训练数据集通过双向lstm网络模型进行特征提取，输出分类结果；步骤是：
13.在模型的输入嵌入层中对输入的训练数据集的文本进行预处理操作，得到词序列；
14.通过预训练词向量对所述词序列进行词嵌入操作，得到映射后的词向量；
15.将所述词向量输入到双向lstm网络模型中进行特征提取，得到特征向量，将由所述特征向量得到的特征矩阵通过自注意力机制捕获句子中相互依赖的特征并得到新特征矩阵，将新特征矩阵输入到全连接层，然后再将全连接层的输出输入到softmax中进行分类，得到分类结果。
16.其中，若被选取的关键词没有同义词，则跳过该关键词并随机替换成其它未被选中的关键词并继续关键词替换操作。
17.其中，所述预处理包括分词、去除停用词、大写转小写；分词采用hanlp 技术。
18.其中，通过synonyms获取所提取的关键词的同义词集。
19.其中，标点符号插入位置不能位于一个完整词的中间。
20.本发明的基于数据增强的sa-lstm对停电新闻的文本分类方法，首先通过两种数据增强方式扩充了原有的标注数据量，对提升模型的准确率提供了帮助，然后利用预训练词向量进行词嵌入操作，将词序列转变为词向量以此引入丰富的词信息，接着利用bilstm捕获文本中蕴含的上下文信息，再利用自注意力机制进一步捕获句子中相互依赖的特征，最后通过全连接层并使用softmax进行分类。从而使得本发明能够显著提升只有少量标注的停电新闻文本分类的准确率。
附图说明
21.图1是本发明的基于数据增强的sa-lstm对停电新闻的文本分类方法的处理示意图。
22.图2是部分预训练好的300维大小为3.5g的中文预训练词向量的示意图。
具体实施方式
23.以下结合附图和具体实施例对本发明作进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。
24.如图1所示，本发明实施例的基于数据增强的sa-lstm对停电新闻的文本分类方法，包括数据增强、模型训练两个阶段。
25.步骤(1)：数据增强阶段
26.该阶段用于将标注的少量停电新闻文本训练数据集采取相应处理后产生更多的带标注数据；该阶段的所有操作过程均自动完成，无需人工介入。
27.数据增强的操作，主要采取对训练集中的每个句子执行关键词的同义词替换和随
机插入标点符号操作，具体步骤如下：
28.步骤(11)，从句子中提取p个关键词，p需要小于句子分词后的长度。从提取的关键词中随机选取n(n≤p)个不属于指定停用词集的关键词，每个被选取的关键词从其同义词集中随机选取一个进行替换，随后得到新的句子。
29.步骤(12)，随机选取i个标点符号并随机选取一个位置插入到句子中，随后得到新的句子。
30.步骤(13)，如果步骤(11)中无法提取出p个关键词，但仍然能够提取出不少于n个关键词，则继续进行关键词替换操作。
31.步骤(14)如果步骤(11)中被选取的关键词没有同义词，则跳过该关键词并随机替换成其它未被选中的关键词并继续关键词替换操作。
32.步骤(15)，如果步骤(11)中无法提取出p个关键词，且能够提取的关键词数小于n个，则全部进行同义词替换操作，遇到没有同义词的关键词则跳过。
33.步骤(16)，将步骤(11)和步骤(12)中得到的新句子和原有训练集进行合并得到数据增强后的新训练集。
34.其中，作为一个可选实施例，步骤(1)中进行数据增强的停电新闻文本数据来源于各类新闻平台上的停电新闻文本，并通过标注平台对其中的若干(如 100篇)新闻文本按照句子粒度标注成事故发生时间、事故原因、事故起始等7 类。
35.其中，为了保证进行数据增强后的句子的表达意思和原有句子相似，不会改变句子的原意，只使用同义进行替换或者只插入随机标点符号改变词的位置。
36.具体地，采用hanlp提取句子中多个(如4个)能够反映该句主要内容的关键词，并随机选择其中的关键词(如2个)通过synonyms获取关键词的同义词集，随机选择1个同义词集中相似度符合要求阈值(如相似度大于0.7)的同义词进行替换。
37.另外一个数据增强操作是，在每个句子中随机插入多个(如6个)标点符号到句子中的任意位置，其中需要注意的是，标点符号的插入位置不能位于一个完整词的中间。
38.例如：
39.某地发生全国性停电，影响到23个州中的至少13个州以及首都，这些地方的交通灯和地铁在高峰时段停止工作，给城市道路造成了混乱。
→
某地，发生全国性。停电，影响！到23个州中的至少13个州以及首都，这些地方的交通灯/和地铁在高峰时段。停止工作，！给城市道路造成了混乱。
40.经过数据增强后得到8000条带标注的数据。
41.步骤(2)：训练阶段
42.经过数据增强后的训练数据集通过双向lstm网络进行特征提取，具体步骤如下：
43.步骤(21)，在模型的输入嵌入层中对输入的训练集文本进行分词、去除停用词、大写转小写等预处理操作，得到词序列。
44.步骤(22)，通过预训练词向量对词序列进行词嵌入(embedding)操作，得到映射后的词向量。
45.步骤(23)，将词向量输入到双向lstm网络中进行特征提取；
46.其具体公式如下：
47.i
t
＝σ(wi·
[h
t-1
，x
t
]+bi)#(1)
[0048]ft
＝σ(wf·
[h
t_1
，x
t
]+bf)#(2)
[0049]ot
＝σ(wo·
[h
t-1
，x
t
]+bo)#(3)
[0050][0051][0052]ht
＝o
t
*tanh(c
t
)#(6)
[0053][0054]
其中，wi为输入门的可训练权重矩阵参数，h
t-1
为t-1时刻的隐藏层输出， x
t
为t时刻的输入，bi为输入门的可训练偏置项参数，σ(
·
)为sigmoid函数，i
t
为输入门在t时刻的输出，wf为遗忘门的可训练权重矩阵参数，bf为遗忘门的可训练偏置项参数，f
t
为遗忘门在t时刻的输出，wo为输出门的可训练权重矩阵参数，bo为输出门的可训练偏置项参数，o
t
为输出门在t时刻的输出，wc为t 时刻的临时单元状态的可训练权重矩阵参数，bc为当前单元状态的可训练偏置项参数，为t时刻的临时单元状态，c
t
为t时刻的单元状态，c
t-1
为t-1时刻的单元状态，h
t
为t时刻的隐藏层输出，为第l层的前向输出，为第l层的后向输出，表示串联，hi是词向量经过lstm后得到的特征向量。
[0055]
进一步，定义特征向量hi组成的特征矩阵
[0056]
h＝(h1，h2，...hn)#(8)
[0057]
其中，u为bilstm的隐藏层状态的维数，n为输入维度。
[0058]
步骤(24)，将前述得到的特征矩阵h，通过自注意力机制(self-attention) 进一步捕获句子中相互依赖的特征并得到新特征矩阵ha，具体公式如下：
[0059][0060]
其中q，k，v为双向lstm的输出特征矩阵h，即q＝k＝v＝h。
[0061]
步骤(25)，将自注意力机制输出的新特征矩阵ha输入到全连接层，然后再将全连接层的输出输入到softmax中进行分类。
[0062]
其中，步骤(2)首先输入模型的数据为句子，为了方便模型训练，需要对句子进行分词操作。分词工具使用hanlp，然后通过预训练词向量进行词嵌入操作。
[0063]
其中，预训练词向量采用的是chinese word vectors中经综合语料训练得到的中文预训练词向量，利用该预训练词向量将分词后的词用300维的向量进行表示，得到词向量x＝(x1，x2，...xn)。
[0064]
参见图2，该图示出了部分预训练好的300维大小为3.5g的中文预训练词向量：将句子的词向量x输入到bilstm网络中得到该句子的特征矩阵h，并进一步输入到自注意力机制中得到新特征矩阵ha，最后输入到全连接层中并通过 softmax得到最终的文本分类结果。
[0065]
另外，需要说明的是，本发明的文本分类方法不只局限于对停电新闻进行文本分类，对其它文本分类任务也具有十分重要的借鉴意义。
[0066]
本发明提出的基于数据增强的sa-lstm对停电新闻的文本分类方法，相比于传统
文本分类方法更加适用于低标注数据的停电新闻，具有更好分类性能。
[0067]
以上所述仅是本发明的优选实施方式，应当指出的是，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。

技术特征：
1.一种引入数据增强的sa-lstm对停电新闻的文本分类方法，其特征在于，包括数据增强以及模型训练两个阶段：数据增强是用于将标注的少量停电新闻文本训练数据集按预设方法产生更多的带标注数据；步骤是：从训练数据集的句子中提取p个关键词，从提取的关键词中随机选取n个不属于指定停用词集的关键词，p需要小于该句子分词后的长度，n≤p，从每个被选取的关键词的同义词集中随机选取一个同义词对被选取的关键词进行替换，得到第一新句子；随机选取i个标点符号并随机选取一个位置插入到所述句子中，得到第二新句子；将第一新句子及第二新句子与初始的训练数据集进行合并得到数据增强后的新训练数据集；模型训练是用数据增强后形成的新训练数据集通过双向lstm网络模型进行特征提取，输出分类结果；步骤是：在模型的输入嵌入层中对输入的训练数据集的文本进行预处理操作，得到词序列；通过预训练词向量对所述词序列进行词嵌入操作，得到映射后的词向量；将所述词向量输入到双向lstm网络模型中进行特征提取，得到特征向量，将由所述特征向量得到的特征矩阵通过自注意力机制捕获句子中相互依赖的特征并得到新特征矩阵，将新特征矩阵输入到全连接层，然后再将全连接层的输出输入到softmax中进行分类，得到分类结果。2.根据权利要求1所述引入数据增强的sa-lstm对停电新闻的文本分类方法，其特征在于，若被选取的关键词没有同义词，则跳过该关键词并随机替换成其它未被选中的关键词并继续关键词替换操作。3.根据权利要求1或2所述引入数据增强的sa-lstm对停电新闻的文本分类方法，其特征在于，所述预处理包括分词、去除停用词、英文字母大写转小写；分词采用hanlp技术。4.根据权利要求3所述引入数据增强的sa-lstm对停电新闻的文本分类方法，其特征在于，通过synonyms获取所提取的关键词的同义词集。5.根据权利要求1所述引入数据增强的sa-lstm对停电新闻的文本分类方法，其特征在于，标点符号插入位置不能位于一个完整词的中间。6.根据权利要求1所述引入数据增强的sa-lstm对停电新闻的文本分类方法，其特征在于，采用hanlp技术提取句子中的关键词。

技术总结
本发明公开一种引入数据增强的SA-LSTM对停电新闻的文本分类方法，包括数据增强以及模型训练两个阶段：数据增强是用于将标注的少量停电新闻文本训练数据集按预设方法产生更多的带标注数据；模型训练是用数据增强后形成的新训练数据集通过双向LSTM网络模型进行特征提取，输出分类结果。本发明能够显著提升只有少量标注的停电新闻文本分类的准确率。少量标注的停电新闻文本分类的准确率。少量标注的停电新闻文本分类的准确率。

技术研发人员：饶国政吕鹏浩
受保护的技术使用者：天津大学
技术研发日：2022.01.19
技术公布日：2022/7/5

转载请注明原文地址: https://www.8miu.com/read-12897.html

专利

最新回复(0)