1.本技术涉及文本信息处理的技术领域,尤其是涉及一种工单文本内容分析方法、系统、设备及介质。
背景技术:2.在税务办事过程中,会产生大量工单,这些工单中包含业务内容和答复内容等信息;其中,业务内容为用户的各种提问信息;答复内容为呼叫中心座席的对用户提问的回答信息。
3.目前,通常采用人工分析或实体识别的方法对工单中的文本信息进行分析,确定工单的税务场景种类和税务诉求种类。但是,如果采用人工分析的方法,不仅分析量大,而且人工成本高,如果采用实体识别的方法,计算量大且精准度低。
技术实现要素:4.为了精准的分析工单信息,本技术提供一种工单文本内容分析方法、系统、设备及介质。
5.第一方面,本技术提供一种工单文本内容分析方法,采用如下的技术方案:
6.一种工单文本内容分析方法,包括:
7.提取工单中的文本内容,对所述文本内容进行第一预处理;
8.基于训练好的税务场景分类模型,对第一预处理后的文本内容进行税务场景分类,得到税务场景种类;
9.基于训练好的税务诉求分类模型,对第一预处理后的文本内容进行税务诉求分类,得到税务诉求种类。
10.通过采用上述技术方案,利用税务场景分类模型和税务诉求分类模型,自动对工单进行分析处理,得到税务场景种类和税务诉求种类;相比于传统的人工分析和实体识别,不仅能大大节省计算量,提高工作效率,还能提升税务场景种类和税务诉求种类分类精度。
11.优选的,所述税务场景分类模型的训练方法,包括:
12.采集样本,对所述样本进行第二预处理;
13.设置损失函数和损失权重,基于第二预处理后的样本、损失函数和损失权重对所述税务场景分类模型进行训练和优化。
14.通过采用上述技术方案,对样本进行第二预处理,使第二预处理后的样本更好的适用于作为税务场景分类模型的输入;基于损失函数和损失权重的配合使用,提升税务场景分类模型对税务场景种类的分类精度。
15.优选的,所述税务诉求分类模型的训练方法,包括:
16.采集样本,对所述样本进行第二预处理;
17.设置损失函数和损失权重,基于第二预处理后的样本、损失函数和损失权重对所述税务诉求分类模型进行训练和优化。
18.通过采用上述技术方案,对样本进行第二预处理,使第二预处理后的样本更好的适用于作为税务诉求分类模型的输入;基于损失函数和损失权重的配合使用,提升税务诉求分类模型对税务诉求种类的分类精度。
19.优选的,在所述基于训练好的税务场景分类模型,对第一预处理后的文本内容进行税务场景分类,得到税务场景种类之后,还包括:
20.根据所述文本内容和税务场景种类,构建第一框架表。
21.通过采用上述技术方案,构建第一框架表,直观明了的展示文本内容和对应的税务场景种类,方便用户了解详情。
22.优选的,在所述基于训练好的税务诉求分类模型,对第一预处理后的文本内容进行税务诉求分类,得到税务诉求种类之后,还包括:
23.根据所述文本内容和税务诉求种类,构建第二框架表。
24.通过采用上述技术方案,构建第二框架表,直观明了的展示文本内容和对应的税务诉求种类,方便用户了解详情。
25.优选的,在得到税务场景种类和税务诉求种类之后,还包括:
26.根据所述文本内容、税务场景种类和税务诉求种类,构建第三框架表。
27.通过采用上述技术方案,构建第三框架表,直观明了的展示文本内容和对应的税务场景种类、税务诉求种类,方便用户了解详情。
28.第二方面,本技术提供一种工单文本内容分析系统,采用如下的技术方案:
29.一种工单文本内容分析系统,包括,
30.文本内容提取模块,用于提取工单中的文本内容,对所述文本内容进行第一预处理;
31.税务场景分类模块,用于基于训练好的税务场景分类模型,对第一预处理后的文本内容进行税务场景分类,得到税务场景种类;以及,
32.税务诉求分类模块,用于基于训练好的税务诉求分类模型,对第一预处理后的文本内容进行税务诉求分类,得到税务诉求种类。
33.第三方面,本技术提供一种计算机设备,采用如下的技术方案:
34.一种计算机设备,包括存储器和处理器,所述存储器上存储有能够被处理器加载并执行第一方面任一项所述的工单文本内容分析方法的计算机程序。
35.第四方面,本技术提供一种计算机可读存储介质,采用如下的技术方案:
36.一种计算机可读存储介质,存储有能够被处理器加载并执行第一方面任一项所述的工单文本内容分析方法的计算机程序。
附图说明
37.图1是本技术实施例提供的工单文本内容分析方法的流程示意图。
38.图2是本技术实施例提供的字段a、字段b、业务内容和答复内容的示意图。
39.图3是本技术实施例提供的工单文本内容分析系统的结构框图。
40.图4是本技术实施例提供的计算机设备的结构示意图。
具体实施方式
41.为使本技术实施例的目的、技术方案和优点更加清楚,下面将结合本技术实施例中的附图,对本技术实施例中的技术方案进行清楚、完整地描述。
42.本实施例提供一种工单文本内容分析方法,如图1所示,该方法的主要流程描述如下(步骤s101~s103):
43.步骤s101:提取工单中的文本内容,对文本内容进行第一预处理。
44.本实施例中,查询工单中文本内容所在的字段,提取字段下的文本内容;其中,工单可以为调研的公司内部税务工单,文本内容包括业务内容和答复内容,业务内容为用户的各种提问信息;答复内容为呼叫中心座席的对用户提问的回答信息。
45.例如,参照图2,通过人工查看,知道某类工单中业务内容所属的字段为字段a,答复内容所属的字段为字段b,则对于该类工单,通过查询字段a,提取字段a下的业务内容,通过查询字段b,提取字段b下的答复内容。
46.其中,第一预处理包括非常规字符清除、分词、无用词汇清除、干扰文本清除、特殊符号清除、内容整合提取和特征转换。
47.具体的,非常规字符清除:清除样本中“#”、“@”和“~”等非常规字符。
48.分词:对业务内容和答复内容进行分词,例如,“个税如何申报”分词后为:“个税”、“如何”、“申报”。
49.无用词汇清除:将分词后的业务内容中的“无效”和“ceshi”等无效词汇清除;将分词后的答复内容中的“无效”和“ceshi”等无效词汇清除。
50.干扰文本清除:判断业务内容的字符数是否大于预设字符数(本实施例中,预设字符数可以为80);若是,则将业务内容中的“您好,我是xxx号咨询员”、“留言时间:xxxx,留言人:xxx”等干扰文本清除;和对业务内容进行干扰文本清除同理,对答复内容进行干扰文本清除。
51.特殊符号清除:清除业务内容和答复内容中的特殊字符,特殊字符包括*、《、》、!和换行符。
52.内容整合提取:判断业务内容的字数是否大于预设字数(本实施例中,预设字数可以为150);若是,则提取业务内容的前15个字和后15个字,提取答复内容的前15个字和后15个字,将提取后的业务内容和答复内容共同作为最终的文本内容;若否,则将整体的业务内容和答复内容作为最终的文本内容。
53.特征转换:将样本进行embedding向量化,得到类别向量。具体的,embedding 层包括token embedding层、segment embedding层和position embedding层,因此,样本具有三种不同的向量表示,分别是token embeddings的向量表示、 segment embedding层的向量表示和position embedding层的向量表示;其中,三种向量均是形状为(1,n,768)的向量表示,token embeddings的向量表示为词的向量表示,segment embedding层的向量表示作用为辅助税务场景分类模型区分成对的输入序列,position embedding层的向量表示作用为让税务场景分类模型知道输入的样本具有时间属性。对三种向量进行元素求和,得到一个形状为(1,n,768)的单一向量表示,该向量表示为税务场景分类模型的编码器层的输入,本实施例中,将作为编码器层输入的向量表示称为类别向量。
54.值得注意的是,第一预处理的顺序可以依次为非常规字符清除、分词、无用词汇清
除、干扰文本清除、特殊符号清除、内容整合提取和特征转换。业务内容和答复内容为一一对应的关系,一条文本内容包括一一对应的业务内容和答复内容。
55.步骤s102:基于训练好的税务场景分类模型,对第一预处理后的文本内容进行税务场景分类,得到税务场景种类。
56.其中,税务场景分类模型的训练方法为:采集样本,对样本进行第二预处理;设置损失函数和损失权重,基于第二预处理后的样本、损失函数和损失权重对税务场景分类模型进行训练和优化。
57.具体的,样本包括业务内容和答复内容,样本的采集源可以为税务热线工单和国家税务总局办税指南,样本的采集方法和步骤s101中文本内容的采集方法原理一致,在此不再赘述。
58.第二预处理包括数据标注、非常规字符清除、分词、无用词汇清除、遮蔽、干扰文本清除、特殊符号清除、内容整合提取和特征转换,并且第二预处理的顺序可以依次为数据标注、非常规字符清除、分词、无用词汇清除、遮蔽、干扰文本清除、特殊符号清除、内容整合提取和特征转换。
59.其中,数据标注:数据标注为对样本打标签的过程。从税务场景和税务诉求两个维度对样本进行标注。基于样本中的业务内容,对样本标注税务场景种类,税务场景种类包括“申报纳税”和“汇算清缴”等57个种类;基于样本中的答复内容,对样本标注税务诉求种类,税务诉求种类包括“系统操作”和“办理流程”等11个种类。
60.遮蔽:采用word2vec词向量对分词后的样本进行训练,找到相似的词;对于相似的词,人工筛选词向量相似但实际意思不相似的词,并使用bert模型的mask功能,对词向量相似但实际意思不相似的词进行遮蔽。
61.第二预处理中的其余步骤和第一预处理的方法步骤一致,在此不再赘述。
62.将第二预处理后的样本按照预设比例划分为训练集和验证集,例如,预设比例可以为8:2,百分之80的样本作为训练集,百分之20的样本作为验证集。
63.预训练的税务场景分类模型采用具有12层的transformer的bert模型作为基础模型,编码器层为bert模型其中的一层;税务场景分类模型还包括全连接层,ert模型最后一层的[cls]标记字符对应的向量表示作为税务场景分类模型中全连接层的输入,全连接层的输出维度数为税务场景种类的类别个数即57。
[0064]
选择cross entropy loss(reduction=mean)函数作为训练税务场景分类模型的损失函数;为了减少样本不均衡带来的误差,依据数据集中不同类别的占比,为损失函数设定不同的损失权重,以此来平衡不同类别间的优化速度,同时,通过损失函数和损失权重的配合使用,提升税务场景分类模型对税务场景种类的分类精度。
[0065]
其中,cross entropy loss损失函数的公式如下:
[0066][0067]
其中,c为总类别数量;c为当前标签对应的标号;i为当前的标签数;e 为数学常数;x为输入类别向量;y为目标类别向量;xc为输入类别向量x在c 类上的输入大小;yc为目标类别向量y在c类上的目标大小。例如,共有1000 个样本,总类别数量为57个,当标记到第
20个样本时,该样本应标记为57个类别中的第50个类别,所以此时,c为50,i为20。
[0068]
训练税务场景分类模型时,设置训练迭代次数为15即epochs=15,设置批次大小为64即batch_size=64,设置最大文本截取长度为128即max_length=128,设置学习率为5*10-5
即learning_rste=5*10-5
。使用训练集对税务场景分类模型进行训练,使用crossentropyloss(reduction=mean)函数作为损失函数并依据训练集中的类别分布比例分配不同的损失权重,每个batch的crossentropyloss(reduction=mean)计算过程为:
[0069][0070][0071][0072]
其中,l为整个batch的损失向量,shape=(batch_size);x为整个batch的输入类别向量,可和上述crossentropyloss损失函数公式中的x相同,shape=(batch_size,c);y为整个batch的目标类别向量,可和上述crossentropyloss损失函数公式中的y相同,shape=(batch_size,c);i为当前标签向量;n为当前的batch数;ln为l内第n个输入类别向量xn与目标类别向量yn间的损失大小;n为batch大小;x
(n,c)
为batch内第n个输入类型向量在c分类上的输入大小;y
(n,c)
为batch内第n个目标类别向量在c分类上的目标大小;ωc为目标类别c对应的权重。
[0073]
税务场景分类模型训练完毕后,对税务场景分类模型进行优化。具体的,采用f1-score指标,使用验证集对训练后的税务场景分类模型进行评估,根据评估结果调整税务场景分类模型的参数,直至找到验证集最优解。
[0074]
将第一预处理后的文本内容输入至训练和优化后的税务场景分类模型,税务场景分类模型计算第一预处理后的文本内容所属每种税务场景种类的概率值,选取最大概率值对应的税务场景种类作为输出结果。
[0075]
进一步地,根据文本内容和税务场景种类,构建第一框架表。具体参照下述表1。
[0076]
表1
[0077][0078]
其中,表格中用“已回复”表示答复内容。
[0079]
步骤s103:基于训练好的税务诉求分类模型,对第一预处理后的文本内容进行税务诉求分类,得到税务诉求种类。
[0080]
其中,税务诉求分类模型的训练方法为:采集样本,对样本进行第二预处理;设置损失函数和损失权重,基于第二预处理后的样本、损失函数和损失权重对税务诉求分类模
型进行训练和优化。税务诉求分类模型的具体训练方法和步骤s102中税务场景分类模型的具体训练方法一致,在此不再赘述。
[0081]
将第一预处理后的文本内容输入至训练和优化后的税务诉求分类模型,税务诉求分类模型计算第一预处理后的文本内容所属每种税务诉求种类的概率值,选取最大概率值对应的税务诉求种类作为输出结果。
[0082]
进一步地,根据文本内容和税务诉求种类,构建第二框架表。具体参照下述表2。
[0083]
表2
[0084][0085]
进一步地,还可以根据文本内容、税务场景种类和税务诉求种类,构建税务框架表。具体参照下述表3。
[0086]
表3
[0087][0088]
值得注意的是,若工单中没有相应的种类信息,则表格中相应单元格为空。
[0089]
综上所述,利用深度学习技术,在节省计算量的同时,构建出一套精细的税务场景种类框架和税务诉求种类框架,随着样本的增多,不断完善税务场景分类模型和税务诉求分类模型,扩充框架,增大标签覆盖率,提升税务场景种类和税务诉求种类的分类精度;本技术对工单进行文本结构化,提取工单中的业务内容和答复内容等信息并对这些信息进行分析分类,帮助业务人员及时了解当前咨询热点和集中咨询的业务,以便后续在辅导纳税人更方便办税。
[0090]
值得注意的是,步骤s102~s103之间的执行顺序可根据需求自行调整,图 1中示出的步骤顺序仅是其中一种方式,还可以在步骤s101之后,步骤s102和 s103同步执行,也可以先执行步骤s103,后同步执行步骤s102。因此,图1中的步骤顺序并不限制本技术的保护范围。
[0091]
为了更好地实施以上方法,本技术实施例还提供了一种工单文本内容分析系统,该系统具体可以集成在计算机设备中,例如终端或服务器等设备中,该终端可以包括但不限于手机、平板电脑或台式电脑等设备。
[0092]
图3为本技术实施例提供的一种工单文本内容分析系统的结构框图,如图3 所示,该系统主要包括:
[0093]
文本内容提取模块201,用于提取工单中的文本内容,对所述文本内容进行第一预处理;
[0094]
税务场景分类模块202,用于基于训练好的税务场景分类模型,对第一预处理后的文本内容进行税务场景分类,得到税务场景种类;以及,
[0095]
税务诉求分类模块203,用于基于训练好的税务诉求分类模型,对第一预处理后的文本内容进行税务诉求分类,得到税务诉求种类。
[0096]
上述实施例提供的方法中的各种变化方式和具体实例同样适用于本实施例的工单文本内容分析系统,通过前述对工单文本内容分析方法的详细描述,本领域技术人员可以清楚的知道本实施例中的工单文本内容分析系统的实施方法,为了说明书的简洁,在此不再详述。
[0097]
为了更好地执行上述方法的程序,本技术实施例还提供一种计算机设备,如图4所示,计算机设备300包括存储器301和处理器302。
[0098]
计算机设备300可以以各种形式来实施,包括手机、平板电脑、掌上电脑、笔记本电脑和台式计算机等设备。
[0099]
其中,存储器301可用于存储指令、程序、代码、代码集或指令集。存储器301可以包括存储程序区和存储数据区,其中,存储程序区可存储用于实现操作系统的指令、用于至少一个功能的指令(比如训练的税务场景分类模型和税务诉求分类模型等)以及用于实现上述实施例提供的工单文本内容分析方法的指令等;存储数据区可存储上述实施例提供的工单文本内容分析方法中涉及到的数据等。
[0100]
处理器302可以包括一个或者多个处理核心。处理器302通过运行或执行存储在存储器301内的指令、程序、代码集或指令集,调用存储在存储器301 内的数据,执行本技术的各种功能和处理数据。处理器302可以为特定用途集成电路(application specific integrated circuit,asic)、数字信号处理器 (digital signal processor,dsp)、数字信号处理装置(digital signalprocessing device,dspd)、可编程逻辑装置(programmable logic device, pld)、现场可编程门阵列(field programmable gate array,fpga)、中央处理器(central processing unit,cpu)、控制器、微控制器和微处理器中的至少一种。可以理解地,对于不同的设备,用于实现上述处理器302功能的电子器件还可以为其它,本技术实施例不作具体限定。
[0101]
本技术实施例提供一种计算机可读存储介质,例如包括:u盘、移动硬盘、只读存储器(read only memory,rom)、随机存取存储器(random access memory, ram)、磁碟或者光盘等各种可以存储程序代码的介质。该计算机可读存储介质存储有能够被处理器加载并执行上述实施例的工单文本内容分析方法的计算机程序。
[0102]
本技术具体实施例仅仅是对本技术的解释,其并不是对本技术的限制,本领域技术人员在阅读完本说明书后可以根据需要对本实施例做出没有创造性贡献的修改,但只要在本技术的权利要求范围内都受到专利法的保护。
技术特征:1.一种工单文本内容分析方法,其特征在于,包括:提取工单中的文本内容,对所述文本内容进行第一预处理;基于训练好的税务场景分类模型,对第一预处理后的文本内容进行税务场景分类,得到税务场景种类;基于训练好的税务诉求分类模型,对第一预处理后的文本内容进行税务诉求分类,得到税务诉求种类。2.根据权利要求1所述的方法,其特征在于,所述税务场景分类模型的训练方法,包括:采集样本,对所述样本进行第二预处理;设置损失函数和损失权重,基于第二预处理后的样本、损失函数和损失权重对所述税务场景分类模型进行训练和优化。3.根据权利要求1所述的方法,其特征在于,所述税务诉求分类模型的训练方法,包括:采集样本,对所述样本进行第二预处理;设置损失函数和损失权重,基于第二预处理后的样本、损失函数和损失权重对所述税务诉求分类模型进行训练和优化。4.根据权利要求1所述的方法,其特征在于,在所述基于训练好的税务场景分类模型,对第一预处理后的文本内容进行税务场景分类,得到税务场景种类之后,还包括:根据所述文本内容和税务场景种类,构建第一框架表。5.根据权利要求1所述的方法,其特征在于,在所述基于训练好的税务诉求分类模型,对第一预处理后的文本内容进行税务诉求分类,得到税务诉求种类之后,还包括:根据所述文本内容和税务诉求种类,构建第二框架表。6.根据权利要求1所述的方法,其特征在于,在得到税务场景种类和税务诉求种类之后,还包括:根据所述文本内容、税务场景种类和税务诉求种类,构建第三框架表。7.一种工单文本内容分析系统,其特征在于,包括,文本内容提取模块,用于提取工单中的文本内容,对所述文本内容进行第一预处理;税务场景分类模块,用于基于训练好的税务场景分类模型,对第一预处理后的文本内容进行税务场景分类,得到税务场景种类;以及,税务诉求分类模块,用于基于训练好的税务诉求分类模型,对第一预处理后的文本内容进行税务诉求分类,得到税务诉求种类。8.一种计算机设备,其特征在于,包括存储器和处理器,所述存储器上存储有能够被所述处理器加载并执行如权利要求1至6中任一种方法的计算机程序。9.一种计算机可读存储介质,其特征在于,存储有能够被处理器加载并执行如权利要求1至6中任一种方法的计算机程序。
技术总结本申请涉及一种工单文本内容分析方法、系统、设备及介质,涉及文本信息处理的技术领域,其方法包括提取工单中的文本内容,对所述文本内容进行第一预处理;基于训练好的税务场景分类模型,对第一预处理后的文本内容进行税务场景分类,得到税务场景种类;基于训练好的税务诉求分类模型,对第一预处理后的文本内容进行税务诉求分类,得到税务诉求种类。本申请具有精准的分析工单信息的效果。精准的分析工单信息的效果。精准的分析工单信息的效果。
技术研发人员:张子墨 周航 宋志远
受保护的技术使用者:北京零点有数数据科技股份有限公司
技术研发日:2022.04.19
技术公布日:2022/7/5