1.本技术涉及计算机领域,尤其涉及一种模型训练及语种分类方法、装置、设备及存储介质。
背景技术:2.在台词生产的过程中,会存在生产带有中英混合字幕的影视剧台词的情况。为确保台词生产的准确性,在检测到台词的文本框后,会采用语种分类算法对检测到的文本框进行语种的识别,根据识别到的结果,确定文本框具体采用中文ocr(optical character recognition,光学字符识别)或者英文ocr。
3.在语种分类算法应用中,所输入的文本框是通过文字检测算法ctpn获得的。采用ctpn会对只有背景信息、但是无任何文字内容的文本框(如图1所示)进行误检测,因此如何识别出这类文本框成为本领域人员亟待解决的技术问题。
技术实现要素:4.本技术提供了一种模型训练及语种分类方法、装置、设备及存储介质,用以解决相关技术中对只有背景信息、但是无任何文字内容的文本框进行误检测的问题。
5.第一方面,提供一种模型训练方法,包括:
6.获取第一类样本图片和第二类样本图片;所述第一类样本图片包括n张第一样本图片;任一所述第一样本图片中的字符所占的区域与所述第一样本图片的区域的区域比大于第一阈值;所述第二类样本图片包括m张第二样本图片,任一所述第二样本图片中的字符所占的区域与所述第二样本图片的区域的区域比小于第二阈值;
7.采用所述第一类样本图片对语种分类模型进行训练并直至所述语种分类模型收敛,得到阶段语种分类模型;
8.采用所述第二类样本图片对所述阶段语种分类模型进行训练直至所述阶段语种分类模型收敛,得到最终语种分类模型。
9.可选地,采用所述第一类样本图片对语种分类模型进行训练,得到阶段语种分类模型,包括:
10.对于所述第一类样本图片中的任一所述第一样本图片,执行以下处理:
11.经由所述语种分类模型对所述第一样本图片进行处理,得到s*t的评分矩阵,s为所述第一样本图片所划分出的子区域的个数,t为预先设置的语种的个数,所述评分矩阵中的每个元素指示一个子区域的语种类别为所述t个语种中的一个语种的得分;
12.基于所述评分矩阵,生成最优路径;所述最优路径包括s个语种;所述s个语种中的任意一个语种,在所述评分矩阵中与所述任意一个语种所在行的得分最高;
13.基于所述最优路径和所述第一样本图片的标注信息,计算损失函数;
14.采用所述损失函数对所述语种分类模型的参数进行优化。
15.可选地,采用所述第二类样本图片对所述阶段语种分类模型进行训练,得到最终
语种分类模型,包括:
16.对于所述第二类样本图片中的任一所述第二样本图片,执行以下处理:
17.对所述第二样本图片的区域进行划分,得到p个子区域;
18.采用所述阶段语种分类模型识别所述p个子区域中具有字符特征的目标子区域以及不具有字符特征的非目标子区域;
19.基于所述目标子区域和所述字符特征,预测所述目标子区域对应的语种类别的得分;以及预测所述非目标子区域对应的语种类别的得分;
20.基于所述目标子区域的语种类别的得分和所述非目标子区域的语种类别的得分,得到最优路径;
21.基于所述最优路径和所述第二样本图片的标注信息,计算损失函数;
22.采用所述损失函数对所述阶段语种分类模型的参数进行优化。
23.可选地,所述第一类样本包括从影音视频的字幕中截取的图片、以及基于脚本贴图制作的图片两种图片;
24.所述第二类样本包括从影音视频的字幕文本中截取的图片、以及基于脚本贴图制作的图片两种图片。
25.可选地,所述语种分类模型至少包括:
26.用于提取样本图片的隐含层特征向量的卷积神经网络、以及基于所述隐含层特征向量提取所述样本图片的语义信息的循环神经网络,所述语义信息用于生成所述评分矩阵。
27.第二方面,提供一种语种分类方法,包括:
28.获取待识别文本图片,所述待识别文本图片中不具有字符;
29.采用第一方面所述的模型训练方法训练得到的最终语种分类模型,对所述待识别文本图片进行识别,得到评分矩阵,所述评分矩阵中每行数据得分最高的语种类别为空;
30.基于所述评分矩阵得到最优路径;
31.对所述最优路径进行归一化,得到指示所述待识别文本图片的语种类别为空的识别结果。
32.第三方面,提供一种模型训练装置,包括:
33.第一获取单元,用于获取第一类样本图片和第二类样本图片;所述第一类样本图片包括n张第一样本图片;任一所述第一样本图片中的字符所占的区域与所述第一样本图片的区域的区域比大于第一阈值;所述第二类样本图片包括m张第二样本图片,任一所述第二样本图片中的字符所占的区域与所述第二样本图片的区域的区域比小于第二阈值;
34.第一训练单元,用于采用所述第一类样本图片对语种分类模型进行训练并直至所述语种分类模型收敛,得到阶段语种分类模型;
35.第二训练单元,用于采用所述第二类样本图片对所述阶段语种分类模型进行训练直至所述阶段语种分类模型收敛,得到最终语种分类模型。
36.第四方面,提供一种语种分类装置,包括:
37.第二获取单元,待识别文本图片,所述待识别文本图片中不具有字符;
38.获得单元,用于采用第一方面所述的模型训练方法训练得到的最终语种分类模型,对所述待识别文本图片进行识别,得到评分矩阵,所述评分矩阵中每行数据得分最高的
语种类别为空;
39.第二获得单元,用于基于所述评分矩阵得到最优路径;
40.归一化单元,用于对所述最优路径进行归一化,得到指示所述待识别文本图片的语种类别为空的识别结果。
41.第五方面,提供一种电子设备,包括:处理器、存储器和通信总线,其中,处理器和存储器通过通信总线完成相互间的通信;
42.所述存储器,用于存储计算机程序;
43.所述处理器,用于执行所述存储器中所存储的程序,实现第一方面的模型训练方法或第二方面所述的语种分类方法。
44.第六方面,提供一种计算机可读存储介质,存储有计算机程序,所述计算机程序被处理器执行时实现第一方面的模型训练方法或第二方面所述的语种分类方法。
45.本技术实施例提供的上述技术方案与现有技术相比具有如下优点:本技术实施例提供的该方法,由于采用第一类样本图片和第二类样本图片分别对语种分类模型进行训练,所以采用得到的语种分类模型能够识别只有背景信息、但是无任何文字内容的文本图片,以此解决了相关技术中存在的对只有背景信息但是无任何文字内容的文本图片的误检测的问题。
附图说明
46.此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本发明的实施例,并与说明书一起用于解释本发明的原理。
47.为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,对于本领域普通技术人员而言,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
48.图1为相关技术中示出的只有背景信息、但是无任何文字内容的文本框的示意图;
49.图2为本技术实施例示出的模型训练方法的流程示意图;
50.图3为本技术实施例示出的第一样本图片的一个示意图;
51.图4为本技术实施例示出的第二样本图片的一个示意图;
52.图5为本技术实施例示出的第一样本图片的另一个示意图;
53.图6为本技术实施例示出的对应图5所示的第一样本图片的路径示意图;
54.图7为本技术实施例示出的第二样本图片的另一个示意图;
55.图8为本技术实施例示出的对应图7所示的第二样本图片的路径示意图;
56.图9为本技术实施例示出的语种分类模型寻找最优路径的示意图;
57.图10为本技术实施例示出的语种分类方法的流程示意图;
58.图11为本技术实施例示出的模型训练装置的结构示意图;
59.图12为本技术实施例示出的语种分类装置的结构示意图;
60.图13为本技术实施例示出的电子设备的结构示意图。
具体实施方式
61.为使本技术实施例的目的、技术方案和优点更加清楚,下面将结合本技术实施例
中的附图,对本技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本技术的一部分实施例,而不是全部的实施例。基于本技术中的实施例,本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本技术保护的范围。
62.需要说明的是,本技术的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本技术的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
63.本技术实施例提供一种模型训练方法,该方法可应用于任一电子设备;
64.本技术实施例所描述电子设备可以包括终端或者服务器,本技术实施例不做具体限定。其中终端包括各种具有无线通信功能的手持设备、车载设备、可穿戴设备(例如智能手表、智能手环、计步器等)、计算设备。
65.如图2所示,该方法可以包括以下步骤:
66.步骤201、获取第一类样本图片和第二类样本图片。
67.第一类样本图片包括n张第一样本图片;任一第一样本图片中的字符所占的区域与第一样本图片的区域的区域比大于第一阈值;第二类样本图片包括m张第二样本图片,任一第二样本图片中的字符所占的区域与第二样本图片的区域的区域比小于第二阈值。
68.这里的第一样本图片指的背景区域中均匀填满字符的图片,应理解这里所说的“填满”并不表示图片中没有一个区域是不填充字符的,而是表示字符所占的区域与图片的区域的区域比在一个范围内,通常大于第一阈值。应用中第一阈值可以人为根据经验设置或基于实际需要设置。所说的“均匀”指的是字符在填满第一样本图片时不是扎推填充。其中扎堆填充指的是所有的字符集中位于第一样本图片中的某个区域,而第一样本图片中的其它区域则只有背景信息但未填充字符。
69.本实施例中,无论是字符所占的区域还是样本图片的区域均可以以面积指示,即以字符在样本图片中所占的面积的大小指示字符所占的区域、以及以样本图片的面积的大小指示样本图片的区域。
70.请参照图3,图3为本实施例示出的第一样本图片的一个示意图。对于图3中的任意一个字符,该字符的高度基本与图片的宽度相同,而所有的字符的长度之和基本与图片的长度相同。需要说明的是,图片的宽度指的是图片的短边,而图片的长度则指的是图片的长边,相应地,字符的高度则指的是字符在与图片的宽度相同的方向上的长度,字符的长度则指的是字符在与图片的长度相同的方向上的长度。
71.本实施例中,第二样本图片指的是背景区域中存在部分区域完全未填充有字符。应理解,这里的部分区域的宽度与第二样本图片的宽度相同,区分区域的长度小于第二样本图片的长度。
72.请参见图4,图4为本实施例示出的第二样本图片的一个示意图。在图4中,虚框所标记的区域为第二样本图片中完全未填充有字符的区域。
73.步骤202、采用第一类样本图片对语种分类模型进行训练并直至语种分类模型收
敛,得到阶段语种分类模型。
74.本实施例中,由于第一类样本图片中的各第一样本图片均均匀的填充有字符,所以在采用第一类样本图片对语种分类模型进行训练时,可以使得语种分类模型快速学习字符以及分隔符的特征。其中分隔符指的是相邻两个字符之间的区域。
75.本实施例中,预先设置t个语种类别。在采用第一类样本图片中的第一样本图片对语种分类模型进行训练时,基于第一样本图片中各字符的类别得分生成损失函数,并采用损失函数对语种分类模型的参数进行优化,直至语种分类模型收敛,得到阶段语种分类模型。
76.一个可选实施例中,对于第一类样本图片中的任一第一样本图片,执行以下处理:
77.经由语种分类模型对第一样本图片进行处理,得到s*t的评分矩阵,s为第一样本图片所划分出的子区域的个数,t为预先设置的语种的个数,评分矩阵中的每个元素指示一个子区域的语种类别为t个语种中的一个语种的得分;基于评分矩阵,生成最优路径;最优路径包括s个语种;s个语种中的任意一个语种,在评分矩阵中与任意一个语种所在行的得分最高;基于最优路径和第一样本图片的标注信息,计算损失函数;采用损失函数对语种分类模型的参数进行优化。
78.应理解,对于不同的第一样本图片,第一样本图片所划分出的子区域的个数不同。通常子区域的计算公式如下所示:
[0079][0080]
其中s为第一样本图片所划分出的子区域的个数;l为第一样本图片的长度;δ为预设的划分系数,δ可以人为基于经验设置,如设置δ取16。
[0081]
应理解,第一样本图片中的字符根据字符大小的不同可以对应一个或多个子区域。当字符对应多个子区域时,多个子区域的语种类别都相同。比如当字符为中文“国”时,按照上述子区域的划分方式,该字符对应8个子区域,且8个子区域的语种类别都是“c”,这里“c”代表中文。
[0082]
本实施例中,可以设置的语种包括但不限于中文、英文、韩文、日文、西班牙文、法文以及德文等。
[0083]
以t为3、s为16为例,即语种类别为中文、英文和空,那么得到的评分矩阵即为3*16的矩阵,在该评分矩阵中的第一元素(即第一行第一列)则表示样本图片中的第一个区域为中文的得分。评分矩阵中每一行的得分最高的元素所对应的语种类别即为该行对应的子区域的语种类别。
[0084]
请分别参阅图5以及图6,图5为第一样本图片的另一个示例,图6为对应图5所示的第一样本图片的路径示意图。其中假设图5所示的第一样本图片共划分出8个子区域,即有8个位置需要预测语种类别,所有产生语种类别的路径如图6所示的两种颜色的路径。其中较粗的线条所指示的路径是所得到的最优路径。输出的结果为“∈c∈clc∈l”,其中“c”表示中文、“l”表示英文、“∈”表示分隔符。
[0085]
本实施例中,语种分类模型具体可以由cnn网络(卷积神经网络)和rnn网络(循环神经网络)构成。其中,cnn网络用于提取第一样本图片隐含层特征向量,rnn网络用于对隐含层特征向量中的语义信息进行时序性的特征提取,当采用真实样本进行训练的时候,可
提取到文本行中的语义信息。在使用真实样本测试时,可有效获取到测试样本的实际语义信息,增加语种预测的准确性。应理解,这里的语音信息用于生成评分矩阵。
[0086]
应用中,以卷积神经网络具有n个网络层级为例,基于cnn网络得到第一样本图片的隐含层特征向量的过程如下所示:
[0087]
采用第1个网络层级对样本图像进行卷积和池化,获得样本图像第1个网络层级的特征;
[0088]
采用第i个网络层级,对样本图像第i-1个网络层级的特征,进行卷积和池化,获得样本图像第i个网络层级的特征,其中,i的取值为大于1且小于n;
[0089]
采用第n个网络层级,对样本图像的第n-1个网络层级的特征,进行卷积后,获得样本图像第n个网络层级的特征;
[0090]
对第n个网络层级的特征进行l2(二范数)归一化操作,将归一化后的特征作为样本图像的隐含层特征向量。
[0091]
本实施例中,为了尽可能贴近实际应用,提高语种分类模型的识别精度,所采用的第一类样本包括真实样本和高仿真样本两种样本。其中真实样本可以为从影音视频的字幕中截取的图片,高仿真样本可以为基于脚本贴图制作的图片。
[0092]
步骤203、采用第二类样本图片对阶段语种分类模型进行训练直至阶段语种分类模型收敛,得到最终语种分类模型。
[0093]
本实施例中,由于阶段语种分类模型能够识别字符以及分隔符的特征,所以当采用第二类样本对阶段语种分类模型进行训练时,阶段语种分类模型可以快速识别第二样本图片中的字符以及分隔符,并基于对字符以及分隔符的识别快速定位字符以及分隔符的子区域,进一步基于对字符以及分隔符的子区域的定位,确定第二样本图片中只具有背景信息而未填充有字符的区域的位置和特征,并最终基于识别结果计算损失函数。
[0094]
一个可选实施例中,对于第二类样本图片中的任一第二样本图片,执行以下处理:对第二样本图片的区域进行划分,得到p个子区域;采用阶段语种分类模型识别p个子区域中具有字符特征的目标子区域以及不具有字符特征的非目标子区域;基于目标子区域和字符特征,预测目标子区域对应的语种类别;以及预测非目标子区域对应的语种类别;基于目标子区域的语种类别和非目标子区域的语种类别,得到最优路径;基于最优路径和第二样本图片的标注信息,计算损失函数;采用损失函数对阶段语种分类模型的参数进行优化。
[0095]
应理解,在基于目标子区域和字符特征预测目标子区域的对应的语种类别的得分时,针对每个预设的语种类别均预测一个得分,不同的语种类别对应的得分通常不同,而最接近的该目标子区域的实际的语种类别的得分最高。同理,非目标子区域的语种类别的得分也具有多个,即针对每个预设的语种类别,非目标子区域具有一个预测的得分,最接近该非目标子区域的实际的语种类别的得分最高。
[0096]
应理解,在基于目标子区域的语种类别的得分和非目标子区域的语种类别的得分,生成最优路径时,获取各目标子区域的语种类别的最高得分和非目标子区域的语种类别的最高得分;获取各目标子区域的语种类别的最高得分所对应的第一语种类别、以及非目标子区域的语种类别的最高得分所对应的第二语种类别;基于第一语种类别和第二语种类别生成最优路径。
[0097]
请参照图7以及图8,图7为本技术实施例示出的第二样本图片的另一示例,图8为
对应图7所示的第二样本图片的路径示意图。其中假设图7所示的第一样本图片共划分出10个子区域,即有10个位置需要预测语种类别,所有产生语种类别的路径如图8所示的三种颜色的路径。其中灰色路径是所得到的最优路径。输出的结果为“∈∈c∈clc∈l∈”。其中“c”表示中文、“l”表示英文、“∈”表示分隔符。由于有了第一阶段的训练基础,在采用动态规划进行loss计算,获得最优路径时,会更容易确定最优路径。此时所获得的最优路径与实际的样本更相符。
[0098]
本实施例中,为了尽可能贴近实际应用,提高语种分类模型的识别精度,所采用的第二类样本包括真实样本和高仿真样本两种样本。其中真实样本可以为从影音视频的字幕中截取的图片,高仿真样本可以为基于脚本贴图制作的图片。
[0099]
本实施例提供的技术方案中,由于采用第一类样本图片和第二类样本图片分别对语种分类模型进行训练,所以采用得到的语种分类模型能够识别只有背景信息、但是无任何文字内容的文本图片,以此解决了相关技术中存在的对只有背景信息但是无任何文字内容的文本图片的误检测的问题。
[0100]
为了方便对比,给出不分阶段,而是将第一类样本和第二类样本混合后对语种分类模型进行训练的对比,以下仍以语种分类模型对图7所示的样本图片进行训练为例。请参照图9,图9为语种分类模型寻找最优路径的示意图。其中仍假设图7所示的第一样本图片共划分出10个子区域,即有10个位置需要预测语种类别,所有产生语种类别的路径如图9所示的三种颜色的路径。只因为多了两个位置的语种类别预测,则导致路径数量大规模增加。可见如果样本中的第二类样本的数量很大时,且每个位置均需要预测输出指示语种类别的标签,标签数量线性增长,路径数据量会指数增长,导致计算量大大增加。
[0101]
之所以会出现图9所示出的众多路径,是因为在实际的训练过程中,由于最初模型未收敛,假设训练样本中的第二类样本的数量很大时,在计算最优路径时,有很大概率会出现所计算的路径不正确,导致字符的语种结果和实际的字符所在的位置没能匹配,即错误的文字或背景被误识别成了某一个语种。
[0102]
本技术实施例提供一种语种分类方法,该方法可应用于任一电子设备中,该电子设备中部署有最终语种分类模型,采用待识别文本图片对最终语种分类模型进行验证。如图10所示,该方法可以包括以下步骤:
[0103]
步骤1001、获取待识别文本图片,待识别文本图片中不具有字符;
[0104]
步骤1002、采用最终语种分类模型对待识别文本图片进行识别,得到评分矩阵,评分矩阵中每行数据得分最高的语种类别为空;
[0105]
步骤1003、基于评分矩阵得到最优路径;
[0106]
步骤1004、对最优路径进行归一化,得到指示待识别文本图片的语种类别为空的识别结果。
[0107]
基于同一构思,本技术实施例中提供了一种模型训练装置,该装置的具体实施可参见方法实施例部分的描述,重复之处不再赘述,如图11所示,该装置主要包括:
[0108]
第一获取单元1101,用于获取第一类样本图片和第二类样本图片;第一类样本图片包括n张第一样本图片;任一第一样本图片中的字符所占的区域与第一样本图片的区域的区域比大于第一阈值;第二类样本图片包括m张第二样本图片,任一第二样本图片中的字符所占的区域与第二样本图片的区域的区域比小于第二阈值;
[0109]
第一训练单元1102,用于采用第一类样本图片对语种分类模型进行训练并直至语种分类模型收敛,得到阶段语种分类模型;
[0110]
第二训练单元1103,用于采用第二类样本图片对阶段语种分类模型进行训练并直至阶段语种分类模型收敛,得到最终语种分类模型。
[0111]
第一训练单元1102用于:
[0112]
对于第一类样本图片中的任一第一样本图片,执行以下处理:
[0113]
经由语种分类模型对第一样本图片进行处理,得到s*t的评分矩阵,s为第一样本图片所划分出的子区域的个数,t为预先设置的语种的个数,评分矩阵中的每个元素指示一个子区域的语种类别为t个语种中的一个语种的得分;
[0114]
基于评分矩阵,生成最优路径;最优路径包括s个语种;s个语种中的任意一个语种,在评分矩阵中与任意一个语种所在行的得分最高;
[0115]
基于最优路径和第一样本图片的标注信息,计算损失函数;
[0116]
采用损失函数对语种分类模型的参数进行优化。
[0117]
第二训练单元1103用于:
[0118]
对于第二类样本图片中的任一第二样本图片,执行以下处理:
[0119]
对第二样本图片的区域进行划分,得到p个子区域;
[0120]
采用阶段语种分类模型识别p个子区域中具有字符特征的目标子区域以及不具有字符特征的非目标子区域;
[0121]
基于目标子区域和字符特征,预测目标子区域对应的语种类别的得分;以及预测非目标子区域对应的语种类别的得分;
[0122]
基于目标子区域的语种类别的得分和非目标子区域的语种类别的得分,得到最优路径;
[0123]
基于最优路径和第二样本图片的标注信息,计算损失函数;
[0124]
采用损失函数对阶段语种分类模型的参数进行优化。
[0125]
第一类样本包括从影音视频的字幕中截取的图片、以及基于脚本贴图制作的图片两种图片。
[0126]
第二类样本包括从影音视频的字幕文本中截取的图片、以及基于脚本贴图制作的图片两种图片。
[0127]
语种分类模型至少包括:
[0128]
用于提取样本图片的隐含层特征向量的卷积神经网络、以及基于隐含层特征向量提取样本图片的语义信息的循环神经网络,语义信息用于生成评分矩阵。
[0129]
基于同一构思,本技术实施例中提供了一种语种分类装置,该装置的具体实施可参见方法实施例部分的描述,重复之处不再赘述,如图12所示,该装置主要包括:
[0130]
第二获取单元1201,待识别文本图片,待识别文本图片中不具有字符;
[0131]
第一获得单元1202,用于采用模型训练方法训练得到的最终语种分类模型,对待识别文本图片进行识别,得到评分矩阵,评分矩阵中每行数据得分最高的语种类别为空;
[0132]
第二获得单元1203,用于基于评分矩阵得到最优路径;
[0133]
归一化单元1204,用于对最优路径进行归一化,得到指示待识别文本图片的语种类别为空的识别结果。
[0134]
基于同一构思,本技术实施例中还提供了一种电子设备,如图13所示,该电子设备主要包括:处理器1301、存储器1302和通信总线1303,其中,处理器1301和存储器1302通过通信总线1303完成相互间的通信。其中,存储器1302中存储有可被处理器1301执行的程序,处理器1301执行存储器1302中存储的程序,实现如下步骤:
[0135]
获取第一类样本图片和第二类样本图片;第一类样本图片包括n张第一样本图片;任一第一样本图片中的字符所占的区域与第一样本图片的区域的区域比大于第一阈值;第二类样本图片包括m张第二样本图片,任一第二样本图片中的字符所占的区域与第二样本图片的区域的区域比小于第二阈值;采用第一类样本图片对语种分类模型进行训练并直至语种分类模型收敛,得到阶段语种分类模型;采用第二类样本图片对阶段语种分类模型进行训练直至阶段语种分类模型收敛,得到最终语种分类模型;
[0136]
或,获取待识别文本图片,待识别文本图片中不具有字符;采用模型训练方法训练得到的最终语种分类模型,对待识别文本图片进行识别,得到评分矩阵,评分矩阵中每行数据得分最高的语种类别为空;基于评分矩阵得到最优路径;对最优路径进行归一化,得到指示待识别文本图片的语种类别为空的识别结果。
[0137]
上述电子设备中提到的通信总线1303可以是外设部件互连标准(peripheral component interconnect,简称pci)总线或扩展工业标准结构(extended industry standard architecture,简称eisa)总线等。该通信总线1303可以分为地址总线、数据总线、控制总线等。为便于表示,图13中仅用一条粗线表示,但并不表示仅有一根总线或一种类型的总线。
[0138]
存储器1302可以包括随机存取存储器(random access memory,简称ram),也可以包括非易失性存储器(non-volatile memory),例如至少一个磁盘存储器。可选地,存储器还可以是至少一个位于远离前述处理器1301的存储装置。
[0139]
上述的处理器1301可以是通用处理器,包括中央处理器(central processing unit,简称cpu)、网络处理器(network processor,简称np)等,还可以是数字信号处理器(digital signal processing,简称dsp)、专用集成电路(application specific integrated circuit,简称asic)、现场可编程门阵列(field-programmable gate array,简称fpga)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。
[0140]
在本技术的又一实施例中,还提供了一种计算机可读存储介质,该计算机可读存储介质中存储有计算机程序,当该计算机程序在计算机上运行时,使得计算机执行上述实施例中所描述模型训练方法或语种分类方法。
[0141]
在上述实施例中,可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时,可以全部或部分地以计算机程序产品的形式实现。该计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行该计算机指令时,全部或部分地产生按照本技术实施例所述的流程或功能。该计算机可以时通用计算机、专用计算机、计算机网络或者其他可编程装置。该计算机指令可以存储在计算机可读存储介质中,或者从一个计算机可读存储介质向另一个计算机可读存储介质传输,例如,计算机指令从一个网站站点、计算机、服务器或者数据中心通过有线(例如同轴电缆、光纤、数字用户线(dsl))或无线(例如红外、微波等)方式向另外一个网站站点、计算机、服务器或数据中心进行传输。该计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介
质集成的服务器、数据中心等数据存储设备。该可用介质可以是磁性介质(例如软盘、硬盘、磁带等)、光介质(例如dvd)或者半导体介质(例如固态硬盘)等。
[0142]
需要说明的是,在本文中,诸如“第一”和“第二”等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个
……”
限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
[0143]
以上所述仅是本发明的具体实施方式,使本领域技术人员能够理解或实现本发明。对这些实施例的多种修改对本领域的技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下,在其它实施例中实现。因此,本发明将不会被限制于本文所示的这些实施例,而是要符合与本文所申请的原理和新颖特点相一致的最宽的范围。
技术特征:1.一种模型训练方法,其特征在于,包括:获取第一类样本图片和第二类样本图片;所述第一类样本图片包括n张第一样本图片;任一所述第一样本图片中的字符所占的区域与所述第一样本图片的区域的区域比大于第一阈值;所述第二类样本图片包括m张第二样本图片,任一所述第二样本图片中的字符所占的区域与所述第二样本图片的区域的区域比小于第二阈值;采用所述第一类样本图片对语种分类模型进行训练并直至所述语种分类模型收敛,得到阶段语种分类模型;采用所述第二类样本图片对所述阶段语种分类模型进行训练直至所述阶段语种分类模型收敛,得到最终语种分类模型。2.根据权利要求1所述的方法,其特征在于,采用所述第一类样本图片对语种分类模型进行训练,得到阶段语种分类模型,包括:对于所述第一类样本图片中的任一所述第一样本图片,执行以下处理:经由所述语种分类模型对所述第一样本图片进行处理,得到s*t的评分矩阵,s为所述第一样本图片所划分出的子区域的个数,t为预先设置的语种的个数,所述评分矩阵中的每个元素指示一个子区域的语种类别为所述t个语种中的一个语种的得分;基于所述评分矩阵,生成最优路径;所述最优路径包括s个语种;所述s个语种中的任意一个语种,在所述评分矩阵中与所述任意一个语种所在行的得分最高;基于所述最优路径和所述第一样本图片的标注信息,计算损失函数;采用所述损失函数对所述语种分类模型的参数进行优化。3.根据权利要求1所述的方法,其特征在于,采用所述第二类样本图片对所述阶段语种分类模型进行训练,得到最终语种分类模型,包括:对于所述第二类样本图片中的任一所述第二样本图片,执行以下处理:对所述第二样本图片的区域进行划分,得到p个子区域;采用所述阶段语种分类模型识别所述p个子区域中具有字符特征的目标子区域以及不具有字符特征的非目标子区域;基于所述目标子区域和所述字符特征,预测所述目标子区域对应的语种类别的得分;以及预测所述非目标子区域对应的语种类别的得分;基于所述目标子区域的语种类别的得分和所述非目标子区域的语种类别的得分,得到最优路径;基于所述最优路径和所述第二样本图片的标注信息,计算损失函数;采用所述损失函数对所述阶段语种分类模型的参数进行优化。4.根据权利要求1所述的方法,其特征在于,所述第一类样本包括从影音视频的字幕中截取的图片、以及基于脚本贴图制作的图片两种图片;所述第二类样本包括从影音视频的字幕文本中截取的图片、以及基于脚本贴图制作的图片两种图片。5.根据权利要求1-4任一项所述的方法,其特征在于,所述语种分类模型至少包括:用于提取样本图片的隐含层特征向量的卷积神经网络、以及基于所述隐含层特征向量提取所述样本图片的语义信息的循环神经网络,所述语义信息用于生成所述评分矩阵。6.一种语种分类方法,其特征在于,包括:
获取待识别文本图片,所述待识别文本图片中不具有字符;采用权利要求1-5任一项所述的模型训练方法训练得到的最终语种分类模型,对所述待识别文本图片进行识别,得到评分矩阵,所述评分矩阵中每行数据得分最高的语种类别为空;基于所述评分矩阵得到最优路径;对所述最优路径进行归一化,得到指示所述待识别文本图片的语种类别为空的识别结果。7.一种模型训练装置,其特征在于,包括:第一获取单元,用于获取第一类样本图片和第二类样本图片;所述第一类样本图片包括n张第一样本图片;任一所述第一样本图片中的字符所占的区域与所述第一样本图片的区域的区域比大于第一阈值;所述第二类样本图片包括m张第二样本图片,任一所述第二样本图片中的字符所占的区域与所述第二样本图片的区域的区域比小于第二阈值;第一训练单元,用于采用所述第一类样本图片对语种分类模型进行训练并直至所述语种分类模型收敛,得到阶段语种分类模型;第二训练单元,用于采用所述第二类样本图片对所述阶段语种分类模型进行训练并直至所述阶段语种分类模型收敛,得到最终语种分类模型。8.一种语种分类装置,其特征在于,包括:第二获取单元,待识别文本图片,所述待识别文本图片中不具有字符;第一获得单元,用于采用权利要求1-5任一项所述的模型训练方法训练得到的最终语种分类模型,对所述待识别文本图片进行识别,得到评分矩阵,所述评分矩阵中每行数据得分最高的语种类别为空;第二获得单元,用于基于所述评分矩阵得到最优路径;归一化单元,用于对所述最优路径进行归一化,得到指示所述待识别文本图片的语种类别为空的识别结果。9.一种电子设备,其特征在于,包括:处理器、存储器和通信总线,其中,处理器和存储器通过通信总线完成相互间的通信;所述存储器,用于存储计算机程序;所述处理器,用于执行所述存储器中所存储的程序,实现权利要求1-5任一项所述的模型训练方法或权利要求6所述的语种分类方法。10.一种计算机可读存储介质,存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1-5任一项所述的模型训练方法或权利要求6所述的语种分类方法。
技术总结本申请涉及一种模型训练及语种分类方法、装置、设备及存储介质。由于采用第一类样本图片和第二类样本图片分别对语种分类模型进行训练,所以采用得到的语种分类模型能够识别只有背景信息、但是无任何文字内容的文本图片,以此解决了相关技术中存在的对只有背景信息但是无任何文字内容的文本图片的误检测的问题。题。题。
技术研发人员:赵瑞书
受保护的技术使用者:北京爱奇艺科技有限公司
技术研发日:2022.03.25
技术公布日:2022/7/4