融合门控注意力的缅甸语文本图像生成方法与流程

allin2025-12-23  17


本发明涉及融合门控注意力的缅甸语文本图像生成方法,属于自然语言处理。


背景技术:

1、基于深度学习方法训练的模型性能与训练数据的质量和数量密切相关,缅甸语属于典型的低资源语言,极难获取到大量高质量标注的数据,而且手工标注是非常耗时、容易出现人为错误。所以在无法获取足够多标注数据的情况下,自动合成带标注的图像受到越来越多的关注,成功缓解了数据缺少和手工标注数据的问题。

2、现有的一些ocr数据合成的方法主要是通过算法设计实现,主要的实现方法是通过利用设置输入文本的字体样式、大小以及字体颜色,再随机选择背景图与将渲染后的文本简单地组合成新的图像,利用添加高斯噪声或椒盐噪声等方式来模拟真实应用场景中缅甸语图像存在的噪声干扰,这种方法虽然能够有效缓解ocr任务中训练数据不足的问题,但是利用该方法合成的数据与真实场景差距较大,具体如表1所示:

3、表1现有算法合成低质量图像实例

4、


技术实现思路

1、本发明提出一种融合门控注意力的缅甸语文本图像生成方法,在保持原始图像的真实感的同时,将源图像中的一个词替换或修改为另一个词,生成真实的缅甸语文本图像,同时保留文本和背景的风格。图像合成的过程中模型能够学习缅甸语文本渲染效果和背景图层信息,为避免在文本图像生成时背景部分对文字部分产生干扰,提出了通过融合门控注意力图使得模型集中在文本笔划以及周围区域的纹理和颜色上,以更精确地从输入图像中提取出背景部分,有效提高了生成的缅甸语文本图像质量。

2、本发明的技术方案是:融合门控注意力的缅甸语文本图像生成方法,所述方法的具体步骤如下:

3、step1、缅甸语图像数据集构建及预处理:结合缅甸语的字符组合特征构造缅甸语文本图像数据集;构建的缅甸语文本图像数据集包含源图像、目标文本在灰色背景图呈现的图像、目标文本的骨架化图像、源图像的背景图像、目标文本在源图像背景图像上的源文本样式渲染效果图、目标文本灰度图像的二进制掩码以及目标文本在灰色背景图上源文本样式渲染效果图,这些图像数据作为模型网络的训练数据;

4、step2、通过缅甸语文本渲染模块将源图像is和目标文本在源图像背景图像上的源文本样式渲染效果图it作为输入,目的是从源图像is中提取前景风格,具体包括字体、颜色、几何变形;文本渲染模块输出含有目标文本的语义图像ot和源图像的文本风格的图像osk;

5、step3、通过背景提前网络将源图像中所有文本笔划像素擦除并用适当的纹理填充;为了更好地辅助提取缅甸语图像文本样式和背景,提出融合门控注意力的图片擦除方法,减少背景噪声的干扰,使得模型能更好地区分文本笔划区域的纹理和背景图像,以便更精确地从输入图像中提取出背景部分;最后将提取到的背景图像与文本渲染模块得到的目标文本以及源图像文本风格进行融合得到编辑后的缅甸语图像。

6、进一步地,所述step1的具体步骤为:

7、step1.1、通过缅甸语网站获取跨境缅甸语文本数据,然后进行去重、切分、过滤特殊字符预处理,构建缅甸语文本标签词典,并随机分配两两不相同的缅甸语词构成“源文本-目标文本”文本对,分配时源文本和目标文本可随机选择不同字体、颜色、是否加粗;同时通过谷歌以及缅甸语官方网站获取真实的背景图像,以方便后续生成训练样本;

8、step1.2、针对获取到的缅甸语文本对和背景图像,编写算法构建源图像、目标文本在灰色背景图呈现的图像、目标文本的骨架化图像、源图像的背景图像、目标文本在源图像背景图像上的源文本样式渲染效果图、目标文本灰度图像的二进制掩码以及目标文本在灰色背景图上源文本样式渲染效果图等不同条件下的图像数据集,并给出对应的标签;

9、step1.3、构建的图像数据集包含了多种背景、多种字体颜色以及不同倾斜角度缅甸语文本图像,并划分出相应的训练集、验证集和测试集。

10、进一步地,所述step2的具体步骤为:

11、step2.1、采用编码器-解码器fcn结构来进行文本渲染;对于编码过程,源图像is通过3个下采样卷积层和4个残差块,输入的文本图像it也是由相同的架构编码,然后对两个图像生成的特征图进行连接,对于解码,有三个上采样转置卷积层和1个卷积块来生成输出ot图像。其输出可表示为:

12、ot=gt(it,is)

13、step2.2、为了能够更加逼真地获取源图像is的文本样式,引入了骨架引导学习机制;具体来说,通过构建一个由3个上采样层和1个卷积层组成的骨架响应块,再加上一个sigmoid激活函数来预测单通道骨架图,然后沿着深度轴将骨架热图和解码器输出连接起来;为了能够生成更准确的结果,使用来骨架损耗来衡量骨架响应图的重建质量,其定义如下所示。

14、

15、其中,n是像素的数量,tsk是目标文本骨架化图像的标签,osk是模块的文本骨架输出图;

16、step2.3、同时采用l1loss来监督文本渲染模块的输出;结合骨架损失,文本渲染损失计算如下所示:

17、lt=||tt-ot||1+αlsk

18、其中,tt是文本渲染模块的真实值,α是正则化参数,设置为1。

19、进一步地,所述step3的具体步骤为:

20、step3.1、首先将源图像is作为输入,提取其背景图像ob,源图像is通过背景提取网络将文本笔划像素擦除并用适当的纹理填充;输入的源图像is由3个步长为2的下采样卷积层编码,并跟随4个残差块,然后解码器通过3个上采样卷积层生成具有原始大小的输出图像;在每一层之后使用relu激活函数,而在输出层使用tanh函数;利用u-net将相同大小的先前编码特征图连接起来以保留更丰富的纹理信息,这有助于恢复在下采样过程中丢失的背景信息;

21、step3.2、为了使模型在提取背景更好的关注到缅甸语图像中的文本区域,提出融合门控注意力的图片擦除方法,以便更好地辅助提取缅甸语图像文本样式和背景,减少背景噪声的干扰,门控注意力模块以特征提取网络提取的特征图作为输入,通过计算输入图像和真实标签图像之间的像素值差异来生成伪文本笔划掩码,分别生成文本笔划区域特征图和文本笔画周围区域特征图,文本笔划区域特征图有助于加强门控注意力模块对图像文本区域的关注,文本笔画周围区域特征图则是通过对文本区域外的颜色和纹理进行集中训练,帮助更好地区分文本区域范围;同时,门控注意力模块通过gate参数调整,从而在训练过程中调整分配给文本笔划区域特征图和文本笔画周围区域特征图的注意力比例,其计算方式如公式下所示;

22、

23、ft=wt·f

24、fs=ws·f

25、aout=σ(αift+βifs)

26、ob=finaout

27、其中fin,ob分别为该模块的输入特征图和输出特征图,wt和ws表示7x7卷积核,fs,ft操作提取的文本笔划区域特征图和文本笔画周围区域特征图,α、β分别表示门控参数,σ表示激活函数;

28、step3.3、为了更好地融合文本样式与背景图像,将文本渲染模块生成的含有目标文本的语义图像送入编码器,编码器由三个下采样卷积层和残差块组成。利用一个具有三个上采样转置卷积层和卷积层的解码器生成最终编辑图像。同时,在融合解码器的上采样阶段,将背景修复模块的解码特征映射连接到具有相同分辨率的相应特征图。这样,融合网络输出的图像在背景细节上被基本恢复,文本对象和背景融合良好,同时在外观上实现了合成真实感。

29、本发明的有益效果是:

30、1.本发明提出了一种融合门控注意力的缅甸语文本图像生成方法,在保持原始图像的真实感的同时,将源图像中的一个词替换或修改为另一个词,生成真实的缅甸语文本图像,同时保留文本和背景的风格。图像合成的过程中模型能够学习缅甸语文本渲染效果和背景图层信息。

31、2.为避免在文本图像生成时背景部分对文字部分产生干扰,本发明提出了通过融合门控注意力图使得模型集中在文本笔划以及周围区域的纹理和颜色上,以更精确地从输入图像中提取出背景部分,在缅甸语文本图像生成质量上取得了较好的效果,使生成的缅甸语文本图像更接近真实场景的文本图像。


技术特征:

1.融合门控注意力的缅甸语文本图像生成方法,其特征在于:所述方法的具体步骤如下:

2.根据权利要求1所述的融合门控注意力的缅甸语文本图像生成方法,其特征在于:所述step1的具体步骤为:

3.根据权利要求1所述的融合门控注意力的缅甸语文本图像生成方法,其特征在于:所述step2的具体步骤为:

4.根据权利要求1所述的融合门控注意力的缅甸语文本图像生成方法,其特征在于:所述step3的具体步骤为:


技术总结
本发明涉及融合门控注意力的缅甸语文本图像生成方法,属于自然语言处理领域。为了解决传统文本图像合成算法合成的缅甸语图像与真实应用场景存在较大差距造成训练的识别模型性能不佳的问题,提出一种融合门控注意力的缅甸语文本图像生成方法,主要包括缅甸语图像数据集构建及预处理、缅甸语文本渲染模块、融合门控注意力的缅甸语图像文本图像生成三部分构成。本发明相比通用的图像文本生成方法本发明有效地合成较高质量的文本图像,使生成的缅甸语文本图像更接近真实场景的文本图像。

技术研发人员:毛存礼,高盛祥,黄于欣,陈蕊,王琳钦,王奉孝
受保护的技术使用者:小语智能信息科技(云南)有限公司
技术研发日:
技术公布日:2024/10/31
转载请注明原文地址: https://www.8miu.com/read-25321.html

最新回复(0)