本技术涉及图像标题生成,具体涉及一种图像标题生成方法、系统、设备及介质。
背景技术:
1、图像标题生成是将图像内容自动转换为自然语言,被广泛应用于工业界的检索和推荐等领域。与传统的计算机视觉任务不同,图像标题生成的难点在于不仅需要理解图片各个部分之间的相互作用,还需要用流畅的语言表达它们之间的关系。典型的图像标题生成模型是基于编码器-解码器结构建立的,其中编码器通过卷积神经网络(cnn)将图像映射成向量并提取特征向量,而解码器基于图片的特征向量和先前生成的单词依次解码生成下一个单词。近年来,随着transformer和bert的出现,自注意力机制成功应用于图像标题生成等多种任务。自注意力原则上在单个序列的不同位置之间建立关系,用于计算序列的表示。对于图像标题生成,cnn处理的图像特征也可以看作是一种顺序表示,因此最先进的方法将自注意力应用于图像特征,以便对不同图像区域之间的依赖性进行建模。研究人员还扩展了自我注意的功能,可以对图像区域和rnn解码器的隐藏状态之间的依赖关系进行建模。近年来,基于transformer和强化学习的图像标题生成模型取得了很大的进步。transformer的视觉图像标题框架能够探索语义和视觉信息之间的互补关系,大大增强了多模态融合的能力。模型还能根据当前生成状态提供不同的注意力信息,从而生成更高质量的句子。由于强化学习可以直接将优化评估图像标题的指标,如bleu和cider等,因而将强化学习算法引入图像标题的训练阶段是非常关键的。
2、前述模型有明显的不足之处:1)先前模型的注意力机制仅根据当前状态提供来自不同模态的权重信息,而忽略了历史信息的模态权重的关系。2)图像标题生成作为一个跨模态转换任务,在进行强化学习时需要同时匹配语义信息和视觉信息。然而,之前的方法在训练过程中只依赖语义(如bleu和cider)信息,而忽略了视觉信息的匹配。因此,目前亟需解决忽略历史信息的模态权重关系和忽略视觉信息匹配问题。
技术实现思路
1、为了解决现有技术图像标题生成过程忽略历史信息的模态权重关系和忽略视觉信息匹配的问题,本技术提出了一种图像标题生成方法,包括:
2、基于待生成标题的图像利用卷积神经网络提取图像特征并进行平均池化处理,得到平均池化图像特征集;
3、基于平均池化图像特征集按照时间步顺序依次利用预先构建的时序回顾视觉保留模型进行计算,得到各单词并生成标题;
4、利用注意力波动监督模型对所述标题进行优化,得到优化后的图像标题;
5、其中,所述时序回顾视觉保留模型在各时间步内基于所有时刻的视觉上下文确定影响最大的视觉上下文生成各单词;
6、所述注意力波动监督模型基于各时间步产生的注意力波动向量确定的注意力波动参数和奖励信号对标题进行优化。
7、优选的,所述的方法还包括时序回顾视觉保留模型的构建过程,所述构建过程包括:
8、按照时间步顺序选取平均池化图像特征结合前一时刻的注意力lstm隐藏状态和前一时刻生成的单词利用注意力lstm进行计算,得到当前时刻的注意力lstm隐藏状态;
9、基于所述当前时刻的注意力lstm隐藏状态和平均池化图像特征进行计算,得到当前时刻的视觉上下文和特征的注意力权重矩阵;
10、基于所述当前时刻的视觉上下文、所述当前时刻的注意力lstm隐藏状态和所有时刻的视觉上下文确定当前时刻影响最大的视觉上下文作为视觉保留上下文;
11、基于所述视觉保留上下文、所述当前时刻的注意力lstm隐藏状态、前一时刻的语言lstm隐藏状态进行计算,得到当前时刻的语言lstm隐藏状态;
12、基于当前时刻的语言lstm隐藏状态确定对应的平均池化图像特征的可能单词在词汇表中出现的概率,并选取概率最大的单词;
13、基于各时间步内选取的所述概率最大的单词生成标题。
14、优选的,所述的方法还包括注意力波动监督模型的构建过程,所述构建过程包括:
15、基于各时间步产生的所述注意力权重矩阵利用标准差方程进行计算,得到注意力波动向量;
16、基于注意力波动向量的最大值与注意力波动向量的最小值的差值作为注意力波动参数;
17、基于采样过程中获得的注意力波动参数和测试过程中获得的注意力波动参数确定奖励信号;
18、基于所述奖励信号和所述注意力波动参数确定强化学习算法的计算式;
19、利用所述强化学习算法的计算式对标题进行优化得到优化后的图像标题。
20、优选的,所述强化学习算法的计算式如下所示:
21、
22、式中,为对θ进行求导;θ为模型参数;l(θ)为模型损失;为注意力波动奖励信号;为奖励信号;logθ(ws)为生成单词ws的熵;ws为采样模型的单词,上角标s代表采样模型,用于训练;λ为超参数。
23、优选的,所述基于平均池化图像特征集按照时间步顺序依次利用预先构建的时序回顾视觉保留模型进行计算,得到各单词并生成标题,包括:
24、按照时间步顺序选取平均池化图像特征结合前一时刻的注意力lstm隐藏状态和前一时刻生成的单词进行计算,得到当前时刻的注意力lstm隐藏状态;
25、基于所述当前时刻的注意力lstm隐藏状态和平均池化图像特征进行计算,得到当前时刻的视觉上下文和特征的注意力权重矩阵;
26、基于所述当前时刻的视觉上下文、所述当前时刻的注意力lstm隐藏状态和所有时刻的视觉上下文进行计算,得到视觉保留上下文;
27、基于所述视觉保留上下文、所述当前时刻的注意力lstm隐藏状态和前一时刻的语言lstm隐藏状态进行计算,得到当前时刻的语言lstm隐藏状态;
28、基于所述当前时刻的语言lstm隐藏状态确定对应的平均池化图像特征的可能单词在词汇表中出现的概率并选取概率最大的单词;
29、基于各时间步内选取的所述概率最大的单词生成标题。
30、优选的,所述利用注意力波动监督模型对所述标题进行优化,得到优化后的图像标题,包括:
31、基于所述注意力权重矩阵和所述概率最大的单词利用交叉熵方法进行训练,得到采样过程中获得的注意力波动参数和奖励信号;
32、基于所述注意力权重矩阵和所述概率最大的单词利用强化学习方法进行训练,得到测试过程中获得的注意力波动参数和奖励信号;
33、基于所述采样过程中获得的注意力波动参数和奖励信号以及所述测试过程中获得的注意力波动参数和奖励信号结合强化学习算法的计算式对所述标题进行优化,得到优化后的图像标题。
34、基于同一申请构思,本技术还提出了一种图像标题生成系统,包括:
35、图像特征提取模块,用于基于待生成标题的图像利用卷积神经网络提取图像特征并进行平均池化处理,得到平均池化图像特征集;
36、标题生成模块,用于基于平均池化图像特征集按照时间步顺序依次利用预先构建的时序回顾视觉保留模型进行计算,得到各单词并生成标题;
37、标题优化模块,用于利用注意力波动监督模型对所述标题进行优化,得到优化后的图像标题;
38、其中,所述时序回顾视觉保留模型在各时间步内基于所有时刻的视觉上下文确定影响最大的视觉上下文生成各单词;
39、所述注意力波动监督模型基于各时间步产生的注意力波动向量确定的注意力波动参数和奖励信号对标题进行优化。
40、优选的,所述的系统还包括时序回顾视觉保留模型的构建模块,所述时序回顾视觉保留模型的构建模块具体用于:
41、按照时间步顺序选取平均池化图像特征结合前一时刻的注意力lstm隐藏状态和前一时刻生成的单词利用注意力lstm进行计算,得到当前时刻的注意力lstm隐藏状态;
42、基于所述当前时刻的注意力lstm隐藏状态和平均池化图像特征进行计算,得到当前时刻的视觉上下文和特征的注意力权重矩阵;
43、基于所述当前时刻的视觉上下文、所述当前时刻的注意力lstm隐藏状态和所有时刻的视觉上下文确定当前时刻影响最大的视觉上下文作为视觉保留上下文;
44、基于所述视觉保留上下文、所述当前时刻的注意力lstm隐藏状态、前一时刻的语言lstm隐藏状态进行计算,得到当前时刻的语言lstm隐藏状态;
45、基于当前时刻的语言lstm隐藏状态确定对应的平均池化图像特征的可能单词在词汇表中出现的概率,并选取概率最大的单词;
46、基于各时间步内选取的所述概率最大的单词生成标题。
47、优选的,所述的系统还包括注意力波动监督模型的构建模块,所述注意力波动监督模型的构建模块具体用于:
48、基于各时间步产生的所述注意力权重矩阵利用标准差方程进行计算,得到注意力波动向量;
49、基于注意力波动向量的最大值与注意力波动向量的最小值的差值作为注意力波动参数;
50、基于采样过程中获得的注意力波动参数和测试过程中获得的注意力波动参数确定奖励信号;
51、基于所述奖励信号和所述注意力波动参数确定强化学习算法的计算式;
52、利用所述强化学习算法的计算式对标题进行优化得到优化后的图像标题。
53、优选的,所述注意力波动监督模型的构建模块中的强化学习算法的计算式如下所示:
54、
55、式中,为对θ进行求导;θ为模型参数;l(θ)为模型损失;为注意力波动奖励信号;为奖励信号;logθ(ws)为生成单词ws的熵;ws为采样模型的单词,上角标s代表采样模型,用于训练;λ为超参数。
56、优选的,所述标题生成模块,具体用于:
57、按照时间步顺序选取平均池化图像特征结合前一时刻的注意力lstm隐藏状态和前一时刻生成的单词进行计算,得到当前时刻的注意力lstm隐藏状态;
58、基于所述当前时刻的注意力lstm隐藏状态和平均池化图像特征进行计算,得到当前时刻的视觉上下文和特征的注意力权重矩阵;
59、基于所述当前时刻的视觉上下文、所述当前时刻的注意力lstm隐藏状态和所有时刻的视觉上下文进行计算,得到视觉保留上下文;
60、基于所述视觉保留上下文、所述当前时刻的注意力lstm隐藏状态和前一时刻的语言lstm隐藏状态进行计算,得到当前时刻的语言lstm隐藏状态;
61、基于所述当前时刻的语言lstm隐藏状态确定对应的平均池化图像特征的可能单词在词汇表中出现的概率并选取概率最大的单词;
62、基于各时间步内选取的所述概率最大的单词生成标题。
63、优选的,所述标题优化模块,具体用于:
64、基于所述注意力权重矩阵和所述概率最大的单词利用交叉熵方法进行训练,得到采样过程中获得的注意力波动参数和奖励信号;
65、基于所述注意力权重矩阵和所述概率最大的单词利用强化学习方法进行训练,得到测试过程中获得的注意力波动参数和奖励信号;
66、基于所述采样过程中获得的注意力波动参数和奖励信号以及所述测试过程中获得的注意力波动参数和奖励信号结合强化学习算法的计算式对所述标题进行优化,得到优化后的图像标题。
67、再一方面,本技术还提供了一种计算设备,包括:至少一个处理器和存储器;
68、所述存储器,用于存储一个或多个程序;
69、当所述一个或多个程序被所述至少一个处理器执行时,实现如上述所述的一种图像标题生成方法。
70、再一方面,本技术还提供了一种计算机可读存储介质,其上存有计算机程序,所述计算机程序被执行时,实现如上述所述的一种图像标题生成方法。
71、与现有技术相比,本技术的有益效果为:
72、一种图像标题生成方法、系统、设备及介质,包括:基于待生成标题的图像利用卷积神经网络提取图像特征并进行平均池化处理,得到平均池化图像特征集;基于平均池化图像特征集按照时间步顺序依次利用预先构建的时序回顾视觉保留模型进行计算,得到各单词并生成标题;利用注意力波动监督模型对所述标题进行优化,得到优化后的图像标题;其中,所述时序回顾视觉保留模型在各时间步内基于所有时刻的视觉上下文确定影响最大的视觉上下文生成各单词;所述注意力波动监督模型基于各时间步产生的注意力波动向量确定的注意力波动参数和奖励信号对标题进行优化;本技术提出的时序回顾视觉保留模型考虑所有时刻的可视化上下文,解决了忽略历史信息模态权重关系的问题;注意力波动监督模型在强化学习过程中不仅依赖语义信息还关注视觉信息的匹配,增强了视觉信息在强化学习中的影响,还能够在计算强化学习奖励时考虑到图片的特征。
1.一种图像标题生成方法,其特征在于,包括:
2.根据权利要求1所述的方法,其特征在于,所述的方法还包括时序回顾视觉保留模型的构建过程,所述构建过程包括:
3.根据权利要求2所述的方法,其特征在于,所述的方法还包括注意力波动监督模型的构建过程,所述构建过程包括:
4.根据权利要求3所述的方法,其特征在于,所述强化学习算法的计算式如下所示:
5.根据权利要求1所述方法,其特征在于,所述基于平均池化图像特征集按照时间步顺序依次利用预先构建的时序回顾视觉保留模型进行计算,得到各单词并生成标题,包括:
6.根据权利要求5所述的方法,其特征在于,所述利用注意力波动监督模型对所述标题进行优化,得到优化后的图像标题,包括:
7.一种图像标题生成系统,其特征在于,包括:
8.根据权利要求7所述的系统,其特征在于,所述的系统还包括时序回顾视觉保留模型的构建模块,所述时序回顾视觉保留模型的构建模块具体用于:
9.根据权利要求7所述的系统,其特征在于,所述的系统还包括注意力波动监督模型的构建模块,所述注意力波动监督模型的构建模块具体用于:
10.根据权利要求9所述的系统,其特征在于,所述注意力波动监督模型的构建模块中的强化学习算法的计算式如下所示:
11.根据权利要求7所述的系统,其特征在于,所述标题生成模块,具体用于:
12.根据权利要求11所述的系统,其特征在于,所述标题优化模块,具体用于:
13.一种计算机设备,其特征在于,包括:至少一个处理器和存储器;
14.一种计算机可读存储介质,其特征在于,其上存有计算机程序,所述计算机程序被执行时,实现如权利要求1至6中任一项所述的一种图像标题生成方法。
