一种端到端的无监督对抗性文本改写方法及装置

allin2025-06-01  110


本发明属于自然语言处理的,更具体地,涉及一种端到端的无监督对抗性文本改写方法及装置。


背景技术:

1、对抗性样本是指刻意构造的用于欺骗深度学习模型的样本,也被称作攻击样本。攻击样本生成方法已经成功欺骗了针对多种任务的自然语言处理模型,例如文本分类,机器翻译等等。随着神经网络模型在不同领域的广泛应用,对抗性样本的研究对于神经网络模型的鲁棒性和安全性具有重要意义。

2、通常来说,对抗性样本的构造方式为采用对原始样本进行扰动。早期对抗训练主要针对图像领域,通过在原始样本上施加像素级噪音进行。例如,中国专利文献cn117173508a公开一种对抗攻击图像生成方法、装置、设备及存储介质,使用对比学习的方式训练生成器生成噪声图像与原始图像结合达成攻击效果。

3、在自然语言处理领域,存在许多文本改写方法,例如,中国专利文献cn116894431a公开一种文本处理模型训练方法、文本改写方法及装置和存储介质,其利用给定源句的关键词和源句编码训练文本改写模型;中国专利文献cn116108830a公开一种句法可控文本改写方法和装置,使用词汇组合知识,使用原始语句与句法结构信息作为输入,训练句法可控的文本改写模型。但是上述这些文本改写方法并没有考虑到改写文本的对抗性。

4、由于文本的离散性质,通常采用对原始样本进行单词替换等改写的方法来生成对抗性样本。例如,文献“textbugger:generating adversarial text against real-worldapplications”中提出的方法通过随机替换样本中的单词来生成对抗性样本,以获取可能改变模型预测结果的候选样本。然后从中选择具有与原始文本类似语义的样本,作为合理的对抗性样本。由于文本词汇的离散性质,常用的攻击性样本生成技术需要反复与目标模型进行交互,来判断样本中的词汇重要性并且选择对应的替换词汇,不能进行端到端训练方式,因此这些方法相当耗时且计算成本高昂;同时产生的对抗性样本只针对特定目标模型,难以保障跨模型的可迁移性。

5、基于此,亟需设计一种端到端的无监督对抗性语义可控文本改写方法,以解决上述问题。


技术实现思路

1、本发明旨在克服上述现有技术的至少一种缺陷,提供一种端到端的无监督对抗性文本改写方法。

2、本发明还提供一种实现所述端到端的无监督对抗性文本改写方法的装置。

3、发明概述:

4、本发明设计一种端到端的对抗性文本改写模型,基于给定的原始样本,利用该对抗性文本改写模型最终生成对抗性样本,不仅实现细粒度语义控制生成改写文本,且能够以端到端的方式生成对抗性样本,从而能够以数据增强的方式提升下游任务模型的鲁棒性。

5、技术术语解释:

6、对抗性样本:在本发明中指刻意构造的用于欺骗深度学习模型的样本,也被称作攻击样本。随着神经网络模型在不同领域的广泛应用,对抗性样本的研究对神经网络模型的鲁棒性和安全性具有重要意义。

7、控制条件:控制条件的形式可以包含多种内容,例如改动词汇的比例,句子结构,或情感倾向等。本发明使用了词汇替换标志序列作为条件,其中每个替换标志位与原始样本词汇一一对应,表示原始样本中对应位置的词汇应当被替换。

8、改写条件生成器:在本发明中改写条件生成器接受原始样本作为输入,生成能够引导条件文本改写器生成对抗性样本的控制条件。

9、条件文本改写器:在本发明中条件文本改写器接受原始样本和控制条件作为输入,生成与原始样本具有相近语义并且满足控制条件的改写文本,即对抗性样本。

10、对抗性判别器:在本发明中指在一个在目标任务上训练得到的分类器或回归器,用来预测条件文本改写器生成的改写文本的标签。如果改写文本的标签与原始样本的监督标签不一致,则认为该改写文本是潜在的对抗性样本。

11、本发明详细的技术方案如下:

12、一种端到端的无监督对抗性文本改写方法,所述方法包括:

13、s1、构建端到端的对抗性文本改写模型,所述对抗性文本改写模型包括改写条件生成器和条件文本改写器,其中,所述改写条件生成器用于根据原始文本t生成控制条件c,所述条件文本改写器用于根据原始文本t和控制条件c生成相应的改写文本t′;

14、s2、在训练阶段,将给定的原始样本x输入所述对抗性文本改写模型,并引入对抗性判别器获取所述原始样本x的监督标签y以及所述对抗性文本改写模型输出的改写文本x′的标签将标签与所述原始样本x的监督标签y不一致的改写文本x′确定为对抗性样本x",并利用所述原始样本x和得到的对抗性样本x"训练所述对抗性文本改写模型;

15、s3、在应用阶段,将给定的原始文本t输入训练好的所述对抗性文本改写模型中,以生成符合相应控制条件c的对抗性文本t"。

16、根据本发明优选的,所述步骤s2中,所述控制条件c使用词汇替换标志序列的形式,词汇替换标志位与原始样本x中词汇对应的二值序列,记为c∈{0,1}||,且用ci=1表示在生成的改写文本x′中第i个位置的单词xi被替换为其它词汇,ci=0表示未替换。

17、根据本发明优选的,所述步骤s2中,所述改写条件生成器采用直通估计器作为激活函数,以使生成的控制条件c为离散的二值化形式,即:

18、c=ste(cgen(x))

19、  (1);

20、式(1)中:c为控制条件,x为原始样本,cgen为改写条件生成器,ste为激活函数。

21、根据本发明优选的,所述步骤s2具体还包括:

22、选取任意原始样本x以及通过随机选取词汇替换位置获得控制条件c,对所述条件文本改写器进行预训练,其训练损失函数为:

23、

24、式(2)中:表示损失函数,ωp表示权重且ωp>0,xi′表示条件文本改写器输出的改写文本,表示参考改写文本,x表示原始样本,c表示控制条件,表示在给定原始样本和控制条件的条件下,条件文本改写器输出的改写文本xi′与参考改写文本第i个位置的单词相同的概率。

25、根据本发明优选的,所述步骤s2中,将给定的原始样本x输入所述对抗性文本改写模型,并引入对抗性判别器获取所述原始样本x的监督标签y以及所述对抗性文本改写模型输出的改写文本x′的标签具体为:

26、

27、式(3)中:c为控制条件,cgen为改写条件生成器,pgen为条件文本改写器,x为原始样本,x′为生成的改写样本,d为对抗性判别器,为改写样本x′对应的标签。

28、根据本发明优选的,所述步骤s2中,所述对抗性文本改写模型的训练损失函数包括如下损失函数:

29、1)对抗损失函数:

30、

31、式(4)中:表示对抗损失,d(x′)表示对抗性判别器对应改写文本x′的预测输出,d(x)表示对抗性判别器对应原始样本x的输出;

32、2)扰动比例损失函数:

33、

34、式(5)中:表示扰动比例损失,ρ表示预期的改动比例,l为样本长度,∥c∥1表示控制条件c中ci=1的位置的数量;

35、3)条件约束文本改写损失函数:

36、

37、式(6)中:表示条件约束文本改写损失,xi′=xi表示条件文本改写器输出的改写文本xi′与原始样本xi第i个位置的单词相同,p表示概率;

38、4)强制改写损失函数:

39、

40、式(7)中:表示强制改写损失,σ表示sigmod函数;

41、5)语义相似度损失函数:

42、

43、式(8)中:表示语义相似度损失;

44、6)句法正确性损失函数:

45、

46、式(9)中:表示句法正确性损失,sx={(i,r,j)}表示原始样本x的依存句法树结构,其中(i,r,j)表示原始样本x中第j个位置的单词与其第i个位置的单词之间具有依存关系r,ps(x′i,r,x′j)表示改写文本x′中第j个位置的单词与其第i个位置的单词之间具有依存关系r的合理性。

47、根据本发明优选的,所述步骤s2中,所述对抗性文本改写模型的训练损失函数为:

48、

49、式(10)中:ladv表示对抗性文本改写模型的训练损失函数,wa表示对抗损失的权重,wc表示扰动比例损失的权重,wr表示条件约束文本改写损失的权重,wp表示强制改写损失的权重,wsem表示语义相似度损失的权重,wsyn表示句法正确性损失的权重。

50、在本发明的另一个方面当中,提供一种实现端到端的无监督对抗性文本改写方法的装置,所述装置包括:

51、构建模块,用于构建端到端的对抗性文本改写模型,所述对抗性文本改写模型包括改写条件生成器和条件文本改写器,其中,所述改写条件生成器用于根据原始文本t生成控制条件c,所述条件文本改写器用于根据原始文本t和控制条件c生成相应的改写文本t′;

52、训练模块,用于基于给定的原始样本x,将其输入所述对抗性文本改写模型,并引入对抗性判别器获取所述原始样本x的监督标签y以及所述对抗性文本改写模型输出的改写文本x′的标签将标签与所述原始样本x的监督标签y不一致的改写文本x′确定为对抗性样本x",并利用所述原始样本x和得到的对抗性样本x"训练所述对抗性文本改写模型;

53、执行模块,用于基于给定的原始文本t,将其输入训练好的所述对抗性文本改写模型中,以生成符合相应控制条件c的对抗性文本t"。

54、在本发明的另一个方面当中,还提供了一种电子设备,包括:

55、至少一个处理器;以及

56、存储器,所述存储器存储指令,当所述指令被所述至少一个处理器执行时,使得所述至少一个处理器执行如上所述的端到端的无监督对抗性文本改写方法。

57、在本发明的另一个方面当中,还提供了一种机器可读存储介质,其存储有可执行指令,所述指令当被执行时使得所述机器执行如上所述的端到端的无监督对抗性文本改写方法。

58、与现有技术相比,本发明的有益效果为:

59、(1)本发明提供的端到端的无监督对抗性文本改写方法,能够捕获原始样本数据集的特征分布,对于原始样本,能够自适应地产生改写条件进行对抗性文本改写,以端到端的方式生成自然语言对抗性样本,无需与下游任务的特定模型进行交互。在对抗性样本生成效果上、以及模型训练和模型应用的生成效率上显著优于现有方法。

60、(2)本发明的方法是无监督方法,所构建的对抗性文本改写模型不需要依赖大量平行语料库进行训练,具有更高的使用价值。

61、(3)本发明的方法在训练和使用时不依赖下游任务的特定深度学习模型,产生的样本具有与模型无关的可复用性。


技术特征:

1.一种端到端的无监督对抗性文本改写方法,其特征在于,所述方法包括:

2.根据权利要求1所述的端到端的无监督对抗性文本改写方法,其特征在于,所述步骤s2中,所述控制条件c使用词汇替换标志序列的形式,词汇替换标志位与原始样本x中词汇对应的二值序列,记为c∈{0,1}|x|,且用ci=1表示在生成的改写文本x′中第i个位置的单词xi被替换为其它词汇,ci=0表示未替换。

3.根据权利要求1所述的端到端的无监督对抗性文本改写方法,其特征在于,所述步骤s2中,所述改写条件生成器采用直通估计器作为激活函数,以使生成的控制条件c为离散的二值化形式,即:

4.根据权利要求2所述的端到端的无监督对抗性文本改写方法,其特征在于,所述步骤s2具体还包括:

5.根据权利要求1所述的端到端的无监督对抗性文本改写方法,其特征在于,所述步骤s2中,将给定的原始样本x输入所述对抗性文本改写模型,并引入对抗性判别器获取所述原始样本x的监督标签y以及所述对抗性文本改写模型输出的改写文本x′的标签具体为:

6.根据权利要求2所述的端到端的无监督对抗性文本改写方法,其特征在于,所述步骤s2中,所述对抗性文本改写模型的训练损失函数包括如下损失函数:

7.根据权利要求6所述的端到端的无监督对抗性文本改写方法,其特征在于,所述步骤s2中,所述对抗性文本改写模型的训练损失函数为:

8.一种实现端到端的无监督对抗性文本改写方法的装置,其特征在于,所述装置包括:

9.一种电子设备,其特征在于,包括:

10.一种机器可读存储介质,其特征在于,其存储有可执行指令,所述指令当被执行时使得所述机器执行如权利要求1至7中任一项所述的端到端的无监督对抗性文本改写方法。


技术总结
本发明属于自然语言处理的技术领域,更具体地,涉及一种端到端的无监督对抗性文本改写方法及装置。该方法包括:构建端到端的对抗性文本改写模型,包括改写条件生成器和条件文本改写器;在训练阶段,将原始样本输入对抗性文本改写模型,引入对抗性判别器获取原始样本的监督标签及对抗性文本改写模型输出的改写文本的标签,将标签与监督标签不一致的改写文本确定为对抗性样本,并利用原始样本和对抗性样本训练对抗性文本改写模型;在应用阶段,将原始文本输入训练好的对抗性文本改写模型中,以生成符合相应控制条件的对抗性文本。本发明能够以端到端的方式生成对抗性样本,从而能够以数据增强的方式提升下游任务模型的鲁棒性。

技术研发人员:孙宇清,刘天元,韩雨辰,龚斌
受保护的技术使用者:山东大学
技术研发日:
技术公布日:2024/10/31
转载请注明原文地址: https://www.8miu.com/read-21692.html

最新回复(0)