一种基于时序深度学习网络的对抗样本检测方法

allin2025-02-24  59


本发明涉及人工智能安全(ai security)、机器学习(machine learning)、对抗样本(adversarial example),尤其涉及一种基于时序深度学习网络的对抗样本检测方法。


背景技术:

1、近年来,人工智能,尤其是深度学习在图像分类、图像分割、语音识别、自然语言处理等各个领域取得了显著的进步。作为人工智能的重要领域,大模型的发展、应用与安全将成为我国把握历史主动、占据战略高地的关键。

2、在意识到人工智能对传统领域、新兴领域带来的强大作用的同时,还必须意识到网络模型面对对抗样本攻击时的非鲁棒性,即对图像、文本等模型输入添加经过精心设计的、同时对人类而言又难以察觉的微小扰动后,网络模型输出会产生偏差,可能导致严重的安全漏洞和数据失真。在重要安全领域,如自动驾驶系统,对抗样本严重阻碍了人工智能在自动驾驶领域的应用与发展;如人脸识别系统,攻击者可以通过构造对抗人脸信息伪造自己面部身份从而通过人脸识别系统检测。

3、由此可见,对抗样本的检测、防御技术对于保证人工智能在各领域的应用与发展发挥着至关重要的作用。目前已经有许多针对对抗样本的防御方法被提出,包括对抗训练、预处理防御、面向模型的防御等。对抗训练通过在模型训练过程中加入正确分类的“对抗样本”,从而可以扩大模型的决策边界,使得模型对对抗样本有一定的抵御能力;预处理方法通常采用对模型输入进行模糊、扭曲还原等操作,使得原始加入的扰动被破坏失效;面向模型的防御诸如模型蒸馏,降低模型对于输入的敏感度,提高对抗样本生成难度。

4、然而现有的对抗样本防御方法,存在一些设计上的缺陷:

5、防御者会面临计算复杂度高,重新训练整个任务成本大、周期长等情况,会导致被防御模型效果变差等诸多问题。

6、首先现有的防御方法计算复杂度高,部分方法涉及到提取输入的高维表征之后进行重建还原,会导致大量的计算开销,在现实生产环境中是不大具有部署价值的;其次是重新训练整个任务的成本大,部分方法要求对于受保护模型进行重新训练或者微调,但是这类方法的成本直接与受保护模型以及受保护任务的复杂度相关,一旦复杂程度高,此类方法的训练成本就会极大;最后,现有的防御方法一旦涉及到对于受保护模型的重新训练,就有极大可能牺牲受保护模型的表现来提高鲁棒性。


技术实现思路

1、本发明的目的在于针对现有对抗样本检测算法的不足,提供一种基于时序深度学习网络对抗样本检测方法。本发明是通过以下技术方案来实现的:

2、本发明公开了一种基于时序深度学习网络的对抗样本检测方法,包括以下步骤:

3、s1获取对抗数据集:使用对抗样本攻击算法攻击不同的原始数据集生成对抗样本数据集,原始数据集为非对抗样本数据集;

4、s2构建时序深度学习网络训练、测试数据集:通过对s1中生成的对抗样本数据集以及非对抗样本数据集进行特征压缩处理,再通过维度转换,将其构建成适合时序深度学习网络的输入格式,再将对抗样本数据集、非对抗数据集标签分别设置为1、0,将两者同时划分为时序深度学习网络的训练数据集与测试数据集两部分;

5、s3训练、测试用于对抗样本检测的时序深度学习网络:使用训练数据集及特定的损失函数训练时序深度学习网络,使用测试数据集测试时序深度学习网络检测对抗样本的能力,得到对对抗样本、非对抗样本有良好检测能力的时序深度学习网络;

6、s4特征压缩及检测:在将新的输入样本经过特征压缩并将其转换为适合时序网络的输入格式之后,输入到检测对抗样本的时序深度学习网络中,得到网络对此样本的判别结果,采用评价指标--检测准确率来判断检测网络的检测效果。

7、作为进一步地改进,本发明所述的步骤s1中,对抗样本攻击算法采用fgsm、bim、deepfool、jsma、pgd、c&w中的任意一种。

8、作为进一步地改进,本发明所述的步骤s2中,特征压缩处理算法采用比特深度压缩算法:将整个图像的原始像素值依次去掉第0到7位,构成8张图像,进行维度扩张并拼接,从而转换为适合时序深度学习网络的输入格式。

9、作为进一步地改进,本发明所述的步骤s3中,时序深度学习网络训练的损失函数如下:l(fθ(gsqueeze(x)),y);

10、其中,x是输入样本,y是输入样本x的标签,fθ是模型权重为θ时序深度学习网络,l是交叉熵函数。

11、作为进一步地改进,本发明所述的评价指标--检测准确率,是用来衡量时序深度学习网络对于对抗样本的检测的特性:

12、

13、其中argmax函数用来选择检测模型输出概率最大的类,来进行检测输入样本是否是对抗样本。

14、作为进一步地改进,本发明若生成对抗样本采用pgd对抗攻击算法,则设定总的干扰强度为α,迭代的总的轮数为n(则每一个步长的时候更新的扰动并对扰动的大小进行限制,裁剪到[0,1]之间,

15、

16、本发明的有益效果如下:

17、本发明的方法通过对输入样本进行特征压缩并利用时序模型进行检测来满足检测对抗样本的需求,降低遭受对抗攻击的风险,从而评估模型的鲁棒性。

18、由于本发明对图像进行不同程度的特征压缩并拼接,训练数据集不仅包含非对抗样本、对抗样本,还包含非对抗样本与对抗样本在不同压缩级别后的数据,即训练数据集包含更加丰富的数据,训练所得的时序深度学习网络能够学习到更加丰富的知识,因此训练所得时序深度学习网络能够更加地检测对抗样本与非对抗样本;

19、由于本发明检测对抗样本的网络采用的是时序深度学习网络,而非传统的非时序深度学习网络,网络在学习到数据集本身信息的同时,还能学习到不同压缩级别数据之间的时序关系,训练所得的时序深度学习网络能够学习到更加丰富的知识,因此训练所得时序深度学习网络能够更加地检测对抗样本与非对抗样本;

20、由于本发明没有对原有网络进行重训练,而是单独训练一个可以即插即用的对抗样本检测网络,因此不会出现原始网络为了提升对抗样本鲁棒性而经过重训练后发送的性能改变的现象。



技术特征:

1.一种基于时序深度学习网络的对抗样本检测方法,其特征在于,包括以下步骤:

2.根据权利要求1所述的基于时序深度学习网络的对抗样本检测方法,其特征在于,所述的步骤s1中,所述的对抗样本攻击算法采用fgsm、bim、deepfool、jsma、pgd、c&w中的任意一种。

3.根据权利要求2所述的基于时序深度学习网络的对抗样本检测方法,其特征在于,所述的步骤s2中,特征压缩处理算法采用比特深度压缩算法:将整个图像的原始像素值依次去掉第0到7位,构成8张图像,进行维度扩张并拼接,从而转换为适合时序深度学习网络的输入格式。

4.根据权利要求3所述的基于时序深度学习网络的对抗样本检测方法,其特征在于,所述的步骤s3中,时序深度学习网络训练的损失函数如下:

5.根据权利要求1或2或3或4所述的基于时序深度学习网络的对抗样本检测方法,其特征在于,所述的评价指标--检测准确率,是用来衡量时序深度学习网络对于对抗样本的检测的特性:

6.根据权利要求5所述的基于时序深度学习网络的对抗样本检测方法,其特征在于,若生成对抗样本采用pgd对抗攻击算法,则设定总的干扰强度为α,迭代的总的轮数为n(则每一个步长的时候更新的扰动),并对扰动的大小进行限制,裁剪到[0,1]之间,


技术总结
本发明公开了一种基于时序深度学习网络的对抗样本检测方法,通过对输入样本进行特征压缩并利用时序模型进行检测来满足检测对抗样本的需求,降低遭受对抗攻击的风险,从而评估模型的鲁棒性。本发明对图像进行不同程度的特征压缩并拼接,训练数据集不仅包含非对抗样本、对抗样本,还包含非对抗样本与对抗样本在不同压缩级别后的数据,即训练数据集包含更加丰富的数据,训练所得的时序深度学习网络能够学习到更加丰富的知识,因此训练所得时序深度学习网络能够更加地检测对抗样本与非对抗样本;本发明单独训练一个可以即插即用的对抗样本检测网络,因此不会出现原始网络为了提升对抗样本鲁棒性而经过重训练后发送的性能改变的现象。

技术研发人员:杨子祺,向楚枭
受保护的技术使用者:浙江大学
技术研发日:
技术公布日:2024/10/31
转载请注明原文地址: https://www.8miu.com/read-18759.html

最新回复(0)