本发明涉及模型安全监测技术,具体涉及一种基于双模态对抗提示的大型视觉语言模型风险测试方法。
背景技术:
1、在大型视觉语言模型的应用领域,基于图像进行理解并进行文字内容生成是一项核心功能。它通过利用内置于大型视觉语言模型中的视觉编码器来获取输入图像的特征,随后通过视觉-语言连接器将特征交由内置的语言模型结合文本内容一并处理,以模型minigpt4为例,比如给定一张熊猫图片,输入的文字为根据熊猫写故事、描述熊猫的长相或说一个笑话等,它会根据图片和用户需求,输出一段文本。在实际应用中,大型视觉语言模型已被广泛应用于智能客服、自动驾驶、医疗辅助诊断等领域,展现了巨大的潜力和价值。
2、然而,大型视觉语言模型所生成的内容很容易与其模型所有者的预期目标不一致,经常产生不真实或对用户潜在有害的输出,为了揭示和减轻这些安全风险,业界普遍采用一种名为越狱测试的红队策略对其内容安全风险加以测试。越狱测试的目的是绕过护栏并评估模型一致性。在越狱之后,攻击者可以说服模型输出任何可能导致严重安全后果的内容,比如生成有害或不道德的内容。大多数针对大型视觉语言模型的越狱测试都集中在干扰其接收的视觉模式(即图像)上。其中包括制作视觉对抗样本和将攻击意图编码为排版图像。然而,经过安全对齐的大型视觉语言模型会同时利用视觉和文本特征进行预测,从而限制了仅干扰单一模态的当前攻击的有效性。例如,模型可能会拒绝回答没有与查询文本相关联的对抗图像,从而导致越狱测试失败。
技术实现思路
1、针对现有技术中的上述不足,本发明提供的基于双模态对抗提示的大型视觉语言模型风险测试方法解决了现有风险测试方法仅在干扰单一模态攻击下检测有效,其他模态不能进行准确测试的问题。
2、为了达到上述发明目的,本发明采用的技术方案为:
3、提供一种基于双模态对抗提示的大型视觉语言模型风险测试方法,其包括步骤:
4、s1、获取视觉图像、与查询内容无关的语料库和包括若干有害文本的数据集;
5、s2、在视觉图像上施加扰动,通过最大化大型视觉语言模型在语料库中文本的对数似然,得到所需的视觉对抗扰动;
6、s3、选取数据集中未遍历的有害文本作为初始的文本对抗提示;
7、s4、将视觉对抗提示和文本对抗提示输入大型视觉语言模型,得到模型响应;
8、s5、判断模型响应是否为有害内容,若是,将攻击成功次数加一,并进入s7;否则,进入步骤s6;
9、s6、判断更新次数是否大于预设次数,若是进入步骤s7,否则,采用思维链策略更新文本对抗提示,并将更新次数加一,之后返回步骤s4;
10、s7、判断数据集中的有害文本是否均已被遍历,若是,进入步骤s8,否则进入步骤s3;
11、s8、采用攻击成功次数与数据集中有害文本的总数量,计算越狱测试成功率,以评估大型视觉语言模型的内容安全风险。
12、进一步地,在视觉图像上施加扰动以得到所需的视觉对抗扰动的表达式为:
13、
14、其中,max为最大化操作;为视觉对抗提示;logp为大型视觉语言模型输出语料库中文本的概率;yt为语料库中的第j个文本,1≤j≤m,m为语料库中文本的总数量;xv为视觉图像;中的·表示文本提示的占位符;‖·‖∞为无穷范数;∈为无穷范数下约束范围;s.t.为约束条件符号。
15、上述技术方案的有益效果为:本方案在约束条件下能够在视觉隐蔽情况下优化出满足最大化公式的视觉对抗提示,即得到的视觉对抗提示与原视觉图形在人眼观察中非常相近。而通过最大化公式则能实现当视觉对抗提示输入大型视觉语言模型时引导其给出与语料库中文本语义相近的响应。
16、进一步地,采用思维链策略更新文本对抗提示的表达式为:
17、
18、其中,和分别为数据集中第h个有害文本进行第i次和第i+1次思维链策略更新后的文本对抗提示;为视觉对抗提示;为和输入大型视觉语言模型后的模型响应;q为初始的文本对抗提示;fθ(·)为大型视觉语言模型;m(·)为大语言模型;pc为让大语言模型实现思维链推理的功能。
19、上述技术方案的有益效果为:本方案通过采用大语言模型,在思维链策略的辅助下,能够自动化地根据所测试的初始有害文本提示、以及上一次的文本提示、大型视觉语言模型的响应实现特定于文本提示的优化。并且在思维链辅助下,能分析上一次越狱测试效果不佳的原因并在此基础上取得更好的优化效果。
20、进一步地,判断模型响应是否为有害内容的方法为:
21、采用大语言模型判断模型响应是否属于有害内容,判断结果为flag,flag的表达式为:
22、
23、其中,q为初始的文本对抗提示;为数据集中第h个有害文本进行第i次思维链策略更新后的文本对抗提示;为视觉对抗提示;为和输入大型视觉语言模型后的模型响应;fθ(·)为大型视觉语言模型;m(·)为大语言模型;pj为让大语言模型实现判断功能;
24、当flag=0时,表示模型响应为无害的;当flag≠0时,表示模型响应为有害的。
25、上述技术方案的有益效果为:本方案通过采用大语言模型判断模型响应是否有害,这样可以有效实现自动化评估越狱是否成功。
26、进一步地,采用大语言模型构建与查询内容无关的语料库,所述语料库包括若干文本,所述文本与肯定前缀和否定抑制的语义相关联。
27、进一步地,所述数据集的获取方法包括收集网络上出现频率高于预设频次的有害文本,并对其进行数据清洗,得到若干类易存在生成内容风险的场景;所述数据清洗至少包括补全、去重操作。
28、上述技术方案的有益效果为:本方案通过在网络世界出现频率高的有害文本作为数据集,并将有害文本作为初始文本对抗提示,这样可以更全面地评估大型视觉语言模型的内容安全风险,有效提高越狱测试的覆盖范围和有效性。
29、进一步地,所述大型视觉语言模型为minigpt4,大语言模型为chatgpt或文心一言。
30、本发明的有益效果为:本方案通过语料库中的文本对视觉图像上施加扰动,结合有害文本作为的文本对抗提示,进行风险预测,可以实现双模态下的安全风险测试,提高了模型的测试精度;在测试过程中,再基于思维链技术辅助构造更有效的文本对抗提示,可以更全面地评估大型视觉语言模型的内容安全风险,有效提高越狱测试的覆盖范围和有效性。
31、采用本方案的风险测试方法可以评估大型视觉语言模型在各模态干扰情况下的内容风险,以便及时发现和修复安全对齐措施的遗漏之处,从而提高大型视觉语言模型的安全性和社会价值,为实现人工智能的合法合规商业化应用奠定了重要基础。
1.基于双模态对抗提示的大型视觉语言模型风险测试方法,其特征在于,包括步骤:
2.根据权利要求1所述的大型视觉语言模型风险测试方法,其特征在于,在视觉图像上施加扰动以得到所需的视觉对抗扰动的表达式为:
3.根据权利要求1所述的大型视觉语言模型风险测试方法,其特征在于,采用思维链策略更新文本对抗提示的表达式为:
4.根据权利要求1所述的大型视觉语言模型风险测试方法,其特征在于,判断模型响应是否为有害内容的方法为:
5.根据权利要求1所述的大型视觉语言模型风险测试方法,其特征在于,采用大语言模型构建与查询内容无关的语料库,所述语料库包括若干文本,所述文本与肯定前缀和否定抑制的语义相关联。
6.根据权利要求1所述的大型视觉语言模型风险测试方法,其特征在于,所述数据集的获取方法包括收集网络上出现频率高于预设频次的有害文本,并对其进行数据清洗,得到若干类易存在生成内容风险的场景;所述数据清洗至少包括补全、去重操作。
7.根据权利要求3-5任一所述的大型视觉语言模型风险测试方法,其特征在于,所述大型视觉语言模型为minigpt4,大语言模型为chatgpt或文心一言。
