多模态隐私数据生成模型训练方法、数据生成方法及系统

allin2025-12-20  24


本发明涉及数据隐私保护,具体涉及一种基于生成对抗网络的多模态隐私数据生成模型训练方法、数据生成方法及系统。


背景技术:

1、随着机器学习越来越多的应用在现实场景中,大量各种领域的数据都可能被应用于机器学习模型的训练中。但是医院、政府等领域的数据包含敏感的隐私信息,这些数据可能存在巨大的潜在分析价值,但是由于监管限制或是群众对个人隐私的顾虑,这些数据无法直接公开或分享,因而不便于对数据进行分析。为了解决这一问题,生成对抗网络作为一种新的解决方案,近年来受到了各界的广泛关注。其通过生成隐私数据以替代真实数据进行发布,实现了初步的对真实数据的保护。多模态隐私数据生成旨在同时生成多种模态的数据,同时保护用于训练生成模型的多模态数据。生成对抗网络作为当前先进的生成模型之一,在数据隐私保护方面展现出巨大潜力。gan模型通过模拟与真实数据相似的分布,能够生成虚拟数据,并且与真实数据不存在一一对应的映射关系,从而在不泄露原始数据的情况下,提供可用的替代数据。这种替代数据被称为合成数据,它在保持数据实用性的同时,降低了隐私泄露的风险。

2、尽管隐私数据生成领域经过多年的研究和发展,当前基于gan的研究工作主要关注于单模态隐私数据生成。然而,现实世界中的数据往往是多模态的,例如,医院中患者的医学影像和诊断记录共同构成了完整的医疗记录。单模态生成模型无法直接应用于生成这两种类型的数据,它们无法充分捕捉到这两种数据类型之间的内在联系以生成语义上正确的融合数据,这限制了它们被应用到更广泛的实际场景中。此外,当前图像与表格数据联合生成的研究工作仍较少,一种方法是基于共享生成器联系表格与图像数据生成,其借助于反向传播的梯度让共享生成器同时学习图像和表格的信息;另一种方法则使用预训练的图像自编码器压缩图像特征,再让模型学习拼接后的表格与图像特征。这些方法一方面未在实验中研究生成的图像与表格数据的语义一致性,即确保图像与相应的表格记录在信息传递上具有一一对应的关系;另一方面,它们也未考虑在生成模型上实现更严格的隐私保护。当生成对抗网络所使用的真实数据是包含隐私信息的数据时,通过常规方式直接训练得到的生成器在受到特定的恶意攻击时可能会泄漏真实数据的敏感信息。因此,在生成模型上应用严格的隐私保护技术以为隐私数据提供更强力的保障是必要的,并且在该发明上还需要能够同时为多种模态数据(图像与表格数据)提供隐私保障。

3、基于生成对抗网络(generative adversarial network,gan)的多模态隐私数据生成是一项具有挑战性的跨模态数据生成任务,旨在生成多模态数据的同时保护用于训练的隐私数据。当前gan模型主要应用于生成图像、文本和表格等单模态数据,或基于文本生成图像数据,但是在多模态数据生成领域,例如图像和表格数据联合生成的任务,当前的相关研究工作仍较少。通过生成对抗网络生成的表格数据对重识别攻击具有较强的防御能力,但是当前对于图像和表格数据生成的研究并未考虑实现严格的隐私保护,当面对一些特定的攻击,例如成员推断攻击,攻击者可能从发布的gan生成器中窃取到敏感的真实数据,从而造成严重的隐私泄漏问题。

4、总之,在现有基于生成对抗网络的图像与表格联合生成方法中,生成器部分模态交互较少,判别器部分的模态融合技术较简单,忽视了图像和表格数据的模态差距,导致模型在处理不同数据类型时学习效率不均,影响了生成质量。当前的图像与表格数据生成方法仅研究了各类型数据的生成质量,尚未深入研究生成语义上正确的多模态数据。缺乏对语义一致性的研究限制了模型对多模态数据内在联系的深入理解和生成能力。现有的方法未在多模态的生成对抗网络上应用严格的隐私保护技术,在面对成员推断攻击等恶意攻击时存在较高的隐私泄漏风险。


技术实现思路

1、本发明的目的在于提供一种基于生成对抗网络的多模态隐私数据生成模型训练方法、数据生成方法及系统,能够高效地联合生成图像和表格数据并且提升数据间的语义一致性,采用差分隐私机制为模型训练提供更严格的保障,以解决上述背景技术中存在的至少一项技术问题。

2、为了实现上述目的,本发明采取了如下技术方案:

3、第一方面,本发明提供一种多模态隐私数据生成模型训练方法,包括:

4、获取成对的图像与表格数据集;

5、对每一个表格中一条记录的离散型属性和连续型属性分别进行编码处理和归一化处理,将一条记录中的所有属性处理后的结果连接起来,得到对应的向量表示,与图像共同形成真实数据;

6、在数据采样阶段,为满足差分隐私采样机制的需求,每次根据采样率在真实数据集中进行不放回采样,得到图像-表格对;

7、在判别器训练阶段,冻结生成器参数并生成图像和表格的合成数据;将真实数据和合成数据输入判别器,计算各图像-表格对的参数梯度;

8、在高斯机制阶段,裁剪各图像-表格对的参数梯度范数,并在裁剪后的梯度中添加噪声,再通过反向传播优化判别器参数;

9、在生成器训练阶段,冻结判别器参数,使用合成数据的判别结果优化生成器参数。

10、进一步的,冻结生成器参数,在不计算梯度的设置下生成图像和表格的合成数据,对于合成数据、真实数据和打乱的真实数据,每次取同一位置的样本输入到判别器,计算多角度判别与匹配损失;对逐样本损失进行反向传播,计算基于各真实数据的参数梯度。

11、进一步的,裁剪各个真实样本的判别器梯度范数到预设的裁剪边界内;根据裁剪边界计算高斯噪声标准差,添加噪声到真实样本的参数梯度;聚合施加适当扰动后的参数梯度并优化判别器参数。

12、进一步的,在计算梯度的设置下,使用生成器生成图像和表格数据;冻结判别器参数,在不计算其梯度的设置下判别合成数据,得到单模态和多模态的判别结果;计算生成器的总体损失并优化生成器参数。

13、第二方面,本发明提供一种多模态隐私数据生成模型训练系统,包括:

14、获取模块,用于获取成对的图像与表格数据集;

15、预处理模块,用于对每一个表格中一条记录的离散型属性和连续型属性分别进行编码处理和归一化处理,将一条记录中的所有属性处理后的结果连接起来,得到对应的向量表示,与图像共同形成真实数据;

16、采样模块,用于在数据采样阶段,为满足差分隐私采样机制的需求,每次根据采样率在真实数据集中进行不放回采样,得到图像-表格对;

17、判别模块,用于在判别器训练阶段,冻结生成器参数并生成图像和表格的合成数据;将真实数据和合成数据输入判别器,计算各图像-表格对的参数梯度;

18、裁剪模块,用于在高斯机制阶段,裁剪各图像-表格对的参数梯度范数,并在裁剪后的梯度中添加噪声,再通过反向传播优化判别器参数;

19、生成模块,用于在生成器训练阶段,冻结判别器参数,使用合成数据的判别结果优化生成器参数。

20、第三方面,本发明提供一种多模态隐私数据生成方法,包括:

21、获取成对的图像与表格数据集;

22、利用训练好的多模态隐私数据生成模型对获取的成对的图像与表格数据集进行处理,得到隐私数据;其中,所述多模态隐私数据生成模型为根据权利要求1-4任一项所述的训练方法训练得到。

23、第四方面,本发明提供一种多模态隐私数据生成系统,包括:

24、获取模块,用于获取成对的图像与表格数据;

25、处理模块,用于利用训练好的多模态隐私数据生成模型对获取的成对的图像与表格数据进行处理,得到隐私数据;其中,所述多模态隐私数据生成模型为根据第一方面所述的训练方法训练得到。

26、第五方面,本发明提供一种非暂态计算机可读存储介质,所述非暂态计算机可读存储介质用于存储计算机指令,所述计算机指令被处理器执行时,实现如第三方面所述的多模态隐私数据生成方法。

27、第六方面,本发明提供一种计算机设备,包括存储器和处理器,所述处理器和所述存储器相互通信,所述存储器存储有可被所述处理器执行的程序指令,所述处理器调用所述程序指令执行如第三方面所述的多模态隐私数据生成方法。

28、第七方面,本发明提供一种电子设备,包括:处理器、存储器以及计算机程序;其中,处理器与存储器连接,计算机程序被存储在存储器中,当电子设备运行时,所述处理器执行所述存储器存储的计算机程序,以使电子设备执行实现如第三方面所述的多模态隐私数据生成方法的指令。

29、术语解释:

30、高斯混合模型:高斯混合模型是一种概率密度模型,它将数据视为由有限个高斯分布成分加权混合生成,每个成分具有自己的均值和协方差矩阵,通过最大化边际似然函数来估计模型参数。

31、成员推断攻击:成员推断攻击是一种针对机器学习模型的隐私攻击手段,它通过分析模型对特定数据的输出(如预测概率或置信度),推断出该数据是否属于模型的训练集。

32、本发明有益效果:提出的基于共享生成器的生成方法实现了在一个统一框架中生成rgb图像和表格数据,无需使用额外的公开数据和端到端的训练方式,并且各类型数据的生成过程中相互联系,提升了生成数据的语义一致性。共享参数的权重适配器能够对自动地为图像与表格特征分配合理的权重取值,以有效地融合不同模态的关键信息实现准确的多模态数据判别。为了弥合图像和表格的模态差距,提出多角度判别与多模态匹配损失,多模态判别损失主导gan模型的训练过程,单模态判别损失用于辅助模型平衡不同模态的学习效率,匹配损失促进模型对模态间关系的学习。为了降低生成模型的隐私泄漏风险,提出将差分隐私机制应用在基于gan的图像与表格数据联合生成模型上,以平衡合成数据的可用性与隐私性。

33、本发明附加方面的优点,将在下述的描述部分中更加明显的给出,或通过本发明的实践了解到。


技术特征:

1.一种多模态隐私数据生成模型训练方法,其特征在于,包括:

2.根据权利要求1所述的多模态隐私数据生成模型训练方法,其特征在于,冻结生成器参数,在不计算梯度的设置下生成图像和表格的合成数据,对于合成数据、真实数据和打乱的真实数据,每次取同一位置的样本输入到判别器,计算多角度判别与匹配损失;对逐样本损失进行反向传播,计算基于各真实数据的参数梯度。

3.根据权利要求2所述的多模态隐私数据生成模型训练方法,其特征在于,裁剪各个真实样本的判别器梯度范数到预设的裁剪边界内;根据裁剪边界计算高斯噪声标准差,添加噪声到真实样本的参数梯度;聚合施加适当扰动后的参数梯度并优化判别器参数。

4.根据权利要求3所述的多模态隐私数据生成模型训练方法,其特征在于,在计算梯度的设置下,使用生成器生成图像和表格数据;冻结判别器参数,在不计算其梯度的设置下判别合成数据,得到单模态和多模态的判别结果;计算生成器的总体损失并优化生成器参数。

5.一种多模态隐私数据生成模型训练系统,其特征在于,包括:

6.一种多模态隐私数据生成方法,其特征在于,包括:

7.一种多模态隐私数据生成系统,其特征在于,包括:

8.一种非暂态计算机可读存储介质,其特征在于,所述非暂态计算机可读存储介质用于存储计算机指令,所述计算机指令被处理器执行时,实现如权利要求6所述的多模态隐私数据生成方法。

9.一种计算机设备,其特征在于,包括存储器和处理器,所述处理器和所述存储器相互通信,所述存储器存储有可被所述处理器执行的程序指令,所述处理器调用所述程序指令执行如权利要求6所述的多模态隐私数据生成方法。

10.一种电子设备,其特征在于,包括:处理器、存储器以及计算机程序;其中,处理器与存储器连接,计算机程序被存储在存储器中,当电子设备运行时,所述处理器执行所述存储器存储的计算机程序,以使电子设备执行实现如权利要求6所述的多模态隐私数据生成方法的指令。


技术总结
本发明提供一种多模态隐私数据生成模型训练方法、数据生成方法及系统,属于数据隐私保护技术领域,本发明实现了在一个统一框架中生成RGB图像和表格数据,无需使用额外的公开数据和端到端的训练方式,并且各类型数据的生成过程中相互联系,提升了生成数据的语义一致性,能够有效融合不同模态的关键信息实现准确的多模态数据判别;提出多角度判别与多模态匹配损失,多模态判别损失主导GAN模型的训练过程,单模态判别损失用于辅助模型平衡不同模态的学习效率,匹配损失促进模型对模态间关系的学习。为了降低生成模型的隐私泄漏风险,提出将差分隐私机制应用在基于GAN的图像与表格数据联合生成模型上,以平衡合成数据的可用性与隐私性。

技术研发人员:金一,杨纪明,苏楦雯,王伟,段莉,李浥东,王涛
受保护的技术使用者:北京交通大学
技术研发日:
技术公布日:2024/10/31
转载请注明原文地址: https://www.8miu.com/read-25233.html

最新回复(0)