基于本地差分隐私和指数机制的联邦学习策略优化方法

allin2025-11-18  11


本发明涉及互联网大数据及信息安全,具体涉及基于本地差分隐私和指数机制的联邦学习策略优化方法。


背景技术:

1、随着数字化时代的迅猛发展,机器学习技术在图像识别、自然语言处理等多个领域展示了其广泛的应用潜力。传统的机器学习需要大量数据来训练模型,但通常持有数据的机构之间的数据无法互通并且数据量有限,同时又由于数据具有隐私性,数据拥有者不愿将其数据发送给任何数据收集者,面临着严重的“数据孤岛”问题。为此,现有技术中提出了联邦学习(fl,federated learning)的概念。

2、联邦学习是一种创新的分布式机器学习框架,允许各个参与方在不共享其原始数据的前提下,仅将训练好的模型参数发送至中央服务器进行聚合更新。尽管在fl中,用户在本地对模型进行更新,但共享的更新参数中通常会包含用户的隐私信息,使得用户仍面临着隐私信息被泄露的风险。目前,隐私地联邦学习的方法主要集中在数据加密和数据扰动两大类。相比于数据加密类方法,数据扰动类具有计算量小、易实现,易部署的优点,适用于常态化应用的联邦学习。作为热门的数据扰动技术,差分隐私(differential privacy,dp)是一种强隐私保护技术,能够抵御具有任意背景知识攻击者的攻击,并且能够提供严谨、定量化的隐私保证。本地化差分隐私(local differential privacy,ldp)技术继承自中心化差分隐私,同时扩展出了新的“本地数据扰动”这一特性,即数据的隐私化处理过程转移到每个用户上,使得用户自身能够独立地处理和保护个人敏感信息,从而实现更加彻底的隐私保护,这一特性使得其适用于隐私地联邦学习。

3、当前已有很多文献对本地化差分隐私下联邦学习展开了深入研究。例如,公开号为cn117556459a的中国专利就公开了《一种个性化差分隐私联邦学习方法及系统》,其方法包括:将全局模型参数和隐私类型下发给预先选择的客户端;接收客户端发送的本地模型参数和隐私保护等级,本地模型参数为客户端将本地数据进行扰动处理后得到的模型参数,隐私保护等级为隐私类型中的一个等级;将本地模型参数和隐私保护等级进行参数聚合,得到聚合模型参数和聚合隐私保护等级;根据聚合隐私保护等级,对聚合模型参数进行处理,得到目标全局模型参数;根据目标全局模型参数,得到目标全局模型。

4、申请人发现,上述现有方案的差分隐私联邦学习方法采用的是每个训练轮次固定的隐私预算,即将整体隐私预算均等分配至所有预定的训练轮次。然而,这种固定分配方式难以适应模型训练过程中参数更新需求的变化,因为随着训练的进行,模型逐渐趋于稳定,此时模型的抗噪能力较弱,即使注入较小的噪声也会对模型性能产生较大的负面影响,因此采用每轮固定隐私预算的策略会导致模型训练的精确度和效率降低。此外,机器学习模型的参数维度可能有几千甚至几十万,这导致隐私预算的需求呈爆炸式增长,不仅难以实现有效的隐私保护,还导致联邦学习的通信效率降低。


技术实现思路

1、针对上述现有技术的不足,本发明所要解决的技术问题是:如何提供一种基于本地差分隐私和指数机制的联邦学习策略优化方法,根据各训练轮次的收敛速度动态调整每个训练轮次的隐私预算分配,能够在保持总隐私预算不变的前提下,显著提高模型训练的精确度和效率;同时通过参数过滤和指数机制选择模型参数中的关键参数,进而对关键参数进行上传和隐私保护,从而降低联邦学习的通信成本并提高通信效率。

2、为了解决上述技术问题,本发明采用了如下的技术方案:

3、基于本地差分隐私和指数机制的联邦学习策略优化方法,包括:

4、s1:服务器初始化全局训练模型;

5、s2:服务器计算当前训练轮次应分配的隐私预算,并将隐私预算和全局模型参数发送给各个客户端;

6、s3:各个客户端接收到隐私预算和全局模型参数后,将本地的局部模型参数替换为全局模型参数,并通过本地数据训练局部模型;

7、s4:训练结束后,各个客户端对训练得到的模型参数进行过滤,并通过指数机制从过滤后的模型参数中选择对局部模型性能影响更大的关键参数;

8、s5:各个客户端通过当前训练轮次的隐私预算对选择的关键参数进行扰动,并将扰动后的参数扰动值上传至服务器;

9、s6:服务器汇总各个客户端上传的参数扰动值,并对所有参数扰动值进行加权平均后更新全局模型;

10、s7:重复步骤s2至步骤s6,对全局模型进行迭代训练,直至全局模型达到预定的性能标准或完成设定的训练轮次。

11、优选的,步骤s2中,通过如下公式计算当前训练轮次应分配的隐私预算:

12、

13、式中:εt表示当前训练轮次t应分配的隐私预算;ε0表示最小隐私预算;εmax表示最大隐私预算;t表示训练轮次的设定数。

14、优选的,步骤s4中,客户端通过阈值比较的方式实现模型参数的过滤:对所有模型参数中小于或等于设置阈值的模型参数进行删除,大于设置阈值的模型参数进行保留作为过滤后的模型参数。

15、优选的,步骤s4中,客户端通过指数机制从过滤后的模型参数中选择关键参数的处理步骤为:

16、s401:基于局部模型当前训练轮次的梯度计算累计梯度;

17、公式表示为:

18、

19、式中:gsum表示累计梯度;gk表示局部模型第k个训练轮次迭代的梯度;k表示局部模型的训练轮次数;

20、s402:对模型参数和累计梯度进行归一化处理;

21、s403:基于归一化后的模型参数和累计梯度计算效用函数u;

22、s404:基于效用函数u结合当前训练轮次的隐私预算计算概率进而通过概率从过滤后的模型参数中随机非重复的选择若干个关键参数。

23、优选的,步骤s403中,效用函数u的计算公式如下:

24、u(wnorm,gnorm)=α·|wnorm|+(1-α)·|gnorm|;

25、式中:wnorm和gnorm分别表示归一化后的模型参数和累计梯度;α表示调节因子,用于平衡参数和梯度对效用的贡献。

26、优选的,步骤s5中,客户端基于指数机制实现关键参数的扰动。

27、优选的,步骤s4中,客户端基于指数机制实现关键参数扰动的处理步骤如下:

28、s501:通过训练前后关键参数的差值计算采样界限k;

29、公式表示为:

30、

31、式中:表示第i个关键参数在训练轮次l的数值;表示第i个关键参数在训练轮次l-1的数值;

32、s502:根据采样界限k确定关键参数的扰动样本范围r;

33、公式表示为:

34、

35、s503:将关键参数的扰动范围r均分为n个扰动候选值,生成扰动样本;其中n的大小由用户自行决定;

36、s504:基于关键参数与扰动候选值的距离计算效用函数u′;

37、s505:基于效用函数u′结合当前训练轮次的隐私预算计算关键参数的扰动概率,进而通过扰动概率从扰动样本中随机选择一个扰动候选值作为关键参数的参数扰动值。

38、优选的,步骤s4中,步骤s503中,扰动样本的计算公式如下:

39、

40、优选的,步骤s4中,步骤s504中,效用函数u′的计算公式如下:

41、

42、式中:表示关键参数;表示扰动候选值;d表示和之间的欧式距离。

43、优选的,步骤s4中,步骤s505中,扰动概率的计算公式如下:

44、

45、式中:表示关键参数经过指数机制扰动到的概率,即关键参数的扰动概率;δu′是效用函数u′的敏感度,大小为k;εt表示当前训练轮次t的隐私预算。

46、本发明中基于本地差分隐私和指数机制的联邦学习策略优化方法与现有技术相比,具有如下有益效果:

47、本发明在基于本地差分隐私的联邦学习过程中,服务器根据各训练轮次的收敛速度动态调整每个训练轮次的隐私预算分配。首先,通过每轮的收敛情况动态调整隐私预算,可以在模型变化较大的初期训练阶段减少隐私预算,因为在训练的初期阶段,由于模型参数尚未趋于稳定对噪声的容忍度较高,这不仅节约了隐私预算,还为后续阶段的训练保留更多的隐私预算;在中期训练阶段适当增加隐私预算,因为随着训练的进行,模型逐渐从初期的快速变化过渡到中期的稳定更新,增加隐私预可以平衡噪声对模型性能的影响和隐私保护需求;在后期训练阶段显著增加隐私预算,减少注入的噪声,因为在训练的后期,模型逐渐收敛,参数更新趋于稳定,此时模型对噪声的容忍度显著降低,即使较小的噪声也会对模型性能产生较大影响,从而提高模型训练的精确度、效率和稳定性。其次,动态调整隐私预算分配使得系统更加灵活,能够应对不同数据分布和模型复杂度的挑战;同时合理的隐私预算分配可以减少不必要的计算资源浪费,提高计算效率。

48、本发明的客户端在每轮训练之后,对训练得到的模型参数(维度)进行过滤,并通过指数机制进行参数选择。首先,客户端更新生成的大多数参数或梯度都是接近于零的,因此对模型参数进行过滤,可以去除冗余或低效的参数,从而提高联邦学习的训练效率。其次,通过指数机制进一步选择对局部模型性能影响更大的关键参数,可以确保这些关键参数在模型更新中得到更多的关注,有助于模型更快地收敛到最优解,从而提升整体性能。最后,通过对过滤后的参数进行指数机制选择,可以有效的降低模型参数的维度,进一步减少需要加密和传输的数据量,即仅对关键参数进行上传和隐私保护,这不仅降低了通信成本、提高了通信效率,还可以减少潜在的隐私泄露风险。

49、本发明在通过指数机制进行参数选择的基础上,进一步通过指数机制对选择的关键参数进行扰动。首先,指数机制通过添加适当的噪声到关键参数中,可以有效隐藏原始数据的真实值,防止通过分析上传的参数值来推断出原始数据,从而增强数据隐私保护。其次,在联邦学习中,恶意参与者可能会上传不正确的模型参数以破坏全局模型,通过指数机制对参数进行扰动,可以降低恶意参数对全局模型的影响,提高系统的鲁棒性和安全性。最后,扰动后的参数在服务器上进行加权平均时,由于噪声的存在,可以减少个别极端值对全局模型更新的影响,有助于模型更加平稳地收敛到最优解,提高训练的稳定性和可靠性。


技术特征:

1.基于本地差分隐私和指数机制的联邦学习策略优化方法,其特征在于,包括:

2.如权利要求1所述的基于本地差分隐私和指数机制的联邦学习策略优化方法,其特征在于:步骤s2中,通过如下公式计算当前训练轮次应分配的隐私预算:

3.如权利要求1所述的基于本地差分隐私和指数机制的联邦学习策略优化方法,其特征在于:步骤s4中,客户端通过阈值比较的方式实现模型参数的过滤:对所有模型参数中小于或等于设置阈值的模型参数进行删除,大于设置阈值的模型参数进行保留作为过滤后的模型参数。

4.如权利要求1所述的基于本地差分隐私和指数机制的联邦学习策略优化方法,其特征在于:步骤s4中,客户端通过指数机制从过滤后的模型参数中选择关键参数的处理步骤为:

5.如权利要求4所述的基于本地差分隐私和指数机制的联邦学习策略优化方法,其特征在于:步骤s403中,效用函数u的计算公式如下:

6.如权利要求1所述的基于本地差分隐私和指数机制的联邦学习策略优化方法,其特征在于:步骤s5中,客户端基于指数机制实现关键参数的扰动。

7.如权利要求6所述的基于本地差分隐私和指数机制的联邦学习策略优化方法,其特征在于:步骤s4中,客户端基于指数机制实现关键参数扰动的处理步骤如下:

8.如权利要求7所述的基于本地差分隐私和指数机制的联邦学习策略优化方法,其特征在于:步骤s4中,步骤s503中,扰动样本的计算公式如下:

9.如权利要求7所述的基于本地差分隐私和指数机制的联邦学习策略优化方法,其特征在于:步骤s4中,步骤s504中,效用函数u′的计算公式如下:

10.如权利要求9所述的基于本地差分隐私和指数机制的联邦学习策略优化方法,其特征在于:步骤s4中,步骤s505中,扰动概率的计算公式如下:


技术总结
本发明公开了一种基于本地差分隐私和指数机制的联邦学习策略优化方法,包括:计算当前训练轮次应分配的隐私预算并发送给各个客户端;客户端将本地的局部模型参数替换为全局模型参数并通过本地数据训练局部模型;训练结束后,客户端对训练得到的模型参数进行过滤,并通过指数机制选择关键参数;客户端通过当前训练轮次的隐私预算对选择的关键参数进行扰动,并将扰动后的参数扰动值上传至服务器;服务器汇总各个客户端上传的参数扰动值,并对所有参数扰动值进行加权平均后更新全局模型;重复迭代训练直至结束。本发明根据各训练轮次的收敛速度动态调整每个训练轮次的隐私预算分配,同时通过参数过滤和指数机制选择模型参数中的关键参数。

技术研发人员:李艳辉,成梦圆,吕天赐,赵玉鑫,黄臣
受保护的技术使用者:重庆交通大学
技术研发日:
技术公布日:2024/10/31
转载请注明原文地址: https://www.8miu.com/read-24824.html

最新回复(0)