一种基于本地差分隐私的数据分布频率估计方法

allin2025-02-25  57


本发明涉及互联网大数据及信息安全,具体涉及一种基于本地差分隐私的数据分布频率估计方法。


背景技术:

1、在当前大数据时代,无论是个人日常生活,还是研究机构和企业的发展,都离不开各类数据的支持,尤其是数值数据的广泛应用。例如,人们通过在线平台提供收入数据以申请贷款,在网约车平台提交位置数据以进行线上打车,通过健康应用记录身高体重数据以便进行个性化的健康管理。同时,企业和政府机构收集用户的数值数据进行分析,以设计更加精准的产品,并提供数据驱动的公共服务,如经济分析、资源分配和紧急响应。

2、然而,这些数值数据虽然带来了极大的便利,却也引发了严重的隐私泄露风险。数值数据通常携带大量敏感信息,分析这些数据可以推断出用户的隐私细节,包括财务状况、健康状况,甚至个人行为习惯。随着用户隐私保护意识的提升和数据安全法律的完善,直接获取大规模用户数值数据变得越来越困难。因此,如何在收集数值数据的同时保障个人隐私,成为了一个亟待解决的重要问题。

3、为了解决数值数据的隐私泄露问题,现有技术提出了多种方法,包括同态加密、伪装技术和差分隐私等。其中,同态加密可以在数据加密状态下进行计算,保障数据的安全性,但计算开销大、效率低,难以在大规模数据分析中推广应用;伪装技术则通过替换或伪装部分数据内容来保护隐私,但会影响数据的准确性和真实性。差分隐私作为当前的主流方法,通过为用户的数值数据添加随机噪声,使得单个数据项对整体结果的影响微乎其微,从而有效保护隐私。然而,传统的差分隐私假设第三方不会泄露用户的原始数据,但频发的隐私泄露事件,如大规模用户数据泄露和黑客攻击,表明现实生活中难以存在真正可靠的第三方。为此,本地差分隐私应运而生,其将数据的隐私化处理过程转移到用户端,使得用户可以独立地处理和保护个人敏感信息,从而实现更加彻底的隐私保护。

4、尽管本地差分隐私在数值数据隐私保护方面表现出色,但现有机制仍存在以下不足:

5、1)忽略了用户隐私需求的差异。现有机制的扰动策略往往采用相同的扰动输出域,这增加了不必要的噪声,导致扰动数据频率估计的精度低。如低收入和高收入用户对其收入数据极为敏感,不仅需要保护具体数值,还需要保护其收入属于低收入或高收入这一事实,扰动输出必须同时包含低、中、高收入三个数值范围,对于中等收入群体,其收入数据相对不那么敏感,只需保护具体数值,其扰动输出域在中等收入的数值范围即可。

6、2)现有机制较少关注扰动数据与真实数据的偏差问题,使得扰动数据与真实数据的相差较大,导致扰动数据可用性较低,难以用于精细化的分析和应用,不利于服务提供商利用收集的数据为用户提供个性化服务。

7、综上,如何提高扰动数据的频率估计精度和可用性是亟需解决的技术问题。


技术实现思路

1、针对上述现有技术的不足,本发明所要解决的技术问题是:如何提供一种基于本地差分隐私的数据分布频率估计方法,允许用户根据自己的隐私需求选择预期的扰动范围,以避免不必要定的噪声;同时根据用户选择的安全范围进行细粒度的阶梯设计,以降低扰动数据与真实数据的偏差,从而提高扰动数据的频率估计精度和可用性。

2、为了解决上述技术问题,本发明采用了如下的技术方案:

3、一种基于本地差分隐私的数据分布频率估计方法,包括:

4、s1:服务器根据各个客户端的预期扰动范围构建扰动范围集合,并将扰动范围集合和隐私预算发送给各个客户端;

5、s2:客户端根据预期扰动范围从扰动范围集合中选择一个安全范围;

6、s3:客户端结合隐私预算和选择的安全范围通过最大化互信息来确定最优的扰动参数;

7、s4:客户端根据选择的安全范围结合最优的扰动参数对真实数据进行细粒阶梯扰动,并将扰动得到的扰动数据和选择的安全范围一起发送给服务器;

8、s5:服务器接收所有客户端的扰动数据和选择的安全范围;

9、s6:服务器对扰动数据进行聚合得到扰动频率,并通过扰动频率结合转移概率矩阵估计真实数据的分布频率结果。

10、优选的,步骤s1中,服务器通过k-mean聚类算法对所有的预期扰动范围进行聚类,生成包含k个扰动范围的扰动范围集合{r1,…,rk}。

11、优选的,步骤s3中,通过最大化真实数据与扰动数据的互信息来确定最优的扰动参数,具体步骤如下:

12、s301:设u是均匀分布在输出域上的随机变量,当均匀分布时熵最大;计算输出域最大的熵h(u)=ln(2r);

13、s302:计算在已知输入的条件熵h(x'|x);

14、公式表示为:

15、

16、s303:输出域和输入域的互信息为i(x,x'),满足公式i(x,x')≤h(u)-h(x'|x),其导数为0时i(x,x')最大,求解i(x,x')导数为0时的r值作为该安全范围和隐私预算情况下最优的扰动参数。

17、优选的,步骤s4中,细粒度阶梯扰动的处理步骤如下:

18、s401:获取最优的扰动参数r,并设置阶梯数n;

19、s402:通过扰动参数r将安全范围划分为若干个阶梯区间z1,...,zn;

20、s403:计算阶梯区间z1,...,zn的扰动概率p1,…,pn以及每个阶梯区间的区间长度l1,...,ln;

21、s404:根据每个阶梯区间的扰动概率和区间长度计算sum值;

22、公式表示为:

23、

24、s405:从[0,1]中随机采样随机数rand:若rand≤sum1,则真实数据随机扰动到阶梯区间z1中,生成扰动数据;若sumt-1<rand≤sumt,则将真实数据随机扰动到阶梯区间zt中,生成扰动数据。

25、优选的,步骤s403中,扰动概率的计算公式为:

26、

27、p1=pn·eε;

28、pi=pi-1-pn(i>2);

29、式中:x表示真实数据;x'表示扰动数据;abs(x,x')表示真实数据与扰动数据之差的绝对值;n表示阶梯数;r表示扰动参数。

30、优选的,步骤s6中,通过如下步骤估计真实数据的分布频率结果:

31、s601:将真实数据的范围和扰动数据的范围分别作为输入域和输出域,并将输入域进行区间划分,生成m个数值集合;

32、s602:按照不同的安全范围r将扰动数据划分为k个数据组;

33、s603:对于每个数据组,执行如下步骤:

34、s6031:遍历该数据组的扰动数据,计算输出域上第i个数值集合的扰动频率;

35、s6032:计算在该数据组的安全范围下,第i个数值集合的转移概率矩阵;

36、s6033:根据第i个数值集合的扰动频率和转移概率矩阵,计算该数据组在输入域上第i个数值集合真实分布频率的估值;

37、s6034:重复步骤s6031至s6033,得到该数据组在输入域的每个数值集合上真实分布频率的估值;

38、s604:重复步骤s603,计算每组数据组在输入域的每个数值集合上真实分布频率的估值;

39、s605:将各个数据组在同一数据集合上真实分布频率的估值相加作为该数据集合的真实数据分布频率,最终将所有数据集合的真实数据分布频率作为真实数据的分布频率结果。

40、优选的,步骤s6031中,扰动频率的计算公式如下:

41、

42、式中:fi*表示第i个数值集合的扰动频率;zt表示真实数据的扰动数据;表示指示函数:当扰动数据zt与数值集合xi的中心值之差的绝对值小于对应的安全范围r时,指示函数等于1,否则等于0;n表示数据组中扰动数据zt的个数。

43、优选的,步骤s6032中,转移概率矩阵的计算公式如下:

44、

45、式中:pr[dout(xi)|din(xj)]表示转移概率矩阵;extij表示输入域上的xi与xj的输出域相交部分的长度,lenijz表示输入域上的与xi的中心值相差为(z-1)×r到z×r这段输出域区间与xj的输出域相交部分的长度。

46、优选的,步骤s6033中,通过如下公式计算数据组在输入域上第i个数值集合的真实分布频率:

47、

48、式中:fj表示该数据组在输入域上第j个数值集合真实分布频率的估值;fi*表示该数据组在输出域上第i个数值集合dout(xi)的扰动频率。

49、优选的,步骤s605中,得到输入域各个数据集合的真实数据分布频率之后,对各个数据集合的真实数据分布频率进行平滑处理;

50、公式表示为:

51、fi=a·fi-1+b·fi+c·fi+1;

52、式中:fi表示第i个数值集合的真实数据分布频率;fi-1、fi+1表示与fi相邻的数值集合的真实数据分布频率;a、b、c表示权重,且a+b+c=1。

53、本发明中基于本地差分隐私的数据分布频率估计方法与现有技术相比,具有如下有益效果:

54、本发明的服务器根据各个客户端用户的预期扰动范围构建扰动范围集合,然后客户端根据用户的预期扰动范围从扰动范围集合中选择一个安全范围,最终根据用户选择的安全范围对真实数据进行扰动。首先,允许用户根据自己的隐私需求选择预期的扰动范围,使得每个用户能够根据自己的需求调整数据隐私保护的程度,这种个性化设置减少了不必要的隐私泄露风险,用户能够控制其数据被扰动的程度,并且能够避免引入不必要的噪声,从而增强了整体的隐私保护效果,并提高扰动数据的频率估计精度。其次,通过让用户参与选择扰动范围,使得数据收集过程更加透明和用户友好,用户感受到对其数据的控制力,增加了对数据收集过程的信任感,进而提升了整体的用户体验。最后,不同的应用场景或数据类型可能对隐私保护的需求不同,允许用户定义预期的扰动范围,可以灵活适应各种隐私场景,确保在保护隐私的同时,也满足数据使用的需求。

55、本发明在用户选择安全范围的基础上,进一步根据用户选择的安全范围结合隐私预算对用户的真实数据进行细粒阶梯扰动。首先,通过细粒阶梯扰动,可以更加精确地控制扰动强度,使其既满足隐私保护的需求,又尽可能减少扰动对真实数据的扭曲,细粒度的阶梯设计允许在隐私预算内,以更小的步长调整扰动值,从而降低扰动后的数据与真实数据之间的偏差。其次,结合隐私预算进行扰动设计,可以确保在保护用户隐私的同时,最大化数据的可用性,隐私预算的分配策略可以根据数据的重要性和敏感度进行调整,以在隐私保护和数据效用之间找到最佳平衡点。最后,在多次数据收集和处理过程中,累积误差是常见问题,细粒阶梯扰动通过精确控制每次扰动的强度,有助于减少这种累积误差,使得最终的数据分析结果更加接近真实情况。

56、本发明在通过细粒阶梯扰动申城扰动数据的基础上,进一步通过扰动数据的扰动频率结合转移概率矩阵估计真实数据的分布频率结果。首先,通过计算扰动频率和构建转移概率矩阵,可以充分利用扰动数据的统计特性来估计真实数据的分布频率,转移概率矩阵反映了扰动过程中不同数值之间的转换概率,有助于还原真实数据的分布情况。其次,扰动数据中包含的噪声会对真实数据的估计产生干扰,通过转移概率矩阵进行估计,可以在一定程度上抵消这种噪声影响,提高估计结果的准确性。最后,在多次数据收集和分析过程中,利用转移概率矩阵进行估计可以保持估计结果的稳定性,即使在不同时间或不同条件下收集到的扰动数据存在差异,通过转移概率矩阵进行校正后,估计结果仍能保持相对稳定。


技术特征:

1.一种基于本地差分隐私的数据分布频率估计方法,其特征在于,包括:

2.如权利要求1所述的基于本地差分隐私的数据分布频率估计方法,其特征在于:步骤s1中,服务器通过k-mean聚类算法对所有的预期扰动范围进行聚类,生成包含k个扰动范围的扰动范围集合{r1,...,rk}。

3.如权利要求1所述的基于本地差分隐私的数据分布频率估计方法,其特征在于:步骤s3中,通过最大化真实数据与扰动数据的互信息来确定最优的扰动参数,具体步骤如下:

4.如权利要求1所述的基于本地差分隐私的数据分布频率估计方法,其特征在于:步骤s4中,细粒度阶梯扰动的处理步骤如下:

5.如权利要求4所述的基于本地差分隐私的数据分布频率估计方法,其特征在于:步骤s403中,扰动概率的计算公式为:

6.如权利要求1所述的基于本地差分隐私的数据分布频率估计方法,其特征在于:步骤s6中,通过如下步骤估计真实数据的分布频率结果:

7.如权利要求6所述的基于本地差分隐私的数据分布频率估计方法,其特征在于:步骤s6031中,扰动频率的计算公式如下:

8.如权利要求6所述的基于本地差分隐私的数据分布频率估计方法,其特征在于:步骤s6032中,转移概率矩阵的计算公式如下:

9.如权利要求6所述的基于本地差分隐私的数据分布频率估计方法,其特征在于:步骤s6033中,通过如下公式计算数据组在输入域上第i个数值集合的真实分布频率:

10.如权利要求6所述的基于本地差分隐私的数据分布频率估计方法,其特征在于:步骤s605中,得到输入域各个数据集合的真实数据分布频率之后,对各个数据集合的真实数据分布频率进行平滑处理;


技术总结
本发明公开了一种基于本地差分隐私的数据分布频率估计方法,包括:服务器根据各个客户端的预期扰动范围构建扰动范围集合并送给各个客户端;客户端根据预期扰动范围从扰动范围集合中选择安全范围;客户端结合隐私预算和选择的安全范围通过最大化互信息来确定最优的扰动参数;客户端根据选择的安全范围结合最优的扰动参数对真实数据进行细粒阶梯扰动,并将扰动得到的扰动数据和选择的安全范围一起发送给服务器;服务器对扰动数据进行聚合得到扰动频率,并结合转移概率矩阵估计真实数据的分布频率结果。本发明允许用户根据自己的隐私需求选择预期的扰动范围,同时根据用户选择的安全范围进行细粒度的阶梯设计。

技术研发人员:李艳辉,吕天赐,成梦圆,赵玉鑫,黄臣
受保护的技术使用者:重庆交通大学
技术研发日:
技术公布日:2024/10/31
转载请注明原文地址: https://www.8miu.com/read-18773.html

最新回复(0)