面向联邦学习的数据压缩方法和系统

allin2025-04-28  34


本发明涉及通信领域,特别涉及一种面向联邦学习的数据压缩方法和系统。


背景技术:

1、自21世纪伊始,全球已迈入数字化、信息化高速发展的时代。互联网作为引领时代的关键核心技术,促进了物联网等相关技术的崛起,带来了诸如增强现实、自动驾驶、智能监控等新兴应用与技术。这些应用依托智能产品,在日常生产生活中发挥着日益重要的作用,并不断产生大量数据。通过深入研究这些数据,获取数据潜在信息,分析这些信息的内在规律和性质,有助于研发出更加人性化、高效能的新产品,同时通过新产品生成的数据也能为后续的数据研究提供丰富的素材,从而形成一个良性的发展循环。然而,在现实中,常用的移动设备往往难以负担起大规模神经网络模型训练所需的庞大开销,而若是将数据传输到服务器上集中处理,如传统的集中式机器学习,又有泄露用户隐私的风险。因此,如何在保护用户隐私、避免数据泄露的同时,实现高效的数据处理,生成对应模型,完成学习任务,成为了当前亟待解决的难题。

2、在这种情况下,联邦学习被提出。作为分布式机器学习领域的一大突破,联邦学习能够在保证用户隐私不被侵犯的前提之下,命令多个用户在中央服务器的统筹之下共同完成机器学习任务,并允许这些用户共享学习成果。每个用户都有一个从未上传至中央服务器的独特的本地数据集,同时这个数据集也不会与其他设备进行交换,这在极大程度上保证了用户的隐私安全。这种多用户与中央服务器共同协作的模式让分散在不同设备上的数据在不被泄露的前提之下共同参与模型训练,增强了模型的普适性,显著降低了通信开销和计算资源的消耗。然而随着行业的发展,联邦学习中潜在的问题也逐渐浮出水面。落地于实际应用场景的联邦学习系统规模往往相当庞大,中央服务器可能需要处理数以百万计个边缘节点的通信请求。理想状态下中央服务器与用户之间通信过程是迅速且高效的,但在实际应用中,联邦学习系统的训练速度往往受限于有限的通信资源,如时间、无线通信系统功率、网络带宽等。如何缓解联邦学习中存在的通信瓶颈是当前需要解决的技术难题之一。因此,需要提供一种面向联邦学习的数据压缩方法和系统。


技术实现思路

1、本发明提供一种面向联邦学习的数据压缩方法。改善了现有技术使用联邦学习时存在的通信瓶颈的问题。

2、本发明提供的一种面向联邦学习的数据压缩方法,包括:中央服务器获取历史状态序列,并将所述历史状态序列下发至关联的各边缘节点;各边缘节点根据历史状态序列,更新本地模型;各边缘节点使用预存的本地数据集训练更新后的本地模型,得到当前训练轮次的本地状态序列;各边缘节点将本地状态序列和历史状态序列并行排列形成状态对序列,依据预设长度的字典和预设的匹配冗余度,从待编码区中查找与所述字典中已编码状态对序列匹配的最长待编码状态对序列,并进行编码,依据编码后的状态对更新所述字典;其中,所述待编码区存放所述状态对序列中的待编码状态对,所述字典存放所述状态对序列中的至少部分已编码状态对;所述中央服务器接收各边缘节点上传的编码结果,并进行解码,生成新的历史状态序列。

3、于本发明一实施例中,所述历史状态序列为全局梯度序列或全局模型参数序列,当所述历史状态序列为全局梯度序列时,所述本地状态序列为本地梯度序列;当所述历史状态序列为全局模型参数序列时,所述本地状态序列为本地模型参数序列。

4、于本发明一实施例中,边缘节点使用预存的本地数据集训练更新后的本地模型,得到当前训练轮次的本地状态序列,包括:边缘节点使用预存的本地数据集训练更新后的本地模型,得到当前训练轮次的初始本地状态序列;边缘节点依据量化或稀疏算法对初始本地状态序列进行压缩处理,得到本地状态序列。

5、于本发明一实施例中,边缘节点将本地状态序列和历史状态序列并行排列形成状态对序列,依据预设长度的字典和预设的匹配冗余度,从待编码区中查找与所述字典中已编码状态对序列匹配的最长待编码状态对序列,并进行编码,依据编码后的状态对更新所述字典,包括:边缘节点将本地状态序列和历史状态序列并行排列形成状态对序列;边缘节点从所述待编码区中,查找与所述字典的已编码状态对序列符合所述匹配冗余度的最长待编码状态对序列;边缘节点依据匹配的已编码状态对序列,对最长待编码状态对序列和其下一个待编码状态对进行压缩编码,并基于所有编码后的状态对更新所述字典。

6、于本发明一实施例中,所述匹配冗余度包括本地匹配冗余度和历史匹配冗余度,所述本地匹配冗余度为:所述历史匹配冗余度为其中,posi为第i轮编码压缩时所述字典的寻找起点,为所述字典中第posi+m个已编码的本地状态,p为第i轮编码压缩时所述待编码区的寻找起点,gp+m为所述待编码区第p+m个待编码的本地状态,为所述字典中第posi+m个历史状态,gp+m为第i轮编码压缩时所述待编码区第p+m个待编码的历史状态,p1、p2分别为预设的第一失真阈值和第二失真阈值。

7、于本发明一实施例中,所述边缘节点依据匹配的已编码状态对序列,对最长待编码状态对序列和其下一个待编码状态对进行压缩编码,并基于所有编码后的状态对更新所述字典,包括:边缘节点依据所述历史匹配冗余度,确定最长待编码状态对序列中的历史状态序列在所述字典中成功匹配的次数;边缘节点基于最长已编码状态对序列和匹配的次数,对最长待编码状态对序列和其下一个待编码状态对进行压缩编码,并将编码后的状态对加入至所述字典中。

8、于本发明一实施例中,编码结果为其中,为第i次编码时,最长待编码状态对序列的历史状态序列在所述字典内成功匹配的次数,leni为第i次编码的最长待编码状态对序列的长度,bi为第i次编码后,最长待编码状态对序列的下一个状态对。

9、于本发明一实施例中,所述中央服务器接收各边缘节点上传的每个编码结果,并进行解码,生成新的历史状态序列,包括:所述中央服务器接收各边缘节点上传的所有编码结果,并进行解码,得到每个编码结果对应的解码结果;所述中央服务器将各解码结果进行聚合,得到新的历史状态序列。

10、于本发明一实施例中,针对每一个编码结果,所述中央服务器接收编码结果,并进行解码,得到编码结果对应的解码结果,包括:所述中央服务器接收编码结果,并依据所述编码结果中的最长待编码状态对序列的长度,确定解码结果:若最长待编码状态对序列的长度为零,则依据编码结果中的最长待编码状态对序列的下一个状态对,确定解码结果;否则,则基于所述编码结果中最长待编码状态对序列的历史状态序列在所述字典内成功匹配的次数,以及最长待编码状态对序列的长度,确定解码结果。

11、于本发明一实施例中,还提供了一种面向联邦学习的数据压缩系统,所述系统包括中央服务器和各边缘节点,所述中央服务器和各边缘节点通信连接:所述中央服务器包括:数据获取模块,用于获取历史状态序列;第一通信模块,用于将所述历史状态序列下发至关联的各边缘节点,以及接收各边缘节点上传的编码结果;解码模块,用于对编码结果进行解码,生成新的历史状态序列;边缘节点包括:第二通信模块,用于接收所述中央服务器发送的历史状态序列,以及向所述中央服务器上传编码结果;模型更新模块,用于根据历史状态序列,更新本地模型;本地状态获取模块,用于使用预存的本地数据集训练更新后的本地模型,得到当前训练轮次的本地状态序列;编码模块,用于将本地状态序列和历史状态序列并行排列形成状态对序列,依据预设长度的字典和预设的匹配冗余度,从待编码区中查找与所述字典中已编码状态对序列匹配的最长待编码状态对序列,并进行编码,依据编码后的状态对更新所述字典;其中,所述待编码区存放所述状态对序列中的待编码状态对,所述字典存放所述状态对序列中的至少部分已编码状态对。

12、本发明提出的一种面向联邦学习的数据压缩方法和系统。利用历史状态信息与当前状态信息之间的时间与空间相关性,提出了一种高效的状态参数压缩技术。这种技术能够显著减少边缘节点上传状态参数时的通信开销,从而在保障数据传输效率的同时,有效降低了通信成本。本发明的这种方式与当前的联邦学习通信系统高度兼容,无需对现有系统进行大规模改动,即可集成并应用,改善了现有的联邦学习通信系统中存在的通信瓶颈问题。


技术特征:

1.一种面向联邦学习的数据压缩方法,其特征在于,所述方法包括:

2.根据权利要求1所述的面向联邦学习的数据压缩方法,其特征在于,所述历史状态序列为全局梯度序列或全局模型参数序列,当所述历史状态序列为全局梯度序列时,所述本地状态序列为本地梯度序列;当所述历史状态序列为全局模型参数序列时,所述本地状态序列为本地模型参数序列。

3.根据权利要求1所述的面向联邦学习的数据压缩方法,其特征在于,边缘节点使用预存的本地数据集训练更新后的本地模型,得到当前训练轮次的本地状态序列,包括:

4.根据权利要求1所述的面向联邦学习的数据压缩方法,其特征在于,边缘节点将本地状态序列和历史状态序列并行排列形成状态对序列,依据预设长度的字典和预设的匹配冗余度,从待编码区中查找与所述字典中已编码状态对序列匹配的最长待编码状态对序列,并进行编码,依据编码后的状态对更新所述字典,包括:

5.根据权利要求4所述的面向联邦学习的数据压缩方法,其特征在于,所述匹配冗余度包括本地匹配冗余度和历史匹配冗余度,所述本地匹配冗余度为:所述历史匹配冗余度为其中,posi为第i轮编码压缩时所述字典的寻找起点,为所述字典中第posi+m个已编码的本地状态,p为第i轮编码压缩时所述待编码区的寻找起点,gp+m为所述待编码区第p+m个待编码的本地状态,为所述字典中第posi+m个历史状态,gp+m为第i轮编码压缩时所述待编码区第p+m个待编码的历史状态,p1、p2分别为预设的第一失真阈值和第二失真阈值。

6.根据权利要求5所述的面向联邦学习的数据压缩方法,其特征在于,所述边缘节点依据匹配的已编码状态对序列,对最长待编码状态对序列和其下一个待编码状态对进行压缩编码,并基于所有编码后的状态对更新所述字典,包括:

7.根据权利要求6所述的面向联邦学习的数据压缩方法,其特征在于,编码结果为其中,为第i次编码时,最长待编码状态对序列的历史状态序列在所述字典内成功匹配的次数,leni为第i次编码的最长待编码状态对序列的长度,bi为第i次编码后,最长待编码状态对序列的下一个状态对。

8.根据权利要求7所述的面向联邦学习的数据压缩方法,其特征在于,所述中央服务器接收各边缘节点上传的每个编码结果,并进行解码,生成新的历史状态序列,包括:

9.根据权利要求8所述的面向联邦学习的数据压缩方法,其特征在于,针对每一个编码结果,所述中央服务器接收编码结果,并进行解码,得到编码结果对应的解码结果,包括:

10.一种面向联邦学习的数据压缩系统,其特征在于,所述系统包括中央服务器和各边缘节点,所述中央服务器和各边缘节点通信连接:


技术总结
本发明提供一种面向联邦学习的数据压缩方法和系统。方法包括:中央服务器获取历史状态序列,并将历史状态序列下发至关联的各边缘节点;各边缘节点根据历史状态序列,更新本地模型;各边缘节点使用预存的本地数据集训练更新后的本地模型,得到当前训练轮次的本地状态序列;各边缘节点将本地状态序列和历史状态序列并行排列形成状态对序列,依据预设长度的字典和预设的匹配冗余度,从待编码区中查找与字典中已编码状态对序列匹配的最长待编码状态对序列,并进行编码,依据编码后的状态对更新字典;中央服务器接收各边缘节点上传的编码结果,并进行解码,生成新的历史状态序列。改善了现有技术使用联邦学习时存在的通信瓶颈的问题。

技术研发人员:吴幼龙,钟慧茹
受保护的技术使用者:上海科技大学
技术研发日:
技术公布日:2024/10/31
转载请注明原文地址: https://www.8miu.com/read-20748.html

最新回复(0)