本发明涉及智能医疗,具体而言,涉及一种基于联邦学习和知识图谱的痛风病分期预测方法、系统及存储介质。
背景技术:
1、随着医疗信息化和数字化的发展,医疗领域积累了大量的数据,包括电子病历、医学研究文献、临床试验结果等。这些数据的处理和分析对于提高医疗质量、促进医学研究和开发新疗法具有重要意义。知识图谱和图神经网络作为先进的人工智能技术,在医疗领域的应用日益广泛。知识图谱将患者以结构化的形式表示出来,包括患者信息、症状、查体记录、检查结果等实体及其相互关系。图神经网络则对这个图结构进行节点表示学习,捕捉到节点的结构和语义信息,对痛风病分期进行分类和预测。
2、传统的机器学习模型,属于集中式学习,它需要将各方医院的患者数据进行整合,在整合的过程中,会增加隐私数据泄露的风险。同时也由于医疗数据隐私性高,存在部分医院不愿意共享数据,那么就形成数据孤岛的问题。同时,现有的机器学习模型难以全面、准确地捕捉病例数据中的关键信息。
技术实现思路
1、本发明要解决的技术问题是:
2、现有的机器学习模型难以全面、准确地捕捉病例数据中的关键信息,且存在隐私数据泄露的风险,及医院之间的数据孤岛问题。
3、本发明为解决上述技术问题所采用的技术方案:
4、本发明提供了一种基于联邦学习和知识图谱的痛风病分期预测方法,所述方法基于联邦学习模型,所述联邦学习模型包括一个中心服务端和n个客户端,包括如下步骤:
5、s1、客户端从医院获取患者病历,经过数据预处理得到医疗数据集s,基于数据集s进行特征提取,得到特征数据集f1,依据不同的特征类型将特征数据集f1分为数值特征数据集f2和文本特征数据集f3;
6、s2、基于数据集s构建图结构,形成知识图谱g;构建病例特征数据中的关键词组,在知识图谱中查询关键词的实体,得到关键词相关的知识图谱子图g1,g2...gn;
7、s3、所述中心服务端构建有r-gcn模型,并对模型进行初始化;
8、s4、所述中心服务端将模型下发至各客户端,各客户端基于知识图谱子图对r-gcn模型进行训练,训练后为模型参数数据添加噪声进行加密,并对数据进行压缩,将模型参数上传至中心服务端;
9、s5、中心服务端对各客户端的模型参数数据进行去噪声处理,然后对数据进行聚合,更新模型参数,得到全局模型;
10、s6、中心服务端对全局模型的效果进行验证,若结果不满足条件则重复执行s4-s5的操作,至结果满足条件终止训练;
11、s7、采用训练后的r-gcn模型对知识图谱子图进行编码,得到编码信息r1;
12、s8、基于改进的mc-bert模型对f3中的文本特征数据进行向量化编码,编码信息与归一化的f2中的数值特征数据进行横向连接得到编码信息r2;所述改进的mc-bert模型在编码层采用多个遮蔽层对词组和专业医学文本进行遮蔽,同时在输入层引入keywordsembedding层,以获取到融合关键词信息的文本表示;
13、s9、横向连接编码信息r1与编码信息r2后,经过深度学习网络模型对痛风病的不同分期进行分类预测。
14、进一步地,s4中采用差分隐私对模型参数数据添加随机噪音,混淆原始数据集,以实现对模型参数的加密,即:
15、pr[m(x)∈s]-pr[m(x')∈s]≤ε
16、其中x与x'是相邻数据集,m表示对数据添加噪声的算法,s表示数据添加噪声的结果,pr表示概率,ε表示差分隐私的隐私参数。
17、进一步地,对数据添加的噪声为高斯噪声,高斯噪声的密度函数为:
18、
19、其中,f(x)是高斯噪声的概率密度函数,σ是噪声的标准差,μ是噪声的均值,x是噪声的值。
20、进一步地,s5中还包括各客户端的模型参数数据进行加权平均,然后对数据进行聚合。
21、进一步地,s6中引入超参数的范围和步长进行交叉验证,并选择性能最好的参数组合作为全局模型的超参数,其目标函数为:
22、
23、其中,nir表示节点i的关系为r的邻居节点集合,ci,r是一个正则化常量,取值为是线性转化函数。
24、进一步地,s9中所述分类模型采用深度前馈神经网络模型。
25、进一步地,所述深度前馈神经网络模型采用relu函数作为各隐藏层的激活函数,并构建有softmax函数确定痛风病分期。
26、一种基于联邦学习和知识图谱的痛风病分期预测系统,该系统具有与上述技术方案任一项技术方案所述方法的步骤对应的程序模块,运行时执行上述的基于联邦学习和知识图谱的痛风病分期预测方法中的步骤。
27、一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序配置为由处理器调用时实现上述技术方案中任一项所述的基于联邦学习和知识图谱的痛风病分期预测方法中的步骤。
28、相较于现有技术,本发明的有益效果是:
29、本发明提出基于联邦学习和知识图谱的痛风病分期预测方法,通过构建知识图谱子图,在图神经网络的基础上融合联邦学习框架,提高痛风病分期诊断的准确率,同时解决了隐私数据泄露的风险以及数据孤岛的问题。本发明将采用改进的mc-bert模型对文本特征数据进行向量化编码。模型在编码层次使用多个遮蔽层对词组和对专业医学文本进行遮蔽;同时在输入层上引入keywords embedding层,有助于模型更好地理解和利用文本信息中的重要内容,提高了模型对关键信息的敏感性,以及对文本序列中局部信息的捕捉能力,并能够更全面、准确地捕捉数据中的关键信息;本发明同时引入数值增强的方法充分挖掘数值信息的潜在特征,得模型能够更全面地考虑文本和数值信息之间的关联,提高了对电子病历的整体理解能力。
1.一种基于联邦学习和知识图谱的痛风病分期预测方法,其特征在于,所述方法基于联邦学习模型,所述联邦学习模型包括一个中心服务端和n个客户端,包括如下步骤:
2.根据权利要求1所述的基于联邦学习和知识图谱的痛风病分期预测方法,其特征在于,s4中采用差分隐私对模型参数数据添加随机噪音,混淆原始数据集,以实现对模型参数的加密,即:
3.根据权利要求2所述的基于联邦学习和知识图谱的痛风病分期预测方法,其特征在于,对数据添加的噪声为高斯噪声,高斯噪声的密度函数为:
4.根据权利要求1所述的基于联邦学习和知识图谱的痛风病分期预测方法,其特征在于,s5中还包括各客户端的模型参数数据进行加权平均,然后对数据进行聚合。
5.根据权利要求1所述的基于联邦学习和知识图谱的痛风病分期预测方法,其特征在于,s6中引入超参数的范围和步长进行交叉验证,并选择性能最好的参数组合作为全局模型的超参数,其目标函数为:
6.根据权利要求1所述的基于联邦学习和知识图谱的痛风病分期预测方法,其特征在于,s9中所述分类模型采用深度前馈神经网络模型。
7.根据权利要求6所述的基于联邦学习和知识图谱的痛风病分期预测方法,其特征在于,所述深度前馈神经网络模型采用relu函数作为各隐藏层的激活函数,并构建有softmax函数确定痛风病分期。
8.一种基于联邦学习和知识图谱的痛风病分期预测系统,其特征在于,该系统具有与上述权利要求1~7任一项权利要求所述方法的步骤对应的程序模块,运行时执行上述的基于联邦学习和知识图谱的痛风病分期预测方法中的步骤。
9.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有计算机程序,所述计算机程序配置为由处理器调用时实现权利要求1~7中任一项所述的基于联邦学习和知识图谱的痛风病分期预测方法中的步骤。