本发明涉及医疗风险分析,尤其涉及基于时间序列可解释组合框架的早期入院死亡率预测方法。
背景技术:
1、医疗风险分析方案中,建模分析和预测重症监护室病人的院内死亡率是至关重要的。它直接关系到患者的生命和健康,而准确的死亡率预测可以帮助医护人员及时采取必要的治疗措施,提高患者的生存率和康复率。院内死亡率预测涉及对患者健康状况、疾病严重程度、治疗和许多其他方面的全面评估,以预测患者在住院期间可能面临的死亡风险。因此,这项预测任务对医疗保健政策制定者、医生、患者及其家人至关重要。目前,许多方案都集中在院内死亡率预测上,尤其是重症监护病房(icu)内的风险。大多数方案都基于公开的mim ic数据库,并使用各种神经网络模型进行预测。具有代表性的传统的长短期记忆(lstm)和更复杂的定制结构,如tdsc-caff、lgtrl-de等,不断用于这个问题。
2、目前的方案已经充分证明,入院死亡风险并非不可预测的,而是可以通过科学方法进行有效预测,但在当前的入院死亡率预测相关方案任务上仍有两方面的不足。首先,在入院死亡率预测任务中缺少应用最先进的计算模型。其次在时间序列任务中,例如在交通、电能等时序任务上表现优越的timesnet、patchtst等虽然都作为主流benchmark,但是其是否更为适合做关于时间序列的入院死亡率预测,以及相较于传统的统计参数模型和一些新颖的机器学习模型是否能达到更优的效果,都还仍未可知且缺乏方案的证实。目前,尽管越来越多的先进的模型应用于医院死亡率预测中,但许多模型都面临着缺乏可解释性和决策系统不透明的黑匣子问题。随着用户对深度学习可解释性的要求越来越高,过于复杂但性能提升有限的神经网络模型可能会给临床用户带来困难。因此,如何采用高效且易于理解的院内死亡率分析框架成为仍需关注解决的问题。
技术实现思路
1、基于上述问题,本发明提出了基于时间序列可解释组合框架的早期入院死亡率预测方法,提出一种timesnet-tsr-comte的联合框架,可准确预测并识别关键影响因素,提出最优的干预方案,具体技术方案如下。
2、基于时间序列可解释组合框架的早期入院死亡率预测方法,包括以下步骤:
3、步骤s1:基于重症监护数据库提取icu入院数据,对数据进行排除,按患者进行整理;
4、步骤s2:数据排除后,对剩余icu入院数据进行临床事件的处理,确定模型训练数据集;
5、步骤s3:利用数据集训练timesnet-tsr-comte可解释组合框架中的模型,组合框架中timesnet模型通过模块化结构将复杂时序变化分解至不同周期,并通过将原始一维时间序列转化至二维空间;
6、步骤s4:组合框架模型中tsr时间显著性缩放方法随时间变化对特征重要性进行识别,comte可解释方法在多元时间序列数据上为有监督的机器学习框架提供反事实解释;
7、步骤s5:timesnet模型随机选择训练集和测试集进行训练,得出可解释性结果,并综合tsr生成的特征重要性结果和comte反事实解释结果指导决策,调整病人生理状态预防死亡。
8、具体地,所述步骤s1中,icu入院数据排除标准包括:
9、多次入住icu入院数据以及在不同icu病房或普通病房之间转院的所有入院数据;
10、未成年的所有icu入院数据。
11、具体地,所述步骤s2入院数据临床事件的处理包括以下步骤:
12、步骤s21:根据入院数据库信息进行匹配,删除不存在入院id以及数据库中不存在的入院id的所有事件数据;
13、步骤s22:为每个入院数据变量编译事件的时间序列,仅保留预定义列表中的变量并执行进一步的清理,确定患者测试集;
14、步骤s23:准备住院死亡率数据集,本方案使用更宽的时间窗口来预测患者在住院期间是否死亡,产生icu住院样本的训练集和icu住院样本的测试集。
15、具体地,所述timesnet模型包括通过残差结构堆叠的多个timesblock,将一维变量变为二维变量并在二维空间提取各种时间变化,最后通过自适应融合将变量降为一维。
16、具体地,所述变量维度的变换具体包括以下步骤:
17、步骤s31:对输入的一维时序特征提取周期,通过快速傅里叶变换计算得到每个频率分量的强度,并表示为矩阵a,其中a∈rt,从这些强度中选择出最大的k个值,对应的频率为f1到fk,频率f1到fk对应k个周期长度p1到pk,其中,x1d表示输入的信号一维时间序列;基于选定的周期对原始的一维时间序列x1d进行折叠,将原本的一维时间序列x1d变换为二维张量,计算式为:
18、
19、其中,padding()是在序列末尾补0,使得整个序列能被pi整除,pi和fi为变换后二维张量的行和列;
20、步骤s32:对二维张量选取inception模型,使用2d卷积提取信息,表示为:
21、步骤s33:对于提取的时序特征,将其转化回一维空间以便进行信息聚合,计算式为:
22、
23、其中,trunc()表示将步骤s31中padding()操作补充的0去除;
24、步骤s34:timesnet模型将得到的一维表征以其对应频率的强度进行加权求和,得到最终输出,表示为:
25、具体地,所述步骤s4特征重要性的识别包括:
26、步骤a1:标类别0和1,通过tsr时间显著性缩放方法计算输入特征i在t时刻的重要性分数ri,t(x),多元时间序列输入x表示为:
27、x=[x1,...,xt]∈rt×c;
28、其中,t为时间步长,c为特征数;
29、步骤a2:设xi,t为x在t时刻的输入特征i,那么,t时刻的特征向量和特征i的时间向量分别可以表示为x:,t∈rc和xi,:∈rt。最终,网络产生一个输出s:
30、s(x)=[s1(x),…,sz(x)];
31、其中,z是输出的类的总数;
32、步骤a3:在所有的时间步上,通过计算显著性值的总变化来计算每次的时间相关性分数,令时间t的掩码为否则设置为时间相关性得分表示为:
33、
34、步骤a4:在时间相关性得分高于特定阈值的每个时间步中,即通过计算显著性值的总变化来计算每个特征的特征相关性分数;若时间相关性得分不高于特定阈值,即则特征相关性得分令在t时刻的掩码特征i为:否则设置为特征相关性得分表示为:
35、
36、最终,重要性分数是相关时间和特征相关性分数的乘积:
37、
38、具体地,所述步骤s3基于comte可解释方法提供反事实解释通过选择多个干扰项候选者,并为每个干扰项找到最佳的a矩阵来实现,在不同的a矩阵中,选择损失值最小的矩阵,寻找最小化的xdist以生成最优的反事实解释。
39、具体地,所述最优的反事实解释的生成具体包括以下步骤:
40、步骤b1:定义时间序列分类模型为f(x)=y:rc×t→[0,1],表示该模型在c个变量,长度为t的时间序列上,属于二分类中不同类的概率;
41、步骤b2:fm(x)代表x属于类m的概率,在二分类问题中m为0或1,定义测试样本xtest和干扰样本xdist,基于从训练集中选择的干扰样本xdist到xtest的全部变量的替换对修正样本x′的进行修改;
42、步骤b3:通过在训练集和a之间寻找干扰样本xdist,使其最小化来构造最优反事实解释;修正后的样本为x′定义为:
43、x′=(in-a)xtest+axdist;
44、最优反事实解释的计算式为:
45、l(f,m,a,x′)=((τ-fm(x′))+)2+λ(||a||1-δ)+;
46、其中,in为n×n的单位矩阵;a为二元对角矩阵;τ为分类器的目标概率,即增加fm(x)后不主观改善解释的阈值;δ为减少变量个数不改善解释的阈值。
47、本发明的有益效果:本发明提出了基于时间序列可解释组合框架的早期入院死亡率预测方法,提出了一个timesnet-tsr-comte的联合框架,可准确预测并识别关键影响因素,提出最优的干预方案;提出了更适应临床时间序列数据的可解释性方法,为临床干预提供参考,帮助医疗决策者进行决策,调整病人状态,使病人继续存活甚至改善状态,预防病人死亡。
1.基于时间序列可解释组合框架的早期入院死亡率预测方法,其特征在于,包括以下步骤:
2.根据权利要求1所述的基于时间序列可解释组合框架的早期入院死亡率预测方法,其特征在于,所述步骤s1中,icu入院数据排除标准包括:
3.根据权利要求1所述的基于时间序列可解释组合框架的早期入院死亡率预测方法,其特征在于,所述步骤s2入院数据临床事件的处理包括以下步骤:
4.根据权利要求1所述的基于时间序列可解释组合框架的早期入院死亡率预测方法,其特征在于,所述timesnet模型包括通过残差结构堆叠的多个timesblock,将一维变量变为二维变量并在二维空间提取各种时间变化,最后通过自适应融合将变量降为一维。
5.根据权利要求4所述的基于时间序列可解释组合框架的早期入院死亡率预测方法,其特征在于,所述变量维度的变换具体包括以下步骤:
6.根据权利要求1所述的基于时间序列可解释组合框架的早期入院死亡率预测方法,其特征在于,所述步骤s4特征重要性的识别包括:
7.根据权利要求1所述的基于时间序列可解释组合框架的早期入院死亡率预测方法,其特征在于,所述步骤s3基于comte可解释方法提供反事实解释通过选择多个干扰项候选者,并为每个干扰项找到最佳的a矩阵来实现,在不同的a矩阵中,选择损失值最小的矩阵,寻找最小化的xdist以生成最优的反事实解释。
8.根据权利要求7所述的基于时间序列可解释组合框架的早期入院死亡率预测方法,其特征在于,所述最优的反事实解释的生成具体包括以下步骤:
