本发明属于基因组预测,具体涉及融合门控与线性注意力机制g×e互作的基因组预测方法。
背景技术:
1、全球气候变化为全球粮食安全和农业可持续发展带来了极大挑战,培育适应不同环境的作物新品种有利于进一步缓解因气候变化带来的生物和非生物胁迫造成的粮食短缺问题。基因组预测(gp)是利用基因型数据预测作物的田间表型;在动植物育种研究中,gp已被用于缩短育种周期和提高田间资源利用效率;但在多环境实验(met)中,gp的预测效果有待于进一步提升。因此,有必要在基因组预测中考虑基因型与环境相互作用(gei),构建基因型-环境-表型的gp模型(g×e),进而提高表型预测准确率。
2、构建g×e对于捕获基因型与环境特征之间复杂的非线性关系至关重要。在定量遗传学领域,一些学者通过构建基因型-环境型协方差捕获基因型与环境间的相互作用。因此,如果不在模型中添加新的环境信息,则无法捕获新的基因型-环境型协方差。在经典的机器学习领域,xgboost将基因型与环境特征通过树结构挖掘基因型-环境型潜在的互作特征。当维度过大时,需要借助额外的特征提取工程来进行处理。深度学习方法可以灵活处理不同维度的特征,并且不需要提前假设数据的分布关系,以及可以自动捕获复杂的非线性的互作关系。
3、但上述技术存在在多环境实验中预测不够准确、无法捕获环境因子之间以及环境因子与基因型间的高阶互作以及全生育期内动态变化的环境特征等技术问题。
技术实现思路
1、本发明要解决的技术问题是:提供融合门控与线性注意力机制g×e互作的基因组预测方法,用于预测复杂性状的表型值。
2、本发明为解决上述技术问题所采取的技术方案为:融合门控与线性注意力机制g×e互作的基因组预测方法,包括以下步骤:
3、s0:搭建geformer模型,包括gmlp层、timefeatureblock层和crossgatedmlp层;
4、gmlp层用于从局部和全局两个方面提取基因型数据特征,进而捕获snp位点间的长距离依赖关系;
5、timefeatureblock层用于通过完全动态卷积融合每天内不同环境因子间的特征,并采用线性注意力机制提取作物生育期内每天之间环境因子的时序性特征;timefeatureblock层包括嵌入层、动态卷积层和线性注意力层;嵌入层包括值嵌入模块、位置嵌入模块和时间嵌入模块,用于融合时间序列和环境因子的嵌入信息;
6、crossgatedmlp层用于融合提取基因型特征与环境特征,进而捕获不同组学数据间隐藏的复杂非线性关系;crossgatedmlp层包括hidden mlp和gate mlp;hidden mlp包括gelu激活函数,用于计算输入的隐藏表示;gate mlp包括sigmoid激活函数,用于计算门控权重;
7、s1:获取育种材料的全基因组数据、环境数据和表型数据并进行预处理;
8、s2:将全基因组数据输入geformer模型,通过gmlp层从局部和全局两方面提取基因型数据特征,捕获snp位点间长距离依赖关系的基因型特征g*;
9、s3:将全生育期的环境数据输入geformer模型,通过timefeatureblock层提取环境特征,捕获环境特征e*;
10、s4:通过crossgatedmlp层融合基因型特征g*与环境特征e*,捕获不同组学数据间隐藏的复杂非线性关系,得到融合后的特征c(6);
11、s5:利用全连接神经网络对融合后的特征c(6)进行线性回归,预测得到该育种材料的表型值。
12、按上述方案,所述的步骤s1中,具体步骤为:
13、s11:通过测序获取育种材料的全基因组数据和对应物种的育种芯片数据;
14、比对全基因组数据与育种芯片数据得到高质量的变异位点数据;
15、比对的方法包括取交集,得到基因型数据是长度为l的snp位点序列数据g={g1,g2…gl},gi∈{0,1,2};
16、s12:对环境数据,收集作物种植地点的从种植时间到收获时间的与包括光、温度、水分、空气和土壤因素相关的环境因子数据;
17、s13:收集每个育种材料对应的表型数据所在种植环境的包括株高、开花期和产量的农艺性状。
18、进一步的,所述的步骤s2中,具体步骤为:
19、s21:将snp位点序列g输入gmlp层,并通过线性变换映射到更高维空间得到g(1);
20、s22:将g(1)输入gelu激活函数,得到输出g(2):
21、
22、其中,g∈g(1),μ为正态分布的均值,σ为正态分布的标准差;
23、s23:将激活函数的输出g(2)输入空间门控单元sgu,得到输出g(3);
24、s24:对空间门控单元sgu的输出g(3)进行层归一化、全局平均池化和线性变换,提取特征图的全局信息并映射到指定维度,得到基因型特征g*。
25、进一步的,所述的步骤s23中,具体步骤为:
26、s231:将g(2)划分为形状相同的部分,包括res和gate;res用于传递原始信息,gate用于门控机制以控制信息流动;
27、s232:设b表示批量大小,h表示头数,d表示特征维度,m表示输出特征维度,n表示序列长度,n表示样本序列长度,投影的权重参数w和偏置bias来自模型参数;将gate的特征维度划分为多个头得到gate(1);然后对gate(1)进行空间投影得到gate(2):
28、
29、其中gate(2)∈rb×h×m×d,gate(1)∈rb×h×n×d,w∈rh×m×n,bias∈r1×h×n×1;
30、s233:将空间投影输出的gate(2)与对应的线性变换输出相乘得到g(3):
31、g(3)=res⊙gate(2)。
32、进一步的,所述的步骤s3中,
33、s31:向timefeatureblock层的嵌入层输入日期向量d(1)和环境因子向量e(1),d(1)∈rd×3为经过编码的d天日期向量,e(1)∈rd×e为每天内e个环境因子标准化后的环境因子向量;嵌入层输出e(4);
34、s32:将e(4)输入动态卷积层,动态卷积层捕获每一天内各环境因子之间的综合效应,输出e(7);
35、s33:将e(7)输入线性注意力层,线性注意力层捕获每一天间环境因子的依赖关系,得到环境特征e*。
36、进一步的,所述的步骤s31中,具体步骤为:
37、s311:通过值嵌入模块将e(1)中的值转换为低维度的表示形式e(2):
38、
39、其中,e∈rn,e(1)∈rc’,n表示输入通道的索引,c表示输入的通道数,c’表示输出的通道数;
40、s312:将e(1)输入位置嵌入模块,利用正弦和余弦函数将输入序列的位置信息编码成向量形式,得到包含序列内部位置关系的向量e(3);位置嵌入的权重计算过程如下:
41、
42、其中,pos表示输入序列中的位置,i表示维度索引,d表示嵌入维度,pos_embedding(pos,2i)和pos_embedding(pos,2i+1)分别表示位置嵌入矩阵中位置pos的偶数维度和奇数维度;
43、s313:将d(1)输入时间嵌入模块得到d(2);时间嵌入的具体计算过程如下:
44、
45、其中,i表示时间维度,embeddingi表示对第i个时间维度的嵌入函数;
46、s314:将值嵌入模块的输出e(2)、位置嵌入模块的输出e(3)和时间嵌入模块的输出d(2)相加得到e(4)。
47、进一步的,所述的步骤s32中,具体步骤为:
48、s321:基于输入的e(4),通过多维度的注意力机制得到不同的核注意力,包括通道注意力achannel、空间注意力aspatial、卷积核注意力akernel和过滤器注意力afilter:
49、achannel=σ(conv1dchannel(e(4))),
50、aspatial=σ(conv1dspatial(e(4))),
51、akernel=softmax(conv1dkernel(e(4))),
52、afilter=σ(conv1dfilter(e(4))),
53、其中,σ是sigmoid激活函数,achannel∈rb×c×1,aspatial∈rb×1×1×1×k,akernel∈rb×n×1×1×1,afilter∈rb×c’×1,e(4)∈rb×c×1;b为批次大小,c为输入通道数,c’为输出通道数,k为卷积核大小,n为卷积核个数;
54、s322:将achannel应用于e(4)的每个通道得到e(5),对e(5)进行卷积操作;同时将aspatial、akernel与初始化权重weight相乘作为该卷积的权重,输出e(6);
55、s323:将afilter应用于卷积输出的特征向量e(6)得到e(7)。
56、进一步的,所述的步骤s33中,具体步骤为:
57、s331:对e(7)进行线性映射得到查询向量q、键向量k和值向量v;
58、s332:分别根据利用键总数lk和查询总数lq计算键的随机采样个数u_part和查询的取样个数u;随机采样u_part个键得到k_sample;基于查询q与采样键k_sample的注意力得分计算稀疏性测量值m:
59、
60、其中,常数c表示缩放因子,lk表示键的序列长度,lq表示查询的序列长度;qm∈q,qm是第m个查询向量;kn∈k_sample,kn是第n个键向量;d是查询向量和键向量的维度,lk是键的序列长度;
61、s333:根据稀疏性测量值m,取前u个查询对应的查询向量qreduce,计算k和qreduce的注意力得分即每个时间步与其他时间步的关联程度;将注意力得分应用于值向量获得具有代表性的序列特征e(8):
62、
63、其中,qreduce是基于稀疏性测量值m选择的前u个查询;
64、s334:对e(8)进行线性变换,整合来自多头的综合信息得到e(9);通过卷积和最大池化对e(9)进行特征提取,得到环境特征e*。
65、进一步的,所述的步骤s4中,具体步骤为:
66、s41:将基因型特征g*与环境特征e*输入crossgatedmlp层;通过hidden mlp计算g*和e*的隐藏表示g(4)和e(10);通过gate mlp计算g*和e*的门控权重g(5)和e(11);
67、s42:将门控权重g(5)和e(11)应用于隐藏表示g(4)和e(10),得到c(1)和c(2);拼接c(1)和c(2)得到融合特征c(3):
68、
69、s43:将g*和e*相乘得到g*×e*;通过crossgatedmlp层分别对g*和g*×e*、e*和g*×e*进行特征融合,得到融合特征c(4)和c(5);拼接c(3)、c(4)和c(5)得到基因型与环境的交互特征c(6)。
70、进一步的,所述的步骤s5中,具体步骤为:
71、s51:将基因型与环境交互特征c(6)输入线性层,通过线性映射得到c(7);
72、s52:将c(7)输入leakyrelu激活函数,输出c(8)非线性地拟合了输入特征;设c∈c(7),leakyrelu激活函数的计算过程如下所示:
73、leakyrelu(c)=max(αc,c),
74、c(8)通过dropout随机将部分神经元的输出置0,得到c(9);
75、s53:通过线性变换将c(9)映射为一个值,即为模型输出的预测表型值c(10)。
76、本发明的有益效果为:
77、1.本发明的融合门控与线性注意力机制g×e互作的基因组预测方法,通过构建geformer模型,包括gmlp层、timefeatureblock层和crossgatedmlp层,分别通过提取特征、融合特征和捕获关系,实现了基于基因组与环境组数据精准预测复杂性状的表型值的功能,进而加快了作物智能设计育种,在真实作物育种中具有较大的应用潜力。
78、2.本发明适用于在未测试环境模式下精准预测未测试基因型的表型值。
79、3.本发明可以同时利用父本+母本自交系数据预测杂交种的表型,显著提升了预测杂交种表型的准确率,且对在未测试环境模式下预测未测试基因型的表型值的效果较为明显。
80、4.本发明适用于跨群体预测表型。通过geformer显著提升具有不同遗传背景的群体间表型预测的准确率,且对在未测试环境模式下预测测试基因型的表型值和对在未测试环境模式下预测未测试基因型的表型值这两种模式的效果显著。
1.融合门控与线性注意力机制g×e互作的基因组预测方法,其特征在于:包括以下步骤:
2.根据权利要求1所述的融合门控与线性注意力机制g×e互作的基因组预测方法,其特征在于:所述的步骤s1中,具体步骤为:
3.根据权利要求2所述的融合门控与线性注意力机制g×e互作的基因组预测方法,其特征在于:所述的步骤s2中,具体步骤为:
4.根据权利要求3所述的融合门控与线性注意力机制g×e互作的基因组预测方法,其特征在于:所述的步骤s23中,具体步骤为:
5.根据权利要求4所述的融合门控与线性注意力机制g×e互作的基因组预测方法,其特征在于:所述的步骤s3中,
6.根据权利要求5所述的融合门控与线性注意力机制g×e互作的基因组预测方法,其特征在于:所述的步骤s31中,具体步骤为:
7.根据权利要求5所述的融合门控与线性注意力机制g×e互作的基因组预测方法,其特征在于:所述的步骤s32中,具体步骤为:
8.根据权利要求5所述的融合门控与线性注意力机制g×e互作的基因组预测方法,其特征在于:所述的步骤s33中,具体步骤为:
9.根据权利要求8所述的融合门控与线性注意力机制g×e互作的基因组预测方法,其特征在于:所述的步骤s4中,具体步骤为:
10.根据权利要求9所述的融合门控与线性注意力机制g×e互作的基因组预测方法,其特征在于:所述的步骤s5中,具体步骤为: