本发明涉及药物组合研发,尤其涉及一种基于多模态深度学习的抗癌药物组合作用预测方法。
背景技术:
1、癌症、心血管疾病和其他很多疾病存在异质性,具有不同的病理特征和表观遗传变异,导致不同个体对药物的反应和耐药性也各有不同,又由于其生物学复杂性涉及多个靶基因,单一药物治疗通常无法完全起效。因此近些年来,传统医学和现代医学都利用了多种药物联合使用的优势来治疗疾病。当患者在同一时间段内使用两种或多种药物时,受机体复杂因素的影响,这些药物间会产生交互作用。与“单一药物、单一疾病、单一靶点”的传统治疗模式相比,联合用药可以作用于组织细胞的不同分子靶点,从而提高疗效,减少副作用,克服耐药性。这种联合用药所带来的综合效果,往往超过单独使用每种药物的作用总和,此现象被称为药物的协同作用。药物组合治疗可以通过同时作用于不同的靶点或不同的生物过程,越来越多地用于治疗如高血压、传染病和癌症等各种复杂的疾病。
2、然而在现有情况下,伴随药物组合种类的急剧增多,医药研发和临床试验成本的急剧上升,即便借助高通量筛选技术,识别药物间的协同作用关系仍是一项极具挑战性的任务。
技术实现思路
1、针对现有技术中所存在的不足,本发明提供了一种基于多模态深度学习的抗癌药物组合作用预测方法,其解决了现有技术中存在的技术问题,具体包括随着药物组合种类的急剧增多,医药研发和临床试验的成本较高,且效率较低的问题。
2、本发明的上述技术目的是通过以下技术方案得以实现的:
3、一种基于多模态深度学习的抗癌药物组合作用预测方法,包括以下步骤:
4、s1,通过药物简化分子线性输入规范提取出药物多个模态包括morgan指纹、序列、分子图和原子点云的数据,以确保药物分子特征的充分表达;
5、s2,针对不同的模态数据,运用双向长短期记忆神经网络、门控多层感知机制、多头注意力机制和基于幂图思想的图卷积神经网络,分别设计特征提取的子模型,并利用前馈神经网络构造出多模态药物组合特征提取融合框架;
6、s3,分析癌细胞系基因表达和突变组学数据,使用farms算法筛选出合适的组学特征并利用前馈神经网络融合得到癌细胞系的表征;
7、s4,将步骤s3中得到的癌细胞系的表征与多模态药物组合特征相结合,以预测抗癌协同药物组合作用。
8、进一步地,在步骤s1中,药物多个模态包括代表一维结构的morgan指纹、代表二位信息的序列和分子图、代表三维的原子点云;其中序列用于表示分子的结构和组成,分子图用于描述分子的连接方式和拓扑结构,原子点云用于提供分子的立体构象和原子位置。
9、进一步地,使用rdkit提取药物组合一维morgan指纹特征;为每种药物生成半径为2的morgan指纹,并将其表示为256维二进制值向量,即:
10、morgani=fingerprint(smilesi)
11、其中,smiles为简化分子线性输入规范,morgani为第i种药物的morgan指纹特征,fingerprint()是用rdkit处理出morgan指纹的操作,则药物组合的morgan指纹特征hm=morgan1||morgan2,||表示拼接操作。
12、进一步地,通过bilstm-gmlp网络提取单药物序列特征,再利用多头注意力机制对两种特征做融合降维得到药物组合序列特征;
13、首先从smiles中提取出药物序列中每个原子的特征,对于提取出的原始特征进行处理,得到药物序列编码数据x∈rn×c,将x传入给一个bilstm层,该层捕捉长度为n的药物序列原子之间的相互依赖关系,得到输出表示其中dl表示每个lstm单元中使用的输出单元的数量,即:
14、其次bilstm是从正向和反向提取特征,利用gmlp将正向提取的特征作为门控从而进行降维和二次编码得到单个药物的特征,单个gmlp模块计算公式如下:
15、z=σ(htu),y=s(z)v,s(z)=z1·(wz2+b)
16、其中,σ是激活函数,u和v表示可训练的线性映射参数矩阵,w表示空间交互的映射参数矩阵,s(·)为空间门控单元sgu,z1,z2是z从通道维度分割成两部分从而进行门控操作,将通过bilstm的ht再次传入多层gmlp,从而得到单个药物的特征hs;
17、最后对输出的两种药物序列特征hs1,hs2逐元素相加连接得到一个向量,并将其输入具有多头自注意机制的编码器进行特征降维融合,即:首先,定义输入表示为
18、
19、其中,nt是hs1和hs2的序列长度,dt是输入表示通过bilstm-gmlp网络输出特征的维度,⊕表示逐点相加;其次,将xc分别通过h个不同的线性映射,得到其中的维度分别为d×dq、d×dk、d×dv;然后,对每个头计算注意力分数:
20、
21、其中qi、ki、vi是第i个头的查询、键、值,再将所有头的注意力值拼接起来:
22、hc=concat(attention1,attention2,…,attentionh)wo
23、其中,是输出的线性映射矩阵,即:得到药物组合二维序列特征hc。
24、进一步地,在分子图特征提取中,对于单个药物以及药物组合分别从一阶幂图、二阶幂图、三阶幂图三个层面上利用图卷积神经网络模块进行特征提取和融合最终得到药物组合分子图特征,再将其与序列特征结合得到药物组合二维特征。
25、进一步地,通过一维卷积以及残差结构网络对药物原子点云信息做特征提取,得到药物组合三维特征;
26、首先,根据smiles处理出药物对中每个药物的三维原子点云坐标,其中表示药物分子d中的一个三维点,n表示点的总数;由于每个药物的长度不同,进行数据补齐得到标准长度的药物的坐标,其形状为nt×3,nt为处理后的标准药物长度;因此,药物的三维原子点云特征可以表示为
27、其次,分别将药物组合中的两个药物通过点云特征嵌入网络,经过多层的一维卷积、batchnorm1d以及relu激活并通过残差连接后,药物的原子点云特征变为hd,则可以表示为:
28、hd=residual(...conv1d(residual(...conv1d(pd)...))...)
29、其中,conv1d()表示一维卷积操作,residual()表示残差连接,公式中省略batchnorm1d以及relu激活函数;这些结构串联在一起用于处理药物的三维原子点云特征。
30、进一步地,在步骤s3中,使用farms算法对基因表达数据进行降维后,最终得到基因载荷矩阵g,它是一个p×k的矩阵,其中k是指定的潜在因子数量,通过z-score归一化进行处理,标准化后的基因载荷矩阵为g′;设基因突变数据矩阵为m;对于两种组学的细胞系数据,将二者组合后利用ffn进行降维处理后的得到多组学细胞系的融合特征fcell,即:
31、fcell=fnn(g′||m)。
32、进一步地,还包括一种预测器,用于预测药物组合对细胞系的协同得分;预测器接收药物组合的融合特征hm||he||hg||hd和细胞系特征fcell作为输入,并预测相应的协同分数;其有三个全连接层,其中前两个全连接层使用relu激活函数,紧随其后的是批处理归一化层,将第二个全连接层的神经元数量设置为第一个全连接层的一半,最后一个全连接层只包含一个神经元,它代表了模型预测的协同得分;由于抗癌药物组合预测是回归任务,其预测结果是药物组合抗癌协同得分,因此选择训练预测器的损失函数是均方误差损失,即:
33、
34、其中,t是药物-药物-细胞系(d,d,c)的训练集,tddc表示真实定量协同得分,pddc表示模型预测结果。
35、本发明具有以下有益效果:
36、本发明提出了一种端到端的深度学习模型,该模型对药物多模态数据和癌细胞系多组学数据进行特征提取和融合。首先,利用药物的常用表示形式smiles,从三个不同的模态中提取出相应的药物数据,确保数据的全面性和准确性。接着,针对不同模态的数据,本文采用门控多层感知机、图卷积神经网络、多头注意力机制等深度学习算法进行特征提取,深入挖掘数据中的潜在信息。通过构建多模态药物组合特征融合框架,实现了信息的互补和增强。进一步地,分析癌细胞系的不同组学信息,筛选出合适的组学特征并融合得到癌细胞系的融合表征。最终,将此特征与多模态药物组合特征相结合,实现了对抗癌协同药物组合的精准预测。本方法与目前该领域的先进方法相比,在预测协同药物组合得分上不仅准确率更高,而且具有更强的稳定性。
1.一种基于多模态深度学习的抗癌药物组合作用预测方法,其特征在于,包括以下步骤:
2.根据权利要求1所述的一种基于多模态深度学习的抗癌药物组合作用预测方法,其特征在于,在步骤s1中,药物多个模态包括代表一维结构的morgan指纹、代表二位信息的序列和分子图、代表三维的原子点云;其中序列用于表示分子的结构和组成,分子图用于描述分子的连接方式和拓扑结构,原子点云用于提供分子的立体构象和原子位置。
3.根据权利要求2所述的一种基于多模态深度学习的抗癌药物组合作用预测方法,其特征在于,使用rdkit提取药物组合一维morgan指纹特征;为每种药物生成半径为2的morgan指纹,并将其表示为256维二进制值向量,即:
4.根据权利要求3所述的一种基于多模态深度学习的抗癌药物组合作用预测方法,其特征在于,通过bilstm-gmlp网络提取单药物序列特征,再利用多头注意力机制对两种特征做融合降维得到药物组合序列特征;
5.根据权利要求4所述的一种基于多模态深度学习的抗癌药物组合作用预测方法,其特征在于,在分子图特征提取中,对于单个药物以及药物组合分别从一阶幂图、二阶幂图、三阶幂图三个层面上利用图卷积神经网络模块进行特征提取和融合最终得到药物组合分子图特征,再将其与序列特征结合得到药物组合二维特征。
6.根据权利要求5所述的一种基于多模态深度学习的抗癌药物组合作用预测方法,其特征在于,通过一维卷积以及残差结构网络对药物原子点云信息做特征提取,得到药物组合三维特征;
7.根据权利要求6所述的一种基于多模态深度学习的抗癌药物组合作用预测方法,其特征在于,在步骤s3中,使用farms算法对基因表达数据进行降维后,最终得到基因载荷矩阵g,它是一个p×k的矩阵,其中k是指定的潜在因子数量,通过z-score归一化进行处理,标准化后的基因载荷矩阵为g′;设基因突变数据矩阵为m;对于两种组学的细胞系数据,将二者组合后利用ffn进行降维处理后的得到多组学细胞系的融合特征fcell,即:
8.根据权利要求1所述的一种基于多模态深度学习的抗癌药物组合作用预测方法,其特征在于,还包括一种预测器,用于预测药物组合对细胞系的协同得分;预测器接收药物组合的融合特征hm||he||hg||hd和细胞系特征fcell作为输入,并预测相应的协同分数;其有三个全连接层,其中前两个全连接层使用relu激活函数,紧随其后的是批处理归一化层,将第二个全连接层的神经元数量设置为第一个全连接层的一半,最后一个全连接层只包含一个神经元,它代表了模型预测的协同得分;由于抗癌药物组合预测是回归任务,其预测结果是药物组合抗癌协同得分,因此选择训练预测器的损失函数是均方误差损失,即: