一种人工智能ai深度学习技术驱动的药物筛选算法
技术领域
1.本发明涉及生物医药技术领域,尤其涉及药物设计领域,可用于药物筛选。
背景技术:2.药物研发是漫长,昂贵和带有偶然性的过程。根据tufts药物研发中心统计,每个新药研发成本大约26亿美元,周期大概十年,其中6-7年都是临床试验阶段,只有12%的药物可以通过临床验证。药物设计的复杂在于参数空间无比巨大,理论上可能生成10
60
个不同分子。研究人员要从这么大的分子库中寻找针对靶蛋白的小分子先导药物,难度可想而知。目前高通量筛选技术每天可以筛选106个分子,价格不菲。任何可以加速这一研发过程的技术对整个行业链都有巨大影响。基于结构的计算机辅助药物筛选(即虚拟筛选)由于其低成本高效率的优势,正在逐步取代高通量筛选在药物研发中发挥巨大的作用。近年来ai深度学习技术在药物靶点发现、活性化合物筛选等新药发现环节已得到越来越广泛的应用。
3.虚拟筛选是一种从化合物数据库中分离出对靶标有活性的化合物的计算机模拟技术,成为药物筛选的发展趋势。虚拟筛选的中心任务是预测小分子配体与靶蛋白结合的亲和力。由于蛋白质-配体结合物中相互作用的复杂性,快速而准确地评估结合亲和力仍然是常规计算方法的主要挑战。目前由于其计算效率,对接和评分仍然是虚拟筛选中最流行的方法。然而,在评分函数中大量采用的经验参数和人工校对的数据限制了预测的准确性。另一方面,基于物理原理的计算方法对小分子体系有着很高的准确性,但由于时间成本太大而不能直接应用于处理体量巨大的蛋白质-配体体系的虚拟筛选。市场迫切需要一种兼顾药物筛选的速度和准确度的一种新算法。
技术实现要素:4.本发明的目的在于提供一种人工智能ai深度学习技术驱动的药物筛选算法,以解决上述背景技术中提出的问题。
5.本发明是通过以下技术方案实现的:
6.一种人工智能ai深度学习技术驱动的药物筛选算法,引入基于物理原理的端到端深度学习模型molecule capsnet进行虚拟筛选;在此模型中,capsnet作为网络架构,并将多体力场方程式用于表达原子间的相互作用力;在molecule capsnet中,基本的分子结构数据被输入网络,基本的分子结构数据包括原子坐标和原子类型,多体力场方程式用于分析出对预测配体结合力至关重要的特征值;然后将这些表达原子间相互作用的特征值分类为能量项;
7.molecule capsnet结合了数据驱动法和物理原理法的预测能力,从最简单的输入数据即原子坐标和原子类型中连续学习更高阶的物理特征,并把配体亲和热力学循环整合到神经网络优化中,直接预测亲和自由能;分子系统中每个体系即结合物,蛋白质和配体的自由能为其所有原子的能量之和,即其中n是原子总数,ei取决于每个特定原子的化学环境,而该化学环境是由以该原子为中心的截止半径球体内所有邻近原子的位置和类
型决定的;原子与其相邻原子之间的函数关系及其能量贡献是通过原子神经网络来构建的;molecule capsnet由n个平行的原子神经网络组成;通过这些单个原子能量ei,在蛋白质的亲和区域找到强相互作用点,并据此得出配体的亲和模式。
8.具体包括:
9.输入数据:molecule capsnet的基本数据集包括笛卡尔原子坐标矩阵c[n,3]和原子类型矢量a[n];用原子数来代表原子类型;这些基本数据集通过以下的预处理步骤得到输入数据:首先,为每个原子的邻居列表创建一个矩阵n[n,m];邻居列表中列出的是距离截止值为以内的m个最邻近的原子;利用矩阵n,为原子间距离和相邻原子的原子类型分别创建两个矩阵d[n,m]和t[n,m];d
i,j
定义为原子i与其邻近原子j之间的距离;t
i,j
是原子i的邻近原子j的原子类型,ai;
[0010]
原子类型的卷积层:该层的输出da[n,m,n
at
]由矩阵d和t而得;矩阵d被馈入具有步长1和深度为n
at
的(1
×
1)过滤器,其中n
at
是分子系统中的原子类型的数量;原子类型卷积核是一个对矩阵d运算的阶梯函数:
[0011][0012]
其中a是过滤器的原子类型,a=1,
…nat
;
[0013]
原子神经网络层:该层包含一组并行的原子神经网络;原子类型卷积层da的大小为(n,m,n
at
);将矩阵逐行即对应于每个原子输入原子神经网络层;每个原子神经网络从da接收一个大小为(1,m,n
at
)的薄片;
[0014]
primarycaps层由胶囊组成,原子i的原子间相互作用ei的特征参数在胶囊中被组织和学习;ei写成配对函数之和加上多体函数的形式,
[0015][0016]
配对函数用多项式势能来近似,
[0017][0018]
其中aj,bj和cj是可学习的参数;上述等式中的项分别类似于原子间库仑能,范德华吸引能和排斥能;多体函数根据原子i的距离截止半径内所有原子的位置,通过构造多体对称函数fs来获得:
[0019]fs
(d
i,j
)=exp(-ηj(d
i,j-d
s,j
)2)fc(d
i,j
),
[0020][0021]
primarycaps层的过滤器具有的函数形式;对原子i在da[1,m,n
at
]上运行步幅为1、深度为nr的过滤器(m
×
1),其中nr是所需过滤器的数量;上述函数中的参数d
s,j
和ηj是可学习的参数;参数dc是径向相互作用截止距离,设置为这样,每个胶囊接收到一个值
[0022]
[0023]
其中是不可学习的缩放常数,是不可学习的偏差常数;从概念上讲,应用这些过滤器就会得到原子i与原子类型为a的所有相邻原子之间的相互作用之和;
[0024]
胶囊结构封装了的四个能量项,包括键合能,库仑能,范德华吸引能和排斥能;在primarycaps层和featurecaps层之间采用标准的动态路由;应用约束条件以确保在featurecaps层实现四个能量项的分类,从而评估它们对总能量的贡献;最后,featurecaps层的输出被送入完全连接层,在该层所有的原子神经网络都使用相同的权重和偏差;原子神经网络的输出是原子i的能量ei;分子系统的总能量是所有原子的能量之和,其中wi为可学习参数;
[0025]
热力学循环的应用:将配体亲和热力学循环整合到深度学习过程中:δg
complex
=g
complex-g
protein-g
ligand
;创建了三个参数共享的网络,分别用于结合物,蛋白质和配体;完整的网络系统针对下面的误差方程进行训练:
[0026]
l=(δg
complex-rtlnki)2。
[0027]
与现有技术相比,本发明的有益效果是:
[0028]
本发明是基于人工智能(ai)深度学习技术的一种创新虚拟筛选算法。深度学习技术的特点之一是,局部低级特征被逐层次地分析组成更大,更复杂的特征。生物化学相互作用通常是局部的,因为化学基团由彼此接近的多个原子的空间排列和键合限定。利用深度神经网络,局部生物化学相互作用可以逐层次地组成更复杂的特征,描述分子结合的复杂和非线性现象。因此,深度学习有潜力揭示蛋白质-配体相互作用的本质。ai技术通过对现有化合物数据库信息的整合和数据提取、机器学习等手段,获得与化合物毒性、有效性相关的关键信息,从而大幅提高筛选的成功率,降低研发成本和工作量。
附图说明
[0029]
图1为本发明中采用的ai深度学习模型capsule network神经网络架构;
[0030]
图2为原子i的原子神经网络结构。
具体实施方式
[0031]
下面结合附图和具体实施方式对本发明进行进一步说明。
[0032]
本发明中描述的新算法可以直接用于蛋白靶标和配体分子之间的亲和自由能的预测。我们通过引入新的基于物理原理的端到端深度学习模型molecule capsnet来处理的虚拟筛选的问题。在此模型中,capsule network(capsnet)作为网络架构,并将多体力场方程式用于表达原子间的相互作用力。capsnet是世界级人工智能泰斗hinton近期开发的最先进的深度学习模型。capsnet仅需要很少的训练数据就可以做出准确预测。考虑到蛋白质-配体结合物的晶体结构和结合亲和力的数据非常有限,这是capsnet在药物筛选上的巨大的优势。
[0033]
在molecule capsnet中,基本的分子结构数据(如原子坐标和原子类型)被输入网络。多体力场方程式(包括成对相互作用项)用于分析出对预测配体结合力至关重要的特征值。然后将这些表达原子间相互作用的特征值分类为径向,角度,lenard-jones,库仑力等的能量项。通过这种方式,molecule capsnet不仅可以产生总能量,还可以产生分解能量,
为分析结构-相互作用关系提供了可行的手段。这种能力使molecule capsnet成为药物筛选和优化的有力工具。
[0034]
molecule capsnet结合了数据驱动法和物理原理法的预测能力,从最简单的输入数据(即原子坐标和原子类型)中连续学习更高阶的物理特征,并把配体亲和热力学循环整合到神经网络优化中,直接预测亲和自由能。分子系统中每个体系(即结合物,蛋白质和配体)的自由能为其所有原子的能量之和,即其中n是原子总数。ei取决于每个特定原子的化学环境,而该化学环境是由以该原子为中心的截止半径球体内所有邻近原子的位置和类型决定的。由于不同的蛋白质-配体结合物具有不同数量的原子,因此molecule capsnet必须能够适应分子体系中原子数量的差异。为实现这一目标,我们作了如下设计,如附图1所示。原子与其相邻原子之间的函数关系及其能量贡献是通过原子神经网络来构建的。molecule capsnet由n个平行的原子神经网络组成。通过这些单个原子能量ei,人们就很容易在蛋白质的亲和区域找到强相互作用点,并据此得出配体的亲和模式。
[0035]
详述如下:
[0036]
输入数据molecule capsnet的基本数据集包括笛卡尔原子坐标矩阵c[n,3]和原子类型矢量a[n],如附图1所示。为简单起见并减少可学习参数的数量,我们用原子数(元素名称)来代表原子类型。这些基本数据集通过以下的预处理步骤得到输入数据。首先,我们为每个原子的邻居列表创建一个矩阵n[n,m]。邻居列表中列出的是距离截止值为以内的m个最邻近的原子。利用矩阵n,我们可以为原子间距离和相邻原子的原子类型分别创建两个矩阵d[n,m]和t[n,m]。d
i,j
定义为原子i与其邻近原子j之间的距离。t
i,j
是原子i的邻近原子j的原子类型,ai。
[0037]
原子类型的卷积层该层的输出da[n,m,n
at
]由矩阵d和t而得。矩阵d被馈入具有步长1和深度为n
at
的(1
×
1)过滤器,其中n
at
是分子系统中的原子类型的数量。原子类型卷积核是一个对矩阵d运算的阶梯函数:
[0038][0039]
其中a是过滤器的原子类型(a=1,
…nat
)。
[0040]
原子神经网络层该层包含一组并行的原子神经网络。原子类型卷积层da的大小为(n,m,n
at
)。我们将矩阵逐行(即对应于每个原子)输入原子神经网络层,如图1所示。每个原子神经网络从da接收一个大小为(1,m,n
at
)的薄片。其详细结构如附图2所示。
[0041]
primarycaps层由胶囊组成,原子i的原子间相互作用(ei)的特征参数在胶囊中被组织和学习。ei可以写成配对函数之和加上多体函数的形式,
[0042][0043]
配对函数可以用多项式势能来近似,
[0044][0045]
其中aj,bj和cj是可学习的参数。上述等式中的项分别类似于原子间库仑能,范德华吸引能和排斥能。多体函数可以根据原子i的距离截止半径内所有原子的位置,通过构造多体对称函数fs来获得:
[0046]fs
(d
i,j
)=exp(-ηj(d
i,j-d
s,j
)2)fc(d
i,j
),
[0047][0048]
primarycaps层的过滤器具有的函数形式。对原子i我们在da[1,m,n
at
]上运行步幅为1、深度为nr的过滤器(m
×
1),其中nr是所需过滤器的数量。上述函数中的参数d
s,j
和ηj是可学习的参数。参数dc是径向相互作用截止距离,设置为这样,每个胶囊接收到一个值
[0049][0050]
其中是不可学习的缩放常数,是不可学习的偏差常数。从概念上讲,应用这些过滤器就会得到原子i与原子类型为a的所有相邻原子之间的相互作用之和。
[0051]
胶囊结构详情请见附图2。它封装了的四个能量项(键合能,库仑能,范德华吸引能和排斥能)。在primarycaps层和featurecaps层之间我们采用标准的动态路由。我们还应用约束条件以确保在featurecaps层实现四个能量项的分类,从而可以评估它们对总能量的贡献。最后,featurecaps层的输出被送入完全连接层,在该层所有的原子神经网络都使用相同的权重和偏差。原子神经网络的输出是原子i的能量ei。分子系统的总能量是所有原子的能量之和,其中wi为可学习参数。
[0052]
热力学循环的应用我们将配体亲和热力学循环整合到深度学习过程中:δg
complex
=g
complex-g
protein-g
ligand
。我们创建了三个参数共享的网络,分别用于结合物,蛋白质和配体。完整的网络系统针对下面的误差方程进行训练:
[0053]
l=(δg
complex-rtlnki)2[0054]
我们应用k-folder交叉验证法来训练molecule capsnet并避免过度拟合。在这个方法中,我们进一步将训练组集随机地分成k个(例如10个)部分。我们保留其中一个部分作为验证数据,剩余的k-1部分用作训练数据。然后将交叉验证过程重复k次,每次都使用一个不同的部分作为验证数据。这样得到k个预测结果,它们的平均值就是最终的预测结果。
[0055]
该方法还被用于确定最佳的模型构建参数,例如决策树的深度和网络中隐藏节点的数量。模型需要被反复优化,最终得到的模型对验证数据上具有最小平均误差。由于此优化过程非常费时,我们使用数据最少的核心组集来完成模型的优化工作。在确定最优模型后,molecule capsnet使用精炼组集进行训练。
[0056]
我们使用一般组集和精炼组集中的三个最大组群来评估molecule capsnet。我们使用精炼组集中的三个最大组群进行测试是为了评估molecule capsnet在具有相对较小数据但有相同蛋白质的数据集上的预测性能,因为在通常的药物研发项目中人们使用同一种蛋白质来筛选药物。我们测试一般组集是为了评估molecule capsnet对具有低分辨率的晶体结构的敏感度。我们使用自由能的实验值(δg=rtlnki)和预测值的pearson相关系数(r2)作为评估模型预测性能的依据。
[0057]
我们还使用autodock vina作为参照基准,与molecule capsnet作直接对比。autodock vina是一种广为使用并获得好评的分子对接和评分方法。很多商用数据库中的
数据是为分子对接和评分方法而设计的,因此可以直接使用这些组集来运行autodock vina。
[0058]
以上所述仅表达了本发明的优选实施方式,其描述较为具体和详细,但并不能因此而理解为对本发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干变形、改进及替代,这些都属于本发明的保护范围。因此,本发明专利的保护范围应以所附权利要求为准。
技术特征:1.一种人工智能ai深度学习技术驱动的药物筛选算法,其特征在于:引入基于物理原理的端到端深度学习模型molecule capsnet进行虚拟筛选;在此模型中,capsnet作为网络架构,并将多体力场方程式用于表达原子间的相互作用力;在molecule capsnet中,基本的分子结构数据被输入网络,基本的分子结构数据包括原子坐标和原子类型,多体力场方程式用于分析出对预测配体结合力至关重要的特征值;然后将这些表达原子间相互作用的特征值分类为能量项;molecule capsnet结合了数据驱动法和物理原理法的预测能力,从最简单的输入数据即原子坐标和原子类型中连续学习更高阶的物理特征,并把配体亲和热力学循环整合到神经网络优化中,直接预测亲和自由能;分子系统中每个体系即结合物,蛋白质和配体的自由能为其所有原子的能量之和,即其中n是原子总数,e
i
取决于每个特定原子的化学环境,而该化学环境是由以该原子为中心的截止半径球体内所有邻近原子的位置和类型决定的;原子与其相邻原子之间的函数关系及其能量贡献是通过原子神经网络来构建的;molecule capsnet由n个平行的原子神经网络组成;通过这些单个原子能量e
i
,在蛋白质的亲和区域找到强相互作用点,并据此得出配体的亲和模式。2.根据权利要求1所述的一种人工智能ai深度学习技术驱动的药物筛选算法,其特征在于:具体包括:输入数据:molecule capsnet的基本数据集包括笛卡尔原子坐标矩阵c[n,3]和原子类型矢量a[n];用原子数来代表原子类型;这些基本数据集通过以下的预处理步骤得到输入数据:首先,为每个原子的邻居列表创建一个矩阵n[n,m];邻居列表中列出的是距离截止值为以内的m个最邻近的原子;利用矩阵n,为原子间距离和相邻原子的原子类型分别创建两个矩阵d[n,m]和t[n,m];d
i,j
定义为原子i与其邻近原子j之间的距离;t
i,j
是原子i的邻近原子j的原子类型,a
i
;原子类型的卷积层:该层的输出da[n,m,n
at
]由矩阵d和t而得;矩阵d被馈入具有步长1和深度为n
at
的(1
×
1)过滤器,其中n
at
是分子系统中的原子类型的数量;原子类型卷积核是一个对矩阵d运算的阶梯函数:其中a是过滤器的原子类型,a=1,
…
n
at
;原子神经网络层:该层包含一组并行的原子神经网络;原子类型卷积层da的大小为(n,m,n
at
);将矩阵逐行即对应于每个原子输入原子神经网络层;每个原子神经网络从da接收一个大小为(1,m,n
at
)的薄片;primarycaps层由胶囊组成,原子i的原子间相互作用e
i
的特征参数在胶囊中被组织和学习;e
i
写成配对函数之和加上多体函数的形式,配对函数用多项式势能来近似,其中a
j
,b
j
和c
j
是可学习的参数;上述等式中的项分别类似于原子间库仑能,范德华吸
引能和排斥能;多体函数根据原子i的距离截止半径内所有原子的位置,通过构造多体对称函数f
s
来获得:f
s
(d
i,j
)=exp(-η
j
(d
i,j-d
s,j
)2)f
c
(d
i,j
),primarycaps层的过滤器具有的函数形式;对原子i在da[1,m,n
at
]上运行步幅为1、深度为n
r
的过滤器(m
×
1),其中n
r
是所需过滤器的数量;上述函数中的参数d
s,j
和η
j
是可学习的参数;参数d
c
是径向相互作用截止距离,设置为这样,每个胶囊接收到一个值其中是不可学习的缩放常数,是不可学习的偏差常数;从概念上讲,应用这些过滤器就会得到原子i与原子类型为a的所有相邻原子之间的相互作用之和;胶囊结构封装了的四个能量项,包括键合能,库仑能,范德华吸引能和排斥能;在primarycaps层和featurecaps层之间采用标准的动态路由;应用约束条件以确保在featurecaps层实现四个能量项的分类,从而评估它们对总能量的贡献;最后,featurecaps层的输出被送入完全连接层,在该层所有的原子神经网络都使用相同的权重和偏差;原子神经网络的输出是原子i的能量e
i
;分子系统的总能量是所有原子的能量之和,其中w
i
为可学习参数;热力学循环的应用:将配体亲和热力学循环整合到深度学习过程中:δg
complex
=g
complex-g
protein-g
ligand
;创建了三个参数共享的网络,分别用于结合物,蛋白质和配体;完整的网络系统针对下面的误差方程进行训练:l=(δg
complex-rtlnk
i
)2。
技术总结本发明提供了一种人工智能AI深度学习技术驱动的药物筛选算法,引入基于物理原理的端到端深度学习模型Molecule CapsNet进行虚拟筛选;在Molecule CapsNet中,基本的分子结构数据被输入网络,多体力场方程式用于分析出对预测配体结合力至关重要的特征值;然后将这些表达原子间相互作用的特征值分类为能量项;Molecule CapsNet结合了数据驱动法和物理原理法的预测能力,从最简单的输入数据即原子坐标和原子类型中连续学习更高阶的物理特征,并把配体亲和热力学循环整合到神经网络优化中,直接预测亲和自由能。本发明通过对现有化合物数据库信息的整合和数据提取、机器学习等手段,获得与化合物毒性、有效性相关的关键信息,从而大幅提高筛选的成功率,降低研发成本和工作量。作量。作量。
技术研发人员:陈炜 孙王燕
受保护的技术使用者:南昌大学抚州医学院
技术研发日:2022.05.06
技术公布日:2022/7/5