考虑拓扑特征的智能优化与学习融合的蛋白质分类方法

allin2026-01-21  26


本发明涉及拓扑数据分析、智能优化和机器学习,尤其涉及一种考虑拓扑特征的智能优化与学习融合的蛋白质分类方法。


背景技术:

1、蛋白质是由氨基酸脱水缩合组成的分子,约占人体质量的18%,仅次于水分子,是维持生命正常运转的关键物质之一。不同的蛋白质具有不同的功能,例如胰岛素具有调节血糖的作用、血红蛋白负责运输氧气以及转甲状腺素蛋白可以修补组织。蛋白质的作用与功能是由其结构所决定的,分为一级结构、二级结构、三级结构和四级结构。一级结构是蛋白质的氨基酸排列顺序,相当于氨基酸序列;二级结构是指多肽主链骨架原子按一定方式形成的构象;三级结构是由二级结构进一步缠绕和折叠形成;四级结构是具有三级结构的多肽链形成的空间排布。

2、通过实验手段来测定结构、分析作用与功能是复杂的过程,早在1985年,人类基因组计划首次提出,旨在测定人类整个基因组的dna序列,使得专家和学者开辟生物信息学,也大力促进了生物信息学的发展。生物信息学是一门交叉学科,它通过统计学、数学、计算机科学以及生物等方法分析生物信息。它对蛋白质的功能检测起到了有利作用,通过机器学习和深度学习等手段分析生物数据,实现蛋白质分类与结构预测等任务。分类任务将有效地判断蛋白质的类型与功能,在蛋白质药物设计与研发、药物相互作用、蛋白质识别和蛋白质进化研究中起到积极的作用。不仅如此,蛋白质的分类还会涉及到自然语言处理和计算机视觉的相关知识,将文本与图像分类的有关手段在改进后运用到蛋白质领域,这个过程不仅有利于人工智能本身的发展,也进一步促进了人工智能在生物领域的应用,具有较大的实际意义。另外,蛋白质在结构层面的研究也在一定程度上带动了拓扑数据分析的应用,因为拓扑数据分析是一种分析高维数据的工具,同样适用于蛋白质的三维结构。拓扑数据分析与人工智能技术的结合为蛋白质的研究带来了新的机遇,例如,通过拓扑数据分析提取的特征可以作为机器学习模型的输入,以实现蛋白质分类任务。

3、在研究蛋白质分类任务时,关注了两个主要的输入来源:氨基酸序列信息和三维空间结构。ehsaneddin asgari等通过提出一种蛋白质序列的向量化方法,并结合机器学习模型来进行分类。而debarshi kundu等则开发了名为quantum tensor networks的模型,用于蛋白质序列的分类任务。另一方面,yufei huang等则是从蛋白质的空间结构中提取向量,完成分类任务。而zuobai zhang等通过构建预训练模型来从蛋白质结构中学习几何特征,并将其应用于蛋白质分类。

4、通过对相关研究的进行分析,发现了几个关键的问题。首先,蛋白质的功能往往与其三维结构密切相关,三维空间结构能提供比一维氨基酸序列的更加丰富的信息。然而,基于氨基酸序列的分类方法未能充分利用蛋白质的空间结构信息。然而,空间结构分类也许需要采用更为复杂的神经网络模型以处理三维蛋白质信息,这无疑加大了模型设计的难度,同时也增加了对计算资源的需求。尽管基于空间结构的方法在揭示蛋白质功能方面可能具有更大的优势,但在实际操作中,必须权衡模型的复杂性与准确率之间的关系。


技术实现思路

1、本发明要解决的技术问题是针对上述现有技术的不足,提供一种考虑拓扑特征的智能优化与学习融合的蛋白质分类方法,实现蛋白质三维结构的分类。

2、为解决上述技术问题,本发明所采取的技术方案是:考虑拓扑特征的智能优化与学习融合的蛋白质分类方法,包括以下步骤:

3、步骤1:基于蛋白质样本的三维结构生成出生死亡对;

4、以蛋白质的每个ca原子坐标为中心,以r为半径画出球体,其中,r随着时间不断增加;

5、如果两个原子所对应的球体相切、相交或者球体间距小于设定的阈值,则两个原子会被连接;将每个原子视作h0,当两个球体包含彼此的球心时,则连接两个原子;如果两个原子相连接,则被认为其中一个原子所对应的h0消失;若多个原子的连接形成环路,则形成环路结构h1;其中,h0反映出蛋白质空间中的连通性,h1反映出蛋白质空间中的环路结构,相似的样本具有相似的拓扑属性;

6、随着半径r的变化,h0和h1会不断出现和消失;选取h1出现和消失时对应的r构成的一对数值作为该蛋白质的出生死亡对;

7、步骤2:为每个蛋白质样本构建拓扑词袋模型;

8、步骤2.1:将每个蛋白质样本的出生死亡对作为拓扑点,通过k-means聚类算法将每个蛋白质样本的出生死亡对聚为n类;

9、步骤2.2.1:以出生时的r为横坐标,以消亡时的r为纵坐标,在平面直角坐标系中绘制出每一个出生死亡对,称作h1拓扑点;

10、步骤2.2.2:随机选择n个拓扑点,作为标记中心,记作xi,i=1,2,……,n,每个标记中心对应一类;为每一个拓扑点找到一个最近标记中心,若该拓扑点的最近标记中心为xi,则该拓扑点属于第i类;

11、步骤2.2.3:计算每一类新的中心点,每类新的中心点的横坐标是该类中所有拓扑点的横坐标均值,每类新的中心点的纵坐标是该类中所有拓扑点的纵坐标均值;不断重复进行划分类别和更新标记点的步骤,直到达到聚类停止条件;

12、步骤2.2:根据聚类后的拓扑点生成词袋向量;

13、步骤2.2.1:为每一个蛋白质样本生成一个长度为n的初始值为0的数组;

14、步骤2.2.2:对于一个蛋白质,遍历其每一个拓扑点,若距离该拓扑点最近的标记中心是xi,则该拓扑点属于第i类,数组中下标为i-1的元素加1;

15、步骤2.2.3:遍历每一个蛋白质,为每个蛋白质执行步骤2.2.2的操作,最终为每个蛋白质样本生成了对应的词袋向量;

16、步骤2.3:优化蛋白质样本对应的词袋向量;

17、采用改进版本的tf-idf优化蛋白质样本对应的词袋向量;

18、(1)对于某一个词袋向量v,累加其所有元素的数值,记作s1,再令向量v的每一个元素都除以s1,得到v-tf向量;

19、(2)构建一个与词袋向量长度一样的向量v-df,此向量通过全局数据集生成,无论有多少个蛋白质样本,均只存在一个v-df向量;对于v-df向量,每一个元素均为1,再遍历所有词袋向量的每一个位置,若该位置元素不为0,则v-df的对应位置加1;

20、(3)令蛋白质样本总数加1的和为s3,将v-df向量的每一个元素都替换为s3除以该元素的商的对数,得到新的向量,再将新的向量每一位都加1,记作向量v-idf;

21、(4)为每一个词袋向量生成相应的v-tf向量,再令该向量逐元素与向量v-idf相乘,得到的向量再进行l2归一化,最终得到的向量记作v-tf-idf,用于替换原有的词袋向量;

22、步骤3:提取蛋白质的sift特征,并进行向量化,得到sift词袋向量;

23、步骤3.1:初始化蛋白质距离矩阵;为一个蛋白质初始化一个长和宽均为n的距离矩阵,n为该蛋白质的ca原子数量;

24、步骤3.2:遍历ca原子序列:遍历蛋白质中的每一个ca原子对,计算其欧氏距离,并将计算结果放到距离矩阵的相应位置;

25、步骤3.3:可视化距离矩阵,将距离矩阵转换为灰度图;

26、步骤3.4:从蛋白质样本所对应的灰度图中提取sift特征;

27、步骤3.5:构建sift词袋向量;

28、按照步骤2通过拓扑点生成n维拓扑词袋向量的流程,将sift特征点以同样处理方式,生成对应的sift词袋向量;

29、步骤4:构建神经网络结构进行蛋白质分类;

30、所述神经网络结构包括两个输入,分别对应每个蛋白质样本的n维的拓扑词袋向量,记作向量x1,和n维的sift词袋向量,记作向量x2,输出是蛋白质样本所对应的类别标签;

31、所述神经网络结构采用特征融合神经网络进行蛋白质分类,具体过程为:

32、1)令输入向量x1接入仅有一个神经元的层d1,其中激活函数为relu,得到输出权重值w1;

33、2)再令输入向量x2接入同样仅有一个神经元的层d2,其中激活函数仍为relu,得到输出权重值w2;

34、3)令向量x1逐元素与权重值w2相乘得到新的向量x3;

35、4)令向量x2逐元素与权重值w1相乘得到新的向量x4;

36、5)令向量x3与x4相加,得到向量x5;

37、6)令向量x5接入具有n1个神经元的层d3,激活函数为relu,该层输出为向量x6;

38、7)令向量x6接入具有n2个神经元的层d4,激活函数为relu,该层输出为向量x7;

39、8)令向量x7接入具有两个神经元的输出层,激活函数为softmax;

40、9)设定神经网络训练的参数,epoch和batch_size,以及模型训练的优化器及损失函数;

41、步骤5:基于进化算法进行神经网络中神经元个数的自适应选择;

42、采用nsga-ⅱ多目标优化算法来确定合适的神经元个数,具体为:

43、步骤5.1:初始化种群:随机生成一个初始种群,种群由个体组成,每个个体都代表着一组解;

44、步骤5.2:评估适应度:对种群中的每个个体进行适应度计算;

45、采用pymoo库构建优化算法模型,目标函数为最小化神经网络准确率的负值,以及最小化参数总量;种群个体的适应度等同于该个体所对应的两个目标函数的值;

46、步骤5.3:非支配排序:对种群非支配排序,种群的个体会被划分进非支配层中;

47、步骤5.4:计算拥挤距离:对每个个体进行拥挤距离的计算,这一指标有助于维持种群的多样性;

48、步骤5.5:选择、交叉和变异:根据个体的非支配排序等级和拥挤距离,选择优秀的父代个体;之后,通过交叉和变异操作生成新一代个体,称作子代个体;

49、步骤5.6:种群合并与再度选择:将由子代个体组成的种群与由父代个体组成的种群合并,并通过非支配排序和拥挤距离的计算,从合并后的种群中选择出与原种群规模相同的个体,以保持种群的精英性;

50、步骤5.7:循环迭代:重复执行适应度计算、非支配排序、拥挤距离计算、选择操作以及种群合并的步骤,直到满足指定的终止条件。

51、采用上述技术方案所产生的有益效果在于:本发明提供的考虑拓扑特征的智能优化与学习融合的蛋白质分类方法,(1)针对从蛋白质结构中提取的出生死亡对进行聚类。通过聚类算法这些出生死亡对被分成n个类别,这可以归类相似的出生死亡对,便于后续应用词袋模型。(2)使用词袋模型将蛋白质的特征向量化。词袋模型在自然处理领域和计算机视觉领域均有所应用,分别可以用于处理文本和图像特征点。本发明将蛋白质的拓扑特征也通过词袋模型建模,生成一个固定长度的向量,便于送入神经网络。(3)设计一种神经网络模型用于分类。这个模型不仅包含了由词袋模型生成的拓扑特征向量,还可以融合蛋白质的其他特征。这种融合特征的方法使得神经网络利用蛋白质的多维度信息进行更准确的分类。


技术特征:

1.一种考虑拓扑特征的智能优化与学习融合的蛋白质分类方法,其特征在于:包括以下步骤:

2.根据权利要求1所述的考虑拓扑特征的智能优化与学习融合的蛋白质分类方法,其特征在于:所述步骤1的具体方法为:

3.根据权利要求1所述的考虑拓扑特征的智能优化与学习融合的蛋白质分类方法,其特征在于:所述步骤2.1的具体方法为:

4.根据权利要求1所述的考虑拓扑特征的智能优化与学习融合的蛋白质分类方法,其特征在于:所述步骤2.2的具体方法为:

5.根据权利要求4所述的考虑拓扑特征的智能优化与学习融合的蛋白质分类方法,其特征在于:所述步骤2.3采用改进版本的tf-idf优化蛋白质样本对应的词袋向量;

6.根据权利要求5所述的考虑拓扑特征的智能优化与学习融合的蛋白质分类方法,其特征在于:所述步骤3的具体方法为:

7.根据权利要求6所述的考虑拓扑特征的智能优化与学习融合的蛋白质分类方法,其特征在于:步骤4所述神经网络结构采用特征融合神经网络进行蛋白质分类,具体过程为:

8.根据权利要求7所述的考虑拓扑特征的智能优化与学习融合的蛋白质分类方法,其特征在于:所述步骤5采用nsga-ⅱ多目标优化算法来确定合适的神经元个数,具体为:


技术总结
本发明提供一种考虑拓扑特征的智能优化与学习融合的蛋白质分类方法,涉及拓扑数据分析、智能优化和机器学习技术领域。该方法首先基于蛋白质样本的三维结构生成出生死亡对;并为每个蛋白质样本构建拓扑词袋模型;然后提取蛋白质的SIFT特征,并进行向量化,得到SIFT词袋向量;再构建神经网络结构进行蛋白质分类;神经网络结构包括两个输入,分别对应每个蛋白质样本的N维的拓扑词袋向量和N维的SIFT词袋向量,输出是蛋白质样本所对应的类别标签;并基于进化算法进行神经网络中神经元个数的自适应选择。该方法使用融合特征,使得神经网络利用蛋白质的多维度信息进行更准确的分类。

技术研发人员:唐立新,许美玲,曲俊澎
受保护的技术使用者:东北大学
技术研发日:
技术公布日:2024/10/31
转载请注明原文地址: https://www.8miu.com/read-25792.html

最新回复(0)