一种预测蛋白质二级结构的方法、装置及相关设备与流程

allin2024-12-11 63

1.本技术涉及资源调度技术领域，特别是涉及一种预测蛋白质二级结构的方法、装置及相关设备。

背景技术：

2.蛋白质是地球上所有生物进行生命活动不可或缺的化合物之一，研究蛋白质的序列结构、空间折叠方式对了解其生物功能有着非同寻常的意义。因此，蛋白质结构和功能的研究，是现代生物信息学和计算生物学中重要主题之一。其中，蛋白质由氨基酸构成，并且，氨基酸通过脱水缩合反应形成肽键，脱水缩合后的氨基酸失去一个水分子成为氨基酸残基，残基通过肽键连接起来构成线性的多肽链，这些线性的多肽链即蛋白质一级结构。蛋白质二级结构由一级结构经过三维空间结构变换得到，并且，依据氢键模式可以将蛋白质二级结构分为三大类，分别是α螺旋、β折叠和卷曲。进一步，蛋白质二级结构还可以细分为八小类：α螺旋(h)、α螺旋-3(g)、α螺旋-5(i)、β桥(b)、β折叠(e)、转角(t)、无规则卷曲(s)和其他(c)。并且，蛋白质具有三级结构，并且只有具有三级结构的蛋白质才具有生物活性。
3.随着测序技术的发展和相关研究的进行，指数级别增长的蛋白质一级结构序列(即组成蛋白质的氨基酸序列)已被测定，并存储在数据库中。但在缺少蛋白质同源结构信息的情况下，很难用这些已知的一级结构序列来预测蛋白质三级结构。蛋白质二级结构(可用于描述蛋白质的局部空间结构)作为连接一级结构和三级结构的中介，有助于蛋白质三级结构的预测。因此，如何预测蛋白质二级结构具有重要意义。

技术实现要素：

4.本技术实施例提供了一种预测蛋白质二级结构的方法、装置、计算设备及存储介质，以实现对于蛋白质二级结构的预测。
5.第一方面，本技术实施例提供了一种预测蛋白质二级结构的方法，所述方法包括：
6.获取待预测的蛋白质对应的氨基酸序列；
7.将所述氨基酸序列输入至预先完成训练的预测模型，得到所述预测模型输出的预测结果，所述预测结果用于指示所述蛋白质的二级结构，所述预测模型包括多个强分类器，所述多个强分类器中的每个强分类器包括多个子网络模型。
8.在一种可能的实施方式中，所述子网络模型包括卷积神经网络模型。
9.在一种可能的实施方式中，所述预测模型时基于装袋算法对所述多个强分类器进行训练得到。
10.在一种可能的实施方式中，每个强分类器包括多个相同的子网络模型。
11.在一种可能的实施方式中，所述子网络模型的输入对应的编码方式包括位置特异性得分矩阵pssm或隐马尔可夫模型hmm。
12.在一种可能的实施方式中，每个强分类器是利用adaboost算法对所述多个子网络模型进行训练得到的。
13.在一种可能的实施方式中，每个强分类器中的分类误差率、子网络模型对应的权重系数以及权重更新公式基于samme算法完成调整。
14.第二方面，本技术实施例还提供了一种预测蛋白质二级结构的装置，所述装置包括：
15.序列获取模块，用于获取待预测的蛋白质对应的氨基酸序列；
16.预测模块，用于将所述氨基酸序列输入至预先完成训练的预测模型，得到所述预测模型输出的预测结果，所述预测结果用于指示所述蛋白质的二级结构，所述预测模型包括多个强分类器，所述多个强分类器中的每个强分类器包括多个子网络模型。
17.在一种可能的实施方式中，所述子网络模型包括卷积神经网络模型。
18.在一种可能的实施方式中，所述预测模型时基于装袋算法对所述多个强分类器进行训练得到。
19.在一种可能的实施方式中，每个强分类器包括多个相同的子网络模型。
20.在一种可能的实施方式中，所述子网络模型的输入对应的编码方式包括位置特异性得分矩阵pssm或隐马尔可夫模型hmm。
21.在一种可能的实施方式中，每个强分类器是利用adaboost算法对所述多个子网络模型进行训练得到的。
22.在一种可能的实施方式中，每个强分类器中的分类误差率、子网络模型对应的权重系数以及权重更新公式基于samme算法完成调整。
23.第三方面，本技术实施例还提供了一种计算设备，该设备可以包括处理器以及存储器：
24.所述存储器用于存储计算机程序；
25.所述处理器用于根据所述计算机程序执行上述第一方面以及第一方面中任一种实施方式所述的方法。
26.第四方面，本技术实施例还提供了一种计算机可读存储介质，其特征在于，所述计算机可读存储介质用于存储计算机程序，所述计算机程序用于执行上述第一方面以及第一方面中任一种实施方式所述的方法。
27.在本技术实施例的上述实现方式中，获取待预测的蛋白质对应的氨基酸序列；将所述氨基酸序列输入至预先完成训练的预测模型，得到所述预测模型输出的预测结果，所述预测结果用于指示所述蛋白质的二级结构，所述预测模型包括多个强分类器，所述多个强分类器中的每个强分类器包括多个子网络模型。如此，不仅可以利用预测模型根据氨基酸序列预测出蛋白质二级结构，而且，通过实验证明，包括多个强分类器(每个强分类器包括多个子网络模型)的预测模型预测蛋白质二级结构的准确性也较高，达到77％左右，在公共数据集cb513上可达到74.29％的预测准确率，超过了当前研究最高的70.3％。
28.另外，当子网络模型具体为cnn、lstm和bi-lstm时，可以保存氨基酸序列中较长或完整序列信息进行预测。其中，cnn的卷积层类似于滑动窗口机制，叠加卷积层和池化层可以放大输入向量中最显著的特征。如此，可以有效提取氨基酸序列的局部相互作用力全局特征，从而可以提高预测准确率。
附图说明
29.为了更清楚地说明本技术实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本技术中记载的一些实施例，对于本领域普通技术人员来讲，还可以根据这些附图获得其他的附图。
30.图1为本技术实施例中一种预测蛋白质二级结构的方法流程示意图；
31.图2为不同编码方式的准确率示意图；
32.图3为三种深度下bi-lstm和lstm的预测准确率示意图；
33.图4为单层cnn的预测准确率示意图；
34.图5为两层cnn的预测准确率示意图；
35.图6为三层cnn和四层cnn的预测准确率示意图；
36.图7为基于pssm编码的不同神经元数量在不同卷积层下的预测准确率示意图；
37.图8为基于hmm编码的不同神经元数量在不同卷积层下的预测准确率示意图；
38.图9为同质adaboost模型(强分类器)在不同条件下的预测准确率示意图；
39.图10为同/异质弱分类器准确率对比示意图；
40.图11为同质弱分类器结合samme的准确率对比示意图；
41.图12为异质弱分类器结合samme的准确率对比示意图；
42.图13为强化adaboost模型示意图；
43.图14为同/异质弱分类器准确率对比示意图；
44.图15为本技术实施例中一种预测蛋白质二级结构的装置的结构示意图；
45.图16为本技术实施例中一种计算设备的硬件结构示意图。
具体实施方式
46.为使本技术的上述目的、特征和优点能够更加明显易懂，下面将结合附图对本技术实施例中的各种非限定性实施方式进行示例性说明。显然，所描述的实施例是本技术一部分实施例，而不是全部的实施例。基于本技术中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例，都属于本技术保护的范围。
47.参阅图1，图1示出了本技术实施例中一种预测蛋白质二级结构的方法流程示意图，该方法可以由预测蛋白质二级结构的装置执行。如图1所示，该方法具体可以包括：
48.s101：获取待预测的蛋白质对应的氨基酸序列。
49.作为一种实现示例，用于预测蛋白质二级结构的装置，可以对外提供用于与用户进行交互的可视化界面，并在该可视化界面上提示用户输入所要进行二级结构预测的蛋白质对应的氨基酸序列。这样，装置可以基于用户在该可视化界面上的操作(如文件导入操作等)，获取用户输入的氨基酸序列。
50.s102：将获取的氨基酸序列输入至预先完成训练的预测模型，得到该预测模型输出的预测结果，该预测结果用于指示蛋白质的二级结构，其中，该预测结果包括多个强分类器，并且，每个强分类器中包括多个子网络模型。
51.示例性地，每个强分类器中的各个子网络模型，可以作为弱分类器，并且，针对每个强分类器，可以利用adaboost算法对多个子网络模型进行训练得到。具体实现时，可以串行地训练弱分类器，把每个弱分类器的学习经验通过修改数据集权重的方式传递给下一个
弱分类器，最后把所有弱分类器按权重进行相加，即可得到由多个具有权重的弱分类器所构成的强分类器。
52.本实施例中，预测模型可以包括多个上述强分类器，从而预测模型所述输出的预测结果，可以根据各个强分类器所分别输出的预测结果进行确定，如通过投票法统计多个强分类器所输出的预测结果，并将强分类器的预测结果乘上各自对应的分类器系数(在模型训练阶段进行确定的)后进行向量加，找出输出向量最大值的下标作为预测模型最终输出的预测结果等。作为一种示例，可以通过装袋(bagging)算法对多个强分类器进行训练，以此得到预测模型。
53.进一步的，在训练强分类器时，还可以基于samme算法(一种多分类的adaboost算法)对每个强分类器中的分类误差率、子网络模型对应的权重系数以及权重更新公式进行调整。
54.在一些可能的实施方式中，该预测模型中的每个强分类器可以包括多个相同的子网络模型(可以称之为同质弱分类器)。进一步的，每个子网络模型例如可以是卷积神经网络(convolution neural network，cnn)。另外，每个子网络模型的输入可以通过位置特异性得分矩阵(position specific scoring matrix，pssm)或隐马尔可夫模型(hidden markov model，hmm)方式进行编码。
55.当然，上述描述仅作为一些实现示例，并不用于对预测模型的具体实现进行限定。比如，在其它可能的实现方式中，预测模型也可以是通过除bagging算法之外的其它算法对多个强分类器进行训练得到；每个强分类器中可以包括多个不同的子网络模型(可以称之为异质弱分类器)；子网络模型也可以是除cnn之外的其它网络模型，如长短期记忆网络(long short-term memory，lstm)模型、bi-lstm模型、循环卷积神经网络(rerrent convolution neural network，rcnn)模型等，本实施例对此并不进行限定。
56.如此，装置不仅可以利用预测模型根据氨基酸序列预测出蛋白质二级结构，而且，通过实验证明，包括多个强分类器(每个强分类器包括多个子网络模型)的预测模型预测蛋白质二级结构的准确性也较高，达到77％左右，在公共数据集cb513上可达到74.29％的预测准确率，超过了当前研究最高的70.3％。
57.另外，当子网络模型具体为cnn、lstm和bi-lstm时，可以保存氨基酸序列中较长或完整序列信息进行预测。其中，cnn的卷积层类似于滑动窗口机制，叠加卷积层和池化层可以放大输入向量中最显著的特征。如此，可以有效提取氨基酸序列的局部相互作用力全局特征，从而可以提高预测准确率。
58.为便于理解，下面对训练预测模型的过程进行详细介绍。
59.实际应用时，通常采用pssm编码方式对输入至预测模型的氨基酸序列进行编码，而对于其它编码方式针对预测结果的影响并不明确，因此，在训练预测模型之前，可以通过实验比较确定采用哪种编码方式对输入的氨基酸序列进行编码。
60.可以理解，编码方式蕴含二级结构相关信息越多，则在同一神经网络中预测准确率就越高。因此，为了避免不同神经网络对特定的某种编码方式存在喜好导致判断出现误差，可以采用多种不同的两层神经网络和编码方式进行比较。其中，神经网络包括bi-lstm、lstm、两个卷积核大小均为2的cnn1、卷积核大小分别为12和2的cnn2以及rcnn。其中，cnn网络的输入向量需要调整维度为17
×
编码尺寸(coding_size)，隐藏层神经元均为25，输出层
固定为8(表示8种二级结构)。编码方式可以包括独热编码、hmm编码、pssm编码和word2vec编码，其对应的输入向量维度分别为357、510、340和850。通过实验测试，可以得到如图2所示的比较结果。
61.如图2所示，(1)四种编码方式中hmm和pssm的准确率比另外两种编码方式高10％以上；(2)在准确率较差的神经网络如rcnn和cnn1中pssm的准确率比hmm高，在其他表现较好的神经网络中hmm的准确率更好；(3)卷积核较小的cnn网络提取信息能力较差，预测准确率较低；(4)rcnn的效果最差。
62.通过进一步分析可以确定：(1)独热编码蕴含的生物学信息最少，word2vec由于是基于一级结构和相邻残基进行编码，缺少序列对比的信息，效果不如hmm和pssm；(2)rcnn对于蛋白质二级结构进行预测的可适用性较低，后续可以不对其继续进行研究；(3)bi-lstm的预测准确率与单向的lstm准确率相差不大，可以侧面反映出氨基酸序列的后向信息对当前被预测一级结构影响不大；(4)cnn的预测效果优于lstm和bi-lstm，且使用较大的卷积核对cnn有正面作用。
63.由于神经网络的深度直接影响整个网络中神经元的数量，从而影响模型的非线性映射能力。因此，可以进一步对比不同深度对bi-lstm、lstm和cnn预测准确率的影响，最后比较相同层数下不同网络模型的预测准确率，得到表现最佳的模型。在此过程中，隐藏层神经元数设置为25(对cnn来说是卷积核)，滑动窗口长度设置为8。
64.针对bi-lstm和lstm神经网络，其对应的预测准确率可参见图3。如图3所示，对于bi-lstm和lstm来说，层数的增加并不能显著地提高预测准确率。并且，成倍地增加隐藏层神经元数量也没有提高网络的信息提取能力，意味着这两种网络在固定窗口长度的情况下准确率上限大约只有62％，增加层数和神经元数目并不能提高它们的预测能力。
65.针对cnn，影响准确率的除了卷积层层数外(池化层只是简单地提取最大值强化特征没有权值计算，因此不算入内)还有卷积核的大小。另外，对于比较大的卷积核，得到的特征图层难以堆叠多层的卷积操作。因此为了更客观地比较不同层数下cnn的准确率，不同层数的cnn还将卷积核大小列入比较范围内，只有准确率较高的cnn才会增加层数继续对比，具体可参见图4至图6，其中，k为卷积核。
66.如图4所示，卷积核越大，cnn的预测准确率越高。同时单层cnn的最高准确率与lstm的上限差不多。其中，表现最佳的是卷积核大小为adaboost 12的卷积层。卷积核大小为16时，过于接近当前输入向量的维度(当前维度为17
×
coding_size)，无法叠加下一个卷积层，因此表4中的两层cnn不包含第一层卷积核大小为16的cnn网络。
67.由图4和图5可知，卷积核大小小于等于4的卷积层提取信息能力弱于拥有更大卷积核的卷积层。由图5可知，卷积核大小组合为[5,2]和[12,2]的cnn预测效果最好，因此尝试对这两种卷积核的cnn增加层数，并测试cnn的准确率，得到如图6所示的测试结果。
[0068]
从图6中列1、列2、图5中列6以及图6中列4可以看出，增加一层核大小为1的卷积层无法有效提高准确率。而从图6中列1和图5中列4可以看出，增加卷积层(卷积核大于1)对提高预测准确率有正面影响，同时结合图6中列4和图5中列6观察，增加的卷积层所拥有的卷积核应尽量大(考虑输入向量的维度情况下尽可能增加大卷积核的卷积层)，这样可以更快地接近神经网络的准确率上限。
[0069]
综上所述，lstm网络增加层数不能有效提升预测准确率，cnn在增加大卷积核的卷
积层时可以较有效地提升准确率，因此三层或四层的cnn的预测效果比lstm或bi-lstm的预测效果更好。基于此，可以将cnn作为前述实施例中的子网络模型。
[0070]
由于滑动窗口长度决定了网络输入层的维度，cnn的卷积核数量决定了这个网络对非线性信息的提取能力。因此，可以进一步对比多个不同规模、不同层数的cnn得到最佳的滑动窗口长度和卷积核数量。实际应用时，通过实际测试可以确定，随着cnn深度的上升，cnn的预测准确率也在提高，如滑动窗口长度为7时cnn的准确率不如滑动窗口长度为8、9、10时cnn的准确率。并且，而滑动窗口长度在[8,10]之间时表现不分伯仲。为此，尽量选择较大的输入向量以满足叠加多层大卷积核的条件，本实施例中，选择10作为滑动窗口长度值，滑动窗口总长度为21，对应的输入向量长度为21
×
coding_length。更进一步地，为了确定合适的隐藏层神经元个数(即每层的卷积核个数)，本实施例中对比了不同卷积核大小下不同神经元个数对准确率的影响，具体可参见图7和图8所示的对比结果。
[0071]
如图7所示：在基于pssm进行编码时，(1)大卷积核+大量的神经元可以得到比较理想的准确率，在卷积层数为1，卷积核大小为14时，神经元数275、300和325都有比较理想的预测准确率；(2)在多卷积层的情况下，大量的神经元依旧能提高准确率，但提高的不多；(3)比较稳定且理想的准确率大约在68.5％左右，但最高的准确率接近70％。
[0072]
如图8所示，在基于hmm进行编码时，hmm在最高准确率和平均准确率上略逊色于pssm，最高准确率为68.34％，比较稳定的准确率大约是67.5％。图7以及图8所示的结果表征大卷积层和大量卷积核对分类有正面影响，因此可以确定最佳参数设置有两种：单层大卷积层(核大小为14或以上)+大量卷积核(275到325)；四层较大卷积层(核大小为5或以上)+大量卷积核(275到325)。
[0073]
在基于上述过程构建出子网络模型(即cnn)后，可以将子网络模型作为弱分类器，并且进一步基于多个弱分类器构建出强分类器。本实施例中，可以采用adaboost算法训练得到强分类器。其中，adaboost算法的核心思路主要是串行地训练弱分类器，把每个弱分类器的学习经验通过修改数据集权重的方式传递给下一个弱分类器，最后把所有弱分类器按权重相加得到强分类器。具体的流程为：初始化时，每次迭代从总数据集中抽取定量数据形成训练数据集；给训练数据集所有数据赋值相同的权重；使用弱分类器对训练数据集分类；对训练数据集中分类错误的数据赋值更高的权重，从而产生新的样本分布；使用下一个弱分类器利用更新的样本权重进行训练；重复以上步骤，直到分类器个数满足要求；最后，把弱分类器按其系数相加，就得到最终的分类器。
[0074]
举例来说，以pssm编码的cb513为例，构造了输入样本集后，30％的数据作为预测集，70％的数据作为训练集，设训练集大小为m，全部弱分类器设置为cnn。详细的训练-预测过程描述如下：
[0075]
a.初始化：
[0076]
1.构造子训练数据集d：从训练集中有放回地抽取m个输入向量形成子训练数据集d。
[0077]
2.固定迭代次数，即确定训练t个cnn，每个分类器编号h
t
。
[0078]
3.对子训练数据集d中m个输入向量赋予相等的初始权重d
1i
(i＝1，2，
……
，m)，如公式(1)所示，其中d1表示样本的权重分布，下标1表示权重更新次数，此时是第一次赋值。
分别是0.2，0.5，0.3，则为[0.071，0.225，0.161，0.075，0.104，0.102，0.124，0.138]，最大值为0.225，则预测的结果是第二类二级结构。
[0095]
对于异质弱分类器，由于adaboost采用串行训练方法，不同分类器之间的输入向量输出向量维度不同，本实施例在计算最终强分类器输出时都重新格式化为一维的向量，输入向量则需要按照弱分类器的输入格式使用reshape函数重塑。
[0096]
参见图9，示出了cnn组合成的模型在pssm、hmm编码下的预测准确率(％)的测试结果。如图9所示：(1)pssm编码的预测效果均优于hmm编码；(2)最佳的单一弱分类器是四层较大卷积核的cnn模型；(3)保持单一卷积核的神经元数较大的情况下，增减神经元数量不会明显地影响整体结构的准确率。(4)adaboost方法对单个cnn的提升效果更好，从原来的69％最高提升到76％。
[0097]
为了对比弱分类器个数对准确率的影响，实际测试场景中将最高叠加至25个弱分类器(即五组弱分类器)。其中，异质分类器由bi-lstm、cnn、svc和bp神经网络组成，每组异质分类器包含两个bi-lstm网络和其他三种分类器，除去bp神经网络，其他分类器的参数均使用相应算法(如sklearn库的gridsearchcv算法)搜寻了最佳参数，bp神经网络的结构经过测试对比，确定为单层隐藏层(每层125个神经元)再加一层softmax输出层。则，异质弱分类器与同质弱分类器的预测准确率对比如图10所示。
[0098]
由图10可知：(1)异质弱分类器的最高预测准确率约为71％，同质弱分类器的最高预测准确率约为76％，同质弱分类器的效果优于异质弱分类器；(2)在adaboost集成方法中，单一弱分类器的最高准确率为66％，而异质弱分类器组合的平均准确率约为70.5％，高于单一弱分类器最高值；而同质弱分类器中，组合后的准确率比原来的提高了10％，同质弱分类器的提升效果更好。(3)adaboost对同质的svc提升效果只有5％，而对同质的cnn提升效果有10％，因此，adaboost方法对于复杂的神经网络提升效果更好。
[0099]
实际应用时，原始的adaboost算法直接应用到蛋白质二级结构预测中存在一部分问题：
[0100]
(1)原始算法假设弱分类器的准确率仅比随机预测好一点，因此把初始准确率设置为略大于50％，如果弱分类器的误差值大于50％则直接退出循环。而在实际情况中，初始准确率只需要比随机分类准确率1/num_class稍微高即可(在本实施例中num_class为8)，否则算法中途退出的可能性太高。因此分类器退出条件和分类误差率ε
t
需要修改；
[0101]
(2)计算过程中没有考虑到弱分类器的学习速率learning rate；
[0102]
(3)弱分类器的权重系数α
t
会受到分类数量和分类误差率ε
t
的影响，而更新的下一轮样本权重d
t+1
则要根据α
t
计算。
[0103]
为此，本实施例中，对samme方法，修改了分类误差率ε
t
、权重系数α
t
、样本权重d
t+1
的计算方式。
[0104]
其中，分类误差率ε
t
变为原公式的平均值，如下述公式(8)所示：
[0105][0106]
权重系数α
t
计算过程中增加了学习速率和分类数的参数，如下述公式(9)所示：
[0107][0108]
在错误预测时更新权重的公式也有所改变，如下述公式(10)所示：
[0109][0110]
将samme算法与adaboost结合的方法应用在同/异质弱分类器中，得到的准确率对比如图11和图12所示。并且，基于图11以及图12可知，samme方法对同质或异质弱分类器都有提升效果，对两者准确率皆有大约0.5％的提高，但不能从根本上改变异质弱分类器模式弱于同质弱分类器的规律。
[0111]
常规的adaboost方法只是对弱分类器进行优化，不能随机调整输入样本的顺序，因为在其计算过程中要调整每个样本的权重值。同样的，不能在训练过程中随机抽取特征，因为这样很难确定是哪一种弱分类器或者随机抽取特征模式更有效。为了提升整体分类器输入数据的随机性，本实施例中使用bagging(装袋法)结合上述的sammer算法，形成强化adaboost模型，具体的分类器结构图如图13所示。
[0112]
其中，si表示通过随机抽取得到的和原始数据集等大的第i个输入向量集；ai表示使用输入向量集si训练的adaboost分类器；wi表示adaboost分类器ai的分类器系数。强化adaboost模型具体训练、预测流程如下：
[0113]
1.将数据集编码，并构造多个输入向量集。首先使用一种编码方式如pssm将数据集编码，然后将每个数据子集按0.7、0.1、0.2的比例分为训练集、测试集和预测集，然后从训练集随机抽取等量的样本构造成多个不同的输入向量集sij。
[0114]
2.使用输入向量集si训练adaboost分类器。每个adaboost分类器ai只使用对应的输入向量集si训练，训练后计算测试集的分类准确率并保留，然后计算ai对预测集的输出向量并保留。
[0115]
3.使用投票法统计多个adaboost分类器对预测集的输出。根据测试集准确率计算每个adaboost分类器的分类器系数。然后对预测集的每个样本，将t个adaboost分类器的预测结果乘上各自的分类器系数后进行向量加，找出输出向量最大值的下标作为该预测集样本的分类结果。
[0116]
由同质弱分类器构成的adaboost分类器由于只是输入向量集不同，彼此之间相似度较高，准确率相对较接近，因此在测试过程中可以忽略分类器系数，即将测试集和预测集合并成预测集，训练完adaboost分类器后直接保留预测集的输出向量然后进行向量加(输出格式不同时要先统一格式)，最后使用投票法得到预测集样本的分类结果。
[0117]
由于同质弱分类器的预测效果优于异质弱分类器，因此此次只对同质弱分类器下的adaboost模型进行bagging操作，不同模型数、不同神经元数的bagging预测准确率如图14所示。
[0118]
如图14所示，在bagging+同质adaboost模型的模式下，预测能力最好的cnn与能力较弱的cnn在模型数达到15时准确率基本一致；两者的最高准确率与bagging的最高准确率基本一致，但低于单一adaboost模型的最高准确率；在训练过程中发现，300卷积核的情况
下单个cnn的训练准确率最高能达到97.4％，平均训练准确率为96.5％，预测准确率约为69％，而150卷积核的情况下的平均训练准确率只有92.5％，预测准确率68％，但最后两者在bagging集成框架下的预测准确率相差很少。
[0119]
因此，(1)在整体框架为bagging集成方法结合四层cnn模型(不论有无使用adaboost)，整个强分类器的准确率极限约为73％；(2)使用bagging集成方法结合adaboost的模式中，在组成adaboost模型的最小单位分类器上不必使用最佳但耗时长的模型，可以选择效果稍差的分类器，并行训练多个adaboost模型，就能在不降低准确率的情况下减少训练时间。
[0120]
如此，可以基于多个cnn构建出图1所示实施例中的预测模型。
[0121]
此外，本技术实施例还提供了一种预测蛋白质二级结构的装置。参阅图15，图15示出了本技术实施例中一种预测蛋白质二级结构的装置结构示意图，该装置1500包括：
[0122]
序列获取模块1501，用于获取待预测的蛋白质对应的氨基酸序列；
[0123]
预测模块1502，用于将所述氨基酸序列输入至预先完成训练的预测模型，得到所述预测模型输出的预测结果，所述预测结果用于指示所述蛋白质的二级结构，所述预测模型包括多个强分类器，所述多个强分类器中的每个强分类器包括多个子网络模型。
[0124]
在一种可能的实施方式中，所述子网络模型包括卷积神经网络模型。
[0125]
在一种可能的实施方式中，所述预测模型时基于装袋算法对所述多个强分类器进行训练得到。
[0126]
在一种可能的实施方式中，每个强分类器包括多个相同的子网络模型。
[0127]
在一种可能的实施方式中，所述子网络模型的输入对应的编码方式包括位置特异性得分矩阵pssm或隐马尔可夫模型hmm。
[0128]
在一种可能的实施方式中，每个强分类器是利用adaboost算法对所述多个子网络模型进行训练得到的。
[0129]
在一种可能的实施方式中，每个强分类器中的分类误差率、子网络模型对应的权重系数以及权重更新公式基于samme算法完成调整。
[0130]
需要说明的是，上述装置各模块之间的信息交互、执行过程等内容，由于与本技术实施例中方法实施例基于同一构思，其带来的技术效果与本技术实施例中方法实施例相同，具体内容可参见本技术实施例前述所示的方法实施例中的叙述，此处不再赘述。
[0131]
此外，本技术实施例还提供了一种计算设备。参阅图16，图16示出了本技术实施例中一种计算设备的硬件结构示意图，该设备1600可以包括处理器1601以及存储器1602。
[0132]
其中，所述存储器1602，用于存储计算机程序；
[0133]
所述处理器1601，用于根据所述计算机程序执行上述方法实施例中所述的预测蛋白质二级结构的方法。
[0134]
另外，本技术实施例还提供了一种计算机可读存储介质，所述计算机可读存储介质用于存储计算机程序，所述计算机程序用于执行上述方法实施例中所述的预测蛋白质二级结构的方法。
[0135]
本技术实施例中提到的“第一”只是用来做名字标识，并不代表顺序上的第一。该规则同样适用于“第二”、“第三”等。
[0136]
通过以上的实施方式的描述可知，本领域的技术人员可以清楚地了解到上述实施
例方法中的全部或部分步骤可借助软件加通用硬件平台的方式来实现。基于这样的理解，本技术的技术方案可以以软件产品的形式体现出来，该计算机软件产品可以存储在存储介质中，如只读存储器(英文：read-only memory，rom)/ram、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者诸如路由器等网络通信设备)执行本技术各个实施例或者实施例的某些部分所述的方法。
[0137]
本说明书中的各个实施例均采用递进的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于装置实施例而言，由于其基本相似于方法实施例，所以描述得比较简单，相关之处参见方法实施例的部分说明即可。以上所描述的装置实施例仅仅是示意性的，其中作为分离部件说明的模块可以是或者也可以不是物理上分开的，作为模块显示的部件可以是或者也可以不是物理模块，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性劳动的情况下，即可以理解并实施。
[0138]
以上所述仅是本技术示例性的实施方式，并非用于限定本技术的保护范围。

技术特征：
1.一种预测蛋白质二级结构的方法，其特征在于，所述方法包括：获取待预测的蛋白质对应的氨基酸序列；将所述氨基酸序列输入至预先完成训练的预测模型，得到所述预测模型输出的预测结果，所述预测结果用于指示所述蛋白质的二级结构，所述预测模型包括多个强分类器，所述多个强分类器中的每个强分类器包括多个子网络模型。2.根据权利要求1所述的方法，其特征在于，所述子网络模型包括卷积神经网络模型。3.根据权利要求1所述的方法，其特征在于，所述预测模型时基于装袋算法对所述多个强分类器进行训练得到。4.根据权利要求1所述的方法，其特征在于，每个强分类器包括多个相同的子网络模型。5.根据权利要求1所述的方法，其特征在于，所述子网络模型的输入对应的编码方式包括位置特异性得分矩阵pssm或隐马尔可夫模型hmm。6.根据权利要求1所述的方法，其特征在于，每个强分类器是利用adaboost算法对所述多个子网络模型进行训练得到的。7.根据权利要求1至6任一项所述的方法，其特征在于，每个强分类器中的分类误差率、子网络模型对应的权重系数以及权重更新公式基于samme算法完成调整。8.一种预测蛋白质二级结构的装置，其特征在于，所述装置包括：序列获取模块，用于获取待预测的蛋白质对应的氨基酸序列；预测模块，用于将所述氨基酸序列输入至预先完成训练的预测模型，得到所述预测模型输出的预测结果，所述预测结果用于指示所述蛋白质的二级结构，所述预测模型包括多个强分类器，所述多个强分类器中的每个强分类器包括多个子网络模型。9.一种计算设备，其特征在于，所述设备包括处理器以及存储器：所述存储器用于存储计算机程序；所述处理器用于根据所述计算机程序执行权利要求1-7中任一项所述的方法。10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质用于存储计算机程序，所述计算机程序用于执行权利要求1-7中任一项所述的方法。

技术总结
本申请公开了一种预测蛋白质二级结构的方法、装置及相关设备，包括：获取待预测的蛋白质对应的氨基酸序列；将所述氨基酸序列输入至预先完成训练的预测模型，得到所述预测模型输出的预测结果，所述预测结果用于指示所述蛋白质的二级结构，所述预测模型包括多个强分类器，所述多个强分类器中的每个强分类器包括多个子网络模型。如此，不仅可以利用预测模型根据氨基酸序列预测出蛋白质二级结构，而且，通过实验证明，包括多个强分类器(每个强分类器包括多个子网络模型)的预测模型预测蛋白质二级结构的准确性也较高。级结构的准确性也较高。级结构的准确性也较高。

技术研发人员：梁珩琳
受保护的技术使用者：中国农业银行股份有限公司
技术研发日：2022.04.06
技术公布日：2022/7/4

转载请注明原文地址: https://www.8miu.com/read-17539.html

专利

最新回复(0)