本发明涉及数据处理,特别涉及一种多环共轭体系分子生成模型的处理方法和装置。
背景技术:
1、有机光电器件,包括有机光伏(opvs)、有机发光二极管(oleds)、有机场效应晶体管(ofets)和有机激光二极管,正在广泛应用于太阳能生产、高端显示、柔性计算和电子皮肤等商业领域。这些设备的基本组件是具有共轭多环结构的光电活性有机分子。相比于无机光电材料,有机光电材料具有固有的柔性、低温和溶液加工性、生物兼容性和成本效益等优点,可以为柔性多场景电力生产和可穿戴电子设备提供系统解决方案。因此,新型有机光电分子(organic optoelectronic molecules,ooms)的发现一直是提高器件性能的关键因素之一。然而,以往对新型ooms的设计方式通常依赖专家经验实现,这些常规设计方式不但设计周期长、设计效率低,还存在化学空间探索能力不足、新分子结构重复度偏高等问题。
技术实现思路
1、本发明的目的,就是针对现有技术的缺陷,提供一种多环共轭体系分子生成模型的处理方法、装置、电子设备及计算机可读存储介质。本发明预先构建一个用于生成和优化多环共轭体系分子的端到端智能模型记为第一分子处理模型;并基于预设的多环共轭体系分子库对第一分子处理模型进行训练;并在训练结束后,基于第一分子处理模型根据用户输入的多环共轭体系分子生成/优化任务数据进行多次分子生成/优化处理并将其中置信度最高的一个生成/优化分子构象作为当次的最优分子构象向用户反馈。通过本发明给出的端到端模型,不但可以缩短设计周期、提高设计效率,还能对化学空间的探索能力进行增强、达到提高分子构象结构多样性的目的。
2、为实现上述目的,本发明实施例第一方面提供了一种多环共轭体系分子生成模型的处理方法,所述方法包括:
3、构建一个用于生成和优化多环共轭体系分子的处理模型记为对应的第一分子处理模型;
4、将预设的多环共轭体系分子库记为对应的第一分子库;并基于所述第一分子库训练所述第一分子处理模型;
5、模型训练结束后,接收用户输入的多环共轭体系分子处理任务数据记为对应的第一任务数据;所述第一任务数据包括第一任务类型、第一生成次数g、第一网格空间、第一结合物原子集和第一预测原子总数;所述第一任务类型包括从头生成任务和分子优化任务;所述第一任务类型为从头生成任务时对应的所述第一结合物原子集为空,所述第一任务类型为分子优化任务时对应的所述第一结合物原子集包括多个第一结合物原子;
6、对所述第一任务数据的所述第一任务类型进行识别;
7、若所述第一任务类型为从头生成任务,则连续g次将所述第一任务数据的所述第一网格空间和所述第一预测原子总数输入所述第一分子处理模型进行分子生成处理得到对应的第一生成分子构象和第一分子置信度;并将其中所述第一分子置信度最高的所述第一生成分子构象作为对应的当次最优分子构象;
8、若所述第一任务类型为分子优化任务,则连续g次将所述第一任务数据的所述第一网格空间、所述第一结合物原子集和所述第一预测原子总数输入所述第一分子处理模型进行分子优化处理得到对应的第一优化分子构象和第二分子置信度;并将其中所述第二分子置信度最高的所述第一优化分子构象作为对应的所述当次最优分子构象;
9、由所述当次最优分子构象及其对应的分子置信度组成对应的当次任务报告向用户反馈。
10、优选的,所述第一分子处理模型的模型输入端用于接收网格空间c、预测原子总数m和/或结合物原子集p,第一模型输出端用于输出对应的分子构象m,第二模型输出端用于输出对应的分子置信度;
11、所述网格空间c为一个三维体素空间、由多个单元体素网格组成;每个所述单元体素网格为一个正方体网格、边长不超过2埃;每个所述单元体素网格对应一个三维体素坐标和一个体素值;每个所述单元体素网格中最多能放置一个虚拟粒子或一个所述结合物原子,每个所述单元体素网格中若被放置了一个所述结合物原子则对应的所述体素值为1、若未放置所述结合物原子则对应的所述体素值为0;所述网格空间c的所有所述单元体素网格的所述体素值被初始化为0;
12、所述预测原子总数m为一个正整数;
13、所述结合物原子集p为可选输入;所述结合物原子集p不为空时由多个结合物原子pmo组成,1≤索引o≤np,np为所述结合物原子集p的结合物原子总数;每个所述结合物原子pmo对应一组原子特征,包括:原子类型和原子坐标;
14、所述结合物原子集p为空时,对应的所述分子构象m由m个预测原子ppj组成,1≤索引j≤m;所述结合物原子集p不为空时,对应的所述分子构象m由np个所述结合物原子pmo和m个所述预测原子ppj组成;每个所述预测原子ppj对应一组原子特征,包括:原子类型和原子坐标;
15、所述第一分子处理模型包括虚拟构象初始化模块、虚拟构象优化器、预测构象提取器、预测构象优化器和置信度评估器;
16、所述虚拟构象初始化模块的输入端与所述模型输入端连接,输出端与所述虚拟构象优化器的输入端连接;所述虚拟构象优化器的输出端与所述预测构象提取器的输入端连接;所述预测构象提取器的输出端与所述预测构象优化器的输入端连接;所述预测构象优化器的输出端分别与所述第一模型输出端和所述置信度评估器的输入端连接;所述置信度评估器的输出端与所述第二模型输出端连接;
17、所述虚拟构象初始化模块用于在收到所述网格空间c和所述预测原子总数m时,基于预设的超参数系数k和所述预测原子总数m设置对应的虚拟粒子总数n=m×k;并以所述虚拟粒子总数n为采样总数,按预设的虚拟粒子粗采样规则对所述网格空间c中所有所述体素值为0的所述单元体素网格进行采样得到对应的n个采样体素网格;并基于n个所述采样体素网格设置对应的虚拟构象v;并将所述网格空间c作为对应的模拟空间c1;并将所述模拟空间c1和所述虚拟构象v向所述虚拟构象优化器发送;其中,所述虚拟构象v由多个虚拟粒子pvi组成,1≤索引i≤n;每个所述虚拟粒子pvi对应一组粒子特征,包括:粒子类型和粒子坐标;各个所述虚拟粒子pvi的粒子类型都被初始化为一个预设的无效类型、粒子坐标被初始化为对应的所述单元体素网格的所述三维体素坐标;
18、所述虚拟构象初始化模块还用于在收到所述网格空间c、所述预测原子总数m和所述结合物原子集p时,基于所述超参数系数k和所述预测原子总数m设置对应的虚拟粒子总数n=m×k;并将所述网格空间c中所述三维体素坐标与所述结合物原子集p的各个所述结合物原子pmo的原子坐标匹配的所述单元体素网格的所述体素值设为1;并以所述虚拟粒子总数n为采样总数,按所述虚拟粒子粗采样规则对所述网格空间c中所有所述体素值为0的所述单元体素网格进行采样得到对应的n个所述采样体素网格;并基于n个所述采样体素网格设置对应的虚拟构象v;将所述网格空间c中被所有所述结合物原子pmo占据的所述单元体素网格删除得到对应的所述模拟空间c1;并将所述模拟空间c1和所述虚拟构象v向所述虚拟构象优化器发送;其中,所述虚拟构象v由n个所述虚拟粒子pvi组成;各个所述虚拟粒子pvi的粒子类型都被初始化为一个预设的无效类型、粒子坐标被初始化为对应的所述单元体素网格的所述三维体素坐标;
19、所述虚拟构象优化器由预设的迭代次数r1个完成预训练的uni-mol模型顺序连接而成;所述虚拟构象优化器用于在所述模拟空间c1中按分子运动模拟方式对所述虚拟构象v中的所有所述虚拟粒子pvi的粒子类型和粒子坐标进行优化并将得到的优化构象作为对应的虚拟构象v’向所述预测构象提取器发送;
20、所述预测构象提取器包括第一cnn模型、第一mlp模型、第二cnn模型、第二mlp模型和原子集筛选模块;所述第一、第二cnn模型的输入端均与所述预测构象提取器的输入端连接、输出端与各自对应的所述第一、第二mlp模型的输入端连接;所述原子集筛选模块的第一、第二输入端分别与所述第一、第二mlp模型的输出端连接、第三输入端与所述预测构象提取器的输入端连接,输出端与所述预测构象提取器的输出端连接;
21、所述第一cnn模型用于对所述虚拟构象v’的虚拟粒子进行特征编码得到对应的第一特征张量x向所述第一mlp模型发送;所述第一mlp模型用于根据所述第一特征张量x对各个所述虚拟粒子pvi与其对应的真值原子间的距离进行非线性回归估算得到对应的第一预测距离di组成对应的第一距离向量d向所述原子集筛选模块发送;所述第一特征张量x由n个第一粒子特征向量xi组成;所述第一距离向量d由n个所述第一预测距离di组成;
22、所述第二cnn模型用于对所述虚拟构象v’的虚拟粒子对进行特征编码得到对应的第二特征张量y向所述第二mlp模型发送;所述第二mlp模型用于根据所述第二特征张量y对所有虚拟粒子对的合并概率进行非线性回归估算得到对应的第一概率张量s向所述原子集筛选模块发送;所述第二特征张量y由n×n个第一粒子对特征向量yw,h组成,1≤索引w≤n,1≤索引h≤n;所述第一概率张量s由n×n个第一预测概率sw,h组成;
23、所述原子集筛选模块用于根据所述第一距离向量d和所述第一概率张量s从所述虚拟构象v’的n个所述虚拟粒子pvi中选出m个所述预测原子ppj;并对所述网格空间c中是否存在所述体素值为1的所述单元体素网格进行识别;若不存在,则由得到的m个所述预测原子ppj组成对应的预测构象mini;若存在,则由所述结合物原子集p和m个所述预测原子ppj组成对应的所述预测构象mini;并将所述网格空间c的所有所述单元体素网格的所述体素值都重置为0得到对应的模拟空间c2;并将所述模拟空间c2和所述预测构象mini向所述预测构象优化器发送;
24、所述预测构象优化器由预设的迭代次数r2个完成预训练的uni-mol模型顺序连接而成;所述预测构象优化器用于在所述模拟空间c2中按分子运动模拟方式对所述预测构象mini中的所有原子的原子类型和原子坐标进行优化并将得到的优化构象作为对应的所述分子构象m;并将所述分子构象m分别向所述第一模型输出端和所述置信度评估器发送;
25、所述置信度评估器由第三cnn模型和第三mlp模型顺序连接而成;所述第三cnn模型用于对所述分子构象m进行特征提取处理得到对应的第三特征向量向所述第三mlp模型发送;所述第三mlp模型用于根据所述第三特征向量对当前分子构象的lddt分数进行非线性回归估算并将估算结果作为对应的所述分子置信度,并将所述分子置信度向所述第二模型输出端发送。
26、进一步的,所述根据所述第一距离向量d和所述第一概率张量s从所述虚拟构象v’的n个所述虚拟粒子pvi中选出m个所述预测原子ppj,具体包括:
27、步骤31,将所述第一距离向量d中所有大于预设距离阈值dhold的所述第一预测距离di的所述索引i作为一个对应的过滤粒子索引idfilter;
28、步骤32,并将所述第一概率张量s中,所述索引w或所述索引h与任一所述过滤粒子索引idfilter匹配的所述第一预测概率sw,h都重置为0;
29、步骤33,将所述第一概率张量s中的最大、最小概率提取出来作为对应的当前最大值nmax和当前最小值nmin;
30、步骤34,对所述当前最大值nmax是否大于所述当前最小值nmin进行识别,若是则转至步骤35,若否则转至步骤xx;
31、步骤35,根据所述当前最大值nmax和所述当前最小值nmin计算对应的当前中间值nmid=(nmax-nmin)/2;并将对应的原子集w设为空集合;并初始化对应的索引g为1;
32、步骤36,将所述第一概率张量s视为一个n×n的二维矩阵s’;并将所述二维矩阵s’中各列进行一轮遍历,并在本轮遍历过程中将当前遍历列作为对应的当前列;并为所述当前列初始化一个空序列记为对应的行索引序列l;并将所述当前列内各个概率值大于所述当前中间值nmid的所述第一预测概率sw,h的所述索引h添加到对应的所述行索引序列l中;并对得到的所述行索引序列l是否不为空进行识别,若是则根据所述虚拟构象v’和所述行索引序列l生成一个对应的估计原子peg添加到对应的所述原子集w中、并在完成原子集添加后对所述索引g加1;
33、步骤37,在所述二维矩阵s’的本轮遍历结束时,对所述索引g进行识别;若g=m+1,则转至步骤38;若g<m+1,则将所述当前最小值nmin重置为对应的所述当前中间值nmid,并返回步骤34;若g>m+1,则将所述当前最大值nmax重置为对应的所述当前中间值nmid,并返回步骤34;
34、步骤38,将最新的所述原子集w中的m个所述估计原子peg作为选出的m个所述预测原子ppj。
35、进一步优先的,所述根据所述虚拟构象v’和所述行索引序列l生成一个对应的估计原子peg添加到对应的所述原子集w中,具体包括:
36、将所述虚拟构象v’中所述索引i与所述行索引序列l中的各个所述索引h匹配的所述虚拟粒子pvi提取出来组成对应的当前粒子序列;并生成一个对应的所述估计原子peg作为当前估计原子;并从所述当前粒子序列的所有粒子类型中任选一个类型作为所述当前估计原子的原子类型;并对所述当前粒子序列的所有粒子坐标进行均值计算并将计算结果作为所述当前估计原子的原子坐标;并将完成原子类型和坐标设置的所述当前估计原子添加到对应的所述原子集w中。
37、优选的,所述第一分子库包括多个第一分子记录;每个所述第一分子记录对应一个多环共轭体系分子;所述第一分子记录包括第一分子构象和第一标签置信度;所述第一分子构象包括多个第一原子;每个所述第一原子对应一组原子特征,包括原子类型和原子坐标;所述第一分子构象的原子坐标系以当前分子的质心为原点的相对坐标系,各个所述第一原子的原子坐标为当前原子到当前分子质心的相对坐标。
38、优选的,所述基于所述第一分子库训练所述第一分子处理模型,具体包括:
39、基于所述第一分子库对所述虚拟构象优化器进行第一模型训练;
40、第一模型训练结束后,基于所述第一分子库对所述预测构象优化器进行第二模型训练;
41、第二模型训练结束后,基于所述第一分子库对所述预测构象提取器进行第三模型训练;
42、第三模型训练结束后,基于所述第一分子库对所述置信度评估器进行第四模型训练;
43、第四模型训练结束后,在保持所述虚拟构象优化器和所述预测构象优化器的模型参数不变的前提下基于所述第一分子库对所述第一分子处理模型进行整体模型微调。
44、进一步的,所述基于所述第一分子库对所述虚拟构象优化器进行第一模型训练,具体包括:
45、步骤71,以所述单元体素网格为单元网格构建一个训练网格空间cr;
46、步骤72,将所述第一分子库中的第一个所述第一分子记录提取出来作为对应的当前分子记录;
47、步骤73,将所述当前分子记录的所述第一分子构象作为对应的当前分子构象;并对所述当前分子构象的原子总数进行统计得到对应的原子总数mr;并将所述训练网格空间cr的中心网格与所述当前分子构象的质心对齐,对所述当前分子构象的各个所述第一原子的原子坐标进行重置;并将重置后的各个所述第一原子记为对应的原子aj,1≤索引j≤mr;
48、步骤74,将所述训练网格空间cr和所述原子总数mr输入所述第一分子处理模型的所述虚拟构象初始化模块进行处理得到对应的虚拟粒子总数nr、模拟空间cr1和虚拟构象vr;
49、其中,nr=mr×k;所述虚拟构象vr由nr个虚拟粒子bi组成,1≤索引i≤nr;每个所述虚拟粒子bi对应一组粒子特征,包括:粒子类型和粒子坐标;各个所述虚拟粒子bi的粒子类型都被初始化为一个预设的无效类型、粒子坐标被初始化为对应的所述单元体素网格的所述三维体素坐标;
50、步骤75,按预设的分组规则将nr个所述虚拟粒子bi分成mr组,每组对应一个所述原子aj;并从1到所述迭代次数r1之间随机取一个整数作为对应的调参迭代次数l;
51、步骤76,将所述模拟空间cr1和所述虚拟构象vr输入所述虚拟构象优化器进行r1次迭代;并在第l次迭代结束时基于预设的第一模型参数器朝着使预设的第一模型损失函数lm1达到最小值的方向对所述虚拟构象优化器进行一轮模型参数调制;
52、其中,所述第一模型参数器至少包括lbfgs优化器、bfgs优化器、dfp优化器、adam优化器和adagrad优化器;
53、所述第一模型损失函数lm1为:
54、,
55、lnll(,)为负对数似然损失函数,lclip(,)为对比损失函数,max(,0)为铰链损失函数;
56、bti,l为第i个所述虚拟粒子bi在第l次迭代后产生的原子类型;bci,l-1、bci,l为第i个所述虚拟粒子bi在第l-1和第l次迭代后产生的原子坐标;atj、ac为第i个所述虚拟粒子bi对应的所述原子aj的原子类型和原子坐标;τ和δ为两个预设常数;
57、步骤77,对所述当前分子记录是否为所述第一分子库的最后一个所述第一分子记录进行识别;若否,则将所述第一分子库的下一个所述第一分子记录提取出来作为新的所述当前分子记录并返回步骤73;若是,则停止训练并确认第一模型训练结束。
58、进一步的,所述基于所述第一分子库对所述预测构象优化器进行第二模型训练,具体包括:
59、步骤81,以所述单元体素网格为单元网格构建一个训练网格空间cr;
60、步骤82,将所述第一分子库中的第一个所述第一分子记录提取出来作为对应的当前分子记录;
61、步骤83,将所述当前分子记录的所述第一分子构象作为对应的分子构象m0;并对所述分子构象m0的原子总数进行统计得到对应的原子总数mr;并将所述训练网格空间cr的中心网格与所述分子构象m0的质心对齐,对所述分子构象m0的各个所述第一原子的原子坐标进行重置;
62、其中,所述分子构象m0包括mr个所述第一原子、各个所述第一原子记为对应的原子aj,1≤索引j≤mr;每个所述原子aj对应的原子类型和原子坐标分别记为atj、acj;
63、步骤84,对所述分子构象m0进行构象复制得到对应的复制构象m1;并基于随机采样规则,将所述复制构象m1中部分随机采样的所述第一原子的原子类型重置为预设的无效类型、部分随机采样的所述第一原子的原子坐标进行噪声添加;
64、其中,所述复制构象m1包括mr个原子bj;每个所述原子bj对应的原子类型和原子坐标分别记为btj、bcj;
65、步骤85,从1到所述迭代次数r2之间随机取一个整数作为对应的调参迭代次数l;
66、步骤86,将所述训练网格空间cr和所述复制构象m1输入所述预测构象优化器进行r2次迭代;并在第l次迭代结束时基于预设的第二模型参数器朝着使预设的第二模型损失函数lm2达到最小值的方向对所述预测构象优化器进行一轮模型参数调制;
67、其中,所述第二模型参数器至少包括lbfgs优化器、bfgs优化器、dfp优化器、adam优化器和adagrad优化器;
68、所述第二模型损失函数lm2为:
69、,
70、lce(,)为交叉熵损失函数,lclip(,)为对比损失函数,max(,0)为铰链损失函数;btj,l为第j个所述原子bj在第l次迭代后产生的原子类型;bcj,l-1、bcj,l为第j个所述原子bj在第l-1和第l次迭代后产生的原子坐标;atj、acj为与第j个所述原子bj对应的所述原子aj的原子类型和原子坐标;τ和δ为两个预设常数;
71、步骤87,对所述当前分子记录是否为所述第一分子库的最后一个所述第一分子记录进行识别;若否,则将所述第一分子库的下一个所述第一分子记录提取出来作为新的所述当前分子记录并返回步骤83;若是,则停止训练并确认第二模型训练结束。
72、进一步的,所述基于所述第一分子库对所述预测构象提取器进行第三模型训练,具体包括:
73、步骤91,以所述单元体素网格为单元网格构建一个训练网格空间cr;
74、步骤92,将所述第一分子库中的第一个所述第一分子记录提取出来作为对应的当前分子记录;
75、步骤93,将所述当前分子记录的所述第一分子构象作为对应的当前分子构象;并对所述当前分子构象的原子总数进行统计得到对应的原子总数mr;并将所述训练网格空间cr的中心网格与所述当前分子构象的质心对齐,对所述当前分子构象的各个所述第一原子的原子坐标进行重置;并将重置后的各个所述第一原子记为对应的原子aj,1≤索引j≤mr;
76、步骤94,将所述训练网格空间cr和所述原子总数mr输入所述第一分子处理模型的所述虚拟构象初始化模块进行处理得到对应的虚拟粒子总数nr、模拟空间cr1和虚拟构象vr;
77、其中,nr=mr×k;所述虚拟构象vr由nr个虚拟粒子bi组成,1≤索引i≤nr;每个所述虚拟粒子bi对应一组粒子特征,包括:粒子类型bti和粒子坐标bci;各个所述虚拟粒子bi的粒子类型bti都被初始化为一个预设的无效类型、粒子坐标bci被初始化为对应的所述单元体素网格的所述三维体素坐标;
78、步骤95,按预设的分组规则将nr个所述虚拟粒子bi分成mr组,每组对应一个所述原子aj;
79、其中,所述原子aj的原子类型和原子坐标分别表示为atj、acj;
80、步骤96,将所述模拟空间cr1和所述虚拟构象vr输入所述虚拟构象优化器进行r1次迭代得到对应的虚拟构象vr1;
81、步骤97,将所述虚拟构象vr1输入所述预测构象提取器进行处理得到对应的距离向量dr、概率张量sr和预测构象mr;
82、其中,所述距离向量d1由nr个预测距离di;所述概率张量sr由nr×nr个预测概率si,k组成,1≤索引k≤nr;所述预测构象mr由mr个预测原子apj组成;所述预测原子apj的原子类型和原子坐标分别表示为aptj、apcj;
83、步骤98,将所述距离向量dr、所述概率张量sr和所述预测构象mr带入预设的第三模型损失函数lm3,并基于预设的第三模型参数器朝着使所述第三模型损失函数lm3达到最小值的方向对所述预测构象提取器的所述第一cnn模型、所述第一mlp模型、所述第二cnn模型和所述第二mlp模型进行一轮模型参数调制;
84、其中,所述第三模型参数器至少包括sgd优化器和adam优化器;
85、所述第三模型损失函数lm3为:
86、
87、lcnn1+mlp1为所述第一cnn模型和所述第一mlp模型的联合训练损失函数,lcnn2+mlp2为所述第二cnn模型和所述第二mlp模型的联合训练损失函数;
88、lnll(,)为负对数似然损失函数,l1(,)为l1损失函数,lfl(,)为焦点损失函数;
89、pcls1(erri)为预设的误差等级分类函数,用于对当前输入的误差erri对应的误差等级分类概率进行识别得到对应的误差分类概率向量;所述误差分类概率向量由多个误差分类概率组成,每个误差分类概率与一个预设的误差等级对应;clstag_1i为与所述误差erri对应的误差标签编码向量;所述误差标签编码向量由多个误差独热编码组成,每个所述误差独热编码与一个所述误差等级对应;所述误差标签编码向量的所有所述误差独热编码中,只有与当前第i个所述预测距离di匹配的所述误差等级对应的编码为1、其余均为0;
90、所述误差erri的计算公式中,acj为当前第i个所述虚拟粒子bi对应的所述原子aj的原子坐标,apcj为当前第i个所述虚拟粒子bi对应的所述预测原子apj的原子坐标;
91、pcls2(si,k)为预设的合并等级分类函数,用于对当前输入的所述预测概率si,k对应的合并等级分类概率进行识别得到对应的合并分类概率向量;所述合并分类概率向量由多个合并分类概率组成,每个合并分类概率与一个预设的合并等级对应;clstag_2i,k为与所述预测概率si,k对应的合并标签编码向量;所述合并标签编码向量由多个合并独热编码组成,每个所述合并独热编码与一个所述合并等级对应;所述合并标签编码向量的所有所述合并独热编码中,只有与当前第i、k个虚拟粒子组成的原子对(i,k)匹配的所述合并等级对应的编码为1、其余均为0;
92、步骤99,对所述当前分子记录是否为所述第一分子库的最后一个所述第一分子记录进行识别;若否,则将所述第一分子库的下一个所述第一分子记录提取出来作为新的所述当前分子记录并返回步骤93;若是,则停止训练并确认第三模型训练结束。
93、进一步的,所述基于所述第一分子库对所述置信度评估器进行第四模型训练,具体包括:
94、步骤101,以所述单元体素网格为单元网格构建一个训练网格空间cr;
95、步骤102,将所述第一分子库中的第一个所述第一分子记录提取出来作为对应的当前分子记录;
96、步骤103,将所述当前分子记录的所述第一分子构象和所述第一标签置信度作为对应的当前分子构象和标签置信度etag;并将所述训练网格空间cr的中心网格与所述当前分子构象的质心对齐,对所述当前分子构象的各个所述第一原子的原子坐标进行重置;
97、步骤104,将所述当前分子构象输入所述置信度评估器进行处理得到对应的预测置信度ep;
98、步骤105,将所述预测置信度ep和所述标签置信度etag带入预设的第四模型损失函数lm4,并基于预设的第四模型参数器朝着使所述第四模型损失函数lm4达到最小值的方向对所述置信度评估器进行一轮模型参数调制;
99、其中,所述第四模型参数器至少包括sgd优化器和adam优化器;
100、所述第四模型损失函数lm4为:
101、,
102、l1(,)为l1损失函数;
103、步骤106,对所述当前分子记录是否为所述第一分子库的最后一个所述第一分子记录进行识别;若否,则将所述第一分子库的下一个所述第一分子记录提取出来作为新的所述当前分子记录并返回步骤103;若是,则停止训练并确认第四模型训练结束。
104、进一步的,所述在保持所述虚拟构象优化器和所述预测构象优化器的模型参数不变的前提下基于所述第一分子库对所述第一分子处理模型进行整体模型微调,具体包括:
105、步骤111,以所述单元体素网格为单元网格构建一个训练网格空间cr;
106、步骤112,将所述第一分子库中的第一个所述第一分子记录提取出来作为对应的当前分子记录;
107、步骤113,将所述当前分子记录的所述第一分子构象和所述第一标签置信度作为对应的标签构象mtag和标签置信度etag;并对所述标签构象mtag的原子总数进行统计得到对应的原子总数mr;并将所述训练网格空间cr的中心网格与所述标签构象mtag的质心对齐,对所述标签构象mtag的各原子坐标进行重置;
108、其中,所述标签构象mtag包括mr个标签原子ai,1≤索引i≤mr;每个所述标签原子ai对应的原子类型和原子坐标分别记为ati、aci;
109、步骤114,将所述训练网格空间cr和所述原子总数mr输入所述第一分子处理模型进行处理得到对应的预测构象mp和预测置信度ep;
110、其中,所述预测构象mp包括mr个预测原子apj,1≤索引j≤mr;每个所述预测原子apj对应的原子类型和原子坐标分别记为aptj、apcj;
111、步骤115,将所述预测构象mp、所述标签构象mtag、所述预测置信度ep和所述标签置信度etag带入预设的第五模型损失函数lm5,并基于预设的第五模型参数器朝着使所述第五模型损失函数lm5达到最小值的方向对所述第一分子处理模型的所述预测构象提取器和所述置信度评估器进行一轮联合参数微调;
112、其中,所述第五模型参数器至少包括sgd优化器、lbfgs优化器、bfgs优化器、dfp优化器、adam优化器和adagrad优化器;
113、所述第五模型损失函数lm5为:
114、
115、lnll(,)为负对数似然损失函数,l1(,)为l1损失函数;
116、pclse(ej)为预设的评估分数等级分类函数,用于对当前输入的第j个所述预测原子apj对应的lddt评估分数ej对应的评估分数等级分类概率进行识别得到对应的评估分类概率向量;所述评估分类概率向量由多个评估分类概率组成,每个评估分类概率与一个预设的评估分数等级对应;clstag_ej为与所述评估分数ej对应的评估标签编码向量;所述评估标签编码向量由多个评估独热编码组成,每个所述评估独热编码与一个所述评估分数等级对应;所述评估标签编码向量的所有所述评估独热编码中,只有与当前第j个预测原子匹配的所述评估分数等级对应的编码为1、其余均为0;
117、步骤116,对所述当前分子记录是否为所述第一分子库的最后一个所述第一分子记录进行识别;若否,则将所述第一分子库的下一个所述第一分子记录提取出来作为新的所述当前分子记录并返回步骤113;若是,则停止训练并确认整体模型微调结束。
118、本发明实施例第二方面提供了一种用于实现上述第一方面所述的多环共轭体系分子生成模型的处理方法的装置,所述装置包括:模型构建模块、模型训练模块、用户数据接收模块、模型应用模块和用户反馈模块;
119、所述模型构建模块用于构建一个用于生成和优化多环共轭体系分子的处理模型记为对应的第一分子处理模型;
120、所述模型训练模块用于将预设的多环共轭体系分子库记为对应的第一分子库;并基于所述第一分子库训练所述第一分子处理模型;
121、所述用户数据接收模块用于在模型训练结束后,接收用户输入的多环共轭体系分子处理任务数据记为对应的第一任务数据;所述第一任务数据包括第一任务类型、第一生成次数g、第一网格空间、第一结合物原子集和第一预测原子总数;所述第一任务类型包括从头生成任务和分子优化任务;所述第一任务类型为从头生成任务时对应的所述第一结合物原子集为空,所述第一任务类型为分子优化任务时对应的所述第一结合物原子集包括多个第一结合物原子;
122、所述模型应用模块用于对所述第一任务数据的所述第一任务类型进行识别;若所述第一任务类型为从头生成任务,则连续g次将所述第一任务数据的所述第一网格空间和所述第一预测原子总数输入所述第一分子处理模型进行分子生成处理得到对应的第一生成分子构象和第一分子置信度,并将其中所述第一分子置信度最高的所述第一生成分子构象作为对应的当次最优分子构象;若所述第一任务类型为分子优化任务,则连续g次将所述第一任务数据的所述第一网格空间、所述第一结合物原子集和所述第一预测原子总数输入所述第一分子处理模型进行分子优化处理得到对应的第一优化分子构象和第二分子置信度,并将其中所述第二分子置信度最高的所述第一优化分子构象作为对应的所述当次最优分子构象;
123、所述用户反馈模块用于由所述当次最优分子构象及其对应的分子置信度组成对应的当次任务报告向用户反馈。
124、本发明实施例第三方面提供了一种电子设备,包括:存储器、处理器和收发器;
125、所述处理器用于与所述存储器耦合,读取并执行所述存储器中的指令,以实现上述第一方面所述的方法步骤;
126、所述收发器与所述处理器耦合,由所述处理器控制所述收发器进行消息收发。
127、本发明实施例第四方面提供了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机指令,当所述计算机指令被计算机执行时,使得所述计算机执行上述第一方面所述的方法的指令。
128、本发明实施例提供了一种多环共轭体系分子生成模型的处理方法、装置、电子设备及计算机可读存储介质。由上述内容可知,本发明实施例预先构建一个用于生成和优化多环共轭体系分子的端到端智能模型记为第一分子处理模型;并基于预设的多环共轭体系分子库对第一分子处理模型进行训练;并在训练结束后,基于第一分子处理模型根据用户输入的多环共轭体系分子生成/优化任务数据进行多次分子生成/优化处理并将其中置信度最高的一个生成/优化分子构象作为当次的最优分子构象向用户反馈。通过本发明实施例给出的端到端模型,不但缩短了设计周期、提高了设计效率,还增强了对化学空间的探索能力、提高了分子构象的结构多样性。
1.一种多环共轭体系分子生成模型的处理方法,其特征在于,所述方法包括:
2.根据权利要求1所述的多环共轭体系分子生成模型的处理方法,其特征在于,
3.根据权利要求1所述的多环共轭体系分子生成模型的处理方法,其特征在于,所述根据所述第一距离向量d和所述第一概率张量s从所述虚拟构象v’的n个所述虚拟粒子pvi中选出m个所述预测原子ppj,具体包括:
4.根据权利要求3所述的多环共轭体系分子生成模型的处理方法,其特征在于,所述根据所述虚拟构象v’和所述行索引序列l生成一个对应的估计原子peg添加到对应的所述原子集w中,具体包括:
5.根据权利要求2所述的多环共轭体系分子生成模型的处理方法,其特征在于,
6.根据权利要求5所述的多环共轭体系分子生成模型的处理方法,其特征在于,所述基于所述第一分子库训练所述第一分子处理模型,具体包括:
7.根据权利要求6所述的多环共轭体系分子生成模型的处理方法,其特征在于,所述基于所述第一分子库对所述虚拟构象优化器进行第一模型训练,具体包括:
8.根据权利要求6所述的多环共轭体系分子生成模型的处理方法,其特征在于,所述基于所述第一分子库对所述预测构象优化器进行第二模型训练,具体包括:
9.根据权利要求6所述的多环共轭体系分子生成模型的处理方法,其特征在于,所述基于所述第一分子库对所述预测构象提取器进行第三模型训练,具体包括:
10.根据权利要求6所述的多环共轭体系分子生成模型的处理方法,其特征在于,所述基于所述第一分子库对所述置信度评估器进行第四模型训练,具体包括:
11.根据权利要求6所述的多环共轭体系分子生成模型的处理方法,其特征在于,所述在保持所述虚拟构象优化器和所述预测构象优化器的模型参数不变的前提下基于所述第一分子库对所述第一分子处理模型进行整体模型微调,具体包括:
12.一种用于执行权利要求1-11任一项所述的多环共轭体系分子生成模型的处理方法的装置,其特征在于,所述装置包括:模型构建模块、模型训练模块、用户数据接收模块、模型应用模块和用户反馈模块;
13.一种电子设备,其特征在于,包括:存储器、处理器和收发器;
14.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有计算机指令,当所述计算机指令被计算机执行时,使得所述计算机执行权利要求1-11任一项所述的方法。