1.本发明涉及文献数据处理技术领域,尤其涉及一种生物医学文献类型判定方法及装置。
背景技术:2.随着循证医学在辅助医疗决策和医学研究过程中的广泛应用,发表的生物医学研究文献数量越来越多,极大地增加了筛选与研究主题密切相关文献的难度。但是,生物医学文献的证据水平受到许多因素的影响,如文献的类型和研究的样本量等,因此,为了确保所选择的文献具有良好的证据水平,需要准确的判定文献类别,以快速获取具有最佳证据的文献,从而及时制定出最佳治疗方案。
3.目前的文献类型判别方法主要采用基于预训练模型结合特定任务进行微调的自然语言处理(nlp)技术,通过针对下游任务为模型重新设计目标函数,使得模型在拥有广泛知识面的基础下对特定领域方面的知识进一步地学习,从而进一步加深模型在这方面知识的深度。
4.然而,虽然上述方式可以使模型较好的理解上下文信息,但是这样的学习可能并不会大幅度地改变模型参数,亦或不需要改变模型的全量参数,而是仅仅训练头部,以致影响文献类型的判定效率及准确率。
技术实现要素:5.本发明提供一种生物医学文献类型判定方法及装置,用以解决现有技术中仅训练模型头部以致影响文献类型的判定效率及准确率的缺陷,以实现精确判定文献类型,辅助临床医生快速准确的获取最佳证据,及时制定出最佳治疗方案。
6.本发明提供一种生物医学文献类型判定方法,包括:获取待判定的生物医学文献;利用预先构建的判定规则对所述待判定的生物医学文献进行规则判定,得到文献类型判定结果;基于所述文献类型判定结果为无,将相应待判定的生物医学文献的题目及摘要输入至文献类型判定模型中,得到所述文献类型判定模型输出的文献判定类型;其中,所述文献类型判定模型是基于待学习文献及其对应的训练标注数据训练得到的;所述文献类型判定模型用于基于对所述待判定文献的题目及摘要提取的标题文本特征和摘要文本特征进行拼接并预测,得到文献判定类型。
7.根据本发明提供的一种生物医学文献类型判定方法,所述文献类型判定模型,包括:特征提取层,对所述文献类型判定结果为无的待判定生物医学文献的题目及摘要进行特征提取,得到对应所述题目的标题文本特征和对应所述摘要的摘要文本特征;特征拼接层,基于所述标题文本特征和所述摘要文本特征,得到拼接特征;文献类型判定层,基于所述拼接特征进行预测,得到文献判定类型。
8.根据本发明提供的一种生物医学文献类型判定方法,所述基于所述标题文本特征和所述摘要文本特征,得到拼接特征,包括:基于所述标题文本特征和所述摘要文本特征,
得到所述标题文本特征和所述摘要文本特征对应的差值特征;其中,所述差值特征为正向量特征;将所述差值特征、所述标题文本特征和所述摘要文本特征进行拼接,得到拼接特征。
9.根据本发明提供的一种生物医学文献类型判定方法,训练所述文献类型判定模型,包括:获取待学习文献及其对应的训练标注数据,其中,所述训练标注数据包括对应所述待学习文献题目的标题类型标签和对应所述待学习文献摘要的摘要类型标签;将所述待学习文献的题目和摘要作为训练使用的输入数据,将对应标题类型标签和摘要类型标签作为标签,对待训练模型进行训练,得到用于判定待判定的生物医学文献类型的文献类型判定模型。
10.根据本发明提供的一种生物医学文献类型判定方法,所述对待训练模型进行训练,包括:文本掩盖层,对所述待学习文献对应的标题类型标签和摘要类型标签的类型文本目标进行文本掩盖;特征提取层,对进行文本掩盖后的待学习文献的题目和摘要进行特征提取,得到对应标题训练特征和摘要训练特征;特征拼接层,基于所述标题训练特征和所述摘要训练特征,得到拼接训练特征;文献类型判定层,基于所述拼接训练特征进行预测,得到文献预测类型;损失函数层,基于所述文献预测类型、所述标题类型标签和所述摘要类型标签,构建损失函数,并基于所述损失函数收敛,结束训练。
11.根据本发明提供的一种生物医学文献类型判定方法,所述训练标注数据还包括对比学习标签;所述对待训练模型进行训练,还包括:相似度获取层,基于所述标题训练特征和所述摘要训练特征,结合所述对比学习标签,得到余弦相似度。
12.本发明还提供一种生物医学文献类型判定装置,包括:文献获取模块,获取待判定的生物医学文献;类型判定模块,利用预先构建的判定规则对所述待判定的生物医学文献进行规则判定,得到文献类型判定结果;模型判定模块,基于所述文献类型判定结果为无,将相应待判定的生物医学文献的题目及摘要输入至文献类型判定模型中,得到所述文献类型判定模型输出的文献判定类型;其中,所述文献类型判定模型是基于待学习文献及其对应的训练标注数据训练得到的;所述文献类型判定模型用于基于对所述待判定文献的题目及摘要提取的标题文本特征和摘要文本特征进行拼接并预测,得到文献判定类型。
13.本发明还提供一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现如上述任一种所述生物医学文献类型判定方法的步骤。
14.本发明还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现如上述任一种所述生物医学文献类型判定方法的步骤。
15.本发明还提供一种计算机程序产品,包括计算机程序,所述计算机程序被处理器执行时实现如上述任一种所述生物医学文献类型判定方法的步骤。
16.本发明提供的生物医学文献类型判定方法及装置,利用预先构建的判定规则对待判定的生物医学文献进行规则判定,以排除无关的文献类型,缩小后续文献类型判定模型判定文献的数据量,再将无法经规则判定文献输入至文献类型判断模型中进行类型判定,以大幅度缩短文献筛选的时间,进而快速准确的获取文献类型,提高临床医生效率,从而快速、准确的做出医疗决策,使医疗决策建立在现有的最佳科学研究证据基础上。
附图说明
17.为了更清楚地说明本发明或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
18.图1是本发明提供的生物医学文献类型判定方法的流程示意图之一;
19.图2是本发明提供的生物医学文献类型判定方法的流程示意图之二;
20.图3是本发明提供的训练文献类型判定模型的流程示意图;
21.图4是本发明提供的生物医学文献类型判定装置的结构示意图;
22.图5是本发明提供的训练模块的结构示意图;
23.图6是本发明提供的电子设备的结构示意图。
具体实施方式
24.为使本发明的目的、技术方案和优点更加清楚,下面将结合本发明中的附图,对本发明中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
25.图1示出了本发明一种生物医学文献类型判定方法的流程示意图,该方法包括:
26.s11,获取待判定的生物医学文献;
27.s12,利用预先构建的判定规则对待判定的生物医学文献进行规则判定,得到文献类型判定结果;
28.s13,基于文献类型判定结果为无,将相应待判定的生物医学文献的题目及摘要输入至文献类型判定模型中,得到文献类型判定模型输出的文献判定类型;其中,文献类型判定模型是基于待学习文献及其对应的训练标注数据训练得到的;文献类型判定模型用于基于对待判定文献的题目及摘要提取的标题文本特征和摘要文本特征进行拼接并预测,得到文献判定类型。
29.需要说明的是,本说明书中的s1n不代表生物医学文献类型判定方法的先后顺序,下面具体结合图2-图3描述本发明的生物医学文献类型判定方法。
30.步骤s11,获取待判定的生物医学文献。
31.在本实施例中,获取待判定的生物医学文献,包括:获取待判定的生物医学文献;基于获取的生物医学文献,得到对应文献的题目和摘要,从而便于后续利用预先构建的判定规则对相应文献的题目和摘要进行类型判定,具体可参照下文所述,此处不作进一步阐述。
32.步骤s12,利用预先构建的判定规则对待判定的生物医学文献进行规则判定,得到文献类型判定结果。
33.需要说明的是,在进行规则判定之前,包括:构建判定规则。更进一步地说,构建判定规则,包括:基于循证医学研究员和预先建立的医学文献知识库,确立各个文献类型的规则特征词;根据对文献数据的筛选以及先验经验,得到具有相同或相似规则特征的文献类别指标;基于规则特征词和文献类别指标,构建判定规则。
34.在本实施例中,文献类型包括临床实践指南与专家共识、系统评价/meta分析、rct、临床试验、观察性研究(横断面研究,病例对照研究,队列研究,病例系列/病例报告)、经济学研究以及其它(不属于以上任何一个类别)。应当注意,在本实施例中,对于待判定的生物医学文献,需要先经过规则判定,若规则可以判定,则直接输出文献类型判定结果;否则,将规则不能判定的生物医学文献输入到文献类型判定模型进行判定,参考图2。
35.步骤s13,基于文献类型判定结果为无,将相应待判定的生物医学文献的题目及摘要输入至文献类型判定模型中,得到文献类型判定模型输出的文献判定类型;其中,文献类型判定模型是基于待学习文献及其对应的训练标注数据训练得到的;文献类型判定模型用于基于对待判定文献的题目及摘要提取的标题文本特征和摘要文本特征进行拼接并预测,得到文献判定类型。
36.在本实施例中,文献类型判定模型,包括:特征提取层,对文献类型判定结果为无的待判定生物医学文献的题目及摘要进行特征提取,得到对应题目的标题文本特征和对应摘要的摘要文本特征;特征拼接层,基于标题文本特征和摘要文本特征,得到拼接特征;文献类型判定层,基于拼接特征进行预测,得到文献判定类型。
37.具体而言,基于标题文本特征和摘要文本特征,得到拼接特征,包括:基于标题文本特征和摘要文本特征,得到标题文本特征和摘要文本特征对应的差值特征;其中,差值特征为正向量特征;将差值特征、标题文本特征和摘要文本特征进行拼接,得到拼接特征。
38.需要说明的是,得到标题文本特征和摘要文本特征对应的差值特征,包括:将标题文本特征和摘要文本特征作差,若差值向量为正,则将其作为差值特征;若差值向量为负,则求差值向量的负向量,并将其作为差值特征。
39.在一个可选实施例中,参考图3,该方法还包括训练文献类型判定模型,具体包括:
40.s31,获取待学习文献及其对应的训练标注数据,其中,训练标注数据包括对应待学习文献题目的标题类型标签和对应待学习文献摘要的摘要类型标签;
41.s32,将待学习文献的题目和摘要作为训练使用的输入数据,将对应标题类型标签和摘要类型标签作为标签,对待训练模型进行训练,得到用于判定待判定的生物医学文献类型的文献类型判定模型。
42.具体而言,步骤s31,获取待学习文献及其对应的训练标注数据,其中,训练标注数据包括对应待学习文献题目的标题类型标签和对应待学习文献摘要的摘要类型标签。
43.在本实施例中,获取待学习文献及其对应的训练标注数据,包括:获取无法进行规则判定的文献;基于预设比例随机抽取,进行标注;基于标注结果,选择其中80%作为训练集,10%作为验证集,10%作为测试集。以下利用训练集对应的待学习文献对应的题目和摘要对模型进行训练。
44.步骤s32,将待学习文献的题目和摘要作为训练使用的输入数据,将对应标题类型标签和摘要类型标签作为标签,对待训练模型进行训练,得到用于判定待判定的生物医学文献类型的文献类型判定模型。
45.在本实施例中,对待训练模型进行训练,包括:文本掩盖层,对待学习文献对应的标题类型标签和摘要类型标签的类型文本目标进行文本掩盖;特征提取层,对进行文本掩盖后的待学习文献的题目和摘要进行特征提取,得到对应标题训练特征和摘要训练特征;特征拼接层,基于标题训练特征和摘要训练特征,得到拼接训练特征;文献类型判定层,基
于拼接训练特征进行预测,得到文献预测类型;损失函数层,基于文献预测类型、标题类型标签和摘要类型标签,构建损失函数,并基于损失函数收敛,结束训练。
46.具体而言,首先,文本掩盖层,对待学习文献对应的标题类型标签和摘要类型标签的类型文本目标进行文本掩盖。
47.需要说明的是,本实施例中,基于预先设计的pattern模板对标题类型标签和摘要类型标签进行文本掩盖,比如标题类型标签为“文献类型为临床试验”,经文本掩盖后得到标题类型标签“文献类型为[m][m][m]”,以便于后续基于待学习文献对应的题目和摘要进行预测,得到文献类型,以将“[m][m][m]”更新为“文献类型”,从而使模型输出“文献类型为[文献预测类型]”作为文献预测标签。
[0048]
其次,特征提取层,对进行文本掩盖后的待学习文献的题目和摘要进行特征提取,得到对应标题训练特征和摘要训练特征。需要说明的是,在本实施例中,利用孪生网络结构,分别对待学习文献的题目和摘要进行文本转换,得到句向量形式的标题训练特征和摘要训练特征。
[0049]
在一个可选实施例中,训练标注数据还包括对比学习标签;对待训练模型进行训练,还包括:相似度获取层,基于标题训练特征和摘要训练特征,结合对比学习标签,得到余弦相似度。需要说明的是,当同一文献的题目和摘要为同一类型的摘要时,对比学习标签为1;当同一文献的题目和摘要为不同类型的摘要时,对比学习标签为0。通过对比学习标签,作为相似度计算的权重,以便于调整同一文献的题目和摘要相似度,使同一待学习文献的题目和摘要更相似。
[0050]
随后,特征拼接层,基于标题训练特征和摘要训练特征,得到拼接训练特征。在本实施例中,得到拼接训练特征,包括:基于标题训练特征和摘要训练特征,得到标题训练特征和摘要训练特征对应的差值训练特征;其中,差值训练特征为正向量特征;将差值训练特征、标题训练特征和摘要训练特征进行拼接,得到拼接训练特征。
[0051]
应当注意,得到标题训练特征和摘要训练特征对应的差值训练特征,包括:将标题训练特征和摘要训练特征作差,若差值向量为正,则将其作为差值训练特征;若差值向量为负,则求差值向量的负向量,并将其作为差值训练特征。举例而言,将标题训练特征记作向量u,将摘要训练特征记作向量v,将标题训练特征和摘要训练特征作差,得到u-v,若u-v为正,则将其作为差值训练特征;否则,将-(u-v)作为差值训练特征。
[0052]
需要说明的是,可以利用三级网络结构获取差值训练特征,并在网络的encoder层后对差值训练特征、标题训练特征和摘要训练特征进行拼接,以得到3*d的向量,其中,d为pubmedbert隐藏层向量的维度。
[0053]
随后,文献类型判定层,基于拼接训练特征进行预测,得到文献预测类型。
[0054]
最后,损失函数层,基于文献预测类型、标题类型标签和摘要类型标签,构建损失函数,并基于损失函数收敛,结束训练。
[0055]
在本实施例中,构建损失函数,包括:基于文献预测类型和标题类型标签,构建标题损失函数;基于文献预测类型和摘要类型标签,构建摘要损失函数;基于待学习文献的摘要和题目的结合相似度,得到相似度损失函数;基于标题损失函数、摘要损失函数和相似度损失函数,得到损失函数。
[0056]
具体而言,损失函数,表示为:
[0057]
loss=
∝
(loss1+loss2)+β*simloss
[0058]
其中,loss表示损失函数,loss1表示标题损失函数,loss2表示摘要损失函数,simloss表示相似度损失函数,α和β表示权重。在实际训练过程中,α可以为0.7,β为0.3。
[0059]
标题损失函数和摘要损失函数,均可以表示为:
[0060][0061]
其中,p(xi)为题目训练数据或摘要训练数据中类别xi的目标概率分布,q(xi)为题目训练数据或摘要训练数据中类别xi的预测概率分布。
[0062]
在一个可选实施例中,选择验证集,参照上述步骤对模型准确性进行验证,并基于验证之后,利用测试集进行测试,并挑选在测试集上macro-f1值最高的模型作为最优模型进行使用。
[0063]
本实施例中采用的模型评估指标为(accuracy)和macro-f1。accuracy表示对于给定的数据集,模型正确分类的样本数与总样本数之比。f1的公式如下:
[0064][0065]
需要说明的是,精确率p表示所有被预测正样本中,正确样本所占的比例。召回率r表示所有正样本中,被预测为正样本所在的比例。macro-f1为所有类别f1的均值。因此使用macro-f1对模型进行综合评估,macro-f1越高,性能越好。
[0066]
综上所述,本发明实施例利用预先构建的判定规则对待判定的生物医学文献进行规则判定,以排除无关的文献类型,缩小后续文献类型判定模型判定文献的数据量,再将无法经规则判定文献输入至文献类型判断模型中进行类型判定,以大幅度缩短文献筛选的时间,进而快速准确的获取文献类型,提高临床医生效率,从而快速、准确的做出医疗决策,使医疗决策建立在现有的最佳科学研究证据基础上。
[0067]
下面对本发明提供的生物医学文献类型判定装置进行描述,下文描述的生物医学文献类型判定装置与上文描述的生物医学文献类型判定方法可相互对应参照。
[0068]
图4示出了本发明一种生物医学文献类型判定装置的结构示意图,该装置,包括:
[0069]
文献获取模块41,获取待判定的生物医学文献;
[0070]
类型判定模块42,利用预先构建的判定规则对待判定的生物医学文献进行规则判定,得到文献类型判定结果;
[0071]
模型判定模块43,基于文献类型判定结果为无,将相应待判定的生物医学文献的题目及摘要输入至文献类型判定模型中,得到文献类型判定模型输出的文献判定类型;其中,文献类型判定模型是基于待学习文献及其对应的训练标注数据训练得到的;文献类型判定模型用于基于对待判定文献的题目及摘要提取的标题文本特征和摘要文本特征进行拼接并预测,得到文献判定类型。
[0072]
在本实施例中,文献获取模块41,包括:文献获取单元,获取待判定的生物医学文献;文本获取单元,基于获取的生物医学文献,得到对应文献的题目和摘要,从而便于后续利用预先构建的判定规则对相应文献的题目和摘要进行类型判定,具体可参照下文所述,此处不作进一步阐述。
[0073]
类型判定模块42,包括:文献判定单元,利用预先构建的判定规则对待判定的生物
医学文献进行规则判定,得到文献类型判定结果;文献输入单元,将文献类型判定结果为无对应的文献输入至模型判定模块中。
[0074]
需要说明的是,该装置,还包括:规则构建模块,构建判定规则。更进一步地说,规则构建模块,包括:规则特征获取单元,基于循证医学研究员和预先建立的医学文献知识库,确立各个文献类型的规则特征词;文献类别获取单元,根据对文献数据的筛选以及先验经验,得到具有相同或相似规则特征的文献类别指标;规则构建单元,基于规则特征词和文献类别指标,构建判定规则。
[0075]
应当注意,在本实施例中,对于待判定的生物医学文献,需要先经过类型判定模块进行规则判定,若规则可以判定,则直接输出文献类型判定结果;否则,将规则不能判定的生物医学文献输入到模型判定模块中利用文献类型判定模型进行类型判定。
[0076]
模型判定模块43,包括:特征提取单元,对文献类型判定结果为无的待判定生物医学文献的题目及摘要进行特征提取,得到对应题目的标题文本特征和对应摘要的摘要文本特征;特征拼接单元,基于标题文本特征和摘要文本特征,得到拼接特征;文献类型判定单元,基于拼接特征进行预测,得到文献判定类型。
[0077]
具体而言,特征拼接单元,包括:差值特征获取子单元,基于标题文本特征和摘要文本特征,得到标题文本特征和摘要文本特征对应的差值特征;其中,差值特征为正向量特征;拼接特征获取子单元,将差值特征、标题文本特征和摘要文本特征进行拼接,得到拼接特征。
[0078]
在一个可选实施例中,该装置还包括训练模块,用于训练文献类型判定模型。参考图5,训练模块,包括:
[0079]
数据获取单元51,获取待学习文献及其对应的训练标注数据,其中,训练标注数据包括对应待学习文献题目的标题类型标签和对应待学习文献摘要的摘要类型标签;
[0080]
训练单元52,将待学习文献的题目和摘要作为训练使用的输入数据,将对应标题类型标签和摘要类型标签作为标签,对待训练模型进行训练,得到用于判定待判定的生物医学文献类型的文献类型判定模型。
[0081]
具体而言,数据获取单元51,包括:文献获取子单元,获取无法进行规则判定的文献;标注子单元,基于预设比例随机抽取,进行标注;划分子单元,基于标注结果,选择其中80%作为训练集,10%作为验证集,10%作为测试集。以下利用训练集对应的待学习文献对应的题目和摘要对模型进行训练。
[0082]
训练单元52,包括:文本掩盖单元,对待学习文献对应的标题类型标签和摘要类型标签的类型文本目标进行文本掩盖;特征提取单元,对进行文本掩盖后的待学习文献的题目和摘要进行特征提取,得到对应标题训练特征和摘要训练特征;特征拼接单元,基于标题训练特征和摘要训练特征,得到拼接训练特征;文献类型判定单元,基于拼接训练特征进行预测,得到文献预测类型;损失函数单元,基于文献预测类型、标题类型标签和摘要类型标签,构建损失函数,并基于损失函数收敛,结束训练。
[0083]
在一个可选实施例中,训练单元52,还包括:相似度获取单元,基于标题训练特征和摘要训练特征,结合对比学习标签,得到余弦相似度。需要说明的是,当同一文献的题目和摘要为同一类型的摘要时,对比学习标签为1;当同一文献的题目和摘要为不同类型的摘要时,对比学习标签为0。通过对比学习标签,作为相似度计算的权重,以便于调整同一文献
的题目和摘要相似度,使同一待学习文献的题目和摘要更相似。
[0084]
损失函数单元,包括:标题损失函数获取子单元,基于文献预测类型和标题类型标签,构建标题损失函数;摘要损失函数获取子单元,基于文献预测类型和摘要类型标签,构建摘要损失函数;相似度损失函数获取子单元,基于待学习文献的摘要和题目的结合相似度,得到相似度损失函数;损失函数获取子单元,基于标题损失函数、摘要损失函数和相似度损失函数,得到损失函数。
[0085]
综上所述,本发明实施例类型通过判定模块利用预先构建的判定规则对待判定的生物医学文献进行规则判定,以排除无关的文献类型,缩小后续文献类型判定模型判定文献的数据量,再通过模型判定模块将无法经规则判定文献输入至文献类型判断模型中进行类型判定,以大幅度缩短文献筛选的时间,进而快速准确的获取文献类型,提高临床医生效率,从而快速、准确的做出医疗决策,使医疗决策建立在现有的最佳科学研究证据基础上。
[0086]
图6示例了一种电子设备的实体结构示意图,如图6所示,该电子设备可以包括:处理器(processor)61、通信接口(communications interface)62、存储器(memory)63和通信总线64,其中,处理器61,通信接口62,存储器63通过通信总线64完成相互间的通信。处理器61可以调用存储器63中的逻辑指令,以执行生物医学文献类型判定方法,该方法包括:获取待判定的生物医学文献;利用预先构建的判定规则对待判定的生物医学文献进行规则判定,得到文献类型判定结果;基于文献类型判定结果为无,将相应待判定的生物医学文献的题目及摘要输入至文献类型判定模型中,得到文献类型判定模型输出的文献判定类型;其中,文献类型判定模型是基于待学习文献及其对应的训练标注数据训练得到的;文献类型判定模型用于基于对待判定文献的题目及摘要提取的标题文本特征和摘要文本特征进行拼接并预测,得到文献判定类型。
[0087]
此外,上述的存储器63中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:u盘、移动硬盘、只读存储器(rom,read-only memory)、随机存取存储器(ram,random access memory)、磁碟或者光盘等各种可以存储程序代码的介质。
[0088]
另一方面,本发明还提供一种计算机程序产品,所述计算机程序产品包括计算机程序,计算机程序可存储在非暂态计算机可读存储介质上,所述计算机程序被处理器执行时,计算机能够执行上述各方法所提供的生物医学文献类型判定方法,该方法包括:获取待判定的生物医学文献;利用预先构建的判定规则对待判定的生物医学文献进行规则判定,得到文献类型判定结果;基于文献类型判定结果为无,将相应待判定的生物医学文献的题目及摘要输入至文献类型判定模型中,得到文献类型判定模型输出的文献判定类型;其中,文献类型判定模型是基于待学习文献及其对应的训练标注数据训练得到的;文献类型判定模型用于基于对待判定文献的题目及摘要提取的标题文本特征和摘要文本特征进行拼接并预测,得到文献判定类型。
[0089]
又一方面,本发明还提供一种非暂态计算机可读存储介质,其上存储有计算机程
序,该计算机程序被处理器执行时实现以执行上述各方法提供的生物医学文献类型判定方法,该方法包括:获取待判定的生物医学文献;利用预先构建的判定规则对待判定的生物医学文献进行规则判定,得到文献类型判定结果;基于文献类型判定结果为无,将相应待判定的生物医学文献的题目及摘要输入至文献类型判定模型中,得到文献类型判定模型输出的文献判定类型;其中,文献类型判定模型是基于待学习文献及其对应的训练标注数据训练得到的;文献类型判定模型用于基于对待判定文献的题目及摘要提取的标题文本特征和摘要文本特征进行拼接并预测,得到文献判定类型。
[0090]
以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下,即可以理解并实施。
[0091]
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件。基于这样的理解,上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如rom/ram、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。
[0092]
最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。
技术特征:1.一种生物医学文献类型判定方法,其特征在于,包括:获取待判定的生物医学文献;利用预先构建的判定规则对所述待判定的生物医学文献进行规则判定,得到文献类型判定结果;基于所述文献类型判定结果为无,将相应待判定的生物医学文献的题目及摘要输入至文献类型判定模型中,得到所述文献类型判定模型输出的文献判定类型;其中,所述文献类型判定模型是基于待学习文献及其对应的训练标注数据训练得到的;所述文献类型判定模型用于基于对所述待判定文献的题目及摘要提取的标题文本特征和摘要文本特征进行拼接并预测,得到文献判定类型。2.根据权利要求1所述的生物医学文献类型判定方法,其特征在于,所述文献类型判定模型,包括:特征提取层,对所述文献类型判定结果为无的待判定生物医学文献的题目及摘要进行特征提取,得到对应所述题目的标题文本特征和对应所述摘要的摘要文本特征;特征拼接层,基于所述标题文本特征和所述摘要文本特征,得到拼接特征;文献类型判定层,基于所述拼接特征进行预测,得到文献判定类型。3.根据权利要求2所述的生物医学文献类型判定方法,其特征在于,所述基于所述标题文本特征和所述摘要文本特征,得到拼接特征,包括:基于所述标题文本特征和所述摘要文本特征,得到所述标题文本特征和所述摘要文本特征对应的差值特征;其中,所述差值特征为正向量特征;将所述差值特征、所述标题文本特征和所述摘要文本特征进行拼接,得到拼接特征。4.根据权利要求1所述的生物医学文献类型判定方法,其特征在于,训练所述文献类型判定模型,包括:获取待学习文献及其对应的训练标注数据,其中,所述训练标注数据包括对应所述待学习文献题目的标题类型标签和对应所述待学习文献摘要的摘要类型标签;将所述待学习文献的题目和摘要作为训练使用的输入数据,将对应标题类型标签和摘要类型标签作为标签,对待训练模型进行训练,得到用于判定待判定的生物医学文献类型的文献类型判定模型。5.根据权利要求4所述的生物医学文献类型判定方法,其特征在于,所述对待训练模型进行训练,包括:文本掩盖层,对所述待学习文献对应的标题类型标签和摘要类型标签的类型文本目标进行文本掩盖;特征提取层,对进行文本掩盖后的待学习文献的题目和摘要进行特征提取,得到对应标题训练特征和摘要训练特征;特征拼接层,基于所述标题训练特征和所述摘要训练特征,得到拼接训练特征;文献类型判定层,基于所述拼接训练特征进行预测,得到文献预测类型;损失函数层,基于所述文献预测类型、所述标题类型标签和所述摘要类型标签,构建损失函数,并基于所述损失函数收敛,结束训练。6.根据权利要求5所述的生物医学文献类型判定方法,其特征在于,所述训练标注数据还包括对比学习标签;所述对待训练模型进行训练,还包括:
相似度获取层,基于所述标题训练特征和所述摘要训练特征,结合所述对比学习标签,得到余弦相似度。7.一种生物医学文献类型判定装置,其特征在于,包括:文献获取模块,获取待判定的生物医学文献;类型判定模块,利用预先构建的判定规则对所述待判定的生物医学文献进行规则判定,得到文献类型判定结果;模型判定模块,基于所述文献类型判定结果为无,将相应待判定的生物医学文献的题目及摘要输入至文献类型判定模型中,得到所述文献类型判定模型输出的文献判定类型;其中,所述文献类型判定模型是基于待学习文献及其对应的训练标注数据训练得到的;所述文献类型判定模型用于基于对所述待判定文献的题目及摘要提取的标题文本特征和摘要文本特征进行拼接并预测,得到文献判定类型。8.一种电子设备,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现如权利要求1至6任一项所述生物医学文献类型判定方法的步骤。9.一种非暂态计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至6任一项所述生物医学文献类型判定方法的步骤。10.一种计算机程序产品,包括计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至6任一项所述生物医学文献类型判定方法的步骤。
技术总结本发明提供一种生物医学文献类型判定方法及装置,方法包括:获取待判定的生物医学文献;利用预先构建的判定规则对生物医学文献进行规则判定,得到文献类型判定结果;基于文献类型判定结果为无,将相应待判定的生物医学文献的题目及摘要输入至文献类型判定模型中,得到文献类型判定模型输出的文献判定类型;其中,文献类型判定模型是基于待学习文献及其对应的训练标注数据训练得到的;文献类型判定模型用于基于对待判定文献的题目及摘要提取的标题文本特征和摘要文本特征进行拼接并预测,得到文献判定类型。本发明利用判定规则对生物医学文献进行判定,以排除无关的文献类型,大幅度缩短文献筛选的时间,进而便于模型快速准确的获取文献类型。确的获取文献类型。确的获取文献类型。
技术研发人员:王则远 刘鹏 任丽军 张震
受保护的技术使用者:灵犀量子(北京)医疗科技有限公司
技术研发日:2022.03.15
技术公布日:2022/7/5