文献原创性评估方法、装置、设备及存储介质

allin2025-05-16  40


本公开涉及计算机,特别涉及一种文献原创性评估方法、装置、设备及存储介质。


背景技术:

1、对于科技文献而言,原创性是一个重要指标,需要准确地、高效地确定文献的原创性,以便于对文献的价值进行评估。

2、相关技术中,文献原创性评估方法包括:将文献输入至小规模的大语言模型中,通过该小规模的大语言模型对文献进行文本分析。

3、然而,由于文献中往往会存在长句难句,小规模的大语言模型无法准确理解文献中的长句难句,导致得到的原创性评估结果有误。


技术实现思路

1、本公开提供了一种文献原创性评估方法、装置、设备及存储介质,能够准确、高效地实现文献原创性评估。所述技术方案至少包括如下方案:

2、第一方面,提供了一种文献原创性评估方法,包括:基于第一数据集,训练第一大语言模型,所述第一数据集包括多篇文献以及每篇文献的外部参数,所述外部参数包括引用次数和下载次数,所述第一大语言模型用于基于第一文献以及第一文献的所述外部参数,生成所述第一文献的第一原创性评分,所述第一文献为所述多篇文献中的任一个;基于第二数据集和所述多篇文献中的每篇文献的原创性评分,训练第二大语言模型,所述第二数据集包括所述多篇文献中的每篇文献的公开评审意见以及所述多篇文献中的每篇文献被引用时的上下文,所述第二大语言模型用于基于所述第一文献的公开评审意见、所述第一文献被引用时的上下文以及所述第一原创性评分,生成所述第一文献的第一原创性评审意见和修正后的所述第一原创性评分,所述第一原创性评审意见和修正后的所述第一原创性评分用于对所述第一文献进行原创性评估;其中,所述第一大语言模型和所述第二大语言模型的参数规模大于第一参数阈值。

3、可选地,所述外部参数包括多个领域内的参数,在所述第一数据集中,任一篇文献的不同领域的外部参数之间具有不同的权重,所述基于第一数据集,训练第一大语言模型,包括:基于第三大语言模型,将所述多篇文献中的每篇文献进行语义向量表征,所述第三大语言模型的参数规模小于所述第一参数阈值;基于所述第三大语言模型,确定与第一语义向量最接近的n个语义向量所对应的n个第二文献,所述第一语义向量为所述第一文献对应的语义向量,所述第二文献为所述多篇文献中的任一个;将所述第一文献、所述n个第二文献、所述第一文献的外部参数、所述n个第二文献的外部参数以及第一指令输入所述第一大语言模型,以获取所述第一原创性评分,所述第一指令用于引导所述第一大语言模型输出所述第一原创性评分;其中,n为整数且n大于或者等于0。

4、可选地,所述方法还包括:基于所述第三大语言模型,将所述第一文献以及所述n个第二文献按照功能分为多个文本块,每个文本块对应一个标签;所述将所述第一文献、所述n个第二文献、所述第一文献的外部参数、所述n个第二文献的外部参数以及第一指令输入所述第一大语言模型,包括:将所述多个文本块以及每个所述文本块对应的标签、所述第一文献的外部参数、所述n个第二文献的外部参数以及第一指令输入所述第一大语言模型。

5、可选地,所述外部参数还包括:颠覆性指标、引用结构、引用内容、引用功能、引用情感、浏览次数、收藏次数、转载次数、评论极性、专利引用数、专利转发量。

6、可选地,所述第二数据集中还包括每篇文献的虚拟评审意见,所述虚拟评审意见基于第四大语言模型生成,所述基于第二数据集和所述多篇文献中的每篇文献的原创性评分,训练第二大语言模型,包括:将所述第一文献以及所述n个第二文献的公开评审意见、所述第一文献以及所述n个第二文献的虚拟评审意见、所述第一文献被引用时的上下文、所述第一原创性评分以及第二指令输入所述第二大语言模型,以获取所述第一原创性评审意见和修正后的所述第一原创性评分,所述第二指令用于引导所述第二大语言模型输出所述第一原创性评审意见和修正后的所述第一原创性评分。

7、可选地,所述第一原创性评审意见包括所述第一文献的原创性评语以及所述第一文献的原创性类型,所述原创性类型包括:问题原创、方法原创、理论原创、结果原创以及应用原创,所述原创性评语用于解释所述原创性类型和所述修正后的所述第一原创性评分。

8、可选地,所述方法还包括:将第三指令输入所述第二大语言模型,以获取第一格式的所述第一原创性评审意见和修正后的所述第一原创性评分。

9、第二方面,还提供了一种文献原创性评估装置,包括:第一训练模块,用于基于第一数据集,训练第一大语言模型,所述第一数据集包括多篇文献以及每篇文献的外部参数,所述外部参数包括引用次数和下载次数,所述第一大语言模型用于基于第一文献以及第一文献的所述外部参数,生成所述第一文献的第一原创性评分,所述第一文献为所述多篇文献中的任一个;第二训练模块,用于基于第二数据集和所述多篇文献中的每篇文献的原创性评分,训练第二大语言模型,所述第二数据集包括所述多篇文献中的每篇文献的公开评审意见以及所述多篇文献中的每篇文献被引用时的上下文,所述第二大语言模型用于基于所述第一文献的公开评审意见、所述第一文献被引用时的上下文以及所述第一原创性评分,生成所述第一文献的第一原创性评审意见和修正后的所述第一原创性评分,所述第一原创性评审意见和修正后的所述第一原创性评分用于对所述第一文献进行原创性评估。

10、可选地,所述外部参数包括多个领域内的参数,在所述第一数据集中,任一篇文献的不同领域的外部参数之间具有不同的权重,所述第一训练模块还用于:基于第三大语言模型,将所述多篇文献中的每篇文献进行语义向量表征,所述第三大语言模型的参数规模小于所述第一参数阈值;基于所述第三大语言模型,确定与第一语义向量最接近的n个语义向量所对应的n个第二文献,所述第一语义向量为所述第一文献对应的语义向量,所述第二文献为所述多篇文献中的任一个;将所述第一文献、所述n个第二文献、所述第一文献的外部参数、所述n个第二文献的外部参数以及第一指令输入所述第一大语言模型,以获取所述第一原创性评分,所述第一指令用于引导所述第一大语言模型输出所述第一原创性评分;其中,n为整数且n大于或者等于0。

11、可选地,该装置还包括:划分模块,用于基于所述第三大语言模型,将所述第一文献以及所述n个第二文献按照功能分为多个文本块,每个文本块对应一个标签;所述第一训练模块还用于将所述多个文本块以及每个所述文本块对应的标签、所述第一文献的外部参数、所述n个第二文献的外部参数以及第一指令输入所述第一大语言模型。

12、可选地,所述第二数据集中还包括每篇文献的虚拟评审意见,所述虚拟评审意见基于第四大语言模型生成,所述第二训练模块还用于将所述第一文献以及所述n个第二文献的公开评审意见、所述第一文献以及所述n个第二文献的虚拟评审意见、所述第一文献被引用时的上下文、所述第一原创性评分以及第二指令输入所述第二大语言模型,以获取所述第一原创性评审意见和修正后的所述第一原创性评分,所述第二指令用于引导所述第二大语言模型输出所述第一原创性评审意见和修正后的所述第一原创性评分。

13、可选地,所述第二训练模块还用于将第三指令输入所述第二大语言模型,以获取第一格式的所述第一原创性评审意见和修正后的所述第一原创性评分。

14、第三方面,还提供了一种计算机设备,包括:存储器和处理器,所述存储器中存储有至少一条计算机程序,所述至少一条计算机程序由所述处理器加载并执行,从而执行上述实施例中所述的文献原创性评估方法。

15、第四方面,还提供了一种计算机可读存储介质,所述计算机可读存储介质中存储有至少一条计算机程序,所述至少一条计算机程序由处理器加载并执行,从而执行上述实施例中所述的文献原创性评估方法。

16、第五方面,提供了一种计算机程序产品,包括计算机程序/指令,所述计算机程序/指令被处理器执行时实现第一方面所述的方法。

17、本公开实施例提供的技术方案带来的有益效果至少包括:

18、在本公开实施例中,通过训练第一大语言模型和第二大语言模型,实现了对文献的原创性评估。由于大规模的大语言模型能够处理更加复杂的语句,因此能够准确理解文献中的长句难句。通过引入文献的外部参数,提高了生成的第一原创性评分的准确程度,并且通过第二大语言模型,实现了修正第一原创性评分,进一步提高了生成的第一原创性评分的准确程度。第二大语言模型还能生成第一原创性评审意见,从而能够实现对于文献的原创性评估。


技术特征:

1.一种文献原创性评估方法,其特征在于,所述方法包括:

2.根据权利要求1所述的方法,其特征在于,所述外部参数包括多个领域内的参数,在所述第一数据集中,任一篇文献的不同领域的外部参数之间具有不同的权重,所述基于第一数据集,训练第一大语言模型,包括:

3.根据权利要求2所述的方法,其特征在于,所述方法还包括:

4.根据权利要求1至3任一项所述的方法,其特征在于,所述外部参数还包括:颠覆性指标、引用结构、引用内容、引用功能、引用情感、浏览次数、收藏次数、转载次数、评论极性、专利引用数、专利转发量。

5.根据权利要求2所述的方法,其特征在于,所述第二数据集中还包括每篇文献的虚拟评审意见,所述虚拟评审意见基于第四大语言模型生成,

6.根据权利要求5所述的方法,其特征在于,所述第一原创性评审意见包括所述第一文献的原创性评语以及所述第一文献的原创性类型,所述原创性类型包括:问题原创、方法原创、理论原创、结果原创以及应用原创,所述原创性评语用于解释所述原创性类型和所述修正后的所述第一原创性评分。

7.根据权利要求1至3任一项所述的方法,其特征在于,所述方法还包括:

8.一种文献原创性评估装置,其特征在于,所述装置包括:

9.一种计算机设备,其特征在于,所述计算机设备包括:存储器和处理器,所述存储器中存储有至少一条计算机程序,所述至少一条计算机程序由所述处理器加载并执行,以实现权利要求1至7任一项所述的方法。

10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质中存储有至少一条计算机程序,所述至少一条计算机程序由处理器加载并执行,以实现权利要求1至7任一项所述的方法。


技术总结
公开了一种文献原创性评估方法、装置、设备及存储介质,属于计算机技术领域,该方法包括:基于第一数据集,训练第一大语言模型,第一数据集包括多篇文献以及每篇文献的外部参数,第一大语言模型用于基于第一文献以及第一文献的外部参数,生成第一文献的第一原创性评分;基于第二数据集和多篇文献中的每篇文献的原创性评分,训练第二大语言模型,第二大语言模型用于基于第一文献的公开评审意见、第一文献被引用时的上下文以及第一原创性评分,生成第一文献的第一原创性评审意见和修正后的第一原创性评分。该方法能够准确、高效地实现文献原创性评估。

技术研发人员:陆伟,黄圣智,黄永,程齐凯,刘寅鹏
受保护的技术使用者:武汉大学
技术研发日:
技术公布日:2024/10/31
转载请注明原文地址: https://www.8miu.com/read-21141.html

最新回复(0)