1.本技术涉及文本可读性评价的技术领域,尤其涉及一种文本可读性的评价方法和装置。
背景技术:2.可读性是指书报杂志或文章的文本可理解程度,对于外文文献经机器翻译后,但由于翻译过程的影响,不能确保实证研究结论能够准确代表其中文版本的可读性。目前的评价方法多通过对应领域的知名专家或学者阅读后进行主观评价,没有统一的评价标准,评价结果易受个人的主观感受出现偏差,导致评价的准确性较差。
3.因此,如何提高文本可读性评价的准确性,是目前亟待解决的技术问题。
技术实现要素:4.本发明的一种文本可读性的评价方法和装置,提高了对文本可读性评价的准确性。
5.本发明实施例提供了以下方案:
6.第一方面,本发明实施例提供了一种文本可读性的评价方法,所述方法包括:
7.获取目标文本和历史文本库,其中,所述目标文本为外文经机器翻译为中文的文本,所述历史文本库为搜索引擎的历史搜索记录的文本集合;
8.根据所述历史文本库中搜索词的热度,获得第一评分标准;
9.根据所述历史文本库中搜索语句的语句向量,获得第二评分标准;
10.根据所述第一评分标准和所述第二评分标准,确定所述目标文本的可读性。
11.在一种可选的实施例中,所述获取历史文本库,包括:
12.获取所述搜索引擎在第一时间段的历史搜索信息;
13.根据所述历史搜索信息中目标领域的所有所述搜索词和所述搜索语句,获得所述历史文本库,其中,所述目标领域为与所述目标文本分类相同的领域。
14.在一种可选的实施例中,所述根据所述历史文本库中搜索词的热度,获得第一评分标准,包括:
15.根据所述搜索词的搜索频次,确定词热度序列;
16.将所述词热度序列中含义相同的所述搜索词按预设规则排列,获得所述第一评分标准。
17.在一种可选的实施例中,所述根据所述历史文本库中搜索语句的语句向量,获得第二评分标准,包括:
18.将所有的所述搜索语句输入预设的word2vec模型,对应获得所有的所述语句向量;
19.根据大于预设搜索频次的所述语句向量,获得所述第二评分标准。
20.在一种可选的实施例中,所述搜索引擎为语义搜索引擎,将所有的所述搜索语句
输入预设的word2vec模型,对应获得所有的所述语句向量之前,还包括:
21.根据所述语义搜索引擎的搜索用户在第二时间段的历史搜索信息,更新所述搜索语句。
22.在一种可选的实施例中,所述根据所述第一评分标准和所述第二评分标准,确定所述目标文本的可读性,包括:
23.将所述目标文本输入分词处理模型,获得目标词组;
24.根据所述第一评分标准确定所述目标词组的第一分值;
25.根据所述第二评分标准确定所述目标词组的第二分值;
26.根据所述第一分值、所述第二分值和预设的权重系数,确定所述目标文本的可读性。
27.在一种可选的实施例中,所述根据所述第一分值、所述第二分值和预设的权重系数,确定所述目标文本的可读性,包括:
28.根据公式k=as1+bs2,确定所述目标文本的可读性k,其中,a为所述第一分值,s1为第一权重系数,b为所述第二分值,s2为第二权重系数。
29.第二方面,本发明实施例还提供了一种文本可读性的评价装置,所述装置包括:
30.获取模块,用于获取目标文本和历史文本库,其中,所述目标文本为外文经机器翻译为中文的文本,所述历史文本库为搜索引擎的历史搜索记录的文本集合;
31.第一获得模块,用于根据所述历史文本库中搜索词的热度,获得第一评分标准;
32.第二获得模块,用于根据所述历史文本库中搜索语句的语句向量,获得第二评分标准;
33.确定模块,用于根据所述第一评分标准和所述第二评分标准,确定所述目标文本的可读性。
34.第三方面,本发明实施例还提供了一种电子设备,包括处理器和存储器,所述存储器耦接到所述处理器,所述存储器存储指令,当所述指令由所述处理器执行时使所述电子设备执行第一方面中任一项所述方法的步骤。
35.第四方面,本发明实施例还提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现第一方面中任一项所述方法的步骤。
36.本发明提供的一种文本可读性的评价方法和装置与现有技术相比,具有以下优点:
37.本发明通过获取目标文本和历史文本库,由于历史文本库为搜索引擎的历史搜索记录的文本集合,记录了常规字词和语句次序的表达习惯,通过历史文本库中搜索词的热度获得第一评分标准,以确定目标文本是否根据常规字词进行表达,通过历史文本库中搜索语句的语句向量获得第二评分标准,以确定目标文本是否根据常规语句次序进行表达,准确得出目标文本的可读性,进而提高了对文本可读性评价的准确性。
附图说明
38.为了更清楚地说明本说明书实施例或现有技术中的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本说明书的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附
图获得其他的附图。
39.图1为本发明实施例提供的一种文本可读性的评价方法的流程图;
40.图2为本发明实施例提供的一种文本可读性的评价装置的结构示意图。
具体实施方式
41.下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整的描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例,基于本发明实施例,本领域普通技术人员所获得的所有其他实施例,都属于本发明实施例保护的范围。
42.请参阅图1,图1为本发明实施例提供的一种文本可读性的评价方法的流程图,所述方法包括:
43.s11、获取目标文本和历史文本库,其中,所述目标文本为外文经机器翻译为中文的文本,所述历史文本库为搜索引擎的历史搜索记录的文本集合;
44.具体的,目标文本为外文经机器翻译为中文的文本,由于外文的表达习惯与中文存在较大区别,机器翻译时不能准确翻译出适宜国人习惯的表达词汇和语句,尤其是科技类领域的翻译文献,大多涉及专有名词,外文的一个词汇可能对照能翻译出多种中文的表达词,导致目标文本晦涩难懂。目标文本可以是通过网络直接获取的电子文本,也可以通过机器视觉扫描纸质文本,再对应提取出电子文本。历史文本库可以根据搜索引擎的历史搜索记录获取,例如通过python工具处理指定的搜索引擎获取。
45.在一种具体的实施方式中,获取历史文本库,包括:
46.获取搜索引擎在第一时间段的历史搜索信息;根据历史搜索信息中目标领域的所有搜索词和搜索语句,获得历史文本库,其中,目标领域为与目标文本分类相同的领域。
47.具体的,第一时间段的具体时间可以根据技术人员的工作经验确定,例如最近6个月或12个月,也可以根据累计搜索信息的体量确定,能够表征最新的中文表达习惯即可。历史搜索信息包括搜索的字词、语句和对应的时间点,不同的字词和语句可能是涉及专有领域的专有名词,在该领域是符合常规表达习惯的专有词汇和语句,对其进行进一步分类,可以提高历史文本库与目标文本的匹配性。需要说明的是,对历史搜索信息进行分类可以通过现有的分类工具,将历史搜索信息分类为计算机领域、生物领域、光学领域和日常生活领域等等,一个词汇可能涉及多个领域,分类工具则均对应分配,以保障信息的完整性。获取目标文本和历史文本库后进入步骤s12。
48.s12、根据所述历史文本库中搜索词的热度,获得第一评分标准。
49.具体的,搜索词的热度表征的是该词的搜索频次,搜索频次越高,热度越高,说明常规表达多采用该搜索词的方式进行表达,在第一评分标准中对应的评分越高;反之,搜索频次越低,热度越低,说明常规表达采用该搜索词的方式进行表达较少,在第一评分标准中对应的评分越低,第一评分标准可以以插值表的形式表征,一个搜索词根据其热度对应一评分数值,当然,第一评分标准也可以建立索引,以快速定位到搜索词和对应的评分数值,索引可以根据搜索词的首字母建立。
50.在具体实施时,由于第一评分标准中包括搜索词和对应的评分数值,具有较大的数据量,执行时计算量较大,不利于高效执行。
51.在一种具体的实施方式中,根据历史文本库中搜索词的热度,获得第一评分标准,包括:
52.根据搜索词的搜索频次,确定词热度序列;将词热度序列中含义相同的搜索词按预设规则排列,获得第一评分标准。
53.具体的,词热度序列是搜索词按热度规则排列的序列,搜索频次越高,说明该搜索词的热度越高,在词热度序列中排名越靠前,将词热度序列中含义相同的搜索词按预设规则排列后,可以确定出同一含义的不同搜索词的热度分布,同一含义可能具有不同的搜索词,根据预设规则排列即可得出更习惯表达应用的搜索词,通过该排列结果获得第一评分标准。可以理解,预设规则排列可以根据热度降序排列,也可以是升序排列。获得第一评分标准后进入步骤s13。
54.s13、根据所述历史文本库中搜索语句的语句向量,获得第二评分标准;
55.具体的,在通过搜索引擎搜索信息时,搜索语句的语句向量表征了中文习惯的文字表达方式,搜索语句是通过词和词组组合起来的,其组合次序可以通过对应的语句向量表征,通过搜索语句的语句向量得到第二评分标准。
56.在一种具体的实施方式中,根据历史文本库中搜索语句的语句向量,获得第二评分标准,包括:
57.将所有的搜索语句输入预设的word2vec模型,对应获得所有的语句向量;根据大于预设搜索频次的语句向量,获得第二评分标准。
58.具体的,word2vec模型是一种神经网络,具有独热编码,将所有的搜索语句输入word2vec模型后,经word2vec模型计算,可以准确表达出各搜索语句的语句向量。可以理解,相同意思语句采用不同词序表达,得到的语句向量会对应不同,但通常存在常规的表达词序,在第二评分标准中,若每种表达方式均对应存在评分,可能造成不常用的表达方式也对应存在得分。因此,需要将大于预设搜索频次的语句向量确定至第二评分标准内,以准确得到第二评分标准。
59.在一种具体的实施方式中,搜索引擎为语义搜索引擎,将所有的搜索语句输入预设的word2vec模型,对应获得所有的语句向量之前,还包括:
60.根据语义搜索引擎的搜索用户在第二时间段的历史搜索信息,更新搜索语句。
61.具体的,语义搜索引擎是根据语句直接搜索出对应的结果,语义搜索引擎会自动将语句中的关键字词提取,再进行对应搜索,在语义搜索引擎中的搜索语句更符合相关领域的文本表达方式,根据语义搜索引擎获得的搜索语句得到的第二评分标准更准确。第二时间段可以自由定义,也可以通过历史搜索信息的信息体量确定第二时间段,例如最近6个月或12个月。获得第二评分标准后进入步骤s14。
62.s14、根据所述第一评分标准和所述第二评分标准,确定所述目标文本的可读性。
63.具体的,目标文本的可读性表征的是经翻译后文本的可理解程度,通过第一评分标准和第二评分标准确定可读性时,可以将目标文本中的字词和语句在第一评分标准和第二评分标准中对应得到分值,将所有分值求和,即可确定出目标文本的可读性。
64.在具体实施时,由于不同领域的词序表达习惯存在差异,导致第一评分标准和第二评分标准确定不同领域文本的可读性时,存在一定的偏差。
65.为解决上述问题,在一种具体的实施方式中,根据第一评分标准和第二评分标准,
确定目标文本的可读性,包括:
66.将目标文本输入分词处理模型,获得目标词组;根据第一评分标准确定目标词组的第一分值;根据第二评分标准确定目标词组的第二分值;根据第一分值、第二分值和预设的权重系数,确定目标文本的可读性。
67.具体的,分词处理模型可以是现有的分词工具,例如pytorch分词工具,通过分词处理模型可以对应提取目标文本中的目标词组,去除无意词。再通过第一评分标准确定目标词组的第一分值,第二评分标准确定目标词组的第二分值,权重系数可以根据目标文本所在的领域确定出来,进而确定目标文本的可读性。本领域技术人员可以理解,权重系数根据对应的领域确定,可以通过实验标定测试得出,在此不再赘述。权重系数可以是与第一分值和第二分值均进行关联,也可以关联其中一项。
68.在一种具体的实施方式中,根据第一分值、第二分值和预设的权重系数,确定目标文本的可读性,包括:
69.根据公式k=as1+bs2,确定目标文本的可读性k,其中,a为第一分值,s1为第一权重系数,b为第二分值,s2为第二权重系数。
70.同样的,第一权重系数和第二权重系数可以根据技术人员的经验确定,例如均取0.5,也可以通过对应领域进行标定测试确定。
71.基于与评价方法同样的发明构思,本发明实施例还提供了一种文本可读性的评价装置,请参阅图2,所述装置包括:
72.获取模块201,用于获取目标文本和历史文本库,其中,所述目标文本为外文经机器翻译为中文的文本,所述历史文本库为搜索引擎的历史搜索记录的文本集合;
73.第一获得模块202,用于根据所述历史文本库中搜索词的热度,获得第一评分标准;
74.第二获得模块203,用于根据所述历史文本库中搜索语句的语句向量,获得第二评分标准;
75.确定模块204,用于根据所述第一评分标准和所述第二评分标准,确定所述目标文本的可读性。
76.基于与评价方法同样的发明构思,本发明实施例还提供了一种电子设备,包括处理器和存储器,所述存储器耦接到所述处理器,所述存储器存储指令,当所述指令由所述处理器执行时使所述电子设备执行评价方法中任一项所述方法的步骤。
77.基于与评价方法同样的发明构思,本发明实施例还提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现评价方法中任一项所述方法的步骤。
78.本发明实施例中提供的技术方案,至少具有如下技术效果或优点:
79.通过获取目标文本和历史文本库,由于历史文本库为搜索引擎的历史搜索记录的文本集合,记录了常规字词和语句次序的表达习惯,通过历史文本库中搜索词的热度获得第一评分标准,以确定目标文本是否根据常规字词进行表达,通过历史文本库中搜索语句的语句向量获得第二评分标准,以确定目标文本是否根据常规语句次序进行表达,准确得出目标文本的可读性,进而提高了对文本可读性评价的准确性。
80.本发明是参照根据本发明实施例的方法、装置(模块、系统)、和计算机程序产品的
流程图和/或方框图来描述。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式计算机或者其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
81.这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
82.这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
83.尽管已描述了本发明的优选实施例,但本领域内的技术人员一旦得知了基本创造概念,则可对这些实施例作出另外的变更和修改。所以,所附权利要求意欲解释为包括优选实施例以及落入本发明范围的所有变更和修改。
84.显然,本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样,倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内,则本发明也意图包括这些改动和变型在内。
技术特征:1.一种文本可读性的评价方法,其特征在于,所述方法包括:获取目标文本和历史文本库,其中,所述目标文本为外文经机器翻译为中文的文本,所述历史文本库为搜索引擎的历史搜索记录的文本集合;根据所述历史文本库中搜索词的热度,获得第一评分标准;根据所述历史文本库中搜索语句的语句向量,获得第二评分标准;根据所述第一评分标准和所述第二评分标准,确定所述目标文本的可读性。2.根据权利要求1所述的文本可读性的评价方法,其特征在于,所述获取历史文本库,包括:获取所述搜索引擎在第一时间段的历史搜索信息;根据所述历史搜索信息中目标领域的所有所述搜索词和所述搜索语句,获得所述历史文本库,其中,所述目标领域为与所述目标文本分类相同的领域。3.根据权利要求1所述的文本可读性的评价方法,其特征在于,所述根据所述历史文本库中搜索词的热度,获得第一评分标准,包括:根据所述搜索词的搜索频次,确定词热度序列;将所述词热度序列中含义相同的所述搜索词按预设规则排列,获得所述第一评分标准。4.根据权利要求1所述的文本可读性的评价方法,其特征在于,所述根据所述历史文本库中搜索语句的语句向量,获得第二评分标准,包括:将所有的所述搜索语句输入预设的word2vec模型,对应获得所有的所述语句向量;根据大于预设搜索频次的所述语句向量,获得所述第二评分标准。5.根据权利要求4所述的文本可读性的评价方法,其特征在于,所述搜索引擎为语义搜索引擎,将所有的所述搜索语句输入预设的word2vec模型,对应获得所有的所述语句向量之前,还包括:根据所述语义搜索引擎的搜索用户在第二时间段的历史搜索信息,更新所述搜索语句。6.根据权利要求1所述的文本可读性的评价方法,其特征在于,所述根据所述第一评分标准和所述第二评分标准,确定所述目标文本的可读性,包括:将所述目标文本输入分词处理模型,获得目标词组;根据所述第一评分标准确定所述目标词组的第一分值;根据所述第二评分标准确定所述目标词组的第二分值;根据所述第一分值、所述第二分值和预设的权重系数,确定所述目标文本的可读性。7.根据权利要求6所述的文本可读性的评价方法,其特征在于,所述根据所述第一分值、所述第二分值和预设的权重系数,确定所述目标文本的可读性,包括:根据公式k=as1+bs2,确定所述目标文本的可读性k,其中,a为所述第一分值,s1为第一权重系数,b为所述第二分值,s2为第二权重系数。8.一种文本可读性的评价装置,其特征在于,所述装置包括:获取模块,用于获取目标文本和历史文本库,其中,所述目标文本为外文经机器翻译为中文的文本,所述历史文本库为搜索引擎的历史搜索记录的文本集合;第一获得模块,用于根据所述历史文本库中搜索词的热度,获得第一评分标准;
第二获得模块,用于根据所述历史文本库中搜索语句的语句向量,获得第二评分标准;确定模块,用于根据所述第一评分标准和所述第二评分标准,确定所述目标文本的可读性。9.一种电子设备,其特征在于,包括处理器和存储器,所述存储器耦接到所述处理器,所述存储器存储指令,当所述指令由所述处理器执行时使所述电子设备执行权利要求1-7中任一项所述方法的步骤。10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现权利要求1-7中任一项所述方法的步骤。
技术总结本发明公开了一种文本可读性的评价方法和装置,评价方法通过获取目标文本和历史文本库,由于历史文本库为搜索引擎的历史搜索记录的文本集合,记录了常规字词和语句次序的表达习惯,通过历史文本库中搜索词的热度获得第一评分标准,以确定目标文本是否根据常规字词进行表达,通过历史文本库中搜索语句的语句向量获得第二评分标准,以确定目标文本是否根据常规语句次序进行表达,准确得出目标文本的可读性,进而提高了对文本可读性评价的准确性。进而提高了对文本可读性评价的准确性。进而提高了对文本可读性评价的准确性。
技术研发人员:胡楠
受保护的技术使用者:武汉文构数据科技有限公司
技术研发日:2022.04.06
技术公布日:2022/7/5