标注数据集获取方法、装置、电子设备及存储介质与流程

allin2023-03-24  137



1.本技术涉及自然语言技术领域,更具体地,涉及一种标注数据集获取方法、装置、电子设备及存储介质。


背景技术:

2.词性标注是指为文本中的每个词语标注词性的程序,是自然语言理解或文本挖掘的预处理步骤。
3.相关技术提供的词性标注方法通常是人工标注,也即由相关从业者对获取到的语料逐一进行标注。在人工标注的情况下,受限于人工的成本以及效率问题,通常导致标注数据集不够丰富。


技术实现要素:

4.本技术提供一种标注数据集获取方法、装置、电子设备及存储介质。
5.第一方面,本技术提供一种标注数据集获取方法,该方法包括:获取兼类词,兼类词是指具有多个词性的词语;获取兼类词在不同词性下的第一文本;针对兼类词在每个词性下第一文本进行多次词语替换操作,得到兼类词在每个词性下的第一文本对应的多个第二文本,词语替换操作是指通过第一目标词语替换第一文本中的第二目标词语的操作,对第一文本的一次词语替换操作得到一个第二文本,第一目标词语与第二目标词语具有相同词性,第一目标词语是第二目标词语的同义词;基于目标文本生成标注数据集,目标文本包括兼类词在不同词性下的第一文本,以及兼类词在每个词性下的第一文本对应的第二文本。
6.第二方面,本技术提供一种标注数据集获取装置,该装置包括:兼类词获取模块,用于获取兼类词,兼类词是指具有多个词性的词语;文本获取模块,用于获取兼类词在不同词性下的第一文本;替换模块,用于针对兼类词在每个词性下第一文本进行多次词语替换操作,得到兼类词在每个词性下的第一文本对应的多个第二文本,词语替换操作是指通过第一目标词语替换第一文本中的第二目标词语的操作,对第一文本的一次词语替换操作得到一个第二文本,第一目标词语与第二目标词语具有相同词性,第一目标词语是第二目标词语的同义词;标注数据集生成模块,用于基于多个目标文本生成标注数据集,目标文本包括兼类词在不同词性下的第一文本,以及兼类词在每个词性下的第一文本对应的第二文本。
7.第三方面,本技术还提供一种电子设备,该电子设备包括处理器以及存储器,存储器存储有计算机程序指令,计算机程序指令被处理器调用时执行上述的标注数据集获取方法。
8.第四方面,本技术还提供一种计算机可读存储介质,计算机可读存储介质存储有程序代码,其中,在程序代码被处理器运行时执行上述的标注数据集获取方法。
9.第五方面,本技术还提供一种计算机程序产品,该计算机产品被执行时实现上述
的标注数据集获取方法。
10.本技术提供一种标注数据集获取方法,通过获取兼类词在不同词性下的第一文本后,通过第一文本中的词语的同义词对兼类词在每个词性下的第一文本进行多次词语替换操作,每次词语替换操作均可以得到一个第二文本,最后基于第一文本和第二文本来生成标注数据集,由于基于一个兼类词可以获得多个第一文本,每个第一文本又可以通过词语替换操作生成多个第二文本,并且词语替换操作是通过某个词语的同义词来替换自身,因此能够实现在不改变第一文本的语义的基础上进行语料扩充,使得用于生成标注数据集的目标文本(包括第一文本和第二文本)更为丰富、更具有多样性。
附图说明
11.为了更清楚地说明本技术中的技术方案,下面将对示例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本技术的一些示例,对于本领域技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
12.图1是本技术一个实施例提供的标注数据集获取方法的流程图。
13.图2是本技术一个实施例提供的一种获取标注数据集的示意图。
14.图3是本技术一个实施例提供的标注数据集获取方法的流程图。
15.图4是本技术另一个实施例提供的标注数据集获取方法的流程图。
16.图5是本技术另一个实施例提供的训练词性标注模型的流程图。
17.图6是本技术另一个实施例提供的标注数据集获取方法的流程图。
18.图7是本技术一个实施例提供的标注数据集获取装置框图。
19.图8是本技术一个实施例提供的电子设备的结构框图。
20.图9是本技术一个实施例提供的计算机可读存储介质的框图。
具体实施方式
21.下面详细描述本技术的实施方式,实施方式的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施方式是示例性地,仅用于解释本技术,而不能理解为对本技术的限制。
22.为了使本技术领域的人员更好地理解本技术的方案,下面将结合本技术中的附图,对本技术示例中的技术方案进行清楚、完整的描述。显然,所描述的示例仅仅是本技术一部分示例,而不是全部的示例。基于本技术中的示例,本领域技术人员在没有做出创造性劳动前提下所获得的所有其他示例,都属于本技术保护的范围。
23.首先对本技术实施例涉及的技术名词进行介绍。
24.词性:是以词的特点作为划分词类的依据。词性包括:名词、代词、动词、副词、形容词、数词、量词、介词、连词、冠词、助词、叹词、拟声词等。
25.兼类词:具有多个词性的词语。在一个词语有多个含义的情况下,其在不同词性的含义不相同。例如,针对词语“爱好”,其词性可以是名词或动词。“爱好”的词性为名词时,其含义为兴趣爱好;“爱好”的词性为动词时,其含义为喜欢某项活动。
26.非兼类词:具有一个词性的词语。
27.词性标注:是指为分词结果中的每个单词基于其含义和上下文内容标注一个正确
的词性的文本数据处理技术。例如,针对文本“我喜欢梅花”,对其进行分词得到“我”、“喜欢”、“梅花”。其中,“我”的词性为代词,“喜欢”的词性为动词,“梅花”的词性为名词。
28.由于发明人发现,在现有技术提供的标注数据集获取方法中,人工标注不仅效率低下,还会受限于标注人的知识储备,若标注人的知识储备较少,则会导致标注准确率低下。基于现有技术存在的问题,发明人设计了一种标注数据集获取方法,通过获取兼类词在不同词性下的第一文本后,通过第一文本中的词语的同义词对兼类词在每个词性下的第一文本进行多次词语替换操作,每次词语替换操作均可以得到一个第二文本,最后基于第一文本和第二文本来生成标注数据集,由于基于一个兼类词可以获得多个第一文本,每个第一文本又可以通过词语替换操作生成多个第二文本,并且词语替换操作是通过某个词语的同义词来替换自身,因此能够实现在不改变第一文本的语义的基础上进行语料扩充,使得用于生成标注数据集的目标文本(包括第一文本和第二文本)更为丰富、更具有多样性。
29.本技术实施例提供的技术方案,各步骤的执行主体可以是电子设备,电子设备可以是智能手机、个人计算机、平板电脑等终端设备,也可以是服务器。电子设备具有本技术实施例提供的标注数据集获取功能,也即通过获取兼类词在不同词性下的第一文本,之后通过对第一文本进行多次替换操作以获取多个第二文本,最终基于多个第二文本来生成标注数据集,通过多次替换操作可以自动实现语料扩充,以获取更丰富、更多样化的语料。
30.电子设备还具有显示功能,通过显示功能显示标注数据集,以便人工核验,进一步提高标注数据集的标注准确率。在一些实施例中,电子设备还具有模型训练功能,也即通过标注数据集训练词性标注模型,词性标注模型能够对文本中包含的词语的词性进行标注。
31.本技术实施例提供的标注数据集获取方法能够应用于模型训练,以获取词性标注模型,词性标注模型能够识别出待标注文本中的词语的词性,进而确定其含义。词性标注模型可以应用于任一种需要进行自然语义理解的场景中,则该方法能够应用于这些场景的产品中,例如,坐席语音质检系统、语音内容审查系统、智能音箱。
32.以坐席语音质检系统为例,电子设备中预先设置有基于本技术实施例获取的标注数据集训练的词性标注模型,后续获取坐席与客户的通话语音数据,将通话语音数据转换成文本数据,之后基于词性标注模型来对文本数据中的词语进行标注,以便于后续的自然语义理解,最终基于自然语义理解结果对坐席的工作内容进行评价。
33.以语音内容审查系统为例,电子设备中预先设置有基于本技术实施例获取的标注数据集训练的词性标注模型,后续获取待审查的语音数据,将语音数据转换成文本数据,之后基于词性标注模型来对文本数据中的词语进行标注,以便于后续的自然语义理解,最终基于自然语义理解结果来确定待审核的语音数据中是否存在不文明或者其他不符合审核要求的内容。
34.以智能音箱为例,电子设备中预先设置有基于本技术实施例获取的标注数据集训练的词性标注模型,后续获取用户的说话内容,将说话内容转换成文本数据,之后基于词性标注模型来对文本数据中的词语进行标注,以便于后续的自然语义理解,最终基于自然语义理解结果来查询相关回答,并将回答内容转化成语音数据输出。
35.请参考图1,其示出本技术一个实施例提供的标注数据集获取方法,该方法包括:
36.步骤101,获取兼类词。
37.兼类词表征包括多个词性的词语,其在不同词性下的含义不相同。在一些实施例
中,电子设备从预先构建的兼类词词典中获取至少一个兼类词,兼类词词典所包括的兼类词的数量也即是获取到的兼类词的数量。兼类词词典的构建过程将在下文实施例进行讲述。
38.步骤102,获取兼类词在不同词性下的第一文本。
39.针对每个兼类词,电子设备根据该兼类词的词性在预先存储的文本集合中进行匹配,得到兼类词在不同词性下的第一文本。兼类词在目标词性下的第一文本,表征第一文本中的兼类词为目标词性。上述预先存储的文本集合可以从新闻资讯、小说等等中获取。
40.可选地,电子设备获取每个兼类词在不同词性下的第一文本后,将其划分为至不同词性的文本数据集,将同一词性的第一文本存储至相同的存储路径,以便后续查找。
41.例如,兼类词“爱好”在名词下匹配的第一文本为“我有一个爱好”,在动词下匹配的第一文本为“我爱好书法”,该第一文本被划分至名词词性的文本数据。再例如,兼类词“好”在动词下匹配的第一文本为“这个人好说话,一天说个不停”,该第一文本被划分至动词词性的文本数据;兼类词“好”在形容词下匹配的第一文本为“这个人好说话,总是乐于帮助别人”,该第一文本被划分至形容词词性的文本数据。
42.步骤103,对兼类词在每个词性下的第一文本进行多次词语替换操作,得到兼类词在每个词性下的第一文本对应的多个第二文本。
43.词语替换操作是指通过第一目标词语替换第一文本中的第二目标词语的操作。对第一文本的一次词语替换操作,可以得到一个第二文本。词语替换操作的次数可以根据标注数据集所包括的标注数据的数量要求实际确定,本技术实施例对此不作限定。例如,标注数据集所包括的标注数据的数量要求越高,则词语替换操作的次数越多。通过多次词语替换操作,可以实现语料扩充,以获取更为丰富、多样化地标注数据集。
44.第一目标词语和第二目标词语具有相同词性,第一目标词语是第二目标词语的同义词。第一目标词语的数量通常为多个。在一些实施例中,多个第一目标词语是同一第二目标词语的同义词。在另一些实施例中,多个第一目标词语是多个第二目标词语分别对应的同义词。进一步地,第一目标词语是第二目标词语地同义词且词性唯一,也即第一目标词语为非兼类词,由于第一目标词语是第二目标词语的同义词并且第一目标词语与第二目标词语的词性相同,在第二目标词语为兼类词的情况下,可以基于第一目标词语的词性来确定第二目标词语的词性,而无需基于第二目标词语的上下文来分析第二目标词语的词性,可以使得兼类词的词性标注结果更为准确。
45.第二目标词语的数量可以是一个,也可以是多个。在一些实施例中,第二目标词语为第一文本中的兼类词,也可以是第一文本中兼类词的相邻词语。兼类词的相邻词语包括:与兼类词的语序相邻且在兼类词之后的词语;和/或,与兼类词的语序相邻且在兼类词之前的词语。
46.步骤104,基于目标文本生成标注数据集。
47.电子设备生成每个目标文本的标注数据,最终得到标注数据集。目标文本的标注数据包括目标文本中的各个词语的词性、以及目标文本对应的词性先验意图。第二文本对应的词性先验意图表征第二文本中的兼类词的最大概率词性,兼类词属于某一词性的概率最大,则该词性为兼类词的最大概率词性。在一些实施例中,第二文本的标注数据还包括每个词语中的字符位置信息,字符位置信息表征该字符在该词语中的位置信息。电子设备获
取第二文本的标注数据的步骤将在下文实施例进行阐述。
48.请参考图2,其示出本技术实施例提供的一种生成标注数据集的方式。从兼类词词典中遍历每一个兼类词,对每一个兼类词在不同词性下进行文本匹配,得到不同词性的文本数据集,包括形容词性的文本数据集、名词性的文本数据集、动词性的文本数据集等等,针对每一文本数据集中的每条第一文本执行词语替换操作,得到包括第二文本的不同词性的文本数据集,最终基于上述包括第二文本的不同词性的文本数据集生成标注数据集。
49.综上所述,本技术实施例提供的技术方案,通过获取兼类词在不同词性下的第一文本后,通过第一文本中的词语的同义词对兼类词在每个词性下的第一文本进行多次词语替换操作,每次词语替换操作均可以得到一个第二文本,最后基于第一文本和第二文本来生成标注数据集,由于基于一个兼类词可以获得多个第一文本,每个第一文本又可以通过词语替换操作生成多个第二文本,并且词语替换操作是通过某个词语的同义词来替换自身,因此能够实现在不改变第一文本的语义的基础上进行语料扩充,使得用于生成标注数据集的目标文本(包括第一文本和第二文本)更为丰富、更具有多样性。
50.请参考图3,其示出本技术一个实施例提供的标注数据集获取方法,该方法包括:
51.步骤301,获取兼类词。
52.兼类词是指具有多个词性的词语。
53.步骤302,获取兼类词在不同词性下的第一文本。
54.步骤303,在每次词语替换操作中,确定当前次待替换的第二目标词语。
55.在一些实施例中,电子设备将第一文本中的兼类词确定为第二目标词语。在另一些实施例中,电子设备将第一文本中的兼类词的相邻词语确定为待替换的第二目标词语。兼类词的相邻词语包括:与兼类词的语序相邻且在兼类词之后的词语;和/或,与兼类词的语序相邻且在兼类词之前的词语。
56.例如,对于第一文本“这个人好说话,一天说个不停”,兼类词为“好”,则将“好”确定为待替换的第二目标词语。
57.再例如,对于第一文本“这个人好说话,总是乐于帮助别人”,兼类词“好”的相邻词语为“说话”,则将“说话”确定为待替换的第二目标词语。
58.步骤304,基于第二目标词语在非兼类词词典中获取第一目标词语。
59.非兼类词词典包括非兼类词,也即具有一个词性的词语。非兼类词词典的构建过程参见下文实施例。
60.在本技术实施例中,第一目标词语是第二目标词语的同义词,且词性唯一。通过上述方式,第一目标词语为非兼类词,非兼类词的词性标注过程更为容易,在第一目标词语和第二目标词语为同义词的情况下,第二目标词语的词性通常与第一目标词语相同;在第二目标词语为兼类词的情况下,通过词性唯一的同义词来进行词语替换操作,可以辅助对兼类词进行词性标注,使得对兼类词的词性标注过程更为准确,高效。
61.例如,对于第一文本“这个人好说话,一天说个不停”,兼类词“好”的同义词且词性唯一的词语包括“喜欢”、“喜爱”等,则将“喜欢”、“喜爱”确定为第一目标词语。再例如,对于第一文本“这个人好说话,总是乐于帮助别人”,兼类词“好”的同义词且词性唯一的词语包括“容易”、“方便”等,则将“容易”、“方便”确定为第一目标词语。再例如,对于第一文本“这个人好说话,总是乐于帮助别人”,兼类词“好”的相邻词语为“说话”,其同义词且词性唯一
的词语包括“沟通”等,则将“沟通”确定为第一目标词语。
62.步骤305,将第一文本中的第二目标词语替换为第一目标词语,得到第二文本。
63.例如,对于第一文本“这个人好说话,一天说个不停”,电子设备将“喜欢”替换第一文本中的兼类词“好”,得到第二文本“这个人喜欢说话,一天说个不停”,将“喜爱”替换第一文本中的兼类词“好”,得到第二文本“这个人喜爱说话,一天说个不停”。再例如,对于第一文本“这个人好说话,总是乐于帮助别人”,电子设备将“容易”替换第一文本中的兼类词“好”,得到第二文本“这个人容易说话,总是乐于帮助别人”;电子设备将“沟通”替换第一文本中的兼类词的相邻词语“说话”,得到第二文本“这个人容易沟通,总是乐于帮助别人”。
64.需要说明的是,由于训练词性标注模型的目的是为了能够准确标注兼类词的词性,而同时替换兼类词以及兼类词的相邻词语,会导致替换后的第二文本与替换前的第一文本的相似度大大降低,并且此时替换后的第二文本中不存在兼类词,因此这样的语料对于词性标注模型的训练过程没有积极作用,基于上述考虑设置了如下的替换原则:在每次词语替换操作中,不能同时替换第一文本中的兼类词和兼类词的相邻词语。
65.电子设备针对每个第一文本执行多次词语替换操作,得到多个第二文本。
66.步骤306,基于目标文本的标注数据生成标注数据集。
67.综上所述,本技术实施例提供的技术方案,获取兼类词在不同词性下的第一文本后,通过第一文本中的词语的同义词对第一文本进行多次词语替换操作,在不改变第一文本的语义的基础上实现自动语料扩充,使得用于生成标注数据集的目标文本(包括第一文本和第二文本)更为丰富、更具有多样性。另外,还通过兼类词同词性的同义词并且词性唯一词语来替换兼类词,由于用于替换兼类词的词语为非兼类词,非兼类词的词性标注过程更为容易,基于上述非兼类词的词性即可确定兼类词的词性,无需结合兼类词的上下文来推测兼类词的词性,使得对兼类词的词性标注过程更为准确,高效。
68.图4是本技术一个实施例提供的标注数据集获取方法,该方法包括如下步骤:
69.步骤401,获取兼类词,所述兼类词是指具有多个词性的词语。
70.步骤402,获取兼类词在不同词性下的第一文本。
71.步骤403,针对兼类词在每个词性下的第一文本进行多次词语替换操作,得到兼类词在每个词性下的第一文本对应的多个第二文本。
72.词语替换操作是指通过第一目标词语替换第一文本中的第二目标词语的操作,第一目标词语是第二目标词语的同词性的同义词。
73.步骤404,获取目标文本中的词语的词性。
74.目标文本包括兼类词在每个词性下的第一文本,以及兼类词在每个词性下的第一文本对应的多个第二文本。
75.电子设备先对目标文本进行分词,得到目标文本包括的各个词语。之后确定目标文本中的各个词语是否为兼类词,若不为兼类词,则在非兼类词词典中查找该词语的词性,若为兼类词,则通过第二文本对应的第一文本所属的词性文本数据集,确定兼类词的词性。
76.步骤405,获取目标文本对应的词性先验意图。
77.目标文本对应的词性先验意图表征目标文本是否存在兼类词,和/或,在目标文本对应的词性先验意图表征存在兼类词的情况下,上述目标文本对应的词性先验意图还表征目标文本中兼类词的最大概率词性。电子设备基于兼类词的词性确定目标文本对应的词性
先验意图,之后将目标文本对应的词性先验意图的唯一标识写入标注数据。可选地,电子设备在目标文本的标注数据的开头位置写入目标文本对应的词性先验意图。
78.词性先验意图的唯一标识可以参见表-1。
[0079][0080][0081]
表-1
[0082]
在目标文本不包括兼类词的情况下,步骤405实现为:确定目标文本对应的词性先验意图为指定字符。指定字符表征目标文本不包括兼类词。指定字符可以预先设定,例如,指定字符为“n”。
[0083]
在一个目标文本包括n个兼类词的情况下,步骤405实现为:获取n个兼类词对应的n组目标文本的标注数据,n为大于1的整数。其中,每个兼类词对应一组目标文本的标注数据,兼类词所对应的目标文本的标注数据中的词性先验意图表征该兼类词的最大概率词性。兼类词对应的目标文本的标注数据中还包括目标文本中每个词语的词性。上述每个词语的词性以及词性先验意图的确定方式可以参考上文实施例,此处不作赘述。在其它可能的实施例中,每组标注数据中还包括兼类词的位置信息,以指示兼类词在目标文本中的位置。在一个具体的例子中,目标文本a包括兼类词b和兼类词c,兼类词b的最大概率词性为形容词,兼类词c的最大概率词性为动词,则目标文本a存在两组标注数据,第一组标注数据中的词性先验意图为形容词性先验意图,表征兼类词b的最大概率词性,第二组标注数据中的词性先验意图为动词性先验意图,表征兼类词c的最大概率词性。
[0084]
步骤406,根据目标文本中词语的词性和目标文本对应的词性先验意图确定目标文本的标注数据。
[0085]
目标文本中的词语的词性和目标文本对应的词性先验意图组成目标文本的标注数据。在一些实施例中,目标文本的标注数据还包括每个词语中的字符位置信息,字符位置信息表征该字符在该词语中的位置信息。
[0086]
在一个例子中,对于目标文本“这个人好说话,一天说个不停。”对其进行标注,得到目标文本的标注数据如下:
[0087]0[0088]
这b_r
[0089]
个i_r
[0090]
人i_r
[0091]
好b_v
[0092]
说b_v
[0093]
话i_v
[0094]
,x
[0095]
一b_m
[0096]
天i_m
[0097]
说b_v
[0098]
个b_q
[0099]
不b_d
[0100]
停i_d
[0101]
。x
[0102]
其中,0表示目标文本对应兼类词的词性先验意图为动词先验意图。b表示一个词语中的第一个字符,i表示一个词语中的第二或第三个字符,r表示代词,v表示动词,m表示数词,q表示量词,d表示副词。x表示标点符号。
[0103]
在又一个例子中,对于目标文本“这个人好说话,总是乐于帮助别人。”对其进行标注,得到目标文本的标注数据如下:
[0104]1[0105]
这b_r
[0106]
个i_r
[0107]
人i_r
[0108]
好b_a
[0109]
说b_v
[0110]
话i_v
[0111]
,x
[0112]
总b_c
[0113]
是i_c
[0114]
乐b_v
[0115]
于i_v
[0116]
帮b_v
[0117]
助i_v
[0118]
别b_r
[0119]
人i_r
[0120]
。x
[0121]
1表示兼类词形容词性意图。
[0122]
步骤407,根据目标文本的标注数据生成标注数据集。
[0123]
电子设备对每个目标文本进行词性标注,得到标注数据集。
[0124]
综上所述,本技术实施例提供的技术方案,通过兼类词的词性来确定第二文本的词性先验意图,后续进行模型训练时,可以提高词性标注模型的精度,并且增加词性标注模型的收敛速度。
[0125]
标注数据集可用于训练词性标注模型,本技术实施例提供一种模型训练方法,包括:将所述标注数据集输入初始模型进行模型训练,得到词性标注模型;其中,所述标注数据集如上述所述的标注数据集获取方法得到。进一步地,通过本技术实施例提供的标注数据集来训练词性标注模型,一方面由于语料充足,由于神经网络模型的训练过程是端到端的,其训练过程可能会拟合各种特征,而增加先验意图后,可以避免神经网络模型在训练过程中拟合到非重要特征,因此可以提高词性标注模型的精度,并且增加词性标注模型的收
敛速度。请参考图5,通过标注数据集训练词性标注模型包括如下步骤:
[0126]
步骤501,将标注数据集中的目标文本输入初始模型。
[0127]
初始模型中的各项参数可以是随机数,也可以是技术人员基于实验或经验设定的。初始模型可以是隐马尔可夫模型、条件随机场等等。
[0128]
步骤502,通过初始模型输出目标目标文本的预测标注结果。
[0129]
初始模型对目标文本进行处理,得到目标文本的预测标注结果。
[0130]
步骤503,基于目标文本的预测标注结果和实际标注结果进行比对,得到预测标注结果与实际标注结果之间的相对误差。
[0131]
电子设备将目标文本的预测标注结果和标注数据之间的差值,作为预测标注结果与实际标注结果之间的相对误差。
[0132]
步骤504,通过损失函数以及相对误差对所述初始模型中的参数进行优化迭代,并从所述将标注数据集中的目标文本输入初始模型的步骤重新开始执行,直至满足停止迭代条件,生成词性标注模型。
[0133]
损失函数(loss function)是将随机事件或其有关随机变量的取值映射为非负实数以表示该随机事件的“风险”或“损失”的函数。损失函数包括且不限于:感知损失函数、交叉熵损失函数、对数损失函数等等
[0134]
停止迭代条件是指停止对初始模型中的参数进行迭代优化的条件。在一些实施例中,停止迭代条件是指对初始模型的迭代次数大于或等于预设次数,预设次数可以基于词性标注模型的精度要求实际确定。词性标注模型的精度要求越高,则预设次数越大。在另一些实施例中,停止迭代条件是指目标文本的预测标注结果与标注数据之间的误差小于或等于预设值,预设值可以基于词性标注模型的精度要求实际确定。词性标注模型的精度要求越高,则预设值越小。
[0135]
在本技术实施例中还提供一种数据标注方法,将待标注数据输入词性标注模型,得到所述待标注数据的目标标注;其中,所述词性标注模型根据上述模型训练方法训练得到。具体地,在训练得到词性标注模型后,电子设备将待标注数据输入词性标注模型,得到待标注数据的目标标注。
[0136]
综上所述,本技术实施例提供的技术方案,通过基于标注数据集来训练词性标注模型,一方面由于语料充足,另一方面还增加了兼类词的词性作为标注文本对应的词性先验意图,因此可以提高词性标注模型的精度,并且增加词性标注模型的收敛速度。
[0137]
请参考图6,其示出本技术一个实施例提供的标注数据集获取方法的流程图。该方法包括:
[0138]
步骤601,获取待标注数据集。
[0139]
电子设备可以从新闻资讯、出版书籍、论文文献、评论信息、问答答案等多个渠道获取待标注数据集,其获取待标注数据集的渠道可以基于业务场景需求实际设定。例如,若业务场景为对新闻资讯进行分类,则从新闻资讯中获取待标注数据集。
[0140]
步骤602,对待标注数据集进行分词、预标注。
[0141]
针对每一条文本数据,先采用分词工具对其进行分词,之后按照相关技术提供的词性标注方法对分词结果中的每个词语进行预标注。分词工具包括且不限于:jieba分词、腾讯文智、盘古分词等等。相关技术提供的词性标注方法包括且不限于:基于规则的词性标
注方法、基于深度学习模型的词性标注方法、基于统计的词性标注方法。通过对待标注数据集进行预标注,节省后续标注过程所需的时间以及处理资源,提高后续的标注效率。
[0142]
示例性地,针对文本数据“我喜欢打篮球”,对其进行分词得到“我”、“喜欢”、“打”、“篮球”,对上述文本数据进行预标注,“我”的词性为代词,“喜欢”的词性为动词,“打”的词性为动词,“篮球”的词性为名词。
[0143]
可选地,在预标注流程之后,还可以包括人工审核步骤。电子设备提供预标注结果的显示页面,供技术人员进行修正,以提高预标注结果的准确率。
[0144]
步骤603,获得标注数据集。
[0145]
每一条文本数据的预标注结果组成标注数据集。
[0146]
步骤604,根据标注数据集得到词典。
[0147]
在一些实施例中,电子设备将每条文本数据中的每个词语作为字典的键,该词语的词性作为字典的键值,得到keyword_dic(词典)。
[0148]
结合上文示例,针对文本数据“我喜欢打篮球”,电子设备将词语与词性组成的键-键值对{“我”:r;“喜欢”:v;“打”:v;“篮球”:n}存入字典。其中,r表示代词,v表示动词,n表示名词。
[0149]
步骤605,对词典进行去重处理。
[0150]
去重操作用于去除字典中重复的键-键值对。
[0151]
步骤606,对去重处理后的字典中的键-键值对进行统计分析。
[0152]
电子设备对字典中的键-键值对进行统计分析,以确定每个键对应的键值的数量,进而区分字典中的具有一个词性的词语(也即非兼类词)以及具有多个词性的词语(也即兼类词)。
[0153]
示例性地,词语“好”具备动词词性和形容词词性,“锁”具备动词词性和名词词性,“我”只具备代词词性,“篮球”只具备名词词性。统计完成后,得到字典keyword_dict={“我”:r;“篮球”:n;“好”:v,a;“锁”:v,n;

}。其中,“我”、“篮球”只有一个词性,因此对应的键值分别只有1个,分别是r和n;“锁”、“好”具备两个词性,因此对应的键值分别有2个,分别是v、a和v、n。
[0154]
步骤607,检测每个词的词性是否唯一。
[0155]
若是,则执行步骤408,若否,则执行步骤409。针对步骤406中的统计分析结果,遍历每个键的键值的数量,若数量大于1,则将该键添加至兼类词词典(multiple_dict);若数量等于1,则将该键添加至非兼类词词典(only_dict)。
[0156]
步骤608,根据检测结果将词性不唯一的词添加至兼类词词典。
[0157]
步骤609,根据检测结果将词性唯一的词添加至非兼类词词典。
[0158]
如图7所示,本技术示例还提供一种标注数据集获取装置,该装置包括兼类词获取模块701、文本获取模块702、词语替换模块703和标注数据集生成模块704。
[0159]
兼类词获取模块701,用于获取兼类词,兼类词是指具有多个词性的词语。
[0160]
文本获取模块702,用于获取兼类词在不同词性下的第一文本。
[0161]
词语替换模块703,用于针对兼类词在每个词性下的第一文本进行多次词语替换操作,得到兼类词在每个词性下的第一文本对应的多个第二文本,词语替换操作是指通过第一目标词语替换第一文本中的第二目标词语的操作,对第一文本的一次词语替换操作得
到一个第二文本,第一目标词语与第二目标词语具有相同词性,第一目标词语是第二目标词语的同义词。
[0162]
标注数据集生成模块704,用于基于目标文本生成标注数据集,目标文本包括兼类词在不同词性下的第一文本,以及兼类词在每个词性下的第一文本对应的第二文本。
[0163]
本技术提供一种标注数据集获取装置,通过获取兼类词在不同词性下的第一文本后,通过第一文本中的词语的同义词对第一文本进行多次词语替换操作,在不改变第一文本的语义的基础上实现自动语料扩充,使得用于生成标注数据集的第二文本更为丰富、更具有多样性。比如,兼类词“好”具有名词和形容词两个词性,电子设备获取其在不同词性下的第一文本,之后对每个第一文本进行五次词语替换操作,则最终得到十个第二文本,极大丰富了语料库。
[0164]
在一些实施例中,词语替换模块703,用于在每次词语替换操作中,确定当前次待替换的第二目标词语;基于第二目标词语在非兼类词词典中获取第一目标词语,非兼类词词典包括非兼类词,非兼类词是指具有一个词性的词语;将第一文本中的第二目标词语替换成第一目标词语,得到第二文本。
[0165]
在一些实施例中,词语替换模块703,用于将第一文本中的兼类词确定为待替换的第二目标词语;或者,将第一文本中的兼类词的相邻词语确定为待替换的第二目标词语,兼类词的相邻词语包括:与兼类词的语序相邻且在兼类词之后的词语;和/或,与兼类词的语序相邻且在兼类词之前的词语。
[0166]
在一些实施例中,标注数据集生成模块704,用于获取目标文本中的词语的词性;获取目标文本对应的词性先验意图,目标文本对应的词性先验意图表征以下至少一项:目标文本是否包括兼类词、在目标文本包括兼类词的情况下目标文本中的兼类词的最大概率词性;根据目标文本中词语的词性和目标文本对应的词性先验意图确定目标文本的标注数据;根据多个目标文本的标注数据生成标注数据集。
[0167]
在一些实施例中,标注数据集生成模块704,用于在目标文本中不包括兼类词的情况下,确定目标文本对应的词性先验意图为指定字符,指定字符表征目标文本不包括兼类词。
[0168]
在一些实施例中,标注数据集生成模块704,用于在一个目标文本包括n个兼类词的情况下,获取目标文本n个兼类词的词性先验意图,兼类词对应的每组目标文本对应的词性先验意图表征兼类词的最大概率词性,n为大于1的自然数。
[0169]
在一些实施例中,装置还包括:模型训练模块(图7未示出)。模型训练模块,用于将所述标注数据集输入初始模型进行模型迭代训练,得到词性标注模型。
[0170]
在一些实施例中,装置还包括:模型应用模块(图7未示出)。模型应用模块,用于将待标注数据输入词性标注模型,得到待标注数据的目标标注。
[0171]
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述装置和模块的具体工作过程,可以参考前述方法示例中的对应过程,在此不再赘述。
[0172]
在本技术所提供的几个示例中,模块相互之间的耦合可以是电性,机械或其它形式的耦合。
[0173]
另外,在本技术各个示例中的各功能模块可以集成在一个处理模块中,也可以是各个模块单独物理存在,也可以两个或两个以上模块集成在一个模块中。上述集成的模块
既可以采用硬件的形式实现,也可以采用软件功能模块的形式实现。
[0174]
如图8所示,本技术示例还提供一种电子设备1000,该电子设备1000可以是服务器,该电子设备1000包括处理器1010、存储器1020,其中,存储器1020存储有计算机程序指令,计算机程序指令被处理器1010调用时实执行上述的消歧方法,或者,消歧模型的训练方法。
[0175]
处理器1010可以包括一个或者多个处理核。处理器1010利用各种接口和线路连接整个电池管理系统内的各种部分,通过运行或执行存储在存储器1020内的指令、程序、代码集或指令集,以及调用存储在存储器1020内的数据,执行电池管理系统的各种功能和处理数据。可选地,处理器1010可以采用数字信号处理(digital signal processing,dsp)、现场可编程门阵列(field-programmable gate array,fpga)、可编程逻辑阵列(programmable logic array,pla)中的至少一种硬件形式来实现。处理器1010可集成中央处理器1010(central processing unit,cpu)、图像处理器1010(graphics processing unit,gpu)和调制解调器等中的一种或几种的组合。其中,cpu主要处理操作系统、用户界面和应用程序等;gpu用于负责显示内容的渲染和绘制;调制解调器用于处理无线通信。可以理解的是,上述调制解调器也可以不集成到处理器1010中,单独通过一块通信芯片进行实现。
[0176]
存储器1020可以包括随机存储器1020(random access memory,ram),也可以包括只读存储器1020(read-only memory)。存储器1020可用于存储指令、程序、代码、代码集或指令集。存储器1020可包括存储程序区和存储数据区,其中,存储程序区可存储用于实现操作系统的指令、用于实现至少一个功能的指令(比如触控功能、声音播放功能、图像播放功能等)、用于实现下述各种方法示例的指令等。存储数据区还可以存储车辆在使用中所创建的数据(比如电话本、音视频数据、聊天记录数据)等。
[0177]
如图9所示,本技术示例还提供一种计算机可读存储介质1100,该计算机可读存储介质1100中存储有计算机程序指令1110,计算机程序指令1110可被处理器调用以执行上述示例中所描述的方法。
[0178]
计算机可读存储介质可以是诸如闪存、eeprom(电可擦除可编程只读存储器)、eprom、硬盘或者rom之类的电子存储器。可选地,计算机可读存储介质包括非易失性计算机可读存储介质(non-transitory computer-readable storage medium)。计算机可读存储介质1100具有执行上述方法中的任何方法步骤的程序代码的存储空间。这些程序代码可以从一个或者多个计算机程序产品中读出或者写入到这一个或者多个计算机程序产品中。程序代码可以例如以适当形式进行压缩。
[0179]
以上,仅是本技术的较佳示例而已,并非对本技术作任何形式上的限制,虽然本技术已以较佳示例揭示如上,然而并非用以限定本技术,任何本领域技术人员,在不脱离本技术技术方案范围内,当可利用上述揭示的技术内容做出些许更动或修饰为等同变化的等效示例,但凡是未脱离本技术技术方案内容,依据本技术的技术实质对以上示例所作的任何简介修改、等同变化与修饰,均仍属于本技术技术方案的范围内。

技术特征:
1.一种标注数据集获取方法,其特征在于,所述方法包括:获取兼类词,所述兼类词是指具有多个词性的词语;获取所述兼类词在不同词性下的第一文本;针对所述兼类词在每个所述词性下的第一文本进行多次词语替换操作,得到所述兼类词在每个所述词性下的第一文本对应的多个第二文本,所述词语替换操作是指通过第一目标词语替换所述第一文本中的第二目标词语的操作,对所述第一文本的一次词语替换操作得到一个所述第二文本,所述第一目标词语与所述第二目标词语具有相同词性,所述第一目标词语是所述第二目标词语的同义词;基于目标文本生成标注数据集,所述目标文本包括所述兼类词在不同词性下的第一文本,以及所述兼类词在每个所述词性下的第一文本对应的所述第二文本。2.根据权利要求1所述的方法,其特征在于,所述针对所述兼类词在每个所述词性下的第一文本进行多次词语替换操作,得到所述兼类词在每个所述词性下的第一文本对应的多个第二文本,每次词语替换操作包括:确定当前次待替换的所述第二目标词语;基于所述第二目标词语在非兼类词词典中获取所述第一目标词语,所述非兼类词词典包括非兼类词,所述非兼类词是指具有一个词性的词语;将所述第一文本中的所述第二目标词语替换成所述第一目标词语,得到所述第二文本。3.根据权利要求2所述的方法,其特征在于,所述确定待替换的所述第二目标词语,包括:将所述第一文本中的兼类词确定为待替换的所述第二目标词语;或者,将所述第一文本中的兼类词的相邻词语确定为待替换的所述第二目标词语,所述兼类词的相邻词语包括:与所述兼类词的语序相邻且在所述兼类词之后的词语;和/或,与所述兼类词的语序相邻且在所述兼类词之前的词语。4.根据权利要求1所述的方法,其特征在于,基于所述目标文本生成标注数据集,包括:获取所述目标文本中词语的词性;获取所述目标文本对应的词性先验意图,所述目标文本对应的词性先验意图表征以下至少一项:所述目标文本是否包括所述兼类词、在所述目标文本包括所述兼类词的情况下所述目标文本中的兼类词的最大概率词性;根据所述目标文本中词语的词性和所述目标文本对应的词性先验意图确定所述目标文本的标注数据;根据所述目标文本的标注数据生成所述标注数据集。5.根据权利要求4所述的方法,其特征在于,所述获取所述目标文本对应的词性先验意图,包括:在所述目标文本中不包括所述兼类词的情况下,确定所述目标文本对应的词性先验意图为指定字符,所述指定字符表征所述目标文本不包括所述兼类词。6.根据权利要求4所述的方法,其特征在于,所述获取所述目标文本对应的词性先验意图,包括:
在一个所述目标文本包括n个兼类词的情况下,获取所述目标文本n个兼类词的n个词性先验意图,n为大于1的自然数。7.一种模型训练方法,其特征在于,包括:将所述标注数据集输入初始模型进行模型训练,得到词性标注模型;其中,所述标注数据集如权利要求1至权利要求6任一项所述的标注数据集获取方法得到。8.一种数据标注方法,其特征在于,包括:将待标注数据输入词性标注模型,得到所述待标注数据的目标标注;其中,所述词性标注模型根据如权利要求7所述的模型训练方法训练得到。9.一种标注数据集获取装置,其特征在于,所述装置包括:兼类词获取模块,用于获取兼类词,所述兼类词是指具有多个词性的词语;文本获取模块,用于获取所述兼类词在不同词性下的第一文本;词语替换模块,用于针对所述兼类词在每个所述词性下的第一文本进行多次词语替换操作,得到所述兼类词在每个所述词性下的第一文本对应的多个第二文本,所述词语替换操作是指通过第一目标词语替换所述第一文本中的第二目标词语的操作,对所述第一文本的一次词语替换操作得到一个所述第二文本,所述第一目标词语与所述第二目标词语具有相同词性,所述第一目标词语是所述第二目标词语的同义词;标注数据集生成模块,用于基于目标文本生成标注数据集,所述目标文本包括所述兼类词在每个所述词性下的第一文本,以及所述兼类词在每个所述词性下的第一文本对应的多个所述第二文本。10.一种电子设备,其特征在于,所述电子设备包括处理器以及存储器,所述存储器存储有计算机程序指令,所述计算机程序指令被所述处理器调用执行如权利要求1-6任一项所述的标注数据集获取方法。11.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质中存储有程序代码,所述程序代码被处理器调用执行如权利要求1-6任一项所述的标注数据集获取方法。

技术总结
本申请公开一种标注数据集获取方法、装置、电子设备及存储介质,该方法包括:获取兼类词;获取兼类词在不同词性下的第一文本;针对兼类词在每个词性下的第一文本进行多次词语替换操作,得到兼类词在每个词性下的第一文本对应的多个第二文本;基于目标文本生成标注数据集。本申请实施例提供的技术方案,通过获取兼类词在不同词性下的第一文本后,通过第一文本中的词语的同义词对第一文本进行多次词语替换操作,在不改变第一文本的语义的基础上实现自动语料扩充,使得用于生成标注数据集的第二文本更为丰富、更具有多样性。更具有多样性。更具有多样性。


技术研发人员:李长林 王洪斌 蒋宁 权佳成 曹磊
受保护的技术使用者:马上消费金融股份有限公司
技术研发日:2022.03.29
技术公布日:2022/7/5
转载请注明原文地址: https://www.8miu.com/read-7468.html

最新回复(0)