本说明书实施例涉及计算机,特别涉及一种扩充词表的方法,本说明书同时涉及扩充词表的装置,一种计算设备,一种计算机可读存储介质以及一种计算机程序产品。
背景技术:
1、随机计算机技术的发展,大模型应运而生,大模型也可以称为大语言模型,能够通过学习大量的文本数据来理解和生成人类的语言。这些模型能够生成连贯的文本,并能理解多种语言,包括一些复杂的语法结构、俚语、谚语等。
2、在大语言模型(如gpt系列、bert系列等)的预训练过程中,词表(vocabulary)扮演着至关重要的角色。词表基本上定义了模型能够理解和生成的所有单词或标记(token)的集合。这些标记可以是实际的单词、子词单元(比如词干或词缀)、字母,或者甚至是字节对编码(byte pair encoding,bpe)分割出来的片段。词表的作用和构建对于大模型的工作原理和效能极其关键。因此,如何提供更完善的词表是亟待解决的一个技术问题。
技术实现思路
1、有鉴于此,本说明书实施例提供了一种扩充词表的方法。本说明书一个或者多个实施例同时涉及一种扩充词表的装置,一种计算设备,一种计算机可读存储介质以及一种计算机程序,以解决现有技术中存在的技术缺陷。
2、根据本说明书实施例的第一方面,提供了一种扩充词表的方法,包括:
3、获取训练语料;所述训练语料包括第一语种的语料数据;
4、基于预设分词模型,得到所述训练语料对应的第一词表;所述第一词表中包含表示所述训练语料中的词语的标识;
5、将所述第一词表与第二词表合并,得到扩充词表,以便大模型基于所述扩充词表处理业务数据;所述第二词表为基于第二语种的语料数据生成的已知词表。
6、根据本说明书实施例的第二方面,提供了一种扩充词表的装置,包括:
7、语料获取模块,被配置为获取训练语料;所述训练语料包括第一语种的语料数据;
8、词表生成模块,被配置为基于预设分词模型,得到所述训练语料对应的第一词表;所述第一词表中包含表示所述训练语料中的词语的标识;
9、词表合并模块,被配置为将所述第一词表与第二词表合并,得到扩充词表,以便大模型基于所述扩充词表处理业务数据;所述第二词表为基于第二语种的语料数据生成的已知词表。
10、根据本说明书实施例的第三方面,提供了一种计算设备,包括:
11、存储器和处理器;
12、所述存储器用于存储计算机可执行指令,所述处理器用于执行所述计算机可执行指令,该计算机可执行指令被处理器执行时实现上述扩充词表的方法的步骤。
13、根据本说明书实施例的第四方面,提供了一种计算机可读存储介质,其存储有计算机可执行指令,该指令被处理器执行时实现上述扩充词表的方法的步骤。
14、根据本说明书实施例的第五方面,提供了一种计算机程序,其中,当所述计算机程序在计算机中执行时,令计算机执行上述扩充词表的方法的步骤。
15、本说明书一个实施例实现了利用预设分词模型得到第一语种的语料数据的第一词表,然后将第一词表与已知的第二语种的第二词表进行合并,得到扩充词表,这样得到的扩充词表可以包含第一语种以及第二语种的分词信息,使得大模型针对不同语种的业务也可以更准确的进行处理,提高大模型的处理效果。
16、并且在已知的第二语种的词表的基础上扩充第一语种的分词,也可以避免新得到的第一词表与第二词表的兼容性问题,使得大模型可以无差别的使用得到的扩充词表。
17、另外,本说明书一个实施例中也无需重新训练得到已知的第二语种的第二词表,可以在第二词表的基础上进行词表扩充,也可减少资源损耗。
1.一种扩充词表的方法,其特征在于,包括:
2.根据权利要求1所述的方法,其特征在于,所述训练语料包括多种语种的语料数据;所述训练语料包括若干个训练子语料,一个训练子语料包含一种语种的语料数据;
3.根据权利要求2所述的方法,其特征在于,所述将所述第一词表与第二词表合并,得到扩充词表,具体包括:
4.根据权利要求1所述的方法,其特征在于,所述第二语种为英文;所述第一语种包括中文、法文、俄文、西班牙文、阿拉伯文中至少一种语种。
5.根据权利要求1所述的方法,其特征在于,所述基于预设分词模型,得到所述训练语料对应的第一词表,具体包括:
6.根据权利要求5所述的方法,其特征在于,所述方法还包括:
7.根据权利要求5所述的方法,其特征在于,所述方法还包括:
8.根据权利要求5所述的方法,其特征在于,所述方法还包括:
9.根据权利要求1所述的方法,其特征在于,所述获取训练语料,具体包括:
10.根据权利要求1所述的方法,其特征在于,所述将所述第一词表与第二始词表合并,得到扩充词表,具体包括:
11.根据权利要求10所述的方法,其特征在于,若所述第一词表为中文词表,所述方法还包括:
12.根据权利要求1所述的方法,其特征在于,所述将所述第一词表与第二词表合并,得到扩充词表,具体包括:
13.根据权利要求1所述的方法,其特征在于,所述方法还包括:
14.一种扩充词表的装置,其特征在于,包括:
15.一种计算设备,其特征在于,包括:
16.一种计算机可读存储介质,其特征在于,其存储有计算机可执行指令,该计算机可执行指令被处理器执行时实现权利要求1至13中任意一项所述的扩充词表的方法的步骤。
17.一种计算机程序产品,包括计算机程序/指令,其特征在于,该计算机程序/指令被处理器执行时实现权利要求1至13中任意一项所述的扩充词表的方法的步骤。
