文本转换模型训练方法、文本转换方法、装置及电子设备与流程

allin2024-05-17  82



1.本技术涉及机器学习技术领域,更具体地,涉及一种文本转换模型训练方法、文本转换方法、装置及电子设备。


背景技术:

2.随着互联网技术的快速发展,并且伴随着网民数量的激增,生活中不断地涌现出新事物例如网络新词、网络热词等。然而对于某些人群(例如,较少上网的人群,或者是与现代社会存在信息代差的老年人)而言,在理解网络新词上存在困难,因此,在使用的比较新潮的产品上显示网络新词,或者是生活中出现网络新词时,该部分人群在阅读这些内容时多有不便,存在阅读障碍。


技术实现要素:

3.鉴于上述问题,本技术提出了一种文本转换模型训练方法、文本转换方法、装置及电子设备,能够解决上述问题。
4.第一方面,本技术实施例提供了一种文本转换模型的训练方法,所述方法包括:获取第一文本和第二文本,其中,所述第一文本和所述第二文本具有相同的语义;在所述第一文本中包括预设词语的情况下,从所述第二文本中确定与所述预设词语存在转换关系的转换词语;基于所述预设词语和所述转换词语,从所述第一文本中确定待转换内容,并从所述第二文本中确定已转换内容;将所述待转换内容和所述已转换内容作为训练数据对待训练模型进行训练,获得文本转换模型。
5.第二方面,本技术实施例提供了一种文本转换方法,所述方法包括:获取待转换文本;将所述待转换文本输入文本转换模型,获得所述文本转换模型输出的所述待转换文本的转换结果。
6.第三方面,本技术实施例提供了一种文本转换模型的训练装置,所述装置包括:获取模块,用于获取第一文本和第二文本,其中,所述第一文本和所述第二文本具有相同的语义;转换模块,用于在所述第一文本中包括预设词语的情况下,从所述第二文本中确定与所述预设词语存在转换关系的转换词语;确定模块,用于基于所述预设词语和所述转换词语,从所述第一文本中确定待转换内容,并从所述第二文本中确定已转换内容;训练模块,用于将所述待转换内容和所述已转换内容作为训练数据对待训练模型进行训练,获得文本转换模型。
7.第四方面,本技术实施例提供了一种文本转换装置,所述装置包括:采集模块,用于获取待转换文本;转换模块,用于将所述待转换文本输入至上述文本转换模型,获得所述文本转换模型输出的所述待转换文本的转换结果。
8.第五方面,本技术实施例提供了一种电子设备,包括:一个或多个处理器;存储器;一个或多个应用程序,其中所述一个或多个应用程序被存储在所述存储器中并被配置为由所述一个或多个处理器执行,所述一个或多个应用程序配置用于执行上述方法。
9.第六方面,本技术实施例提供了一种计算机可读存储介质,所述计算机可读取存储介质中存储有程序代码,所述程序代码可被处理器调用执行上述方法。
10.第七方面,本技术实施例提供了一种计算机程序产品,包括计算机程序/指令,该计算机程序/指令被处理器执行时实现上述方法。
11.在本技术实施例中,预设词语是上述人群(例如,较少上网的人群,或者是与现代社会存在信息代差的老年人)难以理解的词语,在第一文本中包括预设词语的情况下,预设词语会导致第一文本难以被上述人群理解,第二文本中包括与预设词语存在转换关系的转换词语,转换词语可以理解为将难以理解的预设词语经过转换后成为易于上述人群理解的词语,由于第二文本中存在转换词语,第二文本易于上述人群理解。基于预设词语和转换词语,从第一文本中确定待转换内容,相应的在第二文本中确定已转换内容,将该待转换内容和已转换内容作为训练数据对待训练模型进行训练,使得该模型学习训练数据的规律,从而获得文本转换模型,文本转换模型用于将不易于上述人群理解的文本转换为易于上述人群理解的文本,用户通过易于理解的文本了解不易于理解的文本的含义,打破了不易于理解的文本带来的阅读障碍,为用户提供阅读便利。
12.本技术的这些方面或其他方面在以下实施例的描述中会更加简明易懂。
附图说明
13.为了更清楚地说明本技术实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本技术的一些实施例,对于本领域技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
14.图1示出了本技术一实施例提供的文本转换模型训练方法的流程示意图;
15.图2示出了transformer模型的架构示意图;
16.图3示出了本技术的图1所示的文本转换模型训练方法的步骤s130的一种流程示意图;
17.图4示出了本技术的图1所示的文本转换模型训练文本翻译方法的步骤s140的一种流程示意图;
18.图5示出了本技术一实施例提供的文本转换方法的流程示意图;
19.图6示出了本技术另一实施例提供的文本转换方法的流程示意图;
20.图7示出了本技术实施例提供的电子设备的显示界面示意图;
21.图8示出了本技术又一实施例提供的文本转换模型训练方法的流程示意图;
22.图9示出了本技术一实施例提供的文本转换模型训练装置的框图;
23.图10示出了本技术一实施例提供的文本转换装置的框图;
24.图11是本技术实施例的用于执行根据本技术实施例的文本转换模型训练方法或文本转换方法的电子设备的框图;
25.图12示出了本技术实施例的用于保存或者携带实现根据本技术实施例的文本转换模型训练方法或文本转换方法的程序代码的存储单元。
具体实施方式
26.下面将结合本技术实施例中的附图,对本技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本技术一部分实施例,而不是全部的实施例。基于本技术中的实施例,本领域技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本技术保护的范围。
27.随着互联网技术的快速发展,并且伴随着网民数量的激增,生活中不断地涌现出新事物例如网络新词、网络热词等。对于某些人群,例如,较少上网的人群,或者是与现代社会存在信息代差的老年人,尤其是对于老年人,人口老龄化问题已成为公共课题,就我国而言,截至2020年,65岁以上的老年人口占总人口的比例已经接近12%,149个地级市已经进入深度老龄化,由老龄化引起的代际沟通困难,社会服务的数字鸿沟问题越来越显著。
28.目前的技术产品如客服机器人,这类技术产品的设计者、开发者和使用者主要是较为新潮的年轻人群体,而面向新潮的用户(如新潮的年轻人用户)的语言沟通特点是简洁、明快、高效、低信息冗余等,使得网络新词也具备这些特点。而对于上述人群中较少上网的人群,由于较少接触到网络上的新事物、新词汇,在使用上述技术产品或者接触到网络新词时,难以理解。同样,对于老年人群体而言,由于视力退化、反应速度变慢等自然原因,导致老年人阅读信息的速度比较缓慢,而且对各种“新词汇”的理解能力较差,记忆力不足导致有些新词信息需要反复核对。因此,老年人在阅读上述技术产品上显示的网络新词时也存在诸多不便,因此如何为上述人群在使用网络新词提供便利,成为亟待解决的问题。
29.针对上述技术问题,发明人经过长期的研究发现并提出了一种文本转换模型训练方法、文本转换方法、装置及电子设备,从上述人群难以理解的第一文本确定待转换内容,从上述人群易于理解的第二文本中确定已转换内容,通过待转换内容和已转换内容训练待训练模型,获得文本转换模型,通过文本转换模型用于将不易于上述人群理解的文本转换为易于上述理解的文本,用户通过易于理解的文本了解不易于理解的文本的含义,打破了不易于理解的文本带来的阅读障碍,为用户提供阅读便利,也解决了不同时代语言文化的迁移学习问题。其中,具体的文本转换模型训练方法在后续的实施例中进行详细的说明。
30.如图1所示,本实施例提供了一种文本转换模型训练方法,该方法的执行主体可以为电子设备,其中,电子设备可以为终端设备或者服务器,终端设备可以是手机、平板电脑、笔记本电脑、台式电脑、智能穿戴设备等。服务器可以是独立的物理服务器,也可以是多个物理服务器构成的服务器集群或者分布式系统,还可以是提供云服务器。所述文本转换模型训练方法具体可以包括以下步骤:
31.步骤s110:获取第一文本和第二文本,其中,所述第一文本和所述第二文本具有相同的语义。
32.在本实施例中,第一文本和与第一文本语义相同的第二文本可以构成样本对,该第一文本可以为不易于上述人群理解的文本,该第二文本可以为易于上述人群理解的文本。为提高转换模型的输出精度,通常需要使用大量的样本来训练模型,因此,第一文本和第二文本的数量可以均为多个。
33.其中,第一文本中可以存在网络新词或者网络当下流行的表达方式,可以从近五年的互联网文本信息中抽取获得,由于网络新词或者当下流行的表达方式具有简洁、明快、高效、低信息冗余等特点,符合新潮年轻用户的阅读习惯,所以导致第一文本难以被上述人
群(例如较少上网的人群,或者是与现代社会存在信息代差的老年人)理解,上述人群在阅读第一文本时,第一文本在上述人群的理解下可能存在语义模糊、语句不通顺、缺少必要组成部分等问题,给上述人群阅读造成不便。其中,第一文本可以是句子、段落或篇章等文本,在第一文本中可以包含数字、文字、标点符号等。在语言类型上,第一文本可以是中文文本,也可以是英文文本,在此不做限定。
34.在一些实施方式中,可以通过电子设备直接获取第一文本。作为一种方式,电子设备上可以设置有读取设备,通过读取设备读取显示于显示界面、纸张、书籍等上的文本从而获得第一文本,例如,读取设备可以为摄像头,通过摄像头拍摄包含第一文本的页面从而获得第一文本;再例如,读取设备还可以为扫描笔,通过扫描笔对显示页面、书籍或者纸张上的文本进行扫描从而获得第一文本。作为另一种方式,电子设备还可以包括显示屏,显示屏用于显示文本,电子设备获取显示屏上显示的文本作为第一文本。
35.在另一些实施方式中,电子设备可以与其他设备通信连接,其他设备通过该连接将第一文本发送至电子设备,电子设备由此获得第一文本。作为一种方式,电子设备与其他设备通信连接,在电子设备通过通讯软件与其他设备的通信软件进行通信的情况下,其他设备通过自身的通信软件发送第一文本至电子设备,其中,其他设备发送的第一文本可以为其他设备的用户编辑并发送的文本,也可以为其他设备的客服机器人自动发送的文本。作为另一种方式,电子设备可以从将服务器等设备上下载、保存的文本作为第一文本。
36.在另一些实施方式中,电子设备中保存有声音信息,其中,声音信息可以是电子设备接收到其他设备发送的语音信息,便于理解的是,电子设备和其他设备上均安装有通信软件,当两个设备通过安装在各自设备上的通信软件通信时,电子设备通过其上的通信软件接收其他设备的通信软件发送的语音信息。声音信息还可以是电子设备自身录制的音频信息,例如,用户在需要录制音频信息的情况下,开启电子设备的录音功能后,朗读文本,通过电子设备上的拾音设备采集用户朗读文本时产生的音频信息。电子设备通过语音识别技术,将声音信息转换为文本,电子设备将由声音信息转换的文本作为第一文本。
37.可选地,在获取第一文本时,除了可以通过上述方式实现外,可以通过上述的至少两种方式结合实现,或者是还可以通过其他不同的方式实现,具体可以根据是自己情况设定,本实施例对此不做限定。
38.其中,第二文本是符合上述人群的语言环境,易于上述人群(例如较少上网的人群,或者是与现代社会存在信息代差的老年人)理解的文本,第二文本为老年用户容易理解的文本,因此第二文本的表达方式可以从前些年的新闻语料中提取获得。第一文本和第二文本表达的是相同的语义,可以理解为,为满足上述人群的阅读需求,将第一文本转换、翻译成为满足上述人群所处语言环境的第二文本,例如,除了转换第一文本中的预设词汇外,还可以对简练的第一文本补齐句子的必要成分(例如必要语句成分为主语、谓语、宾语、补语、状语、定语等),获得第二文本。其中,第二文本可以是句子、段落或篇章等文本,在第二文本中可以包含数字、文字、标点符号等。可选地,在语言类型上,第一文本的语言类型与第二文本的语言类型可以相同,若第一文本为中文文本,则第二文本也为中文文本;若第一文本为英文文本,则第二文本也为英文文本。第一文本的语言类型与第二文本的语言类型也可以不同,若第一文本为英文文本,第二文本可以为中文文本;或者,若第一文本为中文文本,第二文本为英文文本。
39.在一种实施方式中,在获取到第一文本后,通过人工的方式对第一文本进行转换(可以理解为翻译)得到易于上述人群理解的第二文本,并且将第二文本录入电子设备中。可以通过预先制定的预设词语和转换词语之间的关系对照表,如表1所示,其中,预设词语符合新潮用户的阅读习惯,转换词语符合上述人群的阅读习惯,在人工翻译时,对于第一文本中存在的预设词语,可以对照表1将第一文本中的预设词语转换为转换词语,获得转换后的第二文本。
40.表1
[0041][0042][0043]
其中,在表1中,含义相同的预设词语和转换词语位于同一行中。
[0044]
在另一种实施方式中,电子设备与其他设备通信连接,其他设备通过该连接将第一文本发送至电子设备的同时,将与第一文本组成样本对的第二文本发送至电子设备。
[0045]
步骤s120:在所述第一文本中包括预设词语的情况下,从所述第二文本中确定与所述预设词语存在转换关系的转换词语。
[0046]
预先设置预设词语,其中,预设词语由于难以被上述人群直接理解,因此可以预先选定并标记的词语,例如,预设词语可以为网络新词或者网络当下流行的表达方式,如“卷”、“拔草”、“鸡娃”等。第一文本可能由多个词语和多个标点符号组成,在第一文本中包含预设词语的情况下,也就是说,组成第一文本的多个词语中存在预设词语,由第一文本中的预设词语难以被用户直接理解,因此预设词语给用户理解第一文本带来障碍。为便于上述人群理解第一文本,需要对第一文本进行转换,以将第一文本转换成上述人群易于理解的形式,即转换为第二文本。在第二文本中存在转换词语与第一文本中的预设词语对应,并且第二文本中的转换词语能够表述第一文本中的预设词语的含义,且第二文本中的转换词语更易于上述人群理解。
[0047]
可选地,电子设备在获得训练语料即第一文本和第二文本后,可以首先采用预设标识对第一文本中的预设词语进行标注,并且采用相同的预设标识对第二文本中,与预设
词语含义相同的转换词语进行标注。如果在第一文本中存在多个预设词语,多个预设词语中每个预设词语使用的预设标识与每个预设词语对应的转换词语使用的预设标识一致。
[0048]
为了便于理解,以第一文本为“现在年轻人工作卷到飞起”,第一文本对应的第二文本为“现在的年轻人,在工作中相互竞争,到了非常激烈的地步”进行说明,并且在本例中预设标识为预设符号【】和预设编号(例如为阿拉伯数字1、2、3等)。预设词语包括“卷”和“飞起”等,可见,在第一文本中恰好包括预设词语,采用预设符号和预设编号对第一文本中的预设词语“卷”和“飞起”进行标注,获得标注后的第一文本为“现在年轻人工作【1卷】到【2飞起】”。同样,采用相同的预设符号和预设编号对第二文本中预设词语“卷”对应的转换词语“相互竞争”进行标注,采用相同的预设符号和预设编号对第二文本中预设词语“飞起”对应的转换词语“非常激烈”进行标注,从而获得标注后的第二文本为“现在的年轻人,在工作中【1相互竞争】,到了【2非常激烈】的地步”。
[0049]
同样的,以第一文本为“以新业务为抓手,用技术赋能公司运营”,第二文本为“把新业务作为切入点,用技术方法增强公司运营的能力”例,预设词语还包括“抓手”和“业务”,在该第一文本中存在预设词语“抓手”和“业务”,采用预设符号【】和预设编号对该第一文本中的预设词语“抓手”和“业务”进行标注,获得标注后的第一文本为“以新业务为【1抓手】,用技术【2赋能】公司运营”。同样,采用相同的预设符号和预设编号对第二文本中预设词语“抓手”对应的转换词语“切入点”进行标注,采用相同的预设符号和预设编号对第二文本中预设词语“赋能”对应的转换词语“增强
……
的能力”进行标注,从而获得标注后的第二文本为“把新业务作为【1切入点】,用技术方法【2增强】公司运营【2的能力】”。
[0050]
需要说明的是,上述的预设符号不限于【】,还可以为[]、《》、||等,在此不做具体限定。同样,上述的预设编号也不限于阿拉伯数字,还可以为中文数字、字母、罗马数字等,在此也不做具体限定。
[0051]
步骤s130:基于所述预设词语和所述转换词语,从所述第一文本中确定待转换内容,并从所述第二文本中确定已转换内容。
[0052]
在第一文本中,并非所有的词语都会对上述人群理解该第一文本带来障碍,也就是说,在第一文本中存在上述人群易于理解的内容,并且也存在不便于上述人群理解的内容(即包含预设词语的内容)。由于第一文本中上述人群易于理解的内容不会给用户阅读带来障碍,因此无需通过电子设备转换,并且如果转换第一文本中上述人群易于理解的内容也会对电子设备的处理资源造成浪费。基于上述原因,在第一文本中,需要找到由于预设词语的存在带来阅读障碍的内容也就是待转换内容。可以理解的是,上述人群直接阅读待转换内容可能不能理解待转换内容表达的含义,或者是错误理解待转换内容所表达的含义,从而无法真正理解第一文本。在确定第一文本中的待转换内容的同时,需要在第二文本中确定能够表达待转换内容含义的已转换内容,待转换内容和已转换内容形成一对样本对,用作待训练模型的训练数据。
[0053]
步骤s140:将所述待转换内容和所述已转换内容作为训练数据对待训练模型进行训练,获得文本转换模型。
[0054]
在获得待转换内容和已转换内容之后,获取待训练模型,将待转换内容和已转换内容作为训练样本输入模型,通过待转换内容和已转换内容对待训练模型进行训练建模,从而基于该训练样本总结出规律,使得该模型学出待转换内容和已转换内容之间的映射关
系,获得文本转换模型。
[0055]
获得的文本转换模型存储至存储位置,在后期使用时从存储位置获取文本转换模型。在一些实施方式中,该文本转换模型可以预先训练完成后存储在电子设备本地。在使用文本转换模型时,可以快速调用该模型,在输入待转换文本,待转换文本是符合新潮年轻人阅读习惯文本,或者是包含难以理解的预设词语的文本时,文本转换模型可以快速输出转换结果,转换结果为符合上述人群阅读习惯且不包含预设词汇的文本,并且由于该模型存储在电子设备本地,也可以有效避免由于网络因素的影响降低了文本转换模型输出转换后转换结果的速度,响应速度快,进一步提升用户体验。
[0056]
在另一些实施方式中,文本转换模型可以预先完成训练后存储在于电子设备通信连接的服务器。在使用文本转换模型时,电子设备将待转换文本发送至服务器的文本转换模型,以指示该文本转换模型输出转换结果,并获取服务器发送的转换结果,从而通过将文本转换模型存储在服务器的方式,减少该模型对电子设备的存储空间的占用,降低对电子设备正常运行的影响。
[0057]
其中,由于网络是不断发展的,网络新词也是不断产生的,因此,预设词语也不断更新,为了提高文本转换模型转换的准确率,因此,可以定期或不定期对文本转换模型进行更新,使用包含新晋的预设词语的第一文本和该第一文本对应的第二文本对文本转换模型持续进行迭代更新,使得文本转换模型能够获得更加准确的转换结果。
[0058]
可选地,本技术实施例的待训练模型可以是transformer模型、卷积神经网络(convolution neural network,cnn)、循环神经网络(rnn,recurrent neural network)、时间递归神经网络(long short termmemory,lstm)、双向循环神经网络(bidirectional recurrent neural network,birnn)等。需要说明的是,上述举例不应理解为对待训练模型的类型的限制。
[0059]
以待训练模型为transformer模型为例,transformer模型是一种机器学习模型,其实现主要基于全注意力(attention)机制,相较于传统的rnn,lstm等序列学习机制,transformer模型的attention机制可以保证高效并行计算,从而极大节省训练和推理时间。图2示出了transformer模型的架构示意图,如图图2所示,transformer模型包括inputembedding层和outputembedding层,以待转换内容作为输入参数输入所述inputembedding层,且以所述已转换内容作为输出参数输入所述outputembedding层对所述transformer模型进行训练,获得已训练的transformer模型。
[0060]
在训练transformer模型时,训练embedding层(嵌入层)的本质是训练出文本转换到向量的转换关系,在第一文本中获得的待转换内容实质上是文本,在第二文本中获得的已转换内容实质上也是文本。因此,待转换内容输入inputembedding层时,训练的是将待转换内容转换成待转换内容对应的词向量的转化关系,通过该转换关系将词语进行向量化表示,可以理解的是,将词语数值化。类似地,将已转换内容输入outputembedding层时,训练的是将已转换内容转换成为已转换内容对应的词向量的转换关系,其中,词向量可以表征同一文本中每个词语或文本内容之间的关系。
[0061]
可选地,为了提升transformer模型的训练速度,减少模型对训练样本的需求,可以用已训练的词向量模型来初始化transformer模型的输入层(输入层包括inputembedding层和outputembedding层),即将已训练的词向量模型的参数作为
transformer模型的输入参数。具体如下,首先获取已训练的第一词向量模型以及已训练的第二词向量模型,其中,所述已训练的第一词向量模型以所述待翻译样本文本作为输入参数,所述待转换内容对应的位置编码作为输出参数进行训练获得,所述已训练的第二词向量模型以所述已翻译内容作为输入参数,所述待转换内容对应的位置编码作为输出参数进行训练获得,待转换内容为新潮的用户容易理解的文本。再获取所述已训练的第一词向量模型的矩阵参数作为第一矩阵参数,以及获取所述已训练的第二词向量模型的矩阵参数作为第二矩阵参数。然后将所述第一矩阵参数作为所述inputembedding层的工作参数并进行参数冻结,其中,inputembedding层的隐层维度超参数的维度等于第一词向量模型的参数的维度。以及将所述第二矩阵参数作为所述outputembedding层的工作参数并进行参数冻结,其中,outputembedding层的隐层维度超参数的维度等于第二词向量模型的参数的维度,其中,对模型的inputembedding层和outputembedding层进行参数冻结指的是这两个神经网络层的工作参数不再变化,模型训练中损失反向传播过程中不会修改上述工作参数。采用训练好的两个词向量模型的矩阵参数分别作为inputembedding层和outputembedding层的工作参数,可以加速transformer模型的训练,并且也可以用更少的训练数据集进行训练就可以获得训练好的transformer模型,降低了transformer模型对样本的需求。
[0062]
可选地,在本技术的训练样本充足的情况下,可以采用第一文本训练上述第一词向量模型,可以采用第二文本训练上述第二词向量模型。在训练第一词向量模型的情况下,获取第一文本,获取第一文本的词向量作为第一词向量,例如可以采用独热编码的方式获取第一文本的词向量,将第一文本和第一词向量输入待训练的词向量模型进行训练,获得第一词向量模型。同样,在训练第二词向量模型的情况下,获取第二文本,获取第二文本的词向量作为第二词向量,例如可以采用独热编码的方式获取第二文本的词向量,将第二文本和第二词向量输入待训练的词向量模型进行训练,获得第二词向量模型。
[0063]
可选地,词向量模型可以为,但不限于word2vec、glove、elmo、bert等。第一词向量模型的向量维度、第二词向量模型的向量维度均等于transformer模型的inputembedding层的隐层维度。
[0064]
在使用transformer模型作为文本转换模型的情况下,待转换内容和已转换内容两者实质上均为文本,在获取到待转换内容后,获取待转换内容的词序列;对待转换内容的词序列进行编码获得待转换内容的词向量;再对待转换内容的词向量进行位置编码操作,获得待转换内容的每个词的位置编码,对待转换内容的每个词的位置编码和待转换内容的词向量进行加和操作,获得加和操作后的结果。同样,在获取到已转换内容后,获取已转换内容的词序列;对已转换内容的词序列进行编码获得已转换内容的词向量;再对已转换内容的词向量进行位置编码操作,获得已转换内容的每个词的位置编码,对已转换内容的每个词的位置编码和已转换内容的词向量进行加和操作,获得加和操作后的结果。将对待转换内容的每个词的位置编码和待转换内容的词向量加和操作后的结果输入transformer编码器网络进行编码,并将transformer编码器网络编码后的结果输入至transformer解码器网络,同时将已转换内容的每个词的位置编码和已转换内容的词向量进行加和操作后的结果输入transformer解码器网络中。在transformer解码器网络中,学习已转换内容的每个编码位置的词语与待转换内容的每个编码位置的词语之间的对齐关系,获得已训练的transformer模型。在使用已训练的transformer模型进行预测的情况下,将待转换文本输
入已训练的transformer模型,已训练的transformer模型的softmax模块预测输出待转换文本对应的已转换文本。
[0065]
对于上述人群(例如,较少上网的人群,或者是与现代社会存在信息代差的老年人)而言,一些简练的、新潮的表达方式(如第一文本)通常难以理解,因此,需要将简练的、新潮的表达方式冗余成符合上述人群理解的表达方式(如第二文本),上述人群才能更好的理解,为实现这个目的,本实施例中通过训练待训练模型,以获得已训练的文本转换模型,通过文本转换模型实现上述文本的转换。
[0066]
本实施例提供的文本转换模型训练方法,获取第一文本,以及获取与第一文本具有相同语义的第二文本,预设词语是上述人群(例如,较少上网的人群,或者是与现代社会存在信息代差的老年人)难以理解的词语,在第一文本中包括预设词语的情况下,预设词语导致第一文本难以被上述人群理解,第二文本中包括与预设词语存在转换关系的转换词语,转换词语可以理解为将难以理解的预设词语经过转换后成为易于上述人群理解的词语,由于第二文本中存在转换词语,第二文本易于上述人群理解,基于预设词语和转换词语,从第一文本中确定待转换内容,相应的在第二文本中确定已转换内容,可以理解的是,待转换内容和已转换内容是用于训练模型的样本,将该待转换内容和已转换内容作为训练数据对待训练模型进行训练,使得该模型学习训练数据的规律,从而获得文本转换模型,通过文本转换模型可以将不易于上述人群理解的文本转换为易于上述理解的文本,用户通过易于理解的文本了解不易于理解的文本的含义,打破了不易于理解的文本带来的阅读障碍,为用户提供阅读便利。如果用户不理解第一文本的含义,可能会直接关闭第一文本,在打破阅读障碍后,用户通过转换后的第二文本理解第一文本的含义,使得用户对第一文本的接受度高,用户会持续阅读第一文本,便于第一文本的推广。
[0067]
为获得待训练模型的训练样本,需要确定待转换内容和已转换内容,本实施例提出了一种确定待转换内容和已转换内容的一种实施方式,如图3所示,本步骤包括如下子步骤:
[0068]
子步骤s131:获取所述转换词语的词语数量。
[0069]
在获得预设词语对应的转换词语之后,再获取转换词语的词语数量。作为一种方式,根据预设标识获取转换词语的词语数量,可以理解的是,在前述步骤中,通过预设标识对预设词语进行标注,并且采用相同的预设标识标注预设词语对应的转换词语,可以认为转换词语的词语数量就是预设标识的数量,获取预设标识的数量就可以获得转换词语的词语数量。其中,转换词语的词语数量可以为一个,也可以为多个。需要说明的是,在第一文本中包括多个预设词语的情况下,获取多个预设词语各自对应的转换词语的词语数量。
[0070]
继续结合上述例子进行说明,标注后的第一文本为“以新业务为【1抓手】,用技术【2赋能】公司运营”,且标注后的第二文本为“把新业务作为【1切入点】,用技术方法【2增强】公司运营【2的能力】”,标注后的预设词语“【1抓手】”对应的预设词语为第二文本中用【1】标注的词语,在第二文本中【1】的数量为一个,所以预设词语“抓手”对应的转换词语的词语数量为一个,即“切入点”。标注后的预设词语“【2赋能】”对应的预设词语为第二文本中用【2】标注的词语,在第二文本中【2】的数量为两个,所以预设词语“赋能”对应的转换词语的词语数量为两个,即“增强”和“的能力”。
[0071]
子步骤s132:基于所述预设词语、所述转换词语以及所述词语数量,从所述第一文
本中确定待转换内容,并从所述第二文本中确定已转换内容。
[0072]
在获得词语数量后,判断词语数量是否为一个。若词语数量为一个,则从所述第一文本中确定所述预设词语作为所述待转换内容,并从所述第二文本中确定所述转换词语作为已转换内容。可以理解的是,词语数量为一个,可以直接将预设词语翻译为转换词语,不需要去结合第一文本的上下文的语境对预设词语翻译后的词语做调整,直接将预设词语作为所述待转换内容,并且将转换词语作为已转换内容,从第一文本中确定待转换内容和第二文本中确定已转换内容,待转换内容和已转换内容形成一组样本对,作为后续待训练模型的训练样本,以便于通过后续对待训练模型的训练建立两者之间的映射关系。
[0073]
例如,继续结合上述子步骤s131中的例子,预设词语“抓手”对应的转换词语“切入点”,在第二文本中该转换词语的词语数量为一个,则将预设词语“抓手”确定为待转换内容,且将转换词语“切入点”确定为已转换内容,以便于后续建立两者之间的映射关系。待转换内容和已转换内容可以对应存储于关系对照表中,如表2所示:
[0074]
表2
[0075]
待转换内容已转换内容内卷/卷相互竞争飞起非常挖坟晒别人的历史污点开森开心粉丝追星族无感没有感觉赋能赋予能力抓手切入点凡尔赛拐弯抹角的自夸
[0076]
其中,在表2中,含义相同的待转换内容和已转换内容位于同一行中。
[0077]
若词语数量不为一个,说明所述词语数量为至少两个,则从所述第一文本中确定所述预设词语以及所述预设词语的上下文中的目标文本内容作为所述待转换内容,并从所述第二文本中确定至少两个转换词语以及所述至少两个转换词语之间的文本内容作为所述已转换内容。可以理解的是,当转换词语的词语数量为至少两个,说明预设词语直接翻译的结果可能不符合第一文本所处的语境,不能准确表达第一文本的含义,或者说明直接翻译的结果不符合上述人群的语言习惯,使得上述人群难以理解,因此在将预设词语转换成转换词语的情况下,需要结合预设词语所在的第一文本的上下文的语境进行转换,转换获得的转换词语的数量为至少两个,在至少两个转换词语之间穿插着的文本内容,在至少两个转换词语之间穿插着的文本内容是与第一文本中的上下文内容匹配,可以理解的是,在至少两个转换词语之间穿插着的文本内容是与第一文本中的上下文内容表达的是相同的含义,甚至是完全一致的内容。
[0078]
在词语数量为两个的情况下,获取待转换内容和已转换内容可以通过如下方式,首先,从第二文本中获取所述至少两个转换词语之间的文本内容。继续结合上述例子,标注后的第二文本为“把新业务作为【1切入点】,用技术方法【2增强】公司运营【2的能力】”,在预设词语“赋能”对应的两个转换词【2增强】和【2的能力】之间的文本内容为“公司运营”。
[0079]
然后,在所述第一文本中的所述预设词语的上下文中的目标文本内容与所述至少两个转换词语之间的文本内容匹配的情况下,也就是说,第一文本中预设词语的上下文中的目标文本内容与第二文本中的至少两个转换词之间的文本内容表达的意思一致或相似,说明在词语数量为至少两个的情况下,将第一文本中的预设词语转换为转换词语,考虑到了预设词语上下中目标文本的内容,将所述目标文本内容作为所述待转换内容,并从所述第二文本中确定至少两个转换词语以及所述至少两个转换词语之间的文本内容作为所述已转换内容,便于后续建立待转换内容和已转换内容之间的对应关系。
[0080]
例如,继续结合上述例子,预设词语“赋能”对应的转换词语“增强
……
的能力”,结合第一文本的语境以及上述人群的语言习惯(例如上述人群说话语序),在上述解释中已说明在上述转换词语中的词语数量为两个,第二文本把新业务作为【1切入点】,用技术方法【2增强】公司运营【2的能力】中两个转换词语“【2增强】”和“【2的能力】”之间的文本内容为“公司运营”,第二文本中的文本内容为“公司运营”与第一文本中的预设词语“赋能”的上下文中的目标文本内容“公司运营”。
[0081]
在预设词语的数量不止一个的情况下,本技术实施例还提供另一种实施方式,获取第一文本后,再从第一文本中确定预设词语,根据预设词语对第一文本进行拆分,将第一文本拆分为多段第一子文本。同样,结合第一文本的拆分结果(即第一子文本)和预设词语对应的转换词语对第二文本进行拆分,将第二文本拆分为第二子文本,第二子文本的段数和第一子文本的段数一致。将多段第一子文本作为待转换内容,并且将多段第二子文本作为已转换内容。
[0082]
例如,对于第一文本“都是先种草再拔草的套路,现在完全无感”,且第二文本“都是先吸引培养用户再从用户身上赚取利润的把戏,现在我们对这些完全没有兴趣”,标注后的第一文本为“都是先【1种草】再【2拔草】的【3套路】,现在完全【4无感】”,标注后的第二文本为“都是先【1吸引培养用户】再从用户身上【2赚取利润】的【3把戏】,现在我们对这些完全【4没有兴趣】”。将第一文本拆分为多段第一子文本(也就是待转换内容)“都是先【1种草】”,“再【2拔草】”,“的【3套路】”,“现在完全【4无感】”。将第二文本拆分为多段第二子文本(也就是已转换内容)“都是先【1吸引培养用户】”,“再从用户身上【2赚取利润】”,“的【3把戏】”,“现在我们对这些完全【4没有兴趣】”。
[0083]
为了保证文本转换模型输出结果更符合上述人群的阅读需求,在选取训练样本阶段,应该保证选取的训练样本中有便于上述人群阅读文本的冗余度。如下,如图4所示,步骤s141可以包括如下子步骤:
[0084]
子步骤s141:获取所述待转换内容对应的第一字符串长度,并获取所述已转换内容对应的第二字符串长度。
[0085]
获取待转换内容对应的第一字符串长度,字符串长度可以表征文本或内容的简练程度,一般而言,字符串越短文本或内容越简练,字符串越长文本或内容越冗余、清楚。而待转换内容是从第一文本中获取的,且第一文本符合新潮年轻人的使用习惯,具有简练、低冗余等特点,因此第一字符串的长度通常较短。同样,获取已转换内容对应的第二字符串长度,第二字符串是从第二文本中获取的,而第二文本符合上述人群的使用习惯,具有冗余度高等特点,因此,第二字符串长度比第一字符串长度长。
[0086]
作为一种方式,标点符号通常不影响上述人群阅读文本,并且预设词语通常转换
1)/1=0%,对于第d组“现在完全【4无感】”和“现在我们对这些完全【4没有兴趣】”,计算出的r(d)=(9-4)/9=55.5%。
[0095]
获取预先设置的比率阈值,比率阈值用于衡量已转换内容是否具有足够的冗余,以便上述人群理解,可选地,预设比率可以为30%。再比较冗余比率与比率阈值之间的大小,如果冗余比率小于预设阈值,说明已转换内容不具备足够的冗余过于精简,不能向上述人群准确表达待转换内容的含义,或者是其前后文并不具备相应的使用场景,或者是其不便于上述人员理解,不将已转换内容作为训练样本,也就是说,不将该已转换内容用于模型训练(如上述的第a组和第c组)。
[0096]
如果所述冗余比率大于比率阈值,说明已转换内容具备足够的冗余,其前后文并具备相应的使用场景,或者是已转换内容可以详细的向上述人群表达待翻译内容的含义,可以将已转换内容作为训练样本(如上述的第b组和第d组),也就是说,可以将该已转换内容用于模型训练,将所述待转换内容和所述已转换内容作为训练数据对待训练模型进行训练,获得文本转换模型。
[0097]
上述实施例中已获得文本转换模型,通过该模型可以实现文本的转换,如图5所示,本实施例提供一种文本转换方法,该方法包括如下步骤:
[0098]
步骤s210:获取待转换文本。
[0099]
其中,待转换文本中包括预设词语,由于预设词语是上述人群难以理解的词语,由于预设词语的存在,导致待转换文本难以被上述人群理解。因此,需要将待转换文本通过上述实施例中获得的文本转换模型进行转换。
[0100]
步骤s220:将所述待转换文本输入至文本转换模型,获得所述文本转换模型输出的所述待转换文本的转换结果。
[0101]
例如文本转换模型为transformer模型,如图2所示,transformer模型还包括softmax层,将待转换文本输入transformer模型的inputembedding层,获取transformer模型的softmax层输出的转换结果。
[0102]
上述人群难以理解的待转换文本输入文本转换模型,通过文本转换模型将待转换文本转换后获得转换结果,其中,转换结果为文本的形式。转换结果相较于待转换文本,待转换文本中的预设词语已转换为转换结果中易于理解的词语,例如在待转换文本中包括多个预设词汇情况下,转换结果中包括多个预设词汇中每个预设词汇对应的易于理解的词汇;或者是,转换结果中已经对待转换文本中的表达方式(例如语序等)做了调整,调整后的表达方式更符合上述人群的阅读习惯,获得的转换结果中既不存在上述人群难以理解的预设词语,也符合上述人群的阅读习惯,破除了待转换文本中的阅读障碍,使得上述人群通过易于理解的转换结果理解待转换文本的含义。
[0103]
本实施例提供的文本转换方法,获取待转换文本,待转换文本为上述人群难以理解的文本,将所述待转换文本输入至上述获得的文本转换模型,获得所述文本转换模型输出的所述待转换文本的转换结果,打破了不易于理解的文本带来的阅读障碍,为用户提供阅读便利。
[0104]
随着网络技术的不断发展和网民数量的不断增多,人们的生活中不断出现网络新词、网络热词等,这些词语符合当下新潮的用户的阅读习惯。然而对于某些人群(例如,较少上网的人群,或者是与现代社会存在信息代差的老年人)而言,在理解网络新词上存在困
难。例如,上述人群在使用电子设备与其他设备通信的场景下,电子设备接收到其他设备发送的消息中存在网络新词,用户难以理解该网络新词的含义,针对该问题,本实施例提供了一种文本转换方法,用于通过文本转换模型对包含网络新词的消息进行转换获得转换结果,该转换结果符合上述人群的阅读习惯,转换结果为上述人群理解消息中的网络新词提供了便利,如图6所示,该方法可以包括下述步骤:
[0105]
步骤s310:电子设备接收并显示其他设备发送的消息。
[0106]
电子设备中安装有通讯软件,用户通过电子设备的通讯软件登录用户账号,该用户账号与多个其他账号建立的对应关系,可以理解为该用户账号与其他账号在该通讯软件内为好友关系,互为好友关系的账号之间可以进行通信。其他电子设备上安装有相同的通讯软件,其他用户通过其他电子设备上的通讯软件登录自身账号,当用户和其他用户在通讯软件内为好友关系,电子设备接收其他设备通过通讯软件发送的消息。
[0107]
如图7所示,在电子设备100与其他设备通信的场景下,显示界面显示聊天界面,当电子设备接收到其他设备的对方用户(例如新潮的年轻用户)编辑发送的消息i“现在的年轻人工作卷到飞起”时,由于消息i中存在网络新词“卷”和“飞起”。
[0108]
步骤s320:在消息中存在网络新词的情况下,获取转换指令。
[0109]
其中,该转换指令用于指示转换包含网络新词的消息。
[0110]
在一种实施方式中,由于消息中存在网络新词,用户可能无法理解消息的含义。在存在网络新词的情况下,电子设备自动生成转换指令。
[0111]
在另一种实施方式中,在消息中存在网络新词的情况下,如果用户理解网络新词的含义,也就是说,用户能够理解消息的含义,可以无需对消息进行转换,以节约电子设备的处理资源。如果用户难以理解包含网络新词的消息的含义,基于聊天界面进行手动操作,例如手动操作包括触控电子设备的显示屏上的翻译控件,长按需要转换的消息,双击该消息等;响应手动操作,生成转换指令。
[0112]
步骤s330:响应所述转换指令,将包含所述网络新词的消息作为待转换文本,将所述待转换文本输入至文本转换模型,获得所述文本转换模型输出的所述待转换文本的转换结果,并显示所述转换结果。
[0113]
从文本转换模型的存储位置获取文本转换模型。
[0114]
将转换结果显示在电子设备的显示界面上,便于用户观看,使得用户通过转换结果了解待转换文本的含义。
[0115]
如图7所示,转换结果ii的字体比待转换文本i的字体小,或者转换结果ii的文本框的边界线比待转换文本i的文本框的边界线细。再或者转换结果ii可以用特殊符号标记,例如“t”,或者“译”(在图7中未示出)。
[0116]
需要说明的是,文本转换方法的应用场景不限于图7所示,可以是对浏览界面(如网页、应用程序显示界面)上的任意一句包含网络新词的文本的翻译;还可以是对机器人客服服务时答复的包含网络新词的文本的翻译。
[0117]
可选地,待翻译文本还可以是通过语音信息转换获得,将待翻译文本转换成转换结果后,将转换结果转换成语音信息进行播放,以提升用户体验。
[0118]
可选地,本实施例提供一种文本转换模型训练方法,以文本转换模型为transformer模型为例,如图8所示,所述文本转换模型训练方法具体可以包括如下步骤:
[0119]
步骤s410、转译语料标注。
[0120]
其中,转译语料相当于训练数据集,转译语料包括待翻译样本文本。转译语料标注指的是对待翻译样本文本中可懂度低的待翻译词汇进行标注,例如以“[]”对待翻译样本词汇进行标注,如以新业务为[1抓手],用技术[2赋能]公司运营,其中,“[]”中数字是待翻译样本词汇的编号。
[0121]
步骤s420、转译语料定向扩增。
[0122]
本实施例训练transformer模型的目的是为了建立待翻译样本文本和已翻译样本文本的映射关系,因此,在转译语料中仅仅包括待翻译样本文本是无法完成本实施例transformer模型的功能,因此,需要对转译语料进行扩增,扩增出已翻译样本文本。
[0123]
在一些实施方式中,步骤s420包括子步骤s421、待翻译样本文本转译语料扩增。
[0124]
作为一种方式,子步骤s421包括:子步骤s421-1、待翻译样本文本映射扩增,即建立待翻译样本文本和已翻译样本文本之间的映射关系,基于该映射关系以及步骤s410中获取的待翻译样本文本,获取待翻译样本文本对应的已翻译样本文本,再将已翻译样本文本作为转译语料,从而实现转译语料的扩增。继续结合上述例子,获得的已翻译样本文本为把新业务作为[1突破点],用技术来[2增强]公司运营[2的能力],其中“[]”用于对待翻译样本词汇翻译所得的已翻译样本词汇进行标注,“[]”中的编号与待翻译样本词汇的标号对应。
[0125]
作为另一种方式,子步骤s421包括:子步骤s421-2、待翻译样本文本语义扩增。即通过人工的方式对待翻译样本文本进行翻译,获得人工翻译的已翻译样本文本,再将已翻译样本文本作为转译语料,从而实现转译语料的扩增。
[0126]
在另一些实施方式中,步骤s420包括子步骤s422、表意和上下文补全语料扩增。
[0127]
具体的,子步骤s422包括子步骤s422-1、基于文本冗余率的表意扩增。
[0128]
步骤s430、transformer模型训练。
[0129]
步骤s440、transformer模型应用,即使用transformer模型进行文本翻译。
[0130]
本实施例中,步骤s410-步骤s440的具体描述可以参考上述实施例中步骤,在此不再赘述。
[0131]
为实现上述文本转换模型训练方法的实施例,本实施例提供一种文本转换模型训练装置,图9示出了本技术一实施例提供的文本转换模型训练装置的框图,请参阅图9,文本转换模型训练装置200包括:获取模块210、转换模块220、确定模块230以及训练模块240。
[0132]
获取模块210,用于获取第一文本和第二文本,其中,所述第一文本和所述第二文本具有相同的语义;
[0133]
转换模块220,用于在所述第一文本中包括预设词语的情况下,从所述第二文本中确定与所述预设词语存在转换关系的转换词语;
[0134]
确定模块230,用于基于所述预设词语和所述转换词语,从所述第一文本中确定待转换内容,并从所述第二文本中确定已转换内容;
[0135]
训练模块240,用于将所述待转换内容和所述已转换内容作为训练数据对待训练模型进行训练,获得文本转换模型。
[0136]
可选地,确定模块230包括:数量获取模块以及转换内容确定模块。
[0137]
数量获取模块,用于获取所述转换词语的词语数量;
[0138]
转换内容确定模块,用于基于所述预设词语、所述转换词语以及所述词语数量,从所述第一文本中确定待转换内容,并从所述第二文本中确定已转换内容。
[0139]
可选地,转换内容确定模块包括:第一转换内容确定模块以及第二转换内容确定模块。
[0140]
第一转换内容确定模块,用于若所述词语数量为一个,则从所述第一文本中确定所述预设词语作为所述待转换内容,并从所述第二文本中确定所述转换词语作为已转换内容;或者
[0141]
第二转换内容确定模块,用于若所述词语数量为至少两个,则从所述第一文本中确定所述预设词语以及所述预设词语的上下文中的目标文本内容作为所述待转换内容,并从所述第二文本中确定至少两个转换词语以及所述至少两个转换词语之间的文本内容作为所述已转换内容。
[0142]
可选地,第二转换内容确定模块包括:文本内容获取模块以及已转换内容确定模块。
[0143]
文本内容获取模块,用于获取所述至少两个转换词语之间的文本内容;
[0144]
已转换内容确定模块,用于在所述第一文本中的所述预设词语的上下文中的目标文本内容与所述至少两个转换词语之间的文本内容匹配的情况下,将所述目标文本内容作为所述待转换内容,并从所述第二文本中确定至少两个转换词语以及所述至少两个转换词语之间的文本内容作为所述已转换内容。
[0145]
可选地,训练模块240包括:字符串长度获取模块以及模型训练模块。
[0146]
字符串长度获取模块,用于获取所述待转换内容对应的第一字符串长度,并获取所述已转换内容对应的第二字符串长度;
[0147]
模型训练模块,用于在所述第二字符串长度和所述第一字符串长度满足预设长度关系的情况下,将所述待转换内容和所述已转换内容作为训练数据对待训练模型进行训练,获得文本转换模型。
[0148]
可选地,字符串长度获取模块包括:去除模块。
[0149]
去除模块,用于获取所述待转换内容中除所述预设词语和标点符号之外的的字串符的长度,作为所述第一字符串长度,并获取所述已转换内容中除所述转换词语和标点符号之外的字符串的长度,作为所述第二字符串长度。
[0150]
可选地,模型训练模块包括:冗余比率获取模块和模型获取模块。
[0151]
冗余比率获取模块,用于根据所述第一字符串长度和所述第二字符串长度,获得冗余比率;
[0152]
模型获取模块,用于在所述冗余比率大于比率阈值的情况下,将所述待转换内容和所述已转换内容作为训练数据对待训练模型进行训练,获得文本转换模型。
[0153]
可选地,冗余比率获取模块包括冗余比率计算模块。
[0154]
冗余比率计算模块,用于基于r=(l2-l1)/l1对所述第一字符串长度和所述第二字符串长度进行计算,获得冗余比率,其中,r表征冗余比率,l1表征第一字符串长度,l2表征第二字符串长度。
[0155]
为实现上述文本转换方法的实施例,本实施例提供一种文本转换装置,如图10所示,文本转换装置300包括:采集模块310以及转换模块320。
[0156]
采集模块310,用于获取待转换文本;
[0157]
转换模块320,用于将所述待转换文本输入至利用权利要求1-8任一项获得的文本转换模型,获得所述文本转换模型输出的所述待转换文本的转换结果。
[0158]
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述装置和模块的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
[0159]
在本技术所提供的几个实施例中,模块相互之间的耦合可以是电性,机械或其它形式的耦合。
[0160]
另外,在本技术各个实施例中的各功能模块可以集成在一个处理模块中,也可以是各个模块单独物理存在,也可以两个或两个以上模块集成在一个模块中。上述集成的模块既可以采用硬件的形式实现,也可以采用软件功能模块的形式实现。
[0161]
图11是本技术实施例的用于执行根据本技术实施例的文本转换模型训练方法或文本转换方法的电子设备的框图,请参阅图11,其示出了本技术实施例提供的一种电子设备100的结构框图。该电子设备100可以是智能手机、平板电脑、电子书等能够运行应用程序的电子设备。本技术中的电子设备100可以包括一个或多个如下部件:处理器110、存储器120以及一个或多个应用程序,其中一个或多个应用程序可以被存储在存储器120中并被配置为由一个或多个处理器110执行,一个或多个程序配置用于执行如前述方法实施例所描述的方法。
[0162]
其中,处理器110可以包括一个或者多个处理核。处理器110利用各种接口和线路连接整个电子设备100内的各个部分,通过运行或执行存储在存储器120内的指令、程序、代码集或指令集,以及调用存储在存储器120内的数据,执行电子设备100的各种功能和处理数据。可选地,处理器110可以采用数字信号处理(digital signal processing,dsp)、现场可编程门阵列(field-programmable gate array,fpga)、可编程逻辑阵列(programmable logic array,pla)中的至少一种硬件形式来实现。处理器110可集成中央处理器(central processing unit,cpu)、图形处理器(graphics processing unit,gpu)和调制解调器等中的一种或几种的组合。其中,cpu主要处理操作系统、用户界面和应用程序等;gpu用于负责待显示组件的渲染和绘制;调制解调器用于处理无线通信。可以理解的是,上述调制解调器也可以不集成到处理器110中,单独通过一块通信芯片进行实现。
[0163]
存储器120可以包括随机存储器(random access memory,ram),也可以包括只读存储器(read-only memory)。存储器120可用于存储指令、程序、代码、代码集或指令集。存储器120可包括存储程序区和存储数据区,其中,存储程序区可存储用于实现操作系统的指令、用于实现至少一个功能的指令(比如触控功能、声音播放功能、图像播放功能等)、用于实现下述各个方法实施例的指令等。存储数据区还可以存储电子设备100在使用中所创建的数据(比如历史配置文件)等。
[0164]
图12示出了本技术实施例的用于保存或者携带实现根据本技术实施例的文本转换模型训练方法或文本转换方法的程序代码的存储单元,请参阅图12,其示出了本技术实施例提供的一种计算机可读存储介质的结构框图。该计算机可读介质400中存储有程序代码,所述程序代码可被处理器调用执行上述方法实施例中所描述的方法。
[0165]
计算机可读存储介质400可以是诸如闪存、eeprom(电可擦除可编程只读存储器)、eprom、硬盘或者rom之类的电子存储器。可选地,计算机可读存储介质400包括非易失性计
算机可读介质(non-transitory computer-readable storage medium)。计算机可读存储介质400具有执行上述方法中的任何方法步骤的程序代码410的存储空间。这些程序代码可以从一个或者多个计算机程序产品中读出或者写入到这一个或者多个计算机程序产品中。程序代码410可以例如以适当形式进行压缩。
[0166]
可选地,本技术实施例还提供一种计算机程序产品,计算机程序产品包括计算机程序/指令,该计算机程序/指令被处理器执行时实现上述方法。
[0167]
综上所述,本技术提供的一种文本转换模型训练方法、文本转换方法、装置及电子设备,获取第一文本,以及获取与第一文本具有相同语义的第二文本,预设词语是上述人群(例如,较少上网的人群,或者是与现代社会存在信息代差的老年人)难以理解的词语,在第一文本中包括预设词语的情况下,预设词语导致第一文本难以被上述人群理解,第二文本中包括与预设词语存在转换关系的转换词语,转换词语可以理解为将难以理解的预设词语经过转换后成为易于上述人群理解的词语,由于第二文本中存在转换词语,第二文本易于上述人群理解,基于预设词语和转换词语,从第一文本中确定待转换内容,相应的在第二文本中确定已转换内容,待转换内容和已转换内容是用于训练模型的数据,将该待转换内容和已转换内容作为训练数据对待训练模型进行训练,使得该模型学习训练数据的规律,从而获得文本转换模型,文本转换模型用于将不易于上述人群理解的文本转换为易于上述理解的文本,用户通过易于理解的文本了解不易于理解的文本的含义,打破了不易于理解的文本带来的阅读障碍,为用户提供阅读便利。
[0168]
最后应说明的是:以上实施例仅用以说明本技术的技术方案,而非对其限制;尽管参照前述实施例对本技术进行了详细的说明,本领域的普通技术人员当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不驱使相应技术方案的本质脱离本技术各实施例技术方案的精神和范围。

技术特征:
1.一种文本转换模型训练方法,其特征在于,所述方法包括:获取第一文本和第二文本,其中,所述第一文本和所述第二文本具有相同的语义;在所述第一文本中包括预设词语的情况下,从所述第二文本中确定与所述预设词语存在转换关系的转换词语;基于所述预设词语和所述转换词语,从所述第一文本中确定待转换内容,并从所述第二文本中确定已转换内容;将所述待转换内容和所述已转换内容作为训练数据对待训练模型进行训练,获得文本转换模型。2.根据权利要求1所述的方法,其特征在于,所述基于所述预设词语和所述转换词语,从所述第一文本中确定待转换内容,并从所述第二文本中确定已转换内容,包括:获取所述转换词语的词语数量;基于所述预设词语、所述转换词语以及所述词语数量,从所述第一文本中确定待转换内容,并从所述第二文本中确定已转换内容。3.根据权利要求2所述的方法,其特征在于,所述基于所述预设词语、所述转换词语以及所述词语数量,从所述第一文本中确定待转换内容,并从所述第二文本中确定已转换内容,包括:若所述词语数量为一个,则从所述第一文本中确定所述预设词语作为所述待转换内容,并从所述第二文本中确定所述转换词语作为已转换内容;或者若所述词语数量为至少两个,则从所述第一文本中确定所述预设词语以及所述预设词语的上下文中的目标文本内容作为所述待转换内容,并从所述第二文本中确定至少两个转换词语以及所述至少两个转换词语之间的文本内容作为所述已转换内容。4.根据权利要求3所述的方法,其特征在于,所述从所述第一文本中确定所述预设词语以及所述预设词语的上下文中的目标文本内容作为所述待转换内容,并从所述第二文本中确定至少两个转换词语以及所述至少两个转换词语之间的文本内容作为所述已转换内容,包括:获取所述至少两个转换词语之间的文本内容;在所述第一文本中的所述预设词语的上下文中的目标文本内容与所述至少两个转换词语之间的文本内容匹配的情况下,将所述目标文本内容作为所述待转换内容,并从所述第二文本中确定至少两个转换词语以及所述至少两个转换词语之间的文本内容作为所述已转换内容。5.根据权利要求1所述的方法,其特征在于,所述将所述待转换内容和所述已转换内容作为训练数据对待训练模型进行训练,获得文本转换模型,包括:获取所述待转换内容对应的第一字符串长度,并获取所述已转换内容对应的第二字符串长度;在所述第二字符串长度和所述第一字符串长度满足预设长度关系的情况下,将所述待转换内容和所述已转换内容作为训练数据对待训练模型进行训练,获得文本转换模型。6.根据权利要求5所述的方法,其特征在于,所述获取所述待转换内容对应的第一字符串长度,并获取所述已转换内容对应的第二字符串长度,包括:获取所述待转换内容中除所述预设词语和标点符号之外的的字串符的长度,作为所述
第一字符串长度,并获取所述已转换内容中除所述转换词语和标点符号之外的字符串的长度,作为所述第二字符串长度。7.根据权利要求5所述的方法,其特征在于,所述在所述第二字符串长度和所述第一字符串长度满足预设长度关系的情况下,将所述待转换内容和所述已转换内容作为训练数据对待训练模型进行训练,获得文本转换模型,包括:根据所述第一字符串长度和所述第二字符串长度,获得冗余比率;在所述冗余比率大于比率阈值的情况下,将所述待转换内容和所述已转换内容作为训练数据对待训练模型进行训练,获得文本转换模型。8.根据权利要求7所述的方法,其特征在于,所述根据所述第一字符串长度和所述第二字符串长度,获得冗余比率,包括:基于r=(l2-l1)/l1对所述第一字符串长度和所述第二字符串长度进行计算,获得冗余比率,其中,r表征冗余比率,l1表征第一字符串长度,l2表征第二字符串长度。9.一种文本转换方法,其特征在于,所述方法包括:获取待转换文本;将所述待转换文本输入至利用权利要求1-8任一项获得的文本转换模型,获得所述文本转换模型输出的所述待转换文本的转换结果。10.一种文本转换模型训练装置,其特征在于,所述装置包括:获取模块,用于获取第一文本和第二文本,其中,所述第一文本和所述第二文本具有相同的语义;转换模块,用于在所述第一文本中包括预设词语的情况下,从所述第二文本中确定与所述预设词语存在转换关系的转换词语;确定模块,用于基于所述预设词语和所述转换词语,从所述第一文本中确定待转换内容,并从所述第二文本中确定已转换内容;训练模块,用于将所述待转换内容和所述已转换内容作为训练数据对待训练模型进行训练,获得文本转换模型。11.一种文本转换装置,其特征在于,所述装置包括:采集模块,用于获取待转换文本;转换模块,用于将所述待转换文本输入至利用权利要求1-8任一项获得的文本转换模型,获得所述文本转换模型输出的所述待转换文本的转换结果。12.一种电子设备,其特征在于,包括:一个或多个处理器;存储器;一个或多个应用程序,其中所述一个或多个应用程序被存储在所述存储器中并被配置为由所述一个或多个处理器执行,所述一个或多个应用程序配置用于执行如权利要求1-9任一项所述的方法。13.一种计算机可读存储介质,其特征在于,所述计算机可读取存储介质中存储有程序代码,所述程序代码可被处理器调用执行如权利要求1-9任一项所述的方法。14.一种计算机程序产品,包括计算机程序/指令,其特征在于,该计算机程序/指令被处理器执行时实现权利要求1-9任一项所述的方法。

技术总结
本申请公开了一种文本转换模型训练方法、文本转换方法、装置及电子设备,涉及机器学习技术领域,包括:获取包含预设词语的第一文本与包含转换词语的第二文本,预设词语是部分人群难以理解的词语,转换词语为上述人群易于理解的词语,基于预设词语和转换词语,从第一文本中确定待转换内容,且从第二文本中确定已转换内容,将该待转换内容和已转换内容作为训练数据对待训练模型进行训练,获得文本转换模型,通过文本转换模型可以将不易于上述人群理解的文本转换为易于上述人群理解的文本,用户通过易于理解的文本了解不易于理解的文本的含义,为用户提供阅读便利。为用户提供阅读便利。为用户提供阅读便利。


技术研发人员:乔宏利 王洪斌 蒋宁 吴海英
受保护的技术使用者:马上消费金融股份有限公司
技术研发日:2022.03.16
技术公布日:2022/7/5
转载请注明原文地址: https://www.8miu.com/read-13685.html

最新回复(0)