一种面向机器翻译的藏文抽象语义表示解析方法

allin2026-02-06  8


本发明涉及藏文抽象语义表示解析,具体是指一种面向机器翻译的藏文抽象语义表示解析方法。


背景技术:

1、当今信息时代,人人离不开互联网,小到出国旅游翻译或者技术资料翻译,大到基于互联网的在线电商、教育、外贸活动、金融等服务的国际化市场推广,一个无法避免的痛点在于面临多语种语言之间的翻译问题。因此,在世界各国或民族之间文学、科技、艺术、宗教、哲学、政治和经济等的交往交流交融,维护世界的稳定和持久和平,机器翻译都发挥了不可估量的作用。

2、藏汉机器翻译相关技术的研究,打破语言壁垒,促进各民族交流、交往和交融,为广大农牧民参与中文语境下的数字经济,建设数字乡村提供服务,促进我国藏族地区社会、经济、教育和文化事业发展等有着十分重要的实际意义。

3、目前,藏汉机器翻译的主流方法均是基于神经网络的方法,神经机器翻译方法属于基于语料库的翻译方法,本质上是一种数据驱动的方法,一个拥有良好性能的机器翻译模型需要有足够多的双语句对训练优化得到。

4、然而,藏汉机器翻译,现阶段受限于平行语料规模小,翻译性能无法得到良好的提升。所以如何利用有限的双语数据将各种语义知识融入到藏汉神经网络机器翻译模型中是当前的研究热点也是重点,机器翻译要想进一步发展需要大数据和大知识同时进行驱动,其中语义知识是不可或缺。抽象语义表示作为语义理解的一项新兴任务,在汉英、汉德等机器翻译任务中得到了广泛应用,翻译性能有显著提高。

5、目前,藏文抽象语义表示相关的研究未见文献报道,纵观整个藏汉机器翻译研究的发展历程,相关研究通过词法分析、句法分析等浅层分析技术改进了翻译性能,但与实际需求相比差距很大。究其原因,一是资源投入不足,研究力度不够,二是因为藏汉双语数据资源稀缺,处理相对复杂,三是藏汉机器翻译模型没有融合语义知识,存在很多亟待解决的难点问题及挑战。具体表现为:

6、问题1:已有的藏汉机器翻译模型将源端句子翻译为目标端句子,其中缺乏语义知识的引导,使得翻译的流畅性和可理解性都差强人意,译文质量也得不到进一步提高。

7、问题2:目前,面向藏汉神经机器翻译的语义数据资源缺乏,构建藏文抽象语义表示体系及标注数据集势在必行。

8、因此,为解决藏汉神经机器翻译中语义知识缺失和数据稀疏问题,本项目在已构建的较大规模藏汉平行语料库和现有知识储备及研究基础上,将通过结合藏语自身的语言特点,提出符合藏语特征的抽象语义表示体系和语义解析方法。


技术实现思路

1、本发明要解决的技术问题是,克服以上技术缺陷,构建一种符合藏语特征的抽象语义表示体系和语义解析方法。

2、为解决上述技术问题,本发明提供的技术方案为:一种面向机器翻译的藏文抽象语义表示解析方法,包括:源端藏语句子使用bpe方法处理、藏文抽象语义标示图预处理为藏文抽象语义表示序列,获取源端序列编码后得到隐藏状态序列,解码后为预测序列后处理恢复为藏文抽象语义标示图;

3、还包括解析测试,所述解析测试包括后处理将藏文抽象语义表示序列转化为藏文抽象语义表示图。

4、优选的,所述bpe方法处理时包括设置长度阈值控制藏文子词,具体为:

5、1、统计所有字节对出现频率pairfreq;

6、2、寻找出现频率最大且长度大于lth的字节对;

7、3、将步骤2中得到的字节对合并为新词并加入vocab中;

8、4、若合并次数小于n则重复步骤1-3,否则输出vocab完成合并;

9、其中:

10、输入:总合并次数n,长度阈值lth;

11、输出:新词表vocab。

12、优选的,所述预处理包括移除变量、删除wiki链接、换行符和复制共同引用的节点;

13、所述后处理包括分配变量、修复不完整概念、添加wiki链接。

14、优选的,还包括语义解析,包括将源端序列作为输入预测目标端序列,所述源端序列x=(x1,x2,…,xn),目标端序列y=(y1,y2,…,yt);其中n和t分别表示源端序列x和目标端序列y中单词个数。

15、优选的,所述源端序列编码通过神经机器翻译编码器编码;

16、其中:

17、源端序列x=(x1,x2,…,xn);

18、隐藏状态序列h=(h1,h2,…,hn);

19、预测序列y′=(y1′,y2′,…,yn′),预测序列后处理后为藏文抽象语义表示图。

20、本发明与现有技术相比的优点在于:在本发明中,将amr进行线性化,将amr语义分析看作是一个序列到序列的问题,以藏文抽象语义表示作为词或句子的语义表示载体,分析神经机器翻译编码器对源端句子(藏文)的语义捕获能力,从而从句子级别分析神经机器翻译编码器究竟在多大程度上能捕获到语义信息,方便提高机器翻译性能。



技术特征:

1.一种面向机器翻译的藏文抽象语义表示解析方法,其特征在于:包括:源端藏语句子使用bpe方法处理、藏文抽象语义标示图预处理为藏文抽象语义表示序列,获取源端序列编码后得到隐藏状态序列,解码后为预测序列后处理恢复为藏文抽象语义标示图;

2.根据权利要求1所述的一种面向机器翻译的藏文抽象语义表示解析方法,其特征在于:所述bpe方法处理时包括设置长度阈值控制藏文子词,具体为:

3.根据权利要求1所述的一种面向机器翻译的藏文抽象语义表示解析方法,其特征在于:所述预处理包括移除变量、删除wiki链接、换行符和复制共同引用的节点;

4.根据权利要求3所述的一种面向机器翻译的藏文抽象语义表示解析方法,其特征在于:还包括语义解析,包括将源端序列作为输入预测目标端序列,所述源端序列x=(x1,x2,…,xn),目标端序列y=(y1,y2,…,yt);其中n和t分别表示源端序列x和目标端序列y中单词个数。

5.根据权利要求4所述的一种面向机器翻译的藏文抽象语义表示解析方法,其特征在于:所述源端序列编码通过神经机器翻译编码器编码;


技术总结
本发明公开了一种面向机器翻译的藏文抽象语义表示解析方法,包括:源端藏语句子使用BPE方法处理、藏文抽象语义标示图预处理为藏文抽象语义表示序列,获取源端序列编码后得到隐藏状态序列,解码后为预测序列后处理恢复为藏文抽象语义标示图;还包括解析测试,所述解析测试包括后处理将藏文抽象语义表示序列转化为藏文抽象语义表示图。本发明与现有技术相比的优点在于:构建一种符合藏语特征的抽象语义表示体系和语义解析方法。

技术研发人员:头旦才让,仁青东主,班玛宝,尼玛扎西
受保护的技术使用者:青海师范大学
技术研发日:
技术公布日:2024/10/31
转载请注明原文地址: https://www.8miu.com/read-26269.html

最新回复(0)