本发明涉及语音通信,特别涉及一种低延迟实时语音转文字及文字转语音传输方法。
背景技术:
1、语音转文字系统通过自动语音识别技术将人类的语音信号转换为可读的文字形式。这个过程包括声音的捕获、特征提取、声学和语言模型的匹配以及最终的文字输出。文字转语音系统通过文本分析、自然语言处理和语音合成技术将文字信息转换为听觉语音。
2、通过将自动语音识别(asr)和文本转语音(tts)结合,可以实现从语音到语音的转换,即语音翻译系统,或者在语音助手中实现语音输入和语音反馈的闭环;语音转文字及文字转语音系统对实时性,也就是低延时性的要求很高,例如实时通信、会议记录、实时字幕生成、同步语音翻译等应用场景中,需要能够快速响应,确保信息的即时传递和交流的流畅性;为此,我们提出了一种低延迟实时语音转文字及文字转语音传输方法。
技术实现思路
1、本发明目的在于提供一种技术方案,减少了数据处理和传输的时间延迟,使得语音和文字之间的转换更加迅速和准确,提高用户体验和满足实际应用需求,来解决背景技术中的问题。
2、本发明技术方案为:一种低延迟实时语音转文字及文字转语音传输方法,包括以下步骤:
3、通过语音采集装置获取音频数据流,并将音频数据流发送至云端进行预处理;
4、从云端获取预处理后的音频数据流,通过滑动时间窗口接收音频数据流;
5、通过语音识别模型对滑动窗口内接收到的音频数据进行实时语音识别,生成初步文本;
6、通过异步校正算法,在后台对初步文本进行二次校验和修正;通过文本转语音算法将文字转换为语音数据;
7、监测网络状况,获取网络拥堵状况的反馈;
8、通过实时传输协议进行数据传输,使用udp协议来保证低延迟,根据网络拥堵状况的反馈采用nack和/或fec来处理网络丢包问题,以此增强通信的稳定性和质量;
9、所述将音频数据流发送至云端进行预处理的过程中使用tls传输协议,以保证数据传输的安全性;
10、所述监测网络状况,获取网络拥堵状况的反馈为通过云服务提供商的监控工具和nms,监视云端网络拥堵状况和本地网络的拥堵状况。
11、优选的,所述通过滑动时间窗口逐秒接收音频数据包括以下步骤:
12、将时间窗口定义为t秒,接受t秒内的音频数据;
13、在音频流开始前,缓冲t秒的音频数据,作为初始窗口,将获取的t秒的音频数据输入到语音识别模型内,生成第一批转换文本结果;
14、以固定的时间步长nt,滑动窗口,将新的音频数据加入窗口中。
15、优选的,所述通过语音识别模型对滑动窗口内接收到的音频数据进行实时语音识别,生成初步文本,包括以下步骤:
16、对于每个窗口内的音频数据进行语音识别处理,生成与音频数据对应的文本;
17、将每个窗口的转录结果输出,形成一系列的文本序列。
18、优选的,所述通过异步校正算法,在后台对初步文本进行二次校验和修正包括以下步骤:
19、通过统计语言模型和拼写检查器来识别和纠正文本中的拼写错误;
20、通过长短期记忆网络(lstm)或transformer模型分析语句的上下文,确保识别出的词汇在语境一致;
21、对于发音相近但意义不同的词汇,根据上下文提供正确的选项。
22、优选的,所述对于发音相近但意义不同的词汇,根据上下文提供正确的选项包括以下步骤:
23、通过lstm捕捉文本中当前字词与之前字词间的长距离依赖关系,以准确预测和校正发音相近的词汇;
24、词嵌入方法将词汇映射到高维空间,其中语义相似的词彼此靠近;结合上下文信息,可以更精确地识别出正确的词汇。
25、优选的,通过实时传输协议进行数据传输,使用udp协议来保证低延迟包括以下步骤:
26、将语音数据进行压缩;
27、将压缩后的语音数据分割成小的数据包,每个数据包都会被添加上rtp(real-time transportprotocol)头部信息,包括时间戳、序号和同步源标识符;
28、所述时间戳用于确保音视频的同步播放,所述序号用于数据包的排序和检测丢失的数据包,所述同步源标识符用于标识数据来源;
29、使用udp作为传输层协议,将数据包发送到网络中。
30、优选的,在通过语音识别模型对滑动窗口内接收到的音频数据进行实时语音识别之前还包括以下步骤:
31、对音频数据进行降噪处理,以消除背景噪音等干扰因素;
32、通过傅里叶变换将时域的音频数据转换为频域表示,进而提取频谱特征;
33、从音频数据的频谱中提取能量、幅度参数,用于语音识别;
34、将提取的频谱特征输入到经过训练的语音识别模型中;
35、所述语音识别模型包括长短期记忆网络、cnn-lstm结构或transformer模型中的一种或多种。
36、优选的,所述通过lstm捕捉文本中当前字词与之前字词间的长距离依赖关系,包括以下步骤:
37、定义lstm模型:
38、进行超参数设置:设置输入维度为28,隐藏层大小为128,输出类别数为10,lstm的层数为2,learning_rate为2,num_epochs为5;
39、载入数据库内文本数据,经过预处理后,输入lstm模型进行模型训练,通过训练使lstm模型学习到文本中的当前词与之前词间的长距离依赖关系。
40、本发明还提供一种电子设备,所述电子设备包括处理器、与处理器连接的存储器和通信模块,所述电子设备执行所述的一种低延迟实时语音转文字及文字转语音传输方法。
41、本发明还提供一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行以实现所述的一种低延迟实时语音转文字及文字转语音传输方法。
42、本发明的有益效果:
43、1、本发明使用语音采集装置捕获语音数据,确保采集装置具有足够的采样率和高质量的语音数据,将捕获的语音数据通过安全的互联网连接发送至云端服务器,使用安全的传输协议(如tls)来保护数据传输过程中的安全性,在云端对接收的语音数据进行预处理,包括降噪、增益控制和信号增强,有助于提高后续的语音识别准确性。通过滑动时间窗口技术,逐秒接收音频流数据,窗口内的数据用于后续的实时语音识别并生成初步文本,使用基于深度学习的声学模型和语言模型等语音识别模型,在云端后台使用异步校正算法对初步文本进行二次校验和修正操作,校正算法可以基于统计方法、语言模型或深度学习技术等,以提高文本的准确性和自然性。
44、2、本发明将经过校正的文本数据通过文本转语音算法(tts)进行转换,生成对应的语音数据,将文字以自然流畅的方式转换为语音,使得用户可以通过听觉方式获取信息,通过实时传输协议进行数据传输,使用udp协议来保证低延迟的传输,udp协议是一种轻量级的传输协议,适用于实时性要求较高的应用场景,同时,为了处理网络丢包问题,采用了nack(丢包重传机制)和fec(前向错误纠正技术),nack机制可以在数据包丢失时触发重传,确保数据的完整性;而fec技术则可以在传输过程中对数据包进行编码,以便在接收端进行纠错和恢复,从而增强通信的稳定性和质量。
45、3、本发明在数据传输方面,将实时传输协议(rtp)用于实时音视频传输,而udp协议则因其低延迟的特性而被选用,udp不保证数据包的传递,因此在网络层面需要额外的机制来处理丢包情况,根据当前的网络状况,可以采取不同的策略来处理网络丢包:当网络状况良好且延迟较低时,可以使用nack(negativeacknowledgement)机制请求丢失的数据包重传,这种方法适用于网络条件稳定的环境;如果网络出现轻度拥堵,前向错误更正(fec)技术可以用来通过发送冗余数据预防丢包,从而减少重传的需求,fec增加了一些额外的数据,使得即便有数据包丢失,接收方也能重建原始数据,在网络极度拥堵的情况下,调整音频的编码质量以降低码率,也就是将高码率的音频流转变成低码率的音频流,可以通过部署转码服务器来实现这一点,该服务器实时接收高码率音频流,转换为低码率音频流后发送给客户端,转码服务器可以部署在云端或本地。
46、4、本发明将语音数据进行压缩,减少数据量,从而降低网络带宽需求,提高传输效率,使用音频编码算法,如aac、opus等,这些算法能在保证音质的同时减小文件大小,将压缩后的语音数据分割成小的数据包来适应网络传输的需求,并确保数据可以在接收端被正确重组,每个小数据包可以独立传输,即使在传输过程中出现错误,也只会影响到部分数据,而不是整个音频流,记录了数据包中音频的正确播放时间,用于同步音视频流或多个音频流,每个rtp数据包都有一个唯一的序列号,用于在接收端排序数据包以及检测是否有数据包丢失,同步源标识符(ssrc)是一个随机生成的标识符,用于标识rtp流的来源,在有多个参与者的会议中尤为重要,由于udp不需要建立连接,没有数据发送确认机制,这使得其传输速度远快于tcp,适合实时数据传输;通过实时传输协议(rtp)配合用户数据报协议(udp)的使用,能够有效保证音视频数据的实时性和同步性。
1.一种低延迟实时语音转文字及文字转语音传输方法,其特征在于,所述方法包括以下步骤:
2.根据权利要求1所述的一种低延迟实时语音转文字及文字转语音传输方法,其特征在于,所述通过滑动时间窗口逐秒接收音频数据包括以下步骤:
3.根据权利要求1所述的一种低延迟实时语音转文字及文字转语音传输方法,其特征在于,所述通过语音识别模型对滑动窗口内接收到的音频数据进行实时语音识别,生成初步文本,包括以下步骤:
4.根据权利要求1所述的一种低延迟实时语音转文字及文字转语音传输方法,其特征在于,所述通过异步校正算法,在后台对初步文本进行二次校验和修正包括以下步骤:
5.根据权利要求4所述的一种低延迟实时语音转文字及文字转语音传输方法,其特征在于,所述对于发音相近但意义不同的词汇,根据上下文提供正确的选项包括以下步骤:
6.根据权利要求1所述的一种低延迟实时语音转文字及文字转语音传输方法,其特征在于,通过实时传输协议进行数据传输,使用udp协议来保证低延迟包括以下步骤:
7.根据权利要求1所述的一种低延迟实时语音转文字及文字转语音传输方法,其特征在于,在通过语音识别模型对滑动窗口内接收到的音频数据进行实时语音识别之前还包括以下步骤:
8.根据权利要求5所述的一种低延迟实时语音转文字及文字转语音传输方法,其特征在于,所述通过lstm捕捉文本中当前字词与之前字词间的长距离依赖关系,包括以下步骤:
9.一种电子设备,所述电子设备包括处理器、与处理器连接的存储器和通信模块,其特征在于,所述电子设备执行权利要求1-8任意一项所述的一种低延迟实时语音转文字及文字转语音传输方法。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行以实现上述权利要求1-8中任意一项所述的一种低延迟实时语音转文字及文字转语音传输方法。