本发明涉及音频模拟,更具体地涉及一种基于深度学习算法的音频模拟系统。
背景技术:
1、音频模拟系统是指利用深度学习算法对声音进行模拟、合成或增强的技术系统,传统的音频处理技术,如数字信号处理(dsp)和信号处理算法,在一定程度上已经可以实现音频的处理和增强;随着深度学习技术的发展,特别是循环神经网络(rnn)和卷积神经网络(cnn)等模型的出现,语音识别、语音合成、情感识别等领域取得了显著进展。这些技术的发展为音频模拟系统的实现提供了坚实的基础,但是深度学习算法的出现为音频处理领域带来了新的突破,从而增强现实和虚拟现实技术的兴起和音频处理技术的进步,深度学习可以更好地捕捉音频的复杂特征;
2、然而上述过程仍然具备以下缺点:
3、其一、现有的对采集的大量音频信号数据的存储负担较重,缺少对音频信号数据的分段标注、存储和特征提取,不但会造成数据存储压力,还会导致数据特征提取的结果不够准确;
4、其二、缺少模拟复杂的音频特征分析和自动化和特征识别,无法提高音频信号识别效率,同时缺乏识别比较来对音频信号识别结果进行有效控制,无法保证识别的准确性,从而提高了音频信号的输出时间。
技术实现思路
1、为了克服现有技术的上述缺陷,本发明提供了一种基于深度学习算法的音频模拟系统,以解决上述背景技术中存在的问题。
2、本发明提供如下技术方案:一种基于深度学习算法的音频模拟系统,包括:
3、音频信号数据采集模块:通过使用麦克风对真实环境中的音频进行录制,以获取原始音频信号,从而采集音频信号数据,并进行预处理,同时将预处理后的音频信号数据传输至数据存储和标记模块;
4、数据存储和标记模块:用于将音频信号数据切割成若干个较小的片段,对切割好的音频片段进行标注,并对标注后的音频信号数据分类存储至数据库中;
5、特征提取模块:通过利用深度学习模型对所切割后的音频片段中的音频信号数据进行特征提取,得到时域特征和频域特征,并将特征提取后的音频信号特征传输至特征分析模块;
6、特征分析模块:用于分别对各音频片段的音频信号特征进行特征分析,得到特征评估指数,通过特征评估指数评估各音频片段中不同声学特征,并将特征分析结果传输至特征识别模块;
7、特征识别模块:通过特征评估指数与第一阈值进行计算,得到特征识别系数,通过特征识别系数识别整个音频信号的音频质量,并将特征识别结果传输至识别比较模块;
8、所述特征识别系数的计算公式为ui表示第i个音频片段的特征评估指数,μ表示第一阈值,通过综合特征识别系数对整个音频信号的特征进行识别,从而判断采集的音频信号,并作为判断语音输出的依据,n表示共切割成的n个音频片段;
9、所述第一阈值是参考现有的音频质量评估标准进行设定的。
10、识别比较模块:用于将特征识别系数与第二阈值进行比较,判断整个音频信号是否符合语音输出的质量标准,并将符合语音输出的质量标准的判断结果传输至语音后处理和输出模块;
11、所述识别比较模块通过将特征识别系数与第二阈值进行比较,若特征识别系数z小于或等于预设的阈值z,则判定音频信号质量符合输出质量标准,可进行后续的语音后处理和输出;若特征识别系数z大于第二阈值z,则判定音频信号质量未达到输出质量标准,需对未达到输出质量标准的音频信号发出重新进行声音采集的信息指令;
12、所述第二阈值是由相关检测人员根据历史数据和经验而设定的。
13、语音后处理和输出模块:用于接受判断结果进行相应的后处理,根据后处理的结果,输出相应的信息。
14、优选的,所述音频信号数据采集模块的声音采集方式是通过使用多个麦克风组成的麦克风阵列,将麦克风的位置布局成与音频场景相适用的状态,同时使用多个麦克风采集音频信号数据,并通过将采集的音频信号数据进行预处理,从而调整音频信号数据的质量,包括音频剪辑、格式转换、降噪以及滤波。
15、优选的,数据存储和标记模块的具体操作步骤为:
16、s21:确定音频信号数据的切割片段,根据语音段落为切割标准切割音频信号数据;
17、s22:根据切割标准,使用编写脚本实现音频信号数据的自动化切割,切割成1,2,3,……,i,……,n个片段;
18、s23:对1,2,3,……,i,……,n个音频片段进行数据标注,并使用文本文件来记录每个音频片段的标签;
19、s24:在数据库中创建数据库表,再将标注后的音频信号数据分类存储至数据库表中。
20、优选的,所述时域特征是用于分析信号的时序特征,从而了解信号的波形形状、周期性,具体计算公式为时域特征x(j)表示第i个音频片段中第j个音频样本,m表示帧的大小,m表示音频帧的起始位置,i表示第i个音频片段。
21、优选的,所述频域特征是分析信号的频率特征,从而了解信号的频率分布情况,具体计算公式为频域特征fik表示第i个音频片段中第k个频率点的频率,pi(k)表示第i个音频片段中该频率点的功率,n表示频率点的总数。
22、优选的,所述特征评估指数是用来量化和评估音频信号中不同声学特征区分能力的指标,计算第i个音频片段的特征评估指数具体计算公式为ri表示时域特征,di表示频域特征,a1,a2表示特征权重,且0<a1<1,0<a2<1。
23、优选的,所述语音后处理和输出模块的后处理是根据音频信号片段标注的详细信息对语音的输出进行相应调整,包括调整语音的语速和语调、去噪以及增加音量,再对处理过的音频信号通过扬声器或耳机进行输出,以供用户听到。
24、本发明的技术效果和优点:
25、本发明通过设有音频信号数据采集模块利用信号采集设备采集声音,将声音转换成电信号,再进行数字化处理,转化成数字信号,从而采集音频信号数据,通过数据存储和标记模块将采集的音频信号数据切割成若干个较小的片段,对切割好的音频片段进行标注并进行分类存储,有利于减小对大量音频信号数据的存储负担较重,使特征提取的结果更加准确和可靠,通过特征提取模块特征提取到时域特征和频域特征,通过特征分析模块对各音频片段的音频信号特征进行特征分析,得到特征评估指数,通过特征评估指数评估各音频片段中不同声学特征,通过特征识别模块通过特征识别系数对音频信号进行特征识别,通过识别比较模块,判断音频信号质量是否符合语音质量输出的质量标准,通过语音后处理和输出模块接受判断结果进行相应的后处理,根据后处理的结果,输出相应的信息,通过了自动化的特征分析和特征识别,提高了音频信号识别效率,通过识别比较来对音频信号识别结果进行有效控制,有利于保证识别的准确性,从而节省了音频信号的输出时间。
1.一种基于深度学习算法的音频模拟系统,其特征在于:包括:
2.根据权利要求1所述的一种基于深度学习算法的音频模拟系统,其特征在于:所述音频信号数据采集模块的声音采集方式是通过使用多个麦克风组成的麦克风阵列,将麦克风的位置布局成与音频场景相适用的状态,同时使用多个麦克风采集音频信号数据,并通过将采集的音频信号数据进行预处理,从而调整音频信号数据的质量,包括音频剪辑、格式转换、降噪以及滤波。
3.根据权利要求1所述的一种基于深度学习算法的音频模拟系统,其特征在于:数据存储和标记模块的具体操作步骤为:
4.根据权利要求1所述的一种基于深度学习算法的音频模拟系统,其特征在于:所述时域特征是用于分析信号的时序特征,从而了解信号的波形形状、周期性,具体计算公式为时域特征x(j)表示第i个音频片段中第j个音频样本,m表示帧的大小,m表示音频帧的起始位置,i表示第i个音频片段。
5.根据权利要求1所述的一种基于深度学习算法的音频模拟系统,其特征在于:所述频域特征是分析信号的频率特征,从而了解信号的频率分布情况,具体计算公式为频域特征fik表示第i个音频片段中第k个频率点的频率,pi(k)表示第i个音频片段中该频率点的功率,n表示频率点的总数。
6.根据权利要求1所述的一种基于深度学习算法的音频模拟系统,其特征在于:所述特征评估指数是用来量化和评估音频信号中不同声学特征区分能力的指标,计算第i个音频片段的特征评估指数具体计算公式为ri表示时域特征,di表示频域特征,a1,a2表示特征权重,且0<a1<1,0<a2<1。
7.根据权利要求1所述的一种基于深度学习算法的音频模拟系统,其特征在于:所述语音后处理和输出模块的后处理是根据音频信号片段标注的详细信息对语音的输出进行相应调整,包括调整语音的语速和语调、去噪以及增加音量,再对处理过的音频信号通过扬声器或耳机进行输出,以供用户听到。
