一种个性化定制构音障碍语音识别方法及系统

allin2025-02-05 157

本发明属于语音识别，具体涉及一种个性化定制构音障碍语音识别方法及系统，应用于不同严重程度的构音障碍人士。

背景技术：

1、随着语音识别技术的不断发展，智能生活技术的持续普及，构音障碍患者对于社会交流和智能生活的需求逐渐增加。尽管自动语音识别(asr)技术取得了长足的进步，但是由于构音障碍和非构音障碍的语音特征大相径庭，并且每一位构音障碍人士的严重程度也不同，因此即使是性能最好的asr系统也无法满足每一位语音受损者的需求。作为社会交流和智能人机交互的基础，构音障碍语音的识别至关重要。

2、语音识别技术的发展通常依赖于海量的训练数据，以训练深度神经网络模型并提升准确率。然而，对于构音障碍患者来说，获取足够的高质量语音数据极为困难。不仅是因为每个患者的发音特点、语音模式可能存在极大的个体差异，还受限于病理特征，大规模的语音数据采集会对构音障碍者造成较大的负担，而无法像普通语音样本那样轻易收集和标注。这导致的数据匮乏问题不仅限制了模型的性能提升，还导致现有的通用语音识别系统在处理此类特殊语音时，表现出较高的识别错误率。

3、然而，国内在这一领域的研究与国际仍存在差距，尤其是数据积累上的差距尤为明显。英文构音障碍语音数据库的发展起步早，目前已有一千小时以上的英文构音障碍语音数据，而中文构音障碍语音数据规模相对较少。数据规模在很大程度上限制了中文构音障碍语音识别技术的发展，急需构建更大规模的中文构音障碍语音数据库。

技术实现思路

1、为了解决现有技术中存在的技术问题，针对中文构音障碍患者的言语识别问题和需求，解决现有的中文语音识别系统对构音障碍人士语音识别准确率低的问题，为此，本发明提供了一种个性化定制构音障碍语音识别方法及系统，用于突破中文语音识别模型在构音障碍语音数据上的适配性和鲁棒性关键技术。

2、所采用的具体方案如下：

3、一方面，本发明提供了一种个性化定制构音障碍语音识别方法，采集每名构音障碍者的语音数据；标注人员对收集到的语音数据进行转录和切分处理，对有文本信息的构音障碍语音段落与无信息的噪音段落进行区分，将有文本信息的构音障碍语音段按照录音文稿转录为文本；结合标注人员对构音障碍者标注的语音数据，采用迁移学习方法对自监督预训练模型进行若干轮数的模型训练，得到对应构音障碍者的语音识别模型；通过调用对应构音障碍者的语音识别模型，输入对应的语音数据，经语音识别并转录为文本后输出。

4、进一步地，采用迁移学习方法对自监督预训练模型进行若干轮数的模型训练，得到语音识别模型，其具体方法是：

5、采用迁移学习方法，将在通用中文数据集上预训练的模型应用于构音障碍数据的训练，通过调整模型参数，获得适用于构音障碍者的预训练模型；然后将构音障碍者的语音数据导入预训练模型中，结合构音障碍者常用的生活用语进行权重调整进一步训练，得到针对构音障碍者的语音识别模型。进一步地，对语音数据进行数据预处理的具体方法是：

6、在标注平台中对构音障碍者录制的语音进行人工文本标注；根据时间戳和标注文本对标注好的音频进行语音分割，得到若干份与标注文本一一对应的短音频，并存储；对音频的采样率、声道数及格式进行转换和统一处理，并去除音频波长过短或过长文件，保留含有有效信息的文件；将所得音频数据按比例划分为训练集数据、测试集数据和验证集数据。

7、进一步地，通过调用对应构音障碍者的语音识别模型，输入对应的语音数据，经语音识别并转录为文本后输出，其具体方法是：

8、对语音特征进行卷积处理，减少特征维度；通过多层块结构生成更高层次的特征表示；模型输出的特征被用于序列对齐和分类；训练完成后，使用一个解码器进一步处理模型输出的特征，并结合序列对齐方法和解码器的结果，最终生成语音的转录结果。

9、优选地，所述的构音障碍者包括脑瘫人士、卒中患者、中风患者和听障群体。

10、优选地，根据构音障碍者受教育程度不同，采用相应阅读难易程度的文本作为录制文本。

11、优选地，结合录音文本，构音障碍者使用日常录音设备录制5-8小时的语音数据。

12、另一方面，本发明还提供了一种个性化定制构音障碍语音识别系统，所述系统包括客户端和服务器端，所述客户端设有用于采集构音障碍者音频数据文件的音频接收模块和识别结果呈现模块，所述服务器端设有训练好的语音识别模块和转录模块，所述转录模块与所述识别结果呈现模块连接，所述语音识别模块与所述音频接收模块连接，用于对接收的语音数据进行识别，并通过所述转录模块转录为文字，再通过所述客户端上的所述识别结果呈现模块呈现语音识别结果。

13、进一步地，所述语音识别模块中存储有语音模型、词典文件、语言模型、单位文件和热词文本。本发明技术方案具有如下优点：

14、a.无论是疾病意外造成的构音障碍还是年龄增大伴随的机能衰退引发的口吃，构音障碍都实际影响到了患者的日常生活的交流沟通，本发明专为构音障碍人士设计的构音障碍语音识别方法及系统，可以极大地改善他们的生活，成为日常生活的必备交流工具，经过预训练和五小时个人语音数据的微调后，词错率能降低至10％以下。

15、b.本发明的产品效果显著而价格低廉，可以有效地帮助那些不能负担手术或言语康复训练高昂费用的人，让发音模糊的人群有除了手术和言语康复训练以外的其他选择；本发明方法与手术、言语康复训练相比，本发明的语音修复做到了即时性，节约了患者大量的时间,可以作为手术或言语康复训练的辅助工具。

16、c.本发明所需数据量很小，仅需要经过标注后的5小时语音数据，通过少量的语音数据对自监督预训练模型(大模型)进行有效微调，生成适用于构音障碍群体的个体化的语音识别模型。并且随着cdsd中文构音障碍数据库的扩充，所需语音数据可以再度减少，并且语音转录的字错率可以比10％更低。

17、d.本发明在语音识别技术(asr)基础上，结合构音障碍患者的韵律和断句等个人特征，使改进后的语音识别技术即构音障碍语音识别技术(dsr)可以对这些语音特征着重学习，来调整语音模型，使构音障碍患者即便面对复杂场景，依旧能满足需要。

18、e.本发明相较于(具有普适性的)市场普遍的语音识别技术，针对构音障碍者个人语音特征的构音障碍语音识别有着更好的准确度和鲁棒性。

19、f.本发明系统专为构音障碍群体(如脑瘫人士、卒中患者、中风患者、听障群体)设计的个性化语音识别系统，该系统能够处理这些用户独特的语音特征，如韵律和断句的变化，提供高效、准确的语音转文字服务。传统通用模型在这些群体中的表现不佳，而本发明系统通过大模型微调，仅需五小时的个性化语音数据即可创建专用模型。

技术特征：

1.一种个性化定制构音障碍语音识别方法，其特征在于，采集每名构音障碍者的语音数据；标注人员对收集到的语音数据进行转录和切分处理，对有文本信息的构音障碍语音段落与无信息的噪音段落进行区分，将有文本信息的构音障碍语音段按照录音文稿转录为文本；结合标注人员对构音障碍者标注的语音数据，采用迁移学习方法对自监督预训练模型进行若干轮数的模型训练，得到对应构音障碍者的语音识别模型；通过调用对应构音障碍者的语音识别模型，输入对应的语音数据，经语音识别并转录为文本后输出。

2.根据权利要求1所述的个性化定制构音障碍语音识别方法，其特征在于，采用迁移学习方法对自监督预训练模型进行若干轮数的模型训练，得到语音识别模型，其具体方法是：

3.根据权利要求2所述的个性化定制构音障碍语音识别方法，其特征在于，对语音数据进行数据预处理的具体方法是：

4.根据权利要求1所述的个性化定制构音障碍语音识别方法，其特征在于，通过调用对应构音障碍者的语音识别模型，输入对应的语音数据，经语音识别并转录为文本后输出，其具体方法是：

5.根据权利要求1所述的个性化定制构音障碍语音识别方法，其特征在于，所述的构音障碍者包括脑瘫人士、卒中患者、中风患者和听障群体。

6.根据权利要求1所述的个性化定制构音障碍语音识别方法，其特征在于，根据构音障碍者受教育程度不同，采用相应阅读难易程度的文本作为录制文本。

7.根据权利要求6所述的个性化定制构音障碍语音识别方法，其特征在于，结合录音文本，构音障碍者使用日常录音设备录制5-8小时的语音数据。

8.一种个性化定制构音障碍语音识别系统，其特征在于，所述系统包括客户端和服务器端，所述客户端设有用于采集构音障碍者音频数据文件的音频接收模块和识别结果呈现模块，所述服务器端设有训练好的语音识别模块和转录模块，所述转录模块与所述识别结果呈现模块连接，所述语音识别模块与所述音频接收模块连接，用于对接收的语音数据进行识别，并通过所述转录模块转录为文字，再通过所述客户端上的所述识别结果呈现模块呈现语音识别结果。

9.根据权利要求8所述的个性化定制构音障碍语音识别系统，其特征在于，所述语音识别模块中存储有语音模型、词典文件、语言模型、单位文件和热词文本。

技术总结
本发明公开了一种个性化定制构音障碍语音识别方法及系统，采集每名构音障碍者的语音数据；标注人员对收集到的语音数据进行转录和切分处理，对有文本信息的构音障碍语音段落与无信息的噪音段落进行区分，将有文本信息的构音障碍语音段按照录音文稿转录为文本；结合标注人员对构音障碍者标注的语音数据，采用迁移学习方法对自监督预训练模型进行模型训练，得到对应构音障碍者的语音识别模型；通过调用对应构音障碍者的语音识别模型，输入对应的语音数据，经语音识别并转录为文本后输出。本发明方法及系统专为构音障碍人士设计的日常交流工具，极大地改善他们的生活，经过预训练和五小时个人语音数据的微调后所得语音识别模型，词错率降低至10％以下。

技术研发人员：王甦菁
受保护的技术使用者：中国科学院心理研究所
技术研发日：
技术公布日：2024/10/31

转载请注明原文地址: https://www.8miu.com/read-18274.html

专利

最新回复(0)