一种交互式的语音分割与聚类方法、装置以及设备与流程

allin2022-09-03  185



1.本发明涉及语音处理技术领域,尤其涉及一种交互式的语音分割与聚类方法、装置以及设备。


背景技术:

2.语音分割与聚类是要解决音频中谁在什么时候说的问题。在一个多人交替对话的语音文件,实现标注每人的说话起止时间。基于该技术后续可以进行不同人的声纹提取、自动语音识别、目标说话人的检测等。
3.目前主要实现方式是将语音进行分片,然后基于声纹算法进行聚类,然后根据聚类结果计算起止时间。由于算法无法直接获取语音内容的人数,所以一般采用相似度阈值进行聚类。而该方法通过基于相似度阈值的聚类存在其聚类结果不够准确等问题。


技术实现要素:

4.有鉴于此,本发明的目的在于提出一种交互式的语音分割与聚类方法和装置以及设备,旨在解决现有的语音分割聚类结果不准确的问题。
5.为实现上述目的,本发明提供一种交互式的语音分割与聚类方法,所述方法包括:
6.对待处理音频数据进行预处理,得到n类语音;
7.对所述n类语音进行审听,并将属于同一人的语音进行合并,得到m类语音,其中,所述m类语音与音频对话中的人数相对应;
8.基于所述m类语音计算每类语音的中心向量以及每类语音中所包含的各语音片段的相似度,并将所述相似度低于预设值的语音片段进行标注;
9.对标注的所述语音片段进行审听,并对标注的所述语音片段进行重新分配,得到音频分类结果。
10.优选的,在所述对标注的所述语音片段进行审听,并对标注的所述语音片段进行重新分配,得到音频分类结果之后,还包括:
11.根据所述音频分类结果对说话人转换点进行标注并审听以确定时间分割点。
12.优选的,所述对待处理音频数据进行预处理,得到n类语音,包括:
13.利用vad算法对所述待处理音频数据进行去噪,得到第一音频;
14.对所述第一音频进行切片处理,得到多个音频片段;
15.基于预设的相似度阈值将所述音频片段进行聚类,得到所述n类语音。
16.优选的,所述基于预设的相似度阈值将所述音频片段进行聚类,得到所述n类语音,包括:
17.利用声纹提取算法提取每个所述音频片段的声纹特征向量;
18.根据所述声纹特征向量计算所述音频片段之间的相似度,并根据所述相似度阈值进行聚类,得到所述n类语音。
19.优选的,所述中心向量通过计算所述m类语音中每一所述语音片段的向量的均值。
20.为实现上述目的,本发明还提供一种交互式的语音分割与聚类装置,所述装置包括:
21.预处理单元,用于对待处理音频数据进行预处理,得到n类语音;
22.合并单元,用于对所述n类语音进行审听,并将属于同一人的语音进行合并,得到m类语音,其中,所述m类语音与音频对话中的人数相对应;
23.计算单元,用于基于所述m类语音计算每类语音的中心向量以及每类语音中所包含的各语音片段的相似度,并将所述相似度低于预设值的语音片段进行标注;
24.分类单元,用于对标注的所述语音片段进行审听,并对标注的所述语音片段进行重新分配,得到音频分类结果。
25.优选的,所述装置还包括:
26.确定单元,用于根据所述音频分类结果对说话人转换点进行标注并审听,以确定时间分割点。
27.为了实现上述目的,本发明还提出一种设备,包括处理器、存储器以及存储在所述存储器内的计算机程序,所述计算机程序被所述处理器执行以实现如上述实施例所述的一种交互式的语音分割与聚类方法的步骤。
28.为了实现上述目的,本发明还提出一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行以实现如上述实施例所述的一种交互式的语音分割与聚类方法的步骤。
29.有益效果:
30.以上方案,通过对待处理音频数据进行预处理后对所得到的n类语音进行审听,并将属于同一人的语音进行合并,将所得到的对应于对话人数的m类语音进行计算其每类语音的中心向量以及每类语音中所包含的各语音片段的相似度,并将低于预设值的语音片段进行标注,对标注的语音片段进行审听以及重新分配,得到音频分类结果。能够提高语音分割聚类结果的准确性。
附图说明
31.为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
32.图1为本发明一实施例提供的一种交互式的语音分割与聚类方法的流程示意图。
33.图2为本发明另一实施例提供的一种交互式的语音分割与聚类方法的流程示意图。
34.图3为本发明一实施例提供的一种交互式的语音分割与聚类装置的结构示意图。
35.图4为本发明另一实施例提供的一种交互式的语音分割与聚类装置的结构示意图。
36.发明目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。
具体实施方式
37.为使本发明实施方式的目的、技术方案和优点更加清楚,下面将结合本发明实施方式中的附图,对本发明实施方式中的技术方案进行清楚、完整地描述,显然,所描述的实施方式是本发明一部分实施方式,而不是全部的实施方式。基于本发明中的实施方式,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施方式,都属于本发明保护的范围。因此,以下对在附图中提供的本发明的实施方式的详细描述并非旨在限制要求保护的本发明的范围,而是仅仅表示本发明的选定实施方式。基于本发明中的实施方式,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施方式,都属于本发明保护的范围。
38.在本发明的描述中,术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括一个或者更多个该特征。
39.以下结合实施例详细阐述本发明的内容。
40.参照图1所示为本发明一实施例提供的一种交互式的语音分割与聚类方法的流程示意图。
41.本实施例中,该方法包括:
42.s11,对待处理音频数据进行预处理,得到n类语音。
43.其中,所述对待处理音频数据进行预处理,得到n类语音,包括:
44.s11-1,利用vad算法对所述待处理音频数据进行去噪,得到第一音频;
45.s11-2,对所述第一音频进行切片处理,得到多个音频片段;
46.s11-3,基于预设的相似度阈值将所述音频片段进行聚类,得到所述n类语音。
47.进一步的,所述基于预设的相似度阈值将所述音频片段进行聚类,得到所述n类语音,包括:
48.s11-3-1,利用声纹提取算法提取每个所述音频片段的声纹特征向量;
49.s11-3-2,根据所述声纹特征向量计算所述音频片段之间的相似度,并根据所述相似度阈值进行聚类,得到所述n类语音。
50.在本实施例中,通过利用vad(voiceactivitydetection)算法(语音检测算法)对待处理音频数据进行去除语音的无效音,其中主要包括静音以及噪音。在进行去噪处理后将对所得到的第一音频进行切片处理,得到多个音频片段,然后利用声纹提取算法提取每个音频片段的声纹特征向量,根据声纹特征向量计算音频片段间的相似度,基于预设的相似度阈值进行聚类,通常预设的相似度阈值会采取比较高的值,以保证每一类的纯度,不会把不同类归为同一类。其中,可根据预设定长对第一音频进行切片处理,比如预设定长的片段长1.28s,偏移0.32s,则在一段10s的语音,其片段数量为(10-1.28)/0.32+1,后取整即得到28个音频片段,最后余出的秒数归到最后一段中。在具体实施时,相似度阈值可通过测试数据获取效果最佳的数值,通常为了保证分类的纯度,因此要采用的阈值略高的数值。
51.s12,对所述n类语音进行审听,并将属于同一人的语音进行合并,得到m类语音,其中,所述m类语音与音频对话中的人数相对应。
52.在本实施例中,可通过对n类语音进行审听,将误分的两类进行归并。通过合并后最终的类数即为后续的人数阈值,即该人数阈值为音频对话中的人数。
53.s13,基于所述m类语音计算每类语音的中心向量以及每类语音中所包含的各语音片段的相似度,并将所述相似度低于预设值的语音片段进行标注。
54.其中,所述中心向量通过计算所述m类语音中每一所述语音片段的向量的均值。
55.在本实施例中,进一步还包括通过人数进行聚类,即通过归并后所得到的类数采取人数阈值进行分割与聚类;同时通过计算每类的中心向量和该类各片段间的相似度,将相似度较低的标注为难分类片段。由于模型使用前都会根据收集的测试数据评估需要的各阈值,最终使用时直接采用评估好的阈值即可。而相似度低的评判标准就是在测试数据上根据不同阈值评估错分情况采用的合适阈值。其中,该中心向量为每类各片段的向量的均值。而计算该类各片段间的相似度可根据具体使用的需要采用不同的方式进行计算,比如采用cosine进行计算。通过人数阈值进行聚类一般要优于相似度阈值,因此通过确定的人数再次聚类,提高算法的准确性。此外,通过人数的聚类可以采用ahc,vbx等算法,如采用ahc算法,每次迭代总类数减一,因此人数阈值决定了迭代的次数。具体的,采用ahc进行计算时,其计算过程包括:(1)初始每个片段为一类,计算两两相似度;(2)合并相似度最大的两类a和b,合并后的新类为c,并更新和其他类的相似度,总的类数减一;其中相似度更新方法有很多种,比如取a和b与其他类的相似度的均值;(3)重复步骤(2),直至类数达到要求。
56.s14,对标注的所述语音片段进行审听,并对标注的所述语音片段进行重新分配,得到音频分类结果。
57.在本实施例中,通过对标注的语音片段进行审听,在上一步骤中标注的难分类片段进行重新分配后,得到分割结果,进而提高分割聚类的准确性。
58.在另一实施例中,参照图2所示。所述方法还包括:
59.s15,根据所述音频分类结果对说话人转换点进行标注并审听,以确定时间分割点。
60.由于在音频可以标注每个人的音频时间范围,这个起止点即为分割点。根据最终的分割结果,将说话人转换间隔较短的分割点标注出来,进一步通过审听重新进行该处的分割。由于算法采用语音分片的处理方法,当说话人转换间隔较短时,分割点并不容易准确确定,因此通过对说话人转化点进行标注,再次通过审听处理,进而得到更准确的分割结果。也就是说,由于分段精度及人物对话转换的问题,该分割点的位置可能存在不精确,则可通过人工配合前后移动点位到比较合适的位置,从而提高分割精度。比如,0到10秒是说话人a,11秒到20秒是b,切分的地方是9秒处,对该处进行调整后修正到10秒处。
61.在此,举例说明。例如有一段完整的语音,时长2小时,共4人进行对话。
62.(1)首先对该语音进行预处理,包括进行去噪、分割、聚类。比如片段长取1.28s为一段,偏移0.32s,然后使用ahc算法根据预先设置的阈值进行聚类。从而获取6段语音。
63.(2)通过对(1)中得到的6段语音进行审听,将同一人的语音段合并,最后获取4段语音。
64.(3)再次对语音进行处理,根据上一步合并的段数作为聚类终止条件,重新输出4段语音,同时标注每段中和该段相似度较低的部分片段。
65.(4)对标注的部分进行审听,可以将该部分语音重新分配。
66.(5)根据语音切分结果标注出说话人转换点(前后说话人不同的时间段),然后进行更准确的时间点切分(说话人转换处,由于算法问题,难以避免存在错分的情况,因此可
通过对分割点的进一步处理),得到最终的分割结果。也就是每类都是由很多片段(比如1.28s)组成,然后对片段进行合并成连续的大片段,每类都可以有多个连续大片段。在音频上看就是将音频分成了很多大片段,每个片段分给某一类。两个相邻的片段的分割点就是不同人转换点,可通过人工再调整下点位,以得到更准确的分割结果。
67.参照图3所示为本发明一实施例提供的一种交互式的语音分割与聚类装置的结构示意图。
68.在本实施例中,该装置30包括:
69.预处理单元31,用于对待处理音频数据进行预处理,得到n类语音;
70.合并单元32,用于对所述n类语音进行审听,并将属于同一人的语音进行合并,得到m类语音,其中,所述m类语音与音频对话中的人数相对应;
71.计算单元33,用于基于所述m类语音计算每类语音的中心向量以及每类语音中所包含的各语音片段的相似度,并将所述相似度低于预设值的语音片段进行标注;
72.分类单元34,用于对标注的所述语音片段进行审听,并对标注的所述语音片段进行重新分配,得到音频分类结果。
73.其中,所述中心向量通过计算所述m类语音中每一所述语音片段的向量的均值。
74.进一步的,所述预处理单元21,包括:
75.去噪单元,用于利用vad算法对所述待处理音频数据进行去噪,得到第一音频;
76.切片处理单元,用于对所述第一音频进行切片处理,得到多个音频片段;
77.聚类单元,用于基于预设的相似度阈值将所述音频片段进行聚类,得到所述n类语音。
78.进一步的,所述聚类单元,包括:
79.声纹提取单元,用于利用声纹提取算法提取每个所述音频片段的声纹特征向量;
80.计算单元,用于根据所述声纹特征向量计算所述音频片段之间的相似度,并根据所述相似度阈值进行聚类,得到所述n类语音。
81.在另一实施例中,参照图4所示。所述装置40还包括:
82.确定单元41,用于根据所述音频分类结果对说话人转换点进行标注并审听,以确定时间分割点。
83.该装置30/40的各个单元模块可分别执行上述方法实施例中对应步骤,故在此不对各单元模块进行赘述,详细请参见以上对应步骤的说明。
84.本发明实施例还提供一种设备,该设备包括如上所述的交互式的语音分割与聚类装置,其中,交互式的语音分割与聚类装置可以采用图3实施例的结构,其对应地,可以执行图1所示方法实施例的技术方案,其实现原理和技术效果类似,详细可以参见上述实施例中的相关记载,此处不再赘述。
85.所述设备包括:手机、数码相机或平板电脑等具有拍照功能的设备,或者具有图像处理功能的设备,或者具有图像显示功能的设备。所述设备可包括存储器、处理器、输入单元、显示单元、电源等部件。
86.其中,存储器可用于存储软件程序以及模块,处理器通过运行存储在存储器的软件程序以及模块,从而执行各种功能应用以及数据处理。存储器可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序(例如图像
播放功能等)等;存储数据区可存储根据设备的使用所创建的数据等。此外,存储器可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。相应地,存储器还可以包括存储器控制器,以提供处理器和输入单元对存储器的访问。
87.输入单元可用于接收输入的数字或字符或图像信息,以及产生与用户设置以及功能控制有关的键盘、鼠标、操作杆、光学或者轨迹球信号输入。具体地,本实施例的输入单元除了包括摄像头,还可包括触敏表面(例如触摸显示屏)以及其他输入设备。
88.显示单元可用于显示由用户输入的信息或提供给用户的信息以及设备的各种图形用户接口,这些图形用户接口可以由图形、文本、图标、视频和其任意组合来构成。显示单元可包括显示面板,可选的,可以采用lcd(liquid crystaldisplay,液晶显示器)、oled(organiclight-emittingdiode,有机发光二极管)等形式来配置显示面板。进一步的,触敏表面可覆盖显示面板,当触敏表面检测到在其上或附近的触摸操作后,传送给处理器以确定触摸事件的类型,随后处理器根据触摸事件的类型在显示面板上提供相应的视觉输出。
89.本发明实施例还提供了一种计算机可读存储介质,该计算机可读存储介质可以是上述实施例中的存储器中所包含的计算机可读存储介质;也可以是单独存在,未装配入设备中的计算机可读存储介质。该计算机可读存储介质中存储有至少一条指令,所述指令由处理器加载并执行以实现图1所示的交互式的语音分割与聚类方法。所述计算机可读存储介质可以是只读存储器,磁盘或光盘等。
90.需要说明的是,本说明书中的各个实施例均采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似的部分互相参见即可。对于装置实施例、设备实施例及存储介质实施例而言,由于其与方法实施例基本相似,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
91.并且,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个
……”
限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
92.上述说明示出并描述了本发明的优选实施例,应当理解本发明并非局限于本文所披露的形式,不应看作是对其他实施例的排除,而可用于各种其他组合、修改和环境,并能够在本文发明构想范围内,通过上述教导或相关领域的技术或知识进行改动。而本领域人员所进行的改动和变化不脱离本发明的精神和范围,则都应在本发明所附权利要求的保护范围内。

技术特征:
1.一种交互式的语音分割与聚类方法,其特征在于,所述方法包括:对待处理音频数据进行预处理,得到n类语音;对所述n类语音进行审听,并将属于同一人的语音进行合并,得到m类语音,其中,所述m类语音与音频对话中的人数相对应;基于所述m类语音计算每类语音的中心向量以及每类语音中所包含的各语音片段的相似度,并将所述相似度低于预设值的语音片段进行标注;对标注的所述语音片段进行审听,并对标注的所述语音片段进行重新分配,得到音频分类结果。2.根据权利要求1所述的一种交互式的语音分割与聚类方法,其特征在于,在所述对标注的所述语音片段进行审听,并对标注的所述语音片段进行重新分配,得到音频分类结果之后,还包括:根据所述音频分类结果对说话人转换点进行标注并审听,以确定时间分割点。3.根据权利要求1所述的一种交互式的语音分割与聚类方法,其特征在于,所述对待处理音频数据进行预处理,得到n类语音,包括:利用vad算法对所述待处理音频数据进行去噪,得到第一音频;对所述第一音频进行切片处理,得到多个音频片段;基于预设的相似度阈值将所述音频片段进行聚类,得到所述n类语音。4.根据权利要求4所述的一种交互式的语音分割与聚类方法,其特征在于,所述基于预设的相似度阈值将所述音频片段进行聚类,得到所述n类语音,包括:利用声纹提取算法提取每个所述音频片段的声纹特征向量;根据所述声纹特征向量计算所述音频片段之间的相似度,并根据所述相似度阈值进行聚类,得到所述n类语音。5.根据权利要求1所述的一种交互式的语音分割与聚类方法,其特征在于,所述中心向量通过计算所述m类语音中每一所述语音片段的向量的均值。6.一种交互式的语音分割与聚类装置,其特征在于,所述装置包括:预处理单元,用于对待处理音频数据进行预处理,得到n类语音;合并单元,用于对所述n类语音进行审听,并将属于同一人的语音进行合并,得到m类语音,其中,所述m类语音与音频对话中的人数相对应;计算单元,用于基于所述m类语音计算每类语音的中心向量以及每类语音中所包含的各语音片段的相似度,并将所述相似度低于预设值的语音片段进行标注;分类单元,用于对标注的所述语音片段进行审听,并对标注的所述语音片段进行重新分配,得到音频分类结果。7.根据权利要求6所述的一种交互式的语音分割与聚类装置,其特征在于,所述装置还包括:确定单元,用于根据所述音频分类结果对说话人转换点进行标注并审听,以确定时间分割点。8.一种设备,其特征在于,包括处理器、存储器以及存储在所述存储器内的计算机程序,所述计算机程序被所述处理器执行以实现如权利要求1至5任意一项所述的一种交互式的语音分割与聚类方法的步骤。
9.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行以实现如权利要求1至5任意一项所述的一种交互式的语音分割与聚类方法的步骤。

技术总结
本发明公开了一种交互式的语音分割与聚类方法、装置、设备及存储介质,其包括:对待处理音频数据进行预处理,得到N类语音;对所述N类语音进行审听,并将属于同一人的语音进行合并,得到M类语音,其中,所述M类语音与音频对话中的人数相对应;基于所述M类语音计算每类语音的中心向量以及每类语音中所包含的各语音片段的相似度,并将所述相似度低于预设值的语音片段进行标注;对标注的所述语音片段进行审听,并对标注的所述语音片段进行重新分配,得到音频分类结果。能够提高语音分割聚类结果的准确性。准确性。准确性。


技术研发人员:洪国强 肖龙源 李稀敏 叶志坚
受保护的技术使用者:厦门快商通科技股份有限公司
技术研发日:2022.02.24
技术公布日:2022/7/5
转载请注明原文地址: https://www.8miu.com/read-2932.html

最新回复(0)