本发明属于计算机科学和心理学的交叉领域,尤其涉及一种基于大小模型协同的亲子教养行为识别方法。
背景技术:
1、当前我国儿童青少年学业压力大,焦虑、抑郁等心理问题频发,且日趋低龄化,这些问题严重影响了他们的健康成长。在儿童成长的微观系统中,父母作为主要照顾者,影响儿童的情绪调节、适应能力和社会化过程。因此,合理考察父母的教养行为及其对儿童青少年发展的影响具有重要的理论与现实意义。目前对父母教养行为的主流研究方法仍然是父母自陈报告的问卷法。然而,父母的主观报告易受社会期望和其他内隐偏见的影响。基于亲子互动的行为分析能更客观地考察教养行为。
2、在亲子沟通的观察研究中,研究者往往采用实验室观察任务,通过对亲子互动的行为类型、行为序列、言语内容和沟通结构等维度的编码,来考察父母的教养行为。然而,编码往往需要消耗大量的时间和资源,且研究的样本量受限。而且,实验室观察缺乏一定的生态效度,父母在实验室的行为表现与真实家庭场景的表现还是有一定的差异,如何在家庭场景的日常亲子互动或沟通中更好地考察教养模式及其影响,是当前亟需解决的重要问题。
技术实现思路
1、为了解决背景技术中存在的问题,本发明的目的在于提供一种基于大小模型协同的利用对话音频进行亲子教养行为识别的方法,模型可用于分析识别数据类别不平衡度较低的教养行为维度,对于数据类别不平衡度较高的教养行为维度也能通过指令微调的大语言模型来进行有效的分析识别。
2、本发明解决其技术问题采用的技术方案如下:
3、1)亲子对话数据预处理:对不同来源的亲子对话音频的文件统一格式,对音频进行分段形成片段的音频信息,再提取文本信息;
4、2)亲子对话数据特征提取:鉴于不同模态包含的信息各异,基于步骤1)得到的音频信息和文本信息,对音频和文本模态的特征进行提取,获得每个片段的音频特征和文本特征;
5、3)教养行为各维度数据类别不平衡度处理:根据不同来源的已知标签的各个数据集,进行分析处理获得每个数据集的教养行为各维度的数据类别不平衡度;
6、4)构建教养行为智能分析模型:针对数据类别不平衡度不同的数据集采用不同的模型进行训练处理,获得训练后的模型;
7、5)教养行为分析:针对不同来源的未知标签的各个数据集,按照教养行为每个维度对应的数据类别不平衡度高低采用步骤4)中对应的训练后的模型进行识别处理,获得具有高准确率的教养行为的识别结果。
8、本发明所述的亲子对话音频是来源于不同场景中的亲子活动中的语音对话音频,例如学校的、家庭的、公共场所的。
9、所述教养行为各维度包括积极情感表露、敏感回应、鼓励表达、问题解决、消极情感表露、情感关注、否定无视、命令胁迫、情感控制、情感忽视等十个维度。
10、所述步骤1)中,亲子对话数据预处理主要包括音频分段和提取文本的两个步骤:
11、在一个完整的对话中,对话人的情感会随着时间不断变化,为了识别对话人在不同时间段下的情感,将亲子对话音频以每30s为一个单位按照时序进行分段,获得各个片段的音频信息;
12、考虑到音频和文本的两种模态中包含不同的信息,这两种模态信息之间存在一定程度上的互补关系,为了进一步丰富特征信息,同时借助音频转文本算法对亲子对话音频的每个片段处理获得各个片段的文本信息。
13、所述步骤2)中,基于预处理得到的音频信息和文本信息,对音频和文本的特征进行提取:
14、在音频特征提取上,采用opensmile算法对每个片段的音频信息进行提取,获得各个片段的音频特征,第i个片段的音频特征表示为
15、在文本特征提取上,采用预训练的roberta模型对每个片段的文本信息进行处理,输出获得各个片段的文本特征,第i个片段的文本特征表示为。
16、所述步骤3)具体为:
17、教养行为各维度的类别标签均分别为否定的0或肯定的1,在每个维度下,按照以下公式确定每个数据集中教养行为各维度的数据类别不平衡度∈:
18、
19、其中,dm、dn分别表示数据集中第d个维度下的类别标签分别为0、1的数据样本数目;
20、当0.10≤∈≤0.90时,则数据集在第d个维度下的数据类别不平衡度较低;
21、否则数据集在第d个维度下的数据类别不平衡度较高。
22、所述步骤4)中,
23、用数据类别不平衡度较低的教养行为各维度的训练集和验证集等已知标签的数据集对领域特定小模型进行训练;
24、用数据类别不平衡度较高的教养行为各维度的训练集和验证集等已知标签的数据集对以chatglm模型为基座的大语言模型进行指令微调。
25、所述步骤4)中,针对数据类别不平衡度较低,建立领域特定小模型,用数据类别不平衡度较低的教养行为维度的已知标签的数据集输入到领域特定小模型中进行训练,获得训练后的领域特定小模型;
26、领域特定小模型主要由语境提取模块、图构建模块、图运算模块、教养行为分析模块的四个模块依次连接组成;
27、语境提取模块中,是将每个片段的音频特征和文本特征连接起来作为输入,采用注意力机制网络transformer运算来提取语境特征zi:
28、
29、其中,⊕代表特征的拼接,transformer表示注意力机制网络,zi表示第i个片段的语境特征,即第i个节点的语境特征;表示第i个片段的音频特征,表示第i个片段的文本特征;
30、图构建模块中,是将每个片段作为一个节点,各个节点按照片段之间的时序关系排列,将语境提取模块获取到的语境特征作为节点的特征,并设置一个窗口,窗口内按时序邻近的每两个节点用边连接起来,从而建立一个无环图。
31、图运算模块中,首先通过以下公式设置的一个关系图卷积网络实现窗口内的邻近节点之间的信息交互,获得中间交互特征x′i:
32、
33、其中,x′i表示节点i捕捉周围节点而获得的中间交互特征,nr(i)代表节点i的邻居集合,wroot和wr分别代表可学习的参数矩阵,i、j表示邻近节点的序数;
34、然后再根据中间交互特征x′i按照以下公式处理,以提取更丰富的节点特征表示,获得最终交互特征hi:
35、
36、其中,hi表示节点i的最终交互特征,αi,j表示节点i和节点j之间依赖关系程度的系数,w1和w2分别代表可学习的第一、第二参数矩阵,d表示向量维度,w3和w4代表可学习的第三、第四参数矩阵,softmax()表示归一化指数函数;
37、教养行为分析模块中,是将图运算模块获取到的最终交互特征映射到行为类别标签上,进而获得教养行为预测的标签:
38、y′i=argmax(pi)
39、pi=softmax(w2relu(w1hi+b1)+b2)
40、其中,y′i表示第i个节点下教养行为预测的标签,pi代表第i个节点下教养行为类别的概率分布;b1、b2分别表示第一、第二偏差值,relu()表示线性整流函数。
41、所述领域特定小模型在训练时建立以下损失函数,以损失函数最小为目标进行训练优化:
42、
43、其中,ltrain表示领域特定小模型训练的损失,n代表亲子对话音频的数量,c(j)代表第j个亲子对话音频中片段的数量,pj,i代表第j个亲子对话音频中第i个片段/节点下的教养行为类别的概率分布,yj,i代表第j个亲子对话音频中第i个片段/节点对应的真实行为类别。
44、所述步骤4)中,针对数据类别不平衡度较高,建立以chatglm模型为基座的大语言模型,用数据类别不平衡度较高的教养行为维度的已知标签的数据集输入到大语言模型中进行指令微调,获得训练后的大语言模型,具体为:
45、首先基于亲子对话音频中的文本信息、教养行为维度定义和识别任务定义,对亲子对话音频中的每个片段构建指令ii:
46、ii=ti⊕ji⊕ki
47、其中,ii表示完整输入指令,ti代表亲子对话音频中的第i片段的文本信息,ji代表第i片段的教养行为维度的定义文本,ki代表第i片段的教养行为维度识别任务的定义文本;具体实施中,所有片段的定义文本ji和ki都相同,均包含所有教养行为维度的定义文本和所有教养行为维度识别任务的定义文本。
48、然后利用gpt-4模型对构建的指令ii处理生成回复ri,回复ri中包含了亲子对话音频中第i片段的类别标签及其解释说明:
49、ri=gpt4(ii)
50、其中,gpt4()表示gpt-4模型;
51、接着对比判断回复ri中包含的类别标签和数据集中已知的真实标签是否一致:如果一致,则将指令ii及其对应的回复ri构成一对指令—回复对(i′i,r′i),并加入到预设空的指令数据集d中,否则将第i个片段的指令ii及其对应的回复ri过滤掉排除;
52、最后,利用构建好的指令数据集d输入到已有的chatglm模型进行微调,使chatglm模型能够以较好的适应教养行为识别任务,获得微调后的chatglm模型作为训练后的大语言模型。
53、所述大语言模型在微调时建立以下损失函数,以损失函数最小为目标进行训练优化:
54、
55、其中,linstruct表示大语言模型训练的损失,μi代表输入指令i′i时所输出的教养行为类别标签,p()表示概率函数,d表示指令数据集,i′i,r′i分别表示指令—回复对中的指令和回复,θ代表chatglm模型的参数矩阵。
56、所述步骤5)具体为:
57、使用训练后的领域特定小模型,对数据类别不平衡度较低的教养行为维度的未知标签的数据集中的亲子对话音频的每个片段进行教养行为识别,获得教养行为各维度的0或1的识别结果:
58、
59、其中,oi表示第i个片段的教养行为维度的识别结果,表示第i个片段的音频特征,表示第i个片段的文本特征;mdomain()表示训练后的领域特定小模型;
60、使用指令微调后的大语言模型,对数据类别不平衡度较高的教养行为维度的未知标签的数据集中的亲子对话音频的每个片段进行教养行为识别,获得教养行为各维度的0或1的识别结果:
61、oi=mllm(ii)
62、其中,oi表示第i个片段的教养行为维度的识别结果,ii表示第i个片段的指令,mllm()表示指令微调后的大语言模型。
63、本发明方法与现有技术相比具有的有益效果:
64、1.本方法使用大语言模型来对亲子对话音频分析识别数据类别不平衡度较高的教养行为维度,较好地利用了大语言模型内部丰富的知识和其出色的少样本学习能力。此外,分析识别结果具有较好的可解释性。
65、2.本方法使用领域特定的小模型来对亲子对话音频分析识别数据类别不平衡度较低的教养行为维度,相对平衡的数据类别分布能够让小模型较好的学习到不同类别数据对应的特征。
66、3.本方法亲子教养行为分类准确率较高,可以应用于对日常生活中海量的亲子对话中的亲子教养行为的有效分析识别。
1.一种基于大小模型协同的亲子教养行为识别方法,其特征在于,方法包括以下步骤:
2.根据权利要求1所述的一种基于大小模型协同的亲子教养行为识别方法,其特征在于,所述步骤1)中,主要包括音频分段和提取文本的两个步骤:
3.根据权利要求1所述的一种基于大小模型协同的亲子教养行为识别方法,其特征在于,所述步骤2)中,基于预处理得到的音频信息和文本信息,对音频和文本的特征进行提取:
4.根据权利要求1所述的一种基于大小模型协同的亲子教养行为识别方法,其特征在于,所述步骤3)具体为:
5.根据权利要求1所述的一种基于大小模型协同的亲子教养行为识别方法,其特征在于,所述步骤4)中,
6.根据权利要求5所述的一种基于大小模型协同的亲子教养行为识别方法,其特征在于,所述步骤4)中,建立领域特定小模型,用数据类别不平衡度较低的教养行为维度的已知标签的数据集输入到领域特定小模型中进行训练;
7.根据权利要求6所述的一种基于大小模型协同的亲子教养行为识别方法,其特征在于,所述领域特定小模型在训练时建立以下损失函数,以损失函数最小为目标进行训练优化:
8.根据权利要求5所述的一种基于大小模型协同的亲子教养行为识别方法,其特征在于,所述步骤4)中,建立以chatglm模型为基座的大语言模型,用数据类别不平衡度较高的教养行为维度的已知标签的数据集输入到大语言模型中进行指令微调,具体为:
9.根据权利要求8所述的一种基于大小模型协同的亲子教养行为识别方法,其特征在于,所述大语言模型在微调时建立以下损失函数,以损失函数最小为目标进行训练优化:
10.根据权利要求1所述的一种基于大小模型协同的亲子教养行为识别方法,其特征在于,所述步骤5)具体为:
