一种创建文本分类模型的方法、装置、介质及设备与流程

allin2023-01-25  96



1.本发明涉及文本分类技术领域,尤其涉及一种创建文本分类模型的方法、装置、介质及设备。


背景技术:

2.在直播平台中,需要对平台弹幕文本进行实时识别分类,识别平台用户的语气状态,以能对用户进行准确的活动引导,辅助运行平台的运营策略。
3.但是实际在处理文本的过程中,由于中文词组、汉字的数量巨大,基于词表生产的文本向量维度通常会比较巨大,为了去除文本中的噪声、提高数据处理效率,通常需要对数据进行降维。
4.相关技术中使用的降维方法通常是保留文本向量中前n个权重较大的文本特征,放弃权重较小的文本特征。但是文本领域中,权重较小的文本特征往往包含了高频信息和细节信息,因此在利用传统降维后的文本数据进行文本分类模型的训练时,文本分类模型的精度并不能得到确保。


技术实现要素:

5.针对现有技术存在的问题,本发明实施例提供了一种创建文本分类模型的方法、装置、介质及设备,用于解决现有技术中,在利用降维的文本数据进行创建文本分类模型时,由于降维后的文本数据丢失了一些高频文本信息,因此导致创建的文本分类模型的精度不能得到确保的技术问题。
6.本发明的第一方面,提供一种创建文本分类模型的方法,所述方法包括:
7.根据直播间的弹幕信息确定文本样本集合,所述文本样本集合包括多种样本类别;
8.将所述文本样本集合中的各文本样本转换为对应的文本向量;
9.针对当前文本向量中的当前维文本特征,确定所述当前维文本特征与每个同类文本样本之间的第一距离,以及确定所述当前维文本特征与每个非同类文本样本之间的第二距离;
10.基于所述第一距离及所述第二距离确定所述当前维文本特征的参考权重;
11.基于每维文本特征的参考权重对所述当前文本向量进行降维,并获得降维后的目标文本向量;
12.对所述目标文本向量进行训练,获得文本分类模型。
13.上述方案中,所述根据直播间的弹幕信息确定文本样本集合,包括:
14.对所述弹幕信息进行分词,获得多个词语;
15.若确定所述弹幕信息中包含有积极语气的词语,则将所述弹幕信息归类为积极语气样本类别;
16.若确定所述弹幕信息中包含有消极语气的词语,则将所述弹幕信息归类为消极语
气样本类别;
17.若确定所述弹幕信息中包含有中立语气的词语,则将所述弹幕信息归类为中立语气样本类别;所述文本样本集合包括所述积极语气样本类别、所述消极语气样本类别及所述中立语气样本类别。
18.上述方案中,所述确定所述当前维文本特征与每个同类文本样本之间的第一距离,包括:
19.基于公式确定第一距离中间变量dis(a,r,gi);
20.基于公式确定所述当前维文本特征与每个同类文本样本之间的第一距离d1;其中,
21.所述t[a]为样本t的第a维特征值,所述样本t为所述当前文本向量对应的当前文本样本;所述gi[a]为样本gi的第a维特征值,所述样本gi与当前文本样本属于同类样本类别,所述gi为所述同类样本类别中的第i个文本样本;所述a为所述当前文本向量的当前维特征;所述max(a)为所有维特征值中的最大特征值;所述min(a)为所有维特征值中的最小特征值;所述i为所述同类样本类别中文本样本的序号;所述s为所述同类样本类别中的文本样本的总数量;所述r为距离标识参数;所述n为所述文本样本集合中的文本样本总数量;所述k为所述目标文本特征的预设数量。
[0022]
上述方案中,所述确定所述当前维文本特征与每个非同类文本样本之间的第二距离,包括:
[0023]
根据公式确定第二距离中间变量dis(a,r,mj(c));
[0024]
根据公式确定所述当前维文本特征与每个非同类文本样本之间的第二距离d2;其中,
[0025]
所述t[a]为样本t的第a维特征值,所述样本t为所述当前文本向量对应的当前文本样本;所述mj(c)[a]为样本mj(c)的第a维特征值,所述a为所述当前文本向量的当前维特征;所述mj(c)与所述当前文本样本属于非同类样本类别,所述mj(c)为非同类样本类别c中
的第j个文本样本;所述a为所述当前文本向量的当前维特征;所述max(a)为所有维特征值中的最大特征值;所述min(a)为所有维特征值中的最小特征值;所述j为所述非同类样本类别c中的文本向量的序号;所述n为所述非同类样本类别c中的文本样本的总数量;所述p(c)为所述非同类样本类别c在所述文本样本集合中的占比;所述r为距离标识参数;所述n为所述文本样本集合中的文本样本总数量;所述k为所述目标文本特征的预设数量。
[0026]
上述方案中,所述基于所述第一距离及所述第二距离确定所述当前维文本特征的参考权重,包括:
[0027]
根据公式p(a)=p

(a)-d1+d2确定所述当前维文本特征的参考权重p(a);其中,
[0028]
所述d1为所述第一距离,所述d2为所述第二距离,所述p

(a)为所述当前维文本特征的初始权重。
[0029]
上述方案中,所述基于每维文本特征的参考权重对所述当前文本向量进行降维,并获得降维后的目标文本向量,包括:
[0030]
按照参考权重从大到小的保留策略对所述当前文本向量的各维文本特征进行筛选,获得预设数量的目标文本特征;所述预设数量的目标文本特征形成的文本向量为所述目标文本向量。
[0031]
本发明的第二方面,提供一种创建文本分类模型的装置,所述装置包括:
[0032]
第一确定单元,用于根据直播间的弹幕信息确定文本样本集合,所述文本样本集合包括多种样本类别;
[0033]
转换单元,用于将所述文本样本集合中的各文本样本转换为对应的文本向量;
[0034]
第二确定单元,用于针对当前文本向量中的当前维文本特征,确定所述当前维文本特征与每个同类文本样本之间的第一距离,以及确定所述当前维文本特征与每个非同类文本样本之间的第二距离;基于所述第一距离及所述第二距离确定所述当前维文本特征的参考权重;
[0035]
降维单元,用于基于每维文本特征的参考权重对所述当前文本向量进行降维,并获得降维后的目标文本向量;
[0036]
训练单元,用于对所述目标文本向量进行训练,获得文本分类模型。
[0037]
上述方案中,所述第一确定单元具体用于:
[0038]
对所述弹幕信息进行分词,获得多个词语;
[0039]
若确定所述弹幕信息中包含有积极语气的词语,则将所述弹幕信息归类为积极语气样本类别;
[0040]
若确定所述弹幕信息中包含有消极语气的词语,则将所述弹幕信息归类为消极语气样本类别;
[0041]
若确定所述弹幕信息中包含有中立语气的词语,则将所述弹幕信息归类为中立语气样本类别;所述文本样本集合包括所述积极语气样本类别、所述消极语气样本类别及所述中立语气样本类别。
[0042]
本发明的第三方面,提供一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现第一方面中任一项所述的方法。
[0043]
本发明的第四方面,一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现第一方面中任一项所述的
方法。
[0044]
本发明提供了一种创建文本分类模型的方法、装置、介质及设备,方法包括:根据直播间的弹幕信息确定文本样本集合,所述文本样本集合包括多种样本类别;将所述文本样本集合中的各文本样本转换为对应的文本向量;针对当前文本向量中的当前维文本特征,确定所述当前维文本特征与每个同类文本样本之间的第一距离,以及确定所述当前维文本特征与每个非同类文本样本之间的第二距离;基于所述第一距离及所述第二距离确定所述当前维文本特征的参考权重;基于每维文本特征的参考权重对所述当前文本向量进行降维,并获得降维后的目标文本向量;对所述目标文本向量进行训练,获得文本分类模型;如此,根据当前维文本特征与同类文本样本之间的第一距离,以及当前维文本特征与每个非同类文本样本之间的第二距离对文本向量进行降维时,由于考虑到文本样本的类别,因此降维后可以得到与文本类别相关性较高的文本特征,较大程度上保留了文本的原始信息;那么在利用降维后的文本数据创建分类模型时,也可确保文本分类模型的精度。
附图说明
[0045]
通过阅读下文优选实施方式的详细描述,各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的,而并不认为是对本发明的限制。而且在整个附图中,用相同的参考符号表示相同的部件。在附图中:
[0046]
图1为本发明实施例提供的创建文本分类模型的方法流程示意图;
[0047]
图2为本发明实施例提供的创建文本分类模型的装置结构示意图;
[0048]
图3为本发明实施例提供的计算机设备结构示意图;
[0049]
图4为本发明实施例提供的计算机可读存储介质结构示意图。
具体实施方式
[0050]
为了解决现有技术中在利用降维的文本数据进行创建文本分类模型时,由于降维后的文本数据丢失了一些高频文本信息,因此导致创建的文本分类模型的精度不能得到确保的技术问题,本发明提供了一种创建文本分类模型的方法、装置、介质及设备。
[0051]
为了更好的理解上述技术方案,下面通过附图以及具体实施例对本说明书实施例的技术方案做详细的说明,应当理解本说明书实施例以及实施例中的具体特征是对本说明书实施例技术方案的详细的说明,而不是对本说明书技术方案的限定,在不冲突的情况下,本说明书实施例以及实施例中的技术特征可以相互组合。
[0052]
本实施例提供一种创建文本分类模型的方法,如图1所示,方法包括以下步骤:
[0053]
s110,根据直播间的弹幕信息确定文本样本集合,所述文本样本集合包括多种样本类别;
[0054]
主播在进行直播时,观众可以输出各种各样的弹幕信息。本实施例根据直播间的弹幕信息确定文本样本集合;由于弹幕信息的语气类别是不同的,因此文本样本集合包括多种样本类别。当然,文本样本集合中也可以包括图像信息(比如表情包)。
[0055]
在一种实施方式中,根据直播间的弹幕信息确定文本样本集合,包括:
[0056]
对弹幕信息进行分词,获得多个词语;
[0057]
若确定弹幕信息中包含有积极语气的词语,则将弹幕信息归类为积极语气样本类
别;
[0058]
若确定弹幕信息中包含有消极语气的词语,则将弹幕信息归类为消极语气样本类别;
[0059]
若确定弹幕信息中包含有中立语气的词语,则将弹幕信息归类为中立语气样本类别;文本样本集合包括积极语气样本类别、消极语气样本类别及中立语气样本类别。
[0060]
举例来说,比如当弹幕信息为“今天很开心”,对该弹幕信息进行切词后,获得的词语为“今天”、“很”、“开心”。由于弹幕信息中包含有积极语气词语“开心,那么将此弹幕信息归类到积极语气样本类别。
[0061]
当弹幕信息为“太阳很大”,对该弹幕信息进行切词后,获得的词语为“太阳”“很大”。由于弹幕信息中包含有积极语气词语“太阳”,那么可该条弹幕信息归类到中立语气样本类别。
[0062]
当弹幕信息为“我很难过”,对该弹幕信息进行切词后,获得的词语为“我”、“很”、“难过”,由于弹幕信息中包含有积极语气词语“难过”,那么将此弹幕信息归类到消极语气样本类别。这样文本样本集合中最终包括有三种样本类别,每种样本类别中包含预设数量的样本数据,比如100条样本数据。可以理解的是,一条弹幕信息可视为一个文本样本数据。
[0063]
本步骤先通过对弹幕信息进行分类,便于后续可以根据相应的类别对弹幕信息进行降维,从而提高降维后得到的目标文本特征与文本类别的相关性。
[0064]
s111,将所述文本样本集合中的各文本样本转换为对应的文本向量;
[0065]
确定出文本样本集合后,将文本样本集合中的各文本样本转换为对应的文本向量,也即对文本样本进行文本向量化。
[0066]
同样的,针对当前任意一条文本样本,可以先对文本样本进行分词,形成词袋,词袋中的词语数量可以为预设数量,比如2000个。这样,每个文本样本对应的文本向量即为1*2000维。具体的分词方式比如可以为jieba分词算法,本实施例不做限制。
[0067]
然后可以利用文本向量化算法(比如tf-idf算法)对文本样本进行文本向量化,获得对应的文本向量。
[0068]
举例来讲,假设文本样本集合包含有“我很开心”、“今天天气不错,我很开心”以及“今天我很难过”这三条文本样本,对各文本样本进行分词及去停用词后,计算每个词语的词频tf。
[0069]
其中,词频(tf)=某个词语在弹幕信息中的出现次数/文本样本集合的总词数。
[0070]
比如,第一条文本样本“我很开心”,分词后可得到“我”“很”“开心”三个词语,“我”出现1次,“很”出现1次,“开心”出现1次;那么第一条文本样本中,“我”的词频为1/(1+1+1);“很”的词频为1/(1+1+1);“开心”的词频为1/(1+1+1)。
[0071]
然后计算每个词语的逆文档频率idf。逆文档频率(idf)=log(文本样本总数量/包含当前词语的样本数量+1)
[0072]
继续第一条文本样本“我很开心”为例进行说明,“我”的逆文档频率=log(3/(1+1)),“很”的逆文档频率=log(3/(3+1)),“开心”的逆文档频率=log(3/(2+1))。
[0073]
最后基于公式tf-idf=词频(tf)*逆文档频率(idf)确定每个词语的tf-idf值。
[0074]
基于tf-idf值将每条文本样本转化为对应的文本向量。由于词袋数量为2000个,因此每个文本向量均为1*2000维。
[0075]
本步骤通过将文本样本向量化,为后续对文本样本进行特征降维做好基础。
[0076]
s112,针对当前文本向量中的当前维文本特征,确定所述当前维文本特征与每个同类文本样本之间的第一距离,以及确定所述当前维文本特征与每个非同类文本样本之间的第二距离;
[0077]
如上文所述,由于每个文本向量均包含有2000维特征,虽然高维特征可以捕获更多的语义,但是会增加服务器的计算压力,导致效率很低。因此本步骤需要对每个文本向量进行降维处理,为每个文本向量保留预设数量的有效特征,比如预设数量可以为100,这样就相当于将2000维特征降低为100维特征。
[0078]
本实施例中,针对当前文本向量中的当前维文本特征,确定当前维文本特征与每个同类文本样本之间的第一距离,以及确定当前维文本特征与每个非同类文本样本之间的第二距离。
[0079]
在一种实施方式中,确定当前维文本特征与每个同类文本样本之间的第一距离,包括:
[0080]
基于公式(1)确定第一距离中间变量dis(a,r,gi);
[0081][0082]
基于公式(2)确定当前维文本特征与每个同类文本样本之间的第一距离d1;
[0083][0084]
其中,t[a]为样本t的第a维特征值,t为当前文本向量对应的当前文本样本;gi[a]为样本gi的第a维特征值,样本gi与当前文本向量对应的当前文本样本属于同类样本类别,gi为同类样本类别中除当前文本之外的第i个文本样本;a为当前文本向量的当前维特征;max(a)为所有维特征值中的最大特征值;min(a)为所有维特征值中的最小特征值;i为同类样本类别中文本样本的序号;s为同类样本类别中的文本样本的总数量;r为距离标识参数;n为文本样本集合中的文本样本总数量;k为目标文本特征的预设数量,目标文本特征也为有效特征,如上文所述,比如数量可以为100。
[0085]
其中,当前文本向量的所有维特征值确定出之后,必然是有大小之分的,那么max(a)可以理解为当前文本向量中所有维特征值中的最大特征值,min(a)可以理解为当前文本向量中所有维特征值中的最小特征值。
[0086]
这里,本实施例中有3个文本样本类别,若当前文本样本为积极语气样本类别中的文本样本,那么gi则为积极语气样本类别中除当前文本样本外的剩余文本样本中的任一文本样本。
[0087]
上述公式(1)的原理为:若当前文本样本和样本gi中的每维特征值完全相同,则dis(a,r,gi)的值为1;若当前文本样本和样本gi中的每维特征值均不相同,则dis(a,r,gi)
的值为0;若当前文本样本和样本gi中的每维特征值有相同的,也有不同的,那么则需要基于来确定dis(a,r,gi)的值。
[0088]
上述公式(2)的原理为:将当前文本样本的当前维特征与同类样本类别中剩余文本样本的距离值确定出来,进而表示当前维特征与同类样本之间的距离,若该距离越小,则说明当前维特征的有效度越高,包含的语义越关键。
[0089]
在一种实施方式中,确定当前维文本特征与每个非同类文本样本之间的第二距离,包括:
[0090]
根据公式(3)确定第二距离中间变量dis(a,r,mj(c));
[0091][0092]
根据公式(4)确定所述当前维文本特征与每个非同类文本样本之间的第二距离d2;
[0093][0094]
其中,t[a]为样本t的第a维特征值,样本t为当前文本向量对应的当前文本样本;mj(c)[a]为样本mj(c)的第a维特征值,a为当前文本向量的当前维特征;mj(c)与当前文本样本属于非同类样本类别,mj(c)为非同类样本类别c中的第j个文本样本;a为当前文本向量的当前维特征;max(a)为所有维特征值中的最大特征值;min(a)为所有维特征值中的最小特征值;j为非同类样本类别c中的文本向量的序号;n为非同类样本类别c中的文本样本的总数量;p(c)为非同类样本类别c在文本样本集合中的占比;r为距离标识参数;n为文本样本集合中的文本样本总数量;k为目标文本特征的预设数量。
[0095]
这里,本实施例中有3个文本样本类别,若当前文本样本为积极语气类别中的文本样本,那么mj(c)则为中立语气样本类别及消极语气样本类别中包含的任一文本样本。
[0096]
同样的,上述公式(3)的原理为:若当前文本样本和样本mj(c)中的每维特征值完全相同,则dis(a,r,mj(c))的值为1;若当前文本样本和样本mj(c)中的每维特征值均不相同,则dis(a,r,mj(c))的值为0;若当前文本样本和样本mj(c)中的每维特征值有相同的,也有不同的,那么则需要基于来确定dis(a,r,mj(c))的值。
[0097]
上述公式(4)的原理为:将当前文本样本的当前维特征与非同类样本类别中文本样本的距离值确定出来,进而表示当前维特征与非同类样本之间的距离,若该距离越大,则说明当前维特征的有效度越高,包含的语义越关键。
[0098]
本步骤通过确定出当前文本样本的当前维特征与非同类样本类别中文本样本的
距离值以及当前文本样本的当前维特征与同类样本类别中文本样本的距离值,进而根据两个距离值来筛选出与文本样本类别相关性较高的文本特征,在达到降维的同时还能最大程度保留关键语义。
[0099]
s113,基于所述第一距离及所述第二距离确定所述当前维文本特征的参考权重;基于每个文本特征的参考权重对所述当前文本向量进行降维,并获得降维后的目标文本向量;
[0100]
第一距离及第二距离确定出之后,基于第一距离及第二距离确定当前维文本特征的参考权重。
[0101]
在一种实施方式中,基于第一距离及第二距离确定当前维文本特征的参考权重,包括:
[0102]
根据公式p(a)=p

(a)-d1+d2确定当前维文本特征的参考权重p(a);其中,
[0103]
d1为第一距离,d2为第二距离,p

(a)为当前维文本特征的初始权重。
[0104]
本实施例中,当前维文本特征的初始权重可以为当前维文本特征的tf-idf值。
[0105]
这样最终可以得到每个文本样本每维文本特征的参考权重。
[0106]
上述公式的原理为:利用当前维文本特征的初始权重减去同类样本对应的第一距离,加上非同类样本对应的第二距离,最终确定出的参考权重最大程度和样本类别相关性较高。
[0107]
然后,基于每维文本特征的参考权重对所述当前文本向量进行降维,并获得降维后的目标文本向量。
[0108]
在一种实施方式中,基于每维文本特征的参考权重对当前文本向量进行降维,并获得降维后的目标文本向量,包括:
[0109]
按照参考权重从大到小的保留策略对当前文本向量的各维文本特征进行筛选,获得预设数量的目标文本特征;预设数量的目标文本特征形成的文本向量为目标文本向量。
[0110]
具体来讲,针对每个文本向量,确定出每维文本特征的参考权重后,基于从大到小或从小到达的顺序排序,然后保留最大的k个参考权重对应的文本特征。这样即将2000维特征降低至k维特征。
[0111]
本步骤对每个文本向量降维后,由于保留下来的k维特征是与样本类别相关性较高的特征,因此语义损失不大,但维度却大大减少,可以提高服务器对其处理的效率。
[0112]
s114,对所述目标文本向量进行训练,获得文本分类模型。
[0113]
得到目标文本向量后,可以利用贝叶斯分类算法对目标文本向量进行训练,最终获得文本分类模型。
[0114]
获得文本分类模型后,可根据文本分类模型对直播平台中各直播间的各弹幕信息进行识别,对弹幕信息进行文本分类,识别用户的语气状态,进而根据用户的语气状态进行活动引导,提高用户在直播平台中的满意度。
[0115]
举例来说,假设用户在某个游戏直播间中输入的弹幕信息为“打的真垃圾”,利用文本分类模型对此弹幕信息进行识别后,可识别出“垃圾”一词,得到的文本分类结果为“消极语气”,代表此用户对当前主播的游戏水平不满意。那么直播平台可基于文本分类结果为该用户重新推荐新的游戏主播,提高用户的满意度。
[0116]
本实施例根据当前维文本特征与同类文本样本之间的第一距离,以及当前维文本
特征与每个非同类文本样本之间的第二距离对文本向量进行降维时,由于考虑到文本样本的类别,因此降维后可以得到与文本类别相关性较高的文本特征,较大程度上保留了文本的原始信息;那么在利用降维后的文本数据创建分类模型时,也可确保文本分类模型的精度。
[0117]
基于同样非发明构思,本实施例还提供一种创建文本分类模型的装置,如图2所示,装置包括:
[0118]
第一确定单元21,用于根据直播间的弹幕信息确定文本样本集合,所述文本样本集合包括多种样本类别;
[0119]
转换单元22,用于将所述文本样本集合中的各文本样本转换为对应的文本向量;
[0120]
第二确定单元23,用于针对当前文本向量中的当前维文本特征,确定所述当前维文本特征与每个同类文本样本之间的第一距离,以及确定所述当前维文本特征与每个非同类文本样本之间的第二距离;基于所述第一距离及所述第二距离确定所述当前维文本特征的参考权重;
[0121]
降维单元24,用于基于每维文本特征的参考权重对所述当前文本向量进行降维,并获得降维后的目标文本向量;
[0122]
训练单元25,用于对所述目标文本向量进行训练,获得文本分类模型。
[0123]
具体的,第一确定单元21具体用于:
[0124]
对所述弹幕信息进行分词,获得多个词语;
[0125]
若确定所述弹幕信息中包含有积极语气的词语,则将所述弹幕信息归类为积极语气样本类别;
[0126]
若确定所述弹幕信息中包含有消极语气的词语,则将所述弹幕信息归类为消极语气样本类别;
[0127]
若确定所述弹幕信息中包含有中立语气的词语,则将所述弹幕信息归类为中立语气样本类别;所述文本样本集合包括所述积极语气样本类别、所述消极语气样本类别及所述中立语气样本类别。
[0128]
以上各单元的具体功能可参见上述方法实施例中的对应描述,在此不再赘述。由于本发明实施例所介绍的装置,为实施本发明实施例的方法所采用的装置,故而基于本发明实施例所介绍的方法,本领域所属人员能够了解该装置的具体结构及变形,故而在此不再赘述。凡是本发明实施例的方法所采用的装置都属于本发明所欲保护的范围。
[0129]
基于同样的发明构思,本实施例提供一种计算机设备300,如图3所示,包括存储器310、处理器320及存储在存储器310上并可在处理器320上运行的计算机程序311,处理器320执行计算机程序311时实现以下步骤:
[0130]
根据直播间的弹幕信息确定文本样本集合,所述文本样本集合包括多种样本类别;
[0131]
将所述文本样本集合中的各文本样本转换为对应的文本向量;
[0132]
针对当前文本向量中的当前维文本特征,确定所述当前维文本特征与每个同类文本样本之间的第一距离,以及确定所述当前维文本特征与每个非同类文本样本之间的第二距离;
[0133]
基于所述第一距离及所述第二距离确定所述当前维文本特征的参考权重;
[0134]
基于每维文本特征的参考权重对所述当前文本向量进行降维,并获得降维后的目标文本向量;
[0135]
对所述目标文本向量进行训练,获得文本分类模型。
[0136]
在具体实施过程中,处理器320执行计算机程序311时,可以实现前述实施例中任一实施方式。
[0137]
由于本实施例所介绍的计算机设备为实施本技术实施例一种创建文本分类模型的方法所采用的设备,故而基于本技术前述实施例中所介绍的方法,本领域所属技术人员能够了解本实施例的计算机设备的具体实施方式以及其各种变化形式,所以在此对于该服务器如何实现本技术实施例中的方法不再详细介绍。只要本领域所属技术人员实施本技术实施例中的方法所采用的设备,都属于本技术所欲保护的范围。
[0138]
基于同一发明构思,本实施例提供一种计算机可读存储介质400,如图4所示,其上存储有计算机程序411,该计算机程序411被处理器执行时实现以下步骤:
[0139]
根据直播间的弹幕信息确定文本样本集合,所述文本样本集合包括多种样本类别;
[0140]
将所述文本样本集合中的各文本样本转换为对应的文本向量;
[0141]
针对当前文本向量中的当前维文本特征,确定所述当前维文本特征与每个同类文本样本之间的第一距离,以及确定所述当前维文本特征与每个非同类文本样本之间的第二距离;
[0142]
基于所述第一距离及所述第二距离确定所述当前维文本特征的参考权重;
[0143]
基于每维文本特征的参考权重对所述当前文本向量进行降维,并获得降维后的目标文本向量;
[0144]
对所述目标文本向量进行训练,获得文本分类模型。
[0145]
在具体实施过程中,该计算机程序411被处理器执行时,可以实现前述实施例中任一实施方式。
[0146]
本发明实施例提供的创建文本分类模型的方法、装置、介质及设备能够带来的有益效果至少是:
[0147]
本发明提供了一种创建文本分类模型的方法、装置、介质及设备,方法包括:根据直播间的弹幕信息确定文本样本集合,所述文本样本集合包括多种样本类别;将所述文本样本集合中的各文本样本转换为对应的文本向量;针对当前文本向量中的当前维文本特征,确定所述当前维文本特征与每个同类文本样本之间的第一距离,以及确定所述当前维文本特征与每个非同类文本样本之间的第二距离;基于所述第一距离及所述第二距离确定所述当前维文本特征的参考权重;基于每维文本特征的参考权重对所述当前文本向量进行降维,并获得降维后的目标文本向量;对所述目标文本向量进行训练,获得文本分类模型;如此,根据当前维文本特征与同类文本样本之间的第一距离,以及当前维文本特征与每个非同类文本样本之间的第二距离对文本向量进行降维时,由于考虑到文本样本的类别,因此降维后可以得到与文本类别相关性较高的文本特征,较大程度上保留了文本的原始信息;那么在利用降维后的文本数据创建分类模型时,也可确保文本分类模型的精度。
[0148]
本领域内的技术人员应明白,本技术的实施例可提供为方法、系统、或计算机程序产品。因此,本技术可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实
施例的形式。而且,本技术可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、cd-rom、光学存储器等)上实施的计算机程序产品的形式。
[0149]
本技术是参照根据本技术实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
[0150]
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
[0151]
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
[0152]
尽管已描述了本技术的优选实施例,但本领域内的技术人员一旦得知了基本创造性概念,则可对这些实施例作出另外的变更和修改。所以,所附权利要求意欲解释为包括优选实施例以及落入本技术范围的所有变更和修改。
[0153]
以上所述,仅为本发明的较佳实施例而已,并非用于限定本发明的保护范围,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。

技术特征:
1.一种创建文本分类模型的方法,其特征在于,所述方法包括:根据直播间的弹幕信息确定文本样本集合,所述文本样本集合包括多种样本类别;将所述文本样本集合中的各文本样本转换为对应的文本向量;针对当前文本向量中的当前维文本特征,确定所述当前维文本特征与每个同类文本样本之间的第一距离,以及确定所述当前维文本特征与每个非同类文本样本之间的第二距离;基于所述第一距离及所述第二距离确定所述当前维文本特征的参考权重;基于每维文本特征的参考权重对所述当前文本向量进行降维,并获得降维后的目标文本向量;对所述目标文本向量进行训练,获得文本分类模型。2.如权利要求1所述的方法,其特征在于,所述根据直播间的弹幕信息确定文本样本集合,包括:对所述弹幕信息进行分词,获得多个词语;若确定所述弹幕信息中包含有积极语气的词语,则将所述弹幕信息归类为积极语气样本类别;若确定所述弹幕信息中包含有消极语气的词语,则将所述弹幕信息归类为消极语气样本类别;若确定所述弹幕信息中包含有中立语气的词语,则将所述弹幕信息归类为中立语气样本类别;所述文本样本集合包括所述积极语气样本类别、所述消极语气样本类别及所述中立语气样本类别。3.如权利要求1所述的方法,其特征在于,所述确定所述当前维文本特征与每个同类文本样本之间的第一距离,包括:基于公式确定第一距离中间变量dis(a,r,g
i
);基于公式确定所述当前维文本特征与每个同类文本样本之间的第一距离d1;其中,所述t[a]为样本t的第a维特征值,所述样本t为所述当前文本向量对应的当前文本样本;所述g
i
[a]为样本g
i
的第a维特征值,所述样本g
i
与当前文本样本属于同类样本类别,所述g
i
为所述同类样本类别中的第i个文本样本;所述a为所述当前文本向量的当前维特征;所述max(a)为所有维特征值中的最大特征值;所述min(a)为所有维特征值中的最小特征值;所述i为所述同类样本类别中文本样本的序号;所述s为所述同类样本类别中的文本样本的总数量;所述r为距离标识参数;所述n为所述文本样本集合中的文本样本总数量;所述k为所述目标文本特征的预设数量。
4.如权利要求1所述的方法,其特征在于,所述确定所述当前维文本特征与每个非同类文本样本之间的第二距离,包括:根据公式确定第二距离中间变量dis(a,r,m
j
(c));根据公式确定所述当前维文本特征与每个非同类文本样本之间的第二距离d2;其中,所述t[a]为样本t的第a维特征值,所述样本t为所述当前文本向量对应的当前文本样本;所述m
j
(c)[a]为样本m
j
(c)的第a维特征值,所述a为所述当前文本向量的当前维特征;所述m
j
(c)与所述当前文本样本属于非同类样本类别,所述m
j
(c)为非同类样本类别c中的第j个文本样本;所述a为所述当前文本向量的当前维特征;所述max(a)为所有维特征值中的最大特征值;所述min(a)为所有维特征值中的最小特征值;所述j为所述非同类样本类别c中的文本向量的序号;所述n为所述非同类样本类别c中的文本样本的总数量;所述p(c)为所述非同类样本类别c在所述文本样本集合中的占比;所述r为距离标识参数;所述n为所述文本样本集合中的文本样本总数量;所述k为所述目标文本特征的预设数量。5.如权利要求1所述的方法,其特征在于,所述基于所述第一距离及所述第二距离确定所述当前维文本特征的参考权重,包括:根据公式p(a)=p

(a)-d1+d2确定所述当前维文本特征的参考权重p(a);其中,所述d1为所述第一距离,所述d2为所述第二距离,所述p

(a)为所述当前维文本特征的初始权重。6.如权利要求1所述的方法,其特征在于,所述基于每维文本特征的参考权重对所述当前文本向量进行降维,并获得降维后的目标文本向量,包括:按照参考权重从大到小的保留策略对所述当前文本向量的各维文本特征进行筛选,获得预设数量的目标文本特征;所述预设数量的目标文本特征形成的文本向量为所述目标文本向量。7.一种创建文本分类模型的装置,其特征在于,所述装置包括:第一确定单元,用于根据直播间的弹幕信息确定文本样本集合,所述文本样本集合包括多种样本类别;转换单元,用于将所述文本样本集合中的各文本样本转换为对应的文本向量;第二确定单元,用于针对当前文本向量中的当前维文本特征,确定所述当前维文本特征与每个同类文本样本之间的第一距离,以及确定所述当前维文本特征与每个非同类文本样本之间的第二距离;基于所述第一距离及所述第二距离确定所述当前维文本特征的参考权重;
降维单元,用于基于每维文本特征的参考权重对所述当前文本向量进行降维,并获得降维后的目标文本向量;训练单元,用于对所述目标文本向量进行训练,获得文本分类模型。8.如权利要求7所述的装置,其特征在于,所述第一确定单元具体用于:对所述弹幕信息进行分词,获得多个词语;若确定所述弹幕信息中包含有积极语气的词语,则将所述弹幕信息归类为积极语气样本类别;若确定所述弹幕信息中包含有消极语气的词语,则将所述弹幕信息归类为消极语气样本类别;若确定所述弹幕信息中包含有中立语气的词语,则将所述弹幕信息归类为中立语气样本类别;所述文本样本集合包括所述积极语气样本类别、所述消极语气样本类别及所述中立语气样本类别。9.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现权利要求1至6任一项所述的方法。10.一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现权利要求1至6任一项所述的方法。

技术总结
本发明提供一种创建文本分类模型的方法、装置、介质及设备,方法包括:根据直播间的弹幕信息确定文本样本集合;将文本样本集合中的各文本样本转换为对应的文本向量;确定当前维文本特征与每个同类文本样本之间的第一距离,确定当前维文本特征与每个非同类文本样本之间的第二距离;基于第一距离及第二距离确定当前维文本特征的参考权重;基于每维文本特征的参考权重对当前文本向量进行降维;对降维后的目标文本向量进行训练,获得文本分类模型;如此,由于在降维时考虑到文本样本的类别,因此降维后可以得到与文本类别相关性较高的文本特征,较大程度上保留了文本的原始信息;在利用降维后的文本数据创建分类模型时,确保文本分类模型的精度。型的精度。型的精度。


技术研发人员:徐乐乐
受保护的技术使用者:武汉斗鱼鱼乐网络科技有限公司
技术研发日:2022.02.16
技术公布日:2022/7/5
转载请注明原文地址: https://www.8miu.com/read-4973.html

最新回复(0)