社交机器人账号识别模型的训练方法、识别方法和装置

allin2026-02-27  25


本公开涉及计算机,更具体地说,涉及社交机器人账号识别模型的训练方法、识别方法和装置。


背景技术:

1、“社交机器人”是指发布内容由程序控制的网络社交账号,随着信息技术的蓬勃发展,社交机器人在网络用户中的占比越来越高,已经逐渐成为社交网络中不可忽视的一部分。但是,社交机器人容易被操控,很可能会被人恶意控制来欺骗用户、影响舆论,这会对社会造成不良影响。因此,针对社交机器人进行识别,对维护网络环境和社会和平稳定具有重要意义。

2、相关技术中,将每个用户都视作独立的个体,并基于每个用户的个人特征进行社交机器人的识别。例如,可以基于用户名称、用户的个人简介、用户的发文历史、用户的活跃程度等等来进行识别。但是,此种方法所依据的特征较为单一,很可能出现误识别的现象,即社交机器人的识别准确性较差。


技术实现思路

1、本公开提供社交机器人账号识别模型的训练方法、识别方法和装置,以至少解决上述相关技术中,社交机器人的识别准确性较差的问题。

2、根据本公开实施例的第一方面,提供一种社交机器人账号识别模型的训练方法,包括:获取账号特征样本,其中,所述账号特征样本包含账号个体特征样本和账号群体特征样本,所述账号特征样本对应有账号的真实身份标签,所述账号个体特征样本为账号对应的用户的个人特征样本,所述账号群体特征样本为当前账号与同一评论区内其他账号所具有的共同特征样本,所述账号特征样本为文本形式的特征样本;将所述账号特征样本输入所述账号识别模型,获得将所述账号特征样本对应的身份识别为社交机器人账号的目标概率;基于所述目标概率和所述真实身份标签,计算损失函数的值;通过根据所述损失函数的值调整所述账号识别模型的参数,以对所述账号识别模型进行训练。

3、可选地,所述将所述账号特征样本输入所述账号识别模型,获得将所述账号特征样本对应的身份识别为社交机器人账号的目标概率,包括:通过所述账号识别模型将所述账号个体特征样本转换为账号个体特征向量,并将所述账号群体特征样本转换为账号群体特征向量;通过所述账号识别模型基于所述账号个体特征向量和所述账号群体特征向量,获取账号融合特征向量;通过所述账号识别模型基于所述账号融合特征向量,获取所述目标概率。

4、可选地,所述账号个体特征样本包含以下项中的至少一项:账号昵称样本、个人简介样本、账号发文内容样本、关注当前账号的其他账号的数量样本、当前账号关注其他账号的数量样本、账号的发文数量样本。

5、可选地,所述账号群体特征样本包含以下项中的至少一项:同质化文案发布频率样本、时间异常文案发布频率样本、ip异常文案发布频率样本;其中,所述同质化文案发布频率为同一账号的同质化文案发布数量与该同一账号的发文总数量的比值,该同一账号每发布一个同质化文案,该同一账号的同质化文案发布数量累计加一,所述同质化文案为该同一账号所发布的、且与同一评论区其他账号所发布的文案内容相近似的文案;所述时间异常文案发布频率为同一账号的时间异常文案发布数量与该同一账号的发文总数量的比值,该同一账号每发布一个时间异常文案,该同一账号的时间异常文案发布数量累计加一,所述时间异常文案为在目标时间发布的文案,其中,在所述目标时间发布的文案数量与所述同一评论区内所有文案数量的比值大于或者等于预设第一阈值;所述ip异常文案发布频率为同一账号的ip异常文案发布数量与该同一账号的发文总数量的比值,该同一账号每发布一个ip异常文案,该同一账号的ip异常文案发布数量累计加一,所述ip异常文案为在目标ip发布的文案,其中,在所述目标ip下发布的文案数量与所述同一评论区内所有文案数量的比值大于或者等于预设第二阈值。

6、可选地,所述损失函数通过以下公式表示:

7、

8、其中,为账号特征样本的数量,为个账号特征样本中的第i个账号特征样本,为所述第i个账号特征样本对应的真实身份标签,为将所述第i个账号特征样本对应的身份识别为所述社交机器人账号的目标概率。

9、根据本公开实施例的第二方面,提供一种社交机器人账号识别方法,包括:获取目标账号的账号特征,其中,所述账号特征包含账号个体特征和账号群体特征,所述账号个体特征为所述目标账号对应的用户的个人特征,所述账号群体特征为所述目标账号与同一评论区内其他账号所具有的共同特征,所述账号特征为文本形式的特征;将所述目标账号的账号特征输入根据本公开的训练方法训练出的账号识别模型,获得将所述目标账号对应的身份识别为社交机器人账号的目标概率;在所述目标概率大于或者等于预设概率阈值的情况下,确定所述目标账号对应的身份为所述社交机器人账号。

10、根据本公开实施例的第三方面,提供一种社交机器人账号识别模型的训练装置,包括:样本获取模块,被配置为获取账号特征样本,其中,所述账号特征样本包含账号个体特征样本和账号群体特征样本,所述账号特征样本对应有账号的真实身份标签,所述账号个体特征样本为账号对应的用户的个人特征样本,所述账号群体特征样本为当前账号与同一评论区内其他账号所具有的共同特征样本,所述账号特征样本为文本形式的特征样本;样本输入模块,被配置为将所述账号特征样本输入所述账号识别模型,获得将所述账号特征样本对应的身份识别为社交机器人账号的目标概率;计算模块,被配置为基于所述目标概率和所述真实身份标签,计算损失函数的值;训练模块,被配置为通过根据所述损失函数的值调整所述账号识别模型的参数,以对所述账号识别模型进行训练。

11、可选地,所述样本输入模块被配置为:通过所述账号识别模型将所述账号个体特征样本转换为账号个体特征向量,并将所述账号群体特征样本转换为账号群体特征向量;通过所述账号识别模型基于所述账号个体特征向量和所述账号群体特征向量,获取账号融合特征向量;通过所述账号识别模型基于所述账号融合特征向量,获取所述目标概率。

12、可选地,所述账号个体特征样本包含以下项中的至少一项:账号昵称样本、个人简介样本、账号发文内容样本、关注当前账号的其他账号的数量样本、当前账号关注其他账号的数量样本、账号的发文数量样本。

13、可选地,所述账号群体特征样本包含以下项中的至少一项:同质化文案发布频率样本、时间异常文案发布频率样本、ip异常文案发布频率样本;其中,所述同质化文案发布频率为同一账号的同质化文案发布数量与该同一账号的发文总数量的比值,该同一账号每发布一个同质化文案,该同一账号的同质化文案发布数量累计加一,所述同质化文案为该同一账号所发布的、且与同一评论区其他账号所发布的文案内容相近似的文案;所述时间异常文案发布频率为同一账号的时间异常文案发布数量与该同一账号的发文总数量的比值,该同一账号每发布一个时间异常文案,该同一账号的时间异常文案发布数量累计加一,所述时间异常文案为在目标时间发布的文案,其中,在所述目标时间发布的文案数量与所述同一评论区内所有文案数量的比值大于或者等于预设第一阈值;所述ip异常文案发布频率为同一账号的ip异常文案发布数量与该同一账号的发文总数量的比值,该同一账号每发布一个ip异常文案,该同一账号的ip异常文案发布数量累计加一,所述ip异常文案为在目标ip发布的文案,其中,在所述目标ip下发布的文案数量与所述同一评论区内所有文案数量的比值大于或者等于预设第二阈值。

14、可选地,所述损失函数通过以下公式表示:

15、

16、其中,为账号特征样本的数量,为个账号特征样本中的第i个账号特征样本,为所述第i个账号特征样本对应的真实身份标签,为将所述第i个账号特征样本对应的身份识别为所述社交机器人账号的目标概率。

17、根据本公开实施例的第四方面,提供一种社交机器人账号识别装置,包括:特征获取模块,被配置为获取目标账号的账号特征,其中,所述账号特征包含账号个体特征和账号群体特征,所述账号个体特征为所述目标账号对应的用户的个人特征,所述账号群体特征为所述目标账号与同一评论区内其他账号所具有的共同特征,所述账号特征为文本形式的特征;特征输入模块,被配置为将所述目标账号的账号特征输入根据本公开的任意一项所述的训练方法训练出的账号识别模型,获得将所述目标账号对应的身份识别为社交机器人账号的目标概率;身份确定模块,被配置为在所述目标概率大于或者等于预设概率阈值的情况下,确定所述目标账号对应的身份为所述社交机器人账号。

18、根据本公开实施例的第五方面,提供一种电子设备,包括:处理器;用于存储所述处理器可执行指令的存储器;其中,所述处理器被配置为执行所述指令,以实现根据本公开的社交机器人账号识别模型的训练方法,或者,实现根据本公开的社交机器人账号识别方法。

19、根据本公开实施例的第六方面,提供一种计算机可读存储介质,当所述计算机可读存储介质中的指令由电子设备的处理器执行时,使得电子设备能够实现根据本公开的社交机器人账号识别模型的训练方法,或者,实现根据本公开的社交机器人账号识别方法。

20、根据本公开实施例的第七方面,提供一种计算机程序产品,包括计算机程序,所述计算机程序被处理器执行时实现根据本公开的社交机器人账号识别模型的训练方法,或者,实现根据本公开的社交机器人账号识别方法。

21、本公开的实施例提供的技术方案至少带来以下有益效果:

22、在本公开中,可以将账号对应的用户的个人特征和当前账号与其他账号所具有的共同特征结合起来考虑来共同进行社交机器人账号的识别,即本公开实现了基于个人特征和群体特征的融合识别。由于本公开在进行社交机器人账号识别时,所依据的特征类型更丰富、特征内容更全面、特征数量更多,因此可以保证针对账号的身份作出全面的判断,可以减少误识别现象的出现,进而可以提高社交机器人账号的识别准确性。并且,本公开还可以实现批量识别出疑似社交机器人账号的多个账号,从而发现机器人群体,识别效率更高。

23、应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本公开。


技术特征:

1.一种社交机器人账号识别模型的训练方法,其特征在于,包括:

2.如权利要求1所述的训练方法,其特征在于,所述将所述账号特征样本输入所述账号识别模型,获得将所述账号特征样本对应的身份识别为社交机器人账号的目标概率,包括:

3.如权利要求1所述的训练方法,其特征在于,所述账号个体特征样本包含以下项中的至少一项:

4.如权利要求1所述的训练方法,其特征在于,所述账号群体特征样本包含以下项中的至少一项:

5.如权利要求1所述的训练方法,其特征在于,所述损失函数通过以下公式表示:

6.一种社交机器人账号识别方法,其特征在于,包括:

7.一种社交机器人账号识别模型的训练装置,其特征在于,包括:

8.如权利要求7所述的训练装置,其特征在于,所述样本输入模块被配置为:

9.如权利要求7所述的训练装置,其特征在于,所述账号个体特征样本包含以下项中的至少一项:

10.如权利要求7所述的训练装置,其特征在于,所述账号群体特征样本包含以下项中的至少一项:

11.如权利要求7所述的训练装置,其特征在于,所述损失函数通过以下公式表示:

12.一种社交机器人账号识别装置,其特征在于,包括:

13.一种电子设备,其特征在于,包括:

14.一种计算机可读存储介质,其特征在于,当所述计算机可读存储介质中的指令由电子设备的处理器执行时,使得电子设备能够实现如权利要求1至5中任一项所述的社交机器人账号识别模型的训练方法,或者,实现如权利要求6所述的社交机器人账号识别方法。

15.一种计算机程序产品,包括计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至5中任一项所述的社交机器人账号识别模型的训练方法,或者,实现如权利要求6所述的社交机器人账号识别方法。


技术总结
本公开关于社交机器人账号识别模型的训练方法、识别方法和装置,该方法包括:获取账号特征样本,其中,账号特征样本为文本形式的特征样本;将账号特征样本输入账号识别模型,获得将账号特征样本对应的身份识别为社交机器人账号的目标概率;基于目标概率和真实身份标签,计算损失函数的值;通过根据损失函数的值调整账号识别模型的参数,以对账号识别模型进行训练。这样,由于本公开在进行社交机器人账号识别时,所依据的特征类型更丰富、特征内容更全面、特征数量更多,因此可以保证针对账号的身份作出全面的判断,可以减少误识别现象的出现,进而可以提高社交机器人账号的识别准确性。

技术研发人员:王子康,李林静,曾大军
受保护的技术使用者:中国科学院自动化研究所
技术研发日:
技术公布日:2024/10/31
转载请注明原文地址: https://www.8miu.com/read-26982.html

最新回复(0)