一种智库知识推荐的方法、装置、设备及介质

allin2023-04-09  144



1.本公开涉及智库知识推荐领域,具体涉及一种智库知识推荐的方法、装置、设备、存储介质和程序产品。


背景技术:

2.智库为公众提供了大量有价值的信息,但是智库中的知识数量巨大,种类繁多,如何从海量的智库知识中快速追踪到用户感兴趣的知识成为亟待解决的问题。
3.传统的智库知识追踪技术多采用以“搜索”为主的单一追踪方式,可随着智库知识的丰富,用户已经很难用几个搜索词语来表达自己的需求。在这个背景下,如何多维度的刻画用户偏好,从海量的智库知识中快速、较为准确地追踪到用户感兴趣的智库知识成为亟待解决的问题。


技术实现要素:

4.鉴于上述问题,本公开提供了一种智库知识推荐的方法、装置、设备、存储介质和程序产品。
5.根据本公开的第一个方面,提供了一种智库知识推荐的方法,包括:
6.获取目标用户数据,其中,目标用户数据包括:目标用户属性和目标用户行为;根据目标用户数据对智库知识进行追踪,得到目标智库知识,其中,智库知识包括以下至少之一:文本、视频、声音;利用个性推荐算法对目标智库知识进行处理,得到初始推荐结果,其中,初始推荐结果包括多个初始推荐的智库知识;将初始推荐结果输入到训练好的推荐模型中,得到最终的推荐结果,其中,最终推荐结果包括多个最终推荐的智库知识。
7.根据本公开的实施例,推荐模型通过如下方式训练得到:
8.获取样本用户数据,其中,样本用户数据包括:样本用户属性和样本用户行为;根据样本用户数据对智库知识进行追踪,得到智库知识样本;利用个性推荐算法对智库知识样本进行处理,得到初始推荐结果,其中,初始推荐结果包括多个初始推荐的智库知识样本;将样本用户数据和初始推荐结果作为样例池中样例,利用分类器对样例池中样例进行分类预测,得到有标注的样例,将有标注的样例加入到训练集中以构建训练样本集;利用训练样本集对未经训练的推荐模型进行训练,得到训练好的推荐模型。
9.根据本公开的实施例,对训练好的推荐模型进行评价,获得评价结果。
10.根据本公开的实施例,利用个性推荐算法对智库知识样本进行处理,得到初始推荐结果,其中,初始推荐结果包括多个初始推荐的智库知识样本包括:
11.基于热度个性推荐算法对智库知识样本进行处理,得到基于热度初始推荐的智库知识样本;基于协同过滤个性推荐算法对智库知识样本进行处理,得到基于协同过滤初始推荐的智库知识样本;基于矩阵分解个性推荐算法对智库知识样本进行处理,得到基于矩阵分解初始推荐的智库知识样本;以及基于内容个性推荐算法对智库知识样本进行处理,得到基于内容初始推荐的智库知识样本。
12.根据本公开的实施例,构建训练样本集包括:
13.将样例池中样例预测类标的改变率阈值设定为μ;当相邻两次的分类器对样例池中样例的预测类标的改变率大于阈值的情况下,计算样例池中每个样例类别不确定性;对样例池中不确定性最大的样例进行标注,得到标注后的样例;将标注后的样例从样例池中剔除,加入到训练样本集中以构建训练样本集;或
14.当相邻两次的分类器对样例池中样例的预测类标的改变率小于阈值的情况下,则完成训练样本集构建。
15.本公开的第二方面提供了一种智库知识推荐装置,包括:
16.第一获取模块,用于获取目标用户数据,其中,目标用户数据包括:目标用户属性和目标用户行为;
17.第一追踪模块,用于根据目标用户数据对智库知识进行追踪,得到目标智库知识,其中,智库知识包括以下至少之一:文本、视频、声音;
18.第一推荐模块,用于利用个性推荐算法对目标智库知识进行处理,得到初始推荐结果,其中,初始推荐结果包括多个初始推荐的智库知识;
19.第二推荐模块,用于将初始推荐结果输入到训练好的推荐模型中,得到最终的推荐结果,其中,最终推荐结果包括多个最终推荐的智库知识。
20.根据本公开的实施例,智库知识推荐模型的训练装置包括:
21.第二获取模块,用于获取样本用户数据,其中,样本用户数据包括:样本用户属性和样本用户行为;
22.第二追踪模块,用于根据样本用户数据对智库知识进行追踪,得到智库知识样本,其中,智库知识包括以下至少之一:文本、视频、声音;
23.第三推荐模块,用于利用个性推荐算法对智库知识样本进行处理,得到初始推荐结果,其中,初始推荐结果包括多个初始推荐的智库知识样本;
24.构建训练样本模块,用于将样本用户数据和初始推荐结果作为样例池中样例,利用分类器对样例池中样例进行分类预测,得到有标注的样例,将标注的样例加入到训练集中以构建训练样本集;
25.训练模块,用于利用训练样本集对未经训练的推荐模型进行训练,得到训练好的推荐模型。
26.本公开的第三方面提供了一种电子设备,包括:一个或多个处理器;存储器,用于存储一个或多个程序,其中,当一个或多个程序被上述一个或多个处理器执行时,使得一个或多个处理器执行上述智库知识推荐的方法。
27.本公开的第四方面还提供了一种计算机可读存储介质,其上存储有可执行指令,该指令被处理器执行时使处理器执行上述智库知识推荐的方法。
28.本公开的第五方面还提供了一种计算机程序产品,包括计算机程序,该计算机程序被处理器执行时实现上述智库知识推荐的方法。
29.根据本公开的实施例,根据用户属性和用户行为,可以从多维度对用户感兴趣的智库知识进行追踪,得到一个较大范围的用户感兴趣的智库知识,比传统以搜索为主的单一的追踪方式更加全面。通过个性推荐算法对一个较大范围的用户感兴趣的智库知识进行初始的推荐,获得初始推荐结果,将初始推荐结果与主动学习的深层推荐相结合,可以为用
户提供更加精准的推荐,解决了现有技术中推荐不准确的问题。
附图说明
30.通过以下参照附图对本公开实施例的描述,本公开的上述内容以及其他目的、特征和优点将更为清楚,在附图中:
31.图1示意性示出了根据本公开实施例的智库知识推荐的方法、装置、设备、存储介质和程序产品的系统架构图;
32.图2示意性示出了根据本公开实施例的智库知识推荐的方法的流程图;
33.图3示意性示出了本公开实施例智库知识推荐的方法的框架示意图;
34.图4示意性示出了本公开实施例智库知识的推荐模型训练的流程示意图;
35.图5示意性示出了根据本公开实施例的智库知识推荐装置的结构框图;
36.图6示意性示出了根据本公开实施例的智库知识推荐模型的训练装置的结构框图;以及
37.图7示意性示出了根据本公开实施例的适于实现智库知识推荐的方法的电子设备的方框图。
具体实施方式
38.以下,将参照附图来描述本公开的实施例。但是应该理解,这些描述只是示例性的,而并非要限制本公开的范围。在下面的详细描述中,为便于解释,阐述了许多具体的细节以提供对本公开实施例的全面理解。然而,明显地,一个或多个实施例在没有这些具体细节的情况下也可以被实施。此外,在以下说明中,省略了对公知结构和技术的描述,以避免不必要地混淆本公开的概念。
39.在此使用的术语仅仅是为了描述具体实施例,而并非意在限制本公开。在此使用的术语“包括”、“包含”等表明了所述特征、步骤、操作和/或部件的存在,但是并不排除存在或添加一个或多个其他特征、步骤、操作或部件。
40.在此使用的所有术语(包括技术和科学术语)具有本领域技术人员通常所理解的含义,除非另外定义。应注意,这里使用的术语应解释为具有与本说明书的上下文相一致的含义,而不应以理想化或过于刻板的方式来解释。
41.在使用类似于“a、b和c等中至少一个”这样的表述的情况下,一般来说应该按照本领域技术人员通常理解该表述的含义来予以解释(例如,“具有a、b和c中至少一个的系统”应包括但不限于单独具有a、单独具有b、单独具有c、具有a和b、具有a和c、具有b和c、和/或具有a、b、c的系统等)。
42.在本公开的技术方案中,所涉及的用户个人信息的获取,存储和应用等,均符合相关法律法规的规定,采取了必要保密措施,且不违背公序良俗。
43.在本公开实施例的技术方案中,在获取或采集用户个人信息之前,均获取了用户的授权或同意。
44.智库是一种稳定的社会组织,是指专门从事开发性研究的咨询研究机构。它将各学科的专家学者聚集起来,运用他们的智慧和才能,为社会经济等领域的发展提供满意方案或优化方案,是现代领导管理体制中的一个不可缺少的重要组成部分。其主要任务是提
供咨询,为决策者献计献策、判断运筹,提出各种设计;反馈信息,对实施方案追踪调查研究,把运行结果反馈到决策者那里,便于纠偏。为了更好的理解,以环境智库为例进行说明,环境智库是由环境专家学者组成,聚焦全球环境问题,为国家、社会等提供思想、策略等的公共研究机构,肩负着服务国家环境政策、服务知识传播、服务社会低碳发展等社会职能。
45.智库知识是为大家提供有价值的信息,该信息可以是网页文本、声音、视频等等,不局限于列举的这些信息。例如,一个环境保护热爱着,可以通过浏览相关智库网站,从网站中获得与环境相关的信息,他在寻找与环境相关信息的过程就是智库知识追踪。
46.以下以目标智库知识和智库知识样本为环境智库知识进行举例说明,但是该举例只是为了说明目标智库知识和智库知识样本,本公开的实施例提供的目标智库知识和智库知识样本不局限于环境智库知识。
47.随着生态环境污染的日益严重,公众和社会对环境保护更加重视,人们的环保意识也逐步提高,环境智库扮演了越来越重要的角色。环境智库为公民提供了大量的可持续发展理念、低碳政策等知识,为环境保护的科学性做出重大贡献。然而智库中的知识数量巨大、种类繁多,如何从海量的智库知识中快速追踪到用户感兴趣的知识成为亟待解决的问题。
48.在实施本公开的过程中发现,传统的智库知识追踪技术多采用以“搜索”为主的单一追踪方式,但是随着智库知识的丰富,用户已经很难用几个搜索词语来表达自己的需求。本公开基于智能搜索、历史浏览、用户关注、个性推荐等多个维度实现对环境智库知识的追踪,实现对用户偏好的精准刻画。
49.但是,传统的智库知识推荐中多采用单一的个性推荐技术,但是个性推荐技术存在有标数据不足的情况。在这种情况下,主动学习模型被提出来,通过选取模型当前最需要的数据进行标注得到标签,然后将样本及其标签加入到训练集中,从而达到以较低成本构建合适训练样本集的目的。用构建好的训练集对未经训练的推荐模型进行训练,可以得到训练好的推荐模型,以解决个性化推荐算法中因数据稀疏、分布不均导致的推荐不可靠的问题。因此本公开在个性化推荐算法的基础上,引入主动学习的推荐策略帮助构建合适的训练样本集,从而得到更可靠的推荐结果。
50.本公开的实施例提供了一种智库知识推荐的方法,包括:
51.获取目标用户数据,其中,目标用户数据包括:目标用户属性和目标用户行为;根据目标用户数据对智库知识进行追踪,得到目标智库知识,其中,智库知识包括以下至少之一:文本、视频、声音;利用个性推荐算法对目标智库知识进行处理,得到初始推荐结果,其中,初始推荐结果包括多个初始推荐的智库知识;将初始推荐结果输入到训练好的推荐模型中,得到最终的推荐结果,其中,最终推荐结果包括多个最终推荐的智库知识。
52.根据本公开的实施例,根据用户属性和用户行为,可以从多维度对用户感兴趣的智库知识进行追踪,得到一个较大范围的用户感兴趣的智库知识,比传统以搜索为主的单一的追踪方式更加全面。接着,通过个性推荐算法对一个较大范围的用户感兴趣的智库知识进行初始的推荐,获得初始推荐结果,将初始推荐结果与主动学习的深层推荐相结合,可以为用户提供更加精准的推荐,解决了现有技术中推荐不准确的问题。
53.图1示意性示出了根据本公开实施例的智库知识推荐的方法、装置、设备、存储介质和程序产品的系统架构图。
54.如图1所示,根据该实施例的应用场景100可以包括终端设备101、102,网络设备104和服务器103。网络104用以在终端设备101、102和服务器103之间提供通信链路的介质。网络104可以包括各种连接类型,例如有线、无线通信链路或者光纤电缆等等。
55.用户可以使用终端设备101、102通过网络104与服务器103交互,以接收或发送消息等。终端设备101、102上可以安装有各种通讯客户端应用和程序,例如购物类应用、网页浏览器应用、搜索类应用、即时通信工具、邮箱客户端、社交平台软件等(仅为示例)和程序。
56.终端设备101、102可以是具有显示屏并且支持网页浏览的各种电子设备,包括但不限于平板电脑、膝上型便携计算机和台式计算机等等。
57.服务器103可以是提供各种服务的服务器,例如对用户利用终端设备101、102所浏览的网站提供支持的后台管理服务器(仅为示例)。后台管理服务器可以对接收到的用户请求等数据进行分析等处理,并将处理结果(例如根据用户请求获取或生成的网页、信息、或数据等)反馈给终端设备。
58.需要说明的是,本公开实施例所提供的智库知识推荐的方法一般可以由服务器103执行。相应地,本公开实施例所提供的智库知识推荐的装置一般可以设置于服务器103中。本公开实施例所提供的智库知识推荐的方法也可以由不同于服务器103且能够与终端设备101、102和/或服务器103通信的服务器或服务器集群执行。相应地,本公开实施例所提供的智库知识推荐的装置也可以设置于不同于服务器103且能够与终端设备101、102和/或服务器103通信的服务器或服务器集群中。
59.本公开实施例提供的智库知识推荐的方法也可以由终端设备101、102执行,本公开实施例所提供的智库知识推荐的装置一般也可以设置于终端设备101、102中。本公开实施例所提供的智库知识推荐的方法也可以由不同于终端设备101、102的其他终端执行。相应地,本公开实施例所提供的智库知识推荐的装置也可以设置于不同终端设备101、102的其他终端中。
60.应该理解,图1中的终端设备、网络和服务器的数目仅仅是示意性的。根据实现需要,可以具有任意数目的终端设备、网络和服务器。
61.以下将基于图1描述的场景,通过图2~图4对公开实施例的智库知识推荐的方法进行详细描述。
62.图2示意性示出了根据本公开实施例的智库知识推荐的方法的流程图。
63.如图2所示,该实施例的智库知识推荐的方法200包括操作s201~操作s204。
64.在操作s201,获取目标用户数据,其中,目标用户数据包括:目标用户属性和目标用户行为。
65.根据本公开的实施例,目标用户属性包括:目标用户的性别、年龄、文化程度、兴趣爱好等。通过目标用户的智能搜索、历史浏览、关注和个性推荐可以获得目标用户行为数据,其中,目标用户行为包括:浏览、关注、分享、下载等。
66.根据本公开的实施例,智能搜索技术满足模糊搜索和精确匹配等功能。例如以elasticsearch数据分析引擎为基础,既支持以“关键词”为检索条件的模糊搜索,也支持多属性、多条件的精准搜索。
67.在操作s202,根据目标用户数据对智库知识进行追踪,得到目标智库知识,其中,智库知识包括以下至少之一:文本、视频、声音。
68.根据本公开的实施例,根据目标用户属性、目标用户行为数据设计数据库的表结构,如:设计目标用户智能搜索记录表、目标用户浏览记录表、目标用户关注记录表、目标用户下载记录表。以这些记录表为基准,通过提取目标用户属性特征和目标用户行为特征,实现对目标智库知识的追踪,获得用户可能喜欢的智库知识。
69.在操作s203,利用个性推荐算法对目标智库知识进行处理,得到初始推荐结果,其中,初始推荐结果包括多个初始推荐的智库知识。
70.根据本公开的实施例,利用个性推荐算法对目标智库知识进行处理,可以得到初始推荐结果,即得到用户可能喜欢的智库知识。其中,个性推荐算法包括:基于热度、协同过滤、矩阵分解和内容等个性推荐算法。
71.以下以目标智库知识和智库知识样本为环境智库知识进行举例说明,但是该举例只是为了说明目标智库知识和智库知识样本,本公开的实施例提供的目标智库知识和智库知识样本不限于环境智库知识。
72.根据本公开的实施例,利用基于热度个性推荐算法对目标智库知识进行处理,得到基于热度初始推荐的智库知识。
73.首先,选用了“环境管理”、“低碳经济”、“低碳城市”、“可持续发展对策”、“复杂环境系统”五种类型的环境智库知识并赋予它们初始的热度值s
ori
,假设初始热度值s
ori
=20。
74.随着目标用户对某个智库知识产生交互行为,就增加了某个智库知识的热度值s
user
。例如,对于一个智库知识而言,每被搜索一次,分值增加s
sea
分,每被下载一次,分值增加s
dow
分,每被浏览一次,分值增加s
bro
分,每被关注一次,分值增加s
fol
分,进而可以得到目标用户行为分数为s
user
=s
sea
+s
dow
+s
bro
+s
fol

75.由于智库知识的时效性较强,会随着时间呈衰减趋势,进而产生了s
time
的衰减值。因此,根据智库知识的初始热度值、用户行为分数和智库知识的衰减值,可以获得上述五种类型的环境智库知识的热度值为s=s
ori
+s
user-s
time
。最后,根据智库知识的热度值进行降序排列,可以为目标用户提供基于热度推荐最高的十个与环境相关的智库知识,需要说明的是,推荐的个数可以不局限于十个。
76.根据本公开的实施例,利用基于协同过滤个性推荐算法对目标智库知识进行处理,得到基于协同过滤初始推荐的智库知识。
77.采用用户的协同过滤算法对环境智库知识进行处理,首先是寻找到与目标用户相似的用户,然后针对每个相似用户挑选出相似用户感兴趣且目标用户没有浏览过的环境智库知识进行推荐。
78.采用皮尔逊相关系数法来计算用户的相似度,寻找出与目标用户最为相似的5个用户,这5个用户的相似度如下:
79.用户ua,相似度:0.8742;用户ub,相似度:0.8611;用户uc,相似度0.7823;用户ud,相似度0.7644;用户ue,相似度0.7422。
80.然后,针对这个5个相似用户挑选出他们感兴趣且目标用户没有浏览过的环境智库知识并计算它们的评分。
81.例如,用户ua最感兴趣的环境智库知识是智库知识ia、ib、ic……
,评分分别为0.987,0.982,0.974
……

82.最后,根据用户的相似度和相似用户感兴趣的环境智库知识的评分进行加权,可
以为目标用户提供基于协同过滤推荐最高的十个与环境相关的智库知识,需要说明的是,推荐的个数可以不局限于十个。
83.根据本公开的实施例,利用基于矩阵分解个性推荐算法对目标智库知识进行处理,得到基于矩阵分解初始推荐的智库知识。
84.采用baseline svd方法,统计用户与环境智库知识的二维评分矩阵,如用户ua、ub、uc……
,智库知识ia、ib、ic……
,采用随机梯度下降法得到评分为s
aa
、s
ab
、s
ac
……
,未知的评分用符号“?”表示。二维评分矩阵表如表1:
85.表1.二维评分矩阵
[0086][0087]
采用随机梯度下降法计算得到的评分s
ab
、s
ba
、s
cc
的分值分别为:0.869、0.756、0.789,按照分值进行降序排序,可以为用户提供基于矩阵分解推荐最高的十个与环境相关的智库知识,需要说明的是,推荐的个数可以不局限于十个。
[0088]
根据本公开的实施例,利用基于内容个性推荐算法对目标智库知识进行处理,得到基于内容初始推荐的智库知识。
[0089]
首先,抽取环境智库知识中内容、标题、类型等特征信息,利用doc2vec模型对从环境智库知识中提取的特征信息进行编码处理,将特征信息转化成词向量ia,实现智库知识的特征表示,其中,该特征由xi表示,特征维度为n。
[0090]
然后,利用目标用户的历史行为来描述目标用户的特征喜好,通过对目标用户的历史行为进行特征学习,得到目标用户的偏好向量ub,其中,该特征由yi表示,特征维度为n。
[0091]
最后,通过计算ia与ub的余弦相似度,将获得的余弦值进行降序排列,可以为目标用户提供基于内容推荐最高的十个与环境相关的智库知识,需要说明的是,推荐的个数可以不局限于十个。
[0092]
在操作s204,将初始推荐结果输入到训练好的推荐模型中,得到最终的推荐结果,其中,最终推荐结果包括多个最终推荐的智库知识。
[0093]
根据本公开的实施例,将利用个性推荐算法对智库知识进行处理,得到的多个初始推荐的智库知识进行汇总,得到初始推荐结果,并将初始推荐结果特征向量化,作为训练好的推荐模型的输入。
[0094]
例如,将初始推荐所得到的40个智库知识的总特征输入到训练好的推荐模型中,其中,总特征由目标用户ua与智库知识ia组成。
[0095]
获取分值最高的前10个智库知识作为最终的推荐结果,如给目标用户ua最终推荐的智库知识为ia、ib、ic……
,分值为0.891、0.895、0.876
……

[0096]
图3示意性示出了本公开实施例智库知识推荐的方法的框架示意图。
[0097]
根据本公开的实施例,如图3所示,为了快速追踪到智库知识,从用户关注、智能搜索、历史浏览和个性推荐等多个维度来获得用户数据,根据用户数据对用户感兴趣的智库知识进行追踪。利用个性推荐算法中的基于热度、内容、协同过滤和矩阵分解个性推荐算法
对智库知识进行处理,得到初始推荐结果。将用户数据和初始推荐结果作为推荐模型中样例池的样例,采用不确定性缩减的主动学习算法策略对对样例池中样例进行分类,对不满足预设条件的样例进行标注,得到标注后的样例。然后,将标注后的样例加入到训练集中作为训练样本,对样例池中未标注的样例继续利用不确定性缩减的主动学习算法策略进行分类并标注,以完成训练样本集的构建。然后,利用训练样本对未经训练的推荐模型进行训练,从而得到训练好的推荐模型。。在应用的过程中,将初始推荐的结果输入到训练好的推荐模型中,就可以获得更加准确的推荐结果。
[0098]
通过本公开的实施例,根据用户属性和用户行为,从多维度对用户感兴趣的智库知识进行追踪,得到一个较大范围的用户感兴趣的智库知识,比传统以搜索为主的单一的追踪方式更加全面。通过个性推荐算法对一个较大范围的用户感兴趣的智库知识进行初始的推荐,获得初始推荐结果,将初始推荐结果与不确定性缩减的主动学习算法的深层推荐相结合,可以为用户提供更加精准的推荐,解决了现有技术中推荐不准确的问题。
[0099]
图4示意性示出了本公开实施例智库知识的推荐模型训练的流程示意图。
[0100]
如图4所示,该实施例的智库知识推荐模型的训练方法400包括操作s401~操作s405。
[0101]
在操作s401,获取样本用户数据,其中,样本用户数据包括:样本用户属性和样本用户行为。
[0102]
根据本公开的实施例,样本用户属性包括:样本用户的性别、年龄、文化程度、兴趣爱好等。通过样本用户的智能搜索、历史浏览、关注和个性推荐可以获得样本用户行为数据,其中,样本用户行为包括:浏览、关注、分享、下载等。
[0103]
根据本公开的实施例,智能搜索技术满足模糊搜索和精确匹配等功能。例如以elasticsearch数据分析引擎为基础,既支持以“关键词”为检索条件的模糊搜索,也支持多属性、多条件的精准搜索。
[0104]
在操作s402,根据样本用户数据对智库知识进行追踪,得到智库知识样本。
[0105]
根据本公开的实施例,根据样本用户属性、样本用户行为数据设计数据库的表结构,如:设计样本用户智能搜索记录表、样本用户浏览记录表、样本用户关注记录表、样本用户下载记录表。以这些样本用户的记录表为基准,通过提取样本用户属性特征和样本用户行为特征,实现对智库知识样本的追踪,获得用户可能喜欢的智库知识样本。
[0106]
在操作s403,利用个性推荐算法对智库知识样本进行处理,得到初始推荐结果,其中,初始推荐结果包括多个初始推荐的智库知识样本。
[0107]
根据本公开的实施例,利用个性推荐算法对智库知识样本进行处理,可以得到初始推荐结果,即得到用户喜欢的智库知识样本。其中,个性推荐算法包括:基于热度、协同过滤、矩阵分解和内容等个性推荐算法。
[0108]
根据本公开的实施例,利用基于热度个性推荐算法对智库知识样本进行处理,得到基于热度初始推荐的智库知识样本。
[0109]
首先,根据环境智库知识的标签类型不同,对每种类型的智库知识赋予不同的初始的热度值s
ori
,其中,标签类型可以是环境、经济、绿色出行、环境管理、低碳经济、低碳城市、可持续发展对策、复杂环境系统、文化、社会、健康、安全、文明等。
[0110]
随着样本用户对某个环境智库知识样本产生交互行为,就增加了某个智库知识样
本的热度值s
user
。例如,对于一个智库知识样本而言,每被搜索一次,分值增加s
sea
分,每被下载一次,分值增加s
dow
分,每被浏览一次,分值增加s
bro
分,每被关注一次,分值增加s
fol
分,进而可以得到样本用户行为分数为s
user
=s
sea
+s
dow
+s
bro
+s
fol

[0111]
由于智库知识样本的时效性较强,会随着时间呈衰减趋势,进而产生了s
time
的衰减值。因此,根据智库知识样本的初始热度值、用户行为分数和智库知识样本的衰减值,可以获得智库知识样本的热度值s,其中,s=s
ori
+s
user-s
time
。最后,根据智库知识样本的热度值进行降序排列,可以为样本用户提供基于热度初始推荐的环境智库知识样本。
[0112]
根据本公开的实施例,利用基于协同过滤个性推荐算法对智库知识样本进行处理,得到基于协同过滤初始推荐的智库知识样本。
[0113]
采用用户的协同过滤算法对环境智库知识样本进行处理,首先是寻找到与样本用户相似的用户,然后针对每个相似用户挑选出相似用户感兴趣且样本用户没有浏览过的环境智库知识样本进行推荐。
[0114]
采用皮尔逊相关系数法来计算用户的相似度,寻找与样本用户u最为相似的k个用户,采用如下公式(1)可以计算相似用户v与样本用户u的相似度:
[0115][0116]
其中,e表示数学期望,cov表示协方差。
[0117]
通过公式(1)计算出与样本用户u相似的用户后,针对样本用户u,选取最相似的k个用户并选出相似用户感兴趣环境智库知识样本的集合,用集合s(u,k)表示,将s中所有相似用户v感兴趣的环境智库知识样本提取出来并去除样本用户u感兴趣的环境智库知识,得到相似用户感兴趣且样本用户没有浏览过的环境智库知识并进行评分。然后,将评分和相似度加权并进行降序排列,进而可以得到基于协同过滤初始推荐的环境智库知识样本。其中,对于每个可能推荐的环境智库知识i,相似用户v对其感兴趣的程度如公式(2)所示:
[0118]
p(u,i)=∑
v∈s(u,k)∩n(i)wuv
×rvi
ꢀꢀꢀꢀꢀ
(2)
[0119]
其中,r
vi
表示相似用户v对i的喜欢程度,w
uv
表示样本用户u和相似用户v之间的相似度。
[0120]
根据本公开的实施例,利用基于矩阵分解个性推荐算法对智库知识样本进行处理,得到基于矩阵分解初始推荐的智库知识样本。
[0121]
采用baseline svd方法,通过矩阵分解的方式来发现环境智库知识的潜在因子,用这些因子向量来描述样本用户和环境智库知识样本的特征。
[0122]
其中,baseline svd方法的变量值的计算公式如下(3)所示:
[0123][0124]
其中r
u,i
表示样本用户u对i智库知识的评分,u表示全局均值,bu表示用户的偏差值,bi表示智库知识的偏差值,p
u,k
表示样本用户u和第k个潜在类的关系,q
i,k
表示智库知识i对第k个潜在类的关系,k的大小由具体数决定,λ为正则化因子。
[0125]
采用随机梯度下降法和最小二乘法来求解该式子。最后,根据评分s进行降序排列,可以获得基于矩阵分解初始推荐的环境智库知识样本。
[0126]
根据本公开的实施例,利用基于内容个性推荐算法对智库知识样本进行处理,得
到基于内容初始推荐的智库知识样本。
[0127]
首先,抽取环境智库知识中内容、标题、类型等特征信息,利用doc2vec模型对从环境智库知识中提取的特征信息进行编码处理,将提取的特征信息转化成词向量,实现智库知识的特征表示,该特征由xi表示,特征维度为n。
[0128]
然后,用样本用户的历史行为来描述样本用户的特征喜好,通过对样本用户的历史行为进行特征学习,得到样本用户的偏好向量ub,该特征由yi表示,特征维度为n。
[0129]
利用余弦相似度公式进行比较,获得基于内容初始推荐的智库知识样本。其中,余弦相似度计算公式如下(4)所示:
[0130][0131]
最后,通过计算ia与ub的余弦相似度,将获得的余弦值进行降序排列,可以获得基于内容初始推荐的环境智库知识样本。
[0132]
在操作s404,将样本用户数据和初始推荐结果作为样例池中样例,利用分类器对样例池中样例进行分类预测,得到有标注的样例,将有标注的样例加入到训练集中以构建训练样本集。
[0133]
根据本公开的实施例,汇总上述基于热度、内容、协同过滤和矩阵分解个性推荐算法处理智库知识样本,获得的初始推荐结果,其中,初始推荐结果中包括多个初始推荐的环境智库知识样本。然后,将用户数据和初始推荐结果的总数据作为推荐模型的输入。
[0134]
根据本公开的实施例,采用基于不确定性缩减的主动学习算法策略进行深层次的环境智库知识推荐。首先,在样例池中将样例类标的改变率作为一个衡量因子,利用分类器对样例池中样例进行分类预测,不断筛选出不确定性最大的样例并进行标注并将标注后的样例加入到训练集中,构建出最终的训练样本集。
[0135]
其中,将有类标的样例作为训练集,无类标的样例作为样例池,样例池中样例预测类标的改变率阈值设为μ。以训练集为基准训练出一个分类器c,并用分类器c对样例池中的样例进行分类预测。
[0136]
当相邻两次的分类器对样例池中样例的预测类标的改变率大于阈值的情况下,计算样例池中每个样例类别不确定性,将样例池中不确定性最大的样例进行标注,得到标注后的样例,将标注后的样例从样例池中剔除,并加入到训练集中以构建训练样本集。将新形成的训练样本集继续训练分类器c,再用分类器c对样例池中的未标注的样例进行分类预测,直到相邻两次的分类器对样例池中样例的预测类标的改变率小于阈值的情况下,则停止对样例池中的样例进行分类预测,完成训练样本集的构建。
[0137]
需要说明的是,样例池中样例标注的方式不局限于人工标注,也可以是机器标注。
[0138]
通过本公开的实施例,利用基于不确定性缩减的主动学习算法,采用标注的方式为推荐模型筛选出合理化的训练样本集,解决了因数据稀疏性、分布不均的技术问题。
[0139]
根据本公开的实施例,采用xgboost作为主动学习算法的分类器,它的算法思想是不断进行特征分裂来添加树,添加树就是学习一个新函数去拟合上次预测的残差。训练完成后可得到k棵树,根据样例的特征可知道该样例落到每棵树中对应的叶子节点,将每棵树对应的叶子节点的分数相加即为该样例的预测值。xgboost算法目标函数分为两部分:误差函数l(θ)和正则项ω(θ)。公式如下(5)所示:
[0140]
obj(θ)=l(θ)+ω(θ)
ꢀꢀꢀꢀꢀꢀꢀ
(5)
[0141]
训练损失函数公式如下(6)所示:
[0142][0143]
其中,yi为真实值,为预测值。
[0144]
新生成的树要拟合上次预测的残差值,生成t棵树后,预测分数可改成:
[0145][0146]
同时,可将目标函数改写成:
[0147][0148]
其中gi为一阶导数,hi为二阶导数。
[0149][0150][0151]
由于前t-1棵树的预测分数与y的残差对目标函数优化不影响,可以直接去掉。简化目标函数为:
[0152][0153]
对于xgboost算法的正则项:
[0154][0155]
xgboost模型对模型的复杂程度主要是对叶子节点的个数t和叶子节点的预测值w来进行惩罚,对叶子节点的个数惩罚相当于对树进行剪枝操作。其中wj代表一棵树中第j个叶子节点的预测值;t代表一棵树共有t个叶子节点;γ与λ是自定义的值,在使用模型时可以设置,如果γ大,则树的叶子节点数越多,则惩罚越大,λ则会惩罚叶子节点总的预测值。
[0156]
设第t个分类器的预测结果为w
q(x)

[0157]ft
(x)=w
q(x)
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(13)
[0158]
其中q(x)为叶节点的函数,则目标函数可改为:
[0159][0160]
令:
[0161]
[0162][0163]
则最终的目标函数可写成:
[0164][0165]
因此得到最佳的和obj
*

[0166][0167][0168]
xgboost以上式目标函数值作为评价函数,利用贪婪算法,遍历所有特征划分点。具体做法就是分裂后的目标函数值比单个叶子节点的目标函数的增益值大,同时为了限制树生长过深,设置一个阈值,只有当增益大于该阈值才进行分裂,同时设置树的最大深度、当样本权重并小于设定阈值时才停止生长去防止过拟合。左右两片叶子节点分别用脚标l和r来区分,增益分数可计为gain,公式如下:
[0169][0170]
根据本公开的实施例,将样本用户数据和初始推荐结果的总数据分为3份,其中,25%作为训练集、25%作为测试集、50%作为样例池中的样例供分类器进行选择。在本公开的实施例中样例类标的改变率阈值设置为0.02,当相邻两次的分类器对样例池中样例类别的改变率小于0.02时,则完成训练样本集的构建。
[0171]
在操作s405,利用训练样本集对未经训练的推荐模型进行训练,得到训练好的推荐模型。
[0172]
根据本公开的实施例,当样例池中样例的选择个数为30个时,样例类别的改变率为0.018,该改变率小于所设置的阈值0.02,此时xgboost的测试精度为0.8321。当样例池中的所有样例均进行标注时,xgboost的测试精度仅为0.8123。说明本公开提出的基于主动学习算法策略可以达到以低成本的标注,实现高精度的训练效果。
[0173]
根据本公开的实施例,对训练好的推荐模型进行评价,获得评价结果。
[0174]
根据本公开的实施例,基于xgboost算法对初始推荐智库知识进行排序,获取分值最高的前n个环境智库知识,作为最终的推荐结果。
[0175]
为了评估推荐效果,选用auc和cvr作为评价指标,衡量预测误差和用户对推荐模型推荐结果的采纳程度。
[0176]
auc的定义指的是随机从正负样本集合中抽取一个正负样本,正样本的预测值大于负样本的概率,其中,auc的计算公式如下(18)所示:
[0177][0178]
其中,分母代表正负样本总的组合数,分子指的是正样本的预测概率大于负样本的组合数。
[0179]
cvr指的是转化率,是一个衡量广告效果的指标。在本公开实施例中,当用户点击所推荐的环境智库知识,如环境智库知识中的文本并浏览时间大于20s时,认为此次推荐有效。当浏览时间过短时,说明用户对该文本的兴趣不大,其中,cvr的计算公式如下(19)所示:
[0180][0181]
其中,effective
num
指的是有效点击次数,total
num
指的是总点击次数。
[0182]
例如,采用auc和cvr作为评价指标,来评估最终的推荐效果。将单一的个性化推荐算法如基于热度、协同过滤、矩阵分解、基于内容和本技术提出的基于主动学习算法进行实验对比,具体对比结果见表2。
[0183]
表2.单一个性推荐算法与主动学习算法进行推荐的结果
[0184][0185]
由表2可知,采用基于主动学习算法的推荐效果要比单一的个性化推荐算法的推荐效果更优。
[0186]
基于上述智库知识推荐的方法,本公开还提供了一种智库知识推荐装置。以下将结合图5对该装置进行详细描述。
[0187]
图5示意性示出了根据本公开实施例的智库知识推荐装置的结构框图。
[0188]
如图5所示,该实施例的智库知识推荐装置500包括第一获取模块501、第一追踪模块502、第一推荐模块503和第二推荐模块504。
[0189]
第一获取模块501用于获取目标用户数据,其中,目标用户数据包括:目标用户属性和目标用户行为。在一实施例中,第一获取模块501可以用于执行前文描述的操作s201,在此不再赘述。
[0190]
第一追踪模块502用于根据目标用户数据对智库知识进行追踪,得到目标智库知识,其中,智库知识包括以下至少之一:文本、视频、声音。在一实施例中,第一追踪模块502可以用于执行前文描述的操作s202,在此不再赘述。
[0191]
第一推荐模块503用于利用个性推荐算法对目标智库知识进行处理,得到初始推荐结果,其中,初始推荐结果包括多个初始推荐的智库知识。在一实施例中,第一推荐模块503可以用于执行前文描述的操作s203,在此不再赘述。
[0192]
第二推荐模块504用于将初始推荐结果输入到训练好的推荐模型中,得到最终的推荐结果,其中,最终推荐结果包括多个最终推荐的智库知识。在一实施例中,第二推荐模块504可以用于执行前文描述的操作s204,在此不再赘述。
[0193]
根据本公开的实施例,第一获取模块501、第一追踪模块502、第一推荐模块503和第二推荐模块504中的任意多个模块可以合并在一个模块中实现,或者其中的任意一个模块可以被拆分成多个模块。或者,这些模块中的一个或多个模块的至少部分功能可以与其
他模块的至少部分功能相结合,并在一个模块中实现。根据本公开的实施例,第一获取模块501、第一追踪模块502、第一推荐模块503和第二推荐模块504中的至少一个可以至少被部分地实现为硬件电路,例如现场可编程门阵列(fpga)、可编程逻辑阵列(pla)、片上系统、基板上的系统、封装上的系统、专用集成电路(asic),或可以通过对电路进行集成或封装的任何其他的合理方式等硬件或固件来实现,或以软件、硬件以及固件三种实现方式中任意一种或以其中任意几种的适当组合来实现。或者,第一获取模块501、第一追踪模块502、第一推荐模块503和第二推荐模块504中的至少一个可以至少被部分地实现为计算机程序模块,当该计算机程序模块被运行时,可以执行相应的功能。
[0194]
图6示意性示出了根据本公开实施例的智库知识推荐模型的训练装置的结构框图。
[0195]
如图6所示,该实施例的智库知识推荐模型的训练装置600包括第二获取模块601、第二追踪模块602、第三推荐模块603、构建训练样本模块604和训练模块605。
[0196]
第二获取模块601用于获取样本用户数据,其中,样本用户数据包括:样本用户属性和样本用户行为。在一实施例中,第二获取模块601可以用于执行前文描述的操作s401,在此不再赘述。
[0197]
第二追踪模块602用于根据样本用户数据对智库知识进行追踪,得到智库知识样本,其中,智库知识包括以下至少之一:文本、视频、声音。在一实施例中,第二追踪模块602可以用于执行前文描述的操作s402,在此不再赘述。
[0198]
第三推荐模块603用于利用个性推荐算法对智库知识样本进行处理,得到初始推荐结果,其中,初始推荐结果包括多个初始推荐的智库知识样本。在一实施例中,第三推荐模块603可以用于执行前文描述的操作s403,在此不再赘述。
[0199]
构建训练样本模块604用于将样本用户数据和初始推荐结果作为样例池中样例,利用分类器对样例池中样例进行分类预测,得到有标注的样例,将标注的样例加入到训练集中以构建训练样本集。在一实施例中,构建训练样本模块604可以用于执行前文描述的操作s404,在此不再赘述。
[0200]
训练模块605用于利用训练样本集对未经训练的推荐模型进行训练,得到训练好的推荐模型.在一实施例中,训练模块605可以用于执行前文描述的操作s405,在此不再赘述。
[0201]
根据本公开的实施例,第二获取模块601、第二追踪模块602、第三推荐模块603、构建训练样本模块604和训练模块605中的任意多个模块可以合并在一个模块中实现,或者其中的任意一个模块可以被拆分成多个模块。或者,这些模块中的一个或多个模块的至少部分功能可以与其他模块的至少部分功能相结合,并在一个模块中实现。根据本公开的实施例,第二获取模块601、第二追踪模块602、第三推荐模块603、构建训练样本模块604和训练模块605中的至少一个可以至少被部分地实现为硬件电路,例如现场可编程门阵列(fpga)、可编程逻辑阵列(pla)、片上系统、基板上的系统、封装上的系统、专用集成电路(asic),或可以通过对电路进行集成或封装的任何其他的合理方式等硬件或固件来实现,或以软件、硬件以及固件三种实现方式中任意一种或以其中任意几种的适当组合来实现。或者,第二获取模块601、第二追踪模块602、第三推荐模块603、构建训练样本模块604和训练模块605中的至少一个可以至少被部分地实现为计算机程序模块,当该计算机程序模块被运行时,
可以执行相应的功能。
[0202]
图7示意性示出了根据本公开实施例的适于实现智库知识推荐的方法的电子设备的方框图。
[0203]
如图7所示,根据本公开实施例的电子设备700包括处理器701,其可以根据存储在只读存储器(rom)702中的程序或者从存储部分708加载到随机访问存储器(ram)703中的程序而执行各种适当的动作和处理。处理器701例如可以包括通用微处理器(例如cpu)、指令集处理器和/或相关芯片组和/或专用微处理器(例如,专用集成电路(asic))等等。处理器701还可以包括用于缓存用途的板载存储器。处理器701可以包括用于执行根据本公开实施例的方法流程的不同动作的单一处理单元或者是多个处理单元。
[0204]
在ram 703中,存储有电子设备700操作所需的各种程序和数据。处理器701、rom 702以及ram 703通过总线704彼此相连。处理器701通过执行rom 702和/或ram 703中的程序来执行根据本公开实施例的方法流程的各种操作。需要注意,所述程序也可以存储在除rom 702和ram703以外的一个或多个存储器中。处理器701也可以通过执行存储在所述一个或多个存储器中的程序来执行根据本公开实施例的方法流程的各种操作。
[0205]
根据本公开的实施例,电子设备700还可以包括输入/输出(i/o)接口705,输入/输出(i/o)接口705也连接至总线704。电子设备700还可以包括连接至i/o接口705的以下部件中的一项或多项:包括键盘、鼠标等的输入部分706;包括诸如阴极射线管(crt)、液晶显示器(lcd)等以及扬声器等的输出部分707;包括硬盘等的存储部分708;以及包括诸如lan卡、调制解调器等的网络接口卡的通信部分709。通信部分709经由诸如因特网的网络执行通信处理。驱动器710也根据需要连接至i/o接口705。可拆卸介质711,诸如磁盘、光盘、磁光盘、半导体存储器等等,根据需要安装在驱动器710上,以便于从其上读出的计算机程序根据需要被安装入存储部分708。
[0206]
本公开还提供了一种计算机可读存储介质,该计算机可读存储介质可以是上述实施例中描述的设备/装置/系统中所包含的;也可以是单独存在,而未装配入该设备/装置/系统中。上述计算机可读存储介质承载有一个或者多个程序,当上述一个或者多个程序被执行时,实现根据本公开实施例的方法。
[0207]
根据本公开的实施例,计算机可读存储介质可以是非易失性的计算机可读存储介质,例如可以包括但不限于:便携式计算机磁盘、硬盘、随机访问存储器(ram)、只读存储器(rom)、可擦式可编程只读存储器(eprom或闪存)、便携式紧凑磁盘只读存储器(cd-rom)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本公开中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。例如,根据本公开的实施例,计算机可读存储介质可以包括上文描述的rom 702和/或ram 703和/或rom 702和ram 703以外的一个或多个存储器。
[0208]
本公开的实施例还包括一种计算机程序产品,其包括计算机程序,该计算机程序包含用于执行流程图所示的方法的程序代码。当计算机程序产品在计算机系统中运行时,该程序代码用于使计算机系统实现本公开实施例所提供的智库知识推荐的方法。
[0209]
在该计算机程序被处理器701执行时执行本公开实施例的系统/装置中限定的上述功能。根据本公开的实施例,上文描述的系统、装置、模块、单元等可以通过计算机程序模块来实现。
[0210]
在一种实施例中,该计算机程序可以依托于光存储器件、磁存储器件等有形存储介质。在另一种实施例中,该计算机程序也可以在网络介质上以信号的形式进行传输、分发,并通过通信部分709被下载和安装,和/或从可拆卸介质711被安装。该计算机程序包含的程序代码可以用任何适当的网络介质传输,包括但不限于:无线、有线等等,或者上述的任意合适的组合。
[0211]
在这样的实施例中,该计算机程序可以通过通信部分709从网络上被下载和安装,和/或从可拆卸介质711被安装。在该计算机程序被处理器701执行时,执行本公开实施例的系统中限定的上述功能。根据本公开的实施例,上文描述的系统、设备、装置、模块、单元等可以通过计算机程序模块来实现。
[0212]
根据本公开的实施例,可以以一种或多种程序设计语言的任意组合来编写用于执行本公开实施例提供的计算机程序的程序代码,具体地,可以利用高级过程和/或面向对象的编程语言、和/或汇编/机器语言来实施这些计算程序。程序设计语言包括但不限于诸如java,c++,python,“c”语言或类似的程序设计语言。程序代码可以完全地在用户计算设备上执行、部分地在用户设备上执行、部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。在涉及远程计算设备的情形中,远程计算设备可以通过任意种类的网络,包括局域网(lan)或广域网(wan),连接到用户计算设备,或者,可以连接到外部计算设备(例如利用因特网服务提供商来通过因特网连接)。
[0213]
附图中的流程图和框图,图示了按照本公开各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分,上述模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个接连地表示的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图或流程图中的每个方框、以及框图或流程图中的方框的组合,可以用执行规定的功能或操作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
[0214]
本领域技术人员可以理解,本公开的各个实施例和/或权利要求中记载的特征可以进行多种组合或/或结合,即使这样的组合或结合没有明确记载于本公开中。特别地,在不脱离本公开精神和教导的情况下,本公开的各个实施例和/或权利要求中记载的特征可以进行多种组合和/或结合。所有这些组合和/或结合均落入本公开的范围。
[0215]
以上对本公开的实施例进行了描述。但是,这些实施例仅仅是为了说明的目的,而并非为了限制本公开的范围。尽管在以上分别描述了各实施例,但是这并不意味着各个实施例中的措施不能有利地结合使用。本公开的范围由所附权利要求及其等同物限定。不脱离本公开的范围,本领域技术人员可以做出多种替代和修改,这些替代和修改都应落在本公开的范围之内。

技术特征:
1.一种智库知识推荐的方法,包括:获取目标用户数据,其中,所述目标用户数据包括:目标用户属性和目标用户行为;根据所述目标用户数据对智库知识进行追踪,得到目标智库知识,其中,所述智库知识包括以下至少之一:文本、视频、声音;利用个性推荐算法对所述目标智库知识进行处理,得到初始推荐结果,其中,所述初始推荐结果包括多个初始推荐的智库知识;将所述初始推荐结果输入到训练好的推荐模型中,得到最终的推荐结果,其中,所述最终推荐结果包括多个最终推荐的智库知识。2.根据权利要求1所述的方法,其中,所述推荐模型通过如下方式训练得到:获取样本用户数据,其中,所述样本用户数据包括:样本用户属性和样本用户行为;根据所述样本用户数据对智库知识进行追踪,得到智库知识样本;利用个性推荐算法对所述智库知识样本进行处理,得到初始推荐结果,其中,所述初始推荐结果包括多个初始推荐的智库知识样本;将所述样本用户数据和所述初始推荐结果作为样例池中样例,利用分类器对所述样例池中样例进行分类预测,得到有标注的样例,将所述有标注的样例加入到训练集中以构建训练样本集;利用所述训练样本集对未经训练的推荐模型进行训练,得到训练好的推荐模型。3.根据权利要求2所述的方法,还包括:对所述训练好的推荐模型进行评价,获得评价结果。4.根据权利要求2所述的方法,其中,所述利用个性推荐算法对智库知识样本进行处理,得到初始推荐结果,其中,所述初始推荐结果包括多个初始推荐的智库知识样本包括:基于热度个性推荐算法对智库知识样本进行处理,得到基于热度初始推荐的智库知识样本;基于协同过滤个性推荐算法对智库知识样本进行处理,得到基于协同过滤初始推荐的智库知识样本;基于矩阵分解个性推荐算法对智库知识样本进行处理,得到基于矩阵分解初始推荐的智库知识样本;以及基于内容个性推荐算法对智库知识样本进行处理,得到基于内容初始推荐的智库知识样本。5.根据权利要求2所述的方法,其中,构建所述训练样本集包括:将样例池中样例预测类标的改变率阈值设定为μ;当相邻两次的分类器对所述样例池中样例的预测类标的改变率大于阈值的情况下,计算所述样例池中每个样例类别不确定性;对所述样例池中不确定性最大的样例进行标注,得到标注后的样例;将所述标注后的样例从样例池中剔除,加入到训练样本集中以构建训练样本集;或当相邻两次的分类器对所述样例池中样例的预测类标的改变率小于阈值的情况下,则完成训练样本集构建。6.一种智库知识推荐装置,包括:第一获取模块,用于获取目标用户数据,其中,所述目标用户数据包括:目标用户属性
和目标用户行为;第一追踪模块,用于根据所述目标用户数据对智库知识进行追踪,得到目标智库知识,其中,所述智库知识包括以下至少之一:文本、视频、声音;第一推荐模块,用于利用个性推荐算法对所述目标智库知识进行处理,得到初始推荐结果,其中,所述初始推荐结果包括多个初始推荐的智库知识;第二推荐模块,用于将所述初始推荐结果输入到训练好的推荐模型中,得到最终的推荐结果,其中,所述最终推荐结果包括多个最终推荐的智库知识。7.根据权利要求6所述的装置,其中,所述智库知识推荐模型的训练装置包括:第二获取模块,用于获取样本用户数据,其中,所述样本用户数据包括:样本用户属性和样本用户行为;第二追踪模块,用于根据所述样本用户数据对智库知识进行追踪,得到智库知识样本,其中,所述智库知识包括以下至少之一:文本、视频、声音;第三推荐模块,用于利用个性推荐算法对所述智库知识样本进行处理,得到初始推荐结果,其中,所述初始推荐结果包括多个初始推荐的智库知识样本;构建训练样本模块,用于将所述样本用户数据和所述初始推荐结果作为样例池中样例,利用分类器对所述样例池中样例进行分类预测,得到有标注的样例,将所述标注的样例加入到训练集中以构建训练样本集;训练模块,用于利用所述训练样本集对未经训练的推荐模型进行训练,得到训练好的推荐模型。8.一种电子设备,包括:一个或多个处理器;存储装置,用于存储一个或多个程序,其中,当所述一个或多个程序被所述一个或多个处理器执行时,使得所述一个或多个处理器执行根据权利要求1~5中任一项所述的方法。9.一种计算机可读存储介质,其上存储有可执行指令,该指令被处理器执行时使处理器执行根据权利要求1~5中任一项所述的方法。10.一种计算机程序产品,包括计算机程序,所述计算机程序被处理器执行时实现根据权利要求1~5中任一项所述的方法。

技术总结
本公开提供了一种智库知识推荐的方法,该智库知识推荐的方法包括:获取目标用户数据,其中,目标用户数据包括:目标用户属性和目标用户行为;根据目标用户数据对智库知识进行追踪,得到目标智库知识,其中,智库知识包括以下至少之一:文本、视频、声音;利用个性推荐算法对目标智库知识进行处理,得到初始推荐结果,其中,初始推荐结果包括多个初始推荐的智库知识;将初始推荐结果输入到训练好的推荐模型中,得到最终的推荐结果,其中,最终推荐结果包括多个最终推荐的智库知识。本公开还提供了一种智库知识推荐装置、设备、存储介质和程序产品。品。品。


技术研发人员:孙显 郎公福 李树超 李晓宇 金力 马玉辉
受保护的技术使用者:中国科学院空天信息创新研究院
技术研发日:2022.04.08
技术公布日:2022/7/5
转载请注明原文地址: https://www.8miu.com/read-9796.html

最新回复(0)