本申请属于计算机,尤其涉及一种数据处理方法、装置、设备及存储介质。
背景技术:
1、缓存预取是在数据或资源被实际需要之前提前将其从数据库或磁盘文件加载到缓存中,实现临时存储,避免频繁访问数据库或磁盘文件,提高系统响应速度和性能。缓存预取可以是基于规则的缓存预取即通过手动设置规则指导缓存操作,即当缓存状态满足该规则时执行缓存预取操作。
2、然而,随着数据中心应用程序对高性能、可伸缩性需求的增强,数据访问模式逐渐向多用户、长期、复杂的特点演进,大量用户的访问具有不同的访问需求,同时访问规律和模式不再是鲜明的周期性、规律性和频繁性。因此,由于前述缓存预取无法考虑多用户、长期、复杂的访问模式,所以,导致缓存预取的命中率低,造成频繁访问数据库或磁盘文件的情况,降低系统响应速度和性能。
技术实现思路
1、本申请实施例提供一种数据处理方法、装置、设备及存储介质,能够解决相关技术中缓存预取的命中率低的问题。
2、第一方面,本申请实施例提供一种数据处理方法,该方法可以包括:
3、获取n个用户访问数据对象的数据访问日志,n为大于1的整数;
4、基于数据访问日志,构建多用户数据访问的加权有向无自环图,加权有向无自环图包括m个第一节点和连接m个第一节点中每两个第一节点的第一有向连接边,第一节点为n个用户中至少一个用户的第i个被访问的数据对象,第一有向连接边用于表示至少一个用户从第一有向连接边连接的一个第一节点到另一个第一节点的请求访问数据对象的顺序占数据访问日志中n个用户访问m个第一节点的顺序的重要程度,m为大于1的整数,i∈[1,m];
5、从加权有向无自环图中提取p个采样子图,采样子图包括第二节点和串接第二节点所在路径的第二有向连接边,第二节点为m个第一节点中节点出度大于或等于预设节点出度的节点,p为大于1的整数;
6、基于p个采样子图中每个采样子图和每个采样子图对应的标签向量,对第一图神经网络和预取解码器模型进行训练,直至满足预设训练条件,得到第二图神经网络和预取解码器,第二图神经网络和预取解码器用于基于目标用户在第一时间段的数据访问日志生成目标用户在第二时间段访问具有关联关系的数据对象的概率值。
7、第二方面,本申请实施例提供一种数据处理装置,该装置可以包括:
8、获取模块,用于获取n个用户访问数据对象的数据访问日志,n为大于1的整数;
9、构建模块,用于基于数据访问日志,构建多用户数据访问的加权有向无自环图,加权有向无自环图包括m个第一节点和连接m个第一节点中每两个第一节点的第一有向连接边,第一节点为n个用户中至少一个用户的第i个被访问的数据对象,第一有向连接边用于表示至少一个用户从第一有向连接边连接的一个第一节点到另一个第一节点的请求访问数据对象的顺序占数据访问日志中n个用户访问m个第一节点的顺序的重要程度,i∈[1,m],m为大于1的整数;
10、提取模块,用于从加权有向无自环图中提取p个采样子图,采样子图包括第二节点和串接第二节点所在路径的第二有向连接边,第二节点为m个第一节点中节点出度大于或等于预设节点出度的节点,p为大于1的整数;
11、训练模块,用于基于p个采样子图中每个采样子图和每个采样子图对应的标签向量,对第一图神经网络和预取解码器模型进行训练,直至满足预设训练条件,得到第二图神经网络和预取解码器,第二图神经网络和预取解码器用于基于目标用户在第一时间段的数据访问日志生成目标用户在第二时间段访问具有关联关系的数据对象的概率值。
12、第三方面,本申请实施例提供了一种计算机设备,该计算机设备包括:处理器以及存储有计算机程序指令的存储器;
13、处理器执行计算机程序指令时实现如第一方面所示的数据处理方法。
14、第四方面,本申请实施例提供了一种计算机存储介质,计算机存储介质上存储有计算机程序指令,计算机程序指令被处理器执行时实现如第一方面所示的数据处理方法。
15、第五方面,本申请实施例提供了一种芯片,芯片包括处理器和通信接口,通信接口和处理器耦合,处理器用于运行程序或指令,实现如第一方面所示的数据处理方法。
16、第六方面,本申请实施例提供一种计算机程序产品,该程序产品被存储在存储介质中,该程序产品被至少一个处理器执行以实现如第一方面所示的数据处理方法。
17、本申请实施例的数据处理方法、装置、设备及存储介质,可以根据n个用户访问数据对象的数据访问日志,构建多用户数据访问的加权有向无自环图,加权有向无自环图包括m个第一节点和连接m个第一节点中每两个第一节点的第一有向连接边,第一节点为n个用户中至少一个用户的第i个被访问的数据对象,第一有向连接边用于表示至少一个用户从第一有向连接边连接的一个第一节点到另一个第一节点的请求访问数据对象的顺序占数据访问日志中n个用户访问m个第一节点的顺序的重要程度;接着,从加权有向无自环图中提取p个采样子图,采样子图包括第二节点和串接第二节点所在路径的第二有向连接边,第二节点为m个第一节点中节点出度大于或等于预设节点出度的节点;基于p个采样子图中每个采样子图和每个采样子图对应的标签向量,对第一图神经网络和预取解码器模型进行训练,直至满足预设训练条件,得到第二图神经网络和预取解码器,第二图神经网络和预取解码器用于基于目标用户在第一时间段的数据访问日志生成目标用户在第二时间段访问具有关联关系的数据对象的概率值。这样,可以将数据访问日志建模为加权有向无自环图,有效保留单用户的数据访问模式,如访问次序、访问频率等,有效建模较长的访问序列,减少冗余信息,以及使用图神经网络和预取解码器模型学习访问数据的关联性,可以有效建模多用户、长序列、多会话的访问模式,适应数据的动态变化,适应多用户的数据访问场景,在多用户访问场景中保留单用户访问数据的同时构造多用户访问数据的关联信息的同时,图神经网络和预取解码器模型可以捕捉比传统序列数据更加复杂的访问数据,能够编码得到包含更多信息的嵌入向量,学习多用户场景下的访问模式表征,从而可以更准确地对用户下一时间段的数据访问进行预测,减少了缓存未命中的次数和延迟,提高了缓存预取的命中率,降低了频繁访问数据库或磁盘文件的情况,进而提高了系统响应速度和性能。
1.一种数据处理方法,其特征在于,包括:
2.根据权利要求1所述的数据处理方法,其特征在于,所述基于所述数据访问日志,构建多用户数据访问的加权有向无自环图,包括:
3.根据权利要求2所述的数据处理方法,其特征在于,所述基于所述数据访问日志,构建数据访问日志序列集合,包括:
4.根据权利要求2或3所述的数据处理方法,其特征在于,所述基于所述n个用户中每个用户访问数据对象的数据访问日志序列,构建所述多用户数据访问的加权有向无自环图,包括:
5.根据权利要求1所述的数据处理方法,其特征在于,所述加权有向无自环图中的每个第一节点对应节点出度,所述节点出度用于表征第一节点在所述加权有向无自环图中以所述第一节点为尾的边的数目;所述p个采样子图包括p个第二节点中每个第二节点的采样子图;
6.根据权利要求1所述的数据处理方法,其特征在于,所述p个采样子图中包括所述p个采样子图中每个采样子图和与所述每个采样子图对应的标签向量;所述数据处理方法还包括:
7.根据权利要求1所述的数据处理方法,其特征在于,所述第一图神经网络和预取解码器模型包括第一图神经网络模型和第一预取解码器模型;
8.根据权利要求1所述的数据处理方法,其特征在于,所述数据处理方法还包括:
9.根据权利要求8所述的数据处理方法,其特征在于,所述基于所述目标数据访问日志序列,生成所述目标用户的第二加权有向无自环图,包括:
10.根据权利要求8所述的数据处理方法,其特征在于,所述通过所述多用户数据访问的加权有向无自环图,对所述目标用户的第二加权有向无自环图进行图增强处理,得到第三加权有向无自环图,包括:
11.一种数据处理装置,其特征在于,包括:
12.一种计算机设备,其特征在于,所述设备包括:处理器以及存储有计算机程序指令的存储器;
13.一种计算机程序产品,其特征在于,所述程序产品被存储在非瞬态存储介质中,所述程序产品被至少一个处理器执行以实现如权利要求1-10任意一项所述的数据处理方法的步骤。