基于LSTM+CRF的用户隐私动态度量建模的方法

allin2023-03-25  53


基于lstm+crf的用户隐私动态度量建模的方法
技术领域
1.本发明涉及用户隐私动态度量技术领域,具体为基于lstm+crf的用户隐私动态度量建模的方法。


背景技术:

2.近年来,随着深度学习理论和技术取得突破性进展,越来越多的移动智能化应用采用了深度学习模型对用户海量的数据进行快速地计算分析和建模,从而为各类智能化应用提供决策支持,例如:在网络购物推荐领域,通过对用户在购物网站的浏览行为和对商品的点击操作进行分析,可以获取用户对该类商品的兴趣偏好,从而提高推荐效率,例如:对用户浏览商品的推荐,在广告投放领域,通过分析用户对各类广告实施的操作行为,获取用户的兴趣指向和用户对未来的需求并用于提高广告投放的精度,例如:各种广告,网络用户的兴趣行为特征离不开对用户行为实体关系的抽取,实体关系抽取能够从大量网络文本中抽取网络用户的兴趣行为特征,随着网络的发展,用户在网络上公布的信息越来越多并且涉及各个领域,杂乱无章,如何以结构化的方式从网络公开的数据中,高效、准确地获取有用的用户信息,已经成为摆在科研人员面前的重要问题。
3.为此,我们提出基于lstm+crf的用户隐私动态度量建模的方法。


技术实现要素:

4.鉴于上述和/或现有基于lstm+crf的用户隐私动态度量建模的方法中存在的问题,提出了本发明。
5.因此,本发明的目的是提供基于lstm+crf的用户隐私动态度量建模的方法,通过利用scrapy爬虫获取网络中的用户信息,然后基于lstm+crf模型对获取的信息进行模型训练,并利用模型不断迭代抽取用户的敏感特征,为知识图谱建图提供数据,能够解决上述提出现有的问题。
6.为解决上述技术问题,根据本发明的一个方面,本发明提供了如下技术方案:
7.基于lstm+crf的用户隐私动态度量建模的方法,其包括:以下操作步骤:
8.步骤一:动态敏感特征训练文本抽取;
9.s1:通过设计基于scrapy框架自动爬虫程序;
10.s2:从移动应用服务中爬取用户输入的文本,同时从可信第三方库中获取关于隐私的文本标注信息进行对比;
11.s3:最后将第三方库没有的隐私文本信息存入到csv文件中;
12.步骤二:优化后的lstm+crf模型训练;
13.s1:通过嵌入层,lstm层,条件随机场层对文本进行处理;
14.s2:通过分词器算法对csv中训练文本s进行分词,并将获得词嵌入向量w[w1,w2,w3,w4,...,wn],通过语义分割识别算法,将数量庞大的训练文本按标点分割为训练语句,将词向量作为lstm层模型训练的输入,分批输入到lstm层中,从而提高lstm的训练效率;
[0015]
s3:经过训练,可以预测得到多种不同的lstm层状态分数矩阵e(wi,yi),即敏感特征文本,每个词被标注不同词性的概率矩阵;
[0016]
s4:将lstm层状态分数矩阵e(wi,yi)作为crf输入的数据支持,通过crf层为训练语句标注添加约束,并通过不断迭代获得一条真实路径序列的最小损失函数;
[0017]
s5:通过lstm层和crf层的不断优化迭代训练获得敏感特征关系;
[0018]
s6:对抽取到的用户敏感特征进行再次融合;
[0019]
s7:经过敏感特征去冗余后将精炼化的敏感特征存入用户领域知识库;
[0020]
s8:同时对每个敏感特征按照存入时间进行标注,根据知识库中的用户敏感特征及其时间,可以预测用户在某时间段中敏感特征的动态变化趋势;
[0021]
步骤三:知识图谱度量建图;
[0022]
s1:将上一层用户敏感特征以及敏感特征关系以三元组的形式《敏感特征,敏感特征,敏感特征关系》按照逻辑关系作为输入,以便机器可以更容易理解;
[0023]
s2:根据用户对敏感隐私保护规则的约定,对用户的敏感特征进行敏感度的度量,并将度量后的结果重新提供给lstm、crf层;
[0024]
s3:在训练过程中,不断补充度量后的数据和网络中新出现的知识逻辑,从而进一步优化训练模型的精准度,科学揭示用户敏感特征的动态变化趋势。
[0025]
作为本发明所述的基于lstm+crf的用户隐私动态度量建模的方法的一种优选方案,其中:所述步骤一的s2中抽取的信息将以文本的形式存储到特征领域知识数据库中,作为深度学习模型的训练文本。
[0026]
作为本发明所述的基于lstm+crf的用户隐私动态度量建模的方法的一种优选方案,其中:所述步骤二的s1中嵌入层为对文本进行数据预处理,使lstm+crf模型能够利用这些文本进行训练。
[0027]
作为本发明所述的基于lstm+crf的用户隐私动态度量建模的方法的一种优选方案,其中:所述步骤二的s1中lstm层为对处理好的数据进行训练,获取每一个词对每一种标注的状态,即概率,得到状态分数矩阵。
[0028]
作为本发明所述的基于lstm+crf的用户隐私动态度量建模的方法的一种优选方案,其中:所述步骤二的s1中crf层为对状态分数矩阵进行迭代训练,通过损失函数从中找到损失最小的一条标注语句,即标注正确的语句。
[0029]
作为本发明所述的基于lstm+crf的用户隐私动态度量建模的方法的一种优选方案,其中:所述步骤二的s4中真实路径序列为在每一个m标注前面必定有一个b标注,在e标注前面必定有一个m或b标注等固定预测标注,通过标注正确的路径,即损失函数得出损失最小的路径。
[0030]
作为本发明所述的基于lstm+crf的用户隐私动态度量建模的方法的一种优选方案,其中:所述步骤二的s5中crf层的关键步骤可以通过公式计算:
[0031][0032]
作为本发明所述的基于lstm+crf的用户隐私动态度量建模的方法的一种优选方案,其中:所述prealpath代表真实路径的分数,所述pi代表其他路径的分数,所述loglossfunction代表损失函数,所述transitionscore表示状态ti到ti+1的概率。
[0033]
作为本发明所述的基于lstm+crf的用户隐私动态度量建模的方法的一种优选方案,其中:所述步骤二s6中融合为通过相似度算法,将相似度在80%以上的敏感特征进行融合,只用其中一种敏感特征,删除冗余的敏感特征。
[0034]
作为本发明所述的基于lstm+crf的用户隐私动态度量建模的方法的一种优选方案,其中:所述步骤三s1中三元组的形式为实体,实体,实体之间的关系。
[0035]
与现有技术相比:通过利用scrapy爬虫获取网络中的用户信息,同时获取可信第三方关于隐私的人工标注信息,然后基于lstm+crf模型对获取的信息进行模型训练,从而构建动态隐私度量模型,并利用模型不断迭代抽取用户的敏感特征,为知识图谱建图提供数据,进而达到优化训练模型的精准度,科学揭示用户敏感特征的动态变化趋势的效果。
附图说明
[0036]
图1为本发明提供的整体框架图。
具体实施方式
[0037]
为使本发明的目的、技术方案和优点更加清楚,下面将结合附图对本发明的实施方式作进一步地详细描述。
[0038]
本发明提供基于lstm+crf的用户隐私动态度量建模的方法,请参阅图1,包括以下操作步骤:
[0039]
步骤一:动态敏感特征训练文本抽取;
[0040]
s1:通过设计基于scrapy框架自动爬虫程序;
[0041]
s2:从移动应用服务中爬取用户输入的文本,同时获取从可信第三方库中获取关于隐私的文本标注信息进行对比,抽取的信息将以文本的形式存储到特征领域知识数据库中,作为深度学习模型的训练文本;
[0042]
s3:最后将第三方库没有的隐私文本信息存入到csv文件中;
[0043]
步骤二:优化后的lstm+crf模型训练;
[0044]
其中长短期记忆网络作为基于神经网络的自回归模型,在深度学习与大数据中占据着不可或缺的地位,它可以很好地预测时间序列数据、文本、事件等特征行为的模型生成;
[0045]
s1:通过嵌入层,lstm层,条件随机场层对文本进行处理,嵌入层为对文本进行数据预处理,使lstm+crf模型能够利用这些文本进行训练,lstm层为对处理好的数据进行训练,获取每一个词对每一种标注的状态,即概率,得到状态分数矩阵,crf层为对状态分数矩阵进行迭代训练,通过损失函数从中找到损失最小的一条标注语句,即标注正确的语句;
[0046]
在嵌入层对训练文本进行数据预处理,按照序列标注的要求对训练文本进行标注,并根据从可信第三方库获取的关于隐私的标注文本对训练文本进行更加精确的标注,使lstm+crf模型能够利用这些文本进行训练,在lstm层对处理好的数据进行训练,获取每一个词对每一种标注的状态,即概率,得到状态分数矩阵,在crf层对状态分数矩阵进行迭代训练,通过损失函数从中找到损失最小的一条标注语句,即标注正确的语句,实现用户敏感特征数据的持久化,同时,考虑到lstm的训练效率,本方案拟通过对获取的训练文本进行拆分,并在嵌入层对数据进行更精确的标注,从而提升lstm+crf模型的训练准确度;
[0047]
s2:通过分词器算法对csv中训练文本s进行分词,并将获得词嵌入向量w[w1,w2,w3,w4,...,wn],通过语义分割识别算法,将数量庞大的训练文本按标点分割为训练语句,将词向量作为lstm层模型训练的输入,分批输入到lstm层中,从而提高lstm的训练效率;
[0048]
s3:经过训练,可以预测得到多种不同的lstm层状态分数矩阵e(wi,yi),即敏感特征文本,每个词被标注不同词性的概率矩阵;
[0049]
s4:将lstm层状态分数矩阵e(wi,yi)作为crf输入的数据支持,通过crf层为训练语句标注添加约束,并通过不断迭代获得一条真实路径序列的最小损失函数,真实路径序列为在每一个m标注前面必定有一个b标注,在e标注前面必定有一个m或b标注等固定预测标注,通过标注正确的路径,即损失函数得出损失最小的路径,即在所有标注中损失最小的正确路径,来保证预测敏感特征数据结果的合法性和准确性;
[0050]
s5:通过lstm层和crf层的不断优化迭代训练获得敏感特征关系,即多个敏感特征之间的关系,单一的敏感特征无法体现用户的隐私,多个敏感特征之间的关系更能体现用户隐私之间的联系,crf层的关键步骤可以通过公式计算:
[0051][0052]
prealpath代表真实路径的分数,pi代表其他路径的分数,loglossfunction代表损失函数,transitionscore表示状态ti到ti+1的概率;
[0053]
s6:尽管优化后的双向长短期记忆网络模型在敏感特征抽取和特征关系抽取中存在优势,但这些结果依然存在大量的冗余信息,为了提升敏感特征的逻辑性和层次性,有必要对抽取到的用户敏感特征进行再次融合,融合为通过相似度算法,将相似度在80%以上的敏感特征进行融合,只用其中一种敏感特征,删除冗余的敏感特征,从而达到提升用户敏感特征数据训练质量的目的;
[0054]
s7:经过敏感特征去冗余后将精炼化的敏感特征存入用户领域知识库;
[0055]
s8:同时对每个敏感特征按照存入时间进行标注,根据知识库中的用户敏感特征及其时间,可以预测用户在某时间段中敏感特征的动态变化趋势;
[0056]
步骤三:知识图谱度量建图;
[0057]
其中知识图谱是结构化的语义知识库,通过将数据粒度从文件级别过渡到数据级别,聚合大量数据知识,实现知识快速响应和推理;
[0058]
s1:将上一层用户敏感特征以及敏感特征关系以三元组的形式《敏感特征,敏感特征,敏感特征关系》按照逻辑关系作为输入,以便机器可以更容易理解,三元组的形式为《实体,实体,实体之间的关系》;
[0059]
s2:根据用户对敏感隐私保护规则的约定,对用户的敏感特征进行敏感度的度量,并将度量后的结果重新提供给lstm、crf层,而度量后的结果更加准确,用于训练可以提高模型对用户敏感属性抽取的准确度;
[0060]
s3:在训练过程中,不断补充度量后的数据和网络中新出现的知识逻辑,从而进一步优化训练模型的精准度,科学揭示用户敏感特征的动态变化趋势。
[0061]
虽然在上文中已经参考实施方式对本发明进行了描述,然而在不脱离本发明的范围的情况下,可以对其进行各种改进并且可以用等效物替换其中的部件。尤其是,只要不存在结构冲突,本发明所披露的实施方式中的各项特征均可通过任意方式相互结合起来使
用,在本说明书中未对这些组合的情况进行穷举性的描述仅仅是出于省略篇幅和节约资源的考虑。因此,本发明并不局限于文中公开的特定实施方式,而是包括落入权利要求的范围内的所有技术方案。

技术特征:
1.基于lstm+crf的用户隐私动态度量建模的方法,其特征在于:包括以下操作步骤:步骤一:动态敏感特征训练文本抽取;s1:通过设计基于scrapy框架自动爬虫程序;s2:从移动应用服务中爬取用户输入的文本,同时从可信第三方库中获取关于隐私的文本标注信息进行对比;s3:最后将第三方库没有的隐私文本信息存入到csv文件中;步骤二:优化后的lstm+crf模型训练;s1:通过嵌入层,lstm层,条件随机场层对文本进行处理;s2:通过分词器算法对csv中训练文本s进行分词,并将获得词嵌入向量w[w1,w2,w3,w4,...,w
n
],通过语义分割识别算法,将数量庞大的训练文本按标点分割为训练语句,将词向量作为lstm层模型训练的输入,分批输入到lstm层中,从而提高lstm的训练效率;s3:经过训练,可以预测得到多种不同的lstm层状态分数矩阵e(w
i
,y
i
),即敏感特征文本,每个词被标注不同词性的概率矩阵;s4:将lstm层状态分数矩阵e(w
i
,y
i
)作为crf输入的数据支持,通过crf层为训练语句标注添加约束,并通过不断迭代获得一条真实路径序列的最小损失函数;s5:通过lstm层和crf层的不断优化迭代训练获得敏感特征关系;s6:对抽取到的用户敏感特征进行再次融合;s7:经过敏感特征去冗余后将精炼化的敏感特征存入用户领域知识库;s8:同时对每个敏感特征按照存入时间进行标注,根据知识库中的用户敏感特征及其时间,可以预测用户在某时间段中敏感特征的动态变化趋势;步骤三:知识图谱度量建图;s1:将上一层用户敏感特征以及敏感特征关系以三元组的形式<敏感特征,敏感特征,敏感特征关系>按照逻辑关系作为输入,以便机器可以更容易理解;s2:根据用户对敏感隐私保护规则的约定,对用户的敏感特征进行敏感度的度量,并将度量后的结果重新提供给lstm、crf层;s3:在训练过程中,不断补充度量后的数据和网络中新出现的知识逻辑,从而进一步优化训练模型的精准度,科学揭示用户敏感特征的动态变化趋势。2.根据权利要求1所述的基于lstm+crf的用户隐私动态度量建模的方法,其特征在于,所述步骤一的s2中抽取的信息将以文本的形式存储到特征领域知识数据库中,作为深度学习模型的训练文本。3.根据权利要求1所述的基于lstm+crf的用户隐私动态度量建模的方法,其特征在于,所述步骤二的s1中嵌入层为对文本进行数据预处理,使lstm+crf模型能够利用这些文本进行训练。4.根据权利要求1所述的基于lstm+crf的用户隐私动态度量建模的方法,其特征在于,所述步骤二的s1中lstm层为对处理好的数据进行训练,获取每一个词对每一种标注的状态,即概率,得到状态分数矩阵。5.根据权利要求1所述的基于lstm+crf的用户隐私动态度量建模的方法,其特征在于,所述步骤二的s1中crf层为对状态分数矩阵进行迭代训练,通过损失函数从中找到损失最小的一条标注语句,即标注正确的语句。
6.根据权利要求1所述的基于lstm+crf的用户隐私动态度量建模的方法,其特征在于,所述步骤二的s4中真实路径序列为在每一个m标注前面必定有一个b标注,在e标注前面必定有一个m或b标注等固定预测标注,通过标注正确的路径,即损失函数得出损失最小的路径。7.根据权利要求1所述的基于lstm+crf的用户隐私动态度量建模的方法,其特征在于,所述步骤二的s5中crf层的关键步骤可以通过公式计算:8.根据权利要求7所述的基于lstm+crf的用户隐私动态度量建模的方法,其特征在于,所述prealpath代表真实路径的分数,所述pi代表其他路径的分数,所述loglossfunction代表损失函数,所述transitionscore表示状态ti到ti+1的概率。9.根据权利要求1所述的基于lstm+crf的用户隐私动态度量建模的方法,其特征在于,所述步骤二s6中融合为通过相似度算法,将相似度在80%以上的敏感特征进行融合,只用其中一种敏感特征,删除冗余的敏感特征。10.根据权利要求1所述的基于lstm+crf的用户隐私动态度量建模的方法,其特征在于,所述步骤三s1中三元组的形式为实体,实体,实体之间的关系。

技术总结
本发明公开的属于用户隐私动态度量技术领域,具体为基于LSTM+CRF的用户隐私动态度量建模的方法,包括以下操作步骤:步骤一:动态敏感特征训练文本抽取,S1:通过设计基于Scrapy框架自动爬虫程序,S2:从移动应用服务中爬取用户输入的文本,同时获取从可信第三方库中获取关于隐私的文本标注信息进行对比,本发明通过利用Scrapy爬虫获取网络中的用户信息,同时获取可信第三方关于隐私的人工标注信息,然后基于LSTM+CRF模型对获取的信息进行模型训练,从而构建动态隐私度量模型,并利用模型不断迭代抽取用户的敏感特征,为知识图谱建图提供数据,进而达到优化训练模型的精准度,科学揭示用户敏感特征的动态变化趋势的效果。用户敏感特征的动态变化趋势的效果。用户敏感特征的动态变化趋势的效果。


技术研发人员:罗恩韬
受保护的技术使用者:湖南科技学院
技术研发日:2022.03.21
技术公布日:2022/7/5
转载请注明原文地址: https://www.8miu.com/read-7643.html

最新回复(0)