本发明涉及社交媒体数据挖掘与分析,特别是一种基于推文数据的热点事件脉络动态生长方法。
背景技术:
1、社交媒体用户以每日约500亿条推文的数量参与到热点事件的讨论中,使得社交网络平台与热点事件的演化高度融合。现有的基于时间线抽取故事脉络可以将事件以线性方式叙述表达,然而在大规模语料支撑下该算法单一节点中包含相同时间要素的事件集合将会十分庞大,存在数据零碎不聚焦,难以直观捕获事件节点、事件发展阶段等关键信息。基于语义相似度的故事脉络构建初步优化了时间线任务中单一节点中数据零碎的问题,然而对于文本相关系数较高的数据集合,该类算法将难以发挥出较好的甄别性能,从而难以挖掘详细的事件演化趋势。基于知识图谱构造的故事脉络清晰的为用户展示了抽取事件所包含的关键要素信息,例如时间、地点、人物及组织机构等,然而在包含百万时间、人物和位置事件的大型故事脉络知识图谱中却难以直观获取事件的发展趋势和关键节点。可见,现有技术中的上述方法大多为依赖于历史数据库的静态故事脉络,缺乏对事件追踪的实时性。
技术实现思路
1、有鉴于此,本发明提供一种基于推文数据的热点事件脉络动态生长方法。本发明利用在线实时数据生成故事脉络,提取潜在关键词爬取推文数据用于迭代生成故事脉络,从而进行动态实时更新事件脉络,解决动态化脉络演化问题,有利于实现对推文数据的检索推理、预测与应用,实现信息关联印证,为事件智能化预测分析打下基础。
2、本发明的目的是由以下技术方案实现的:
3、一种基于推文数据的热点事件脉络动态生长方法,包括以下步骤:
4、步骤1,设置时间区间和主题关键词,对社交媒体平台进行数据爬取,并对爬取的推文数据进行预处理生成代表性事件集合,再对代表性事件集合进行动态流聚类,生成包含不同主题的多类聚类簇,再对各聚类簇进行语义聚类分析,生成包含同一主题下描述细节的层次化事件脉络;
5、步骤2,在层次化事件脉络中选择层级,利用该层级的事件脉络摘要计算潜在关键词;
6、步骤3,设置新时间区间,并根据新时间区间和潜在关键词,从社交媒体平台获取新的推文数据;
7、步骤4,对新获取的推文数据进行预处理,进行动态流聚类,对新推文数据所属的聚类簇进行二次判定,从而更新聚类簇,对更新后的聚类簇再次进行层次化事件脉络生成;
8、步骤5,重复步骤2-步骤4,实现事件脉络的动态生长更新,直至生成符合要求的热点事件脉络。
9、可选的,步骤1中,预处理的方式为:
10、对推文数据进行清洗,去除其中的噪声、无效字符和冗余信息;
11、采用文本切分方式将推文分割成具有意义的词汇单元或短语;
12、针对推文中可能存在的模糊事件,利用自然语言处理方式进行校准,并转化为结构化表达形式;
13、对相似度高的推文语句进行去重处理,保留具有代表性的独特内容;
14、动态流聚类中,对于一个n篇文档的语料,单次聚类的方式如下:
15、随机选取一篇文章,其文本向量记为d;
16、将d逐一与已有的话题中各报道进行相似度计算,并取最大者作为与该话题的相似度;如果是第一篇文章,则创建一个新话题;
17、在所有话题中选出与d相似度最大的一个,以及此时的相似度值;
18、如果相似度大于阈值tc,则d所对应的互联网文本被分配给这个话题模型文本类;如果相似度值小于阈值tc,则d所对应的文本不属于已有的话题,创建新话题,同时把这篇文本归属至创建的新话题模型文本类;
19、语义聚类分析的方式为:
20、将整篇文档输入bert模型中,得到一篇文档的词向量;
21、对词向量运用umap方法进行降维,得到低维词向量;
22、对低维词向量进行聚类,得到聚类后的文档;
23、对聚类后的文档采用c-tf-idf方法得到各个主题的主题词;
24、采用最大边际相关性算法对主题词进行筛选,完成语义聚类分析,得到层次化的事件脉络。
25、可选的,步骤2的具体方式为:
26、在层次化的事件脉络中,将事件脉络的m个层级自顶向下分别用a0至am表示,其中a0为最顶层,节点标题内容为各层次化聚类结果的摘要信息,即多个关键词;
27、选取a1层级摘要作为潜在关键词抽取的基础数据,假设a1层级脉络中各节点的关键词由c-td-idf计算并取前n项,即,节点p聚类关键词为p={p1,p2,p3,…,pn},节点q聚类关键词为q={q1,q2,q3,…,qn};为准确获取新推文数据,首先对关键词的词性进行过滤,保留词性为名词、动词及量词的关键词,并利用停用词表二次过滤,得到p'={p1,p2,p3,…,pl},q'={q1,q2,q3,…,ql};
28、对节点p的关键词进行实体分析,分别保留地点名词l、人物名词per和组织机构org实体类别,其中l={l1,l2,l3,…,lv}、per={per1,per2,per3,...,perm}、org={org1,org2,org3,…,orgu},定义公共关键词组o=(p'∩q')-(l+per+org)={o1,o2,o3,…,ok},认为o是该主题脉络分支的核心关键词组,定义fp=(p-o-(l+per+org))为节点p中的其他关键词,查询fp中的词频计算结果,筛选前两项作为该节点的特征关键词;
29、最终,定义潜在关键词=地点名词+人物名词+组织机构+特征关键词+公共关键词,用于新推文数据获取。
30、可选的,步骤3中,新时间区间的开始时间为历史数据截止时间,结束时间为当前真实时间。
31、可选的,步骤4的具体方式为:
32、对新获取的推文数据进行预处理,清洗掉含有情感、符号以及特殊字符的干扰信息,并进行数据切分,得到新推文数据new_tweet={t1,t2,t3,…,tm};
33、对于新推文数据new_tweet={t1,t2,t3,...,tm},不再重新生成聚类簇核心向量,而是与初次已生成事件集合的聚类簇cluster_core={c1,c2,c3,...,cq}进行相似度计算,挖掘新的事件集合,从而更新聚类簇;
34、对于归至当前事件集合的新推文数据new_tweet'={t1,t2,t3,...,ts},s≤m,与预处理后推文数据代表性事件集合event_set={e1,e2,e3,...,en}进行融合后再排序,形成新的迭代数据集new_set={e'1,e'2,e'3,…,e'k},利用双层嵌套聚类事件脉络生成算法对更新后数据集合进行层次化脉络生成,从而实现事件脉络的动态更新。
35、本发明的有益效果在于:
36、1、本发明利用在线实时数据生成故事脉络,提取潜在关键词爬取推文数据用于迭代生成故事脉络,从而进行动态实时更新事件脉络,解决动态化脉络演化问题。
37、2、本发明有利于实现对推文数据的检索推理、预测与应用,实现信息关联印证,为事件智能化预测分析打下基础。
38、3、本发明能够对故事脉络进行动态更新及细化,在每一次生成故事脉络的同时,提取事件发展的潜在关键词用于爬取的推文数据,实现故事脉络的实时迭代动态更新,有利于发现新的事件发展,使整体故事脉络更加丰富和连贯。
1.一种基于推文数据的热点事件脉络动态生长方法,其特征在于,包括以下步骤:
2.根据权利要求1所述的一种基于推文数据的热点事件脉络动态生长方法,其特征在于,步骤1中,预处理的方式为:
3.根据权利要求1所述的一种基于推文数据的热点事件脉络动态生长方法,其特征在于,步骤2的具体方式为:
4.根据权利要求1所述的一种基于推文数据的热点事件脉络动态生长方法,其特征在于,步骤3中,新时间区间的开始时间为历史数据截止时间,结束时间为当前真实时间。
5.根据权利要求1所述的一种基于推文数据的热点事件脉络动态生长方法,其特征在于,步骤4的具体方式为: