本发明涉及社交媒体数据挖掘与分析,特别是一种基于事件权威影响力计算的流聚类故事生成方法。
背景技术:
1、社交媒体用户以每日约500亿条推文的数量参与到热点事件的讨论中,使得社交网络平台与热点事件的演化高度融合。在热点事件爆发阶段,海量推文数据的涌现难以聚焦事件关键信息,随着数据规模的不断增大,必须通过识别、筛选、处理和融合,聚类形成简明清晰的故事。single-pass算法是流式聚类的经典算法之一,能够将海量推文数据积累为不同的故事簇,但其对数据输入的顺序具有很强的依赖性。
技术实现思路
1、有鉴于此,本发明提供一种基于事件权威影响力计算的流聚类故事生成方法。本发明通过对推文数据构建权威影响力计算排序优化single-pass算法,实现更为简明清晰的故事生成,为分析热点事件提供有力的服务基础。
2、本发明采用的技术方案为:
3、一种基于事件权威影响力计算的流聚类故事生成方法,包括以下步骤:
4、步骤1,从社交网络平台获取推文数据并进行预处理,包括对推文数据进行清洗和切分,对推文中的模糊事件进行校准并结构化表达和对相似度高的推文语句进行去重;
5、步骤2,对预处理后得到的短文本数据集,计算事件权威影响力,抽取其中传播影响力及事件权威力度强的推文集合,构建初始代表性事件集合;
6、步骤3,采用基于transformer算法的词嵌入算法,将初始代表性事件数据集的非结构化的文本数据转化为结构化数据,基于事件权威影响力对代表性事件集合中的事件进行排序;
7、步骤4,利用geosingle-pass流聚类算法对代表性事件集合进行聚类簇的抽取,得到故事抽取结果,实现基于事件权威影响力计算与流聚类的故事生成。
8、可选的,步骤1的具体方式为:
9、进行数据清洗,移除推文中的噪声、无效字符和冗余信息;
10、采用文本切分技术,将推文分解为具有实际意义的词汇单元或短语;
11、针对推文中可能出现的模糊事件描述,运用自然语言处理技术进行校准,将事件转换为结构化的表达形式;
12、对推文中的模糊时间进行校准并进行结构化表达,作为事件发生时间;
13、对同一时间戳集合下的推文进行相似度度量,对高于度量指标阈值的数据集合保留推文语句长度最大的数据,从而完成数据去重。
14、可选的,步骤2的具体方式为:
15、计算事件权威影响力,考虑推文的语义信息,分别从推文的社会影响力si、推文标题影响力ti以及实体影响力ni三个方面出发,加权融合从而抽取代表性事件;
16、计算事件权威影响力eai:
17、eai=μ1·si+μ2·ti+μ3·ni
18、eai'set={eai1,eai2,eai3,...,eaii,...,eain},eaii>φ
19、其中,μ1、μ2、μ3为社会影响力、标题影响力以及实体影响力的加权参数;
20、对所有推文预处理集合计算事件权威影响力结果,若影响力大于阈值φ,则筛选推文作为代表性事件,形成代表性事件集合eai'set。
21、可选的,步骤3的具体方式为:
22、采用基于transformer算法的sentence-bert深度学习模型,将初始代表性事件数据集的非结构化的文本数据转化为结构化数据,得到结构化代表性事件集合;
23、利用孪生网络和三元组网络结构,得到体现上下文及词序信息的代表性事件集合;
24、基于事件权威影响力对代表性事件集合中的事件按影响力权重从高到低的顺序进行排序。
25、可选的,步骤4中,geosingle-pass流聚类算法的具体方式为:
26、按权威影响力从大到小的顺序逐次选取一篇文章,其文本向量记为d;
27、分别计算d的地理相似度和d与话题的特征向量余弦相似度,加权生成总相似度;如果是第一篇文章,则创建一个新话题;
28、在所有话题中选出与d相似度最大的一个,以及此时的相似度值;
29、如果相似度大于阈值tc,则d所对应的事件文本被分配给这个话题模型文本类;如果相似度值小于阈值tc,则d所对应的文本不属于已有的话题,创建新话题,同时把这篇文本归属至创建的新话题模型文本类;
30、最终得到多个聚类簇表示故事抽取结果,实现基于事件权威影响力计算与流聚类的故事生成。
31、本发明的有益效果在于:
32、1、本发明能够更好地区分不同的故事话题,通过对推文数据构建权威影响力计算排序优化single-pass算法,实现更为简明清晰的故事生成。
33、2、本发明可为下游的热点事件分析等应用提供有力的支撑。
1.一种基于事件权威影响力计算的流聚类故事生成方法,其特征在于,包括以下步骤:
2.根据权利要求1所述的一种基于事件权威影响力计算的流聚类故事生成方法,其特征在于,步骤1的具体方式为:
3.根据权利要求2所述的一种基于事件权威影响力计算的流聚类故事生成方法,其特征在于,步骤2的具体方式为:
4.根据权利要求3所述的一种基于事件权威影响力计算的流聚类故事生成方法,其特征在于,步骤3的具体方式为:
5.根据权利要求4所述的一种基于事件权威影响力计算的流聚类故事生成方法,其特征在于,步骤4中,geosingle-pass流聚类算法的具体方式为: