1.本发明涉及计算机领域,具体而言,涉及一种新闻处理方法、装置、存储介质以及电子设备。
背景技术:2.现有技术中,在用户对电力公司的舆情信息进行监控的时候,通常为用户注册各个新闻平台的账号,然后每时每刻浏览各个平台的热门信息,查看是否有与自身公司相关的舆情信息,从而及时的维护自身公司形象。
3.然而,上述方法造成查找与公司相关的舆情新闻的效率低。
技术实现要素:4.本发明实施例提供了一种新闻处理方法、装置、存储介质以及电子设备,以至少解决查找与公司相关的舆情新闻的效率低的技术问题。
5.根据本发明实施例的一个方面,提供了一种新闻处理方法,包括:在获取到待识别的目标新闻的情况下,对上述目标新闻进行分词,得到多个新闻分词;识别上述新闻分词中的第一公司实体和与上述第一公司实体相关联的第一新闻实体;对上述第一公司实体进行对齐,得到对齐后的目标公司实体;根据上述第一新闻实体分析上述目标公司实体的情感倾向;将上述目标公司实体与上述情感倾向填入知识图谱中。
6.根据本发明实施例的另一方面,提供了一种新闻处理装置,包括:分词模块,用于在获取到待识别的目标新闻的情况下,对上述目标新闻进行分词,得到多个新闻分词;识别模块,用于识别上述新闻分词中的第一公司实体和与上述第一公司实体相关联的第一新闻实体;对齐模块,用于对上述第一公司实体进行对齐,得到对齐后的目标公司实体;分析模块,用于根据上述第一新闻实体分析上述目标公司实体的情感倾向;填入模块,用于将上述目标公司实体与上述情感倾向填入知识图谱中。
7.作为一种可选的示例,上述识别模块包括:第一确定单元,用于在上述新闻分词中识别到第一等级的公司实体的情况下,将识别到的上述第一等级的公司实体作为上述第一公司实体;第二确定单元,用于在未识别到上述第一等级的公司实体的情况下,在识别到第二等级的公司实体的情况下,将识别到的上述第二等级的公司实体作为上述第一公司实体;第三确定单元,用于在未识别到上述第二等级的公司实体的情况下,在识别到第三等级的公司实体的情况下,将识别到的上述第三等级的公司实体作为上述第一公司实体,其中,上述第一等级的公司实体、上述第二等级的公司实体与上述第三等级的公司实体为按照地域级别划分的公司实体,上述第一等级大于上述第二等级,上述第二等级大于上述第三等级。
8.作为一种可选的示例,上述识别模块包括:第四确定单元,用于将与识别出的上述第一公司实体处于同一篇目标新闻内的新闻实体作为上述第一公司实体关联的第一新闻实体;或者将与识别出的上述第一公司实体处于同一篇目标新闻的同一段落内的新闻实体
作为上述第一公司实体关联的第一新闻实体;将与识别出的上述第一公司实体处于同一篇目标新闻内的同一句话内的新闻实体作为上述第一公司实体关联的第一新闻实体。
9.作为一种可选的示例,上述对齐模块包括:预设单元,用于预设多个标准公司实体,其中,每一个上述标准公司实体对应一个或多个第一公司实体;处理单元,用于将每一个上述第一公司实体作为当前公司实体,执行如下操作:比对上述当前公司实体与每一个上述标准公司实体;将与上述当前公司实体的相似度最高的标准公司实体作为一个对齐后的目标公司实体。
10.作为一种可选的示例,上述装置还包括:第一处理模块,用于识别上述第一新闻实体得到上述目标新闻中与上述目标公司实体相关的目标关键词;获取上述目标关键词所在的上述目标新闻的目标时间信息,其中,上述目标时间信息为上述目标新闻的发布时间点。
11.作为一种可选的示例,上述填入模块包括:第五确定单元,用于将上述目标公司实体作为上述知识图谱中的第一实体;第六确定单元,用于将与上述目标公司实体相关的目标新闻作为上述知识图谱中与上述第一实体相关的第二实体;第七确定单元,用于将上述目标公司实体的情感倾向、目标关键词与目标时间信息作为上述第二实体的属性信息。
12.作为一种可选的示例,上述装置还包括:第二处理模块,用于将多个新闻网站中的每一个新闻网站作为当前新闻网站,执行如下操作:将上述当前新闻网站的一个网址作为当前网址,从上述当前网址中遍历上述目标新闻,在遍历上述当前网址之后,将上述当前网址能够跳转到的网址作为新的上述当前网址。
13.根据本发明实施例的又一方面,还提供了一种存储介质,该存储介质中存储有计算机程序,其中,该计算机程序被处理器运行时执行上述新闻处理方法。
14.根据本发明实施例的又一方面,还提供了一种电子设备,包括存储器和处理器,上述存储器中存储有计算机程序,上述处理器被设置为通过上述计算机程序执行上述的新闻处理方法。
15.本发明可以应用在知识图谱技术的图谱构建过程中。在本发明实施例中,采用了在获取到待识别的目标新闻的情况下,对上述目标新闻进行分词,得到多个新闻分词;识别上述新闻分词中的第一公司实体和与上述第一公司实体相关联的第一新闻实体;对上述第一公司实体进行对齐,得到对齐后的目标公司实体;根据上述第一新闻实体分析上述目标公司实体的情感倾向;将上述目标公司实体与上述情感倾向填入知识图谱中的方法,由于在上述方法中,可以获取目标新闻,识别新闻中的第一公司实体并对齐得到目标公司实体,以及识别第一公司实体的第一新闻实体,分析得到对目标公司实体的情感倾向,将目标公司实体与情感倾向填入到知识图谱中,可以通过关键词在知识图谱中快速高效的查看到公司的情感倾向结果与对应的新闻结果,从而实现了提高查找与公司相关的舆情新闻的效率的目的,进而解决了查找与公司相关的舆情新闻的效率低的技术问题。
附图说明
16.此处所说明的附图用来提供对本发明的进一步理解,构成本技术的一部分,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。在附图中:
17.图1是根据本发明实施例的一种可选的新闻处理方法的流程图;
18.图2是根据本发明实施例的一种可选的新闻处理方法的系统示意图;
19.图3是根据本发明实施例的一种可选的新闻处理方法的构建知识图谱示意图;
20.图4是根据本发明实施例的一种可选的新闻处理方法的爬取目标新闻示意图;
21.图5是根据本发明实施例的一种可选的新闻处理方法的有向无环图;
22.图6是根据本发明实施例的一种可选的新闻处理方法的分词的流程图;
23.图7是根据本发明实施例的一种可选的新闻处理方法的实体抽取示意图;
24.图8是根据本发明实施例的一种可选的新闻处理方法的新闻查询示意图;
25.图9是根据本发明实施例的一种可选的新闻处理装置的结构示意图;
26.图10是根据本发明实施例的一种可选的电子设备的示意图。
具体实施方式
27.为了使本技术领域的人员更好地理解本发明方案,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分的实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本发明保护的范围。
28.需要说明的是,本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
29.根据本发明实施例的第一方面,提供了一种新闻处理方法,可选地,如图1所示,上述方法包括:
30.s102,在获取到待识别的目标新闻的情况下,对目标新闻进行分词,得到多个新闻分词;
31.s104,识别新闻分词中的第一公司实体和与第一公司实体相关联的第一新闻实体;
32.s106,对第一公司实体进行对齐,得到对齐后的目标公司实体;
33.s108,根据第一新闻实体分析目标公司实体的情感倾向;
34.s110,将目标公司实体与情感倾向填入知识图谱中。
35.可选的,本技术可以应用在新闻监控、新闻查询等过程中。目标新闻可以为新闻网站上的新闻,或者为用户关注的网站的新闻。从网站获取新闻信息作为目标新闻,对目标新闻进行识别,得到目标公司实体和目标公司实体的情感倾向。当目标公司实体与情感倾向填入知识图谱中之后,用户可以查询知识图谱来快速的查询出某一个或一些公司的新闻信息,且快速查看公司的新闻的情感倾向。用户也可以设置特定公司与特定信息,如果出现了特定公司或者特定信息的消息,进行告警。例如,新闻中包括某公司的负面消息,则立即告警给用户。
36.图2是本实施例的系统架构图。分为采集目标新闻,处理目标新闻和构建知识图谱
三个方面的内容。
37.本实施例中对新闻进行处理得到知识图谱分为几个阶段。如图3所示。
38.1、舆情采集模块获取目标新闻的阶段。该阶段可以将多个新闻网站中的每一个新闻网站作为当前新闻网站,执行如下操作:将当前新闻网站的一个网址作为当前网址,从当前网址中遍历目标新闻,在遍历当前网址之后,将当前网址能够跳转到的网址作为新的当前网址。
39.本实施例中,可以从多个网站中获取目标新闻。网站可以为预设的网址。将每一个网站的一个网址如首页作为当前网址,遍历当前网址爬取新闻内容,然后当前网址爬取完成后,将当前网址能够跳转到的网址继续作为当前网址爬取新闻内容。
40.以对电力舆情进行监控为例,舆情采集模块作为数据源的获取模块,质量的好坏将决定获取的数据源也就是目标新闻的质量,借助于网络爬虫对若干个电力新闻网站的新闻资源进行自动采集,提取新闻的文本数据,作为整个系统的输入模块。本步骤中,可以将图片或者其他格式的数据进行过滤,提取出文本数据。
41.步骤一:电力新闻网站
42.为保证舆论图谱系统的实时性和有效性,选择了多个发布电力新闻的网站。
43.步骤二:网络爬虫
44.图4是本实施例的爬取目标新闻的示意图。
45.1)网络爬虫从指定的电力网站初始统一资源定位符(uniform resource locator,url)出发;
46.2)根据初始url爬取页面并根据筛选条件获得新的url地址,同时将已爬取的url地址存放到url列表中进行去重,其中筛选条件为指定某个区域的所有电力公司;可以理解,先获取最顶层的url地址,然后获取该url地址中各个分级的url地址,最后获取最下级的url地址。
47.3)在第2)步中,获取了下一个新的url地址后,将新的url地址存放到url队列;
48.4)从url队列中读取新的url,并依据新的url爬取网页,同时从新网页中获取新url,并重复上述的爬取过程;
49.由于本系统不停止的获取实时的新闻数据,因此爬虫系统不设置停止条件,爬虫会循环爬取下去。
50.2、在获取到目标新闻之后,进入到舆情预处理模块处理目标新闻的阶段。
51.舆情预处理模块包括:分词、实体抽取和实体对齐、情感分析、关键词抽取等能力,其中分词处理是为了对目标新闻进行切割,实体抽取和实体对齐是为了精确得到目标新闻中的电力公司实体,情感分析是为了给目标新闻进行正负情感分类并给出置信度,关键词抽取是为了得到目标新闻的话题以供用户清晰地了解新闻的核心思想。
52.1)对于分词阶段,运用分词技术对舆情采集模块采集到的目标新闻进行分词处理,得到新闻分词,其中为了防止在分词过程中将电力公司进行切割,在分词之前添加了电力公司组织机构词典。分词流程可以描述为:首先加载词库,建立字典(trie)树分词模型,然后针对输入的句子建立分词有向无环图(directed acyclic graph,dag)词图,如句子“有意见有分歧”得到的有向无环图如图5所示。计算全局概率route得到基于前缀词典的词频最大切分组合,最后按照词典标注标识,输出分词结果。图6为分词的流程图。
53.2)对于实体抽取和实体对齐阶段,先抽取公司实体。在新闻分词中识别到第一等级的公司实体的情况下,将识别到的第一等级的公司实体作为第一公司实体;在未识别到第一等级的公司实体的情况下,在识别到第二等级的公司实体的情况下,将识别到的第二等级的公司实体作为第一公司实体;在未识别到第二等级的公司实体的情况下,在识别到第三等级的公司实体的情况下,将识别到的第三等级的公司实体作为第一公司实体,其中,第一等级的公司实体、第二等级的公司实体与第三等级的公司实体为按照地域级别划分的公司实体,第一等级大于第二等级,第二等级大于第三等级。
54.该实体抽取,又可以称为实体识别(named entities recognition,ner),可以在目标新闻中识别不同等级的公司实体。不同等级的公司实体可以为不同的地域级别的公司实体。例如为省级公司实体、市级公司实体、县级公司实体等。一个公司可以有升级公司实体、市级公司实体、县级公司实体中的一个或多个。如省级公司,在市级有多个子公司。在识别公司实体时,可以分级识别,先识别是否有第一等级公司实体,如果没有第一等级公司实体,再识别是否有第二等级公司实体,如果没有第二等级公司实体,再识别是否有第三等级公司实体。
55.实体抽取后,对公司实体进行对齐。预设多个标准公司实体,其中,每一个标准公司实体对应一个或多个第一公司实体;将每一个第一公司实体作为当前公司实体,执行如下操作:比对当前公司实体与每一个标准公司实体;将与当前公司实体的相似度最高的标准公司实体作为一个对齐后的目标公司实体。
56.标准公司实体可以为公司的全称。如果一个第一公司实体与公司全称的90%的内容都符合,则可以将第一公司实体调整为公司全称。
57.实体抽取主要任务是识别命名实体的文本范围,并将其分类为预定义的类别,是知识图谱的基础。由于电网组织机构的特殊性,本系统采用基于规则和字典的方法进行实体抽取,其中电网组织机构作为实体。实体对齐,通俗上讲就是实体写法不一样,但是其实是指向同一个实体。实体对齐的目标是能够从顶层创建一个大规模的统一的知识库,从而帮助机器理解底层数据。然而,实体对齐在数据质量、匹配效率等多个方面存在很多问题与挑战有待解决。在数据质量方面,本系统在线下构建了一个电网组织机构的映射集合。具体操作过程为:首先建立省、市、县三个级别的电力公司的词典和映射集,然后依此从省级、市级、县级等三个级别的公司进行实体抽取,其抽取逻辑属于从高级到低级的匹配方式,即优先匹配省级公司,继而市级公司,最后县级公司,图7是本实施例的实体抽取示意图。如果匹配到高一级别的公司,就不向次一级别进行匹配。另外,在实体抽取过程中,需要利用实体对齐的映射集对所有实体的名称进行统一。如文本“123电力公司全力应对低温雨雪冰冻天气”进行分词得到“123电力公司”而123是该电力公司的简称,全称为12345电力有限公司,实体对齐得到标准实体“12345电力有限公司”。
58.3)在抽取实体后,进行情感分析。
59.情感分析是指利用自然语言处理技术,对带有主观描述的中文文本自动判断该文本的情感极性类别并给出相应的置信度。有基于语义的情感词典方法和基于机器学习的方法,其中基于词典的方法通过制定一系列的情感词典和规则,对文本进行段落拆借、句法分析,计算情感值,最后通过情感值的大小来作为文本的情感倾向依据;基于机器学习的方法大多将这个问题转化为一个分类问题来看待,对于情感极性的判断,将目标情感分类2类:
正情感、负情感,对训练文本进行人工标标注,然后进行有监督的机器学习过程。可以利用预训练模型,整理电力新闻情感语料,并将该电力新闻情感语料添加到训练集中训练预训练模型,使得模型符合电力新闻的应用场景。训练数据格式是制表符分割值(tsv)的格式,每一行代表一条训练数据,以制表符为分隔符分为两个字段。第一个字段是情感倾向,取值为0或1,分别代表负情感和正情感倾向,第二个字段是文本的内容。文本的内容已经经过分词处理,词与词之间用空格分割。
60.4)情感分析后,进行关键词提取。
61.关键词抽取是指从文本中确定一些能够描述文档含义的术语的过程。对于电力新闻数据,抽取的关键词作为其话题列表,采用textrank算法进行关键词抽取,默认抽取数量为n,n为正整数。textrank算法是一种基于图的用于关键词抽取和文档摘要的排序算法,它利用一篇文档内部的词语间的共现信息(语义)便可以抽取关键词,它能够从一个给定的文本中抽取出该文本的关键词、关键词组,并使用抽取式的自动文摘方法抽取出该文本的关键句。textrank算法的基本思想是将文档看作一个词的网络,该网络中的链接表示词与词之间的语义关系,公式(1)给出textrank算法的计算公式:
[0062][0063]
其中,ws(vi)表示句子i的权重,右侧的求和表示每个相邻句子对本句子的贡献程度,在单文档中,可以粗略的任务所有句子都是相邻的,不需要像多文档一样进行多个窗口的生成和抽取,仅需单一文档窗口即可,wji表示两个句子的相似度,ws(vj)代表上次迭代出的句子j的权重,d是阻尼系数,为0.85。v是运算符号,out(y)表示不属于y的范围。
[0064]
3、在对目标新闻进行处理后,由舆情知识图谱模块构建知识图谱。
[0065]
本技术中,可以使用目标公司实体和目标公司实体的情感倾向构建知识图谱,此外,还可以使用目标公司实体和目标公司实体的情感倾向以及其他信息一同构建知识图谱。其他信息可以包括目标新闻中的关键词,目标新闻的发布时间等。将目标公司实体作为知识图谱中的第一实体;将与目标公司实体相关的目标新闻作为知识图谱中与第一实体相关的第二实体;将目标公司实体的情感倾向、目标关键词与目标时间信息作为第二实体的属性信息。
[0066]
舆情图谱模块构建知识图谱时,提供新闻导入、新闻展示、新闻检索等三个对外服务。本系统采用neo4j作为图数据库,在系统启动后,首先在图数据库中初始化一个省的所有电力组织机构实体和关系,包括一个省级公司、若干市级公司以及若干县级公司。然后当爬虫模块爬取到新数据,并经过预处理模块处理后,送到新闻导入服务中,在导入服务中,以新闻名称作为实体名称,以其情感倾向、关键词、时间信息等作为实体属性,增加一个新闻实体。另外根据实体抽取与实体对齐中得到到电力公司等级,增加新闻实体与相应电力公司的关系链接。最后舆情图谱模块对外以图谱的样式提供新闻数据的实时展示,并且可以根据实体名称查询相应实体的具体信息。
[0067]
1)新闻导入
[0068]
对于经过实时爬取和处理后的新闻数据,以新闻作为实体标签,以新闻名称作为实体名称,以新闻情感、话题、时间等作为实体属性,创建一个新闻实体。另外在舆情预处理模块中可以得到新闻数据与相应电网公司的关系,利用该关系建立新闻实体与公司实体之
间的关系链接,其关系属性为包含新闻。
[0069]
2)新闻展示
[0070]
新闻展示子模块默认实时展示所有图谱数据
[0071]
3)新闻检索
[0072]
根据电力公司实体名称可以查询其包含新闻的相应信息,当输入某某县供电分公司时,可以查询到与之相关的两条新闻,如图8所示。
[0073]
本技术利用爬虫技术实时采集若干电力新闻网站的数据,对爬取的新闻文本进行分词,然后根据已有的组织机构关系进行实体抽取和实体对齐,得到其省、市、县电网公司等不同级别的公司实体,对于每条新闻进行情感分析和关键词抽取得到其正负情感和新闻话题。以新闻名称作为舆情图谱的新闻实体,以情感、话题作为该新闻实体的属性,在舆情图谱中增加新闻实体,另外根据级别的不同,建立新闻实体和不同级别电网公司的关系链接。最后,该系统以图谱形式对外提供展示、检索等功能,形象、客观、真实的显示电网公司的舆情信息,帮助用户快速掌握舆情事件的话题、情感、时间以及整体情况,为电网企业进行舆情工作打好基础。
[0074]
需要说明的是,对于前述的各方法实施例,为了简单描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本发明并不受所描述的动作顺序的限制,因为依据本发明,某些步骤可以采用其他顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作和模块并不一定是本发明所必须的。
[0075]
根据本技术实施例的另一方面,还提供了一种新闻处理装置,如图9所示,包括:
[0076]
分词模块902,用于在获取到待识别的目标新闻的情况下,对目标新闻进行分词,得到多个新闻分词;
[0077]
识别模块904,用于识别新闻分词中的第一公司实体和与第一公司实体相关联的第一新闻实体;
[0078]
对齐模块906,用于对第一公司实体进行对齐,得到对齐后的目标公司实体;
[0079]
分析模块908,用于根据第一新闻实体分析目标公司实体的情感倾向;
[0080]
填入模块910,用于将目标公司实体与情感倾向填入知识图谱中。
[0081]
可选的,本技术可以应用在新闻监控、新闻查询等过程中。目标新闻可以为新闻网站上的新闻,或者为用户关注的网站的新闻。从网站获取新闻信息作为目标新闻,对目标新闻进行识别,得到目标公司实体和目标公司实体的情感倾向。当目标公司实体与情感倾向填入知识图谱中之后,用户可以查询知识图谱来快速的查询出某一个或一些公司的新闻信息,且快速查看公司的新闻的情感倾向。用户也可以设置特定公司与特定信息,如果出现了特定公司或者特定信息的消息,进行告警。例如,新闻中包括某公司的负面消息,则立即告警给用户。
[0082]
本实施例的其他示例请参见上述示例,在此不在赘述。
[0083]
图10是根据本技术实施例的一种可选的电子设备的结构框图,如图10所示,包括处理器1002、通信接口1004、存储器1006和通信总线1008,其中,处理器1002、通信接口1004和存储器1006通过通信总线1008完成相互间的通信,其中,
[0084]
存储器1006,用于存储计算机程序;
[0085]
处理器1002,用于执行存储器1006上所存放的计算机程序时,实现如下步骤:
[0086]
在获取到待识别的目标新闻的情况下,对目标新闻进行分词,得到多个新闻分词;
[0087]
识别新闻分词中的第一公司实体和与第一公司实体相关联的第一新闻实体;
[0088]
对第一公司实体进行对齐,得到对齐后的目标公司实体;
[0089]
根据第一新闻实体分析目标公司实体的情感倾向;
[0090]
将目标公司实体与情感倾向填入知识图谱中。
[0091]
可选地,在本实施例中,上述的通信总线可以是pci(peripheral component interconnect,外设部件互连标准)总线、或eisa(extended industry standard architecture,扩展工业标准结构)总线等。该通信总线可以分为地址总线、数据总线、控制总线等。为便于表示,图10中仅用一条粗线表示,但并不表示仅有一根总线或一种类型的总线。通信接口用于上述电子设备与其他设备之间的通信。
[0092]
存储器可以包括ram,也可以包括非易失性存储器(non-volatile memory),例如,至少一个磁盘存储器。可选地,存储器还可以是至少一个位于远离前述处理器的存储装置。
[0093]
作为一种示例,上述存储器1006中可以但不限于包括上述新闻处理装置中的分词模块902、识别模块904、对齐模块906、分析模块908以及填入模块910。此外,还可以包括但不限于上述请求的处理装置中的其他模块单元,本示例中不再赘述。
[0094]
上述处理器可以是通用处理器,可以包含但不限于:cpu(central processing unit,中央处理器)、np(network processor,网络处理器)等;还可以是dsp(digital signal processing,数字信号处理器)、asic(application specific integrated circuit,专用集成电路)、fpga(field-programmable gate array,现场可编程门阵列)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。
[0095]
可选地,本实施例中的具体示例可以参考上述实施例中所描述的示例,本实施例在此不再赘述。
[0096]
本领域普通技术人员可以理解,图10所示的结构仅为示意,实施上述新闻处理方法的设备可以是终端设备,该终端设备可以是智能手机(如android手机、ios手机等)、平板电脑、掌上电脑以及移动互联网设备(mobile internet devices,mid)、pad等终端设备。图10其并不对上述电子设备的结构造成限定。例如,电子设备还可包括比图10中所示更多或者更少的组件(如网络接口、显示装置等),或者具有与图10所示的不同的配置。
[0097]
本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通过程序来指令终端设备相关的硬件来完成,该程序可以存储于一计算机可读存储介质中,存储介质可以包括:闪存盘、rom、ram、磁盘或光盘等。
[0098]
根据本发明的实施例的又一方面,还提供了一种计算机可读的存储介质,该计算机可读的存储介质中存储有计算机程序,其中,该计算机程序被处理器运行时执行上述新闻处理方法中的步骤。
[0099]
可选地,在本实施例中,本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通过程序来指令终端设备相关的硬件来完成,该程序可以存储于一计算机可读存储介质中,存储介质可以包括:闪存盘、只读存储器(read-only memory,rom)、随机存取器(random access memory,ram)、磁盘或光盘等。
[0100]
上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。
[0101]
上述实施例中的集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在上述计算机可读取的存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在存储介质中,包括若干指令用以使得一台或多台计算机设备(可为个人计算机、服务器或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。
[0102]
在本发明的上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其他实施例的相关描述。
[0103]
在本技术所提供的几个实施例中,应该理解到,所揭露的客户端,可通过其它的方式实现。其中,以上所描述的装置实施例仅仅是示意性的,例如所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,单元或模块的间接耦合或通信连接,可以是电性或其它的形式。
[0104]
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
[0105]
另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
[0106]
以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。
技术特征:1.一种新闻处理方法,其特征在于,包括:在获取到待识别的目标新闻的情况下,对所述目标新闻进行分词,得到多个新闻分词;识别所述新闻分词中的第一公司实体和与所述第一公司实体相关联的第一新闻实体;对所述第一公司实体进行对齐,得到对齐后的目标公司实体;根据所述第一新闻实体分析所述目标公司实体的情感倾向;将所述目标公司实体与所述情感倾向填入知识图谱中。2.根据权利要求1所述的方法,其特征在于,所述识别所述新闻分词中的第一公司实体包括:在所述新闻分词中识别到第一等级的公司实体的情况下,将识别到的所述第一等级的公司实体作为所述第一公司实体;在未识别到所述第一等级的公司实体的情况下,在识别到第二等级的公司实体的情况下,将识别到的所述第二等级的公司实体作为所述第一公司实体;在未识别到所述第二等级的公司实体的情况下,在识别到第三等级的公司实体的情况下,将识别到的所述第三等级的公司实体作为所述第一公司实体,其中,所述第一等级的公司实体、所述第二等级的公司实体与所述第三等级的公司实体为按照地域级别划分的公司实体,所述第一等级大于所述第二等级,所述第二等级大于所述第三等级。3.根据权利要求2所述的方法,其特征在于,识别与所述第一公司实体相关联的第一新闻实体包括:将与识别出的所述第一公司实体处于同一篇目标新闻内的新闻实体作为所述第一公司实体关联的第一新闻实体;或者将与识别出的所述第一公司实体处于同一篇目标新闻的同一段落内的新闻实体作为所述第一公司实体关联的第一新闻实体;将与识别出的所述第一公司实体处于同一篇目标新闻内的同一句话内的新闻实体作为所述第一公司实体关联的第一新闻实体。4.根据权利要求1所述的方法,其特征在于,所述对所述第一公司实体进行对齐,得到对齐后的目标公司实体包括:预设多个标准公司实体,其中,每一个所述标准公司实体对应一个或多个第一公司实体;将每一个所述第一公司实体作为当前公司实体,执行如下操作:比对所述当前公司实体与每一个所述标准公司实体;将与所述当前公司实体的相似度最高的标准公司实体作为一个对齐后的目标公司实体。5.根据权利要求1所述的方法,其特征在于,所述方法还包括:识别所述第一新闻实体得到所述目标新闻中与所述目标公司实体相关的目标关键词;获取所述目标关键词所在的所述目标新闻的目标时间信息,其中,所述目标时间信息为所述目标新闻的发布时间点。6.根据权利要求5所述的方法,其特征在于,所述将所述目标公司实体与所述情感倾向填入知识图谱中包括:将所述目标公司实体作为所述知识图谱中的第一实体;
将与所述目标公司实体相关的目标新闻作为所述知识图谱中与所述第一实体相关的第二实体;将所述目标公司实体的情感倾向、目标关键词与目标时间信息作为所述第二实体的属性信息。7.根据权利要求1至6任意一项所述的方法,其特征在于,所述方法还包括:将多个新闻网站中的每一个新闻网站作为当前新闻网站,执行如下操作:将所述当前新闻网站的一个网址作为当前网址,从所述当前网址中遍历所述目标新闻,在遍历所述当前网址之后,将所述当前网址能够跳转到的网址作为新的所述当前网址。8.一种新闻处理装置,其特征在于,包括:分词模块,用于在获取到待识别的目标新闻的情况下,对所述目标新闻进行分词,得到多个新闻分词;识别模块,用于识别所述新闻分词中的第一公司实体和与所述第一公司实体相关联的第一新闻实体;对齐模块,用于对所述第一公司实体进行对齐,得到对齐后的目标公司实体;分析模块,用于根据所述第一新闻实体分析所述目标公司实体的情感倾向;填入模块,用于将所述目标公司实体与所述情感倾向填入知识图谱中。9.一种计算机可读的存储介质,所述计算机可读的存储介质存储有计算机程序,其特征在于,所述计算机程序被处理器运行时执行所述权利要求1至7任一项中所述的方法。10.一种电子设备,包括存储器和处理器,其特征在于,所述存储器中存储有计算机程序,所述处理器被设置为通过所述计算机程序执行所述权利要求1至7任一项中所述的方法。
技术总结本发明公开了一种新闻处理方法、装置、存储介质以及电子设备。该方法包括:在获取到待识别的目标新闻的情况下,对目标新闻进行分词,得到多个新闻分词;识别新闻分词中的第一公司实体和与第一公司实体相关联的第一新闻实体;对第一公司实体进行对齐,得到对齐后的目标公司实体;根据第一新闻实体分析目标公司实体的情感倾向;将目标公司实体与情感倾向填入知识图谱中。本发明解决了查找与公司相关的舆情新闻的效率低的技术问题。舆情新闻的效率低的技术问题。舆情新闻的效率低的技术问题。
技术研发人员:王展 张杰 于皓 罗华刚 李犇
受保护的技术使用者:北京明略昭辉科技有限公司
技术研发日:2022.03.28
技术公布日:2022/7/5