1.本发明涉及有关于知识图谱领域,尤其涉及一种基于多元异构数据挖掘的供应链在线知识图谱方法。
背景技术:2.大数据时代,从海量数据中发掘和利用竞争情报以支持决策是企业和个人面临的重要问题。互联网上积累的海量在线评论数据是消费者和商家获取信息的重要数据源。目前,在线评论呈现出多元异构分布、数据量巨大、冗杂且不支持检索的特点,给大数据环境下的在线评论信息组织和利用带来了极大的挑战;并且用户有不同的信息需求,有些用户关注价格,有些用户关注性能,当前在线评论展示方式、评论有用性排序相关研究默认用户的需求是一致的,没有考虑用户的个性化需求;此外,人工智能时代对于智能信息服务需求愈加迫切,现有的在线评论研究不够深入,缺乏对多元异构在线评论领域知识进行系统化的表示和建模。
3.知识图谱是一种非常重要的信息组织方式,一方面可以将结构各异、分布广泛的商品信息和评论信息进行动态关联;另一方面,知识图谱可以提升在线评论的信息组织程度,解决信息过载的问题,用一种高效的数据管理模式处理碎片化、冗余的在线评论信息;此外知识图谱可以从语义的角度组织在线评论数据,进而进行智能搜索,为在线评论的深层次应用及用户的个性化信息需求提供解决方案。网络技术的不断发展促使多元异构数据迅速生成,挖掘处理复杂的多元异构数据,能够有效获取数据潜在信息和规律。聚类分析属于机器学习、数据挖掘以及统计学等领域的交叉性学科,不仅能够起到有效演示的作用,即确定事物的分类标准或类别准则,而且聚类的作用就是归纳,不需要确定分类的标准、分析数据对象,因此有效地挖掘和分析复杂的多元异构数据具有重要意义。
技术实现要素:4.本发明针对在线评论呈现多元异构分布、数据量巨大、冗杂且不支持检索,无法被企业有效利用的问题,提出了一种基于多元异构数据挖掘的供应链在线知识图谱方法。本发明技术方案通过如下步骤实现:
5.一种基于多元异构数据挖掘的供应链在线知识图谱构建方法,包括下列步骤:
6.步骤1,知识图谱构建框架,构建企业设计资源本体库,从多个层次建立设计需求和设计资源的规范化描述;
7.步骤2,知识图谱的模式层构建,将承载在线评论的平台分为电商网站、社交媒体以及专业网站,结合在线评论知识图谱的需求分析,将在线评论的描述维度分为信源特征、内容特征及形式特征三个维度,方法如下:
8.步骤2.1,信源特征用来描述评论的外在信息;内容特征用来描述评论中涉及到的用户对商品及服务的态度和满意度,字数、观点数、评论时间都属于评论的形式特征;
9.步骤2.2,设置7个核心大类,具体包括评论、评论内容、特征观点、用户、评论对象、
平台以及商品;其中评论对象概念下又划分了服务和商品两个子概念,同时通过属性定义更加丰富的描述类的数据特征;
10.步骤2.3,将定义好的类和关系进行知识建模,并进行模式层可视化,以评论类为中心,向外出发构建实体间的关系;
11.步骤3,数据层构建主要基于已经构建的模式层,抽取和融合多源在线评论数据中相应的内容,识别相应的实例、属性和关系;
12.步骤3.1,将电商网站手机评论、相关术语百科、评测及新闻内容作为数据源,抓取手机评论数据与百科数据、评测新闻数据作为词向量训练的语料库;
13.步骤3.2,通过构建专业语料库,并基于word2vec进行词向量训练完成对产品特征词的抽取和分类;
14.步骤3.3,基于word2vec的词向量模型通过神经网络算法训练语料库,然后将词语转化为词向量,并映射到高维空间,依据当前词预测周围词语的概率;
15.步骤3.4,获得词语的向量表示,词语之间的相似度通过余弦距离来衡量,将模式层中定义的概念作为种子词,将相关词按照相似度进行排序,并进行人工筛选和归类;
16.步骤3.5,对评论文本进行特征-观点对抽取;
17.步骤4,知识图谱的存储和绘制。
18.步骤1具体包括:
19.步骤1.1,通过分析在线评论的存在方式以及具体数据,进行数据爬取;
20.步骤1.2,通过分析在线评论的信源特征、内容特征和形式特征来设计模式层的概念、关系及属性;
21.步骤1.3,基于模式层的构建基础,采用word2vec词向量训练、观点抽取、情感分析进行实体、关系、属性的抽取;
22.步骤1.4,将处理后的结构化的在线评论数据进行整合处理,并存入图数据库中,通过图数据库查询语言完成知识图谱的可视化、语义检索以及深度挖掘。
23.本发明有益效果:利用多源异构的在线评论数据构建知识图谱,提出了一种基于多源异构数据构建知识图谱的框架,模式层构建围绕在线评论的信源、内容以及形式构建,最终形成知识图谱的概念框架,并运用word2vec从多源异构文本中获取实体、关系和属性,并进行数据融合与知识图谱分析。
附图说明
24.图1为在线评论知识图谱构建流程。
25.图2为在线评论描述维度。
26.图3为部分知识图谱可视化
具体实施方式
27.为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
28.本发明技术方案通过如下步骤实现:
29.步骤1,知识图谱构建框架,构建企业设计资源本体库,从多个层次建立设计需求和设计资源的规范化描述。
30.步骤1.1,通过分析在线评论的存在方式以及具体数据,通过编写python程序进行数据爬取。
31.步骤1.2,通过分析在线评论的信源特征、内容特征和形式特征来设计模式层的概念、关系及属性。
32.步骤1.3,基于模式层的构建基础,采用word2vec词向量训练、观点抽取、情感分析等方法进行实体、关系、属性的抽取。
33.步骤1.4,将处理后的结构化的在线评论数据进行整合处理,并存入图数据库neo4j中,通过图数据库查询语言cy-pher完成知识图谱的可视化、语义检索以及深度挖掘。
34.步骤2,知识图谱的模式层构建,在对在线评论信息的大量收集和研究基础上,将承载在线评论的平台分为电商网站、社交媒体以及专业网站,结合在线评论知识图谱的需求分析,将在线评论的描述维度分为信源特征、内容特征及形式特征三个维度。
35.步骤2.1,其中信源特征用来描述评论的外在信息;内容特征用来描述评论中涉及到的用户对商品及服务的态度和满意度,字数、观点数、评论时间都属于评论的形式特征。
36.步骤2.2,本发明设置7个核心大类,具体包括评论、评论内容、特征观点、用户、评论对象、平台以及商品。其中评论对象概念下又划分了服务和商品两个子概念,同时通过属性定义更加丰富的描述类的数据特征。
37.步骤2.3,通过protege5.5.0本体构建工具将定义好的类和关系进行知识建模,并利用ontograf功能进行模式层可视化,以评论类为中心,向外出发构建与其他实体间的关系,共构建出17种关系。
38.步骤3,数据层构建主要基于已经构建的模式层,抽取和融合多源在线评论数据中相应的内容,识别相应的实例、属性和关系。
39.步骤3.1,将电商网站手机评论、相关术语百科、评测及新闻内容作为数据源,抓取3万余条手机评论数据与百科数据、评测新闻数据共计420万余字作为词向量训练的语料库。
40.步骤3.2,通过构建专业语料库,并基于word2vec进行词向量训练完成对产品特征词的抽取和分类。
41.步骤3.3,基于word2vec的词向量模型通过神经网络算法训练语料库,然后将词语转化为词向量,并映射到高维空间。编写python程序,调用gensim库当中的skip-gram模型,依据当前词预测周围词语的概率。
42.步骤3.4,模型训练完成后,可以获得词语的向量表示,词语之间的相似度通过余弦距离来衡量。将模式层中定义的概念作为种子词,将相关词按照相似度进行排序,并进行人工筛选和归类。
[0043][0044]
式中,sim(p1,p2)为语义相似度;d表示词语p1和p2的路径长度;α为相似度为0.5时语义的距离值。
[0045]
步骤3.5,借助百度ai开放平台提供的深度语义情感分析模型对评论文本进行特
征-观点对抽取,并基于此进行细粒度情感分析。
[0046]
步骤4,选取neo4j作为知识图谱的存储和绘制工具。
[0047]
步骤4.1,通过cypher查询语句呈现在线评论知识图谱。
[0048]
如图1所示,为本实施例涉及一种基于多元异构数据挖掘的供应链在线知识图谱方法,包括:数据来源与采集模块、模式层构建模块、数据层构建模块、绘制知识图谱模块以及知识图谱应用模块。
[0049]
所述数据来源与采集模块包括编写python程序进行数据爬取,爬取来源为专业论坛、百科网站产品官网和电商官网。
[0050]
所述模式层构建模块包括定义类及类的结构层次,类间语义关系,类的属性。结合在线评论知识图谱的需求分析,将在线评论的描述维度分为信源特征、内容特征及形式特征三个维度,具体如图2所示。
[0051]
所述信源特征用来描述评论的外在信息;所述内容特征用来描述评论中涉及到的用户对商品及服务的态度和满意度。所述形式特征包括字数、观点数、评论时间。
[0052]
据所述维度设置7个核心大类,其中评论对象概念下又划分了服务和商品两个子概念,同时通过属性定义更加丰富的描述类的数据特征。模式层定义的类及属性如表1所示。
[0053]
表1在线评论知识图谱模式层类与属性定义
[0054][0055][0056]
通过protege5.5.0本体构建工具将所述定义好的类和关系进行知识建模,并利用ontograf功能进行模式层可视化,以评论类为中心,向外出发构建与其他实体间的关系,共构建出17种关系,如表2所示。
[0057]
表2在线评论知识图谱关系表
[0058][0059]
所述数据层构建包括概念抽取,关系抽取,属性抽取。基于word2vec进行词向量训练完成对产品特征词的抽取和分类,将电商网站手机评论、相关术语百科、评测及新闻内容作为数据源,将抓取的3万余条手机评论数据与百科数据、评测新闻数据共计20万余字作为词向量训练的语料库。基于word2vec的词向量模型通过神经网络算法训练语料库,然后将词语转化为词向量,并映射到高维空间。编写python程序,调用gensim库当中的采用skip-gram模型进行词向量训练。
[0060]
所述模型训练完成后,可以获得词语的向量表示,词语之间的相似度通过余弦距离来衡量。将模式层中定义的概念作为种子词,运用余弦距离将相关词按照相关度进行排序,并进行人工筛选和归类。
[0061][0062]
式中,sim(p1,p2)为语义相似度;d表示词语p1和p2的路径长度;α为相似度为0.5时语义的距离值。
[0063]
借助百度ai开放平台提供的深度语义情感分析模型对评论文本进行特征-观点抽取,并基于此进行细粒度情感分析。
[0064]
所述绘制知识图谱模块选取neo4j作为知识图谱的存储和绘制工具,其本质是将节点、关系和属性完整地转换为知识图谱。
[0065]
所述知识图谱应用模块包括查询,可视化以及知识发现。
[0066]
所述查询是节点和关系导入neo4j后,通过cypher查询语句呈现在线评论知识图谱。
[0067]
所述可视化是将从图数据中可以直接查看节点与节点间的关联,部分知识图谱如图3所示。
[0068]
所述知识发现包括通过cypher语言查询对象的属性,如查询电池所存在的优缺点;包括通过spss statics 24软件进行pearson相关性检验,判断多元异构数据的相关性
和差异性。
[0069]
上述具体实施可由本领域技术人员在不背离本发明原理和宗旨的前提下以不同的方式对其进行局部调整,本发明的保护范围以权利要求书为准且不由上述具体实施所限,在其范围内的各个实现方案均受本发明之约束。
技术特征:1.一种基于多元异构数据挖掘的供应链在线知识图谱构建方法,包括下列步骤:步骤1,知识图谱构建框架,构建企业设计资源本体库,从多个层次建立设计需求和设计资源的规范化描述;步骤2,知识图谱的模式层构建,将承载在线评论的平台分为电商网站、社交媒体以及专业网站,结合在线评论知识图谱的需求分析,将在线评论的描述维度分为信源特征、内容特征及形式特征三个维度,方法如下:步骤2.1,信源特征用来描述评论的外在信息;内容特征用来描述评论中涉及到的用户对商品及服务的态度和满意度,字数、观点数、评论时间都属于评论的形式特征;步骤2.2,设置7个核心大类,具体包括评论、评论内容、特征观点、用户、评论对象、平台以及商品;其中评论对象概念下又划分了服务和商品两个子概念,同时通过属性定义更加丰富的描述类的数据特征;步骤2.3,将定义好的类和关系进行知识建模,并进行模式层可视化,以评论类为中心,向外出发构建实体间的关系;步骤3,数据层构建主要基于已经构建的模式层,抽取和融合多源在线评论数据中相应的内容,识别相应的实例、属性和关系;步骤3.1,将电商网站手机评论、相关术语百科、评测及新闻内容作为数据源,抓取手机评论数据与百科数据、评测新闻数据作为词向量训练的语料库;步骤3.2,通过构建专业语料库,并基于word2vec进行词向量训练完成对产品特征词的抽取和分类;步骤3.3,基于word2vec的词向量模型通过神经网络算法训练语料库,然后将词语转化为词向量,并映射到高维空间,依据当前词预测周围词语的概率;步骤3.4,获得词语的向量表示,词语之间的相似度通过余弦距离来衡量,将模式层中定义的概念作为种子词,将相关词按照相似度进行排序,并进行人工筛选和归类;步骤3.5,对评论文本进行特征-观点对抽取;步骤4,知识图谱的存储和绘制。2.根据权利要求1所述的一种基于多元异构数据挖掘的供应链在线知识图谱构建方法,其特征在于,步骤1具体包括:步骤1.1,通过分析在线评论的存在方式以及具体数据,进行数据爬取;步骤1.2,通过分析在线评论的信源特征、内容特征和形式特征来设计模式层的概念、关系及属性;步骤1.3,基于模式层的构建基础,采用word2vec词向量训练、观点抽取、情感分析进行实体、关系、属性的抽取;步骤1.4,将处理后的结构化的在线评论数据进行整合处理,并存入图数据库中,通过图数据库查询语言完成知识图谱的可视化、语义检索以及深度挖掘。
技术总结本发明涉及一种基于多元异构数据挖掘的供应链在线知识图谱构建方法,包括下列步骤:知识图谱构建框架;知识图谱的模式层构建,将承载在线评论的平台分为电商网站、社交媒体以及专业网站,结合在线评论知识图谱的需求分析,将在线评论的描述维度分为信源特征、内容特征及形式特征三个维度;数据层构建主要基于已经构建的模式层,抽取和融合多源在线评论数据中相应的内容,识别相应的实例、属性和关系;知识图谱的存储和绘制。知识图谱的存储和绘制。知识图谱的存储和绘制。
技术研发人员:潘思哲 侯凯旋 牛占文 邵宏宇 王磊
受保护的技术使用者:天津大学
技术研发日:2022.03.28
技术公布日:2022/7/5