1.发明涉及生物信息技术领域,具体涉及一种基于基因大数据的病症关联分析系统及方法。
背景技术:2.随着计算机科学和生命科学的深度融合,计算机相关技术越来越多的应用于海量生物数据的分析挖掘中。其中,病症关联性分析已经成为目前生物信息技术领域的一个研究重点。
3.通过gwas(genome-wide association study,全基因组关联分析),可以分析不同个体snp(single nucleotide polymorphism,单核酸多态性)频率的差异,以确定一些可能的致病基因。
4.现有技术中,通常通过单个snp位点与病症表型之间的关系,确定基因与病症之间的病症关联性。由于基因通常以交互方式而不是单独工作,因此,病症关联性往往与多个snp位点的共同表达相关。导致病症关联性分析得出的结果中,基因表达与病症之间的病症关联性较弱。
技术实现要素:5.本发明的目的就在于解决上述背景技术的问题,而提出一种基于基因大数据的病症关联分析系统及方法。
6.本发明的目的可以通过以下技术方案实现:本发明实施例第一方面,提供了一种基于基因大数据的病症关联分析系统,包括共表达网络图模块、致病snp组检测模块和病症关联模型生成模块;其中:所述共表达网络图模块,用于获取多个患有目标病症的用户的基因表达数据集;构建所述基因表达数据集的共表达网络图;所述共表达网络图中的每一节点表示一个基因,每个边的邻接值表示两个基因之间的关联程度;所述致病snp组检测模块,用于根据所述共表达网络图确定目标病症的致病snp组;所述病症关联模型生成模块,用于将所述目标病症与所述致病snp组之间的关联关系进行量化,得到所述目标病症的病症关联模型。
7.基于相同的发明构思本发明实施例第二方面,还提供了一种基于基因大数据的病症关联分析方法,所述方法包括:获取多个患有目标病症的用户的基因表达数据集;构建所述基因表达数据集的共表达网络图;所述共表达网络图中的每一节点表示一个基因,每个边的邻接值表示两个基因之间的关联程度;根据所述共表达网络图确定目标病症的致病snp组;
将所述目标病症与所述致病snp组之间的关联关系进行量化,得到所述目标病症的病症关联模型。
8.可选地,构建所述基因表达数据集的共表达网络图,包括:根据所述基因表达数据集确定每一基因的节点特征矩阵;根据每一基因的节点特征矩阵计算每两个基因间的加权邻接值,得到每一基因的边矩阵;根据每一基因的节点特征矩阵和边矩阵构建所述基因表达数据集的共表达网络图。
9.可选地,根据每一基因的节点特征矩阵计算每两个基因间的加权邻接值,得到每一基因的边矩阵,包括:每一基因的节点特征矩阵计算每两个基因间的邻接值;其中,和为所述基因表达数据集中的任意两个基因的节点特征矩阵,n表示所述基因表达数据集中的用户的数量,和表示该基因在所有用户中的平均特征;对所述邻接值进行加权,得到每两个基因间的加权邻接值,得到每一基因的边矩阵;其中为预设加权系数。
10.可选地,根据所述共表达网络图确定目标病症的致病snp组,包括:聚合所述共表达网络图上相邻节点的特征提取基因模块组特征;所述基因模块组特征为具有相似基因表达的节点组合;使用预设致病snp检测算法检测所述基因模块组特征,得到目标病症的致病snp组。
11.可选地,将所述目标病症与所述致病snp组之间的关联关系进行量化,得到所述目标病症的病症关联模型,包括:将所述基因表达数据集进行随机重采样,得到多个相同规模的重采样数据集;针对每一重采样数据集,求解所述致病snp组的每一种snp组合时患目标病症的概率,作为目标概率;将每一重采样数据集求解得到的目标概率进行平均,得到所述目标病症的病症关联模型。
12.可选地,针对每一重采样数据集,求解所述致病snp组的每一种snp组合时患目标病症的概率,作为目标概率,包括:根据预设决策树算法训练目标预测模型;
将所述致病snp组的每一种snp组合作为所述目标预测模型的输入,得到所述目标预测模型的输出为每一种snp组合时患目标病症的概率,作为目标概率。
13.本发明实施例提供的一种基于基因大数据的病症关联分析系统,包括共表达网络图模块、致病snp组检测模块和病症关联模型生成模块;共表达网络图模块,用于获取多个患有目标病症的用户的基因表达数据集;构建基因表达数据集的共表达网络图;共表达网络图中的每一节点表示一个基因,每个边的邻接值表示两个基因之间的关联程度;致病snp组检测模块,用于根据共表达网络图确定目标病症的致病snp组;病症关联模型生成模块,用于将目标病症与致病snp组之间的关联关系进行量化,得到目标病症的病症关联模型。通过基因表达数据集构建共表达网络图,进而确定目标病症的致病snp组,可以量化目标病症与致病snp组之间的关系,加强基因表达与病症之间的病症关联性。
附图说明
14.下面结合附图对本发明作进一步的说明。
15.图1为本发明实施例提供的一种基于基因大数据的病症关联分析系统的系统框图。
16.图2为本发明实施例提供的一种基于基因大数据的病症关联分析方法的流程图。
17.图3为本发明实施例提供的另一种基于基因大数据的病症关联分析方法的流程图。
18.图4为本发明实施例提供的另一种基于基因大数据的病症关联分析方法的流程图。
具体实施方式
19.下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其它实施例,都属于本发明保护的范围。
20.本发明实施例提供了一种基于基因大数据的病症关联分析系统。参见图1,图1为本发明实施例提供的一种基于基因大数据的病症关联分析系统的系统框图。该系统包括共表达网络图模块、致病snp组检测模块和病症关联模型生成模块。
21.其中:共表达网络图模块,用于获取多个患有目标病症的用户的基因表达数据集;构建基因表达数据集的共表达网络图;共表达网络图中的每一节点表示一个基因,每个边的邻接值表示两个基因之间的关联程度;致病snp组检测模块,用于根据共表达网络图确定目标病症的致病snp组;病症关联模型生成模块,用于将目标病症与所述致病snp组之间的关联关系进行量化,得到目标病症的病症关联模型。
22.基于本发明实施例提供的一种基于基因大数据的病症关联分析系统,通过基因表达数据集构建共表达网络图,进而确定目标病症的致病snp组,可以量化目标病症与致病snp组之间的关系,加强基因表达与病症之间的病症关联性。
23.基于相同的发明构思,本发明实施例还提供了一种基于基因大数据的病症关联分析方法。参见图2,图2为本发明实施例提供的一种基于基因大数据的病症关联分析方法的流程图。该方法可以包括以下步骤:s201,获取多个患有目标病症的用户的基因表达数据集。
24.s202,构建基因表达数据集的共表达网络图。
25.s203,根据共表达网络图确定目标病症的致病snp组。
26.s204,将目标病症与致病snp组之间的关联关系进行量化,得到目标病症的病症关联模型。
27.共表达网络图中的每一节点表示一个基因,每个边的邻接值表示两个基因之间的关联程度。
28.基于本发明实施例提供的一种基于基因大数据的病症关联分析方法,通过基因表达数据集构建共表达网络图,进而确定目标病症的致病snp组,可以量化目标病症与致病snp组之间的关系,加强基因表达与病症之间的病症关联性。
29.一种实现方式中,技术人员可以根据实际需求,在公开的genecard、tcga、gepia和kegg等基因表达数据库获取基因表达数据集。基因表达数据集可以包括转录组学数据、蛋白质组学数据等。
30.一种实现方式中,通过wgcna(weighted correlation network analysis,加权相关网络分析)方法可以根据基因表达数据集,确定与目标病症相关的共表达基因的集合。
31.在一个实施例中,参见图3,在图2的基础上步骤s202具体包括:s2021,根据基因表达数据集确定每一基因的节点特征矩阵。
32.s2022,根据每一基因的节点特征矩阵计算每两个基因间的加权邻接值,得到每一基因的边矩阵。
33.s2023,根据每一基因的节点特征矩阵和边矩阵构建基因表达数据集的共表达网络图。
34.在一个实施例中,步骤s2022具体包括:步骤一,每一基因的节点特征矩阵计算每两个基因间的邻接值
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(1)其中,和为基因表达数据集中的任意两个基因的节点特征矩阵,n表示基因表达数据集中的用户的数量,和表示该基因在所有用户中的平均特征。
35.步骤二,对邻接值进行加权,得到每两个基因间的加权邻接值
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(2)得到每一基因的边矩阵。其中为预设加权系数。
36.一种实现方式中,在计算加权邻接值时,将邻接值的绝对值做乘方运算。通过乘方
运算强化了邻接值的变化层次,即加权邻接值相比于邻接值可以使基因间的关联关系跟凸显,使得可以更容易区分具有相似基因表达的基因,同时乘方运算也保证了相关性关系的不变性。
37.一种实现方式中,若每个用户有k个基因,则基因表达数据集可以表示为,每一基因的节点特征矩阵可以表示为,每一基因的边矩阵可以表示为。使用和共同可以表征共表达网络图。
38.在一个实施例中,步骤s203具体包括:步骤一,聚合共表达网络图上相邻节点的特征提取基因模块组特征。
39.步骤二,使用预设致病snp检测算法检测基因模块组特征,得到目标病症的致病snp组。
40.基因模块组特征为具有相似基因表达的节点组合。
41.一种实现方式中,将共表达网络图进过gat(graph attention network,图注意力网络)处理,可以聚合共表达网络图上相邻节点的特征,得到基因模块组特征。
42.一种实现方式中,技术人员根据实际情况设置预设致病snp检测算法,在此不作限定。例如,预设致病snp检测算法可以为boost、antepiseeker、snpharverster和mecpm中的任一一种。
43.另一种实现方式中,可以根据致病snp组中snp位点的数量确定预设致病snp检测算法的类型。例如,当致病snp组中snp位点的数量为1时选择mecpm算法作为预设致病snp检测算法;当致病snp组中snp位点的数量为2时选择boost算法;当致病snp组中snp位点的数量大于2时选择antepiseeker和snpharverster进行组合检测。
44.在一个实施例中,参见图4,在图2的基础上步骤s204具体包括:s2041,将基因表达数据集进行随机重采样,得到多个相同规模的重采样数据集。
45.s2042,针对每一重采样数据集,求解致病snp组的每一种snp组合时患目标病症的概率,作为目标概率。
46.s2043,将每一重采样数据集求解得的目标概率进行平均,得到目标病症的病症关联模型。
47.一种实现方式中,将基因表达数据集进行m次有放回的随机重采样bootstrap,即可得到m个具有相同规模的重采样数据集。由于基因表达数据集中的样本较少,通过集成学习的方法,对每一重采样数据集分别进行求解,然后对各个结果取平均,可以使得到目标病症的病症关联模型跟精准。
48.一种实现方式中,致病snp组中的每一snp位点可以包括3三种组合,则具有s个snp位点的致病snp组的snp组合数目为3s种。
49.在一个实施例中,步骤s2042包括:步骤一,根据预设决策树算法训练目标预测模型;步骤二,将致病snp组的每一种snp组合作为目标预测模型的输入,得到目标预测模型的输出为每一种snp组合时患目标病症的概率,作为目标概率。
50.一种实现方式中,预设决策树算法可以由技术人员根据实际情况进行设置,在此不作限定。例如,id3、c4.5和cart中的任一一种作为预设决策树算法。
51.在上述实施例中,可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时,可以全部或部分地以计算机程序产品的形式实现。所述计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行所述计算机程序指令时,全部或部分地产生按照本发明实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中,或者从一个计算机可读存储介质向另一个计算机可读存储介质传输,例如,所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(dsl))或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。所述计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质,(例如,软盘、硬盘、磁带)、光介质(例如,dvd)、或者半导体介质(例如固态硬盘solid state disk (ssd))等。
52.需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个
……”
限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
53.本说明书中的各个实施例均采用相关的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于系统实施例而言,由于其基本相似于方法实施例,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
54.以上所述仅为本发明的较佳实施例,并非用于限定本发明的保护范围。凡在本发明的精神和原则之内所作的任何修改、等同替换、改进等,均包含在本发明的保护范围内。
技术特征:1.一种基于基因大数据的病症关联分析系统,其特征在于,包括共表达网络图模块、致病snp组检测模块和病症关联模型生成模块;其中:所述共表达网络图模块,用于获取多个患有目标病症的用户的基因表达数据集;构建所述基因表达数据集的共表达网络图;所述共表达网络图中的每一节点表示一个基因,每个边的邻接值表示两个基因之间的关联程度;所述致病snp组检测模块,用于根据所述共表达网络图确定目标病症的致病snp组;所述病症关联模型生成模块,用于将所述目标病症与所述致病snp组之间的关联关系进行量化,得到所述目标病症的病症关联模型。2.一种基于基因大数据的病症关联分析方法,其特征在于,所述方法包括:获取多个患有目标病症的用户的基因表达数据集;构建所述基因表达数据集的共表达网络图;所述共表达网络图中的每一节点表示一个基因,每个边的邻接值表示两个基因之间的关联程度;根据所述共表达网络图确定目标病症的致病snp组;将所述目标病症与所述致病snp组之间的关联关系进行量化,得到所述目标病症的病症关联模型。3.基于权利要求2所述的一种基于基因大数据的病症关联分析方法,其特征在于,构建所述基因表达数据集的共表达网络图,包括:根据所述基因表达数据集确定每一基因的节点特征矩阵;根据每一基因的节点特征矩阵计算每两个基因间的加权邻接值,得到每一基因的边矩阵;根据每一基因的节点特征矩阵和边矩阵构建所述基因表达数据集的共表达网络图。4.基于权利要求3所述的一种基于基因大数据的病症关联分析方法,其特征在于,根据每一基因的节点特征矩阵计算每两个基因间的加权邻接值,得到每一基因的边矩阵,包括:每一基因的节点特征矩阵计算每两个基因间的邻接值;其中,和为所述基因表达数据集中的任意两个基因的节点特征矩阵,n表示所述基因表达数据集中的用户的数量,和表示该基因在所有用户中的平均特征;对所述邻接值进行加权,得到每两个基因间的加权邻接值,得到每一基因的边矩阵;其中为预设加权系数。5.基于权利要求2所述的一种基于基因大数据的病症关联分析方法,其特征在于,根据所述共表达网络图确定目标病症的致病snp组,包括:聚合所述共表达网络图上相邻节点的特征提取基因模块组特征;所述基因模块组特征
为具有相似基因表达的节点组合;使用预设致病snp检测算法检测所述基因模块组特征,得到目标病症的致病snp组。6.基于权利要求2所述的一种基于基因大数据的病症关联分析方法,其特征在于,将所述目标病症与所述致病snp组之间的关联关系进行量化,得到所述目标病症的病症关联模型,包括:将所述基因表达数据集进行随机重采样,得到多个相同规模的重采样数据集;针对每一重采样数据集,求解所述致病snp组的每一种snp组合时患目标病症的概率,作为目标概率;将每一重采样数据集求解得到的目标概率进行平均,得到所述目标病症的病症关联模型。7.基于权利要求2所述的一种基于基因大数据的病症关联分析方法,其特征在于,针对每一重采样数据集,求解所述致病snp组的每一种snp组合时患目标病症的概率,作为目标概率,包括:根据预设决策树算法训练目标预测模型;将所述致病snp组的每一种snp组合作为所述目标预测模型的输入,得到所述目标预测模型的输出为每一种snp组合时患目标病症的概率,作为目标概率。
技术总结本发明公开了一种基于基因大数据的病症关联分析系统及方法,涉及生物信息技术领域。包括共表达网络图模块、致病SNP组检测模块和病症关联模型生成模块;共表达网络图模块获取多个患有目标病症的用户的基因表达数据集;构建基因表达数据集的共表达网络图;致病SNP组检测模块根据共表达网络图确定目标病症的致病SNP组;病症关联模型生成模块将目标病症与致病SNP组之间的关联关系进行量化,得到目标病症的病症关联模型。通过基因表达数据集构建共表达网络图,进而确定目标病症的致病SNP组,可以量化目标病症与致病SNP组之间的关系,加强基因表达与病症之间的病症关联性。强基因表达与病症之间的病症关联性。强基因表达与病症之间的病症关联性。
技术研发人员:文妍 谢杰 梁丽敏
受保护的技术使用者:广州盛安医学检验有限公司
技术研发日:2022.04.11
技术公布日:2022/7/5