一种基于GC-Forest的入侵检测方法与流程

allin2024-04-16  24


一种基于gc-forest的入侵检测方法
技术领域
1.本发明属于网络入侵检测技术领域,尤其涉及一种基于gc-forest的入侵检测方法。


背景技术:

2.入侵检测技术是网络安全的一个重要组成部分,该技术通过收集和分析网络上的各种信息来检测各种入侵行为,是维护网络安全的重要手段。随着网络的普及和网速的提高,攻击行为越来越多,同时,攻击手段也在不断更新,导致传统的智能检测技术难以达到预期效果。近年来,由于深度学习在分类任务、回归学习等方面的优异表现,基于深度学习的入侵检测算法不断被提出,传统的深度模型多为全连接网络,且多参数导致耗时长,容易过拟合。与传统的学习模型如svm、决策树和k-nearestneighbour相比,基于卷积神经网络(cnn)的入侵检测方法已经取得了明显的改进。cnn在入侵检测领域显示出巨大的潜力,它具有较少的链接、超参数和更好的泛化能力,可以提取更深层次的细微特征,而且更容易被训练。但是,cnn在实际应用中首先需要大量的标签,这大大增加了工作量;此外,卷积操作需要高维卷积核,计算复杂且耗时;另一个缺点是仍有许多超参数(如节点数、层次数、学习率等),虽然比传统的深度方法少,但需要花费大量时间进行参数调试,较为耗时。
3.集合学习(ensemblelearning)通过考虑不同算法的组合,将传统的智能算法或深度学习算法设计成多个弱分类器,然后通过协调分类器组的分类策略获得更好的性能。但依靠传统网络模型的集合学习无法挖掘更深层次的信息以获得更高的性能,这也是限制其性能的一个瓶颈。基于此,本发明提出了一种基于gc-forest的新型入侵检测方法。


技术实现要素:

4.针对上述背景技术中指出的不足,本发明提供了一种基于gc-forest的入侵检测方法,gc-forest结合了cnn表示学习的优点和传统集成学习的稳健性,旨在解决上述背景技术中现有cnn入侵检测方法的复杂性和耗时的问题。
5.为实现上述目的,本发明采用的技术方案是:
6.一种基于gc-forest的入侵检测方法,步骤如下:
7.(1)使用主成分分析对获取的网络数据进行特征选择和降维,得到样本数据;
8.(2)所述样本数据作为多粒度扫描的原始特征数据,采用多个不同大小的窗口分别扫描原始特征数据,然后将扫描后的数据经过两种随机森林(randomforest,rf)形成增强特征数据,增强特征数据再与原始特征数据重构形成新的特征数据;
9.(3)用重构的新的特征数据训练级联森林(cdf)。
10.所述级联森林的算法为:使用级联结构构建一个多级网络架构,一级网络将输出向量视为增强的特征,增强的特征与原始特征相连接,作为下一级的输入,如此循环。
11.优选地,所述级联森林的每个级别都使用全随机树森林(c-rtf)和随机森林(rf)。
12.相比于现有技术的缺点和不足,本发明具有以下有益效果:
13.本发明提供的基于gc-forest的入侵检测方法中,gc-forest结合了cnn 表示学习的优点和传统集成学习的稳健性,分类精度高,网络结构更简单,比 cnn具有更少的超参数和更快的训练速度,使算法更适合于并行计算,解决了 cnn入侵检测方法的复杂性和耗时性问题,入侵检测方法更准确。在nsl-kdd 数据集上的实验表明,本发明涉及的算法在训练时间和入侵检测率方面比cnn 有明显优势,特别是在小数据集上中显示出比cnn更好的性能。
附图说明
14.图1是本发明提供的gc-forest的结构图。
15.图2是本发明实施例1提供的特征重要性分布图。
16.图3是本发明实施例1提供的测试平台的准确度随cdf水平变化的关系图。
17.图4本发明实施例1提供的不同窗口设置下测试集的准确度得分结果。
18.图5本发明实施例1提供的不同窗口设置下测试21集的准确度得分结果。
具体实施方式
19.为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
20.一种基于gc-forest的入侵检测方法:
21.(1)主成分分析(pca)是一种无监督的线性转换技术,被广泛用于不同领域,最突出的是用于降维。简而言之,pca的目的是在高维数据中找到最大方差的方向,并将其投射到一个新的子空间,其维度与原数据相同或更少。pca 算法如表1所示。
22.表1 pca算法
[0023][0024]
使用主成分分析对获取的网络数据进行特征选择和降维,得到样本数据。
[0025]
(2)经pca降维后的样本数据作为gc-forest的原始特征数据,依次通过多粒度扫描算法和级联森林(cdf)算法。
[0026]
gc-forest的结构由图1所示,包括多粒度扫描和级联森林(cdf)两部分。
[0027]
多粒度扫描算法:采用多个不同大小的窗口分别扫描原始特征数据,扫描后的数据经过两种随机森林(rf)形成增强特征数据,增强特征数据与原始特征数据重构形成新的特征数据。
[0028]
pca提取后的输入样本向量x的长度为len(x
mgs
),,假设使用宽度为(a,b,c) 的窗口扫描数据,步长分别为(s_a,s_b,s_c),样本目标类型的数量为c,则新特征数据x_mgs的长度为公式为:
[0029][0030]
(4)级联森林(cdf)算法:经过多粒度扫描,特征已经被重构,重构的新的特征数据将被送入cdf,cdf是随机森林的一种综合学习方法,与cnn 有竞争性。cdf使用级联结构构建一个多级网络架构,一级网络将输出向量视为增强的特征,增强的特征与原始特征相连接,作为下一级的输入。与cnn 相比,cdf使用更简单的网络结构,以方便理解和分析;更少的超参数使算法更适合于并行。此外,cdf在小数据集中显示出比cnn更好的性能。
[0031]
cdf的每个级别都使用两种森林算法:完全随机树森林(c-rtf)和随机森林(rf),c-rtf选择单一特征作为分割节点的父节点,而rf选择√f(fis 样本的特征数)具有最佳基尼系数的特征被选为分割节点。基尼系数定义公式如下:
[0032][0033]
其中,pi是样本i属于类的概率,c为类的个数。
[0034]
将数据送入cdf后,第一层产生m
×
c特征,为每层的森林数量,产生的特征将与原始特征相连接并进入下一级,最后一级cdf的最终分类结果为公式(3)和公式
[0035]
fin(c)=max{ave[cm×c]}
ꢀꢀꢀ
(3)
[0036]cm
×c=[c
11
,c
12

…c1c


;c
m1
,c
m2

,c
mc
]
ꢀꢀꢀ
(4)
[0037]
(5)最后用gc-forest对新特征进行分类。
[0038]
实施例1:实验测试
[0039]
实验平台:英特尔i7-7700,ubuntu18.04,python3.6.5。
[0040]
(1)nsl-kdd数据集
[0041]
评估gc-forest在nsl-kdd数据集上的性能。nsl-kdd数据集由四组组成:kddtrain+,kddtest+,kddtrain_20percent和kddtest-21,缩写为train, test,train20和test21。train集包含22种不同的攻击,test集包含38种攻击模式,train中没有的攻击被用来评估检测未知攻击的能力,train20集是一个子集,是train集的20%的随机样本。test21集是测试集的一个子集,在传统模型中难以正确分类,它由125973、22544、25192和11850个样本组成,每个集合中都有。每个攻击记录由41个特征组成,如网络连接的类型、协议、持续时间、内容和流量。
[0042]
(2)数据预处理:
[0043]
首先,将三个字符特征(协议类型、服务和标志)用一键式编码器编码为数字特征,形成长度为122的向量,然后对所有特征进行标准化。之后,使用 pca来降低维度,并选择最重要的特征,如图2所示,50个特征的总重要性接近于1,因此选择50维作为pca的目标成分。
[0044]
(3)实验评价标准
[0045]
在实验中,gc-forest的结果与另外9种方法进行了比较,以说明本发明涉及算法的有效性,特别是与cnn相比。为了综合比较算法的能力,准确率(acc)、精确度(pre)、召回率(rec)、f1得分和训练时间被用作性能指标,准确率是指正确分类的样本占总数的百分
比,精确率代表攻击检测的能力,召回率代表误报率的能力,f1得分代表系统的稳定性。得到的结果是10次的平均值。
[0046]
计算公式分别为(5)、(6)、(7)、(8)。
[0047][0048][0049][0050][0051]
其中,tp是预测攻击样本正确数量的模型,fp是预测为攻击类但实际为正常类的样本数量,tn是模型正确预测的正常类样本数量,fn是预测为正常类的攻击类样本数量。
[0052]
(4)实验参数设置
[0053]
在参数设置方面,gc-forest与cnn相比具有明显的优势。表2显示了 gc-forest的参数。
[0054]
表2 gc-forest的参数设置
[0055][0056]
由表2可知,每个森林有50棵决策树,选择公式(2)中的基尼函数作为评判函数。为了准确和多样化,选择两种不同的森林模型,随机森林(rf)的树将用最多7个特征生成,而完全随机树森林(c-rtf)的树将用1个特征生成。
[0057]
输入特征的数量为50个,采用相关特征选择和网格搜索的方法。前50个特征的综合重要性达到99.30%。扫描窗口的数量和尺寸是模型的重要参数,因此在实验中使用了一些尺寸和它们的组合来寻找最佳数量和尺寸。
[0058]
准确度得分和cdf水平之间的关系如图3所示,与曲线相比,使用 window(10,20)和window(10)会得到更好的分数,而且曲线在第8级附近收敛。
[0059]
图4和图5分别为不同窗口设置下测试集和测试21集的准确度得分对比。在图4中,用窗口(10,30)得到的分数最好,可以得出,随着窗口大小和数量的变化,准确度周期性地呈现阶梯状变化,当选择窗口大小为10时,结果会更好。在图5中,窗口(30)的得分最高。随着窗口大小的逐步改变,准确率也在逐步提高。
[0060]
pca-gc-forest与其他9种方法的准确率比较结果如表3所示,其他9种方法的准确率数据来自于已公开论文。由表3可知,pca-gc-forest在test和 test21集合中都得到了最好的分数,充分证明了该方法的优越性。而最好的两种方法是pca-gc-forest和npcnn,这充分说明了特征化学习在入侵检测中的优势。作为rf的合集,gc-forest的准确率比rf高5.48%,因为合集学习的能力很好。
[0061]
表3十种方法的准确率测试结果
[0062]
方法acc测试(%)21acc测试(%)j4881.0563.97nb76.5655.77nbtree82.0266.16randomforest80.6763.26randomtree81.5958.51mlp77.4157.34svm69.5242.29cnn78.7660.02npcnn82.5969.20pca-gc-forest86.1575.26
[0063]
pca-gc-forest和cnn分别对train集和train20集的测试准确度结果如表4所示。cnn使用的是名vgg-16的模型。可以看出,在train和train20 集合中,pca-gc-forest的测试准确度得分都高于cnn的总体准确度得分,这表明pca-gc-forest在总体检测中的优势。此外,在精确度方面更好的表现表明pca-gc-forest遗漏攻击的可能性更小,更高的f1分数证明了 pca-gc-forest比cnn更强大。然后,在train分数和train20分数的比较中,除了正常类的准确率和召回分数外,pca-gc-forest的分数下降幅度小于cnn,这充分证明了pca-gc-forest在小数据集上的表现更好。
[0064]
表4 gc-forest和cnn的测试集结果
[0065][0066]
gc-forest和cnn的训练时间如表5所示,gc-forest的cdf有7个级别, cnn的训练有7个卷积级别。
[0067]
表5 gc-forest和cnn的训练时间
[0068]
数据集train/strain20/sgc-forest391.8496.20cnn599.81164.77
[0069]
可以看出,gc-forest的训练时间比cnn的训练时间短,这表明gc-forest 比cnn更有效率。
[0070]
上述实验结果充分显示了pca-gc-forest入侵检测方法的优越性,无论是准确率还是训练速度都非常令人满意。
[0071]
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。

技术特征:
1.一种基于gc-forest的入侵检测方法,其特征在于,包括以下步骤:(1)使用主成分分析对获取的网络数据进行特征选择和降维,得到样本数据;(2)所述样本数据作为多粒度扫描的原始特征数据,采用多个不同大小的窗口分别扫描原始特征数据,然后将扫描后的数据经过两种随机森林形成增强特征数据,增强特征数据再与原始特征数据重构形成新的特征数据;(3)用重构的新的特征数据训练级联森林。2.如权利要求1所述的基于gc-forest的入侵检测方法,其特征在于,所述级联森林的算法为:使用级联结构构建一个多级网络架构,一级网络将输出向量视为增强的特征,增强的特征与原始特征相连接,作为下一级的输入。3.如权利要求1所述的基于gc-forest的入侵检测方法,其特征在于,所述级联森林的每个级别都使用全随机树森林和随机森林。

技术总结
本发明公开了一种基于GC-Forest的入侵检测方法,首先使用主成分分析对获取的网络数据进行特征选择和降维,得到样本数据;然后采用多个不同大小的窗口分别扫描样本数据,扫描后的数据经过两种随机森林作为增强特征数据与原始数据重构形成新的特征数据;再用重建的新的特征数据训练级联森林。本发明提供的基于GC-Forest的入侵检测方法中,所采用的GC-Forest分类精度高,网络结构更简单,比CNN具有更少的超参数和更快的训练速度,使算法更适合于并行计算,有效解决了CNN入侵检测方法的复杂性和耗时性问题,在训练时间和入侵检测率方面比CNN有明显优势。面比CNN有明显优势。


技术研发人员:赵金雄 王国华 张驯 骆怡 马宏忠 狄磊
受保护的技术使用者:国网甘肃省电力公司电力科学研究院
技术研发日:2022.03.15
技术公布日:2022/7/5
转载请注明原文地址: https://www.8miu.com/read-13310.html

最新回复(0)