基于协议演绎系统的计算机网络协议数据集构建方法

allin2025-08-08  26


本发明属于人工智能和数据处理,涉及一种数据集构建方法,具体涉及一种基于协议演绎系统的计算机网络协议数据集构建方法,可应用于网络安全、网络协议开发与测试、人工智能、金融、物联网等领域。


背景技术:

1、计算机网络协议是一套为数据通信而建立的规则、标准和约定的集合,定义了如何在网络设备之间传输数据,包括数据的格式、传输方式、错误检测和纠正、以及连接和断开连接的步骤。计算机网络协议管理及时、安全、管理的数据或网络通信的端到端过程,可以内置到硬件或软件中,每个网络的使用都依赖于网络协议来进行通信和连接。计算机网络协议作为理解、设计和维护计算机网络系统的基础,在全球通信平台、商业应用与电子商务、云计算与大数据等领域都起到了至关重要的作用。

2、数据集是用于特定任务的一组结构化数据,包含样本、特征和标签。计算机网络协议数据集是一种专门用于存储和分析网络协议的数据集,通常包含协议样本、协议关键特征、记录协议相关属性的协议标签。通过计算机网络协议数据集,开发人员和研究人员可以通过训练相关协议模型进行协议安全性分析、协议性能分析、开发和优化协议。

3、构建数据集的过程通常包括数据收集、数据清洗、数据标注、数据分割、数据增强和数据存储。数据收集可以来源于公开数据源、网络抓取、传感器或用户输入,数据清洗涉及处理缺失值和噪音以及标准化,数据标注可以是手工、自动或通过众包完成,数据分割是将数据分成训练集、验证集和测试集,数据增强指对数据进行各种变换以提高模型的泛化能力,最后将数据存储在合适的格式如csv或json中。

4、同方知网数字出版技术股份有限公司和同方知网(北京)技术有限公司在其申请的专利文献“学术大模型的语料数据集构建方法、装置、设备及介质”(专利申请号:cn202311738155.0,申请公布号:cn117851562a)中,提出了一种学术大模型的语料数据集构建方法,该方法包括:制定学术大模型的语料数据集的构建规则;根据所述数据提取需求,提取海量语料数据;根据所述数据处理规则,对所述海量语料数据进行预处理,得到处理后的语料数据;根据所述人工标注标准对所述处理后的语料数据进行人工标注,得到标注后的语料数据;将所述标注后的语料数据按照任务类型进行分类,以得到多个任务类型场景基础数据集;对各个任务类型场景基础数据集进行数据扩充,以形成任务类型场景数据集,该发明保证了输出的学术文档的准确性和适用性,但因为在数据扩充时采用自动构建扩充的方法,没有考虑数据间的构成规则,扩充效果差,进而导致构建出的数据集分类精度较低;通过人工标注方法给数据进行标注不能充分的提取数据的关键特征,进而导致所构建的数据集缺乏关键特征的数据表征。


技术实现思路

1、本发明的目的在于克服上述现有技术存在的缺陷,提出了一种计算机网络协议的数据集构建方法,用于解决现有技术中存在的数据集分类精度低、缺乏关键特征的数据表征的技术问题。

2、为实现上述目的,本发明采取的技术方案包括如下步骤:

3、(1)获取计算机网络协议样本集:

4、获取m个计算机网络协议各自的表达式图像、符号序列和安全属性,并将安全属性作为表达式图像的标签,然后将表达式图像及其标签,以及符号序列组成样本集dsample,其中,m≥600;

5、(2)获取每个计算机网络协议的标准化latex结构符号序列:

6、对第m个计算机网络协议的符号序列进行分割,并将分割得到的包括变量名、运算符、分隔符和括号的词法单元列表转化为符号树,然后对每个符号树进行递归解析,得到标准化latex结构符号序列;

7、(3)构建标准化latex结构符号序列的特征矩阵:

8、将第m组标准化的latex结构符号序列划分划分为n个协议事件,每个协议事件包含主体、动作、消息和密钥四个元素,并构建以n为行以四个元素为列的维度为n×4的事件矩阵,然后对事件矩阵在维度不足为h×4的空位处填入0,得到维度为h×4的特征矩阵,其中,1≤n≤100,h>100;

9、(4)对计算机网络协议的样本集进行分类:

10、按照安全属性将样本集dsample中的m幅表达式图像划分为f个类,并将每类表达式图像及其对应的标准化latex结构符号序列、特征矩阵和图像标签组成的协议基础数据集,得到f个协议基础数据集;

11、(5)对协议基础数据集进行扩充:

12、基于协议演绎系统中的协议组合展开规则对第f个协议数量占比pf与预先设置的阈值y满足pf<y的协议基础数据集中每个特征矩阵的部分元素进行修改,并将多重加密问题和随机数可行的修改后的特征矩阵添加到对应的协议基础数据集中,同时丢弃非可行的特征矩阵,实现对f个协议基础数据集的扩充,得到包括r个特征矩阵的f个协议数据集,其中,0.1≤y≤0.2,r≥1000;

13、(6)获取数据集的构建结果:

14、计算每个协议数据集中每个特征矩阵的四个元素各自所包含的b个符号中每个符号的初始权重值并对按照其在对应元素中升序排序的结果进行修改,得到维度为h×4权重矩阵wprotocol,再对f个协议数据集进行组合,得到包含r组协议特征矩阵、安全属性标签和对应的权重矩阵的计算机网络协议数据集,其中,b≤100。

15、本发明与现有技术相比,具有以下优点:

16、第一,本发明基于协议演绎系统中的协议组合展开规则对每个协议数量占比小于预先设置的阈值满足的协议基础数据集中每个特征矩阵的部分元素进行修改,并将多重加密问题和随机数可行的修改后的特征矩阵添加到对应的协议基础数据集中,同时丢弃非可行的特征矩阵,实现对每个协议基础数据集的扩充,充分考虑了协议间的构成规则,具有较好的扩充效果,与现有技术相比,有效提高构建出的数据集的分类精度。

17、第二,本发明在获取数据集的构建结果阶段,基于四个元素中各符号的词频和逆文档频率来给每个符号分配权重得到权重矩阵,通过权重矩阵可以更好地反映不同协议事件的重要性,进而提取协议数据的关键特征,有效提升数据集中关键特征的数据表征。



技术特征:

1.一种基于协议演绎系统的计算机网络协议数据集构建方法,其特征在于,包括如下步骤:

2.根据权利要求1所述的方法,其特征在于,步骤(1)中所述的安全属性,包括协议安全性、易受攻击和缺陷步骤。

3.根据权利要求1所述的方法,其特征在于,步骤(2)中所述的符号树,包括用于存储序列首尾标记的根节点、与计算机网络协议中符号序列包含的运算符数量的多个父节点,以及与计算机网络协议中符号序列包含的括号、分隔符和变量名的数量和相等的子节点。

4.根据权利要求3所述的方法,其特征在于,步骤(2)中所述的对每个符号树进行递归解析,得到标准化latex结构符号序列,实现步骤为:

5.根据权利要求1所述的方法,其特征在于,步骤(2)中所述的按照安全属性将样本集dsample中的m幅表达式图像划分为f个类,划分方法为:将样本集dsample中的m幅表达式图像划分为安全协议的图像和非安全协议的图像,其中非安全协议的图像包括按照易受攻击的攻击类型划分为f-1类。

6.根据权利要求1所述的方法,其特征在于,步骤(4)中所述的协议数量占比pf,计算公式为:

7.根据权利要求1所述的方法,其特征在于,步骤(5)中所述的多重加密问题和随机数可行的修改后的特征矩阵,是指不存在会导致数据难以解读或分析的多重加密问题和随机数满足随机性的。

8.根据权利要求1所述的方法,其特征在于,步骤(6)中所述的每个符号的初始权重值计算公式为:

9.根据权利要求1所述的方法,其特征在于,步骤(6)中所述的对每个元素中所有放大后的权重值升序处理并重新组合,具体为:


技术总结
本发明提出了一种基于协议演绎系统的计算机网络协议数据集构建方法,实现步骤为:获取计算机网络协议样本集及每个计算机网络协议的标准化Latex结构符号序列;构建标准化Latex结构符号序列的特征矩阵;对计算机网络协议的样本集进行分类;对协议基础数据集进行扩充;获取数据集的构建结果。本发明在对协议基础数据集进行扩充时,基于协议演绎系统中的协议组合展开规则对特征矩阵进行扩充并判断可行性,保证扩充后的协议在结构上的合理性和可靠性,扩充效果好,提高了构建出的数据集的分类精度;在获取数据集的构建结果阶段,通过计算每个符号的词频和逆文档频率来给特征矩阵中的每个符号分配权重,有效提升数据集中关键特征的数据表征。

技术研发人员:马卓,尤晨晖,刘洋,夏高翔,张俊伟,李腾
受保护的技术使用者:西安电子科技大学
技术研发日:
技术公布日:2024/10/31
转载请注明原文地址: https://www.8miu.com/read-23840.html

最新回复(0)