本发明属于日志数据分析处理,尤其是涉及一种日志与告警,告警与告警的关联方法以及应用该方法的关联处理系统。
背景技术:
1、随着数据库系统的广泛应用和网络技术的高速发展,数据库技术也进入一个全新的阶段,数据库在给我们提供丰富信息的同时,也体现出明显的海量信息特征。海量信息给人们带来许多负面影响,最主要的就是有效信息难以提炼,过多无用的信息必然会产生信息距离。同时针对数据的各种网络攻击、信息安全事故发生率也不断攀升。
2、防火墙、ids、ips、漏洞扫描系统、终端管理系统、waf等安全防护设备是应对安全挑战的主要防御措施。然而,这些安全防线都仅仅抵御来自某个方面的安全威胁,实际上形成了一个个“安全防御孤岛”,无法产生协同效应。更重要的是,这些复杂的it资源及其安全防御设施在运行过程中不断产生大量的安全日志和告警事件,实际上形成了大量“信息孤岛”,日志和告警无法进行关联以找到其中的共性。而有限的安全管理人员在面对这些数量巨大、彼此割裂的安全信息和各种控制界面与告警窗口时,显得束手无策,工作效率极低,难以发现真正的安全隐患。
3、因此,通过有效的数据挖掘技术手段,对海量的日志和告警数据进行分析,提取隐藏的关键信息,发现数据中存在的关系和规则,能够实现根据现有的数据预测未来的发展趋势。
技术实现思路
1、基于上述背景,本发明及其实施例旨在提供一种对海量日志数据与告警数据进行关联处理的方法。具体技术内容如下上述的:
2、第一方面,提出一种日志与告警的关联方法,包括:对于日志文件的每一行日志,将字符串相似度超过第一阈值的日志归为一类;以第二时间间隔为时间维度,将在相似度上超过第二阈值的告警与日志类别进行关联;以第三时间间隔为时间维度,将在相似度上超过第三阈值的不同告警进行关联;上述的时间间隔,包括对小时、天、周、月之一进行等分得到的若干个时间段;输出上述的日志与告警的关联关系,以及告警与告警的关联关系。
3、较佳的,上述的日志归类,包括:
4、初始化类别数组为空,类别数组的每一行的格式规定为:“[类别] [类别里首次出现的具体日志内容] [该类别出现的所有日志时间组成的时间数组]”;
5、初始化字符串相似度阈值,将字符串相似度超过第一阈值的日志归为一类。
6、进一步的,上述的将字符串相似度超过第一预设阈值的日志归为一类,包括:将当前日志的具体字符串与类别数组中每一类别的具体字符串做相似度对比。
7、并且,相似度对比,包括:
8、若当前日志与当前类别的日志字符串相似度超过了上述的第一阈值,则将该日志的时间存入当前类别所在的类别数组,并停止对当前日志的分析;
9、若当前日志与所有类别的日志字符串的相似度均低于上述的第一阈值,则当前日志为新的日志类别,在类别数组中新建一个类别,并将当前日志时间所属的第一时间间隔作为该新建类别的时间数组的首条时间记录;
10、较佳的,上述的作为新建类别的时间数组的首条时间记录,是指该时间间隔的开始时间点对应的时间戳。
11、较佳的,对于同一第一时间间隔内的相似度大于上述的第一阈值的日志,只记录一次日志时间。
12、较佳的,对告警与日志进行关联,包括:以第二时间间隔为时间维度,当日志类别与告警在该时间维度上的相似度超过第二阈值时,进行关联。
13、较佳的,对告警与告警进行关联,包括:以第三时间间隔为时间维度,当两种告警在该时间维度上的相似度超过第三阈值时,进行关联。
14、进一步的,对于每一种告警:
15、出现在相同时间间隔的告警,若在时间维度上与当前告警的相似度超过第三阈值,则这些告警具有时间上同步的关联关系;
16、出现在与当前告警相邻的时间间隔的告警,若在时间维度上与当前告警的相似度超过第三阈值,则这些告警具有时间上先后发生的关联关系。
17、第二方面,提出一种日志与告警的关联系统,包括:
18、数据获取模块,用于获取待归类的的日志数据,获取待关联的告警数据;
19、日志归类模块,将字符串相似度超过第一阈值的日志归为一类;
20、关联模块,对归类后的日志类别与告警进行关联,对不同的告警数据进行关联。
21、较佳的,上述的关联模块,以第二时间间隔为时间维度,将在相似度上超过第二阈值的告警与日志类别进行关联;以第三时间间隔为时间维度,将在相似度上超过第三阈值的不同告警进行关联。
22、采用上述技术方案的本发明及实施例,至少具有以下有益效果:利用相似度算法,先对字符串相似度达到一定条件的不同日志数据进行归类处理,再根据时间维度的相似度对日志类别与告警进行关联,最后根据时间维度的相似度对不同的告警数据进行关联,输出所述的关联关系。可见能够实现对日志数据和告警数据的自动化关联,有利于从相关的安全事件获知关键信息,提高安全管理人员处理数量巨大且彼此割裂的安全信息时的工作效率。
23、实施方式
24、为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例,对本发明的技术方案进行进一步地描述。
25、第一方面,提出一种日志与告警的关联方法,包括:
26、对于日志文件的每一行日志,将字符串相似度超过第一阈值的日志归为一类;以第二时间间隔为时间维度,将在相似度上超过第二阈值的告警与日志类别进行关联;以第三时间间隔为时间维度,将在相似度上超过第三阈值的不同告警进行关联;上述的时间间隔,包括对小时、天、周、月之一进行等分得到的若干个时间段;输出上述的日志与告警的关联关系,以及告警与告警的关联关系。
27、较佳的,上述的日志归类,包括:
28、初始化类别数组为空,类别数组的每一行的格式规定为:“[类别] [类别里首次出现的具体日志内容] [该类别出现的所有日志时间组成的时间数组]”;
29、初始化字符串相似度阈值,将字符串相似度超过第一阈值的日志归为一类,如相似度阈值取80%。
30、进一步的,上述的将字符串相似度超过第一预设阈值的日志归为一类,包括:将当前日志的具体字符串与类别数组中每一类别的具体字符串做相似度对比。
31、并且,相似度对比,包括:
32、若当前日志与当前类别的日志字符串相似度超过了上述的第一阈值,则将该日志的时间存入当前类别所在的类别数组,并停止对当前日志的分析;
33、若当前日志与所有类别的日志字符串的相似度均低于上述的第一阈值,则当前日志为新的日志类别,在类别数组中新建一个类别,并将当前日志时间所属的第一时间间隔作为该新建类别的时间数组的首条时间记录;
34、较佳的,上述的作为新建类别的时间数组的首条时间记录,是指该时间间隔的开始时间点对应的时间戳。例如从每天的00:00:00开始,以10分钟为单位划分24小时得到的各个时间段的开始时间对应的时间戳。此处需要说明的是,时间间隔取的过大,后面关联时精确度降低,取的过小,后面关联时计算量会很大,因此若取10分钟作为日志间隔(时间窗),则一天就被划分成了24*6个时间间隔。本实施例中将时间间隔均设为10分钟。
35、较佳的,对于同一第一时间间隔内的相似度大于上述的第一阈值的日志,只记录一次日志时间。也就是说如果某类日志已经有这段时间的记录,再次在这段时间出现的类似日志将会被忽略。
36、较佳的,对告警与日志进行关联,包括:以第二时间间隔为时间维度,当日志类别与告警在该时间维度上的相似度超过第二阈值时,进行关联,此处第二阈值取80%,算法采用余弦相似度算法。
37、余弦相似度算法:一个向量空间中两个向量夹角间的余弦值作为衡量两个个体之间差异的大小,余弦值接近1,夹角趋于0,表明两个向量越相似,余弦值接近于0,夹角趋于90度,表明两个向量越不相似。文本的余弦相似度计算,文本是由词组成的,一般通过计算词频来构造文本向量即词频向量。
38、对于文本以及字符串的余弦相似度算法的实现为公知技术,本实施例在此不做赘述。
39、较佳的,对告警与告警进行关联,包括:以第三时间间隔为时间维度,当两种告警在该时间维度上的相似度超过第三阈值时,进行关联。
40、进一步的,对于每一种告警:
41、出现在相同时间间隔的告警,若在时间维度上与当前告警的相似度超过第三阈值,则这些告警具有时间上同步的关联关系,此处第三阈值取80%;
42、出现在与当前告警相邻的时间间隔的告警,若在时间维度上与当前告警的相似度超过第三阈值,则这些告警具有时间上先后发生的关联关系。
43、第二方面,提出一种日志与告警的关联系统,包括:
44、数据获取模块,用于获取待归类的的日志数据,获取待关联的告警数据;
45、日志归类模块,将字符串相似度超过第一阈值的日志归为一类;
46、关联模块,对归类后的日志类别与告警进行关联,对不同的告警数据进行关联。
47、较佳的,上述的关联模块,以第二时间间隔为时间维度,将在相似度上超过第二阈值的告警与日志类别进行关联;以第三时间间隔为时间维度,将在相似度上超过第三阈值的不同告警进行关联。
48、本发明技术方案的上述实施例,利用相似度算法,先对字符串相似度达到一定条件的不同日志数据进行归类处理,再根据时间维度的相似度对日志类别与告警进行关联,最后根据时间维度的相似度对不同的告警数据进行关联,输出所述的关联关系。可见能够实现对日志数据和告警数据的自动化关联,有利于从相关的安全事件获知关键信息,提高安全管理人员处理数量巨大且彼此割裂的安全信息时的工作效率。
49、本领域普通技术人员可以理解实现上述实施例方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成,所述的程序可以存储于一计算机可读取存储介质中,所述的存储介质,如:rom/ram、磁碟、光盘等。
50、对上述公开的实施例的上述说明,使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下,在其它实施例中实现。因此,本发明将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和相一致的最宽的范围。
1.一种日志与告警的关联方法,其特征在于,包括:
2.根据权利要求1所述的关联方法,其特征在于,所述日志归类,包括:
3.根据权利要求2所述的关联方法,其特征在于,所述将字符串相似度超过第一预设阈值的日志归为一类,包括:将当前日志的具体字符串与类别数组中每一类别的具体字符串做相似度对比。
4.根据权利要求3所述的关联方法,其特征在于,所述相似度对比,包括:
5.根据权利要求4所述的关联方法,其特征在于,对于同一第一时间间隔内的相似度大于所述第一阈值的日志,只记录一次日志时间。
6.根据权利要求4所述的关联方法,其特征在于,对告警与日志进行关联,包括:以第二时间间隔为时间维度,当日志类别与告警在该时间维度上的相似度超过第二阈值时,进行关联。
7.根据权利要求4任一所述的关联方法,其特征在于,对告警与告警进行关联,包括:以第三时间间隔为时间维度,当两种告警在该时间维度上的相似度超过第三阈值时,进行关联。
8.根据权利要求7所述的关联方法,其特征在于,对于每一种告警:
9.一种日志与告警的关联系统,其特征在于,包括:
10.根据权利要求8所述的关联系统,其特征在于,所述关联模块,