1.本发明涉及互联网技术领域,特别是涉及一种识别黑灰产数据的方法、装置及介质。
背景技术:2.近年来,新型涉网犯罪搭乘互联网与物联网技术飞速发展的快车,逐渐变得隐蔽,在内容分发网络(content delivery network,cdn)技术、代理技术、云计算等技术的发展领域使得黑灰产数据伪装自己,对于相关人员打击与治理网络环境造成不利的影响,因此,如何从海量的互联网数据中发现关键的黑灰产数据成为难题。
3.现阶段,黑灰产数据的发现主要基于网络空间搜索引擎以及互联网等公开资源获取,在筛选过程中只能根据人工经验进行筛选,且获取不全面精准,导致筛选速度较慢。
4.因此,寻求一种识别黑灰产数据的方法是本领域技术人员亟需要解决的。
技术实现要素:5.本发明的目的是提供一种识别黑灰产数据的方法、装置及介质,提高筛选效率。
6.为解决上述技术问题,本发明提供一种识别黑灰产数据的方法,包括:
7.获取当前的流量数据和恶意网址数据库;
8.根据预设字段比较当前的流量数据与恶意网址数据库的恶意网址数据;
9.将与恶意网址数据匹配的当前的流量数据作为流量数据包;
10.分析流量数据包以提取对应的流量特征;
11.根据流量特征对当前的流量数据筛选得到黑灰产数据。
12.优选地,获取当前的流量数据,包括:
13.获取当前的出口流量数据;
14.将当前的出口流量数据输入至流量分光器进行分光得到分光流量数据;
15.将分光流量数据存储为镜像得到当前的流量数据。
16.优选地,获取恶意网址数据库,包括:
17.获取历史报案数据;
18.将历史报案数据进行清洗以获取恶意网址数据;
19.将恶意网址数据存储并建立恶意网址数据库。
20.优选地,根据预设字段比较当前的流量数据与恶意网址数据库的恶意网址数据,包括:
21.获取当前的流量数据对应的请求头和当前的目标字段,其中预设字段包括多个目标字段;
22.根据当前的目标字段比较请求头与恶意网址数据。
23.优选地,将与恶意网址数据匹配的当前的流量数据作为流量数据包,包括:
24.根据当前的目标字段判断当前的流量数据是否匹配成功;
25.若是,则将匹配成功的当前的流量数据作为流量数据包,并将当前的目标字段标记;
26.若否,则获取预设字段内除当前的目标字段之外的其他目标字段作为下一个当前的目标字段返回至根据当前的目标字段比较当前的流量数据与恶意网址数据的步骤。
27.优选地,分析流量数据包以提取对应的流量特征,包括:
28.获取流量数据包的请求头和请求体;
29.将请求头的路径数据作为第一特征;
30.将请求体的变量名数据作为第二特征;
31.将第一特征和第二特征进行合并得到流量特征。
32.优选地,根据流量特征对当前的流量数据筛选得到黑灰产数据,包括:
33.根据流量特征对当前的流量数据进行提取得到恶意数据包;
34.获取恶意数据包对应的请求头;
35.根据预设字段对恶意数据包对应的请求头提取预设字段对应的字段值作为目标恶意网址数据;
36.将目标恶意网址数据进行去重处理得到黑灰产数据。
37.为解决上述技术问题,本发明还提供一种识别黑灰产数据的装置,包括:
38.获取模块,用于获取当前的流量数据和恶意网址数据库;
39.比较模块,用于根据预设字段比较当前的流量数据与恶意网址数据库的恶意网址数据;
40.匹配模块,用于将与恶意网址数据匹配的当前的流量数据作为流量数据包;
41.分析模块,用于分析流量数据包以提取对应的流量特征;
42.筛选模块,用于根据流量特征对当前的流量数据筛选得到黑灰产数据。
43.为解决上述技术问题,本发明还提供一种识别黑灰产数据的装置,包括:
44.存储器,用于存储计算机程序;
45.处理器,用于执行计算机程序时实现如上述识别黑灰产数据的方法的步骤。
46.为解决上述技术问题,本发明还提供一种计算机可读存储介质,计算机可读存储介质上存储有计算机程序,计算机程序被处理器执行时实现如上述识别黑灰产数据的方法的步骤。
47.本发明提供的一种识别黑灰产数据的方法,获取当前的流量数据和恶意网址数据库;根据预设字段比较当前的流量数据与恶意网址数据库的恶意网址数据;将与恶意网址数据匹配的当前的流量数据作为流量数据包;分析流量数据包以提取对应的流量特征;根据流量特征对当前的流量数据筛选得到黑灰产数据。该方法通过将当前的流量数据与恶意网址数据库的恶意网址数据匹配得到流量数据包,进一步提取流量特征,进而根据流量特征全面筛选当前的流量数据得到黑灰产数据。避免现有的根据人工经验筛选导致的不精准全面问题,提高筛选速度。
48.另外,本发明还提供了一种识别黑灰产数据的装置及介质,具有如上述识别黑灰产数据的方法相同的有益效果。
附图说明
49.为了更清楚地说明本发明实施例,下面将对实施例中所需要使用的附图做简单的介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
50.图1为本发明实施例提供的一种识别黑灰产数据的方法的流程图;
51.图2为本发明实施例提供的一种流量数据包的格式结构图;
52.图3为本发明实施例提供的一种识别黑灰产数据的装置的结构图;
53.图4为本发明实施例提供的另一种识别黑灰产数据的装置的结构图。
具体实施方式
54.下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下,所获得的所有其他实施例,都属于本发明保护范围。
55.本发明的核心是提供一种识别黑灰产数据的方法、装置及介质,提高筛选效率。
56.为了使本技术领域的人员更好地理解本发明方案,下面结合附图和具体实施方式对本发明作进一步的详细说明。
57.需要说明的是,本发明提供的识别黑灰产数据的方法,可以适用于网络空间搜索引擎的数据的互联网协议(internet protocol,ip)端识别,也可以适用于cdn技术中对于域名端的数据识别,对公开网络资源进行互联网搜索识别,还可以适用于私密网络资源的搜索识别,本发明不做具体限定,可以根据实际情况进行设定场景。黑灰产是指电信诈骗、钓鱼网站、木马病毒、黑客勒索等利用网络开展违法犯罪活动的行为,其共有四种类型,虚假账号注册等源头性黑灰产、用于进行非法交易、交流的平台、木马植入、钓鱼网站、各类恶意软件等,大多以恶意注册、虚假认证、盗号等形式实现的网络黑账号。
58.图1为本发明实施例提供的一种识别黑灰产数据的方法的流程图,如图1所示,该方法包括:
59.s11:获取当前的流量数据和恶意网址数据库。
60.可以理解的是,获取当前的流量数据是通过自身搜索网址信息产生的流量进一步通过网络采集的形式进行获取,网络采集的形式可以为端口镜像(port montoring),网络缓存通信协议(web cache communication protocol,wccp)的流量重定向、分光器流量采集、四层交换机的流量重定向等,根据网络结构、网络流量以及设备特点等情况采用合适的流量采集方式,本发明不做具体限定。
61.恶意网址数据库可以根据历史恶意数据的汇总或者历史报案数据的汇总并进行数据清洗得到,根据实际情况进行设置并建立,本实施例仅是获取恶意网址数据库即可。
62.s12:根据预设字段比较当前的流量数据与恶意网址数据库的恶意网址数据。
63.具体地,根据预设字段在当前的流量数据中搜索包含恶意网址数据的数据包,也就是比较当前的流量数据与恶意网址数据库的恶意网址数据。可以理解的是,预设字段包含多个字段,将多个字段比较当前的流量数据和恶意网址数据,从而筛选得到与恶意网址数据匹配的当前的流量数据。例如,预设字段a,与当前的流量数据进行比较,可能筛选出部
分流量数据,也可能没有筛选出,则需要获取另一个预设字段继续与当前的流量数据进行比较,直到将预设字段全部比较完成,若没有匹配成功的流量数据,则说明获取的当前的流量数据无包含恶意网址数据的数据。进一步获取下一个当前的流量数据,对于流量数据的获取可以根据间隔时间获取,也可以实时获取并进行本发明的内容。
64.当预设字段a比较当前的流量数据未发现恶意网址数据的流量数据时,可以获取下一个预设字段b继续比较,直到预设字段全部比较完成。预设字段是根据恶意网址数据的字段进行设置,每个预设字段进行比较时,都是对应与整个当前的海量数据。其预设字段为请求头host字段、referer字段和origin字段,还可以为其他请求头字段,只要能根据预设字段匹配出流量数据包即可。
65.s13:将与恶意网址数据匹配的当前的流量数据作为流量数据包。
66.根据预设字段比较当前的流量数据与恶意网址数据时,将与恶意网址数据匹配的当前的流量数据作为流量数据包。同时,当一个预设字段比较得到的流量数据包时,则需要将预设字段标记,说明该预设字段可以筛选出流量数据包,在恶意网址数据库中选取其他预设字段避免循环比较。
67.本实施例得到的流量数据包是将当前的流量数据根据预设字段全部筛选出得到。当得到的流量数据包为多个时,可以设置为数据包组。
68.s14:分析流量数据包以提取对应的流量特征。
69.在步骤s13中得到的流量数据包进行分析,提取流量数据包的流量特征。可以理解的是,其流量特征的提取可以根据具体的算法或者过滤处理,也可以根据流量数据包的请求内容进行设定。其获取流量特征基于获取全面的黑灰产数据,以避免仅通过预设字段获取得到的流量数据包不精准,仅根据预设字段提取不具有权威性,则需要根据流量特征进一步筛选。
70.s15:根据流量特征对当前的流量数据筛选得到黑灰产数据。
71.根据提取的流量特征对当前的流量数据进一步筛选得到黑灰产数据,可以理解的是,根据流量特征筛选的黑灰产数据可能有重复数据,则需要筛选去重处理。同时,根据流量特征筛选的黑灰产数据可以提取预设字段对应的值为恶意网址数据。
72.本发明提供的一种识别黑灰产数据的方法,获取当前的流量数据和恶意网址数据库;根据预设字段比较当前的流量数据与恶意网址数据库的恶意网址数据;将与恶意网址数据匹配的当前的流量数据作为流量数据包;分析流量数据包以提取对应的流量特征;根据流量特征对当前的流量数据筛选得到黑灰产数据。该方法通过将当前的流量数据与恶意网址数据库的恶意网址数据匹配得到流量数据包,进一步提取流量特征,进而根据流量特征全面筛选当前的流量数据得到黑灰产数据。避免现有的根据人工经验筛选导致的不精准全面问题,提高筛选速度。
73.在上述实施例的基础上,获取当前的流量数据,包括:
74.获取当前的出口流量数据;
75.将当前的出口流量数据输入至流量分光器进行分光得到分光流量数据;
76.将分光流量数据存储为镜像得到当前的流量数据。
77.具体地,获取当前的出口流量数据,出口流量数据是根据用户访问网址时产生的流量数据,从用户自身输出产生的数据。将获取的当前的出口流量数据输入至流量分光器
进行分光得到分光流量数据,进而将分光流量数据存储为镜像得到当前的流量数据。
78.可以理解的是,流量分光器是一种无源光器件,可对光信号的功率强度按照需要的比例进行再分配,数据中心为了减少对原链路的影响,通常采用80:20,70:30的分光比,其中70,80比例的光信号送回原链路。基于网络流量分析的应用汇总,需要对网络流量进行采集,为了降低对原链路的影响,通常采用分光和镜像方式获得原始流量的一份拷贝。
79.通过在网络的核心层或者汇聚层交换机上设置端口镜像,将交换机上联端口的出境流量复制(镜像)一份到前置机上,即可采集到所有用户访问网络的请求。
80.当前的流量数据包含访问信息,即用户访问网址时发出的请求信息,还包括访问者自身的ip地址,所使用的网络具体信息(无线或者有线流量,属于何种运营商等),所在地(包括城市、经纬度),发送请求的时间等。
81.本实施例提供的根据流量分光器和镜像存储得到当前的流量数据,使得流量数据更为全面,通过该方法可以获取得到ip端和域名端的数据。避免现有技术中仅获取一端的数据导致获取的数据不全面进而筛选得到的黑灰产数据不全面。
82.在上述实施例的基础上,步骤s11中的获取恶意网址数据库,包括:
83.获取历史报案数据;
84.将历史报案数据进行清洗以获取恶意网址数据;
85.将恶意网址数据存储并建立恶意网址数据库。
86.具体地,对历史报案数据进行清洗得到报案数据涉及的准确的恶意网址数据,将清洗的恶意网址数据进行存储并建立恶意网址数据库。本实施例仅是一种优选地实施例,可以对其历史报案数据进行滤波处理,或者直接根据历史报案数据进行存储建立恶意网址数据库,本发明不做具体限定。
87.本实施例提供的根据历史报案数据进行清洗并建立恶意网址数据库,以便后续根据恶意网址数据库的恶意网址数据进行参考筛选当前的流量数据,使得数据更具有真实准确性。
88.在上述实施例的基础上,步骤s12中的根据预设字段比较当前的流量数据与恶意网址数据库的恶意网址数据,包括:
89.获取当前的流量数据对应的请求头和当前的目标字段,其中预设字段包括多个目标字段;
90.根据当前的目标字段比较请求头与恶意网址数据。
91.可以理解的是,当前的流量数据在上述实施例中已经详细说明包含何种信息,需要获取当前的流量数据对应的请求头,由于预设字段包括多个目标字段,可以先获取一个目标字段比较当前的流量数据与恶意网址数据,即获取预设字段的当前的目标字段。还可以同时根据预设字段的多个目标字段比较,但会漏筛或者使得筛选的时间较长,以此降低筛选效率。
92.根据当前的目标字段比较当前的流量数据与恶意网址数据以得到后续的流量数据包。
93.本实施例提供的获取当前的目标字段比较获取的请求头与恶意网址数据,避免漏筛或筛选时间较长,采用一个目标字段进行比较,当比较完成后,再获取下一个目标字段进行比较,直到将预设字段的目标字段比较完成,提高筛选效率,节省筛选时间。
94.在上述实施例的基础上,步骤s13中的将与恶意网址数据匹配的当前的流量数据作为流量数据包,包括:
95.根据当前的目标字段判断当前的流量数据是否匹配成功;
96.若是,则将匹配成功的当前的流量数据作为流量数据包,并将当前的目标字段标记;
97.若否,则获取预设字段内除当前的目标字段之外的其他目标字段作为下一个当前的目标字段返回至根据当前的目标字段比较当前的流量数据与恶意网址数据的步骤。
98.根据当前的目标字段以此判断当前的流量数据是否匹配成功,如果成功,则说明根据当前的目标字段匹配的当前的流量数据含有恶意网址数据,则将匹配的当前的流量数据作为流量数据包,并将当前的目标字段标记,以便不再根据当前的目标字段再去匹配比较。
99.如果当前的流量数据根据当前的目标字段未匹配成功,则说明当前的流量数据不含有该目标字段的恶意网址数据,则需要获取下一个目标字段继续比较当前的流量数据,此时的当前目标字段不作任何标记,直到将预设字段的多个目标字段全部比较。
100.最终将多个目标字段比较匹配成功的当前的流量数据作为的流量数据包汇总得到流量数据包组。
101.本实施例提供的将与恶意网址数据匹配的当前的流量数据作为流量数据包,提高筛选效率,节省筛选时间。
102.在上述实施例的基础上,步骤s14中的分析流量数据包以提取对应的流量特征,包括:
103.获取流量数据包的请求头和请求体;
104.将请求头的路径数据作为第一特征;
105.将请求体的变量名数据作为第二特征;
106.将第一特征和第二特征进行合并得到流量特征。
107.具体地,流量数据包包含请求头和请求体内容,在上述实施例中根据预设字段比较的请求头由于预设字段中的字段不全面,故需要根据流量数据包中的请求头和请求体中提取流量特征。图2为本发明实施例提供的一种流量数据包的格式结构图,如图2所示,前7行为请求头,最后一行为请求体,第一行为请求行,也就是请求头中的第一行,其中的路径(/sample.jsp)作为第一特征,获取流量数据包的请求头中的所有字段名为验证条件。
108.请求体中的所有变量名为第二特征,也就是图2中的user_name、pass_word和verifys。图2仅是一种优选地实施例,其中对于特征的选取具体的变量名以及路径仅是一种优选地实施例,可以根据实际情况进行设定提取。
109.将第一特征和第二特征进行合并得到流量特征,即恶意网址的流量特征为请求包同时满足第一特征和第二特征。若获取的流量数据包以组的形式出现,即包含多个数据包,在本实施例中可以并发处理每个数据包的特征提取内容,进而组成流量特征组。
110.本实施例提供的分析流量数据包以提取对应的流量特征,根据筛选得到的流量数据包提取对应的流量特征,以便于根据流量特征二次全面筛选得到黑灰产数据。
111.在上述实施例的基础上,在步骤s15中的根据流量特征对当前的流量数据筛选得到黑灰产数据,包括:
112.根据流量特征对当前的流量数据进行提取得到恶意数据包;
113.获取恶意数据包对应的请求头;
114.根据预设字段对恶意数据包对应的请求头提取预设字段对应的字段值作为目标恶意网址数据;
115.将目标恶意网址数据进行去重处理得到黑灰产数据。
116.具体地,基于流量特征对当前的流量数据进行提取过滤得到恶意数据包,此时获取的恶意数据包可能会与流量数据包相同,也可能会比流量数据包多出不同的数据包,并进行其验证,获取恶意数据包对应的请求头,根据预设字段对请求头提取预设字段对应的字段值作为目标恶意网址数据,其中提取预设字段对应的字段值,为了避免遗漏,和上述实施例相同,采用一个字段筛选完成后,继续下一个目标字段的筛选工作,其筛选对象都是恶意数据包对应的请求头。
117.目标恶意网址数据由于根据流量特征和预设字段筛选得到,会有较多相同的数据,因此需要进行去重避免冗长,得到黑灰产数据。
118.本实施例提供的根据流量特征对当前的流量数据筛选得到黑灰产数据,根据流量特征二次全面筛选得到黑灰产数据,避免现有的根据人工经验筛选导致的不精准全面问题,提高筛选速度。
119.上述详细描述了识别黑灰产数据方法对应的各个实施例,在此基础上,本发明还公开与上述方法对应的识别黑灰产数据的装置,图3为本发明实施例提供的一种识别黑灰产数据的装置的结构图。如图3所示,钟表校准装置包括:
120.获取模块11,用于获取当前的流量数据和恶意网址数据库;
121.比较模块12,用于根据预设字段比较当前的流量数据与恶意网址数据库的恶意网址数据;
122.匹配模块13,用于将与恶意网址数据匹配的当前的流量数据作为流量数据包;
123.分析模块14,用于分析流量数据包以提取对应的流量特征;
124.筛选模块15,用于根据流量特征对当前的流量数据筛选得到黑灰产数据。
125.由于装置部分的实施例与上述的实施例相互对应,因此装置部分的实施例请参照上述方法部分的实施例描述,在此不再赘述。
126.本发明提供的一种识别黑灰产数据的装置,获取当前的流量数据和恶意网址数据库;根据预设字段比较当前的流量数据与恶意网址数据库的恶意网址数据;将与恶意网址数据匹配的当前的流量数据作为流量数据包;分析流量数据包以提取对应的流量特征;根据流量特征对当前的流量数据筛选得到黑灰产数据。该装置通过将当前的流量数据与恶意网址数据库的恶意网址数据匹配得到流量数据包,进一步提取流量特征,进而根据流量特征全面筛选当前的流量数据得到黑灰产数据。避免现有的根据人工经验筛选导致的不精准全面问题,提高筛选速度。
127.图4为本发明实施例提供的另一种识别黑灰产数据的装置的结构图,如图4所示,该装置包括:
128.存储器21,用于存储计算机程序;
129.处理器22,用于执行计算机程序时实现识别黑灰产数据的方法的步骤。
130.本实施例提供的识别黑灰产数据的装置可以包括但不限于智能手机、平板电脑、
笔记本电脑或者台式电脑等。
131.其中,处理器22可以包括一个或多个处理核心,比如4核心处理器、8核心处理器等。处理器22可以采用数字信号处理器(digital signal processor,dsp)、现场可编程门阵列(field-programmable gate array,fpga)、可编程逻辑阵列(programmable logic array,pla)中的至少一种硬件形式来实现。处理器22也可以包括主处理器和协处理器,主处理器是用于对在唤醒状态下的数据进行处理的处理器,也称中央处理器(central processing unit,cpu);协处理器是用于对在待机状态下的数据进行处理的低功耗处理器。在一些实施例中,处理器22可以集成有图像处理器(graphics processing unit,gpu),gpu用于负责显示屏所需要显示的内容的渲染和绘制。一些实施例中,处理器22还可以包括人工智能(artificial intelligence,ai)处理器,该ai处理器用于处理有关机器学习的计算操作。
132.存储器21可以包括一个或多个计算机可读存储介质,该计算机可读存储介质可以是非暂态的。存储器21还可包括高速随机存取存储器,以及非易失性存储器,比如一个或多个磁盘存储设备、闪存存储设备。本实施例中,存储器21至少用于存储以下计算机程序211,其中,该计算机程序被处理器22加载并执行之后,能够实现前述任一实施例公开的识别黑灰产数据的方法的相关步骤。另外,存储器21所存储的资源还可以包括操作系统212和数据213等,存储方式可以是短暂存储或者永久存储。其中,操作系统212可以包括windows、unix、linux等。数据213可以包括但不限于识别黑灰产数据的方法所涉及到的数据等等。
133.在一些实施例中,识别黑灰产数据的装置还可包括有显示屏23、输入输出接口24、通信接口25、电源26以及通信总线27。
134.领域技术人员可以理解,图4中示出的结构并不构成对识别黑灰产数据的装置的限定,可以包括比图示更多或更少的组件。
135.处理器22通过调用存储于存储器21中的指令以实现上述任一实施例所提供的识别黑灰产数据的方法。
136.本发明提供的一种识别黑灰产数据的装置,获取当前的流量数据和恶意网址数据库;根据预设字段比较当前的流量数据与恶意网址数据库的恶意网址数据;将与恶意网址数据匹配的当前的流量数据作为流量数据包;分析流量数据包以提取对应的流量特征;根据流量特征对当前的流量数据筛选得到黑灰产数据。该装置通过将当前的流量数据与恶意网址数据库的恶意网址数据匹配得到流量数据包,进一步提取流量特征,进而根据流量特征全面筛选当前的流量数据得到黑灰产数据。避免现有的根据人工经验筛选导致的不精准全面问题,提高筛选速度。
137.进一步的,本发明还提供了一种计算机可读存储介质,计算机可读存储介质上存储有计算机程序,计算机程序被处理器22执行时实现如上述识别黑灰产数据的方法的步骤。
138.可以理解的是,如果上述实施例中的方法以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:u盘、移动硬盘、只读存储器
(read-only memory,rom)、随机存取存储器(random access memory,ram)、磁碟或者光盘等各种可以存储程序代码的介质。
139.对于本发明提供的一种计算机可读存储介质的介绍请参照上述方法实施例,本发明在此不再赘述,其具有上述识别黑灰产数据的方法相同的有益效果。
140.以上对本发明所提供的一种识别黑灰产数据的方法、装置及介质进行了详细介绍。说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似部分互相参见即可。对于实施例公开的装置而言,由于其与实施例公开的方法相对应,所以描述的比较简单,相关之处参见方法部分说明即可。应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以对本发明进行若干改进和修饰,这些改进和修饰也落入本发明权利要求的保护范围内。
141.还需要说明的是,在本说明书中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个
……”
限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
技术特征:1.一种识别黑灰产数据的方法,其特征在于,包括:获取当前的流量数据和恶意网址数据库;根据预设字段比较所述当前的流量数据与所述恶意网址数据库的恶意网址数据;将与所述恶意网址数据匹配的所述当前的流量数据作为流量数据包;分析所述流量数据包以提取对应的流量特征;根据所述流量特征对所述当前的流量数据筛选得到所述黑灰产数据。2.根据权利要求1所述的识别黑灰产数据的方法,其特征在于,获取所述当前的流量数据,包括:获取当前的出口流量数据;将所述当前的出口流量数据输入至流量分光器进行分光得到分光流量数据;将所述分光流量数据存储为镜像得到所述当前的流量数据。3.根据权利要求1所述的识别黑灰产数据的方法,其特征在于,获取所述恶意网址数据库,包括:获取历史报案数据;将所述历史报案数据进行清洗以获取所述恶意网址数据;将所述恶意网址数据存储并建立所述恶意网址数据库。4.根据权利要求3所述的识别黑灰产数据的方法,其特征在于,所述根据预设字段比较所述当前的流量数据与所述恶意网址数据库的恶意网址数据,包括:获取所述当前的流量数据对应的请求头和当前的目标字段,其中所述预设字段包括多个目标字段;根据所述当前的目标字段比较所述请求头与所述恶意网址数据。5.根据权利要求4所述的识别黑灰产数据的方法,其特征在于,所述将与所述恶意网址数据匹配的所述当前的流量数据作为流量数据包,包括:根据所述当前的目标字段判断所述当前的流量数据是否匹配成功;若是,则将匹配成功的所述当前的流量数据作为所述流量数据包,并将所述当前的目标字段标记;若否,则获取所述预设字段内除所述当前的目标字段之外的其他目标字段作为下一个所述当前的目标字段返回至所述根据所述当前的目标字段比较所述当前的流量数据与所述恶意网址数据的步骤。6.根据权利要求5所述的识别黑灰产数据的方法,其特征在于,所述分析所述流量数据包以提取对应的流量特征,包括:获取所述流量数据包的请求头和请求体;将所述请求头的路径数据作为第一特征;将所述请求体的变量名数据作为第二特征;将所述第一特征和所述第二特征进行合并得到所述流量特征。7.根据权利要求6所述的识别黑灰产数据的方法,其特征在于,所述根据所述流量特征对所述当前的流量数据筛选得到所述黑灰产数据,包括:根据所述流量特征对所述当前的流量数据进行提取得到恶意数据包;获取所述恶意数据包对应的请求头;
根据所述预设字段对所述恶意数据包对应的请求头提取所述预设字段对应的字段值作为目标恶意网址数据;将所述目标恶意网址数据进行去重处理得到所述黑灰产数据。8.一种识别黑灰产数据的装置,其特征在于,包括:获取模块,用于获取当前的流量数据和恶意网址数据库;比较模块,用于根据预设字段比较所述当前的流量数据与所述恶意网址数据库的恶意网址数据;匹配模块,用于将与所述恶意网址数据匹配的所述当前的流量数据作为流量数据包;分析模块,用于分析所述流量数据包以提取对应的流量特征;筛选模块,用于根据所述流量特征对所述当前的流量数据筛选得到所述黑灰产数据。9.一种识别黑灰产数据的装置,其特征在于,包括:存储器,用于存储计算机程序;处理器,用于执行所述计算机程序时实现如权利要求1至7任一项所述的识别黑灰产数据的方法的步骤。10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现如权利要求1至7任一项所述的识别黑灰产数据的方法的步骤。
技术总结本发明提供的一种识别黑灰产数据的方法、装置及介质,适用于互联网技术领域。获取当前的流量数据和恶意网址数据库;根据预设字段比较当前的流量数据与恶意网址数据库的恶意网址数据;将与恶意网址数据匹配的当前的流量数据作为流量数据包;分析流量数据包以提取对应的流量特征;根据流量特征对当前的流量数据筛选得到黑灰产数据。该方法通过将当前的流量数据与恶意网址数据库的恶意网址数据匹配得到流量数据包,进一步提取流量特征,进而根据流量特征全面筛选当前的流量数据得到黑灰产数据。避免现有的根据人工经验筛选导致的不精准全面问题,提高筛选速度。提高筛选速度。提高筛选速度。
技术研发人员:宓晨希 王欣
受保护的技术使用者:杭州安恒信息技术股份有限公司
技术研发日:2022.03.29
技术公布日:2022/7/5