书合文秘网 - 设为首页 - 加入收藏
当前位置 首页 > 范文大全 > 教案设计 >

大规模网络安全处理分析平台架构设计

作者: 浏览数: 关键词: 网络安全 架构 分析 设计 平台

摘 要:文章提出了一种在大流量网络环境下的大规模网络安全处理分析平台的系统架构设计方案,采用分级的思想,分为:第一级——流量汇聚分流;第二级——流量还原实时处理;第三级——文件分析处理;第四级——大数据存储与挖掘分析。通过分级架构,把原本复杂的网络安全处理分析流程,分为四个层面,每个层面都通过专用技术实现处理的优化和加速,并且可以单独扩容单独演进。采用SDN技术,通过统一的集中管理平台,对系统中的各节点下发策略,形成自动化配置和呈现的闭环。

关键词:大数据安全处理;汇聚分流;存储挖掘

中图分类号:TN915.08 文献标识码:A

1 引言

随着网络安全的形势越来越严峻,威胁和攻击手段越来越多样化、越来越难以察觉和抵御,传统的“防火墙+入侵检测+病毒防护”的三种防御手段已经不足以防护诸如DDoS攻击、APT(Advanced Persistent Threat:高级持续性威胁)攻击、来自于内部的攻击以及0day漏洞利用攻击,需要构建立体化的纵深防御体系来抵御这些高级攻击。

现有的企业级应对高级攻击的防护思路是以检测为主,通常是在网络出口处通过镜像或者分光的方式将进出网络的双向流量复制一份,发送给安全分析系统。安全分析系统进行入侵检测、异常流量检测、恶意代码检测等工作;同时,可在安全分析系统后面接存储或者数据挖掘系统,对安全分析结果进行审计和存档,进行深度挖掘,实现对威胁态势的感知和攻击模型的分析和预警。旁路的好处是部署简单,且不会因为性能和处理延时问题造成网络瓶颈,并且可以将分析的结果呈现给安全团队,制定相应的应急响应策略。

企业级的网络安全分析系统架构如图1所示,目前通用的盒式设备可以满足百兆到准万兆的环境,提升性能需要扩充硬件平台的CPU、内存等硬件资源,现阶段最高端的双路Intel志强平台可达双向万兆的实网吞吐量,基本适用于万兆以内环境。受限于进程间通信及网卡收发包机制带来的瓶颈,采用更高端的更多核心的硬件设备(如四路服务器)并不会带来性能上过多的提升。因此,要想进一步提升性能通常需要采用分布式的硬件平台,通过插箱式的架构,将流量经过分流模块按照分发给多块业务板协同处理,可采用高端路由器架构或者ATCA架构。

即使采用分布式硬件平台,性能也有瓶颈,最多也就能够处理几十Gbps的实网流量,对于更大规模如1~10Tbps的网络环境,如运营商骨干网、城域网等,并没有很好的方案。

本文将设计一种在大规模/超大规模流量模型下的网络安全处理分析平台架构设计,要求具备性能扩展弹性灵活、功能模块随意增减、部署简单、不影响现有网络环境、不造成网络瓶颈,且网络两端无感知。

2 架构设计

对于100Gbps以上的网络环境,采用扩容CPU、内存等硬件配置以及业务板卡的Scale-up的方式是不够的,需要全新的集群部署的Scale-out方式。将整个集群系统功能分解为几个要点。

(1)将大规模网络流量复制并进行收集,负载均衡分发给集群中的各个计算节点来进行处理,同时需要保持同源同宿,避免同一条流分发给不同的节点。

(2)针对计算节点对网络流量的分析进行优化,提升单个节点的处理能力。

(3)对于文件的分析,需要在将流量还原成文件之后,负载均衡分发给一个大的文件资源池,进行不同的分析。

(4)将对流量和文件的分析结果保存到大数据存储分析系统中,进行归档审计以及深度数据挖掘,最终实现威胁态势感知。

根据以上功能需求,设计四级的处理架构,如图2和图3所示。

2.1 第一级

一般来说,如此大流量的网络环境,存在于运营商骨干网络中,如国际出口、省口互联网,移动互联网核心网出口,大型IDC机房等,而且一般都有多条等价路由的链路,由于同一个流的不同数据包有可能通过不同的链路,在做网络安全分析时,需要对完整的流量进行还原,因此要将多条链路的双向流量全部接入。一般都是通过分光的方式,在链路中接入分光器,全部复制并汇聚下来。

如果是广域网的流量,接口封装具有多样性,一般来说,有10GE、100GE、10G POS、40G POS、100G OTN等。對于POS接口,走的不是以太网流量,是SDH或者HDLC流量,通用的企业网设备无法识别该协议。另外,广域网中流量复杂,可能会有大于MTU值的巨帧(Jombo Frame)和超小帧(Runt Frame)等存在,企业网设备无法识别该数据,会做丢弃处理,严重时甚至造成程序出错;同样,广域网中会有大量的隧道报文,如QinQ、MPLS(包含多层封装)、VPN、IPinIP、Terado、6to4等,企业网设备同样无法处理。

这就要求第一级能够将多种接口的流量以及广域网中各种流量进行识别和处理,并且处理性能足够,不会丢包。

在对流量汇聚后,第二步的工作是负载均衡分流,且能够将这些流量进行通用化处理,比如进行切片、补齐、隧道头剥离、协议转换等,统一转换成10GE接口,负载均衡分流给后端的第二级的处理集群。

关于负载均衡算法,要求保证同一个流量的所有数据报文转发到同一个计算节点之上,一种常见的实现方式时根据五元组进行HASH运算。对于IPv4报文来说,HASH不均匀的情况还好,但是IPv6由于现在应用较少,大部分地址都集中在某些段,如果对全部128bit的IPv6地址进行HASH,会造成严重的不均匀,因此需要根据实际网络环境调整HASH算法。

在第一级采用大型高端的汇聚分流设备来实现,目前市面上最高端的大型汇聚分流设备整机可以线速处理2Tbps以上的流量,对于大于2Tbps的流量处理需求,可以采用设备堆叠或者集群的方式处理。

2.2 第二级

由于要处理分析的流量巨大,目前单台通用双路x86服务器的处理能力在5Gbps左右,因此就需要大量的服务器来构建分析集群。可以将网络安全的业务模型进行划分,如DDoS攻击检测,入侵检测,HTTP协议检测(WAF的功能、检测SQL注入、跨站脚本攻击等),邮件检测,DNS检测等。在第一级分流时可以根据具体业务的分析内容,进行初步的处理,比如根据协议做过滤,过滤出HTTP、DNS、FTP等协议分发给不同的业务集群,同时还可以将不需要关心的流量进行过滤,比如只关注某个网段的流量,即可将其他流量全部过滤。这样能够从很大程度上降低第二级计算节点的工作量,节省计算资源。同样,针对多个安全分析集群,需要复制多份流量,这就要在第一级汇聚分流设备中即支持过滤又支持多份复制。

集群的单台计算节点处理能力有限,每台大概在5Gbps左右,比如要分析1Tbps的流量,则需要200台设备,如有多套分析系统,设备数量还需翻倍。这对于机房空间、电力能耗和资金成本等来说都是一笔小的开销。

在架构设计时,需要考虑系统性能的优化,通过技术手段提升单个节点的处理能力,从而减少设备使用量,提升系统ROI。

现阶段CPU的处理能力已经很强大,网络安全分析系的瓶颈在于收发包的过程,通用网卡在处理网络流量时存在明显的瓶颈,如图4所示,数据包进入网卡,要发起CPU中断,CPU响应中断,将数据包从内核空间经过协议栈拷贝到用户空间,经过操作系统协议栈的处理,最后才能交给应用程序使用。在这一系列过程中CPU中断和内存拷贝占用了大量的系统资源。

而这些流程占用了CPU大量的资源,事实上如入侵检测、DDoS异常流量分析时,完全不需要经过如此复杂的处理,可对其进行优化。在设计时可以采用两种方式。

(1) 零拷贝技术。可基于网卡自行开发零拷贝驱动或者是使用开源的NetMAP等技术,原理是网卡在收到数据包时,直接DMA(Direct Memory Access,直接内存存取)到用户态内存中,应用程序可直接调用,省去了从内核态到用户态的拷贝。也可以采用比较成熟的DPDK技术,该技术是Intel开发的,需要Intel网卡和CPU的支持,可在网卡层面实现零拷贝快速收发包,并且可以采用Intel配套的用户态协议栈或者自行开发一套精简的协议栈,采用该技术实测可提升2~3倍的处理能力。

(2) 专用网卡。通过专用芯片,如Cavium、FPGA、ASIC等加速数据包的处理,与零拷贝原理一样,可避免内核态到用户态的拷贝,同时,作为专用硬件协处理卡,可以针对不同的安全分析系统进行定制,对更多的流还原、分片重组、过滤、正则表达式匹配高负载应用进行卸载,进一步提升处理能力。

无论哪种技术,其核心思路均是把占CPU计算资源的收发包等简单重复的工作进行卸载,从而释放计算资源,使其更多的用于网络安全分析。

第二级网络安全分析集群也可采用虚拟化的架构搭建,实现弹性扩展,业务快速部署,但如果采用协处理卡,需要其支持SR-IOV技术,以供虚拟机调用。关于虚拟化,本文不再做深入探讨。

2.3 第三级

第二级的计算集群完成的是网络流量的实时分析处理,对流量进行还原,根据定义的模式或者特征库分析攻击行为。对于一些需要深度分析的文件,如音视频、加密文件、可执行程序等,比较耗费资源和时间,在大规模网络安全处理分析平台中,将其分发到另一个集群中进行统一的分析处理。

第二级将网络流量还原成文件后,通过文件负载均衡平台,按照一定的规则分发给第三级文件分析处理平台。该平台同样分为多个分析系统,包括沙箱、音视频文件解析、加密文件破解等。

对于可执行文件、批处理文件和文本文件等,分发给沙箱系统,文件沙箱会模拟运行这些文件,观察其动作,如果发现对系统造成破坏或者大量复制,或者有非法外连行为,则定义其为恶意代码,进行归档和告警。

对于音视频文件,可分析其内嵌字幕、台标等,以及比对人脸、物品等特征。网上传输的一般都是压缩格式的视频文件,在分析时,需要将其转换为原始的YUV格式的视频流,从而对每一帧进行分析。而视频文件的格式转换非常耗费CPU计算资源,可采用协处理卡方式将这部分工作进行卸载。在设计时可以考慮两种方式。

(1) 显卡/GPU。现阶段应用最广泛的方式,显卡输入通用产品,专门用于视频图像处理,性能强劲。但是其也有一定的局限性。首先,尺寸大,全高半长,要占用PCIE x16的槽位,受限于机器空间,每台通用服务器一般也就插一两块;其次,功耗大,都在200瓦以上;最后,采用CUDA编程,较复杂。

(2) 专用视频加速卡。采用Tilera众核芯片或者Xeon E3 CPU(集成GPU显卡),在某些场景下对视频文件的分析性能更强,尺寸小(通常为全高半长、占用PCIE x8槽位),功耗低(几十瓦),编程简单(C语言编程),一台服务器能够插4块卡,整体方案性价比高。

对于加密文件。需要对其密码进行暴力破解,同样采用协处理卡方式进行加速,同样有两种技术路线:(1)显卡/GPU;(2)FPGA。其优缺点与音视频文件的技术路线类似,此处不再赘述。

2.4 第四级

对于分析的结果,需要做归档和离线深度挖掘,构建大数据安全威胁态势感知系统。由于前段分析的是网络中的全部流量,因此能够掌握网络中的全部信息,可以从大量的分析结果中总结出包括攻击频率、攻击模型、攻击特征等,可进一步实现主动安全防御,即安全预警。

第四级大数据存储分析系统需要分析处理的数据包括两部分。

(1) 文件归档。前端分析平台分析日志的保存于呈现;第三级处理后需要归档的各种文件;原始数据包文件,将原始流量保存成Pcap文件,可以在需要时调出进行现场还原,可以构建流量回放取证系统。

(2) 大数据挖掘分析。对前端分析结果进行汇总,通过机器学习、推理等数据挖掘手段,做安全威胁态势感知分析。

由于数据量非常庞大,因此需要采用分布式架构来存储和分析数据。

对于文件归档,采用分布式并行文件系统,将多台低成本的通用存储服务器的存储空间虚拟成一个具有统一访问接口和管理界面的存储池(也叫统一命名空间)。应用服务器通过统一访问接口获得所需得存储资源。用户的数据按照一定的负载均衡策略,条带化的分布到后台的多套存储设备上,从而能够实现数据的并行读写以获得更高的并发访问性能,充分利用多台存储设备的性能和更大的存储容量,并有效的提高存储空间利用率。

对于大数据挖掘分析,采用Hadoop大数据框架来搭建。加速加载和查询,对海量数据实现秒级处理。

3 应用论证

本文设计的大规模网络安全处理分析平台适用于需要对海量流量进行分析处理的应用场景,通常都是大型的大数据分析系统。

(1)大型IDC数据中心及云计算数据中心的安全大数据态势感知系统、不良网站分析系统。

(2)公安、国安、国防等基于骨干网络的流量分析系统、大数据分析系统;公安和运营商的网络分析系统。

(3)运营商、广电网络骨干网的安全分析系统、DPI分析系统、网络优化系统、信令分析系统。

4 结束语

本文设计了一种通过分级处理实现大规模网络安全处理分析平臺架构,通过高性能汇聚分流技术、DPI深度报文检测技术、异构计算加速技术、大数据处理分析技术、机器学习模型训练及推理技术等,解决Tb级海量流量接入与处理的问题,打通计算瓶颈,并应用于骨干网流量的分析与处理,为网络安全与信息安全保驾护航。

参考文献

[1] 杨松岸,杨华,杨宇航.用于TCP/IP减荷的智能网卡的设计与实现[J].计算机工程,2004,30(14):178-180.

[2] 曾宇,刘朝晖,云晓春,孙凝晖.一种可重构智能网卡的设计及实现[C].全国网络与信息安全技术研讨会,2007.

[3] 王佰玲,方滨兴,云晓春.零拷贝报文捕获平台的研究与实现[J].计算机学报,2005,28 (1) :46-52.

[4] 管磊,胡光俊,王专.基于大数据的网络安全态势感知技术研究[J].信息网络安全,2016 (9) :45-50.

[5] 李诗旸,沈军,刘东鑫,邓博仁.基于大数据架构的安全分析技术研究与实践[J].广东通信技术,2017,37 (11) :2-7.

相关文章:

Top