【强叔侃墙第二季】11 文件泄密难防范,双剑合璧显神威---文件过滤与内容过滤特性原理

digest [复制链接]
发表于 : 2015-11-4 12:03:33 最新回复:2019-08-19 13:42:08
7945 9
强叔侃墙
强叔侃墙 官方号

一位伟人曾经说过:“最坚固的堡垒都是从内部攻破的。”而据国家计算机信息安全测评中心数据显示,互联网接入单位由于内部重要机密通过网络泄密而造成重大损失的事件中,只有1%是被黑客窃取造成的,而97%都是由于内部员工有意或者无意之间泄露而造成的。

传统防火墙对于内部员工这种看似“正常”的泄露机密的操作是无法防范的,因为这些操作既不是网络攻击,也不是入侵病毒。

为此,华为的NGFW针对机密数据泄露的防范推出了文件过滤和内容过滤功能,可以在一定程度上降低机密泄露的风险。

下面强叔就为大家一步步揭开文件过滤和内容过滤的神秘面纱。

文件过滤

文件过滤能够识别出通过NGFW的文件的真实类型,并可以根据文件的真实类型对文件进行过滤。那什么是文件的真实类型呢?举个例子来说,一个Word文件file.doc可以将文件名修改为file.exe,但是它的真实文件类型仍然为doc。另外文件过滤同时也能够识别出文件的扩展名(后缀名)。当文件的真实类型无法识别时,NGFW还可以根据文件的扩展名对文件进行过滤。

那么文件过滤功能为什么能够降低机密数据泄露的风险呢?因为机密信息一般保存在文档中,而且文档还可以被压缩形成压缩文件。如下图所示,内部员工上传包含机密的文档到外网或者黑客从内网服务器窃取机密文档,都会导致公司机密或用户信息的泄露。所以通过文件过滤功能阻止内网用户上传文档文件和压缩文件到外网,以及阻止外网用户从内网服务器下载文档文件和压缩文件,可以大大降低机密信息泄露的风险。

 

【强叔侃墙第二季】11 文件泄密难防范,双剑合璧显神威---文件过滤与内容过滤特性原理-1340857-1 

 

文件过滤功能还可以降低病毒文件进入公司内部网络的风险。因为病毒常常包含在可执行文件中,且病毒的反检测和渗透防火墙的能力越来越强。所以阻止内网用户从外网下载可执行文件或阻断外网用户上传可执行文件到内网服务器,可以大大降低病毒进入内网的风险,如上图所示。

另外文件过滤功能还能够阻止占用带宽和影响员工工作效率的文件传输。因为公司员工下载大量与工作无关的视频和图片文件,会占用公司网络带宽,降低工作效率。所以如上图所示,阻止内网用户从外网下载视频、图片和压缩文件,可以保证正常业务的带宽和员工的工作效率。

文件过滤是对针对文件类型进行过滤,也就是会整体过滤掉某个类型的文件。然而在实际应用中,整体过滤掉一类文件虽然可以降低泄密风险,但也会妨碍正常的工作生活。所以这时我们就需要配合内容过滤功能,以便更精细的识别和过滤文件的内容。

内容过滤

内容过滤能够对用户上传和下载的文件内容中包含的关键字进行过滤。这里的“文件”可以是Word文档(DOC文件)的内容,也可以是用户发帖、发布微博的HTML文件内容。

下面我们来看下为什么内容过滤能够降低机密数据泄露的风险。如下图所示,通过NGFW的内容过滤功能,公司可以对内网用户对外发送的文档或邮件内容进行过滤,阻止内网用户发送包含公司机密信息的文档或邮件;还可以对内网用户发布的微博和帖子内容进行过滤,阻止内网用户发布包含公司机密信息的微博和帖子。另外通过内容过滤功能,还可以对外网用户从内网服务器下载的文件内容进行过滤,防止黑客窃取包含公司机密信息的文件。

 

【强叔侃墙第二季】11 文件泄密难防范,双剑合璧显神威---文件过滤与内容过滤特性原理-1340857-2

 

如上图所示,内容过滤还可以降低因员工浏览、发布、传播违规信息而给公司带来的法律风险。具体做法是在内网用户的下载方向及服务器的上传方向过滤掉包含敏感信息等违规内容的文件。另外内容过滤还能够阻止员工浏览、下载与工作无关的内容,提高工作效率。

 

实现原理

之所以将文件过滤和内容过滤一起来讲,一是这两个特性的应用场景相似且经常配合一起使用;二是因为这两个特性的实现原理有关联之处:他们都需要进行文件类型识别,而且文件过滤后才能进行内容过滤。

下面我们就来一起看下文件过滤和内容过滤的实现原理。 文件过滤和内容过滤的相关模块和总体处理过程如下图所示。

【强叔侃墙第二季】11 文件泄密难防范,双剑合璧显神威---文件过滤与内容过滤特性原理-1340857-3 

下面来分别介绍各模块的作用和实现原理。

【强叔侃墙第二季】11 文件泄密难防范,双剑合璧显神威---文件过滤与内容过滤特性原理-1340857-4数据重组

数据重组模块负责将网络流量中的IP分片报文重组以及TCP流重组,确保了报文的顺序以及应用层数据的连续性。

【强叔侃墙第二季】11 文件泄密难防范,双剑合璧显神威---文件过滤与内容过滤特性原理-1340857-5应用识别

应用识别模块能够识别出承载文件的应用类型。文件过滤和内容过滤能够对以下应用承载的文件进行过滤。

分类

应用

常用协议

HTTPFTPSMTPPOP3NFSSMBIMAPRTMPTFLASH格式的流媒体

文件共享

迅雷、AIMINIK_JAVAHOTFILE126网盘、115客户端、115网盘、3A网盘、360软件管家、360云盘网页版、360云盘、139邮箱硬盘、139网络硬盘、1000EB163网盘、16密盘、99盘网页版、119G网盘、ALIDISK6DISKCTDISK网盘、HOWFILEHULKSHAREBAYIMGCNETDOWNLOADAPPHIT2SHAREDBABELGUM

【强叔侃墙第二季】11 文件泄密难防范,双剑合璧显神威---文件过滤与内容过滤特性原理-1340857-6协议解码

协议解码负责对编码的协议报文数据进行解码,解析出数据流中的文件数据和文件传输方向(上传或下载)。

【强叔侃墙第二季】11 文件泄密难防范,双剑合璧显神威---文件过滤与内容过滤特性原理-1340857-7文件类型识别

           文件类型识别模块负责根据文件数据识别出文件的真实类型和文件的后缀名(也叫扩展名),并会进行文件类型异常检测。文件类型异常检测流程如下图所示。

 

文件类型异常检测流程的具体说明如下:

1)        判断是否格式损坏文件,若“是”则执行“文件损坏时动作”,“否”则进入下一步。

“文件损坏时动作”有以下三种:

l  允许:不做任何处理,允许文件通过。

l  告警:记录文件异常日志,允许文件通过。

l  阻断:记录文件异常日志,阻断文件通过。

需要注意的是对于格式损坏文件,无论动作如何,将不进行文件过滤和内容过滤检测。

2)        判断是否识别出了文件的真实类型,若“否”则执行下一步;“是”则继续检测文件后缀类型与文件真实类型是否匹配,若“是”则直接输出,“否”则执行“文件扩展名不匹配时动作”。

“文件扩展名不匹配时动作”与“文件损坏时动作”相同,有“允许”、“告警”和“阻断”三种动作。

需要注意的是如果“文件扩展名不匹配时动作”为“允许”和“告警”,则会继续根据文件真实类型进行文件过滤和内容过滤检测。

3)        判断是否存在文件后缀名,若“是”则直接输出,“否”则执行“文件类型无法识别时动作”。

“文件类型无法识别时动作”与“文件损坏时动作”相同,有“允许”、“告警”和“阻断”三种动作。

需要注意的是如果“文件类型无法识别时动作”为“允许”和“告警”,则会继续根据文件后缀名进行文件过滤,但无法进行内容过滤。

文件类型异常检测流程中的动作都是由管理员在“文件过滤全局配置”界面中定义的。

【强叔侃墙第二季】11 文件泄密难防范,双剑合璧显神威---文件过滤与内容过滤特性原理-1340857-8文件过滤

文件过滤模块会将之前模块识别出的文件的应用类型、文件类型、传输方向与管理员配置的文件过滤规则查询表进行从上到下的匹配,例如下图所示。

如果文件的所有参数都能够匹配一条文件过滤规则(例如下图中的标红规则),那么模块将执行此文件过滤规则的动作。如果未匹配到任何一条文件过滤规则,那么文件过滤模块会允许此文件通过。

文件过滤的动作有两种:阻断和告警。如果动作为“阻断”,则模块会记录日志,并阻断文件的传输。阻断的文件将不会再进行内容过滤检测。如果动作为“告警”,则模块会记录日志,并允许文件通过。文件过滤允许通过的文件,如果有需要,还会继续进行内容过滤检测。

【强叔侃墙第二季】11 文件泄密难防范,双剑合璧显神威---文件过滤与内容过滤特性原理-1340857-9

 

【强叔侃墙第二季】11 文件泄密难防范,双剑合璧显神威---文件过滤与内容过滤特性原理-1340857-10文件解压

如果文件类型是压缩文件,那么在进行文件过滤检测后,文件将会被送到文件解压模块进行解压缩,解压出原始文件。

在解压过程中,解压模块还会判断压缩文件是否超出最大解压层数或是否超出最大解压文件大小。如果超出,则解压失败,模块会分别执行“超出最大解压层数时动作”或“超出最大解压文件大小时动作”。这两种动作也是由管理员在“文件过滤全局配置”界面中定义的,也有“允许”、“告警”和“阻断”三种结果。这时无论动作执行结果如何,文件都不会再进行文件过滤和内容过滤检测。

如果文件能够正常解压,那么解压后的文件将会再被送到文件类型识别模块进行文件类型识别和文件类型异常检测,然后识别出文件类型的解压文件还会再次进行文件过滤和内容过滤检测。

【强叔侃墙第二季】11 文件泄密难防范,双剑合璧显神威---文件过滤与内容过滤特性原理-1340857-11内容过滤

文件过滤模块允许文件通过后(未匹配规则或匹配规则但动作为“告警),如果配置了内容过滤功能,那么内容过滤模块会继续对文件进行检测。

内容过滤模块是由多个子模块组成的,具体如下图所示。

【强叔侃墙第二季】11 文件泄密难防范,双剑合璧显神威---文件过滤与内容过滤特性原理-1340857-12

 

内容过滤各模块的作用与检测流程具体如下:

1)  规则匹配:规则匹配模块会首先将之前模块识别出的文件的应用类型、文件类型、传输方向与管理员配置生成的内容过滤规则查询表进行匹配。如果文件的所有参数都能够匹配其中一条内容过滤规则(如上图中红色字体的规则),那么内容过滤的其他模块会继续对文件进行检测。如果未匹配到任何一条内容过滤规则,那么内容过滤模块会允许此文件通过。

2)  文件解码:如果文件的参数能够匹配内容过滤规则,那么文件解码模块就会负责提取出此文件中的文本数据,用于后续进行内容匹配。这种设计是十分高效的,保证了不需要进行内容过滤的文件不用消耗性能和时间进行文件解码。

3)  内容匹配:内容匹配模块负责将文件解码出的文本数据与内容匹配状态机中的关键字信息进行匹配,用于检测文件的文本数据中是否存在需要过滤的关键字,并记录每个关键字的匹配次数。如果内容匹配模块没有检测出文件中存在关键字,则整个内容过滤模块会允许文件通过。

关键字是由管理员在“关键字组”界面配置的,是管理员希望检测并过滤的内容。

配置关键字时有“预定义关键字”和“自定义关键字”两种方式。

l  预定义关键字是系统默认存在的可以识别的关键字,包括:银行卡号、信用卡号、社会安全号、身份证号、机密关键字(包括“秘密”、“机密”、“绝密”)。

l  自定义关键字是管理员自定义的需要识别的关键字,有文本和正则表达式两种定义方式。

n  文本方式是使用文本的方式表示需要识别的关键字,例如管理员想要识别关键字“***”,只需要自定义文本方式的关键字“***”即可。文本方式配置简单,匹配精确。

n  正则表达式方式是使用正则表达式的方式表示需要识别的关键字。与文本方式不同的是一个正则表达式可以表示多个关键字。例如正则表达式“abc.de”中的“.”可以匹配任意单个字符,所以“abc.de”可以表示“abcxde”、“abcyde”、“abc8de”等等。正则表达式方式匹配更加灵活和高效,但配置需要遵循正则表达式规则。

4)  威胁检测:如果内容匹配模块在文件中识别出了关键字,则文件需要继续通过威胁检测模块进行处理。威胁检测模块会从内容过滤规则查询表中获取匹配的内容过滤规则的动作,并根据内容匹配模块的结果对文件进行处理。

内容过滤规则有三种动作:

l  告警:如果内容匹配模块检测出文件中存在关键字,则记录日志,但允许文件通过。

l  阻断:如果内容匹配模块检测出文件中存在关键字,则记录日志,并阻断文件传输。

l  按权重操作:前面提到的关键字组在配置时可以为其中的每个关键字都设置一个权重值。当动作为“按权重操作”时,威胁检测模块会将各个关键字的权重值按出现次数累加求和。然后模块会将权重值的和与内容过滤规则中的告警阈值阻断阈值进行比较。

n  如果权重值的和小于“告警阈值”,则模块会允许此文件通过。

n  如果权重值的和大于等于“告警阈值”且小于“阻断阈值”,则模块会执行“告警”动作。

n  如果权重值的和大于等于“阻断阈值”,则模块会执行 “阻断”动作。

举个例子来说,管理员在配置关键字组时配置了关键字a的权重值为1,关键字b的权重值为2;在配置内容过滤规则时“动作”选择了“按权重操作”,“告警阈值”设置为2,“阻断阈值”设置为8。如果一个文件中在内容匹配模块检测出了三次关键字a和两次关键字b,这时威胁检测模块会计算出权重值的和为7=3×1+2×2。由于权重值的和7大于“告警阈值”2,小于“阻断阈值”8,威胁检测模块会执行“告警”动作。

 

以上就是文件过滤和内容过滤的应用场景和实现原理。下一篇强叔将为大家带来文件过滤和内容过滤的配置部分介绍,敬请期待!

本帖被以下专题推荐:

  • x
  • 常规:

点评 回复

跳转到指定楼层
员Lemon
员Lemon  专家 发表于 2015-11-4 13:48:37 已赞(1) 赞(1)

多谢分享!
  • x
  • 常规:

点评 回复

Ted1989
Ted1989   发表于 2015-11-4 15:39:12 已赞(1) 赞(1)

等了好久强叔终于更新了

  • x
  • 常规:

点评 回复

HWID00012079
HWID00012079   发表于 2015-11-4 20:58:13 已赞(2) 赞(2)

强叔 威武!

  • x
  • 常规:

点评 回复

安全初学者
安全初学者   发表于 2016-8-12 22:29:33 已赞(1) 赞(1)

强叔,你好,

扩展名改了再压缩,如何识别的呢?

文档加密再上传如何识别文档中的内容呢?

谢谢。

  • x
  • 常规:

点评 回复

安全初学者
安全初学者   发表于 2016-8-12 22:30:17 已赞(1) 赞(1)

强叔,你好,

扩展名改了再压缩,如何识别的呢?

文档加密再上传如何识别文档中的内容呢?

谢谢。

  • x
  • 常规:

点评 回复

杜趾文
杜趾文   发表于 2018-1-4 17:40:29 已赞(1) 赞(1)

强叔威武
  • x
  • 常规:

点评 回复

另糊葱
另糊葱   发表于 2019-3-27 18:00:57 已赞(1) 赞(1)

微信怎么拦截不了,文件照发不误
  • x
  • 常规:

点评 回复

GhostBoy
GhostBoy   发表于 2019-8-16 09:27:30 已赞(1) 赞(1)

学习【强叔侃墙第二季】11 文件泄密难防范,双剑合璧显神威---文件过滤与内容过滤特性原理-3035739-1【强叔侃墙第二季】11 文件泄密难防范,双剑合璧显神威---文件过滤与内容过滤特性原理-3035739-2【强叔侃墙第二季】11 文件泄密难防范,双剑合璧显神威---文件过滤与内容过滤特性原理-3035739-3【强叔侃墙第二季】11 文件泄密难防范,双剑合璧显神威---文件过滤与内容过滤特性原理-3035739-4
  • x
  • 常规:

点评 回复

Yep
Yep   发表于 2019-8-19 13:42:08 已赞(1) 赞(1)

学习学习【强叔侃墙第二季】11 文件泄密难防范,双剑合璧显神威---文件过滤与内容过滤特性原理-3038127-1
  • x
  • 常规:

点评 回复

福建龙田网络科技
发表回复
您需要登录后才可以回帖 登录 | 注册

警告 内容安全提示:尊敬的用户您好,为了保障您、社区及第三方的合法权益,请勿发布可能给各方带来法律风险的内容,包括但不限于政治敏感内容,涉黄赌毒内容,泄露、侵犯他人商业秘密的内容,侵犯他人商标、版本、专利等知识产权的内容,侵犯个人隐私的内容等。也请勿向他人共享您的账号及密码,通过您的账号执行的所有操作,将视同您本人的行为,由您本人承担操作后果。详情请参看“隐私声明
如果附件按钮无法使用,请将Adobe Flash Player 更新到最新版本!
登录参与交流分享

登录参与交流分享

登录