我们明确了安全运营是什么,那么,如何衡量安全运营工作的好坏呢?首先,需要有一系列
衡量指标。有指标才能判断当前距离目标的差距。
根据不同的安全系统,可能有的指标有所不同,但大的指标包括这两大类:系统覆盖率、策略有
效率和误报率。前者是指安全系统对被保护对象的覆盖比率,关注工程落地,比如公司有一万台
服务器,目前HIDS已部署了5000台,这个系统覆盖率就是50%;后者衡量安全系统对安全风险
的有效应对情况,关注策略效果,比如HIDS理应发现各类WebShell,目前有样本1000个,HID
S能发现800个,策略有效率就是80%,实际运营过程中发现1000个WebShell,有1个最终确认
不是,那这个策略误报率就是0.1% —— 一个误报率高的系统最终是没法运营的,那就等于没有。
效率和误报率。前者是指安全系统对被保护对象的覆盖比率,关注工程落地,比如公司有一万台
服务器,目前HIDS已部署了5000台,这个系统覆盖率就是50%;后者衡量安全系统对安全风险
的有效应对情况,关注策略效果,比如HIDS理应发现各类WebShell,目前有样本1000个,HID
S能发现800个,策略有效率就是80%,实际运营过程中发现1000个WebShell,有1个最终确认
不是,那这个策略误报率就是0.1% —— 一个误报率高的系统最终是没法运营的,那就等于没有。
一个好的安全系统,一定是朝着提升覆盖率、提升有效率、降低误报的目标前进的:任何脱离覆
盖率谈有效率的安全系统都是扯淡;数据上既要看率也要看绝对量,当基数足够大的时候任何一
点抖动背后可能就是很大的改进空间;任何误报率高的安全系统都是没法运营的,那就等于没有
。这是个理想情况,实际执行过程中会遇到各种问题和特殊情况:
盖率谈有效率的安全系统都是扯淡;数据上既要看率也要看绝对量,当基数足够大的时候任何一
点抖动背后可能就是很大的改进空间;任何误报率高的安全系统都是没法运营的,那就等于没有
。这是个理想情况,实际执行过程中会遇到各种问题和特殊情况:
HIDS是支持Windows/Linux的,但是还有20台是Mac系统,这20台算不算到分母? HIDS的一个
功能插件不支持某些Linux版本,那这个算不算已覆盖?年初HIDS的WebShell策略有效率是80%
,经过一年的规则迭代,又增加了100个样本检测,然后现在突然有人在网上发布了新的WebSh
ell手法,这种新手法产生的样本有120个,那么现在怎么算策略有效率?HIDS今年发现了2个W
ebShell效果事件,其中1个是误报,这个策略误报率50%到底是好是不好呢?
功能插件不支持某些Linux版本,那这个算不算已覆盖?年初HIDS的WebShell策略有效率是80%
,经过一年的规则迭代,又增加了100个样本检测,然后现在突然有人在网上发布了新的WebSh
ell手法,这种新手法产生的样本有120个,那么现在怎么算策略有效率?HIDS今年发现了2个W
ebShell效果事件,其中1个是误报,这个策略误报率50%到底是好是不好呢?
另外,量变引起质变,当基数足够大的时候,即使是一个简单的问题也会非常复杂 —— 就像经
典力学仅适用宏观世界一样,在海量面前,过去的一些做法可能都不适用。比如我们管理1000
台统一配置的服务器的时候可以管理得很好,但是服务器数量到了数十万,根据业务需要又有
各种不同的硬件和软件,复杂度将呈几何级增加,到最后即使是一个小小的软件版本统计需求
,可能都会成为浩大的工程 —— 安全运营就显得更为重要。
典力学仅适用宏观世界一样,在海量面前,过去的一些做法可能都不适用。比如我们管理1000
台统一配置的服务器的时候可以管理得很好,但是服务器数量到了数十万,根据业务需要又有
各种不同的硬件和软件,复杂度将呈几何级增加,到最后即使是一个小小的软件版本统计需求
,可能都会成为浩大的工程 —— 安全运营就显得更为重要。
还有一些视具体系统而定的指标,比如:漏洞扫描系统检测一轮所有域名/IP的耗时、HIDS发
现入侵到告警的时间、DDoS的单机防护能力、WAF性能延时、应急响应时长等等。比如我们
在推动的公司网站HTTPS改造项目中,提炼的三个重要指标是覆盖率、合规率、待改造域名
数(有率有量,避免偏差),然后运营同学不断推动,提升指标接近目标。下图是某个时刻
的HTTPS项目指标通过SOC平台(我们内部叫安全服务中心)展示:其次,需要进行实战检
验。从前一段的各种问题可以看到,衡量指标是数据,从不同角度解读数据会产生不一样的
结论,所以不要轻信各种主观得出的覆盖率100%、有效率100%的这种结论(很可能前置条
件是排除了某些特殊情况以及仅测试自己收集的样本,甚至还有一部分情况被统计遗漏),
一定要邀请独立的蓝军进行实战检验,笔者在讲红蓝对抗建设的文章里说过,实战是检验防
护能力的唯一标准。
现入侵到告警的时间、DDoS的单机防护能力、WAF性能延时、应急响应时长等等。比如我们
在推动的公司网站HTTPS改造项目中,提炼的三个重要指标是覆盖率、合规率、待改造域名
数(有率有量,避免偏差),然后运营同学不断推动,提升指标接近目标。下图是某个时刻
的HTTPS项目指标通过SOC平台(我们内部叫安全服务中心)展示:其次,需要进行实战检
验。从前一段的各种问题可以看到,衡量指标是数据,从不同角度解读数据会产生不一样的
结论,所以不要轻信各种主观得出的覆盖率100%、有效率100%的这种结论(很可能前置条
件是排除了某些特殊情况以及仅测试自己收集的样本,甚至还有一部分情况被统计遗漏),
一定要邀请独立的蓝军进行实战检验,笔者在讲红蓝对抗建设的文章里说过,实战是检验防
护能力的唯一标准。