对安全技术运营指标的一些思考
来源:能源安全    发布时间:2024-03-23 04:08:10

  目前,大部分企业主要从工作量和是否发生安全事件两个维度展开对安全工作的评价。作者觉得这两个维度都无法客观评估安全工作实际效果。

  首先,工作量只能体现安全团队做了多少事,也就是“苦劳”。但在脱离工作效果的情况下,工作量的意义非常有限,工作效果决定了我们是不是在“瞎忙”。

  其次,用安全事件评估工作效果几乎是所有安全从业者的痛。虽然谁都知道没有100%的安全,但每次出现安全事件还是会被质疑:“公司投入这么多安全预算,为什么还出问题?”另外,在安全部门申请预算的时候,也会被问到类似“买了这样的产品是不是这一类的问题就不会发生了?”这种问题。

  所以,我们应该一个完善的安全运营指标体系,将以安全事件驱动的效果评估演变成细粒度指标驱动的安全能力评估。在《从运营角度看安全团队的成长》一文的最后,笔者将安全运营体系分为了对内运营和对外运营。但经过思考,我们决定将整个体系改造为技术运营和非技术运营两个维度,如下图:

  笔者团队的目标是通过一套或多套指标体系启动安全技术和非技术工作。而本文的目的是完成对安全技术运营指标的定义。

  笔者团队的目标是通过一套或多套指标体系启动安全技术和非技术工作。而本文的目的是完成对安全技术运营指标的定义。

  笔者将安全运营能力分为覆盖率、准确率、召回率、复发率和时效性五个指标。本文分别对这五个指标的设定和计算方式来进行一些探讨。

  覆盖率:顾名思义,考察的是全面性,漏扫资产不全、威胁检测流量不全是非常冤枉的事,所以覆盖率是安全技术运营的前提,安全能力覆盖不全技术方法再高明也没办法实现既定目标,而且这往往不是安全技术人员能解决的问题。具体来说:

  ① 对于漏洞治理来说,覆盖率主要与资产相关; ② 而威胁治理的覆盖率则与数据来源紧密关联,比如流量分析需要仔细考虑镜像接口的覆盖率,日志分析需要仔细考虑日志收集的覆盖率,等等; ③ 防御能力的覆盖率则与防御能力部署的位置相关;

  准确率:简单的说来,准确率是指检测出的数据中,正确的有多少比例。比如:1000条告警中经过筛选,只有10条需要处理,那么告警的准确率就是1%。

  召回率:是指有多少比例需要的数据被找到了,相比准确率,召回率稍微难理解一些。打个比方:假设网内存在100个漏洞,但是扫描器只发现了80个漏洞,那么扫描器的召回率是80%。召回率计算是一个悖论,悖论的核心是100个漏洞的假设。如果知道有100个漏洞就不需要扫描了。如果不知道,召回率就没有很好的方法计算。这个悖论将在后续的文章中尝试解决。

  准招率:一般来说准确率和召回率是一对相辅相成的参数,趋势上是此消彼长的。比如:网内存在100个需要处理的漏洞,扫描器扫描出120个漏洞,但只有80个是需要处理了,其余40个可忽略。这种情况下漏扫的准确率是80/120≈66.7%,而召回率是80/100=80%。

  ① 对于漏洞管理来说,准招率主要看扫描器误报和漏报,当然通过漏洞管理体系可以某些特定的程度的提高准招率; ② 对于威胁管理来说,准招率至关重要,通过调整分析策略可以灵活调整准确率和召回率,以适合不同场景的应用; ③ 对于防御能力管理来说,要关注边界策略的基线合规率,也能算得上是召回率; ④ 对于应急处置工作来说,要关注应急预案制定和执行的准确率。

  复发率:如果一个企业每类安全事件都只发生一次,那么将是安全体系进步最快的企业。反过来,如果同样的安全事件反复发生,会给整个团队造成一种无力感,甚至幻灭感。看起来好像有点夸张了,试想,如果每次被入侵都是因为弱密码,那我们还搞什么源码审核、APP加固、威胁检测?如果某个业务系统反复出现同样的几个高危漏洞,我们追求覆盖率和准招率还有什么意义?笔者主要将复发率的测算用于漏洞治理中。

  时效性:天下武功唯快不破,虽然有了上面几个指标我们就可以比较好的量化安全技术工作,但攻防之间如果不考虑时效性的问题是有问题的。覆盖率100%,准招率100%,复发率0的漏洞扫描系统如果每年才能完成一次扫描,其效果可想而知。

  ① 漏洞管理的时效性,主要是看从漏洞产生到漏洞修复的时间; ② 威胁管理的时效性,主要看威胁产生到威胁完成处置的时间; ③ 防御能力的时效性,主要看防御能力联动的效率; ④ 应急事件管理的时效性最好理解,主要看从应急事件发生到处置结束的过程,但对于一些复杂事件可以分阶段解决,时效性指标也可以分级制定。写在最后