郑太海:多场景下的安全运营集约化

2023-07-19 14:08 郑太海

作者简介:郑太海,毕业于中山大学网络工程专业,现任某金融科技企业安全团队负责人。曾任职于多家头部世界500强企业,从事网络安全工作十余年,熟悉各行业的信息安全建设规划,对企业安全合规、个人隐私保护、安全治理等方面有较丰富的经验。



当前在外部安全威胁不断加剧的背景下,为提升抗风险能力,安全、业务部门投入大量资源落实包括安全意识、数据安全、主机安全、研发安全等110+项具体工作,但结果却出现投入多、效率低、用户满意度差的情况,亟待建立集约型安全服务平台,基于集约化、场景化、自动化措施解决以下问题。


一.安全威胁分类


1.安全风险分散

安全系统是烟囱式部署,风险数据割裂,各种风险数据存在不同系统或设备中。比如网络攻击数据,在WAF、NGFW、APT、态势感知等系统各有一部分,需要建立一个集约型安全服务平台。


2.安全工作缺乏端到端场景

单一安全系统或设备难以满足业务场景化需求,需要基于业务场景化把安全与运维、工单、授权、管理等系统有机结合起来。比如超融合安全运维场景,就整合SSO单点登录、账号纳管、动态授权、自动代填密码登录能力,达到了快速交付能力,实现端到端安全运维场景。


3.安全工作自动化能力不足

在攻防对抗过程中,面对庞大信息资产,缺乏体系化和成熟的自动化能力,脆弱性暴露时间越长,攻击成功概率越大。比如:面对大量对外主机需要修复Log4j漏洞、Tomcat、Nginx漏洞等,有自动化漏洞修复能力,可以快速修补这一风险。


二、项目目标——一体化安全服务平台


在此背景下,多场景安全运营集约化项目应运而生。


多场景安全运营集约化项目最终的目标是打造一个一体化安全服务平台,具有集约、服务和提效的功能,其中包括:


1、安全服务集约化:对接内部云、外部云、混合云等场景下主机漏扫平台、入侵检测平台、研发安全漏扫平台、数据安全管控平台、安全考核平台等多环境几十种维度的安全风险数据,整合安全资源,聚合多环境、多系统数据,打造统一安全服务平台。


2、安全能力场景化:聚焦用户痛点,提炼用户应用场景,打造针对性功能和流程,补齐最后一公里短板。规划设计了一键修漏洞/基线/弱口令、密码纳管自动授权(动态授权)、一键Bypass/封堵IP、自助委托策略等8个安全业务场景,为用户提供基于场景、融入业务流程的安全服务能力。


3、安全工作自动化:打通流程断点/阻点,通过平台和系统对接,让数据流动起来,让数据多跑路,让用户节省时间,提高效率,改善体验。

(1)打通断点:通过平台对接,为用户提供批量修复漏洞/基线便捷功能。

(2)打通流程:通过打通风险数据与工单系统,实现漏洞考核申请全流程自动化贯通。

(3)打通系统:通过打通堡垒机、特权系统,一体化平台实现用户自助托管主机账号密码,即实现自动授权/动态授权运维通道使用等等。


三、建设一体化信息安全服务平台

图1 一体化信息安全服务平台


一体化信息安全服务平台具备业务和安全两个视角:上层业务层是开发和运维;下层安全层由下往上依次是安全资源层、模块层和服务层。我们先从安全层的最下面安全资源层开始介绍:


1、安全资源层:这里说的资源就是指日常的风险扫描器,HIDS主机入侵监测和TIP威胁情报,还包括了像研发安全的代码扫描、数据安全层面的分类分级,以及终端安全的防病毒托管和基于情报的态势感知等等,我们把它统称为安全资源层。


2、模块层:大部分公司在部署这些设备的时候,都属于烟囱式的部署,数据是割裂的,我们需要把安全资源层整合成一个个的模块,我们按照标准的开发安全、网络安全、主机安全、安全管理、数据安全等整合成安全模块。在这个模块里面,我们主要关注“安全事务”,什么叫“安全事务”?就是我们要去处理一件安全的事情,比如说修复漏洞,以及去关注一些安全的指标,像口令、基线的及时修复率等,我们需要在不同的模块里去定义下来。


3、服务层:模块层再往上是服务层,服务层是对模块层的进一步抽象,是把从安全资源抽象成模块以后,再把相应的资源里面的接口抽离出来,然后对外封装成一种安全服务,比如开发安全服务、网络安全服务、主机安全服务和安全管理服务等。


最后,也就是最上层的业务层。从业务人员的视角来看,如果你是一个业务部门的Leader,登录平台时最关心的内容是部门所管理的资产面临的安全风险有哪些、有哪些漏洞没修复、有多少可疑的资产、数据安全层面的有哪些风险。


第二个重要的点是待办。比如说部门的安全专员登录平台之后,除了看风险之外,还要看他自己的待办,要看他的行事日历,每天要做的安全工作有哪些?比如说漏洞修复的排期要求是怎样的、有多少漏洞是这个月必须要修复的、有多少漏洞是可以等到下个月或者下个季度去修复的。


四、超融合安全运维场景


第三个重要的内容是场景化,也是业务人员最关心的视角之一。基于业务视角的信息安全服务平台被定义之后,然后去开展一些相应的安全运营工作。


接下来我会举两个关于场景化的例子,通过这两个例子能够很好地去解决业务人员和非安全人员在整个开发运营过程当中遇到的问题。


第一个场景我们内部叫做超融合安全运维场景。超融合主要是解决以下问题:

图2 超融合安全运维场景


第一个例如上图的SSO单点登录,我们将它融合进来进行处理。很多公司上了堡垒机,需要登陆要运维的目标机器的时候,还要再去登录一个跳板机,再比如要去运行很多专业的命令的时候,必须在一台跳板机上才能够去实现,这个时候就需要进行多跳。从第一跳堡垒机到第二跳目标机,最后到第三跳跳板机,需要输入三遍用户名密码,如果还有些堡垒机的目标机是基于双因素的话,就要输4遍密码,等待4分钟左右,这种情况会导致效率较低。所以第一个场景我们是解决SSO单点登录的问题,就是如何让用户登录一次之后,把SSO的信息带到各个安全的目标业务系统里面。


第二个是我们解决了账号纳管,通过超融合的一个入口,我们可以统一地去纳管用户的主机账号,然后在整个主机进行申请的时候,只要投产,就会经过自动化的流程把账号纳管进来,也就是通过特权账号系统把账号输进来,不用操作者去管密码了。


第三个解决的是动态授权应用。传统环境下,用户登录的时候,我们得手动给用户分配,客户登录堡垒机之后,他能访问哪些目标机器,这个时候我们可以通过超融合入口,去打通内部的CMDB(见图2右下角CMDB的内部配置管理系统),然后去自动确认属于哪个组织架构,再自动分配他自己有权限的那一部分运维的目标机器。


第四个解决的是主机的自动代填登录,这一块是解决输密码的问题,传统环境下登录堡垒机之后再登录目标机,还得再输密码,这里我们通过WebSSH的前端和后端的一些方式去实现主机密码的自动代填。


最后是变更安全管控。图2的左上角有一个工单系统,如果说用户要进行变更的时候需要读取申请变更的工单,然后把工单里的信息提炼出来,比如说有效期,要访问的目标机器再给到SSH后端,然后把这部分信息带到后端之后,再自动地去分配操作窗口,有效期过了之后,变更工单会自动失效。


所以超融合运维场景是去解决多云环境下各类问题的一个复杂性场景,是去解决不同的登录入口,然后不同环境下的资产和事件的处置,包括怎么统一和将流程自动串联起来,以及这些资产和权限归属的自动分配等等。


五、自动化漏洞修复场景


1、传统手工修复漏洞方式


图3 手工修复流程示意图


传统环境下,安全人员会周期性地配置扫描任务(这里讨论的主要是指主机或是组件的漏洞,不包括应用层的漏洞)。让安全人员去配置扫描任务,在指定时间内扫描完之后会经过安全人员的评审,手动、人工地去评审和确定,排除如误报、资产归属不准等情况,然后再把扫描报告发给相应的团队,相应的团队自己也会再做第二次评估,利用第二轮评估再去确认哪些是不用修复的,哪些是误报。


评估完了以后进入推修环节,主机团队或者运维团队需要自己打补丁,或者更新一些组件。操作完之后进入到验证环节,会把手工修复的邮件回传给安全团队,去让安全团队再次扫描和验证,基本上是一个T+1或者T+N的周期。


具体手工修复流程如图3所示,我们可以看到传统的手工修复漏洞方式存在人工修复成本高、比较耗时和费力,同时也存在效率较低和修复周期长的问题。另外,部门安全专员收到漏洞推修邮件,需要导出多套环境的资产信息,与多套环境的风险漏洞数据,进行手动关联,得到最终主机运维方或属主,再分发到部门内部人员,且线下跟催和推修,容易遗漏,效率不高。


这个场景既是安全部门的痛点,也是运维部门开发部门的痛点。


2、自动化漏洞修复方式


图4 自动化修复流程示意图


自动化修复漏洞有几个方面能做到自动化:


第一个是评审自动化,先制定评审原则,然后将其沉淀成策略,比如说主机团队的一些评审的原则,做成策略之后,然后放到平台里面,扫出的报告进行自动解读,符合策略的,才继续往下推修。


第二个是修复自动化,需要针对不同类型的漏洞深入分析,制定自动修复的脚本,比如说打补丁,补丁源下什么版本?把它做成脚本之后然后配置在一个固定的地方,然后通过程序自动地调用,因此整个脚本的维护包括了主机团队、应用团队以及安全团队的一些专家共同组成,大家一起共同来维护主机的脚本。


第三个是验证自动化,传统方式的整个验证是通过邮件来回确认,时间周期较长,验证自动化是在运维方修复漏洞之后,可以点一键验证环节,去触发调度扫描器,扫描器扫描目标资产的同时返回扫描结果,然后通过平台反馈给点击验证环节的用户,这时候用户可以知道哪些是需要修复的,下载的更新包或者补丁是不是有效的,且能快速得到反馈结果。


第四个方面是CMDB自动化,资产的分配管理,整个扫描分配环节和验证环节,都是通过对接CMDB进行资产的自动分配,当然会出现CMDB数据不准的问题。


因此,自动化修复漏洞方式具有自动聚合数据的优势,据统计效率能较之前以提升大约60倍,另外可以精简修复动作,用户只需一步操作。


综上所述,一体化信息安全服务平台,聚合多维安全数据(如信息资产、安全设备、系统、网络信息、数据安全、事件和预警等数据),打造满足安全管理的多个管理场景:

1、基于风险的漏洞全生命周期闭环管理(含自动化处理)。

2、基于主机账号全流程纳管与应用(含运维特权账号)。

3、基于数据安全的全生命周期线上化、自动化、批量化处理与管理。


通过多元数据整合,系统拉通,围绕信息安全管理目标,打造了可支撑和助力业务价值实现的丰富安全管理场景和能力,提升企业信息安全管理水平。


超融合安全运维场景,统一平台和入口,与一体化信息安全服务平台对接,实现动态授权,密码自动代填登录,SSO单点登录等提效功能,实现快速、便捷、安全的二大安全运营场景,在传统的运维模式下,创新性地解决了云计算环境下快速交付后立即使用的安全运维场景。


漏洞自动化修复场景,通过与运维管理系统对接,构建了一条自动化安全风险处理通道,定期组织专家开发批量安全风险处理脚本,通过一体化信息安全服务平台,进行适配、管控、自动下发,辅助安全风险快速处置关闭,大大提升安全运营效率,减少了处理风险的成本。


六、项目亮点、价值与意义


风险产出效率提升60倍:通过拉通多云环境,多套安全平台和系统的多维度风险数据,进行线上聚合、加工、关联等,产出可直接使用的风险数据,相较手工作业效率提升60倍,且每天动态更新。


漏洞基线自动化修复占比最高达30%:通过打通运维平台,精准从源头避免,新增与存量共同推进的方式,打造一键自动修复漏洞功能,实现从0%-30%自动化修复率。


一键自动纳管账号40%+纳管率:通过自动化纳管,新增账号纳管率100%,存量账号纳管40%+的纳管率。大大提升效率。同时配合开发出多种自动代填密码登录的运维应用场景,进一步提升效率。


节省人力5人/年:通过SSO单点登录改造,减少登录双因素系统,每成功跳转1次节省时间30秒,全年累计节省人力5人/年。