孟翔巍:基于Kill-Chain的蓝队建设思路

2024-04-09 14:14 孟翔巍

作者简介:孟翔巍,网安加社区特聘专家,先后就职于中国中铁五局、株洲中车时代电气股份有限公司、广东OPPO移动通信有限公司、三一重工等大型集团企业,目前任职某医药新零售信息安全负责人,全面负责集团的信息安全战略规划、体系搭建、安全人才队伍建立和培养等。


一、前言



选择探讨Kill-Chain这个话题,主要从三个方面来考量。首先,尽管已有许多专家探讨过Kill-Chain,但考虑到每个人对其理解的不同,尤其是在蓝队防护方面可能存在差异性,所以想聊一聊这个话题,以期达到更深入的理解和共识。其次,使用Kill-Chain指导蓝队工作建设确实更为有效,因为它基于实际需求,能确保方案落地,这也避免了仅讨论宏观技术框架或前沿技术而无法实际应用的问题。最后,Kill-Chain作为一个闭环过程,确保了我们的工作最终形成一个完整的故事链或剧本链,从而实现了完整的闭环。基于这三个原因,我认为与大家探讨Kill-Chain有一定的价值和意义。


二、Kill-Chain生命周期的理解


我理解Kill-Chain的运作流程是从信息收集开始。完成信息收集后,流程分为两个主要分支。一方面,进行自动化地侦测与尝试,以验证所收集的数字资产及基础设施的可用性,通过POC验证来确认漏洞的存在。另一方面,通过社会工程学方法收集公司敏感信息,尝试进行钓鱼投毒。


随后,回到主线流程将聚焦于手工POC验证,针对自动化侦测识别出的关键目标进行验证。一旦POC验证成功,即进入EXP利用阶段,利用已确认的漏洞进行深入攻击。同时,钓鱼投毒成功之后可以尝试通过CC回连获取命令,并在控制跳板后进一步实施权限获取。


无论是通过Webshell或反弹Shell的方式获得跳板权限,下一步都可以尝试横向移动,以获取高集权系统的权限,如堡垒机、自动化运维平台、DevOps平台等。前一个分支在获取CC命令之后,可以做一些手工或自动化的横向感染。到这一步,Kill-Chain的目的基本达成,无论是勒索、挖矿、信息泄露还是破坏行为,均可进行。


图片


1、外部攻击面管理


在信息收集阶段,倾向于采取谨慎态度,尽量降低自身的暴露面以减少信息被收集的风险。由于信息收集手段多样,此阶段我们的感知能力较弱或几乎无感知,因为对方收集信息的手段有很多,如Fofa、Whois、Nmap、ICP备案信息等等。虽然会有探测性扫描动作,但在日常监控中,由于告警量巨大,这些行为往往被忽略。


针对此状态,有效的策略是进行整体的暴露面管理,特别是对外攻击面管理。尽管对内攻击面管理也很重要,但受限于资源和精力,我们更多关注对外暴露面的控制。我将其策略分为三个部分,即构建资产地图、脆弱性评估和SOP建设。


构建资产地图是最关键的一环。通过整合安全相关资产,结合对外暴露面管理平台和内部CMDB或应用管理平台,纳入各类资产,如IP、基础设施、中间件、数据库等,同步关注IoT设备和API等新型暴露面。此外,数字资产如小程序、APP和公众号也需纳入管理范畴。最后,对与供应链相关的线上资产保持高度关注,以防成为攻击跳板。


脆弱性种类繁多,需重点关注信息漏洞、鉴权授权缺失等问题。在API开发中,缺乏足够的鉴权授权措施易导致安全风险。凭证证书劫持与篡改也是中间人攻击的常见手段。此外,API缺乏健壮性评估与建设容易受到爬虫攻击。小程序和APP的隐私保护问题亦需重视。在供应链安全方面,即使与业务无直接关联的服务商,使用公司Logo等行为也可能增加安全风险。因此,需建立全面的脆弱性管理机制,包括漏洞扫描、强化鉴权授权、API健壮性评估与隐私保护策略等,以应对各类安全威胁。


SOP建设是重中之重。如网站发布时需进行全面的人工渗透测试与漏洞扫描,同时规范运营管理,包括引入API安全网关和完善数据安全措施。对于O2O或B2C业务,需注重隐私合规的评估。此外,对外部暴露的敏感资产进行梳理和收敛,力求最小化发布。通过这些方式将整体的ESM管理起来。ESM管理需线上线下并行,即使初期缺乏平台支持,也需先行线下管理,待条件成熟后再整合至平台。


2、边界防御能力搭建


下一步就是自动化侦测与尝试,这个阶段肯定会有感知。尤其是在护网这些真实的场景,24小时不间断的扫描与自动化POC,尽量让你的警惕放松,他会从扫描和POC返回的信息里拿到他想获取的东西。在此情境下,需高度依赖自动化运营能力以有效处理告警。若自动化水平不足,处置海量告警将极为困难。因此,强化边界防御至关重要,确保攻击者即使获取信息也无法利用,边界防御策略包括五个方面:


1. 优化LB配置,迁移相关证书至LB,实现内网明文通信,外网加密传输。完善目录发布机制,特别是针对API的线上目录发布,避免信息泄露。

2. 构建两层防火墙防护体系,包括L7沙箱和应用层防护,结合IPS等L7技术提升防御效果。此外,严格执行L4精细化发布策略,实现最小化发布,降低攻击面。

3. 采用WAF,如果技术较强可考虑采用RSAP,把站防护这块做好。

4. 在DMZ管理方面,需将所有发布和三方交付纳入统一管理,实施严格网络控制,如单向流策略防止CC攻击,利用蜜罐等陷阱捕获潜在攻击者,并限制其在特定区域内。将公共设施如VPN等整合至统一出口,强化整体安全防护。

5. 对于供应链上下游管理,需深入关注原子服务共享、API交互等关键环节,严格控制上下游区域。通过加强在DMZ的监控与控制,确保供应链安全,防止潜在风险。


3、意识提升与规则对抗


此处为防御分支的关键节点,主要面临社工攻击风险,这个阶段攻击者开始尝试使用各种社工方式进行投毒,如邮箱、IM、公共网盘等等,攻击方式多样,套路复杂,难以完全防范。


对于此类攻击,我们虽已开展防钓鱼培训,包括邮件处理、来源鉴别、介质管理、二维码扫描及WiFi连接等方面的意识培养,但实际上仍有1.5%~2%左右的中招率无法消除。由于攻击者只需成功投中一个点即可达成目的,因此防御难度极大。


在技术手段方面,我们已将反垃圾邮件网关作为重要防线,屏蔽广告及非法组织邮件。然而,策略对抗方面仍存在挑战,邮件网关策略配置难度较高,正文图片及二维码过滤精度有待提高。此外,投放范围及频次告警机制亦需完善,需通过实战摸索最佳告警时间及范围。


后缀黑名单和白名单的作用有限,因攻击者可利用邮箱规则伪装身份,绕过防御策略。对于IM、公共网盘及URL链接等新型攻击方式,我们考虑采用沙盒运行机制进行防范,以应对定时运行和安装模拟、防沙盒机制以及多层嵌套等复杂情况。


在应对紧急情况时,需建立有效的全员通知机制,通过IM弹窗、OA通知或全员邮件等方式迅速传达信息,提高防范效果。


4、运营体系建设


在完成自动化POC测试后,攻击者可能会认为某些POC存在可利用之处,进而采取进一步行动。此时,他的工作重点将转向手工验证这些POC的有效性,并尝试利用EXP对系统进行攻击。


在面对此类情况时,应保持冷静,稳定心态,问题尚处在可控范围内。若我们的监控体系完善,无论是流量监控还是主机监控,都应能够捕捉到相关的利用过程。整体而言,这一阶段对运营内功提出了较高要求,特别是在应急处理和基本功方面。以下是较为关键的几个方面:


1. 告警系统的完善度。无论是针对主机、应用还是API的告警,都需要确保其能够准确、及时地触发,以应对来自不同方向的攻击。

2. 镜像和制品的安全管理能力。需要确保镜像和制品的安全性得到有效管理,以减少潜在的POC和EXP利用点。

3. 漏洞管理能力。需要及时发现并修复系统中的漏洞,确保业务能够及时得到保障。同时,对于不同类型的漏洞和修复方法,需要有整体性的漏洞管理能力。

4. 基线管理能力。需要确保操作系统、中间件等关键组件的基线配置得到妥善管理,以防止潜在的安全风险。

5. 应急响应能力建设。需要具备自动化的应急响应能力,或至少能够熟练地进行手工操作,以有效对抗攻击者的利用行为。


5、切断与处置


在后续阶段,可能会面临分支路径的挑战。正如先前所述,投毒完成后,攻击者通常会从受害主机中获取命令,并尝试建立与互联网黑链的反向连接。这种连接通常是定时的,有时可能较为频繁,如每分钟或每两分钟一次,导致我们的监控体系会接收到大量与CC相关的告警。针对此类情况,主要的应对策略应为切断与处置,需要着重关注以下几个方面的能力。


首先,情报能力至关重要,它能够帮助我们准确识别黑链。由于资源和人力有限,特别是在面对大量中招主机时,无法逐一清理每台终端或主机上的恶意代码。因此,通过情报判断黑链的有效性成为了一种更为高效的方法。需要找出那些仍然有效的黑链,并优先处理这些威胁。


其次,监控体系的完善度也是关键。需要确保终端、主机以及流量监控的全面覆盖,以便及时发现并处置异常情况。


此外,单向流和白名单策略在防御过程中也起到了重要作用。特别是针对SORA,这些策略能够更为有效地阻止CC攻击。通过实施白名单制度,可以限制互联网的访问范围,降低潜在风险。


同时,终端的杀毒能力也是不可忽视的一环。需要利用现有的工具和技术,如AV、EDR或其他安全工具,对恶意代码进行隔离或清除。这要求我们在技术层面具备足够的能力和经验。


最后,是应急响应能力。这个阶段的应急能力更偏向手工处置和自动化响应,这个依赖当前的安全处置成熟度水平所达到的高度,自动化的部分更多的是回连阻断、样本隔离,而手工处置包含异常文件处理、内部链路溯源、后门删除等。


6、拼手速,博底线


在这个阶段,攻击者很可能已经利用EXP成功入侵系统。一旦入侵,攻击者的首要目标将是控制一个跳板机,进而尝试攻击高集权系统。由于单独攻击单个系统意义不大,攻击者的主要关注点将是获取对AD、堡垒机、虚拟化平台、自动化运维平台等核心系统的高级权限。因为一旦获得这些高级权限,攻击者将能够轻松地对整个系统进行大规模攻击。


因此,在此阶段攻击者会在内部系统中进行探索,以确定高级系统的位置,并尝试进行攻击。这将导致接下来的横移和权限获取行为。需要注意的是,横移过程中是否会产生告警并不确定,这主要取决于攻击者的经验。经验丰富的攻击者可能会采取隐蔽的手段,以避免触发告警。


在面对这种情况时,首先需要确保自己的日志分析体系足够全面,以便及时发现异常行为。此外,与运维团队的紧密联动也至关重要。一旦发现攻击者在某个跳板机上进行活动,应迅速进行隔离,防止其逃逸。


同时,还需要关注高级系统的健康问题,特别是AD等核心系统。由于AD系统的复杂性,我们需要采取一系列措施来加强其安全性,如对NTDS加密、加强基线管理等。


此外,网络隔离也是一项重要的防御措施。通过确保生产、测试、研发、预发布等区域之间的严格隔离,可以限制攻击者在网络中的移动范围,从而降低风险。


最后,应急响应能力同样不可或缺。我们需要具备对攻击路径的侦测能力,以及预测攻击者下一步行动的能力。通过提前预判和准备,可以更好地应对攻击者的威胁。


7、堵链路,清害虫


当成功获取CC命令后,必然会进行横向感染。此时,命令已执行完毕,除了会对中招主机进行感染,部分带自动化能力的毒会横向开始感染其他主机和终端。特别值得注意的是,某些特殊类型的病毒,如勒索病毒,可能还会进行手工操作,以与上述行为相配合,但其最终目标仍然是投毒。因此,需要重点关注“堵链路,清害虫”的工作。


在应对策略上,可以先从协议层面入手。经过实践验证,SMB协议和RPC协议的封禁是较为有效的措施。这两种协议广泛应用于文件共享服务器以及AD的LDAP等领域。通过加强对这两个关键环节的管控,可以有效地控制病毒的横向移动。


此外,还需要具备快速的文件隔离能力。一旦病毒入侵,必须迅速采取隔离措施,利用AV或其他工具进行快速隔离,以防止病毒进一步扩散。


第三步是样本分析和危害预判。需要对病毒样本进行深入分析,确定其类型和特点。如果是挖矿病毒,虽然会消耗电费,但相对而言风险较小。如果是僵尸病毒,它可能会通过出网进行活动,涉及合规问题,需要引起一定关注。最令人担忧的是勒索病毒,此时需要加速应急响应,采取果断措施,防止病毒造成更大损失。


在特定场景下,如研发或测试环境,即使受到病毒攻击,只要能够保护核心生产环境,仍然可以通过VPC等手段进行限制和防范。


最后,应急响应还包括物理隔离和实时监控与判断两个方面。一旦发现病毒活动,需要采取物理隔离措施,以切断病毒传播路径。同时,还需要实时监控病毒的活动情况,判断其可能的影响范围和危害程度,以便合理调配资源和团队进行应急响应。


8、灾后重建,溯源复盘


如果在前面的环节中未能有效应对,那么当攻击者达成其目标时,我们可能会面临最为严重的后果,如勒索攻击、蠕虫病毒传播、敏感信息泄露等。尤其是敏感信息的泄露,其严重程度取决于泄露的具体内容。若泄露的是基础设施信息,可能风险相对较小;但若是涉及用户个人信息的泄露,后果将十分严重。面对这种情况,分享几点应对措施。


首先,与运维团队紧密合作。确保他们的灾备能力得到充分提升,包括实现异地灾备和多部分灾备,以增强系统的冗余性和可靠性。


其次,关注应急公关工作。由于敏感信息的泄露可能引发合规问题和社会舆论压力,因此需要积极应对,通过有效的公关手段降低负面影响。


第三,在快速处理阶段,需要尽快恢复受损系统。同时,对于已经发生的问题,不能简单地将其视为过去,而是需要进行深入的溯源分析,找出问题根源并进行改进。这包括对攻击链路的追溯,以及对团队工作流程和协作方式的复盘和改进。


最后,在应急响应的后期阶段,需要站在专业的角度为运维和研发团队提供协同建议。需要确保他们采纳了相关的改进措施,并跟进其执行情况,以确保灾后重建工作的顺利进行。


三、建设过程中的难点


1、EASM管理


EASM的管理有几个难点:

(1) 管理覆盖面的全面性。要确保资产清单的完整性,减少未知资产(即影子资产)的存在,以提高资产管理的准确性。

(2) 新增资产的动态管理。由于资产状态的不断变化,需要定期进行暴露面审查,进行动态处理,以确保资产的安全可控。

(3) 资产与责任人的高效关联。在资产识别后,需要建立有效的机制,将资产与相应的责任人进行关联。


针对以上难点,可以采取生态化的安全管理策略。比如,建立线上化的标准流程,通过SOP去承载,实现资产管理的规范化、自动化。加强EASM平台的建设,整合各类资产信息,实现信息的集中管理和共享。同时,建立相应的漏洞、合规和资产动态管理流程,确保资产管理的全面性和及时性。


此外,与域外生态的联动也是提升EASM管理效果的关键。应加强与各类资产工具或平台的数据互通,实现流程节点的数据共享和更新。通过整合外部资源,提升EASM平台的功能和性能,进一步优化资产管理效果。


最后,资产消费与管理的持续进行需要多方协同。除了安全团队外,还需要其他相关协同团队的参与和支持。通过共同努力,实现资产的有效管理和利用,提升整体安全管理水平。


2、运营建设


关于运营建设,我总结了以下四个主要问题以及解决建议:

(1)运营层面众多,资源有限,如何选择关键领域进行建设是一大挑战。针对这一问题,建议首先明确业务归属,评估业务成熟度水平。对于成熟度高的业务,优先进行运营站建设;而成熟度较低的业务,则建议暂时放缓建设步伐,待业务成熟后再考虑。

(2)运营站在建设初期可能面临铺开面过广、精力分散的问题,导致部分站点荒废。为避免这种情况,建议初期集中资源建设基础站点,确保站点稳定运行并产生实际效果。在此基础上,逐步扩展至更高级别的运营站点。

(3)运营建设是一个联动过程,需要得到运营方的支持。然而,实际操作中可能会遇到运营方推三阻四的情况。为此,我们应强调运营站的服务性质,向业务方展示运营站的价值,争取其支持和配合。

(4)面对运营数据不佳的情况,应保持冷静,分析问题原因并寻求解决方案。同时,通过合理利用外部MSS服务、合作厂商资源以及培养内部运营团队,提升运营建设的质量和效率。


综上所述,运营建设需明确业务归属和成熟度水平,优先建设基础站点,争取业务方支持,并合理利用内外部资源。在此基础上,不断完善技术体系,推动运营向自动化方向发展,降低运营压力。


3、横向控制


针对最后一个问题,本人遭遇过很多次,并深感其重要性。在这种情况下,最关键的是保持冷静和稳定的心态。只有这样才能有效地应对问题,避免因恐慌而做出错误的决策。对于即将或已经处于事中或事后状态的情况,我们应提前与业务方和应急管理相关部门进行沟通,确保在需要时能够迅速采取行动。


具体来说,一旦确认受到攻击,我们应迅速进行溯源,沿着攻击路径清除痕迹,并采取必要的修正措施,如更改密码或删除相关脚本。如果没有外部协助,我们必须依赖自身的备份来恢复系统。备份的完整性和可靠性至关重要,它是整个IT团队在危机情况下的最后一道防线。


对于自动化应对的情况,同样需要提前做好应急管理的沟通工作,全网先封禁RPC、SMB、FTP等共享传输型协议,同步分析样本,了解造成的影响。如果拥有相关工具,应对样本进行隔离或全面扫描。在没有足够工具的情况下,我们依然要依靠备份,并尝试采用各种方法控制攻击的蔓延,如物理断线或强制关机等。


然而,不论采取何种措施,保持冷静和稳定的心态始终是首要的。心态不稳可能导致决策失误,进而影响整个应对过程的效果。因此,在面对挑战时,我们首先要做的就是稳住心态,确保能够在冷静的状态下做出正确的决策和行动。


四、结语


外网拼技术,内网靠手速。根据过往经验,EASM与边界防御是构建安全体系的基础,其实现成本相对较低且效果显著。一旦这些基础措施得以妥善实施,能够解决大约60%的安全问题。剩余的40%问题则需要依赖于一个逐步完善的运营体系来支撑。然而,我们必须认识到,完全杜绝安全问题几乎是不可能的。


对于那些更为复杂的环境,个人认为很难做到尽善尽美,即便做得再好,也可能遭遇意外情况;反之,即使安全状况不尽如人意,也并不一定会导致安全事故。安全并非完全依赖于体系驱动,有时事件驱动也能为我们带来意想不到的收获,比如更多的资源和支持。


在网络安全领域,应保持平和的心态,尽力而为。不必过分羡慕他人的成就,因为每个人的资源、环境和成熟度都有所不同。只要我们做到尽心尽力,便足以应对大部分安全挑战。