刘志诚:安全运营智能化大模型微调与应用浅析

2024-01-26 15:48 刘志诚

作者简介:刘志诚,乐信集团信息安全中心总监、OWASP广东区域负责人、网安加社区特聘专家。专注于企业数字化过程中网络空间安全风险治理,对大数据、人工智能、区块链等新技术在金融风险治理领域的应用,以及新技术带来的技术风险治理方面拥有丰富的理论和相关经验。


在传统安全领域,安全运营日益成为衡量安全保障能力的指标,企业的安全重心也由安全能力的建设向安全运营转移。即使新兴数字安全领域,在安全能力建设的同时,也需要关注安全运营体系的规划和建设,以确保安全保障能力的有效性和经济性。


安全运营在概念定义上可能存在细节的差异,但从宏观层面来看,应该包含风险的脆弱性、威胁,以及安全事件的检测、发现、分析、处置的完整响应过程。从微观层面来看,要包含安全控制措施的配置、策略、基线以及操作的活动、流程、制度的设立、运作、监控和审计的执行和管理过程。


传统的基于风险管理方法论的安全体系建设,从还原论的视角分解具体的脆弱性,威胁和控制措施,体系的复杂性带来运营能力的体系化和统一性存在挑战。因此,无论早期的SOC,以及基于日志的SIEM,或是基于流量的XDR,都难以实现覆盖全局的关联性分析能力,建设完整的安全运营体系。无数的标准、协议,以及产品间的数据、动作、流程的兼容性带来巨大的挑战,难以实现体系化、统一化的运营能力,人工参与是安全运营的主流方式。


当下的数智化时代,数据化、智能化、自动化为典型的业务需求带来数据生产要素和新质生产力对业务数字化能力的革命,安全作为业务保障的基础设施,也需要通过相应的变革提升安全自身的数智化能力。


经济的持续下行,企业面临VUCA时代的挑战,降本增效成为主旋律,也逼迫企业安全体系的建设降低对人的依赖,提升智能化、自动化水平,实现安全的降本增效。因此,安全面临体系化、数字化、智能化、自动化的四化需求。


ChatGPT为代表的Transformer的迁移模型,关注的是生成能力(AGI)的通用智能能力,OpenAI在GPT预训练模型的基础上通过三阶段的有监督学习训练微调,提升GPT的对话理解能力,生成内容相关性能力,达到对话机器人的效果。也为行业的微调训练和应用奠定了基础。


2023年ChatGPT带来的热潮引起了大模型的投资热潮,各安全公司也纷纷跟风推出和计划推出安全大模型,但往往基于商业宣传考虑,缺少过程和应用实践的信息。本文从微调和应用的维度,对大模型的安全运营应用场景进行分析,为大模型适用安全运营的新需求提供思路和建议。


一、安全需要建立预训练模型的筛选标准


ChatGPT的爆火带来大模型领域的投资暴增,顶尖团队、巨量资本涌入预训练模型领域,大家拼命地在比参数量、支持的查询Token数、算法的优化、GPU的投入,在建立预训练模型门槛的同时,也带来了产能浪费。


但也可以看到大模型的竞争中对于预训练模型的数据源的关注不足。预训练模型依赖公共数据源、开放数据源,互联网数据源带来的数据风险包括质量、准确、覆盖度、偏见、意识形态、恶意等一系列风险,如果没有数据的安全检测能力和处理能力,预训练的模型在应用中可能存在一系列的安全隐患。


经过一年来的充分竞争,市场上已经具备200多个商业和开源的大模型,安全行业没必要投入巨大的资源、时间,去训练一个预训练模型。选择合适的预训练模型,作为微调和应用的基础,通过微调训练适用安全运营的能力大模型,是一种选择。在这个情景中,重点需要关注大模型的适用性。当下200多个大模型的测评也围绕着沟通、理解、生成等公共数据集的测试,缺少领域、行业专业性测试的数据集。因此,如果选择大模型微调,首先需要专业的安全数据集构建测试能力,选择合适的大模型。


构建或选择合适的安全数据集进行测试是选择合适大模型的第一步,主要测试大模型对安全协议、安全操作(指令、脚本)、安全日志、安全漏洞、安全事件、威胁情报的理解能力,以及安全领域专业的总结、推理、生成能力的正确性。


二、通过微调有监督学习生成安全大模型


参考OpenAI ChatGPT的训练,首先需要对大模型进行有监督学习的训练,以安全运营的任务构建安全的Prompt提示词工程的标签数据,以及运营结果的输出标签数据,提升大模型对安全术语的理解能力,构建正确的输入解析以及领域输出能力。而对安全运营领域理解能力的训练主要依赖该阶段的有监督学习。


其次,需要构建脆弱性、威胁、事件、行动的输入对应的输出结果奖励机制训练,通过对安全运营的专业领域标注问题比较数据的构建,对输出进行奖励机制微调,提升安全运营专业输出的准确性和专业性有监督学习训练,形成安全领域结果正确性偏好的RM模型。


最后,利用强化学习PPO算法对安全测试数据进行预测,通过RM模型对输出的安全结果打分,更新模型参数,提升大模型的安全预测的准确性能力,形成最终的安全大模型。


三、通用安全数据集的构建是测试和训练安全大模型的关键


无论是从目前的大模型中挑选合适的基础模型,还是基于基础模型开展安全能力的大模型微调训练,核心关键在于公共安全数据集的构建。从应用于安全领域的实践来看,需要解决不同协议、不同数据格式、不同指令集的兼容性,需要站在更高的维度,构建安全的公共数据集。对不同企业而言,基于自身产品机制的微调大模型对行业的贡献有限,只有具有开放的心态,或者从行业发展的维度,以联盟、监管部门行政法规基础上进行组织的角度,构建通用安全数据集,才具有可操作性。


当然,现阶段不同安全企业的核心竞争力依赖于产品的逻辑与专业规则,直接开放不具备相应的条件。因此,从安全运营的角度,考虑数据输入、输出的标准化和兼容性,以安全措施逻辑的黑盒思维,不考虑处理过程,仅构建输入输出数据集,是具备构建通用安全数据集可行性的。


从这个维度上而言,甲方企业联合起来,从运营场景的维度构建通用安全数据集,用于大模型的行业测试和微调,是目前适用的合理方案。


四、基于私有向量数据库的知识库构建增强查询(RAG)


基于微调的安全大模型的构建虽然具有可行性,但微调成本和人工智能专业人员的投入,更适用于乙方安全大模型产品的构建以及具备实力的甲方展现安全的创新能力以及精细化运营,并不适用中小企业的大模型应用场景。同时,大模型的构建数据主要来自于通用安全数据与公共数据,除非仅企业私有应用和部署外,并不适合企业可能暴露商业秘密的私有数据进行训练。毕竟,如果训练的安全大模型应用于不同企业,存在通过攻击泄漏商业秘密的风险。


基于词嵌入模式的向量数据库基础上的私有知识库构建,就具有应用的实际价值。这个过程,对企业的数据的充分性、完善性同样具有较高的要求。例如,对安全的制度、手册、规范、标准、指南、策略、规则、措施、报告、资产等系列安全数据经过整理,通过Emberdding实现向量化存储到向量数据库中,通过Langchain等应用平台,实现增强检索(RAG)能力,可以保障输出的准确性,又能保证输入输出的相关性,充分利用大模型的理解和推理能力,降低人工介入成本。


在引入大模型平台以及Langchain应用平台,实现私有向量数据库的建设层面,具备相应能力的安全团队可以选择开源方案,缺乏相应经验和资源投入的可以通过商业化服务支持落地。实施的关键在于私有数据集的构建作为向量数据库的输入的基础。


五、 安全运营应用场景


1、流量与日志的自动化解析和格式转换:对不同协议和格式的数据通过大模型的理解能力和向量数据库的模版定义,可以自动化实现内容和格式的自动化分析、转换、输出安全设备和平台需要的标准化数据。

2、脆弱性、威胁和事件的误报、漏报处理:基于大模型的总结、推理、生成能力,对不同安全设备的输出作为输入,依据安全设备、平台和向量数据库的规则,实现关联事件的误报降噪和漏报发现,提升应急响应的自动化水平。

3、安全运营和安全管理的助理:对于企业的员工安全桌面运维服务,以及不同安全制度规章的咨询,安全文档、辅助文件的输出,通过对话助手和专业助理的模式,提供专业性的生成输出,提升安全运营与安全管理能力。


当然,本文仅对三个抽象场景予以举例,安全场景的多元性注定安全运营能力建设难以一蹴而就。更多的场景和应用等待安全运营实践中的发现、优化与总结。


安全运营是一个复杂的命题,本文仅围绕大模型对安全运营的智能化可能性做初步的探讨。希望能为安全行业的乙方运营产品的规划升级,甲方安全运营能力的构建提供一种思路和建议。