2023安全行业大模型SecLLM技术白皮书.docx
安全行业大模型SeCLLM技术白皮书SecurityLargeLanguageModel,SecLLM大模型赋能网安新范式,人工智能安全可信护航-SlN 山 1N。01新趋势:ChatGPT技术加速安全革命502新范式:安全行业大模型核心框架82.1 安全模型发展面临困境92.2 安全模型的研究新范式102.3 安全行业大模型的升级技术112.4 安全行业大模型的分层框架1303新技术:安全行业大模型关键技术173.1 数据增强:高质量安全语料双飞轮183.2 训练加速:高效并行加速增量训练193.3 任务微调:安全下游任务高效微调203.4 推理加速:多维优化推理任务加速213.5 内容管控:人机对齐内容安全管控223.6 工具协同:复杂任务安全工具学习243.7 私有部署:安全模型私域私密交互2504新实践:安全行业大模型赋能应用274.1 研究:专业沉淀,智能问答28334.2 情报:信息整合,情报挖掘4.3 攻防:模拟演练,辅助决策394.4 运营:人机协作,提升效率5105新安全:大模型安全风险与防护策略5.1 大模型安全框架625.2 大模型安全风险645.3 大模型安全防护策略6806结语7507参考文献77执行摘要在ChatGPT呈现全球现象级热度时,通用大语言模型(LargeLanguageModel,LLM)技术成为了推动创新和变革的关键驱动力。但由于安全行业的特殊性和复杂性,LLM并不能满足其应用需求。因此,绿盟科技基于“人工智能+安全”多年积累的安全专业经验和高质量数据,稳扎稳打地推出安全可信的安全行业大模型(SecurityLargeLanguageModel,SecLLM)oSecLLM目标是智能化解决攻防实战场景中所面临的复杂安全问题,提供更专业、高效和定制化的威胁应对和安全防御能力,更好地满足安全行业的特殊需求,为安全行业提供量身定制的大模型解决方案。绿盟科技同步推出安全行业大模型技术白皮书大模型赋能网安新范式,人工智能安全可信护航,分享绿盟在SeCLLM研发过程中所积累的最佳实践和经验教训,并探讨其在安全领域的重要性和价值。本技术白皮书从SeCLLM的研究新趋势、新范式、新技术、新实践和新安全几方面展开探讨。主要观点如下: 大模型赋能网安新范式:SeCLLM应用于安全行业,充分利用其强大的学习和适应能力,能够在复杂的攻防实战中逐步学习并提升威胁检测和防御能力,为网络安全提供更智能和更高效的解决方案。SeCLLM引领了一系列技术突破,解决了传统安全方法在应对复杂威胁和新型攻击时的局限性,为安全行业带来崭新的发展方向和范式。 高质量数据助力成功落地:安全行业真正有价值的安全数据和知识无法从公开渠道获取。绿盟科技所特有的安全经验、知识和数据的积累,有助于训练大模型更好地理解和学习各种安全特征和行为模式,从而提高威胁检测和防御的准确性和效率,更好地适应特定的安全需求。 实战化攻防推动学习成长:SeCLLM实践出真知,从实验室走入实战化的安全攻防场景中,参与常态化的安全运营,辅助安全监测中复杂问题的解决。通过不断助力解决实际难题,促进SeCLLM自我学习和安全能力的持续提升,增强其在实际应用中的可靠性和实用性。 人机协作增强安全动能:SeCLLM转化为安全人员的“伙伴”,快速融入已有的智能安全运营、威胁情报分析、零日攻击和新型威胁应对等日常安全处置工作流中,提升安全信息处理和分析、智能安全建议和反馈等能力,与安全人员紧密协作,共同应对不断升级的安全威胁。 云端服务结合本地部署:SeCLLM提供云端服务和本地私有部署两种方式。云端MaaS服务享受节约资源、简化管理和覆盖全球等优势;本地化部署提供了更高的定制性、控制权和数据隐私保护。两种方式可以相互配合或独立应用。 人工智能护航安全可信:大模型自身安全的保障是应用LLM和SecLLM等大模型的必要条件,保护用户隐私和数据安全,防止大模型被滥用,预防新型攻击和未知威胁,从而保障大模型自身的安全可靠性,推动SecLLM成为安全护航的可信之选。绿盟科技将持续投入研发和创新,不断优化SeCLLM的功能、性能和自身安全性,提供更具创新型和实用性的安全解决方案。SeCLLM作为每一个用户定制化的安全协作“伙伴”,致力于成为各行业持久可信的安全护卫。在该过程中,绿盟科技愿意贡献自身能力,与各行业合作伙伴共同应对日益复杂的安全挑战,携手促进安全行业大模型生态建设。通过积极交流合作,共享安全专业知识和技术经验,共同促进“人工智能+安全”的加速发展。术语和定义人工智能(ArtifiCialInteHigence,Al):是计算机科学的一个分支领域,旨在研究和开发能够模拟、模仿和执行人类智能活动的技术和系统,使其具备像人类一样的智能。人工智能按发展程度可以分为狭义人工智能、通用人工智能和超级人工智能。通用人工智能(ArtificialGeneralIntelligence,AGI):是指一种具有类似于人类智能的智能系统。它具有感知、认知、思考、学习和创造等能力,能够在各种不同领域和任务上表现出类似于人类的智能水平。大语言模型(LargeLanguageModeI,LLM):是指具有巨大参数量和复杂结构的自然语言处理模型。这类模型利用深度学习技术,能够在大规模的文本数据上进行预训练,并通过微调等技术完成各种自然语言处理任务。行业大模型(IndiIStry-SPeCifiCLargeModeI):是基于特定行业的大规模数据构建的大模型。学习特定行业的特征和规律,以实现在该行业中高准确性和可靠性的分析和预测,能够更好地适应特定行业的需求。预训练语言模型(Pre-trainedLanguageModel,PLM):是指在大规模语料库上以无监督方式进行预训练的语言模型。在大量的未标记数据上进行预训练,大模型得以学习数据的内在表示和特征。微调(FineTuning,FT):是指基于已经训练好的预训练语言模型,在有标注数据上进行有监督的学习。目的是让模型通过学习激活特定能力以适应特定的任务和场景。推理(ModeIlnference,Ml):是指使用训练好的模型对新的数据进行预测或分析的过程。目的是模型应用于实际任务中,利用其学习到的能力,快速、高效地对未知数据进行计算和处理,以获得预测的结果。模型即服务(ModeIaSaSerVice,MaaS):是指基于云计算提供一种将人工智能模型转换为可重复使用服务的方式,实现模型的快速部署、弹性伸缩和按需使用,允许用户不需要硬件设备和专业技能情况下可以使用模型。人工智能安全(ArtifiCiaIInteHigenCeSeCUrity):是指针对人工智能算法和系统在设计、实现、训练和应用等全生命周期中可能面临的各种风险和威胁进行安全防护,促进人工智能的可靠、可控、可信和可持续发展的过程。新趋势:ChatGPT技术加速安全革命ChatGPT爆火背后的推动力是通用大语言模型(LargeLangUageModeI,LLM)OLLM是指具有巨大参数量和复杂结构的自然语言处理模型。这类模型是深度学习在自然语言处理领域的典型技术范式,能够在大规模的文本数据上进行预训练,并通过微调等技术完成各种自然语言处理任务。“读书破万卷,下笔如有神”在一定意义上反映了LLM的运作模式。LLM是具备强大表示能力和广泛适用性的模型,一个模型就能够处理各种自然语言处理任务。LLM的关键发展可以追溯到2018年,彼时G。OgIe推出了BERT模型。BERT采用了预训练加微调的方法,通过在大规模数据上进行预训练,模型学习到了广泛的语言知识,然后在特定任务上微调模型参数。BERT在多个任务上取得了优异的表现,引发了全球各大公司、研究机构对通用大模型的普及应用。同时,ChatGPT作为现象级的LLM,为学术界和工业界呈现了一种通用大模型技术实现的技术路径。ChatGPT的发展(图1)经过了多个版本的技术迭代演化,在保持Transformer核心特征抽取结构框架的同时,模型的整体参数规模、训练数据规模呈现爆炸式增长。现阶段,典型LLM的参数规模已达到千亿级别。这些模型不仅在表现上超越了之前的模型,同时也具备更高效的训练和推理能力,可以处理更加复杂的任务。GMIIirdCodexFLA、LaMDAnspur YUan 1.0AIphaCodcChinchillaErnie 3.0 TitanInstructGPT2(22COdeGen>-NLGallGlr-eoX-20B>x(BLOOMTk-InstructgmTOCohereWeLM 匚EGLa M GGLMAlMaTXI H0% PanGu-HUAWtI“PlAG一 2019 2。2。必GPT-3.Xnthropic AXWebGPT(>opherBL(M)MZGahiIiCa gPubliclyzVailableHypcK I.OV NAVERalIErnic 3.0Jurassic-I11-12,ChatGPT! CPM-2FalconC ode(ieeXSparrowPythiaFlan-TSViCUnaEhnPaLMPHnGu-ELuminousBardNLLBLLaMA2023GPT4 图1大语言模型发展历程1随着模型参数规模和训练数据规模的爆炸式增长,通用大语言模型LLM的涌现能力(EmergentAbility)凸显。相对于经典规模尺度较小的机器学习或深度学习模型,LLM在上下文学习(In-ContextLearning).复杂推理、知识容量、泛化性等方面的能力大幅提升。那么,这些提升的能力是否能够成为LLM在安全行业的应用潜能呢?具体包括:知识语义增强:通过在大规模通用文本数据上进行训练,LLM得以掌握广泛的语言知识和语义理解能力。相较于小模型,LLM能够更全面地理解词汇、句法和语用,生成的文本更加准确、连贯,同时保留了语义特征。在安全行业中,知识语义增强有助于理解和分析安全领域特定的数据内容,如安全威胁、漏洞、攻击技术等相关知识和安全语义,从而更为准确地识别风险、提供建议或生成报告。逻辑分析增强:LLM可以理解和应用逻辑原则来推理和分析输入文本中的信息。相较于小模型,LLM经过训练可以更好地理解和应用逻辑规则,能够产生更为合乎逻辑的输出结果。在安全行业中,逻辑分析增强可以更好地分析不同事件之间的关系、理解上下文相关性、挖掘潜在的威胁情报等,进一步推断可能的攻击路径和攻击团伙,并分析推荐可采取的安全措施。交互决策增强:LLM在与用户的交互过程中表现出更高水平的决策能力和响应性能。相较于小模型,LLM可以更好地根据输入的上下文和目标指令,综合利用所学习到的语言知识、语义理解能力以及可能的逻辑推理和决策策略,生成更智能和个性化的回复,这使得LLM在对话系统、问答系统中具备更强的交互决策能力。在安全行业中,交互决策增强提供与安全专家、分析师等不同角色进行智能交互,更好地理解不同需求并提供个性化的安全指导和辅助决策,协助安全团队开展应急响应和威胁管理等工作。1.LM的通用知识语义、逻辑分析和交互决策这三个增强能力在安全行业中具有重要作用,有助于提升安全系统的感知、分析和决策能力。通过从特殊的安全数据中提取关键信息、识别潜在威胁,并能够提供恰当处理建议,LLM可以进一步提高安全系统的效率和准确性,使其能更好地应对不断演变的安全威胁。随着LLM技术的不断创新发展,有望推动安全行业向智能化和自动化的方向发展,从而提升网络空间的安全性和可信度。新范式:安全行业大模型核心框架本章首先介绍安全模型的发展困境和研究新范式,接下来阐述安全行业大模型的必要性和创新价值,并深入分析安全行业大模型的升级技术和分层框架。2.1 安全模型发展面临困境安全模型发展面临多重困境,其中包括威胁演化速度快、数据量和复杂性增加、数据偏差和不均衡,隐私和合规性问题、自适应能力缺乏,以及对抗攻击挑战等。克服这些困境对于推动安全行业的发展具有重要意义。传统安全模型如机器学习小模型已在网络安全中得到了部分应用,但是其发展却不尽人意。DosandDon,tsofMachineLearninginComputerSeCUrity总结了安全行业的机器学习模型的十大陷阱,这些陷阱普遍存在于恶意样本识别、网络入侵检测、漏洞分析挖掘、网站攻击监测、社交网络滥用、二进制代码分析和代码归因等安全场景中,导致关键结果出现严重偏差、一系列的性能劣化和不可解释性难题,进而影响安全模型在安全行业的应用推广。ChatGPT一经推出便引起轰动,安全行业研究员和工作者也纷纷就ChatGPT在安全行业的应用潜力和影响展开探索,尝试应用于情报分析、运营辅助、攻击预测、网络钓鱼内容生成、恶意代码编写等攻防场景中。从探索的实际效果来看,ChatGPT背后的LLM大模型技术在安全行业可能会面临如下挑战: 安全专业数据和知识缺乏:LLM模型使用广泛的通用语料库进行训练,同时安全行业的数据通常是特殊且有限的。这导致LLM缺乏安全相关数据和专业知识,缺乏对特定安全问题的理解能力,无法提供准确或深入的专业解释。 零日攻击和新型威胁挑战:LLM的训练数据只能基于过去的安全事件和攻击行为。然而,威胁攻击是不断演变和改变的,面对零日攻击和新型威胁等未知的威胁,LLM很可能无法准确地识别和防御。 模型低成本和实时性难题:安全行业需要对威胁事件进行及时响应,因此模型最好能够本地部署和学习,具备实时性能。然而,由于LLM的计算复杂性,推理过程需要高性能的计算资源和较长的时间,这可能无法满足安全实时检测和及时响应的需求。 数据隐私和安全性问题:LLM在训练过程中使用的大量数据可能包含敏感信息,同时处理和存储用户交互数据也存在威胁用户隐私和安全性的风险。因此,在安全行业中应用LLM时,必须采取相应的数据保护措施,以确保用户隐私和敏感数据不被泄露,遵守相关的隐私保护法规和标准。 可解释和可信限制:LLM往往被视为黑盒模型,其决策过程和判断依据难以解释。在安全行业中,可解释和可信度对于分析和决策的重要性不容忽视。因此,在应用LLM时,需要考虑如何增强安全行业对LLM模型的信任度,并使分析和决策过程更加可靠和可解释。为了有效应对上述LLM大模型技术在安全行业应用中的挑战,有必要探索新的方法和技术来提高模型对特定安全问题的理解能力和专业解释能力。因此,构建一个专用于安全行业的大模型(SecurityLargeLanguageModel,缩写为SeCLLM)是非常有必要的。期望SecLLM能够更好地理解解释和协助解决与网络安全相关的特定问题。它将具备对网络威胁、攻击技术、漏洞利用等方面的更深入理解,从而提供更准确的威胁分析和安全决策的智能化支持。2.2 安全模型的研究新范式由上文分析可以看出,传统安全模型和LLM技术在安全行业应用中都面临一系列困境,解决这些困境有必要构建安全行业专用的大模型SecLLMo传统安全模型的构建通常采用有监督学习范式。有监督学习模型训练前,需要依赖人工,针对输入网络流量、系统日志不同数据开展数据标注、特征构建和算法选择等工作;接着分别训练小模型;训练完毕后,不同小模型各自只能预测单一的入侵行为或恶意攻击。如图2左侧所示,这些安全小模型针对已知的攻击类型逐个进行训练,无法应对新型和未知的威胁。因此,传统安全模型的研究思路会限制其学习和泛化能力,所以并不适用于SeCLLM的构建。不同于传统安全模型,通用的大语言模型LLM采用“预训练-微调”的研究新范式,该范式已成为NLP任务的主流范式。在该范式下,LLM在大规模无监督学习的基础上预训练,然后通过有监督学习或强化学习进行特定任务的精细调整和优化,提升了模型的泛化和学习能力。那么是否可以借鉴LLM的“预训练-微调”新范式来构建SeCLLM?图2安全模型研究范式的变化在这个新范式下开展SeeLLM的研究,如图2右侧所示,安全大模型是利用大规模无标注安全数据通过无监督学习预训练安全模型的基座,然后在基座模型上利用下游不同安全任务的有标注数据进行有监督学习微调,实现下游任务的适配。无监督预训练:通过大规模的无监督预训练来学习安全领域的专业知识和编码。这一阶段通常使用TranSfomer架构,在海量多源异构安全数据上进行预训练,使模型具备对安全词汇、攻击上下文和威胁语义的理解能力。通过在海量安全语料上的预训练增强,补充记忆大量的安全专业知识。下游任务微调:无监督预训练完成后进入微调阶段。微调是在特定下游安全任务上使用有监督学习或强化学习方法,将预训练模型的参数进行微调。微调的目的是根据下游安全任务需求和特定数据集中的标注信息,使模型适应特定任务的要求。经过指令微调对齐安全专家的威胁处置后,安全模型在各种攻防处理任务中展现出了强大的通用能力,能够解决许多未知或复杂攻防新问题的零样本或小样本任务。SeCLLM借鉴“预训练-微调”的研究范式,融合通用语言和安全专业的理解能力,消除了手工构建特征的需要,提高传统安全模型的准确性和适应性。当有新型威胁出现时,只需要微调模型而不是重新训练。在SecLLM的构建过程中,“预训练-微调”范式将使模型更具适应性和智能性,具有应对不同新型攻击和未知威胁的处理能力,以确保在实际安全行业应用中取得成功。2.3 安全行业大模型的升级技术基于“预训练-微调”的研究新范式,SeCLLM的目标是构建易用、高效、准确和可信的安全行业专用大模型,智能化解决攻防实战场景中所面临的复杂安全问题。SecLLM通过“易”、“快”、“准”、“安”四方面开展技术升级(如图3所示),为安全行业提供智能化的威胁应对和安全防御能力,提供更强大可信的解决方案。图3SeCLLM四大技术升级 “易”:简单LUl替代GUI,无需安全技能应对轻松传统软件图形用户接口GUI采用固定的布局和设计,其功能和外观很难进行灵活修改。随着数字产品功能的不断增加,GUl界面在某些情况下变得越来越复杂,需要用户理解和记住菜单、按钮、功能的用途和工作流程,导致学习成本越来越高。为了解决GUl的上述问题,通过将安全语料输入大模型,可以获得一个能够“懂安全”的自然语言交互全新接口LUI°LUl接口支持用户用自然语言和SeCLLM直接对话,即使用户没有学习安全技能,也可以直接提问“如何保护我的网络免受DDOS攻击?”;“懂安全”是指SeCLLM能够理解用户问题意图并给出相应的安全专业答复,包括相关的安全知识、建议和决策支持等。可见,SeCLLM通过简单LUl接口就可以为用户提供个性化且智能化的安全服务,使用户和大模型间能够轻松协作并完成安全任务。 “快”:专业知识快速接入,动态安全服务提供及时ChatGPT背后通用大模型LLM训练需要耗费大量的计算资源和时间,训练数据受到时间限制。如果用户需要实时信息或最新动态等内容,ChatGPT可能无法直接提供。对于安全分析的需求,需要可靠实时数据源的接入和安全领域专家的指导,以确保获取最新和准确的信息。SeCLLM可以通过不同外接数据源或安全知识库来提供可靠的实时数据和专业领域知识。一方面,通过外接查询接口,SeCLLM可以向特定的数据源发送请求并获取实时数据,例如查询各种威胁情报平台获取最新的安全事件和漏洞公告,并与用户分享相关的警报、建议或解决方案。另一方面,SeCLLM无需等待训练,通过连接到安全领域的专业知识库获取更深入的高质量知识,为用户提供专业领域知识质询服务。上述两种方式可以弥补LLM本身训练数据时间限制的不足,并使其能够获取最新的安全信息和专业的安全知识。SecLLM注重提高安全数据和服务的高效性,通过实时查询情报源或安全知识库实现实时性和高效性。“准”:工具协同功能扩展,复杂安全问题解决有方1.LM有自然语言理解、推理和逻辑能力。但对于安全特定或复杂任务,需要专门设计和训练不同模型,提升其安全知识,也需要定制额外功能完成复杂安全任务。如何使大模型更加灵活地适应各种安全需求,为用户和开发者带来更多的价值和可能性?SecLLM通过提供插件和工具调用能力,使开发者和用户能够将自定义的专业功能集成到模型中。例如威胁检测算法、漏洞扫描工具等专业功能的集成可以使SeCLLM功能更加多样化。SeCLLM根据用户的实际需求来扩展特定的安全功能,智能调度所需的安全专业工具、插件和安全小模型等。可见,SeCLLM与不同专业安全工具间的协作,可以辅助用户分析和决策,更好地完成安全特定或复杂任务,并提高生产力。“安”:模型可信安全保障,数字世界护航无忧1.LM作为一项人工智能算法应用,不仅具备传统算法的复杂、不可解释等固有属性,还可能引入安全和隐私保护方面的风险。同时,黑客也可以利用LLM技术开发智能恶意软件程序并发起隐形攻击。所以,大模型自身所面临的安全风险不容忽视。SecLLM需要构建算法治理框架、模型操作风险防控及模型全生命周期质量管控体系。一方面考虑模型内生安全,保证模型计算任务的执行过程中的全流程安全,包括对模型和数据的存储、传输、训练、推理等环节进行安全保护;另一方面考虑模型衍生安全,通过采用加密、权限管理、访问控制等措施,确保模型使用的用户的数据得到充分保护,并且模型本身不会受到恶意攻击或滥用。SeCLLM提倡保证模型内生和衍生安全,以有效应对大模型自身所面临的安全风险挑战。由上可见,SecLLM的技术升级主要集中在四个方面:易用性、高效性、准确性和安全性。通过这些技术升级(如图3所示),SeCLLM能够提升智能化水平、功能全面性和安全适应性,并同时确保数据隐私和模型安全。这使得SeCLLM将成为安全行业的重要工具,帮助用户应对各种挑战,并为安全领域提供高效、可靠的支持。SecLLM能够更好地应对复杂的安全攻防实战场景,为安全行业提供更强大可信的解决方案。2.4 安全行业大模型的分层框架通过上述四大技术升级,SeCLLM致力于通过安全专业知识和工具增强大模型LLM,具备针对安全领域的智能问答、问题解决和决策支持的专业能力,支持采取智能化的行动来化解不断发展的威胁,不仅确保各企业等保合规的安全需求,而且保障用户可以安全可信地使用通用大模型LLM技术和相关产品。SecLLM的五层框架如图4所示。图4安全行业大模型五层框架2.4.1 基础层SecLLM的基础层为大模型训练和推理提供了必要的基础设施和高效的管理,涵盖数据接入、资源调度、大模型工程化管理、分布式训练和推理加速等多方面。 数据集成和理解:多源异构安全数据接入技术允许从不同类型的数据源中汇集信息,如网络流量、系统日志、恶意软件样本等。这有助于构建更全面、综合的数据集,为模型提供更深入的理解和分析能力,从而更准确地检测潜在的威胁。 高效计算:CPU/GPU资源调度技术允许优化计算资源的使用,确保模型训练和推理过程中的高性能。通过合理的资源分配,模型能够在相同时间内处理更多数据,提高检测速度和响应能力。 模型效率优化:大模型的XoPS管理技术可以降低模型的计算复杂度,减少计算资源的需求。这有助于提高模型的效率,使其能够在较小的资源开销下进行更快速的分析。 分布式高速训练:安全行业大模型能够利用多台计算机进行并行训练,加快模型的训练速度。这有助于提高模型的适应性,更快地适应新的威胁和变化。 应用场景适应性:模型部署推理加速技术允许在云环境或私有网络中高效地部署模型,覆盖更广泛的安全场景,确保模型能够有效应对多样化的威胁。2.4.2 模型层SecLLM的模型层引入多个关键技术进行大模型的增量预训练和微调,使其能够更深入地理解安全领域的语境和知识,从而提高在安全任务中的性能和效果。 安全数据预处理:通过安全数据预处理,可以将原始安全数据进行清洗和标准化,从而提高数据质量和一致性。这有助于减少数据中的噪音、提取关键信息,使模型能够更精确地分析安全问题。 安全预训练模型增量训练:通过安全预训练模型的增量训练,模型能够在通用预训练基础上,进一步融合安全领域的语义和知识。这使得模型在安全任务中更具感知能力和专业性。 下游任务微调:在具体的下游安全任务中优化和微调模型,提高模型在特定任务上的准确性和性能。这种个性化微调使模型更好地适应不同的安全应用场景。 安全知识增强模型:安全知识增强模型允许将领域专业知识注入模型,使其更准确地理解安全威胁。这有助于模型更好地识别潜在威胁,为安全分析提供更有力的支持。 人类对齐微调:通过人类对齐微调,模型能够与人类专家的知识进行融合,提高模型的可信度和可解释性。这有助于模型决策更加可解释,为安全分析提供更大的信任。2.4.3 能力层针对安全复杂问题的解决,SecLLM需要能够更好地理解、分析和应对安全问题,所需关键能力列举如下: 安全意图理解:安全意图理解技术可以帮助模型更好地理解用户和攻击者的意图。这有助于模型更准确地分析行为,识别潜在的威胁,并区分正常行为和异常行为。 安全辅助决策:安全辅助决策技术能够为决策提供有力支持,通过模型的分析和推荐,帮助安全专业人员做出更明智的决策。这有助于快速应对安全威胁和风险。 安全日志解析:安全日志解析技术能够自动解析和分析大量的安全日志,从中提取关键信息。这有助于快速发现异常情况和潜在威胁,加强安全监控和分析能力。 告警分析研判:告警分析研判技术使模型能够对告警事件进行深入分析和判断。通过模型的辅助,可以快速确定告警的严重性、可信度和应对措施,提高响应效率。 人机协同学习:人机协同学习技术能够将人类专业知识和模型的分析能力相结合,实现双方的互补。这有助于提高模型的可解释性、可信度,同时使人类专家能够从模型中获得更深入的洞察。2.4.4 服务层SeCLLM服务层提供了云端MaaS服务、客户定制本地部署,以及大模型安全伦理保障等。这些服务和保障措施为客户提供了多样化的部署和应用选择,并确保模型在安全、隐私和伦理方面得到充分保障。 云端MaaS服务:云端MaaS服务将SeCLLM部署在云端,为客户提供基于订阅和APl的服务。这种服务模式使客户无需自行部署和维护模型,而是通过云服务提供商直接使用模型的功能。 客户定制本地部署:SeCLLM支持在客户自己的本地环境中部署,可以实现更高的数据处理性能和实时性,以满足特定的隐私、安全性或合规性需求。 大模型安全伦理保障:大模型安全伦理保障包括一系列措施,如确保大模型的使用符合道德和法律规范,保护用户隐私和数据安全,防范恶意行为和攻击等。2.4.5 应用层SeCLLM应用层的目标是解决安全场景中复杂的实际问题,涉及威胁检测、安全决策、安全运营等方面。以下是一些可能的应用举例: FAQ安全知识库:SecLLM可以构建一个FAQ安全知识库,用于回答用户的安全问题。用户可以查询关于网络安全、隐私保护等方面的问题,并从模型的回答中获取专业的安全信息和建议。 安全运营助手:SeCLLM可以作为安全运营助手,协助安全运营人员监测网络活动,识别潜在的威胁,生成告警和报告,并提供针对威胁的响应建议。这有助于提高安全运营的效率和准确性。 安全CoPik)t:SeCLLM可以作为一个协作式工具置入已有系统中,担任团队的“安全副驾驶员"o安全COPilOt可被用于分析大量的安全数据,为安全团队提供决策支持、威胁情报分析和事件响应建议,帮助团队更好地应对安全挑战。新技术:安全行业大模型关键技术为了解决攻防实战场景中所面临的复杂安全问题,SeCLLM助力提供更为全面、高效、智能的安全防护能力。通过定制化模型训练和优化,提高模型的专业性、准确性和适应性。结合安全知识库和协作其他安全工具,提高模型对特定安全问题的意图理解和专业分析。SecLLM结合前面研究新范式,通过“易”、“快”、“准”、“安”四方面开展技术升级。下面对四个方面所相关的部分关键技术进行介绍。3.1 数据增强:高质量安全语料双飞轮通用大模型LLM在安全领域应用难题首先是缺乏安全领域的专业知识。安全知识包括安全术语、复杂的攻防技战术、应急措施解决方案、漏洞及利用代码、攻击特征等。例如安全事件分析任务中需要具备理解和分析网络攻击流量、降噪海量告警日志等能力,这些能力需要大量漏洞知识库、攻击技术识别、威胁情报数据等不同类型的安全知识储备。然而,现有LLM大多基于通用领域而非安全领域的语料库进行预训练,所以无法提供准确的安全领域知识,限制了LLM在安全行业的应用和效果。安全知识图谱高质量安全专业知识安全运营服务信息 实时交互采集和分析在线 数据下游任务能力激活 大模型FT模型在线应用图5双线数据飞轮构建流程安全核心能力情报整合安全语料库的构建是安全行业大模型SecLLM构建中不可或缺的一环。安全数据双飞轮自运转机制(如图5)通过双线持续收集和处理安全数据构建高质量安全语料,循环迭代优化大模型的安全专业性。一方面,双数据飞轮为两条线的数据飞轮,包括安全知识图谱的离线增量数据和安全运营服务的在线反馈数据。由于部分安全数据的敏感性,合法获取足够规模的安全数据是一项具有挑战性的任务。为了获取足够规模和多样性的安全语料,从离线和在线两种方式收集高质量安全原始数据。离线数据从历史积累的安全知识图谱中获得,绿盟安全知识图谱技术白皮书3中整合了企业内外多年积累的多源异构网络安全数据并经过了安全语义和知识提取实践,提供高质量安全专业知识。在线数据来自绿盟在线安全服务的反馈数据,这些数据都经过安全运营专家在实时交互过程中的处置和审核,确保安全数据的置信度和可靠性。另一方面,通过自运转机制逐步构建高质量、多样化的安全语料库,通过增量训练整合到SeCLLM中。同时,SeCLLM可以从复杂安全场景反馈中不断学习和改进,逐步提升性能和效果。由此可见,双数据飞轮的运转通过持续供给高质量安全语料,加强模型自我学习和更新,适应变化的需求和新的应用场景,提供更准确和专业的响应,从而提高安全行业大模型性能和效果。3.2 训练加速:高效并行加速增量训练随着LLM参数量倍数级的增长,低资源服务器因资源不足已无法支撑模型训练过程。一方面LLM参数量较多,单个GPU显存有限,难以容纳大模型;另一方面LLM中运算操作的数量较多,训练时间会大幅度增加。这导致LLM的训练越来越需要强大的计算能力来支撑其处理大规模的数据集和复杂的模型结构。因此,在进行SeCLLM训练之前,一方面,需要充分评估资源需求并确保有足够的计算、存储和经济资源来支持训练过程。要提升SeCLLM构建效能,需要合理分配资源,充分利用计算资源和数据资源。分布式并行训练能够充分利用计算资源来训练参数量更大的模型,降低对单GPU节点的资源要求。另一方面,在资源有限的情况下,可以通过优化算法和模型结构可以提升SeCLLM的训练效率。采用更有效的优化算法和合适的模型结构,可以在有限资源下取得更好的训练结果。目前,LLM的训练过程中采用分布式训练的方式进行高效训练。分布式训练是将训练数据或者模型分配到单台机器的多张GPU卡上或者多台机器的多张GPU卡上进行并行训练的过程,支持数据和模型两大并行方式。数据并行对数据进行分割,将模型复制到多张GPU卡上进行训练,可以有效缩短训练时长。模型并行将模型进行分割,使得单张GPU卡难以容纳的大模型被分配到多张GPU卡上进行训练。影响模型训练效率的因素除了运算过程,还有节点间的通信方式(包括ParameterServe和AllRedUCe等架构的通信方式)。图6分布式训练方案在SeCLLM分布式训练过程中,从不同的硬件资源及训练需求角度出发,有多种分布式训练方案可供选择,如图6所示,当训练集数据量较大时,可以通过数据并行方式提高训练效率,缩短训练时间;当SeCLLM模型参数量较大时,可以通过张量并行、流水线并行以及ZeRo方式,将模型分配到多张GPU卡上,降低模型对GPU单卡的显存需求。3.3 任务微调:安全下游任务高效微调随着模型变得越来越大,传统方法的全参数微调方法会产生数量庞大的梯度,尤其对于Transforme模型中的注意力层,其产生的梯度数量不仅与模型参数数量有关,还与输入长度呈平方相关。伴随庞大的梯度数量而来的,便是优化器状态产生的巨大RAM消耗和Backward操作的时间开销。W Rdxd = J*(0,2j,Pretrained Weightsrd?xl为了缓解资源开销问题,就有了各种各样的参数高效微调(Parameter-efficientFine-tuning,PEFT)技术。例如,LoRA(低秩自适应)方法在原本的模型权重上叠加了一组“旁路”的结构,每个结构包括两个低秩矩阵的乘法,直观看来就像一个没有偏置的、只有一个隐层的稀疏自编码器。且其“解码器”部分使用全零初始化,确保了叠加后的模型初始状态与叠加前保持一致,避免叠加层对模型造成过多干扰。又例如,Pompt-Tuning实际实现中大致分为以下三步:1、为每项微调目标任务指定对应的提示文本(一般为前缀),提示文本可以人工设计,也可添加新词(扩充tokenize词表和嵌入层维度);2、冻结预训练模型中的全部参数,但保留提示文本相关的嵌入层权重;3、运行模型并进行训练,专门优化这些提示文本对应token的嵌入向量。除此之外,还有Prefix-TuningsP-Tuning等典型方法。参数高效微调方法能够极大降低训练资源开销,以LORA为例,在2M100配置的GPU主机上进行测试,对比添加适配器前后的ChatGLM2模型SFT训练过程RAM开销,如表1所示效果非常显著:表1添加适配器前后RAM开销对比(单位:GB)DeepSpeed优化器目标GPU0显存GPU1显存CPU内存合计ZeR03+CPUOffload全部参数21.824.764.1110.6LoRA(rank=8)16.823.232.772.7注:由于OffIoad机制的影响,部分模型权重和优化器状态等会在GPU和CPU内存中各存储一份,因此直接相加的“合计”方法可能并不严谨。但仍可作为粗略参考。推理加速:多维优化推理任务加速1.LM在安全领域应用的前提是模型部署和实时推理。模型实时推理使用训练好的模型对新数据进行预测分析等任务。随着业务规模的不断扩大,算法模型复杂度不断增加,输入模型的数据量不断增大,如何完成大模型的推理变得越来越重要。由于推理任务通常对响应时间有较高的要求,如何在这些计算资源密集型的任务中进行快速的模型推理,是LLM应用到网络安全领域的关键技术之一。除了分布式技术加速推理外,还可通过减少模型的存储和计算需求来提高大模型推理速度和效率,例如剪枝、量化技术等。此外,在硬件方面也可以通过图形处理器(GraphicsProcessingUnit,GPU)×现场可编程门阵列(FieldProgrammabIeGateAITa