机器学习在网络空间安全研究中的应用.ppt
《机器学习在网络空间安全研究中的应用.ppt》由会员分享,可在线阅读,更多相关《机器学习在网络空间安全研究中的应用.ppt(23页珍藏版)》请在三一办公上搜索。
1、机器学习在网络空间安全研究中的应用,2019-4-26,xxx,引言,随着云计算、物联网、大数据等新兴技术的迅猛发展,数以亿计的网络接入点、联网设备以及网络应用产生的海量数据,给网络空间安全带来了巨大的困难和挑战,传统的安全问题解决方案面对海量数据变得效率低下机器学习以其强大的自适应性、自学习能力为安全领域提供了一系列有效的分析决策工具,近年来引起了学术界与工业界的广泛关注和深入研究,01,4,引言,网络空间(Cyberspace)不仅包含互联网、通信网、各种计算系统、各类嵌入式处理器和控制器等硬件和软件,也包括这些硬件和软件产生、处理、传输、存储的各种数据或信息,还包括人类在其中活动而产生的
2、影响网络空间因而被称为陆、海、空、太空之外的第五大空间近年来网络空间中各类安全事件和网络攻击频繁发生,例如2016年10月由恶意软件 Mirai 控制的僵尸网络发起 DDoS攻击,造成美国东海岸大范围断网;2017年月爆发的勒索病毒软件 WannaCry 利用系统漏洞进行攻击,造成全球多个国家数十万用户电脑中毒;在我国,每年因伪基站、恶意软件勒索等数字犯罪造成的损失达上百亿元,勒索病毒 WannaCry,5,引言,调研显示,机器学习在网络空间安全基础、密码学及其应用作为理论基础方面的研究较少涉及;而在系统安全、网络安全、应用安全三个方向中有大量的研究成果发表其中,系统安全以芯片、系统硬件物理环
3、境及系统软件为研究对象,网络安全主要以网络基础设施、网络安全检测为研究重点,应用层面则关注应用软件安全、社会网络安全,如图1所示的研究体系从机器学习技术应用于网络空间安全的角度出发,总结了机器学习一般应用流程,如图中右侧所示,详细介绍问题的定义、数据采集、数据预处理及安全特征提取以及模型构建、验证、效果评估各个阶段,有助于研究人员全面地理解基于机器学习技术的网络空间安全问题解决方案,机器学习在网络空间安全中的应用流程,02,7,机器学习在网络空间安全中的应用流程,通常机器学习被认为是一组能够利用经验数据来改善系统自身性能的算法集合机器学习从大量数据中获取已知属性,解决分类、聚类、降维等问题理解
4、机器学习在网络空间安全中的应用流程,能够有效地帮助网络空间安全领域的研究人员建立直观的认识,同时也是其进一步采用机器学习技术解决网络空间安全问题的前提如图所示,机器学习在网络空间安全研究中的一般应用流程,主要包括安全问题抽象、数据采集、数据预处理及安全特征提取、模型构建、模型验证以及模型效果评估个阶段在整个应用流程中,各阶段不能独立存在,相互之间存在一定的关联关系,8,2.1 安全问题抽象,安全问题抽象是将网络空间安全问题映射为机器学习能够解决的类别问题映射恰当与否直接关系着机器学习技术解决网络空间安全问题成功与否因此,使用机器学习技术解决安全问题的第一步就是要进行问题的抽象和定义,将安全问题
5、映射为机器学习能够解决的分类、聚类及降维等问题如图所示,对劣质芯片或硬件木马的检测、伪基站检测、虚拟化安全、信用卡欺诈等都可以抽象为分类问题;设备身份认证、社交网络异常帐号检测、网络入侵检测等可以抽象为聚类问题;用户身份认证、恶意异常入侵检测、取证分析、网络舆情等既可以抽象为分类问题也可以抽象为聚类问题如果是高维数据的处理,可以抽象为降维问题,例如在设备身份认证、恶意网页识别问题中,由于数据维度过高,可以利用机器学习主成分分析(PCA)算法、奇异值分解(SVD)算法等对数据进行降维操作通过对安全问题的合理抽象和定义,研究人员可以明确如何采集数据,并选择恰当的机器学习算法构建安全问题模型,9,2
6、.2 数据采集,应用机器学习算法必不可少的要有大量的有效数据,因此数据采集是机器学习应用于网络空间安全的前提条件数据采集阶段主要利用各种手段,如 Wireshark、Netflow、日志收集工具等,从系统层、网络层及应用层采集数据系统层数据用于系统安全问题的研究,这类数据主要有芯片信息、设备信息、系统日志信息以及实时运行的状态信息等,主要用于芯片安全、设备安全及系统软件安全,例如采集基站的位置信息、短信日志等数据用于伪基站检测研究网络层数据指与具体网络活动密切相关的数据,目前常用的是网络包数据或网络流数据,主要用于检测僵尸网络、网络入侵等,例如在企业内部网络中采集大量的真实的 TCP流数据用于
7、进行协议分类及异常协议检测研究应用层数据指网络空间中的各类应用软件产生及存储的数据,如邮件文本信息、Web 日志、社交网络文本信息、用户个人信息等,主要用于应用软件安全检测、网络舆情分析等,例如采集大量的 URL数据用于恶意网页识别除自行采集数据外,目前安全领域有一些常用的公开数据集供研究者使用,如表所示,10,2.3 数据预处理及特征提取,由于采集的原始数据存在数据缺失、非平衡、格式不规范、异常点等问题,需要在提取特征之前对原始数据进行清洗和处理,主要包含对数据规范化、离散化以及非平衡性的处理等()数据预处理在真实的网络环境中,采集的数据可能包含大量的缺失值、噪音,也可能由于人工录入失误而产
8、生异常点因此,为了提高数据的质量,保障构建模型学习的效果,需要对数据进行清洗及归一化等预处理例如从企业内部采集的 TCP流数据,首先需要剔除重复数据、去除噪音等规范化操作;然后对清洗之后的数据进行聚合、归一化等处理.()数据缺失处理及异常值的处理如果采集数据集中某个特征缺失值较多时,通常会将该特征舍弃,否则可能会产生较大的噪声,影响机器学习模型的效果当某个特征的缺失值较少时,可用采用固定值填充、均值填充、中位数填充、上下数据填充、插值法填充或者随机数填充等方法()非平衡数据的处理例如在信用卡欺诈检测中,减少正常账号的数据样本过采样与欠采样相对,过采样适用于数据量不足的情况,通过复制、自举法等方
9、法增加少数类的样本量来平衡数据集,例如增加伪造信用卡账号的数据样本()数据集的分割数据预处理完成后,需要进行机器学习模型所需数据集的准备工作该工作主要将整理之后的数据集分为三个集合:训练集、验证集和测试集()特征提取特征提取指从数据中提取最具有安全问题的本质特性的属性从清理后的数据中提取特征通常需要特定的领域知识,例如恶意网页的识别中需要从抓取的网页数据中提取主机信息特征、网页内容特征、静态链接关系及动态网页行为等特征,11,2.4 模型构建,模型构建是机器学习在网络空间安全应用流程中的中心环节,根据数据预处理后的数据集及目标问题类型,在本阶段选择合适的学习算法,构建求解问题模型模型构建具体包
10、含个部分,即算法选择和参数调优需要面对种类繁多的机器学习算法,如何能够选择恰当的机器学习算法是应用机器学习技术解决网络空间安全问题的关键在机器学习领域,按照数据集是否有标记分为监督学习、无监督学习在监督学习模式中,每组数据有一个 明 确 的 标 签,例 如 垃 圾 邮 件 检 测 中 的 每条数据标记为“垃圾邮件”或“非垃圾邮件”监督学习算法常用于分类问题和回归问题常见算法有逻辑回 归(LR)、人 工 神 经 网 络(ANN)、支 持 向 量 机(SVM)、决策树、随机森林、线性回归等在非监督学习中,数据不包含标签信息,但可以通过非监督学习算法推断出数据的内在关联,例如社交网络帐号的检测中对好
11、友关系、点赞行为等聚类,从而发现帐号内在的关联非监督学习常用于聚类问题常见的算法有 近邻(KNN)、层次聚类算法、图聚类算法等,12,2.5 模型验证,模型验证主要评估训练的模型是否足够有效在此阶段中,倍交叉验证法是最常见的验证模型稳定性的方法倍交叉验证法将数据预处理后的训练数据集划分成 个大小相似且互斥的子集,每个子集尽可能保持数据分布的一致性,然后每次用子集的并集作为训练集,剩余子集作为验证集,从而获得了组训练数据集和验证集,可进行次训练和验证测试,最终的返回结果是这次验证测试结果的均值例如在设备身份认证、网络入侵检测、恶意域名检测系统、恶意 PDF文件的检测、社交网络异常帐号检测中均使用
12、了10倍交叉验证模型,用于评估模型是否符合训练目标如果当前模型与训练目标偏离较大,则通过分析误差样本发现错误发生的原因,包括模型和特征是否正确、数据是否具有足够的代表性等如果数据不足,则重新进行数据采集;如果特征不明显,则重新进行特征提取;如果模型不佳,则选择其他学习算法或进一步调整参数.,13,2.6 效果评估,机器学习的模型评估主要关注模型的学习效果以及泛化能力泛化能力的评估通常是对测试集进行效果评估在芯片检测、恶意软件检测、异常检测、网络入侵检测等分类问题中,效果评估常用到表所列的评估指标,常用的分类评估指标有正确率、查准率(又称精度)和查全率(又称召回率)正确率是分类正确的正常样本与恶
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 机器 学习 网络 空间 安全 研究 中的 应用
链接地址:https://www.31ppt.com/p-6473673.html