《导师孙名松教授.ppt》由会员分享,可在线阅读,更多相关《导师孙名松教授.ppt(53页珍藏版)》请在三一办公上搜索。
1、导师:孙名松 教授,学生:周梦熊,基于实数编码遗传神经网络的入侵检测方法研究,目 录,课题背景遗传神经网络分类检测器同步检测模型数据预处理仿真实验结束语和展望发表论文,选题来源,本论文的项目背景是黑龙江省自然科学基金项目基于多层前向神经网络的分布式入侵检测模型,本文作为该项目的一个组成部分,将实数编码遗传算法与神经网络结合作为其中一个分布式Agent的检测算法。,课题背景,论文主要内容,比较分析入侵检测方法,将实数编码的遗传算法优化BP神经网络初始权重应用于入侵检测;为了提高入侵检测系统的检测效率和实时性,提出分类检测器同步检测模型;,课题背景,论文主要内容,数据预处理,即把经过数据挖掘后的样
2、本数据进行归一化处理;二次处理,即对数据预处理后的数据进行深度处理,从而对样本数据进行有效性的压缩;仿真实验,得出结论。,课题背景,目 录,课题背景遗传神经网络分类检测器同步检测模型数据预处理仿真实验结束语和展望发表论文,实数编码遗传算法,遗传算法的主要特点是群体搜索策略和群体中个体之间的信息交换,搜索不依赖梯度信息,也不需要求解函数可微,只需要该函数在约束条件下可解,因此该方法适用于处理传统方法难以解决的复杂和非线性问题。目前,遗传算法经常采用二进制编码,这有它自身的优点,如它能使交叉和变异操作容易实现,虽然采用二进制编码时算法处理的模式数最多,但在处理优化,遗传神经网络,实数编码遗传算法,
3、问题时,会出现一些问题:“由于相邻整数的二进制编码结构可能出现很大的差异,这样会降低遗传算子的搜索效率,而且如果设计变量的精度很高,串长就很大,这样也降低了算法的效率,并且在进化过程中还要不停地进行编码和解码操作,计算时间比较长,所以在求解高维优化时,算法的搜索效率就更低了”。,遗传神经网络,实数编码遗传算法,而基于实数编码的遗传算法不存在编码和解码过程,能够大大提高解的精度和运算速度,因此,基于实数编码的遗传算法得到了越来越多的重视。,遗传神经网络,编码方式,由于实数编码的遗传算法不存在编码和解码过程,能够大大提高解的精度和运算速度,因此,本文采用实数编码。,遗传神经网络,适应度函数,所谓的
4、适应度函数就是评价函数,将染色体上表示的各个权值分配到给定的网络结构中,网络以训练集样本为输入输出,运行后返回误差平方和的倒数作为染色体的适应度函数,如式(2-1)所示。,遗传神经网络,(2-1),遗传算子设计,选择算子 采用适应度比例方法,计算每个个体的适应度值并将其排序,每个个体的选择概率和其适应度值成正比例。即适应度值越大,它被选择到的机会也就越大,从而被遗传到下一代的可能性也越大。设群体大小为n,个体i的适应度值为fi,则被选择的概率为Psi,如式(2-2)所示,遗传神经网络,(2-2),遗传算子设计,交叉算子 这里设计为具有数值特点的向量线性组合。如有两个个体Sa与Sb交叉,则产生的
5、子代个体如式(2-3)、(2-4)所示。其中,的取值在(0,1)。,遗传神经网络,(2-3),(2-4),遗传算子设计,变异算子 对于子代染色体中的每个权值输入位置,变异算子以概率Pm在初始概率分布中随机选择一个值,然后与该输入位置上的权值相加。,遗传神经网络,遗传算子设计,取值为0.5时进行交叉算子运算,如图2-1中交叉部分所示,两个个体经过交叉后生成两个新个体;变异算子运算如图2-1中变异部分所示;粗体斜体部分表示交叉或变异的位置,遗传神经网络,遗传算子设计,遗传神经网络,图 2-1 交叉和变异算子的运算,面向神经网络权重学习,神经网络的权值按一定的顺序级联为一个长串,串上的每一个位置对应
6、着网络的一个权值。,遗传神经网络,图 2-2 神经网络权值编码,面向神经网络权重学习,如图2-2所示,神经网络编码为:(1.4,-1.8,3.6,1.7,0.9,-0.7,4.5,-0.3,1.3),遗传神经网络,目 录,课题背景遗传神经网络分类检测器同步检测模型数据预处理仿真实验结束语和展望发表论文,系统总体结构,分类检测器同步检测模型,图 3-1 系统结构图,分类检测器同步检测模型,分类检测器同步检测模型,图 3-2 分类检测器同步检测模型,本文将“检测引擎模块”进行细化设计后提出“分类检测器同步检测”的模型,同步检测模型如图3-2所示。,同步检测算法描述,分类检测器同步检测模型,检测器调
7、度算法采用多线程实现,由于涉及到线程同步问题,自然会想到同步锁,线程间优先权设置我们采用如下方法:即四大类攻击中按样本数所占比例大小进行优先权的设置,所占比例越大,优先权就越大,这样,最后,优先权从高到低设置为“DOS、PROBE、R2L、U2R”。,同步检测算法描述,分类检测器同步检测模型,算法描述分别为每个检测器开启一个线程;输入向量,按照线程优先权的大小,代表检测DOS类型攻击的检测器A首先获得该“锁”并对该输入向量进行检测;如果是DOS攻击,则通知“状态监视”模块并设置为True,“状态监视”一旦为True则马上通知其它检测器线程不用等待该锁而直接做好获取下一把“锁”(也就是下一个输入
8、向量)的准备,直接输出结果后转步骤2;如果不是DOS攻击,则释放该“锁”,让代表检测PROBE类型攻击的检测器D获得该“锁”进行检测,如果检测出攻击则输出结果同样转步骤2,否则,依此类推继续检测;当最后一个检测器对输入向量检测也正常时,则输出结果转步骤2,同步检测算法描述,分类检测器同步检测模型,输出结果向量表示:0 0 0 1表示DOS攻击;0 0 1 0表示R2L类型攻击;0 1 0 0表示U2R类型攻击;1 0 0 0表示PROBE类型攻击。,其中x1,x2,x3,x4分别表示检测器A、B、C、D的输出,目 录,课题背景遗传神经网络分类检测器同步检测模型数据预处理仿真实验结束语和展望发表
9、论文,数据来源,本文采用麻省理工大学林肯实验室的测试数据KDDCUP99,它是专门用来进行入侵检测评估的。我们采用数据集上的一个子集10percent作为实验数据源,它一共包含有494021条网络连接,其中正常连接97277 条,异常连接396744条。,数据预处理,数据归一化,一般归一化公式:,数据预处理,归一化到0、1之间:,样本精简,矩阵初等行变换能保持矩阵列向量之间的线性关系,利用这个结论我们可以用来进行样本数据的精简,这样精简后的样本数据能够保持各属性字段之间的线性关系。神经网络的训练实际上是一个通过给定样本实时调整网络连接权重的过程,样本预处理的结果对于网络训练的收敛性起到关键的作
10、用。下面我们针对DOS攻击类型数据(DOS攻击类型编码为“0 0 0 1”)进行分析。,数据预处理,样本精简,设A为样本数据矩阵,其中每一行向量表示一条样本数据,则该行向量含34个数据,假设有a条样本,则A为a行34列矩阵;由于每条样本数据输入网络后都会有一条对应的输出,加上本实例为DOS攻击类型以编码“0 0 0 1”表示,则期望输出矩阵B为a行4列矩阵(暂时先不考虑阈值,只考虑权重问题)。本文BP神经网络的输入节点数为34个,隐含层节点数为15个,输出层节点数为4个。,数据预处理,样本精简,虽然神经网络的连接权重可以用一个实数串进行表示,但在进行网络的训练时,还需要将实数串分为两部分,设输
11、入层到隐含层的连接权重矩阵为W1,则W1为34行15列矩阵;同理,隐含层到输出层的连接权重矩阵W2为15行4列矩阵。于是我们可以得到公式(4-1)。,数据预处理,样本精简,如式(4-2)所示,A和B是系数矩阵,C是增广矩阵。经过带约束初等行变换后如式(4-3)所示。,数据预处理,(4-2),(4-3),(4-1),样本精简,数据预处理,式(4-3)中,C、D为零矩阵,经过处理以后,由原先的A对应输出B变成了现在的A对应输出B,通过这样的处理,我们就可以将大样本变为小样本,从而使计算更加快速,样本数据更加精简。,归一化精度对样本影响,数据预处理,为了能使样本应用于本文提出的分类检测器同步检测模型
12、,我们将样本数据先进行归类合并,分别构造出DOS、PROBE、U2R、R2L四大类攻击样本数据集,这样四个检测器分别检测四大类攻击。为了降低可疑攻击数,即四大攻击类型数据集之间的重叠记录数要少。精度过大会增加计算量,从而会降低学习速度;精度过小,会使记录重叠数增加,从而造成可疑攻击数增加,影响训练结果。,归一化精度对样本影响,数据预处理,表4-1 小数点保留1位时记录重复情况,归一化精度对样本影响,数据预处理,表4-2 小数点保留4位时记录重复情况,归一化精度对样本影响,数据预处理,表4-3 样本数据压缩情况,归一化精度对样本影响,数据预处理,图4-1 样本数据压缩情况,目 录,课题背景遗传神
13、经网络分类检测器同步检测模型数据预处理仿真实验结束语和展望发表论文,学习样本和测试样本,仿真实验,表5-1 样本数据,学习样本和测试样本,仿真实验,表5-1是数据预处理后的标准格式,学习样本和测试样本数据只取DOS攻击样本中数据。为避免发生神经网络的“过拟合”现象,我们不需要让神经网络学习过多的样本细节,这里取DOS攻击样本数据30条作为学习样本进行网络的训练,期望输出都为“0 0 0 1”。测试样本数据为300条。,实验环境和运行参数,仿真实验,实验环境为“Intel(R)Celeron(TM)CPU 1000MHz,内存384M,操作系统Windows2000 Professional”,
14、开发工具为MATLAB 7.0。在遗传算法中,种群规模Psize=60,权重初始化空间为-1,+1,遗传代数为gen=200代,选择概率Ps0.09,交叉率Pc=0.6,变异率Pm0.05;在 BP 算法中,最大训练次数为3000,目标误差为0.01,学习率为0.01。,GA训练BP网络连接权值,仿真实验,图5-1 GA训练神经网络权重,GA训练BP网络连接权值,仿真实验,图5-2 局部放大,BP神经网络进行局部寻优,仿真实验,图5-3 BP局部寻优,仿真结果,仿真实验,300条DOS攻击类型的样本数据进行网络的测试,期望输出应该为“0 0 0 1”,限于篇幅,表5-2只列出部分网络输出结果。
15、每一列对应为一个输出结果,第一个输出为(0.0003,0.0004,0.0005,0.9987),可以直观地看出应该符合(0,0,0,1)编码形式,故该条测试样本数据为DOS攻击类型。,表5-2 部分输出结果,仿真结果,仿真实验,300条DOS攻击样本数据经过测试后,有4条检测出错并且都被检测为其它攻击类型,296条检测正确,检测率为98.67%,4条入侵样本数据没有被检测出来,相对于DOS攻击来讲就是“正常”数据,则漏报率为1.33%。,目 录,课题背景遗传神经网络分类检测器同步检测模型数据预处理仿真实验结束语和展望发表论文,论文主要工作,研究了基于实数编码遗传神经网络的入侵检测技术。提出了
16、分类检测器同步检测的模型,并给出算法描述。每个检测器就是一个训练好的遗传神经网络,通过多线程同步原理,既可以保证每个检测器高检测率、低漏报率的特点,又可以保证检测实时性的特性。,结束语和展望,论文主要工作,在样本预处理基础上进行了二次处理,将矩阵理论知识应用于样本数据的精简,并根据本文分类检测器同步检测模型的特点找出一条合理压缩数据途径。通过仿真实验,我们可以看出每个检测器的检测效率很高,同时也可以看出训练时遗传神经网络收敛速度很快,而且因为实数编码的原因,遗传算法在训练神经网络权重过程时进化到85代就基本稳定下来,大大减少了训练的时间。,结束语和展望,下一步工作,将数据挖掘与样本处理结合,期
17、望能进一步挖掘出符合具体检测模型的检测特征字段对提出的分类检测器同步检测模型做进一步改进,使其在自适应性方面得到提高复合攻击类型的入侵检测技术研究,特别是基于行为分析的复合攻击事件检测技术,结束语和展望,目 录,课题背景遗传神经网络分类检测器同步检测模型数据预处理仿真实验结束语和展望发表论文,发表论文,孙名松,周梦熊,李胜利基于UML的高校教育信息化评价系统的模型研究大连理工大学学报,2005,45(S1):287290(Ei:06049663711)周梦熊,孙名松,吕昌国基于实数编码的安全高效的入侵检测系统设计自动化技术与应用,2006,25(12):3739朱华兴,周丽娟,周梦熊XML数据查询的并行算法自动化技术与应用,2007,26(1):3841卜明玮,孙名松,周梦熊基于T.S模型FNN网络入侵检测方法研究自动化技术与应用,2007(已收录),谢谢答辩委员会各位专家,请批评和指导!,
链接地址:https://www.31ppt.com/p-5833570.html