日志审计与分析系统课件QAX第3章事件归一化.pptx
《日志审计与分析系统课件QAX第3章事件归一化.pptx》由会员分享,可在线阅读,更多相关《日志审计与分析系统课件QAX第3章事件归一化.pptx(43页珍藏版)》请在三一办公上搜索。
1、第3章 事件归一化,第3章 事件归一化,3.1 事件过滤3.2 归一化的原因3.3 归一化的方法及效果,目录,3.1 事件过滤目录,1. 了解事件过滤的原理2. 了解事件过滤的方法3. 理解事件归一化的原因4. 理解事件归一化的效果4. 掌握事件归一化使用的方法,本章学习目标,1. 了解事件过滤的原理本章学习目标,事件过滤,3.1,事件过滤3.1,在日志记录和日志管理的过程中,为减轻管理员审核日志、寻找潜在问题的工作负担,当今的日志分析系统提供自动化机制来对原始日志事件进行过滤、规范化和关联。,日志事件处理过程,日志事件处理过程,在日志记录和日志管理的过程中,为减轻管理员审核日志、,(1)概念
2、: 事件过滤是对从不同远程机器上收集的原始日志数据进行分析,保留对管理员有用的日志消息,而将无关的日志消息抛弃,以减少整个系统的负载。(2)事件过滤的必要性: 大规模网络通常具有复杂性,再加上各种日志记录的事件具有不确定性,导致各种日志设备产生的日志信息可能不完善甚至存在某些错误。因此,为了保证日志归一化的准确度和效率,必须对原始日志数据进行过滤操作。(3)事件过滤的主旨 旨在按照需求对不完整、错误的或者无关紧要的数据从日志中删除。,事件过滤概述,(1)概念:事件过滤概述,(1)信息不全面:日志收集与分析系统所收集的各种设备日志的某些重要属性值可能缺失,直接处理这些信息毫无意义,应将其过滤掉。
3、(2)IP地址错误:很多网络攻击者为了逃避追踪常常会使用虚假的源IP地址,因此需要过滤这类日志信息。当目的IP不在检测网络范围内时,应将其过滤掉。(3)重复记录:对于同一个事件,可能短期内会产生多条日志记录。据有关统计,DDOS攻击可以诱发IDS在92秒内产生92832条相同的日志警告信息。,原始日志存在错误信息,(1)信息不全面:日志收集与分析系统所收集的各种设备日志的某,(1)Marcus Ranum 在1997年创造的概念。(2)核心机制:通过寻找管理员熟悉的日志数据,从而发现管理员尚不知道的事件。,人为忽略,(1)Marcus Ranum 在1997年创造的概念。人为,(1)状态级别识
4、别:通常运行日志中,主要分为medium、info、error三个级别表示程序运行情况,medium代表正常,info代表警告、error代表错误,所以在数据筛选时主要取error的日志。(2)服务进程识别:在监控的服务进程中,日志存在processname字段,可以看到所有的进程日志,需要筛选用户启动的服务进程,如浏览器进程或者进程等具体流程。(3)日志去重:在实际进行取值的过程中,需要对事件日志进行去重操作,在数万条的记录中,筛选出最新的,最有价值的日志信息,进行后续操作,从而缩小日志范围。,事件过滤使用的方法,(1)状态级别识别:通常运行日志中,主要分为medium、i,(1)读入一条日
5、志数据;(2)判断该日志是否是错误日志,如果包含错误信息则将其删除;(3)判断该日志是否是用户所关心的日志,如果不是则将其删除;(4)最后按时间顺序对日志记录进行去重。,事件过滤流程,(1)读入一条日志数据;事件过滤流程,(1)根据日志的标志字段进行事件过滤: 对从不同远程机器上收集的日志汇总到中央日志处理服务器上,分析日志中不同字段,通常日志中包含错误代码、传输协议、IP地址、进程名、远程地址、用户名、URL、时间等字段。 (2)根据存储格式或内容规范进行过滤: 通过检查日志记录中每个属性的存储格式以及检查其实际内容是否符合规范对事件进行过滤,如空缺值,识别、删除孤立点,删除某些重复记录,对
6、属性值的有效性进行检验等等。,事件过滤分类,(1)根据日志的标志字段进行事件过滤:事件过滤分类,(1)忽略元组:除非元组有多个属性缺少值,否则该方法不是很有效。(2)人工填写空缺值:一般来说,该方法很费时,并且当数据集很大、空缺值很多时,该方法行不通。(3)使用一个全局变量填补空缺值:将空缺的属性值用同一个常数(如“Unknown”或-)替换。如果空缺值都用“Unknown”替换,程序可能误以为它们形成了一个有趣的概念,因为它们都具有相同的值“Unknown”。因此虽然该方法简单,但一般不使用。(4)使用属性的平均值填充空缺值。(5)使用与给定元组属同一类的所有样本的平均值。(6)使用最可能的
7、值填充空缺值:可以用回归、贝叶斯形式化方法工具或判定树归纳等确定空缺值。,空缺值处理方法,(1)忽略元组:除非元组有多个属性缺少值,否则该方法不是很有,(1)方法1针对元组数据,除非元组有多个属性缺少值,否则该方法不是很有效。(2)方法2的时间成本比较高,而且在数据量很大时可行性较低。(3)方法36使数据倾斜,填入的值可能不正确。(4)方法F是最常用的方法,与其他方法相比,它使用现存数据的多数信息来推测空缺值。在估计某个属性的空缺值时,通过考虑其他属性的值,有更大的机会保持收入和其他属性之间的联系。,空缺值处理方法比较,(1)方法1针对元组数据,除非元组有多个属性缺少值,否则该方,(1)重复数
8、据会导致错误的归并模式,因此有必要去除数据集中的重复数据,以提高其后归并的精度和速度。(2)每种重复记录检测方法都需要确定是否有两个及以上的实例表示的是同一实体。(3)有效的检测方法是对每一个实例都与其他实例进行对比,从而发现重复实例。,重复数据,(1)重复数据会导致错误的归并模式,因此有必要去除数据集中的,(1)排序一合并方法,该方法是检测数据库中完全重复记录的标准方法。基本思想是:Step1. 对数据集排序;Step2. 比较相邻一记录是否相等。(2)基本近邻排序算法(Basic Sorted Neighborhood Method, SNM)。该方法的思想是:Step1. 将数据集中的记
9、录按指定的关键字(key)排序;Step2. 在排序后的数据集上移动一个固定大小的窗口,只检测窗口内的记录,并判定它们是否匹配,以此来减少记录的比较次数。,检测重复数据的方法,(1)排序一合并方法,该方法是检测数据库中完全重复记录的标准,(1)噪声数据的出现可能有多种原因,由于噪声数据的存在使得数据不在规定的数据域内,从而会影响后面的挖掘效果和结果。(2)噪声是一个测量变量中的随机错误或偏差。,噪声数据,(1)噪声数据的出现可能有多种原因,由于噪声数据的存在使得数,(1)分箱(binning):分箱法是通过考察“邻居”(即周围的值)来平滑存贮数据的值,即,存储的值被分布到一些“桶”或箱中。分箱
10、法参考的是邻居数据,进行的是局部平滑。(2)聚类(clustering):孤立点可以被聚类检测。聚类将类似的值组织成群或“聚类”。落在聚类集合之外的值则被视为孤立点。(3)计算机与人工检查结合:通过计算机和人工检查结合的方法来识别孤立点。(4)回归(regression):使用回归,找出适合数据的数学方程式,能够帮助消除数据中的噪声。通过让数据适合一个函数如回归函数来平滑数据。线性回归涉及找出适合两个变量的“最佳”直线,使得一个变量能够预测另一个。多线性回归是线性回归的扩展,它涉及多于两个变量,数据要适合一个多维面。,去噪声方法,(1)分箱(binning):分箱法是通过考察“邻居”(即周,(
11、1)由于系统和应用造成的数据类型、格式、制式、粒度和编码方式等。(2)由于错误的输入,硬件或软件故障,不及时更新造成的数据库状态改变等。,不一致数据产生的原因,(1)由于系统和应用造成的数据类型、格式、制式、粒度和编码方,(1)分析不一致性数据产生原因。(2)应用多种变换函数、格式函数、汇总分解函数库去实现清理。,不一致数据过滤的方法,(1)分析不一致性数据产生原因。不一致数据过滤的方法,归一化的原因,3.2,归一化的原因3.2,(1)从数据库中提取数据是复杂的。需要提取的数据是多表融合的数据,需将不同表字段值合并为一个字段值(或重命名字段);或取某字符字段值的子字符串;或需对某些数据进行较高
12、层次的聚集,如对某数值字段的平均。(2)存在多个输入数据源。待转换的数据一般来自不同数据源中的不同表,这就要求数据与数据源的对应关系逻辑上很清楚,以便从正确的数据源提取正确的数据。(3)源数据库的键及其它约束在目标数据库中可能改变。将多表数据融合后,原来的约束常常改变,目标数据库中的新约束与待转换数据是否矛盾,需要仔细考察和妥善解决。(4)源数据与目标数据类型的转换问题。不同的数据库系统的数据类型不同,在将数据存入目标数据库时需要做类型的转换。,归一化的原因,(1)从数据库中提取数据是复杂的。需要提取的数据是多表融合的,(1)日志归一化实现将不同格式的原始日志归一化为一种具有统一格式的日志。(
13、2)日志归一化为其他模块集中处理日志奠定基础。,归一化,(1)日志归一化实现将不同格式的原始日志归一化为一种具有统一,归一化的方法及效果,3.3,归一化的方法及效果3.3,(1)获取过滤后的原始日志消息。(2)阅读原始日志数据形式及每个字段的说明。(3)数据转换和数据归并,提出格式化数据所用的对应的解析表达式,大部分日志分析系统利用正则表达式来解析数据。(4)在样本原始日志数据上测试解析逻辑。(5)部署解析逻辑。(6)存储。,归一化的基本步骤,(1)获取过滤后的原始日志消息。归一化的基本步骤,不管归一化事件所使用的最终存储机制是什么,最终都需要保留一些通用的字段,这些字段包括:(1)源和目标I
14、P地址:在后续关联分析过程中非常有用。(2)源和目标端口:用于理解哪些服务试图访问或者被访问。(3)分类学:分类学是分类和编码日志消息含义的一种手段。(4)时间戳:最关心的两类时间戳是日志消息在设备上生成的时间,日志记录系统接收日志消息的时间。(5)用户信息:用户名、命令、目录位置等用户信息。(6)优先级:有些日志消息自身包含了某种优先级。(7)原始日志:作为归一化过程的一部分,应该保留原始日志数据。这用于确保归一化事件的有效性。另一个用例是日志留存,可以将保存原始日志作为事件归一化的一部分,或者将其保存在磁盘上,提供一种从归一化事件中“取回”原始日志消息的手段。,通用字段,不管归一化事件所使
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 日志 审计 分析 系统 课件 QAX 事件 归一化
链接地址:https://www.31ppt.com/p-1343752.html