大数据云平台智能运营解决方案课件.pptx
《大数据云平台智能运营解决方案课件.pptx》由会员分享,可在线阅读,更多相关《大数据云平台智能运营解决方案课件.pptx(52页珍藏版)》请在三一办公上搜索。
1、大数据云平台智能运营解决方案,关键指标的智能监控,智能告警合并,智能根因分析,智能故障自愈,智能监控概述,智能故障预警,智能监控概述,智能告警合并,关键指标的智能监控,智能根因分析,智能故障自愈,智能故障预警,监控系统演进的几个阶段,监控自动化监控系统可用、好用监控立体化监控覆盖面更全,采集到各维度更全面、更完整的数据监控平台化监控系统与其他运维自动化系统打通和联动监控产品化监控产品更贴近人的使用习惯,用户体验更好监控智能化让监控系统拥有更强的智能,传统监控与智能监控的差别,传统的监控监控指标侧重单机运行状态做固定阈值的异常判断发出基本的告警,数量较大做故障现象的告警,需要大量的人工分析发现问
2、题而不处理,由人决定如何处理发出告警时已经出现故障,智能监控监控指标侧重业务整体运行情况对周期性波动变化的指标做预测和异常检测对信息做有效的区分和整合做故障根因的分析,揭示问题的本质根据故障根因,智能决定如何处理并执行在故障出现前发出预警,智能监控总体规划,监控业务全流程覆盖故障前可以发出故障预警能对周期性变化指标进行预测和异常检测支持按照合适的维度对告警进行合并智能对故障根因进行分析,给出最可能的原因,辅助人做决策可以根据故障原因选择合适的故障自愈策略并执行,自动解决故障,智能监控概述,智能告警合并,关键指标的智能监控,智能根因分析,智能故障自愈,智能故障预警,关键指标的智能预测和异常检测,
3、背景整体规律性较强、短期小幅波动较多的关键指标,不适合使用静态阈值适用场景网络出口或业务的进出流量集群和域名的访问量需求按天对流量的提前预测对实时流量的异常检测技术方案使用回归模型按天预测流量变化趋势使用分类模型对实时流量做异常检测,如何使用机器学习的方法,明确问题:,处理数据:,我们要解决什么样的问题解决问题可能需要哪些数据我们可以获取哪些数据,流量预测/异常检测,历史时刻对应的流量,数据清洗特征工程数据标记,清洗接口异常数据,统计判别结合无监督学习标记数据,训练模型:,选择模型训练模型验证模型,离线训练模型交叉验证模型表现,使用模型:,线上加载定期修正,BadCase分析修正模型,流量预测
4、及异常检测的技术框架,原始数据,有标记样本库,分类模型,输出模型,实时数据,特征工程,加载分类模型,输出标记,离线模块,在线模块,特征工程,回归模型,预测流量,训练集样本的标记,原始数据,有监督分类模型,统计方法及无监督算法,有标记样本库,标记Top N为异常,分类模型实时判断异常,人工修正确认告警和异常,3-sigema,Tukeys test,Isolation Forest,One Class SVM,投票 2,负样本,投票 =0,正样本,训练样本库,分类器,有标记样本库,标记Top N,无监督分类模型,智能故障根因分析,基于告警信息提取,监控分层,系统层:资源使用率(CPU、内存)监控
5、,应用层:端口、进程监控,业务层(页面、接口),网络层、服务器层:网络设备硬件监控,告警信息按层合并,异常发生时由上至下逐层获取告警信息,提取根因;,优点:解释性好,结果可靠缺点:非常依赖监控的完备性,智能故障根因分析可视化视图,异常辅助排查页面展示:异常告警事件,部署上线事件发现告警之间的关联,便于确定故障根因,智能故障根因分析,调用链 基于模块间的调用链: 根据变更操作事件与故障事件的关联关联分析 Apriori算法:可获取频繁项集和关联规则,但需多次遍历原始数据,效率较低; FP-Growth算法:可获取频繁项集,效率较高,需自行改造算法以获取关联规则;知识库和推理机 专家经验的存储,逐
6、渐构建运维知识图谱; 基于运维知识图谱构建推理树分析故障根因;,调用链信息不完备,智能监控概述,关键指标的智能监控,智能故障自愈,智能告警合并,智能根因分析,智能故障预警,智能故障自愈,故障自愈的策略出现故障先不告警,自动执行预定义的一系列处理步骤,尝试自动处理故障如果故障自愈成功,那么无需发送告警如果故障自愈失败,按照预定义的方式发告警在合适的时间,将近期故障自愈的执行结果汇总后通知用户,统计判别方法3-sigema,解释性好计算开销小更适用于正态分布,无法处理复杂情况, = 1 2 exp( () 2 2 2 ),正态分布,统计判别方法Tukeys test,不受异常值的影响能够准确稳定地
7、描绘出数据的离散分布情况过于敏感,不够智能,= +1.5( ),= 1.5( ),Tukeys test,无监督算法Isolation Forest,使用集成方法的无监督算法计算开销小,训练速度快异常点更加靠近树的根部,而正常数据多处于树中更深的节点,无监督算法One Class SVM,利用支持向量域描述的思想,寻找分离超平面;适用于连续数据的异常检测适用于筛选一定比例的样本,流量预测,整体规律性较强,历史同期流量统计特征历史同期流量变化趋势移动平均特征,历史特征:,流量数据特点:,短期小幅波动较多,移动平均吸收短期波动,工作日,周末,假期影响较大,设计对应的历史特征提取规则,流量趋势可预测
8、,流量预测的效果,根据历史数据预测明天的数据,异常检测,构建合适的对比样本库,提取特征用于对比,当日前n分钟流量数据昨日同时刻前后n分钟流量数据上周同时刻前后n分钟流量数据,对比样本库,对比样本库统计特征:均值中位数标准差最大值最小值偏度峰度,样本对比特征:差值比值同比环比,异常时流量一定有反常的波动,异常发生频率较低,统计判别结合无监督算法解决样本初始无标记问题,有监督算法LightGBM,基于梯度提升树(GBDT)原理采用直方图算法,训练速度快,准确率高,可处理大规模数据支持类别特征,异常检测的效果,基于数据异常程度将异常分为:普通异常、严重异常、陡变异常,异常分级普通异常,普通异常:数据
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 数据 平台 智能 运营 解决方案 课件

链接地址:https://www.31ppt.com/p-1555027.html