《运维自动化建设若干关键点思考.docx》由会员分享,可在线阅读,更多相关《运维自动化建设若干关键点思考.docx(6页珍藏版)》请在三一办公上搜索。
1、运维自动化建设若干关犍点思考运维自动化是一个涉及领域非常广泛旦备受业界关注的话即,所涉内容既有平台建设模式和实施方案,又行.技术讨论、工具开发、历史追寻、机器巡检和智能运维等方面。运维自动化可操作项目多种多样,涵前其所辖软、硬件资源全生命周期各个阶段。从一个大型金融机构数据中心的视角来看,洛维自动化是历经个性化、标准化之后的必然阶段,而且必物推动智能化运维的逐步实现.实施运维自动化不仅完善了数据中心现有运维体系,也给现有运组架构带来一些新的调整,本文立足于运城自动化建设非功能需求,合现有大型金融机构运维体系现状,浅谈对运维自动化建设中相关问他的初步思考.一现行运维体系状况经过多年的探索实践,各
2、家金融机构现有运维体系都较好地支推了自身信息系统和业务规模的快速发展。与业务推动的网上银行、手机银行、移动银行和移动互联府的升级步伐相似,各家金融机构的运维体系逐步纳入了监控部署审批流程、权限管理、操作控制、配置管理和信息发布等各个方面.以满足监管与内外部审计要求.在整个运维体系中,统一赛控系统是整个运维体系的“千里眼”,泡羲了数据中心各个方面,在大数据分析快速发展的推动下,统一监控也逐渐由&后报送向M前预测转移,实现了一次质的跃变。运维管理系统则是行业经典运作规瓶(111.及IS0200等)与数据中心认际相结合的落脚点,完成眼务什、事件、变更和审批等多个流程电子化和准实时化统一入口,提质增效
3、.安全管埋系统则将现有监管要求与操作现程具体而接,如最小授权、XiAM核、操作用慈可置和用户密码纳管等,严防发生系统性风险。除此之外,运雄音理体系还包括综合管理系统、人员管理系统、设备管理系统和配置管理系统等“的看云计尊大规模地进入商用阶段.基于云的数据中心基础设施提供方式与前期的操作模式发生了显著的变化.另外,互联网金融公司乘持“科技引领业务”的理念.通过大斌使用开源分布式软件,加速业务需求开发,缩短产品发布周期,推动服务不断升级,产生良好的社会效应井杉成了较好的实践经验.各家金融机构在借鉴互联网金融公司经5金的基础上,对原有基于封闭式技术的各个中间层着手重构.部部开源软件的一个最大特点就是
4、集耶化,一个集林可以由几个到几十甚至上百个节点组成,因需而动的集群化特性与公基础设施的灵活性相御跋彰,这些对于各家金融机构数据中心原有的加织流程、部署模式及操作习惯都带来了严峻挑战。新环境要求新变革,面对批出化、周期性工作的大量增加.运维自动化应运而生并得以快速发展.各家金融机构与时俱进,正在快速推进运维工作自动化进程.运维自动化虽然为解决前面所列的册题提供了可操作性的途径,但监管趋严的形势没有变,传统的内部操作流程也没有变,各家金融机构的人员管理、设符管理等工作不仅没有丝老减少伴随环境的变化和应用场景的变化更加迫切需要进一步细化.因此,对于运维自动化也议.有必要站在全局角侬进行全面深入的思考
5、,以解答弁指导具体落地工作.二、运维自动化建设关键点运维自动化的功能实现相对容易,一旦需求明确,实现只是水到集成的过程,而运维自动化建设很艰难,难点在于前期的战略定位和全局网考.战略定位涵盖对于运维自动化的启用出发点的明确、技术路线的选择及对其弟要特性的思考等.全局思考需要站在整个运维体系中关注运维白动化与现在相关功能模块或系统的互联互通共享方面,如资源信息统、人员信息统一等.1 .战略定位(I)效率与安全的平衡当家佥融机构决定启用运维自动化时,首先制要明确的就是“做这件W的初心”,选择个性化的高效执行还是安全可控的高效执行?前者通过无为而治的引存及个人自我的DevOps.实现工作效率的最大化
6、:后拧则是有组织、有约定并且有规范地有序推进,前者突出的是个体行为,各种开源产品均在考虑之列,属于运维体系末格的操作层级:后者则强调运维体系的整体性,将运维自动化作为运维体系中重要贝,属于流程管控下的执行操作级.前者重觇的是效率,后者突出的是安全、可控和高效,(2)代理与非代理路线之争运维自动化操作所辖区域对思众多,这些对望可能横湾生产、运维、冽试和带外管理等多个网络功能区,也可能归属网络设芾、存储设条、计算设备和安全设备等多个类别,并且这叫对象多投入于不同的阶段,这就需要引入兼容性的考量.面对管理对象的众多差异,运维自动化的实现产品的多种选择.启用运维自动化需要对代理与非代理路线有消解认知.
7、因为每种解决方案都仃其自身的优势和不足,尤其是这些不足通常被推广钟所讲的运维自动化的各种好处所掩靛时,接收者的初始认知可能不充分、不全面,路设淡定实现途径,技术跖线的确定决定着整个运维自动化的建设框架和朵终使用效果,有必要进行重点关注与探讨,(3)稳定性的理要性在更生产轻运雉、喧结果轻过程的大环境和成本收益比仍是曳要考核要素的前提下,运维体系中的每一个成员的曲要性都无法与生产系统的重要性相匹敌,然而,的存运维体系数字化的够体提升,尤其是实时在线安全管控类系统的上线,部分运维系统的取要性愈加凸显。运维自动化这样的“辅助”系统就是其中之一.自动化既能提升安全操作的效率.也能放大不合适操作的风险.因
8、此.对运维臼动化自身的稳定性需求不亚于执行的掰效性.2.全局思考(1)资源信息统一化运维自动化不可映少的操作要去包括资源信息、用户信息和口令信息,外延还可包括金融机构内部的人员信息、系统信息等.这些信息可能已经存在于运维管理类系统、统一监控类系统、安全管理类系统和配苴普理系统中,或存在于单独的一套专用系统中,另外,这些信息又是随帮时间而变化的,如人员的调想流动、资源的转入找出和系统上我与下戏等。在运维自动化的启用前.需要整体思考是共享这些信息还是孤岛武管理这些信息(2)认证信息集中化在运维自动化的执行中不可缺少的要素有用户信息和密码信息,在目标对象匕执行时不可缺少的过程就是身份认证。运维自动化
9、的启用需要结合金融机构现有的运维体系现状”用户集中管理还是集中认证实现,会影响看运维向动化的实现过程:而是否集中用户管理又决定替运维自动化的梏码信息的保存方式可能而喻为与监管事项的冲突,也膨响在自动化执行的操作周期等,因此,认证信息管理与实现方式也是运维自动化无法回潮的一个环节,有必要进行整体考埴.(3)变更操作流程化一旦将运维自动化纳入整个运维体系来考虑.运维自动化的笊要性便得到了普遍的认可,机构内部对其IR要性便形成了法本共识。在此情况下,对运维自动化工作W项的增、捌、改等操作就会被视为时生产系统的变更操作.这既是由于运维自动化的执行结果影响重大,又与运维自动化的建设初心相关联.毋庸置疑,
10、运维自动化已经上升到整个金融机构的层面.而非个体的行为,这就必然涉及工作事项的全流程管理,需要考虑这个流程是与现在运维体系中的变更管理流程进行对接还是由运维白动化自身处理,流程的流转势必涉及入员与职货,以及资源信息和系统信息等,这也因索相?1交错,在运维自动化建设前有必要进行整体考虑.(4)权限管理细粒化作为整个金融机构的统执行平台和运维管理体系中的迈要,环,饵一个操作任项的权限管理必然要提升到一个较高的高度,以解决运维自动化的共用与每个操作事项“最小授权”监控要求之间的矛麻.这就要求对权限管理的粒度与深度进行深入思考.在权限细粒化管理谀计过程中,可能会涉及金融机构内部的组织结构、组织职责和日
11、常操作流程,矩阵化的权照管理方法将提上日程.除了整体上思考资源信息统一化、认证或身份管理的集中化、变更操作的流程化和权限管理的细粒化外,面对不断增大的运维管理体系,统一登录需求.内部身份统一管理需求、的黄管埋自动调整、运维信息发布和对监控系统的响应等也可能潴要进行全局性考虑,以解决增加运维自动化所带来的额外影响或问题,琮上所述,运维工作历经手工作坊式、操作标准化与流程化方式之后,为适应新环境的要求已经进入自动化的阶段.一方面.运维自动化符在技术与流程J1.同向发力、共同推动.进一步提升运维工作的合规性和时效性,解决技术进步给运维工作所引入的新何时,满足新环境下运维工作的新需求:一方面,运维自动
12、化作为运维体系中的一员,需要站在运维体系的整体框架内协调好其与己有各运维支推类系统间的关联关系,有效融入现有运维体系,技术在飞速发展,智能投顾、智能客眼等智能化操作已经在金眩业内得到较好的试点与应用.运维的自动化也面临着进一步升级的需求,在运维自动化的实现过程中也可以会试一些智能化运维的初期探索,一、企业在自动化运维体系建设中的演进过程自动化运维体系的演进过程可以总结为:操作自动化、波程自动化、智能化运维三个阶段.第一阶段实现悚作自动化,该阶段就是使用脚本或者工具替代传统手工的运维工作,该阶段仅仅是斛决了手工执行的问题,而随着系统规模和需求的变化,脚本和工具配置方式也要随之变化,可以说仅仅实现
13、操作层面的自动化,我们的运维质力仍然很大.那么.这就需要向流程自动化演进.笫:阶段实现流程自动化,该阶段要将第阶段的脚本或者运维工具与企业的ITI1.进行对接,使自动化运维技术和流程衔接起来,让运维的具体工作流程化,这时,就要制定企业的运维标准化,包括便件、OS、监控、协以等各组件的标准化.并且在标准化制定后.无论是变更、系统上线等运维工作都要遵御标准化的基线.做到能够实时更新和细化CMDB配词项。前两个阶段建设完成后,简化了大增日常运维工作,运维流程也能终桎理得比较顺畅,还可以在故障发生时及时告警:但,并不能有效发现系统潜在风险点,故障颈臀也比较困难.第:阶段实现运燃智能化.该阶段的目的就是
14、要蟀决前两个阶段的痛点,通过集中存储运城数据和F1.志(包括历史指标、性能监控等,按照CMDB中各系统间关联关系和运维体系中相应的处理策略,形成对所运维对象潜在风险控掘与分析和故障快速定位及处理。来自社区会员分享的具体案例:案例分享I第阶段:业务快速发展,服务器大汆扩增,运维人员少,系统状态实时监控就无法兼顾,面时上述问题,来用IBM-TiVoIi产品实现自动化监控。第二阶段,面对业务快速部*需求.采用了IBMPUrCAPP1.iCation一体机实现了应用快速部井,采用PCWCrVC、VMWare等技术实现了虚机自动发布.笫三阶段,面对大。信息系统配置变更影响制求,开始实现CMDB自动采集功
15、能。只是列举一部分,自动化运维这条路是永无止境,需新技术发展,自动化运维将是越来越普及的.案例分享2第一阶段:使用Ca的监控工具ehea1.th和spectrum,配合更接开发脚本或工具完成绝大部分监控。第二阶段:配合以上工具,使用python开发资产管理系统配合监控等,配合Cmdb逐步完善功能,开发专有工具完成WaS的自动制*.(byChcngzq:、自动化运维体系中CMDB的设计企业在自动化运维建设过程中,CMDB起到的支撑作用越来越大,CMDB己不在是传统意义上的资产管理,而更加侧型在IT资淑的关联I.那么CMDB该如何设计才能嵯让IT资源联动起来,使运维发挥最大的价值呢?在实施CMDB
16、过程中又该注意哪些问遨?有哪些标准化的模型?CMDB设计原则:1.CMDB内容的获取的方式和数据库的准确件.如何通过工具及时有效内动完成Cmdb内容的更新是后续维妒CnX1.b准确性的重要方面.2,配词流程管理:配置流,程和Cmdb的位词同等IE要,就算Cmdb再怎么正确,如果没有适合公司自身的配置管理流程,也将会乱的一堀糊涂.3.赛控:整个Cmdb包括的东西很多:主机.存储.网络,Web,中间件,db,资产等等,衢要监控的指标可多可少,也可逐步完善.CMDB设计中躺点解决:1 .我们在进行CMDB建模过程中,由于缺乏经脸和一些实际的参考,造成了粒度失真,模型建立不实用的问题.针对这类问起.我
17、们重新梳理了数据.招数据类型标签化.标准就是能修做到动态调整数据属性,还有就是我们屯新梳理了各数据类型间的关系,也重新隹立联系。2 .在数据录入CMDB过程中,遇到了数据来源多,有冲突的问胞,以及数据准确率低、没有及时维护的情况.解决这类问题.首先确定了CMDB地位,以CMDB为核心修改上下游数据:还要做好对CMDB数抵的定期审计,利用策略和规则统一数据的更新来源.三、自动化运耀工具分析在企业自动化运维体系的建设中,关于工具的选鞭.从宏观上,可将运维工具分为两大类:一类是IT运维监控和诊断工具.另一类是运维流程和限置M匕1:儿前者卜:要功能是对系统进行健康及安全合规检查、对电要IT设备实脩监控
18、及时报警.主要的工具有Zabbix、NagiosTho1.iMOniIOr等,后者主要功能是配置维护和管理以及系统1志的收集分析等,主要的工具有Puppet,Ansib1.e等。自动化运维工具对比:总体来说,自动化运维产品的功能特点郴大同小弁.也各有千枚,如MiCrOSOf1.aUsPioMBMCb1.ade1.ogic%HP-Opsware,IBM-TivoIiTEC.PUPPekSaI(StaCk、AnSibIe这几款产品花本上都能满足企业自动化运推的需求,在选择上还是要根据自身系统需求来。下面,简述卜这几种自动化运维工具的理点.商业化产品的优势在于服务响应较快,运维自动化的数据模型较为丰
19、泊:BMCb1.adeIogiC产品链较为丰富,在Server、NewOf1、DatabaS上都有自动化的产品,这些产品的恻重点是协助日常巡检、合规性检查、漏洞扫描等,是使用较多的运维工具.IBM-ThOIiTEC除/行和TiVO1.iMOnitor类似的监捽功能外,但更加侧重与各类资源所产生事件的关联,有比较完善的分析模型.Microsoftaupio1.侧重于大规模的Webservice自动化管理,业内使用得较少,但其设计思想及模型值得学习。HP-OPsWare是较早期的一款产品.后来被惠瞥收啊,有较多的异构设备数据.短藤范围较广,使用寿也比较少.开源产品的优势在于成本较低、易于上手和进行
20、二次开发:PUPPe1.的侧重点在配置和管理系统的状态上,是目前成熟度高的工具,但个人认为,其在实时触发上的微弱了点。Ansib1.c无fffi安袋agent.主机通过SSH协议与监控对象进行通讯,从运维成本和维护性上来说,Ansib1.e只要关注主机的运行状态即可,不会刷加额外的运城成本。Sa1.1.Stack需饕花master和监控对象主机上启动进程,并且需要检测该守护进程的状态,增加了一定成本,也造成了安全院患.选用自动化运维工具时要考虑的因素:1 .个性化开发;所选择的运雉工具应该能泌结合用户搞点和用户体蛤,应该能剪实现各类监控对象的脚本定制开发。2 .易交付、易操作:自动化运维平台工
21、具的选择本身就是为了提高运雉的工作效率,M此尽收选择本身设计简用化并且易于交付的工具.3,与监控平台互补:自动化运雄工具的选择,要结合企业监控运缎平台的架构规划,-Xi监控平台进行有效支撑和互补,尽量自动化运维纲件与监控祖件集成,避免重父建设,四、监控指标自动化运潍体系是一条集赛、管、控一体的能力集,而其中监控告警是其中的基础环节,监控本身也需要形成时故障的采集、处理、发现、定位、解决的,个闭环。监控指标如何定义和采集:对于自动化运维监控指标的定义应该以nI1.为基础,而标准和规范的制定也要结合实际衡求,可以按照:监控指标梳理-监控指标间ti殳置-指标评估,这个漉程进行.可采集以下监控指标供多
22、考:1 .系统资源层面可按照OS、DB.Midd1.eware.SIOrage这几个大类来细分;OS层面可进行逆控的指标有CPU、MEM,磁盘空间、一页、报错日志.DB层面曳点监控实例运行状态、发空间、锁资源、缓冲池命中率、会话数等.Midd1.eware中业务中间件如WAS、Web1.ogic正点监控内存资源使用情况、以大连接数、空用战程数之类,消息中间件监控如队列管理器和通遒状态、死信队列、是否有消息堆积等。StOmgC监捽的指标有I/O性旎、光纤交换机、多路径状态等.2 .应用层面的监控指标可细分为服务进程、交易数据、日志、作业圜度、批处理、I1.1.文等。3 .硬件层面可对服务器、网络
23、设备、存储等设备监控如电源、温度、风扇从不同维度反应设备运行情况和质Ii1.4 .机房环控层面监控指标可以有机房潮湿度、UPS电池及主机状态、空调等.告警如何自动分析处理:首先要有场景,把所有涉及到的设备、日志和业务指标都统一放到这个场景中(例如:XXXX应用场景:F5哪个端口.哪当Farm.主机的CPU、网络设备端口、日志关城字还有业务指标这些全部关联到这个场景),可以根据已有的规则就行报警.要是没有规则可以把报警信息全部列出来,分析完何甥后,可以新增规则,根据这些规则就可以搭建智能报警和诊断分析模型.这方面的产品大致原理是基于业务架构,结合数据流关系,通过触发条件和一些权重尊法,将监控告警
24、信息进行筛选分类,并按照告警触发场景的规则建立关联关系.主流的监控产品如ZabbiX确实有个问鹿,在告警自动分析和规则设定上玦少完善的模S-这种情况,大部分还是要运维人工为系统增添分析策略包括一些脚本话的开发,IBMThiO1.产品还是不错的.开放平价与AS4)平台,可以自发定制告警场景,构建告警策略,有日志分析平台,可根据你的日志分析需求,进行定制开发,其实你也可以自己搭建个规则处理平台,让告警平台提供一个接口,让所有的告警都发到你的现则处理平台,进行日志分析,监控H志的分析:日志分析是定位故障Ai基础的数据来源,对日志分析的整个流程,无非就是日志采集、存储、处理、分析及故障定位这几个关键步
25、骤。早期的自动化运维工具和一些监控工具大都是利用系统日志来触发告警,如今的自动化运维慢慢发展到要结合企业CMDB的建设,但CMDB中,日志同样也是重要的配置项.如果仅仅要对日志分析,可考虑使用如E1.K、HadoOP等一些工具,无论是使用工具与否,做好H志分析,还是要从以上所说的几个关谯步骤来做:日志聚集上要注意对大/异构日志的朱柒方法,做到可持续高速即可。H志存播上方面可借助一些非关系型数据库,保证存储能好水平扩展以及进行全文索引.H志处理分析层面要结合相关的情景数据进行监控和关联分析,这也是快速定位故障的关键。五、自动化运维潜在风险及应对措施自动化运维工具上线后,在减轻运维工作房的同时也带
26、来了潜在风险.尤其是在对系统进行大批量变更时,如安全基战防护、补丁升级等工作,旦出现向舷,往往玳以补救。而除了上述风险,自动运维平台自?J能也行在漏洞,很容易被黑客攻击利用,出现灾难性的后果.措施:1 .制定比较通用的校验架构,按脚本规范编写脚本利于脚本的校骁;2 .自动化运维的管理账号权限设置是否合理,该账号是否限定了权限,能不能通过该账号重启一些重要服务:3 .一些像配置核查的功能也能够帮助我In找出配置的不一致这些校验功能帮助我们杏出风险;4 .自动化运维的交?1界面,时一线高危动作,如执行nn,是否做了二次提解和密钥验证5 .自己编写一些脚本各数据的脚本做成定时任务执行,定时的反馈信恩
27、:6 .还有就是些报表,报表也可以校骁数据,不同的校验方法针对不同校验级别的数据和功能:7 .需要使用自动化运维平台实施的大规模变更.是否有完善的审核制度.8 .对于自动化运难平台本身程序版本、运端策略,是否验证过备份和恢虹.9 .还有限制一些风险的操作,例如:rm,像这些操作就要有审核机剌或者其他管理方法。应对风险还有一种就是操作日志,可以通过操作日志进行方向操作能好找回数据。六、自动化运维人员职责范围企业实族自动化运淮后,运维团队的职近应该进行细化,至少应有如下职责分工:1 .监控运维:由值班人员7*24小时,维护监控工具,做简总的故障处理和告警通知。2 .系统运维:由系统管理员和DBA负出,处理系统级阀趣:3 .M川运维:由应用人员负责,补丁更新、优化成川程序.支掠业务开发以上3类职员划分,是IT组织架构中较为常见的运除分工,但是,在自动化运维过程中,企业衢要进行大V:次开发,来实现自动化运维的工具化、平台化、定制化。因此就需要运维开发这个角色,但目前该角色定义比较模糊,传统运维角色也存在个转型的过程,个人认为,自动化运维也是一个能格运维人员从后价辅助角色转变为保障业务质量领导者的一个过程.
链接地址:https://www.31ppt.com/p-7270287.html