中安威士数据安全管理解决方案.docx
大数据脱敏工程建立方案2021年5月目录第1章概述21.1. 大数据现状说明21.2. 大数据平安现状分析2第2章建立目的3第3章工程范围3第4章建立原那么4第5章大数据平安建立方案45.1. 大数据脱敏方案45.1.1. 大数据脱敏设计架构.45.1.2. 大数据脱敏工作原理65.1.3. 大数据敏感数据发现75.1.4. 大数据脱敏技术方案95.2. 大数据平安系统配置部署165.2.1. 系统部署架构165.2.2. 硬件设备清单175.2.3. 软件清单175.2.4. 兼容性设计185.2.5. 可靠性设计.18第6章附录196.1.大数据平安调研表19第1章概述1.1. 大数据现状说明随着大数据规模性、多样性、高速性、真实性特征的逐步显现,以及数据 资产逐渐成为现代商业社会的核心竞争力,大数据对行业用户的重要性也日益突 出。世界经济论坛报告认为,“大数据为新财富,价值堪比石油,大数据之父 维克托那么预测,数据列入企业资产负债表只是时间问题。同时,大数据将推动 国民经济各行业各领域的创新应用,电子政务、电子商务都将发生变化,信息资 源的战略重要性空前鼎盛,大数据将成为经济社会管理决策的根本平台。另外, 大数据也将引领商业模式的重要创新,传统商业模式将开展大数据的挖掘,信息 效劳商将利用大数据开展个性化效劳,移动互联网将开辟新型商务模式。大数据所能带来的巨大商业价值,被认为将引领一场足以与20世纪计算机 革命匹敌的巨大变革。大数据正在对每个领域造成影响,在商业、经济和其他领 域中,决策行为将日益基于数据分析,而不再是凭借经历和直觉。大数据正在成 为政府和企业竞争的新焦点。各大企业正纷纷投向大数据促生的新蓝海。Oracle、 旧M、Microsoft和SAP共投入超过15亿美元成立各自的软件智能数据管理和 分析专业公司。在大数据时代,商业生态环境在不经意间发生了巨大变化:无处 不在的智能终端、随时在线的网络传输、互动频繁的社交网络,让以往只是网页 浏览者的网民的面孔从模糊变得清晰,企业也有时机进展大规模的精准化的消费 者行为研究。大数据将成为未来竞争的制高点。1.2. 大数据平安现状分析基于Hadoop生态系统的大数据平台随着企业的不断采用及开源组织的持 续的优化、增强,已逐渐成为大数据平台建立的标准产品。然而Hadoop最初的 设计并未考虑其平安性,这些平台专注于开展数据处理能力,无视了其他能力的 开展,但Hadoop生态系统作为一个分布式系统,承载了丰富的应用,集中了海 量的数据,如何管理和保护这些数据充满了挑战,当前市场上,大数据平台在数 据本身的平安管控方面普遍存在严重缺失和较大的漏洞。从企业内部来说,大数据平台的平安管控能力缺失,使得平台在数据存储、 处理以及使用等各环节造成数据泄露的风险较大,平安风险面广,且缺乏有效的 处理机制;另一方面,企业敏感数据的所有权和使用权缺乏明确界定和管理,可 能造成用户隐私信息的泄露和企业内部数据的泄露,直接造成企业声誉和经济的 双重损失。从外部来看,数据即价值,大数据平台中复杂、敏感、全面的数据无疑会吸 引更多的潜在攻击者。同时,数据的大量聚集,使得黑客成功攻击一次就能获得 更多数据,极大降低了黑客的进攻本钱。因此,大数据将有可能成为网络攻击的 显著目标。大数据平台平安能力的严重缺失和风险的普遍存在,导致大数据平台本身是 脆弱的,对企业数据平安造成了极大的风险,对企业来说是难以无视的风险点。 第2章建立目的通过本工程实施,可以实现如下目标:1、针对大数据敏感数据信息,设计并落实敏感数据平安解决方案,实现敏 感数据的模糊化,确保敏感数据信息平安可靠;2、通过大数据平台平安方案的建立,填补XXXX大数据平台数据平安防护 方面的空缺,有效降低大数据平安管控方面的风险。第3章工程范围大数据平台范围:本工程范围适用于基于开源Hadoop架构的大数据平台环 境,包括Mapreduce、HDFS、Hive、HBse等大数据组件。第4章建立原那么大数据平安方案设计建立应遵循实用性、前瞻性、兼容性原那么,其中:适用性原那么:必须适用XXXX实际大数据环境,能够与大数据平台顺利 结合,发挥平安管控效用;前瞻性原那么:平台架构设计具有良好的前瞻性和扩展性,充分考虑未来大 数据新技术的开展;兼容性原那么:大数据平安平台应兼容基于Hadoop的各版本的要求,包括 发布版和开源版本。平安性原那么:系统采取全面的平安保护措施,采用严格的访问控制机制、 系统冗余机制、数据保密机制等,保证平安平台的平安性。第5章大数据平安建立方案51.大数据脱敏方案5.1.1.大数据脱敏设计架构大数据平台脱敏及模糊化模块主要包括两大功能:敏感数据发现和敏感数据 脱敏。架构设计如下列图所示:敬模化能 脱疫糊功域感数据发现敬感数据脱敢敏感数据发现:通过设置敏感数据发现策略,平台自动识别敏感数据,发现 敏感数据后产生报警,保障数据在产生阶段平安。敏感数据发现功能包括如下内 容:敏感信息规那么库建立关系型数据检测敏感内容描述检测敏感数据脱敏:针对Hadoop平台Hive、Hbase大数据存储组件结合用户 权限提供动态数据脱敏功能,保障敏感数据访问平安,同时基于大数据平安分析 技术,发现敏感数据访问的异常行为,并提供敏感数据视图,实现全局化数据管 理和对各种类别敏感数据脱敏的精细化管理。数据脱敏及模糊化功能模块是在数据库层面对数据进展屏蔽、加密、隐藏、 审计或封锁访问途径的方式。该模块作为一个网关形式部署,所有需要进展敏感 数据动态脱敏的应用系统需通过该产品实现对数据库的访问。数据脱敏:当应用程序请求通过敏感数据脱敏模块时,对其进展实时筛 选,并依据用户角色、职责和其他定义规那么对敏感数据进展脱敏处理。 脱敏的方式包括如下几种形式:数据替换-以虚构数据代替真值;截断、加密、隐藏或使之无效-以“无效或*代替真值;随机化-以随机数据代替真值; 偏移-通过随机移位改变数字数据;访问预警:在大数据应用正常访问行为模型自学习根底上,进展应用异 常行为分析、发现及告警功能强化应用平安管控,保证数据平安。5.1.2.大数据脱敏工作原理通过认证授权效劳进展认证登录后,使用JDBC方式对大数据平台数据仓 库进展操作,根据控制、规那么策略、防火墙网络阻断等技术手段,到达模糊化 要求,再分配给业务、运维人员使用。分布式文件系统用户接口层:用户接口主要有三个:CLI,Client和WebUI。其中最常用的是CLI,Cli 启动的时候,会同时启动一个Hive副本。Client是Hive的客户端,用户连接 至Hive Server。在启动Client模式的时候,需要指出Hive Server所在节点, 并且在该节点启动Hive Server。WUI是通过浏览器访问Hive。本方案采用 Client客户端Beeline的方式对Hive进展操作。数据脱敏平台:客户端通过数据脱敏平台登录Hive后,对Hive进展操作。通过脱敏策略配 置,使用户可访问数据进展脱敏,通过数据异常行为分析、发现,进展数据访问 告警,保护敏感数据平安,并在WEB前端进展视图展示。数据存储:Hive将元数据存储在数据库中,连接到这些数据库mysql,derby的模 式分为三种:单用户模式、多用户模式、远程效劳器模式。元数据包括Database 表名、表的列及类型、存储空间、分区、表数据所在的目录等。 Driver:完成HQL的查询语句的词法分析、语法分析、编译、优化及查询方案的生 成。生成的查询方案存储在HDFS中,并由Map Reduce调用执行。 Hadoop 环境:Hive的数据存储在HDFS中,针对大局部的HQL查询请求,Hive内部自 动转换为MapReduce任务执行。5.1.3.大数据敏感数据发现5.1.3.1.建立大数据敏感数据规那么防止敏感信息泄漏威胁的首要步骤是定义企业敏感信息,通过建立敏感信息 样本库,定义企业的敏感信息的具体特征。敏感信息库内置企业各类敏感信息的识别规那么,包括但不限于:身份证号码手机号码生日信用卡号码 敏感信息规那么应支持如下两类数据存储机制:构造化数据,如存储在数据库中的客户或员工记录等;半构造化数据,半构造化数据具有一定的构造性。例如:OEM是一种典 型的半构造化数据模型。同时敏感信息规那么应支持用户自定义各类敏感信息规那么以便在不同应 用场景中允许用户进展规那么扩展。5.1.3.2. 大数据敏感数据检测脱敏系统支持对大数据平台存储的构造化和半构造化数据库、表进展敏感数 据扫描探测,并对每个数据表进展抽样数据匹配,基于敏感信息库来检测存储在 大数据平台的敏感数据如:客户信息、交易数据等。脱敏系统将数据库中的包含敏感信息的表和字段标记出来以实现各类高级 数据平安功能。例如利用敏感数据标记实现以下需求:用户数据库表中含有很多 客户信息(如用户姓名、身份证号、账号、手机号等),实现定义规那么:只向外传输姓名,不作为信息泄密事件姓名、账号和 等信息同时向外泄露,那么就认定为信息泄露事件。数据检测支持在给定数据行的任意列组合的根底上进展检测。例如,承受单 一姓名、账号、的检测,也能够承受“姓名和“身份证号码字段的组合,因此可以灵活、方便地进展敏感数据的检测。5.1.3.3. 大数据敏感内容检测描述用户管理人员采用内容描述匹配来辅助建立敏感数据样本库。内容描述匹配具有高度准确性,对构造化和半构造化数据同样适用,它通过 用户输入关键字、模式匹配、文件类型、文件大小、发送人、接收人、用户名和 网络协议等各类条件,来实现敏感信息的检测。1. 关键字检测支持多种模式的关键字检测:支持“*和“? 通配符检测;支持忽略大 小写检测;支持多文种关键字检测;支持多关键字检测。支持支持临近关键字匹 配,通过定义某一跨度范围内的关键字对等,到达减少误报。2. 正那么表达式检测敏感数据往往具有一些特征,表现为一些特定字符之间的组合,这用正那么 表达式来进展规那么定义。系统支持基于正那么表达式的检测,实现对“规那么 字符串过滤与检查。3. 数据标识符检测支持数据标识符检测。像身份证号码、手机号、银行卡号、驾照号等数据标 示符都是敏感数据重要特征,这些数据标识符具有特定用处、特定格式、特定校 验方式。支持多种类型的数据标识符模板,包括如下类型身份证号码、银行卡号、驾 照、十进制IP地址、十六进制IP地址等。同时提供了相应的接口,用户可以基于实际情况自行编辑自己需要的数据标 识符校验器,如话单、详单等。514.大数据脱敏技术方案5.1.4.1.大数据脱敏设计思路数据脱敏是在用户层面对数据进展屏蔽、隐藏或封锁访问途径,从而到达敏 感数据保护的目的。1、首先需要配置对于某个用户、某一数据库的表、列,确认采用何种脱敏方式;2、用户的SQL指令在被数据仓库解析执行之前,会首先进展脱敏判断。如果对该用户来说,其访问的某些数据被配置了脱敏方式,那么数据仓库仅会将 脱敏后的数据返回给用户,从而保证了原始数据对用户的不可见。流程见下列图所示:5.1.4.2.大数据脱敏技术原理分析大数据脱敏模块位于应用程序和大数据平台之间,保护存储在大数据平台中 的敏感数据。脱敏模块截取发送到大数据平台的访问请求,并送到规那么引擎进 展处理。脱敏模块提供配置管理工具,管理敏感数据脱敏的策略配置并建立连接和平 安规那么。敏感数据动态脱敏模块通过改写应用系统发送的访问请求实现敏感数 据动态脱敏,处理流程如下:1、数据脱敏模块侦听并转发应用程序发送到大数据平台访问请求。2、当应用程序发送一个请求到大数据平台时,动态数据屏蔽模块收到该请 求并识别发起请求的程序名、用户名、语法等信息,根据规那么引擎的策略配置 来确定转发该请求到大数据平台前需执行的动作。3、数据脱敏模块根据规那么对应用程序发送的HIVE语法、Hbase语法进展改 写,并发送修改后的请求发送到大数据平台中。4、大数据平台处理该请求,并发送回给应用程序的结果。5.1.4.3.大数据解析引擎技术实现数据解析引擎的实现机制如下:1、网络协议解析:对网络流量进展应用层解析;2、语法智能分析:对应用层访问协议中的大数据访问请求语法进展智能识 别;3、平安策略智能匹配:依据策略中的语法特征对流量中的请求访问语句进 展匹配识别;4、请求语句改写:对符合平安策略智能匹配的请求语句,按照用户配置的 模糊化策略进展语句重写;5、协议转发:将改写后的请求语句重新构建成网络流量,并转发至大数据平 台数据解析引擎的实现机制。其中核心功能是通过开发脱敏Function算法,根据不用的用户和组、角色、 权限、资源Server、Database> Table、Column定制开发不同的模糊化脱敏 规那么。用户执行SQL查询,通过用户名、权限、模糊化算法进展匹配,最终 返回请求结果。5.1.4.4. 大数据脱敏方法数据脱敏方法可根据用户需求的不同而进展定制,我们在系统中默认提供了 最常见的两种脱敏方法例如如下:方法一:随机值替换脱敏本方式采用随机值替换字母变为随机字母,数字变为随机数字的方式来 改变查询返回的结果,该方案的优点是可以在一定程度上保存数据的格式,且用 户在不知情的情况下无法发现查询返回的数据是经过脱敏操作的。方法二:特殊字符替换脱敏与随机值替换不同,该方式在处理待脱敏的数据时是采用特殊字符如“ * 替换的方式,该方式更好的隐藏敏感数据,但缺点是用户无法得知原数据的格式, 在涉及到一些数据统计工作的时候会有影响。在实际使用过程中,多种脱敏方法经常需要配合使用,对一张数据表中不同 资源使用不同的脱敏方法进展数据脱敏,例如如下:脱敏前:iHMH: 1.0DDD/> select Ip pCnurrtry 4 client t act i! on from event si werrupTe-d, since query is dg!HFa-r -一一1pI CtHiratry,-工,一-卜,一_TI1- 一 -1action10,1,2. 310.2M.ll.9910, 1h?. 510.2W.t3.771Q.I.A. 5一一一一一 T邛115FitUSNULLandroidI windows fdrairi 沁$| windWiMULL1-Trr*ateNot# upddttNoie liprlMPNMp credteNoc# upd机刊mg 凯LLa rm整d i.ciaH 号电tMri土j脱敏后:c: jcfbchix:/g«mystleu ipiCwnrry,d 1 ctk,«i:hn frpn 印皿代 Wiring 1 邙 thread 1s 1nrerrupTtdh since qu«r/ 1s done!1_CJO11 -cl I 11_C2| 心 ion1 3.0.2,1 5上修00,鼬.991阳乳卫| 58.St. 535r 1*wuan*BtdW M 5,10,NULLr i t -I treateftole I| upditeftote upddrexoifI creaceKMe II叩由忧t的HULL十 f- - - - -t - -f - -fE rtwrt wl 也(0. fl 13finds)1_ue £_e i i»_i M在这个例如中,我们对此表的三个字段分别用不同的脱敏方法进展了处理:第一个字段采用随机数替换,替换范围为前IP地址前两个值。第二个字段采用特殊字符替换,替换范围为所有字符。第三个字段采用特殊字符替换,替换范围为第3-6个字符。5.1.4.5.大数据脱敏方法适用场景目前脱敏方法支持的常用操作主要有:查看表构造 带常用条件的查询,如“where”、“like”、“where in 等数据分组, max,min,avg,sum,count 等查询结果的group by分组统计目前脱敏方法不支持操作主要有: 多表查询 子查询嵌套查询用查询结果创立新表5.1.4.6.大数据敏感策略配置敏感策略管理模块,主要实现模糊规那么管理、敏感资产管理、脱敏场景规 那么管理。如下列图所示:脱敏策略配置模块敏感策略管理敏感资产管理脱敏场景管理脱敏规那么管理模糊规那么管理,主要实现对不同敏感数据类型进展模糊规那么设置管理, 模糊化规那么如下表描述:道用巍据类型说珥哥脚字符串僦0电话、手机x银行帐号等以阿投伯数字为主体的内容日期、时间戳对时间堵和一佃间易。时闾量担一定算去明亭固定1营旭字符串替换全部内容为固定内容字符串替换匹曾襟合走模式嵌内容为国定内容列自画苗随机射鱼同TU上催字贤内容懿证号就字符串漏位和1&f醴桧证号 , 只对最后的顺序导道行模糊emailB字符串密fi或字符串将内容音涣为宜字串翻字符串数字醐为数字、字剧鼬为字母,其他保持原样不查NUMBER支持简里的条件约束域。3> >=夺.<=等条件处理时膨字倒醐B期、时间戳可霞定对年,月、日、时、全、秒避行翩字符串将对应字符转换为设定字符1. 敏感资产管理,实现对敏感数据和疑似敏感数据的库表字段进展梳理、 敏感确认过程以及对已有敏感数据资产的维护管理,另外还涉及各类数 据库敏感数据资产对应的库表的管理。2. 脱敏场景管理,由于不同用户和数据处理情况需求,对于同样的数据源 需要设置不同的脱敏规那么,需要定义出相应脱敏场景。3. 脱敏规那么管理,实现在不同脱敏场景定义敏感数据资产的相应脱敏模 糊化规那么。脱敏策略管理页面:序与/ WOOL必 00002停用中使用中如上图所示,在管理页面中可根据需求定制、保存脱敏算法,并且可以“停 用 “使用的配置选择是否激活算法,操作灵活,管理便捷。5.1.4.7.大数据敏感数据视图在大数据应用正常访问行为模型自学习根底上,进展应用异常行为分析、发 现、告警及相关操作审计功能,便于管理员及时发现大数据平台中可能存在的风 险点及攻击行为,强化应用平安管控,保证数据平安。操作审计页面:狷号LOGJDAPP_NAMEUSERNAMEAPP_GROQPUS£R_GROUPIPLOGJDAPPJN.D0QD1、号酣淡使用中E演ZU法1号替Kt遥貌感尊法1W001映取膏法】法使用中院6JW志】吨幌法与驱OOOD1E斓以注1-号替祺辕f史用中炭段算注1E漩算法1OOQD1、号啪法使用中E祢捶注】-号替换湛IMOD1*51、号聃S使用中明髀算法11HQD1"号啪诙使用中蜜月中IXJOD1E斓摊法1使用中段械算注1-号普攘遥E醐!算法1.皂岳1#£0001脱四募法】'号督晚法使用中晚法】.购幌法炭取1法】号皆溪4X)001使用中愣V中成鼻法1,胃 BfftStj上7 Q13 H15 1日 17 18g; | 匚33如上图所示,在“操作日志审计页面中可看到与已使用的脱敏策略相 关的审计内容信息。5.2 .大数据平安系统配置部署5.2.1.系统部署架构本次大数据平安平台的脱敏网关、平安基线扫描效劳器工作模式都是独 立于大数据平台。其中数据脱敏网关部署为集群方式,最少部署两台效劳器, 通过负载均衡设备对外提供效劳,整体拓扑如下:业务用户大数据平台运维用户以太网络访问数据流(出)访问数据流 (入)新增硬件设备横向扩 展集群52.2.硬件设备清单应用模块主机型号主机数量。?。配置内存配置存储网络接口备注大数据平安 管控平台 数据脱敏网 关X86 PC效劳器2台标配)DDR364GB1TSAS硬盘万兆网卡,4个需提供支 持万兆接 口的交换 机52.3.软件清单应用模块操作系统应用软件其他软件备注大数据平安管控 平台数据脱敏CentOS 6.564Bit自主开发大数据脱敏软件网关5.2.4.兼容性设计本工程数据模糊化和平台组件平安解决方案兼容各类商业、开源大数据平台, 扩展方便,无需增加额外本钱即可同时支持多套大数据平台,并且可迁移至 其他大数据平台使用。应用模块可移植性特点数据脱敏> 米用网关部署架构,独立于大数据平台> 迁移至其他类型大数据平台,用户只需增加配套硬件> 仅对数据库访问请求进展分析,不对响应信息进展处理> 如需扩容,只需通过增加同类型配置硬件+负载均衡即可实现处 理能力提升5.2.5.可靠性设计>负载均衡部署模式脱敏网关采用集群部署方式,系统应用通过负载均衡器进展负载分担。通常情况下,脱敏网关负责转发的用户查询请求,查询操作都在的数据仓库 内执行,查询结果再通过脱敏网关返回用户。因此,脱敏网关的性能压力主 要取决自于用户的并发数以及返会结果条目较多的查询需求,这两种问题均 可通过效劳器水平扩展来解决,并且通过负载均衡器的配置可以还实现脱敏 网关应用的在线扩容及减少。> 关键程序故障自动检测处理在负载均衡模式下,如其中一台脱敏网关效劳器上的一个关键进程故障, 但未对Web页面造成影响时,可能会造成页面可以正常访问,但应用无法 正常使用的问题。对此,我们对脱敏网关系统中对关键程序都配置了守护进 程,通过监控程序日志、进程信息等内容分析程序安康状态;并根据条件选 择程序重启或杀掉相关web应用程序,以保证程序故障时不会再有应用请求 分发到有问题的脱敏网关上。第6章附录6.1.大数据平安调研表序号范围调研列表输出1大数据平台现 状大数据平台厂商、型号、平台主版本号;如CDH, 华为2详细列举大数据平台安装部署了哪些组件,并 说明组件数量和类型、版本、使用功能说明; 提供如产品说明文档3大数据平台整体部署架构,集群规模,节点数 量,设备配置,部署位置,规划数据容量等; 提供如规划设计文档4平安控制方面,包括哪些管控软件类型、版本, 部署位置,实现哪些功能;如身份认证机制5大数据应用效 劳目前大数据平台规划支持业务应用范围包括哪 些,支持的业务应用名称,涉及部门范围;目 前本期试点工程支持范围有哪些?6大数据应用数据量规模,每天产生多少,顶峰 期峰值多少;