一种基于个人化匿名的多敏感属性隐私保护算法.doc
《一种基于个人化匿名的多敏感属性隐私保护算法.doc》由会员分享,可在线阅读,更多相关《一种基于个人化匿名的多敏感属性隐私保护算法.doc(60页珍藏版)》请在三一办公上搜索。
1、 分类号: 密级: U D C : 编号: 工学硕士学位论文 一种基于个人化匿名的多敏感属性隐私保护算法 工学硕士学位论文一种基于个人化匿名的多敏感属性隐私保护算法Classified Index: U.D.C:A Dissertation for the Degree of M. EngA Method of personalized Anonymization for Multidimensional Privacies Preservation哈尔滨工程大学学位论文原创性声明本人郑重声明:本论文的所有工作,是在导师的指导下,由作者本人独立完成的。有关观点、方法、数据和文献的引用已在文中指
2、出,并与参考文献相对应。除文中已注明引用的内容外,本论文不包含任何其他个人或集体已经公开发表的作品成果。对本文的研究做出重要贡献的个人和集体,均已在文中以明确方式标明。本人完全意识到本声明的法律结果由本人承担。 作者(签字): 日期: 年 月 日哈尔滨工程大学学位论文授权使用声明本人完全了解学校保护知识产权的有关规定,即研究生在校攻读学位期间论文工作的知识产权属于哈尔滨工程大学。哈尔滨工程大学有权保留并向国家有关部门或机构送交论文的复印件。本人允许哈尔滨工程大学将论文的部分或全部内容编入有关数据库进行检索,可采用影印、缩印或扫描等复制手段保存和汇编本学位论文,可以公布论文的全部内容。同时本人保
3、证毕业后结合学位论文研究课题再撰写的论文一律注明作者第一署名单位为哈尔滨工程大学。涉密学位论文待解密后适用本声明。本论文(在授予学位后即可 在授予学位12个月后 解密后)由哈尔滨工程大学送交有关部门进行保存、汇编等。作者(签字): 导师(签字):日期: 年 月 日 年 月 日 摘 要由于传统的敏感数据方法主要针对单一敏感属性的数据,然而很多现实应用中,发布的数据往往涉及到多个敏感属性。目前多敏感属性的数据发布方法成为重要的研究方向,但由于不同个去掉,不通顺!人对隐私保护的要求程度不同,在统一匿名概括过程中传统的匿名算法导致数据的过分保护和保护不足。因此,论文提出一种基于个人匿名化的多敏感属性隐
4、私保护算法改进上述缺点。 这一段只介绍论文研究的意义论文首先分析数据库隐私保护现有的主要技术,研究现有多维敏感属性数据发布时隐私保护技术的主要特点,针对由单维敏感属性表都满足匿名条件合并多维敏感属性表产生大量冗余信息的问题,论文提出一种多维敏感属性的隐私保护方法,采用基于最小信息损失的概括策略来改进匿名模型,然后将概括问题转化为带特定约束的聚类问题,改进传统笛卡尔积算法应用在合并多维敏感属性表时造成的信息损失。其次由于多维敏感属性数据发布技术在匿名化过程中没有考虑单一个体对应多条记录的情况,导致了同一个人多个敏感属性之间关联信息丢失的问题,本文提出一种基于身份保持的多维敏感属性匿名算法,采用有
5、损连接方法并结合(K,L)-匿名模型的数据发布技术,避免单一个体对应多个记录情况在匿名中的过度泛化问题。最后论文在基于个人匿名要求的多敏感属性数据发布这一应用场景下,通过对个人匿名相关隐私技术发展趋势的分析和研究后,综合考虑数据安全性和信息有效性两个特点,采用更为灵活的执行策略即动态语义树控制技术,提出一种能够解决关系数据库中多维敏感属性发布数据时隐私信息泄露的模型,本文提出此模型的形式化描述去掉!重复了!并给出相应的算法。本文利用仿真实验结合Matlab进行数据处理,详细叙述所提出的多维敏感属性方法在信息冗余度和有损连接及个人匿名化要求的处理结果。通过曲线图对实验数据及其处理结果进行综合的分
6、析与比较,说明本文提出的方法在克服冗余信息缺点同时能够更好地保护隐私数据集的准确性。通过仿真实验结果验证本文提出的方法可以满足每个人隐私要求的最小量概括,最大程度地保留了原始数据中信息,从而达到提高挖掘结果准确性的效果。关键字: 多维敏感属性;信息损失度摘要中无该词!;身份保持;个人化匿名摘要中无该词!;语义分类树摘要中无该词!AbstractThe traditional ways of sensitive data in a single sensitive property data, but a lot of practical applications of the data are
7、 often involve multiple sensitive property.at present, many sensitive property data on the way an important research direction, but because of personal privacy protection on different requirements and level, the reunification process of anonymous review of the anonymous data are the protection and c
8、onservation. Therefore, the thesis put forward a based on personal anonymous the more sensitive property privacy algorithms to improve the above shortcomings.Thesis analyses the first privacy existing major technology, research, the existing multidimensional sensitive property data privacy protectio
9、n technology issued by the chief trait in response to the property table single anonymous are to meet the conditions for multidimensional sensitive property table of the redundant information, the thesis put forward a multidimensional sensitive property privacy protection technology, information bas
10、ed on the loss of the overall strategy to improve anonymous model, and then will bring up matter for the specific constraints of the gathering problem .In the paper, proposed based on the identity of the multidimensional sensitive property, it will connect anonymously algorithm and integrated approa
11、ch (k, l)-anonymous data dissemination of a model technical and avoid a single individual corresponding records in a condition of anonymity problems. the generalization of the anonymous article is based on individual requirements of the more sensitive property data dissemination of the application o
12、f the scene by an anonymous related to individual privacy technique development trend analysis and research, Comprehensive consideration information and data security, therefore, adopt a more flexible policy in the dynamic semantic the control technology, which can be solved in a relational database
13、 multidimensional sensitive property publishing data privacy information disclosure of the model, this proposed model detailedly this is the algorithm.The experiments with using matlab emulation for data processing, a detailed account of a multidimensional sensitive property method in the informatio
14、n of redundancy and will connect anonymously, and the required processing. The result by about the data and the results of analysis and synthesis is that the proposed method overcome the shortcoming of redundancy information and can better protect personal data sets for accuracy. The simulations val
15、idate the results of this method can meet everyone privacy for the minimum amount of generalizations, the maximum retain the original data in information, which to improve the accuracy of results.Keywords: Multidimensional sensitive attributes; Loss of information; Remain anonymous; Personalized ano
16、nymity; Semantic categories tree目 录第1章 绪论11.1 论文的背景与意义11.2 国内外研究现状21.3 研究内容和工作41.4 论文组织结构5第2章 相关理论与技术72.1 隐私保护概述72.2 匿名策略82.2.1 K-匿名策略102.2.2 L-多样性匿名策略122.2.3面向应用的匿名策略132.3 信息损失度量142.4 单维敏感信息损失度最小概括算法162.5 多敏感属性的隐私保护技术162.6 本章小结17第3章 基于有损连接的隐私保护算法193.1 问题的提出193.2 基于身份保持的多维敏感属性匿名模型203.3 匿名方法213.3.1 单
17、维敏感属性概括方法213.3.2 多维敏感属性概括方法243.3.3 多维敏感属性概括算法253.4 有损连接方法263.5 本章小结29第4章 基于个人匿名的隐私保护算法304.1 个性化匿名304.2 问题的提出314.3 多敏感属性语义分类树324.3.1 单维分类树324.3.2 多敏感属性语义分类树324.4 基于个人化匿名的多敏感属性隐私保护算法334.5 本章小结35第5章 实验仿真和结果分析365.1 实验环境及相关说明365.2 多维敏感属性算法的分析375.2.1 多敏感属性发布方法的对比375.2.2 不同约束条件下多维敏感方法的有效性分析385.3 有损连接方法的多维敏
18、感属性方法的分析385.4 个人匿名多维敏感属性方法的分析395.5 本章小结40结论42参考文献44攻读硕士学位期间发表的论文和取得的科研成果47致谢48第1章 绪论右边距不对!1.1 论文的背景与意义数据挖掘作为一种研究从海量数据中自动提取出未知模式的新兴技术,在短短十几年内取得了非常快速的发展,但是也引发出一系列问题,其中最常见就是个人隐私信息的泄露。如果针对个人的收入水平、消费习惯、婚姻状况和病历记录等信息的分析,可以推测到商业部门和医疗机构的发展趋势。可是由于这些数据发布后和不同机构的其他数据源所提供数据进行链接处理,这样就形成了可以抽取敏感信息的渠道,因此给个人隐私带来了一定的威胁
19、从而造成隐私泄露。综上所述因此,在数据挖掘过程中如何更好地解决数据的隐私保护问题,怎样对发布的数据进行处理以保证其安全性,这方面的研究已经开始成为数据库安全的一个研究热点和重要方向。隐私保护技术要求在保护数据隐私的同时不影响发布数据的应用。隐私保护数据挖掘的出发点是通过非精确的原始信息来抽取出较为准确的模式与规则。基于隐私的数据挖掘是从原始数据记录的非准确性与数据挖掘结果的精确性之间寻求一个平衡。随着数据挖掘方法和数据发布结果等数据库应用的出现和发展,当前面临的重大挑战是如何成功地保护隐私数据和防止敏感信息泄露,如个人的婚姻状况、顾客的喜好、患者的疾病史和信用卡记录等敏感的数据。目前基于个人匿
20、名的k-匿名概括方法在提高个人隐私保护程度上达到了更高的效率,该方法是基于个人化匿名的观点,个人可以通过不同分类树中的节点指定自己隐私的不同保护程度。从而,在满足每个人隐私要求的最小量概括的条件下,实现在最大程度上保留原始数据中的信息。但是该方法在数据挖掘时仍然存在一些缺点,为了提高对个人隐私数据的保护程度和挖掘结果的准确性,本论文提出了一种更为有效的数据发布方法。在数据挖掘领域中,隐私一般被划分为两类:一类隐私是原始数据本身所具有的。由于传统的数据挖掘技术是在没有加密过的原始数据中进行处理的,也就是说只有将包含个人或企业隐私的原始数据不经改动来交给数据挖掘者才会挖掘出有用的知识和规则,如个人
21、的年龄、家庭电话、身份证号、财产状况和信用等级等信息,如果这些信息一旦泄露的话,很有可能会对个人的生活产生许多不良的影响。保护个人信息,就是在数据挖掘过程中不能泄漏个人的信息数据,但是可以通过直接或间接的方法确定用户的特征信息。另一类隐私是在原始数据中所隐含的知识,即保护数据产生关联和模式,防止数据挖掘中部分敏感模式的产生和泄漏。如某大公司常来往的优质客户的行为特征等规则,如果这些知识被一些别有用心的人非法获得到,势必会对企业的核心竞争力造成严重的影响。隐私保护数据挖掘的目标是通过一种数据集变换的方法,通过这种方法重复!使得敏感数据和其产生的规则在进行数据挖掘的过程中不易被发现。但是在数据挖掘
22、过程中这些敏感信息往往存在泄漏的情况,尤其是当多个不同数据源合作挖掘时,各数据源间的信息泄漏问题不准确,应该是信息关联之后泄漏隐私。同时,挖掘出的结果很可能会导致原始敏感数据的泄露,如:个人的隐私信息、企业的客户资料、财务情况和产品销售策略等商业机密。因此,需要通过研究新的方法来确保数据挖掘中的隐私数据及其产生的规则不会被泄露认真检查错别字!。保护好数据的隐私,一直是隐私保护数据挖掘方法的最基本要求。但发布数据信息的最终目标是要通过这些挖掘方法来获取真实可用的知识与规则。因此,在保证隐私受到合理保护的前提下,所采取的方法一定要求发布的数据能够得到尽量准确的挖掘结果。从宏观上分析,数据的隐私性和
23、准隐私泄漏确性似乎是一对矛盾,提高隐私性势必造成准确性的下降;而要保证挖掘结果准确性的提高就必定要以牺牲一定的隐私性为代价。综上所述,实现隐私数据的合理化保护和基于统计抽取数据的模式发现两者兼顾,正是新一代隐私保护数据挖掘方法问题研究的出发点和最终目标。1.2 国内外研究现状如何降低发布数据中隐私信息的泄露程度作为隐私保护技术研究的核心问题,近年来许多专家提出了不同的匿名策略限制数据发布的信息来达到这一目标。发布数据信息的最终目的是要通过这些挖掘方法来获取真实可用的知识与规则,所以,针对更好的概括方法来减少数据损失保证挖掘结果的准确性的研究,逐渐成为隐私保护技术领域的重点。无论是从低层数据概括
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 一种 基于 个人化 匿名 敏感 属性 隐私 保护 算法
链接地址:https://www.31ppt.com/p-3927392.html