一种基于个人化匿名的多敏感属性隐私保护算法.doc

上传人：文库蛋蛋多

文档编号：3927392

上传时间：2023-03-28

格式：DOC

页数：60

大小：1.27MB

《一种基于个人化匿名的多敏感属性隐私保护算法.doc》由会员分享，可在线阅读，更多相关《一种基于个人化匿名的多敏感属性隐私保护算法.doc（60页珍藏版）》请在三一办公上搜索。

1、分类号：密级： U D C ：编号：工学硕士学位论文一种基于个人化匿名的多敏感属性隐私保护算法工学硕士学位论文一种基于个人化匿名的多敏感属性隐私保护算法Classified Index: U.D.C:A Dissertation for the Degree of M. EngA Method of personalized Anonymization for Multidimensional Privacies Preservation哈尔滨工程大学学位论文原创性声明本人郑重声明：本论文的所有工作，是在导师的指导下，由作者本人独立完成的。有关观点、方法、数据和文献的引用已在文中指

2、出，并与参考文献相对应。除文中已注明引用的内容外，本论文不包含任何其他个人或集体已经公开发表的作品成果。对本文的研究做出重要贡献的个人和集体，均已在文中以明确方式标明。本人完全意识到本声明的法律结果由本人承担。作者（签字）：日期：年月日哈尔滨工程大学学位论文授权使用声明本人完全了解学校保护知识产权的有关规定，即研究生在校攻读学位期间论文工作的知识产权属于哈尔滨工程大学。哈尔滨工程大学有权保留并向国家有关部门或机构送交论文的复印件。本人允许哈尔滨工程大学将论文的部分或全部内容编入有关数据库进行检索，可采用影印、缩印或扫描等复制手段保存和汇编本学位论文，可以公布论文的全部内容。同时本人保

3、证毕业后结合学位论文研究课题再撰写的论文一律注明作者第一署名单位为哈尔滨工程大学。涉密学位论文待解密后适用本声明。本论文（在授予学位后即可在授予学位12个月后解密后）由哈尔滨工程大学送交有关部门进行保存、汇编等。作者（签字）：导师（签字）：日期：年月日年月日摘要由于传统的敏感数据方法主要针对单一敏感属性的数据，然而很多现实应用中，发布的数据往往涉及到多个敏感属性。目前多敏感属性的数据发布方法成为重要的研究方向，但由于不同个去掉，不通顺!人对隐私保护的要求程度不同，在统一匿名概括过程中传统的匿名算法导致数据的过分保护和保护不足。因此，论文提出一种基于个人匿名化的多敏感属性隐

4、私保护算法改进上述缺点。这一段只介绍论文研究的意义论文首先分析数据库隐私保护现有的主要技术，研究现有多维敏感属性数据发布时隐私保护技术的主要特点，针对由单维敏感属性表都满足匿名条件合并多维敏感属性表产生大量冗余信息的问题，论文提出一种多维敏感属性的隐私保护方法，采用基于最小信息损失的概括策略来改进匿名模型，然后将概括问题转化为带特定约束的聚类问题，改进传统笛卡尔积算法应用在合并多维敏感属性表时造成的信息损失。其次由于多维敏感属性数据发布技术在匿名化过程中没有考虑单一个体对应多条记录的情况，导致了同一个人多个敏感属性之间关联信息丢失的问题，本文提出一种基于身份保持的多维敏感属性匿名算法，采用有

5、损连接方法并结合（K，L）-匿名模型的数据发布技术，避免单一个体对应多个记录情况在匿名中的过度泛化问题。最后论文在基于个人匿名要求的多敏感属性数据发布这一应用场景下，通过对个人匿名相关隐私技术发展趋势的分析和研究后，综合考虑数据安全性和信息有效性两个特点，采用更为灵活的执行策略即动态语义树控制技术，提出一种能够解决关系数据库中多维敏感属性发布数据时隐私信息泄露的模型，本文提出此模型的形式化描述去掉！重复了！并给出相应的算法。本文利用仿真实验结合Matlab进行数据处理，详细叙述所提出的多维敏感属性方法在信息冗余度和有损连接及个人匿名化要求的处理结果。通过曲线图对实验数据及其处理结果进行综合的分

6、析与比较，说明本文提出的方法在克服冗余信息缺点同时能够更好地保护隐私数据集的准确性。通过仿真实验结果验证本文提出的方法可以满足每个人隐私要求的最小量概括，最大程度地保留了原始数据中信息，从而达到提高挖掘结果准确性的效果。关键字：多维敏感属性；信息损失度摘要中无该词！；身份保持；个人化匿名摘要中无该词！；语义分类树摘要中无该词！AbstractThe traditional ways of sensitive data in a single sensitive property data, but a lot of practical applications of the data are

7、 often involve multiple sensitive property.at present, many sensitive property data on the way an important research direction, but because of personal privacy protection on different requirements and level, the reunification process of anonymous review of the anonymous data are the protection and c

8、onservation. Therefore, the thesis put forward a based on personal anonymous the more sensitive property privacy algorithms to improve the above shortcomings.Thesis analyses the first privacy existing major technology, research, the existing multidimensional sensitive property data privacy protectio

9、n technology issued by the chief trait in response to the property table single anonymous are to meet the conditions for multidimensional sensitive property table of the redundant information, the thesis put forward a multidimensional sensitive property privacy protection technology, information bas

10、ed on the loss of the overall strategy to improve anonymous model, and then will bring up matter for the specific constraints of the gathering problem .In the paper, proposed based on the identity of the multidimensional sensitive property, it will connect anonymously algorithm and integrated approa

11、ch (k, l)-anonymous data dissemination of a model technical and avoid a single individual corresponding records in a condition of anonymity problems. the generalization of the anonymous article is based on individual requirements of the more sensitive property data dissemination of the application o

12、f the scene by an anonymous related to individual privacy technique development trend analysis and research, Comprehensive consideration information and data security, therefore, adopt a more flexible policy in the dynamic semantic the control technology, which can be solved in a relational database

13、 multidimensional sensitive property publishing data privacy information disclosure of the model, this proposed model detailedly this is the algorithm.The experiments with using matlab emulation for data processing, a detailed account of a multidimensional sensitive property method in the informatio

14、n of redundancy and will connect anonymously, and the required processing. The result by about the data and the results of analysis and synthesis is that the proposed method overcome the shortcoming of redundancy information and can better protect personal data sets for accuracy. The simulations val

15、idate the results of this method can meet everyone privacy for the minimum amount of generalizations, the maximum retain the original data in information, which to improve the accuracy of results.Keywords: Multidimensional sensitive attributes; Loss of information; Remain anonymous; Personalized ano

16、nymity; Semantic categories tree目录第1章绪论11.1 论文的背景与意义11.2 国内外研究现状21.3 研究内容和工作41.4 论文组织结构5第2章相关理论与技术72.1 隐私保护概述72.2 匿名策略82.2.1 K-匿名策略102.2.2 L-多样性匿名策略122.2.3面向应用的匿名策略132.3 信息损失度量142.4 单维敏感信息损失度最小概括算法162.5 多敏感属性的隐私保护技术162.6 本章小结17第3章基于有损连接的隐私保护算法193.1 问题的提出193.2 基于身份保持的多维敏感属性匿名模型203.3 匿名方法213.3.1 单

17、维敏感属性概括方法213.3.2 多维敏感属性概括方法243.3.3 多维敏感属性概括算法253.4 有损连接方法263.5 本章小结29第4章基于个人匿名的隐私保护算法304.1 个性化匿名304.2 问题的提出314.3 多敏感属性语义分类树324.3.1 单维分类树324.3.2 多敏感属性语义分类树324.4 基于个人化匿名的多敏感属性隐私保护算法334.5 本章小结35第5章实验仿真和结果分析365.1 实验环境及相关说明365.2 多维敏感属性算法的分析375.2.1 多敏感属性发布方法的对比375.2.2 不同约束条件下多维敏感方法的有效性分析385.3 有损连接方法的多维敏

18、感属性方法的分析385.4 个人匿名多维敏感属性方法的分析395.5 本章小结40结论42参考文献44攻读硕士学位期间发表的论文和取得的科研成果47致谢48第1章绪论右边距不对！1.1 论文的背景与意义数据挖掘作为一种研究从海量数据中自动提取出未知模式的新兴技术，在短短十几年内取得了非常快速的发展，但是也引发出一系列问题，其中最常见就是个人隐私信息的泄露。如果针对个人的收入水平、消费习惯、婚姻状况和病历记录等信息的分析，可以推测到商业部门和医疗机构的发展趋势。可是由于这些数据发布后和不同机构的其他数据源所提供数据进行链接处理，这样就形成了可以抽取敏感信息的渠道，因此给个人隐私带来了一定的威胁

19、从而造成隐私泄露。综上所述因此，在数据挖掘过程中如何更好地解决数据的隐私保护问题，怎样对发布的数据进行处理以保证其安全性，这方面的研究已经开始成为数据库安全的一个研究热点和重要方向。隐私保护技术要求在保护数据隐私的同时不影响发布数据的应用。隐私保护数据挖掘的出发点是通过非精确的原始信息来抽取出较为准确的模式与规则。基于隐私的数据挖掘是从原始数据记录的非准确性与数据挖掘结果的精确性之间寻求一个平衡。随着数据挖掘方法和数据发布结果等数据库应用的出现和发展，当前面临的重大挑战是如何成功地保护隐私数据和防止敏感信息泄露，如个人的婚姻状况、顾客的喜好、患者的疾病史和信用卡记录等敏感的数据。目前基于个人匿

20、名的k-匿名概括方法在提高个人隐私保护程度上达到了更高的效率，该方法是基于个人化匿名的观点，个人可以通过不同分类树中的节点指定自己隐私的不同保护程度。从而，在满足每个人隐私要求的最小量概括的条件下，实现在最大程度上保留原始数据中的信息。但是该方法在数据挖掘时仍然存在一些缺点，为了提高对个人隐私数据的保护程度和挖掘结果的准确性，本论文提出了一种更为有效的数据发布方法。在数据挖掘领域中，隐私一般被划分为两类：一类隐私是原始数据本身所具有的。由于传统的数据挖掘技术是在没有加密过的原始数据中进行处理的，也就是说只有将包含个人或企业隐私的原始数据不经改动来交给数据挖掘者才会挖掘出有用的知识和规则，如个人

21、的年龄、家庭电话、身份证号、财产状况和信用等级等信息，如果这些信息一旦泄露的话，很有可能会对个人的生活产生许多不良的影响。保护个人信息，就是在数据挖掘过程中不能泄漏个人的信息数据，但是可以通过直接或间接的方法确定用户的特征信息。另一类隐私是在原始数据中所隐含的知识，即保护数据产生关联和模式，防止数据挖掘中部分敏感模式的产生和泄漏。如某大公司常来往的优质客户的行为特征等规则，如果这些知识被一些别有用心的人非法获得到，势必会对企业的核心竞争力造成严重的影响。隐私保护数据挖掘的目标是通过一种数据集变换的方法，通过这种方法重复！使得敏感数据和其产生的规则在进行数据挖掘的过程中不易被发现。但是在数据挖掘

22、过程中这些敏感信息往往存在泄漏的情况，尤其是当多个不同数据源合作挖掘时，各数据源间的信息泄漏问题不准确，应该是信息关联之后泄漏隐私。同时，挖掘出的结果很可能会导致原始敏感数据的泄露，如：个人的隐私信息、企业的客户资料、财务情况和产品销售策略等商业机密。因此，需要通过研究新的方法来确保数据挖掘中的隐私数据及其产生的规则不会被泄露认真检查错别字！。保护好数据的隐私，一直是隐私保护数据挖掘方法的最基本要求。但发布数据信息的最终目标是要通过这些挖掘方法来获取真实可用的知识与规则。因此，在保证隐私受到合理保护的前提下，所采取的方法一定要求发布的数据能够得到尽量准确的挖掘结果。从宏观上分析，数据的隐私性和

23、准隐私泄漏确性似乎是一对矛盾，提高隐私性势必造成准确性的下降；而要保证挖掘结果准确性的提高就必定要以牺牲一定的隐私性为代价。综上所述，实现隐私数据的合理化保护和基于统计抽取数据的模式发现两者兼顾，正是新一代隐私保护数据挖掘方法问题研究的出发点和最终目标。1.2 国内外研究现状如何降低发布数据中隐私信息的泄露程度作为隐私保护技术研究的核心问题，近年来许多专家提出了不同的匿名策略限制数据发布的信息来达到这一目标。发布数据信息的最终目的是要通过这些挖掘方法来获取真实可用的知识与规则，所以，针对更好的概括方法来减少数据损失保证挖掘结果的准确性的研究，逐渐成为隐私保护技术领域的重点。无论是从低层数据概括

24、策略的改进还是考虑高层数据挖掘方面的优化，都一直是发布隐私数据的基本原则，保护好个人数据的隐私，一直是隐私保护数据挖掘方法的最基本要求，根据个人匿名要求灵活地改变概括策略解决隐私信息泄露的问题也是这一领域的研究发展方向之一。因此，国内外的知名学者在研究隐私保护技术时，根据上述原则进行不同的改进和优化以完成不同背景下的隐私保护目标。1997年，美国卡基梅隆大学数据挖掘领域的两个专家Samarati和Sweeney博士针对公共数据库与微数据集发布方法的研究，首次提出了基于匿名策略的隐私保护技术，并于2002年命名其为K-匿名算法1。美国普度大学在2004年针对关系数据库特点的研究提出了隐私保护访问

25、控制技术的方法，于2005年公布了作为下一代数据库的关键技术，隐私数据库的实现需要研究不同背景的安全技术2-3。2006年，Machanavajjhala等人对K-匿名模型进行了深入的研究和分析，并根据其特点提出了两种相关的攻击技术，分别是一致性攻击和背景知识攻击，针对上述两种攻击，作者给出了通过提高匿名组中敏感属性多样性的方法（L-diversity写法全文应一致！下一页与这一页不同！全文检查！规范：外文字母的正、斜体用法按照GB31003102-1993（名称请见附录A）及GB7159-87 电气技术中的文字符号设计通则的规定使用，即物理量符号、物理常量、变量符号用斜体，计量单位等符号均用

26、正体。sinx、cosx等三角函数应用正体。）来降低隐私泄露4。2007 ，Venkatasubramanian提出了3 种最优泛化模式，其中指出L-多样性算法的不足，提出了t-closeness 框架，该方法要求在每个不同等价类中敏感值的分布要接近于其在原始数据表中的分布5。2009年RAYMOND CHI-WING WONG等人提出了一种隐私数据的匿名发布方法，通过分析链接攻击的情况后改进匿名模型6。2010年Ali Inan等人通过多方安全计算方法，在考虑到一些个人隐私前提下，对数据库中数据的隐私方面进行保护7。随着国内数据隐私保护技术方向的发展，我国的许多专家已开始关注和研究。2003

27、年北京科技大学信息管理学专家梅绍祖教授针对网络隐私权保护的特点，首先提出了个人信息收集最小化与收集的结果之间应该满足不可传递性的要求8。2004年北京大学在数据库隐私保护层，结合国家自然科学基金课题 “面向隐私保护的数据挖掘方法研究”对隐私保护数据挖掘进行了研究。2005年，刘向宇、杨晓春等人提出了Classfly算法，并于2006年提出了满足多k-匿名约束策略的Classfly+算法，两个算法Classfly和Classfly+都考虑概括过滤的方法，即首先把发布数据在有关准标识符上的投影表中可以满足k-匿名约束条件的记录过滤掉，然后将剩余元组存在不同属性值个数最多的属性进行概括，如过仍存在满

28、足k-匿名约束的元组还需要将其过滤出去，这样反复执行上述的概括过程与过滤操作，一直到发布表中元组不满足k-匿名约束条件的个数小于k个为止，将这些不满足k-匿名约束条件的元组隐匿9。并于2007年根据多约束匿名条件和K-匿名化算法的特点，提出三种多约束K-匿名化算法：post-Classfly、NM-Classfly和FTB-Classfly10。2006年清华大学张国强博士提出了改进后可以抵抗推演攻击的（K，L）-匿名模型，此模型针对敏感信息的敏感程度不同，首先指定每个元组的匿名程度和敏感信息的多样化程度，然后采用每个元组的（K，L）约束条件进行匿名化处理，最后实现抵抗推演攻击的目标11。20

29、08年，杨晓春、王雅哲、王斌等人首次对多敏感属性数据发布问题进行详细研究，继承了基于有损连接对隐私数据进行保护的思想，提出了针对多敏感属性隐私数据发布的多维桶分组技术12。宋金玲，黄立明等人给出了准标识符的通用求解算法13，分析了不同函数依赖的情况来找出正确的准标识。华东理工大学韩建民等人综述了微聚集算法的基本思想、相关技术和当前动态，对现有的微聚集算法进行了分类分析，并总结了微聚集算法的评估方法,最后对微聚集算法的研究难点及未来的发展趋势作了探讨14。清华大学信息安全重点实现把匿名发布于个性化匿名要求结合在一起，提出了一种基于个性化匿名的（a，k）-匿名策略，引入分类树的思想实现数据发布中个

30、体对私人隐私的保护要求15。2009年，李太勇、唐常杰等人提出一种通过两次聚类实现k-匿名的隐私保护方法16。给出了影响矩阵的概念，用来描述准标识符对敏感属性的影响，研究了影响矩阵聚类技术，对敏感属性影响相近的元组进行聚类，实现k-匿名效果。王茜、曾子平提出了一种（p，a）-sensitive k-匿名模型，将敏感属性根据敏感度进行分组，然后给各分组设置不同的约束，并给出了（p，a）-sensitive K-匿名算法，该方法可以明显地减少隐私泄露,增强了数据发布的安全性17。同年，王茜、屈盛知等人对K-匿名模型进行了扩展，提出一种新的基于敏感属性值泄露个数期望的匿名模型18。香港大学的陈华明等

31、人通过对多敏感属性不同维数的权重不同算法来完成数据的隐私保护19。祁瑞丽、王可、郭学涛等人首先将多敏感属性隐私保护问题转化为多敏感属性l-多样性问题，然后给出了多敏感属性树构造方法及最大叶子子树优先策略，在此基础上提出了一个多敏感属性保护算法20。刘玉煲、黄志兰、傅慰慈针对已有方法信息损失程度高、聚集查询精度低的不足，在（alpha，k）隐私保护模型基础上，利用关系数据库理论的有损分解思想，提出了一种改进的数据隐私保护方法21。复旦大学周水庚，李丰等人中对隐私保护领域已有研究成果进行了总结，对各类隐私保护技术的基本原理、特点进行了阐述，在对已有技术深入对比分析的基础上，指出了隐私保护技术的未来

32、发展方向22。总的来说，我国目前关于隐私保护技术的研究还是处于起步阶段，未来具有非常广阔的发展空间。1.3 研究内容和工作由于传统的敏感数据方法主要针对单一敏感属性的数据，然而很多现实应用中，发布的数据往往涉及到多个敏感属性。论文首先分析数据库隐私现有的主要技术，研究现有多维敏感属性数据发布隐私保护技术的主要特点，针对由单维敏感属性表都满足匿名条件合并多维敏感属性表产生大量冗余信息的问题，论文提出一种多维敏感属性的隐私保护技术，通过改进传统笛卡尔积算法应用在多维敏感属性表中造成的信息损失，并归纳和总结了现有隐私保护的核心技术，包括量化信息泄露风险度和信息损失度。论文根据匿名概括过程中需要解决的

33、两个关键问题：量化信息损失度和重编码方法，采用基于最小信息损失的概括算法来改进匿名模型。其次，现有的多维敏感属性数据发布技术在匿名化过程中没有考虑单一个体对应多条记录的情况，本文提出一种新的基于身份保持的多维敏感属性匿名算法，结合有损连接方法并采用（K，L）-匿名模型的数据发布方法，深入分析该重编码方法并证明其可以保持同一个人多个敏感属性之间可能的关联信息。同时，论文深入研究（K，L）-匿名模型和传统匿名模型在基于多维敏感属性数据发布过程中，存在的隐私信息泄露与链接攻击等问题，通过改进以上不足，避免单一个体对应多个记录情况在匿名中的过度泛化问题。论文最后在基于个人匿名要求的多敏感属性数据发布这

34、一应用场景下，由于不同个人对隐私保护的要求和级别不同，在统一匿名概括过程中传统的匿名算法导致数据的过分保护和保护不足。论文拟通过对个人匿名相关隐私技术发展趋势的分析和研究，综合考虑数据安全性和信息有效性两个特点，采用更为灵活的执行策略即动态语义树控制技术，提出一种能够解决关系数据库中多维敏感属性数据发布个人隐私泄露风险的方法，即基于个人匿名的多维敏感属性方法。该方法在克服缺点同时更好地保护隐私的数据集，即满足每个人隐私要求的最小量的概括，最大程度地保留了原始数据中信息，从而这是摘要的写法，研究内容应该是计划分析什么、针对什么问题，拟研究什么，计划达到什么目标达到提高挖掘结果准确性的效果。本文的

35、主要工作在于：这是结论应该说的，此处只叙述你计划研究什么，要解决什么问题，达到什么目标或效果！（1）针对多维敏感属性匿名中的过度泛化和数据记录冗余问题，提出一种新的基于信息损失度的多敏感属性的概括方法。作为一种新的方法，通过单维敏感属性满足最小信息损失度的匿名原则，使多维敏感属性表在合并时最大程度的限制记录的冗余情况。减少由传统发布方法所产生的冗余记录，对发布记录的数据发掘具有非常大的意义。（2）针对单一个体对应多个记录情况在匿名中的过度泛化问题，本文通过描述单一个体对应多个记录情况，多敏感属性数据在此模型要求的发布，讨论原有技术在私泄露风险和链接攻击等情况出现的问题。针对上述问题，本文结合有

36、损连接方法并采用（K，L）-匿名模型的数据发布方法，给出一种新的基于有损连接的多维敏感属性隐私保护方法，发布数据通过新的重编码方法可以保持同一个人多个敏感属性之间可能的关联信息，对多敏感属性之间的研究更有实际意义，并且可以分析不同敏感属性间的关联，能为下一步个人隐私保护匿名方法中语义树的建立提供数据源。（3）针对多敏感属性数据发布中个人动态地指定敏感信息，讨论原有个人匿名应用在单一敏感属性方法中的缺陷，采用更为灵活的执行策略即动态语义树控制技术，提出一种多维敏感属性语义树及新的概括算法。该算法在个人隐私要求的情况下，尤其是在关系数据库中对隐私保护的效率上具有更实际的应用性。通过上述研究过程，本

37、课题需要达到的预期目标是：对多维敏感属性数据发布的匿名策略有深入的了解。利用身份保持的方法结合多维敏感属性的匿名策略来降低信息损失，通过此方法保留的信息及关联的基础上，与个体对私人隐私信息的动态要求结合，以解决每个人隐私的概括要求和保留原始数据中信息准确性的问题。1.4 论文组织结构在上述研究内容的基础上将本文分为五章。第1章为绪论，介绍本文的研究背景、课题研究的目的及意义。对数据隐私保护技术的研究现状进行阐述，提出目前存在的不足及需要解决的主要问题。给出了本文的研究思路和实现目标，并对全文布局进行交待。第2章主要从数据发布中面向多敏感属性的隐私保护整体出发，总结并分析现有的隐私保护技术，包括

38、多敏感属性隐私数据发布问题、发布方法等。在这些理论的基础上，清晰地了解多敏感属性隐私保护的现状。在本章的第二部分中，分析泛化处理过程中造成的信息损失，并量化的定义数据概括带来的信息损失，最后将问题转化为带特定约束的聚类分组问题，文章提出不同以往单一敏感属性匿名保护的方法，讨论多敏感属性隐私保护的技术，并着重分析匿名信息损失的方法。第3章针对单一个体对应多个记录的情况下的多敏感属性数据发布的情况，讨论原有技术在此情况出现的问题，提出一种新的基于有损连接的隐私保护方法，并分析新方法概括后数据的信息损失情况及由多敏感属性关系推出新的关联集合。第4章主要研究基于个人动态隐私要求的多敏感数据发布特点，讨

39、论原有个人匿名应用在单一敏感属性情况的缺陷，提出一种多敏感属性语义树及新的概括算法，该算法在匿名化过程中针对个人不同的隐私需求，应该制定个性化的隐私约束，能够有效地保护个人的敏感隐私。第5章以具体的应用仿真实例来具体描述本文提出的方法，并对数据的处理结果进行综合的分析验证方法的有效性与准确性。第2章相关理论与技术论文在上一章中首先介绍了有关本文研究的背景意义和国内外的研究现状，然后对本文的研究内容和论文组织进行了详细的描述。本章首先对隐私保护技术的相关理论和技术作为重点介绍，其次结合本文的应用背景下讨论传统理论研究存在的不足，分析最小信息损失度的匿名策略克服匿名过程中数据被泛化的缺点，最后结

40、合上述理论提出多维敏感属性的隐私保护技术叫“技术”太大啦！，并分析冗余信息出现的情况，证明该方法在发布数据信息的有效性。2.1 隐私保护概述个人信息是指可以直接或间接识别出自然人情况的数据资料，包括姓名、性别、身份证号、年龄、出生日期、健康和家庭住址等等。欧盟委员会在1992年的理事会数据保护条例的修改建议稿中明确规定：“个人数据是指包含一个可识别的自然人的任何信息，不单单局限于以可处理形式所存在的信息，它有关任何形式和任何种类的信息，强调只要这种信息是有关个人的，不论个人是活着的或者是已经死亡的，并且只要求这个或这些人是可以通过这些信息来识别的”。这些个人数据的内容包括个人的基本自然状况、有

41、何生活经历及习惯、社会与政治背景和家庭基本情况等。个人隐私权是人的基本权利，是公民对其隐私加以保护和约束所特定的人格权。但是直到今天，隐私权任是处于一个发展中的概念，隐私权还不是一个能够容易界定的概念。沃伦和布兰戴斯将隐私权在隐私权一文中解释为文献引用？“隐私权作为个人在通常情况下决定自己的思想、情感和观点在多大程度上与别人交流和沟通的权利，是个人对其私人领域的一种有限的控制状态，主要解释为以下两个方面，一方面是决定是否允许他人对其进行多大程度的亲密接触（包括个人信息的接触）的决定；另一方面是他对自己私人事务的决定”。隐私权是指自然人在享有到私人生活安宁和私人信息受到法律保护的同时，不因被他人

42、利用非法渠道进行搜集、侵扰、利用和公开的一种人格权。其主要内容包括私人信息保密权、个人生活不受干扰的权利、个人通讯秘密权及个人隐私利用权等，另外还有学者认为隐私权包括三方面：保密个人的隐私信息，保证个人生活安宁的权利和保护个人私事自由决定的权利。个人信息隐私权是指个人对与自己相关的能够被识别的信息资料加以约束和利用以及排除非法利用和干扰的权利。在信息技术高速发展的今天，人们每天都在享受由此带来的方便和快捷，但也因此使得个人信息的搜集变得越来越容易，信息技术不得不比喻为一把“双刃剑”，关于个人信息的使用不当或予以公开都可能会给个人造成财产、精神上的损失。个人信息隐私权已经从传统的保证“个人生活安

43、宁不受外界干扰”的消极权利逐渐演变为现代的具有更积极意义的“信息隐私权”，这样隐私权更突出地表现为个人对私人信息和私人事务的控制力上。综上所述，在个人隐私权的保护上不能只停留在针对所谓独处权的保护，而是应该转变为朝向保护个人信息的方向上发展。目前基于隐私保护不同需求的角度进行分析，把隐私保护技术分为两个重点研究领域：面向用户的隐私保护技术与面向数据的隐私保护技术的研究。前者针对拥有者有隐私自治的原则进行研究，通过不同的预定义隐私泄露参数来进行隐私数据控制的，应该制定个性化的隐私约束。基于上述介绍，面向用户信息隐私保护的提出主要从三个方面分析：发布信息的隐匿程度、数据信息的非链接性和个体行为发布

44、的非直观性。在数据库应用方面，用户隐私保护主要从如何保护由数据间关联可以表达的敏感信息考虑，也就是说通过隐私保护方法来限制用户敏感数据从而达到消除由抽取数据和链接信息时导致的隐私泄露等目标，主要是采用某些专门处理方法，或者使用在这些记录上附属特殊标记达到上述目的。在数据发布过程中，面向数据的隐私保护技术是针对关系数据库中的原始记录与发布数据中个人隐私敏感信息泄露的问题，即保护好数据中明显暴露出个人隐私的数据，或者通过记录间关联的抽取发现隐私信息的数据，对上述数据的保护所提出的方法进行研究。2.2 匿名策略隐私保护技术在信息安全领域作为一种新兴的技术，同传统的访问控制方法和加密技术有这本质的区别

45、。访问控制技术与加密技术的关键思想是既保证数据的隐秘性得到保护，又保证它不被非授权的第三者访问或抽取。目前主要通过防止攻击者通过非法手段来得到隐私数据（访问控制）或者使得攻击者获得的数据因扰动后变得不再可用（加密技术）来实现。非法的攻击者则以获得可用的隐秘数据为最终目标。而隐私保护技术在数据的隐密性上并不能完全保障，一般来说隐私数据完全可以对外界公开的，对于任何人这些数据都是都可以随时访问的，该技术的关键是如何保护隐私数据与个人之间的对应关系。因为从非法攻击的角度看，攻击的目标主要是抽取出隐私数据与个人之间所产生的对应关系。所以隐身保护技术的主要目的就是隐私数据在一定程度上可以被任何人得到，但

46、是所发布的数据却不能把对应到某个特定的人身上。目前隐身保护技术在数据共享中的应用主要体现在匿名保护问题中：由于被共享的数据集中任何数据记录均与某一个体相存在对应关系，所以在这些数据集中存在涉及个人隐私的敏感属性值（如医疗记录数据中的病人用药情况和疾病诊断信息）。隐身保护技术研究的目的是实现对共享数据集包含个人隐私的敏感属性值进行匿名保护，也就是说防止非法攻击者将个人隐私的敏感属性值与其对应的特定个体关联起来。传统方法只是将原始数据记录中可以唯一标识出个人身份的属性（即标识符，如姓名、身份证号码、银行卡号）进行简单的移出，可是这样其实并不能完全保证个体隐私不被非法攻击者获得。文献1中研究表明由于

47、在数据记录中存在一些属性可与外部数据源链接而间接推断出个体身份所对应的记录，这样在共享仅移除唯一标识个人身份属性的原始数据集时，攻击者如果通过非法渠道根据自己掌握的数据和发布数据进行重新链接，就能够推断出所隐藏个体的身份信息，所以造成了个人隐私的泄漏。本文为了便于描述，通过以常见的关系数据库为例，将数据表中的属性具体分为以下三类23：（1）个人标识符（individually identifying attribute大小写写法应全文一致！看下页标注，全文检查，简称ID）：在数据表T中，在任何情况下都可以直接标识出个人身份的关键属性集，被称为个人标识符。如姓名、身份证号码、银行卡号、手机号码和社会保险号码等。（2）准标识符（quasi-identifier attribute，简称QI）：在数据表T中，能够被数据持有者发现并通过与外