轨迹隐私保护要点课件.ppt
Powerpoint Templates,基于轨迹频率抑制的轨迹隐私保护方法,论文主线,问题提出相关知识:1.系统结构 2.轨迹数据集 3.攻击者模型 4.隐私模型 5.数据损失率解决方案,问题提出: 移动终端和定位技术的快速发展带来了轨迹大数据研究者通过挖掘和分析发布的轨迹数据集,可获得一些有价值的信息攻击者也可利用所掌握的知识对发布的轨迹数据集进行推理分析,以较高的概率推断出用户的隐私信息,轨迹抑制是一类实现隐私保护的重要方法,然而轨迹抑制的点数越多会造成数据效用越低 因此,在满足用户隐私需求的情况下,如何选择合理的抑制点来提高匿名处理后的数据效用是数据发布中要解决的重要问题 文中提出基于轨迹频率的方案对轨迹数据进行匿名处理,根据情况抑制整条有问题的轨迹数据或向有问题的轨迹数据集中添加假数据;,1.系统结构,该问题的系统结构是基于“先收集轨迹数据集,再匿名处理,后发布匿名轨迹数据”的原则 轨迹隐私保护服务器中有个主要模块:数据预处理模块、隐私保护处理模块和数据效用衡量模块,离线轨迹发布隐私保护系统,由一个数据收集服务器收集轨迹数据,并将原始数据存储到轨迹数据库中,然后由轨迹隐私保护服务器进行隐私保护处理,最后形成可发布的匿名轨迹数据。,2.轨迹数据集,轨迹数据集是所有用户轨迹序列的集合,如表所示,的形式化表示公式如下,表示用户i的运动轨迹,,是数据发布中心可以掌控的所有位置,(定义1)轨迹记录:由n个位置信息按照时间组成的一条记录t。,3.攻击者模型,假定潜 在 的 攻 击 者 数 量 为个,则 有 ,其中V为攻击者集合,每个攻击者 可以掌控 中包含的所有位置信息,则有 ,且对 每 一 条 轨 迹 记 录,每一个攻击者 都拥有一个投影知识 ,定义如下(定义2) 若仅考虑一个攻击者v,则一条轨迹记 录 的 投 影 为 所以,每一个攻击者将会拥有所有轨迹数据集中的投影集 ,且 。,攻击者 的投影集 可以根据上面定义通过对轨迹记录集计算得到,如表所示:,新的问题:攻击者根据其拥有的知识 很容易推断出经过 中全部位置的用户的身份信息,进而推断出用户的其他信息。,为了解决上面的问题,提出新的定义:,可公布数据集(定义3) 给定原始轨迹数据集,是经过处理后要公布的轨迹数据集若 ,每一个攻击者都不能以高于 的概率推断出用户的位置信息 , 为用户隐私容忍度, ,则认为是安全的,可以公开发布,否则是不安全的,不能公开发布。,4.隐私模型,为了保护用户的隐私,我们定义隐私模型 privacy,该模型保证了攻击者不会以高于 的概率推断出任意用户的身份信息和攻击者尚未掌握的其他位置信息。从轨迹数据集中找到攻击者的投影知识 ,并从 中找到满足特定条件的所有轨迹记录集 (定义4),是攻击者的投影知识 中所有与轨迹 相同的轨迹形成的集合,如攻击者的投影集 (如表所示)若 ,则 是用户 的轨迹集合 ,攻击者根据 推断出其他位置 的概率如下式所示:,rivacy(定义5),,若 成立,则认为 的转换是安全的,可以公开发布 ;若 则认为转换不成功,并标记为有问题的投影轨迹,需要根据特定的算法对其进行处理。,5.数据损失率,数据发布者发布轨迹数据的目的是为了研究者进行数据挖掘,以满足多个研究者完成不同数据挖掘任务的需求因此,我们在确保用户隐私的同时也要考虑如何提高数据效用。数据损失率原始轨迹数据集的足迹个数记作,匿名的轨迹数据集中的足迹个数记作,计算公式如下(定义6),数据损失率的值越小,数据效用越好;的值越大,数据效用越差。,基于轨迹频率抑制的方案添加假数据,方案根据情况抑制整条有问题的轨迹投影记录或添加假数据,以实现轨迹匿名处理方案所使用的匿名算法包含个部分。,算法,从原始轨迹数据集中找到不满足用户隐私容忍度 的有问题的投影集。,该算法基于算法,将有问题的投影集中的轨迹序列按照其在原始轨迹集中出现的次数降序排列,使出现频率较高的轨迹序列优先得到处理。,将原始轨迹集经过处理变为满足用户隐私需求的轨迹集,采用添加假数据的方法和轨迹抑制方法两种方法进行匿名处理。,方案程序流程图,谢谢观赏,