软件学报ISSN 1000—9825.CODEN RUXUEW Journal ofSoftware,2012,23(2):352—360[doi:10.3724/SP.J.1001 2012.03946] ◎中国科学院软件研究所版权所有. E—mail:jos@isca,s.ac.cn http://www.jos.org.cn Tel/Fax:+86.1 0.62562563 位置服务中用户轨迹的隐私度量 王彩梅,郭亚军 ,郭艳华 (华中师范大学计算机科学系,湖北武汉430079) Privacy Metric for User’S Trajeetory in Location-Based Services WANG Cai—Mei, GUO Ya—Jun , GUO Yan—Hua (Department of Computer Science,Huazhong Normal University,Wuhan 430079,China) +Corresponding author:E—mail:ccnugyji@126.corn Wang CM,Guo YJ,Guo YH.Privacy metric for user’s trajectory in location-based services.Journal of Software,2012,23(2):352-360.http://www.jos.org.cn/lO00—9825/3946.htm Abstract:This paper proposes a trajectory privacy measure for Silent Cascade,which is a prevalent trajectory privacy preserving method in LBS(1ocation—based services).In this measure,the user’s trajectory is modeled as a weighted undirected graph,and the user’s trajectory privacy level is calculated through the use of information entropy.It is pointed out in literatures that any privacy preserving methods will be subject to privacy threats once the attacker has new background knowledge.Therefore,adversarial background knowledge is hierarchically integrated into this measure.The privacy metric result composes of the assumptive background knowledge and the corresponding trajectory privacy leve1.(KuL(Ki+, 一),KL( +, 一))association rules is also proposed to describe the assumptive background knowledge.Simulation results show that this metric is an effective and valuable tool for mobile users and the designers of trajectory privacy preserving methods to measure the user’s trajectory privacy level correctly,even the attacker has variable background nowledge.k Key words:location—based service;trajectory privacy;privacy metric;background nowlkedge;association rule 摘要: 针对一种流行的用户轨迹隐私保护方法——Si1ent Cascade,提出一种新的轨迹隐私度量方法.该度量方 法将用户运动轨迹用带权无向图描述,并从信息熵的角度计算用户的轨迹隐私水平.已有文献指出,当攻击者拥有新 的背景知识时,任何一种隐私保护方法都会受到隐私威胁.因此,将攻击者的背景知识分级融入到度量方法中,隐私 度量的结果由对背景知识的假设和相应的轨迹隐私水平值组成,并提出(KuL( +,J ) ))联系规则的方法来 描述对背景知识的假设.模拟实验结果表明,此度量方法为移动用户和轨迹隐私保护方法的设计者提供了一个有价 值的工具,能够准确地评估在攻击者具有可变背景知识情况下,用户的轨迹隐私水平. 关键词: 位置服务:轨迹隐私;隐私度量;背景知识;联系规则 中图法分类号:TP30l 文献标识码:A 计算机先进技术越来越多地、无形地融入到人们的日常生活中,为我们提供各种信息服务.传感定位技术 和移动通信技术的相结合,使得基于位置的服务(1ocation.based service,简称LBS) ̄I起人们极大的关注.近年来, +基金项目:国家自然科学基金(61170017) 收稿时间:201O-04—30;定稿时间:2010-09.29 王彩梅等:位置服务中用户轨迹的隐私度量 353 位置服务不仅成为国际研究的热点,而且已成为国内外相关企业研发投入的重点之一.在基于位置的服务中,用 户通过向服务器提供其所在的位置信息而享受到与位置有关的服务,诸如查找到离自己最近的宾馆、医院、饭 店等.然而,恶意攻击者可以将位置信息和发出查询请求的内容联系到人们的私人生活、健康状况、政治立场 和宗教倾向等,或者通过联系额外知识确定一个人的真实身份.一个人的身份一旦确定,其所有其他敏感信息都 将泄露.这些攻击行为的存在,阻碍了位置服务的市场发展和商业前景.所以,在给用户提供服务的同时,对用户 位置信息加以保密显得尤为重要.轨迹隐私保护是位置隐私保护中相当重要的一个方向,恶意攻击者有可能将 用户时间顺序上的多个位置信息连接起来,从而得到用户在某一段时间内的运动轨迹.一旦用户的运动轨迹暴 露,那么用户更多的敏感信息将会受到威胁. 研究者们提出了各种保护用户轨迹隐私的方法.然而当这些方法运用到实际中时,并不能达到理论上的隐 私保护效果,用户需要及时得到关于他们当前的隐私保护程度的一个反馈.同时,为了评估保护隐私的技术水平 是否有所提高,需要建立一种隐私度量机制来评估服务系统的隐私保护效果.这对这个问题的研究具有十分重 要的意义. 本文第1节介绍相关工作.第2节针对Silent Cascade轨迹隐私保护方法提出一种新的轨迹隐私度量方法, 包括用户运动轨迹的建模、攻击者背景知识的描述和轨迹隐私度量机制的建立.第3节通过模拟实验验证该轨 迹隐私度量方法的有效性.第4节总结并展望下一步工作. 1相关工作 在隐私度量方面,最早在匿名系统中使用匿名集的大小或有效匿名集的大小来度量用户匿名性【l】.林欣等 人[2]认为,当匿名集中各个用户的概率不相等时,匿名集的大小则不再能够正确地反映每个用户的真正的匿名 性.他们提出连续查询攻击算法,根据集合中k个用户分别可能是真正查询发送者的概率计算出熵值,由熵值计 算出查询匿名度.Xu等人L3J认为,在基于连续位置服务的 匿名中,一个模糊区域中的用户约束了它在下一个模 糊区域中的位置,这给攻击者提供了相关信息.因此,简单地保证每个模糊区域中包含至少k个用户,并不能提供 给用户 匿名的保护.他们提出了一种基于模糊区域大小的熵度量机制,不仅考虑了模糊区域内实体的数量,而 且考虑其匿名概率分布来量化系统匿名性.文献[4,5]分别使用使用最大跟踪时间和路径混淆来反映交通监控 系统中GPS跟踪的车辆的隐私水平. Ma等人【6'7]提出V2X通信系统中的一种基于trip的度量机制来量化每个用户的位置隐私水平.采用信息理 论方法,将隐私水平量化为位置信息与特定的个人相联系的不确定性,并考虑了攻击者在一个更长的时间内(如 几天或几星期内)所获得的与隐私相关的累积信息对隐私水平的影响.文献[8,9】提出一种针对匿名通信系统的 匿名度量方法,将匿名性量化为攻击者得到的信息量与攻击者想要完全知道系统的通信模式所需要的信息量 之比来反映匿名通信系统的匿名度.Shokri等人fI oJ提出一种基于扭曲的隐私度量方法,通过比较攻击者观察得 到的跟踪用户的运动轨迹与用户真实运动轨迹之间的差异来反映用户的隐私水平.文献[2,3】的度量方法是针 对一种具体的隐私保护模型和攻击者具有特定背景知识的情况下提出的评估方法。而实际生活中,攻击者所拥 有的背景知识很可能是不断变化的.文献【6—1O】只是提出了一种隐私度量的框架,普遍适用于较多的隐私保护 模型,但是过于抽象.目前的位置隐私度量方法主要侧重于用户某个时刻的位置隐私度量’j艮少有专门针对用户 轨迹的隐私度量方法,并且现有的位置隐私度量方法常常忽略了攻击者的背景知识,而攻击者的背景知识与隐 私度量是紧密相关的【“】. Silent Cascade是Huang等人【I J在Silent Period[13,t4]的基础上提出的一种轨迹隐私保护方法.在Silent Period方法中,将用户运动的空间区域分为混合区域和应用区域.用户在混合区域中既不发送任何服务请求信 息,也不接受任何服务信息,直到换用假名从混合区域中出去.用户进入混合区域前后使用不同的假名,这样增 加了将用户的前后两个连续的位置连接起来的难度,降低了用户的两个或多个位置信息之间的可连接性,避免 了恶意攻击者得到用户的运动轨迹.但由于在混合区域不进行任何通信,所以损失了通信时间,降低了服务质 量.Silent Cascade方法对Silent Period方法加以改进,从时间和空间两个方面对用户的位置信息进行匿名处理, 354 Journal of Software软件学报Vo1.23,No.2,February 2012 通过平衡用户在混合区域和应用区域中的停留时间,在不降低服务质量的前提下,使得恶意攻击者难以将用户 的两个或多个位置信息连接起来,从而对用户的轨迹隐私提供了更强的保护. 本文针对Silent Cascade轨迹隐私保护方法提出一种有效的轨迹隐私度量方法,将轨迹隐私量化为经过混 合区域前后用户假名之间的可联系性,实时地评估这种轨迹隐私保护方法下移动用户的轨迹隐私水平.并将攻 击者背景知识融入到度量方法中,从而度量在攻击者拥有可变背景知识下移动用户的轨迹隐私水平和轨迹隐 私暴露率,以正确地反映这个轨迹隐私保护系统真正的价值. 2轨迹隐私度量方法 2.1用户运动轨迹建模 对用户的运动轨迹进行建模是隐私度量的基础.我们拟从攻击者的角度来分析用户的运动轨迹被跟踪和 被重构的可能性,从而能够为准确地量化评估轨迹隐私提供保证.下面以Silent Cascade方法为例来说明用户运 动轨迹建模的方法. 将进入某个混合区域中的所有用户的集合表示为卢{f,},从这个混合区域中出去的所有用户的集合表示为 D=fo,}.当恶意攻击者对某个用户U 进行跟踪时,可能观察到U 经过多个混合区域,并多次更换假名.用户在某 时刻t经过的混合区域表示为 (“1)= ,0 ).集合,和集合0中的用户假名存在一一对应的关系.因此,我们模拟 一个用户运动空间,用带权的无向图来表示,G=(Vi, ,E 。).其中,该图中的顶点分别代表从混合区域中进入和出 去的用户假名的集合。边代表一个用户在进出一个混合区域所使用的两个用户假名之间的可联系性,边的权重 表示可联系性的概率.图1以用户U1的运动为例,描述了在SilentCascade轨迹隐私保护方案下,用户实际的运动 过程和相对应的带权无向图表示的运动轨迹.这里,我们假设了知道用户U 的运动过程作为例子,而实际情况 下,用户U 的运动过程是不可知的. (a)用户在Silent Cascade隐私保护方案下的实际运动过程 (b)与(a)相对应的带权无向图 Fig.1 Modeling of user’S trajectory 图1用户运动轨迹建模 2.2攻击者背景知识 对每种隐私保护模型,攻击者所拥有的背景知识 的内容及多少直接地影响攻击这种模型的难易程度.在 Silent Cascade轨迹隐私保护方案下,攻击者的能力直接影响到跟踪用户的每条可能轨迹的概率大小.攻击者得 王彩梅等:位置服务中用户轨迹的隐私度量 355 到的有用背景知识越多,就越有可能将跟踪用户进出混合区域前后的用户假名联系起来,以对用户进行进一步 的跟踪,从而得到用户的轨迹信息.所以,只有将攻击者的背景知识融入到度量方法中,当攻击者背景知识变化 时,才能正确地度量用户的轨迹隐私水平. 将攻击者背景知识融入到隐私度量方法中是一个非常具有挑战性的问题,因为它需要预测攻击者可能知 道多少背景知识或者知道哪些背景知识.然而这是不可实行的,因此只能对攻击者所可能拥有的背景知识作出 各种假设.在本文中,对每次度量过程做出3种不同的假设,这3种假设的背景知识所包含的有用信息是逐级增 多的.因此,隐私度量的结果应该是由3组数据组成,每组数据都是一个二元组:由对背景知识的假设和相应的轨 迹隐私水平值组成.只有这样,用户才可以直观地感受到在不同的背景知识假设下他们的隐私受到的威胁.然后 才能根据度量结果来判断哪一个假设更符合实际情况,再判断在这种假设下的轨迹隐私水平是否是可以接受 的.如果是可以接受的,那么由轨迹隐私保护系统对用户提出的服务请求信息进行保护后,再由位置服务器提供 服务;否则,用户可以延迟享受服务的时间.因此,对背景知识进行假设并不是要求准确地预测攻击者可能知道 哪些信息。而是当用户将要提出服务时,让他们更全面地认识到享受这次服务可能会受到的隐私威胁. (1)攻击者背景知识的表达 Silent Cascade轨迹隐私保护方法主要是通过切断用户连续位置之间的连接性来达到轨迹隐私保护的目 的,攻击者的目的就是从经过轨迹隐私保护方法保护后的用户运动模式中得到位置之间的连续性,最终得到用 户与运动轨迹的可联系性.因此,度量轨迹隐私、将轨迹隐私量化为进出混合区域时用户假名之间的可联系性, 实际上需要从推算位置之间的连续性和位置与用户之间的可联系性出发.将这两种可联系性描述为条件概率, 分别为P B ),P cluk).其中, , 口, ceL,U ∈U,L为在跟踪时间内与跟踪用户构成混合区域的所有用户(包括 跟踪用户)向服务器提出服务请求时提供的所有位置信息的集合, 为用户标识符的集合.现将所有的P j ) 和P cf )都看作变量,而将背景知识表达为这些变量的约束,即条件概率的值. 将攻击者可以得到的信息分为两类:公共信息和跟踪得到的信息.公共信息是攻击者不经过对用户运动进 行跟踪就可以得到的信息,例如,地图上的实际路径、攻击者之前积累的经验知识f如某用户经常走某条道路)、 用户所走道路的车速等.跟踪得到的信息即为攻击者对用户进行跟踪所截取的服务请求信息,包括用户假 名、查询内容、时间信息、位置信息.从这两类信息里可以得到P(LB1 ),P cIqk)的值,q ∈Q,O为用户准标识符 的集合.准标识符(quasi.identiifers) ̄常是指用户的个人信息,如性别、年龄、家庭住址等,这些个人信息通常可 以通过其他公共资源获得.攻击者的背景知识则是来自公共信息.攻击者将背景知识与跟踪得到的信息进行关 联攻击,得到尸 l上 ),P c Luk)的值,就将背景知识表达成了变量P(如 ),P(Lcluk)的约束.它们通常以各种不同的 形式出现,有等式P(L2 I)=0.8,P 2,L3 1)=O, -1L4l三1)=0.5,不等式O.3<P(L1lu1)<O.6等. (2)攻击者背景知识的量化 由于隐私度量的结果由3组对背景知识的假设和相应的轨迹隐私水平值组成,因此必须找到一种方法来 描述对背景知识的假设,让用户对所假设的背景知识有一个直观的认识.最为直接的方法是列举所有可能的背 景知识的组合,通过计算得到每一个组合在度量轨迹隐私中所起作用的大小来衡量背景知识的强弱.因为背景 知识的组合太多了,所以这种方法实际上是不可行的. 表示A发生而引起占发生,此类型的关联规则为正关联规则;其他如— 或— ==>-1 之类的关联规 则为负关联规则.所有的背景知识(如上面的等式或不等式)都可以表达为正关联规则和负关联规则,其中,条件 概率的大小表达为规则的强度.例如,等式P(z2 )=0.8可以表达为正关联规则:L1 2,规则强度为O.8;等式 e( ̄L41L1)=0.5可以表达为负关联规则: 1==>— 4,规则强度为0.5.文献[16】正是基于这种思想,提出使用( , )最 强联系规则的方法来量化背景知识,其中, 表示 个最强的正关联规则,疋表示疋个最强的负关联规则.对两 类规则,分别根据其强度进行排序,然后挑选出 个最强的正关联规则和肛个最强的负关联规则,使用这两个 规则的集合大小来描述背景知识的强弱.但这种方法仅使用了关联规则的数量来衡量背景知识的强弱,这样是 不太准确的,因为它忽略了关联规则的强度, 因此,本文对上述方法进行改进,使用属于不同强度区间的关联规则的数量来描述所假设的攻击者拥有的 356 Journal ofSoftware软件学报Vo1.23,No.2,February 2012 背景知识的强弱,  ̄(KvL(Ki+, 0), ( +, 一))联系规则的方法来量化背景知识.首先,通过关联攻击找出所有 和三c以及 和 之间的正关联规则和负关联规则,规则的强度则是规则关联性的大小.然后将所有关联规则 根据其规则强度分为 类,所以,i=1,2 ., ;概率大小总区间为[O,1】.显然,n越大,各关联规则之间的区分就越细 致,对背景知识的量化也就越准确.同时 表示所有u 和 c之间的关联规则的集合的大小, 表示所有 和 之间的关联规则的集合的大小, +表示集合中第i类正关联规则的数量, 一表示集合中第i类负关联规则的 数量,KuL(Ki+,Ki一)中,∑ ++∑Ki一=Kvz,KL(K ̄+,Ki一)中,∑ ++∑Ki一=KL.这样,我们不仅考虑了背景知识中所 包含的关联规则的数量,而且考虑其概率分布,对背景知识的量化更加准确. 2.3轨迹隐私度量机制 下面建立一种轨迹隐私度量机制,根据所假设的攻击者拥有的背景知识并结合对用户运动轨迹的建模进 行推理,计算出在Silent Cascade轨迹隐私保护方法下用户的轨迹隐私水平. 以前面对用户运动轨迹建模的分析为例,每个用户进入一个混合区域时,有一个唯一假名来标识这个用户, 在出混合区域时,有且仅有1个假名,也就是说,进入前的所有用户假名和出去时的所有用户假名具有一一对应 的映射关系.假设有Ⅳ个用户进入混合区域,那么一共有Ⅳ!种映射关系,攻击者很难正确地判断它们之间的配对 关系,在没有任何背景知识的情况下,攻击者认为出现这M种映射关系的概率是相等的. 对于每一个混合区域所对应的单个带权无向图G:( , ,Ei。),我们用一个m ̄m的矩阵加以描述.这里,m为 进入混合区域的用户数量,即 =l l=I 1.其中 。= 。If∈ ,OE },efoeEi。的值的大小由i和0之间的关联概率 p(i,0)∈【O,1】来决定,它表示无向图的边的权值.当p(f,0)的值为0时,表示攻击者确定i和0之间没有联系性,它们 不是对应同一个用户.当攻击者确定这两个用户名是指同一用户时,其概率值则为1.另外,从每个顶点f∈ 或 OE Vo发出的边的概率之和为I,∑: 。p(6, )=1,∑:; P(ik, )=1.也就是说,矩阵的每一列或每一行之和均为1. 对于每个用户,攻击者对用户进行跟踪,可能观察到用户经过时间顺序上的多个混合区域.在没有背景知识 的情况下,攻击者认为从混合区域中出去的任何一个假名所代表的用户是攻击者所跟踪用户的概率相等.在经 过一些混合区域之后,假设会形成 种可能的用户运动轨迹,这些属于单个用户的可能的多条运动轨迹则是树 形结构,每条轨迹的概率也相等,均为1Ⅸ其中 为树的叶子节点的个数.攻击者在获得和利用背景知识进行推 理后,每条可能的运动轨迹是用户真实运动轨迹的概率不再相等.而且攻击者可以根据用户经过每个混合区域 的概率值最终确切地计算出每条运动轨迹的概率值,再通过信息理论方法计算每个用户的轨迹隐私水平. 信息熵常常用于表示某种特定信息的出现概率,一个系统越是有序,信息熵就越低;反之,一个系统越是混 乱,信息熵就越高.攻击者对用户轨迹隐私攻击的主要目的是要挑选出概率最大的轨迹,如果攻击者认为特定用 户每条可能的运动轨迹的概率相等,则表示系统是混乱的;如果每条可能的运动轨迹的概率差别很大,则表示系 统是有序的.因此,选用信息熵来度量轨迹隐私是可行的. 随机变量 的熵表示通过学习 获得的信息量,用来量化一个变量 的不确定性的程度,计算如下: H(X)=一 p(x)logp(x) (1) 当所有可能的情况集中在同一个值上时 的熵取最小值0;当所有值等概率时 的熵取最大值(Ⅳ为样本 空间的大小). 攻击者根据所拥有的背景知识推理并计算出某个用户每条可能的运动轨迹的概率值,每条轨迹的概率由 无向图中组成这条轨迹的各条边的权重相乘得到.将用户U 每条可能的轨迹记为 , Pl,P2 .,尸 则 eio∈ =., 其概率值分别为 eio∈ 兀eio=兀p(i,o), =1,2,..., (2) 这里’=’ e/o 一 1尸(厶/ )or PG/’ u P(L o/U ),当攻击者具背景知识时耋萎 喜 ’时, Siz (Mt(ui肭进入混合区域 的用户。 … 数量,f从混合区域 (“ )进入,0从混合区域Mr(u3出去,厶为假名为i的用户发出的位置信息, 。为假名为0的用 王彩梅等:位置服务中用户轨迹的隐私度量 357 户发出的位置信恩. 根据公式(1),我们可以计算出特定用户U 的熵为 H(u )=一∑ 1P logp ( )=一Iog÷ (3) (4) 在攻击者没有任何知识背景的情况下,每条运动轨迹的可能性是等概率的.这时,这个用户的最大熵值为 我们用D(u3来衡量用户轨迹隐私水平.它表示特定用户的轨迹隐私保护程度. ) H(u i)% (5) 因此,1—D( )表示用户 的轨迹隐私泄漏率.D(uf)的值越大,表示用户 f的轨迹隐私受保护程度越高、隐私泄漏 率越低、攻击者的能力越小:反之亦然. 3实验结果与分析 在模拟实验中,对于Silent Cascade轨迹隐私保护方法满足通信质量需求一定的情况下,通过假设攻击者拥 有不同的背景知识,然后在Silent Cascade轨迹隐私保护方法下的同一个实例中分别度量用户的轨迹隐私水平, 评估当攻击者所拥有的背景知识不同时同一用户的轨迹隐私保护水平.实验以UCI机器学习数据集里的Adult 数据集和城Oldenburg的交通网络图作为初始数据,将Adult数据集里的个人作为用户模拟到Oldenburg市的 交通网络图中.并且用户的轨迹隐私受到SilentCascade方法的保护.将攻击者背景知识作为输入,测试用户的轨 迹隐私水平作为输出.测试时,所输入的攻击者背景知识取自攻击者背景知识库,并通过ME methodU61表达成联 系规则,攻击者背景知识库由Adult数据集、Oldenburg交通网络图以及用户发出的查询请求信息共同构成。模 拟实验在普通微机的Windows平台下使用Visual C++6.0开发实现,测试机器基本参数为Pentium4 CPU 3.00GHz,内存2GB.实验着重从以下几个方面分析了攻击者所拥有的背景知识如何影响用户的轨迹隐私: (1)攻击者有无背景知识对轨迹隐私度量结果的影响 在基于位置的服务中,已有的隐私度量方法基本上是假设攻击者没有任何背景知识或者只是拥有某些特 定的背景知识.而现实生活中,攻击者都是掌握一定的背景知识的,而且攻击者所掌握的背景知识很可能是不断 变化的.根据实验结果描绘了两条曲线, 是假设攻击者没有任何背景知识, 是假设攻击者具有一定的背景知 识.实验时,从攻击者背景知识库的Adult数据集、交通网络图和用户发出的查询请求记录中分别取记录量为3 000,2 000,1 000,可表达为大概3×l0 个联系规则,如图2所示.可以看出,当攻击者没有任何背景知识时,隐私没 有暴露;而当攻击者具有一定的背景知识时,随着跟踪时间的变长,隐私则逐渐趋于暴露.因此,在轨迹隐私度量 方法中考虑攻击者所拥有的背景知识是必不可少的.同时,也表明了轨迹隐私度量的结果不仅应该包含轨迹隐 私水平值,而且应该包含对背景知识的假设,即度量结果应该由这两个元素组成.这体现了在帮助用户理解他们 的隐私受保护程度方面,让用户知道攻击者所拥有的背景知识起着至关重要的作用. (2)KUL和 对轨迹隐私度量结果的影响 在实验中对比分析了两类背景知识对轨迹隐私的影响:用户与位置之间的关联规则、两个位置之问的关联 规则,如图3所示.描绘了3条曲线:KuL曲线使用了3K/4个用户与位置之间的关联规则和K/4个位置与位置之 间的关联规则;KL曲线使用了 4个用户与位置之间的关联规则和31(/4个位置与位置之间的关联规则; 眦, )曲线使用了1(/2个用户与位置之间的关联规则和1(/2个位置与位置之间的关联规则.从图中我们可以 清楚地看出,随着攻击者得到更多的背景知识,用户的轨迹隐私水平变得越来越低.尤其是当K很小时,隐私水平 下降得很快;当攻击者得到越来越多的背景知识时,下降速率变慢.这是因为在背景知识量增大的同时也包含了 更多的冗余信息,相对而言,对攻击者有用的信息变少,所以隐私水平的下降速率变慢. 对比分析这3条曲线可以看出,不同类型的背景知识对隐私暴露的影响大小不一样,隐私水平下降的速率 不同.(KvL, )曲线下降得最快.这表明,即使背景知识的量是相同的,但这两类背景知识的组合比单独的一类背 358 Journal of Software软件学报Vo1.23,No.2,February 2012 景知识包含更多的有用信息,攻击者得到这两类背景知识的组合对其更加有用.所以,我们在量化背景知识时, 要同时考虑 [ 和 ,. 同时,对比KuL和 两条曲线,当背景知识的量相同而用户与位置之间关联的背景知识所占比例更大时, 用户轨迹隐私水平的下降速率更快.可以看出,用户与位置之间关联的背景知识比两个位置之问关联的背景知 识对攻击者得到用户的轨迹隐私起到更大的作用.所以,在我们设计轨迹隐私保护方法时,应该着重在切断用户 准标识符与位置之间的可关联性方面做工作,也应该着重避免泄漏关于用户准标识符与位置之间关联的背景 知识. Fig.2 Effect of adversarial background knowledge on privacy metric result 图2攻击者有无背景知识对轨迹隐私度量结果的影响 一 ‘曷 K(xl0 ) Fig.3 Effect ofthe value KuL and KL on pri‘vacy metric result 图3 KvL和 对轨迹隐私度量结果的影响 (3),l的取值对轨迹隐私度量结果的影响 相对于文献[161中提出的量化背景知识的方法,本文提出了 ( + 一), ( + 一))联系规则的方法,不仅 考虑了背景知识中的正关联规则和负关联规则的数量,而且考虑了这些关联规则的概率分布.在本次模拟实验 中,我们选取了包含K/2个Kuz关联规则和K/2个 关联规则的背景信息(这里,K=2x10 ),这两类关联规则分别 所包含的正关联规则和负关联规则的数量相等. 图4(a)qh描绘了两条曲线,一条曲线的背景知识为厂 ,另一条曲线的背景知识为厂2.厂 ,厂2所包含的关联规 则在数量上相同,但概率分布不同.当n=0,即不考虑关联规则的概率分布时,对它们的描述相同.当n=5时,/=1,2, 3,4,5,将概率分为5类:[0,0.2】,(O.2,0.4),(O.4,0.6),(O.6,0.8),(0.8,1),对它们的描述分别为厂1=( += 一=O.1xlO4,i=1,2, 3,4,5);厂2=( l+: 1_=0.05 ̄104, += __0.05x104, __0.05x104,g4+=/(4-0.15x104,Ks ̄=Ks一=0.2x10 ).为了简 洁,这里只是描述了(^ ( +,J ), ( +, 一))中的( +, 0),下面对厂3和厂4的描述也是如此. 当n=0,即不考虑关联规则的概率分布时,在轨迹隐私度量结果中,对背景知识假设的描述相同,都为厂 ( 厂】= 12),但隐私水平值是不一样的;当n=5时,因为考虑了关联规则的概率分布,轨迹隐私度量结果中对背景 知识假设的描述不同,分别为厂。和/'2,自然分别对应不同的隐私水平值.从实验结果可以看出,当只使用关联规 则的数量来量化背景知识时,并不能准确地描述背景知识,就会出现这样的情况:所描述的背景知识一样,但是 王彩梅等:位置服务中用户轨迹的隐私度量 359 隐私水平值不同.因此,将关联规则的概率分布融入到量化背景知识的方法中是有必要的. 图40)中同样描绘了两条曲线,一条曲线的背景知识为 ,另一条曲线的背景知识为厂4.我们分别取这样的 数据:当n=5时,对背景知识的描述是相同的,都是厂 (厂r-厂3=F4),厂 =一l+= 1一=0.1X104, += 一=O.1×104,K3+= 0.1x104K4+=K4一=0.1xl04Ks+=K5一=0.1xl0 );当,,n=10时,把概率区间分为10类,分别为【0,0.1],(0.1,0.2), O.08x10 ,i=2,4,6,8,10). (0.2,0.3),(0.3,0.4),(O.4,0.5),(O.5,0.6),(0.6,0.7),(O.7,0.8),(O.8,0.9),(0.9,1),对背景知识的描述不同,分别为厂3和厂4, F3=( += 一=0.05x104 i=I,2,...,1O);厂4=( += 0.02x104 i=1,3,5,7,9, += 当n=5时,对背景知识的描述是相同的,都是厂( =厂 厂4),而隐私度量结果不一样;当n=10时,对背景知识 的描述不同分别为厂 和厂4,分别对应不同的隐私水平值.从实验结果可以看出,n越大,关联规则的概率分布区分 得越细致,所描述的背景知识就越准确. K K (a)n=O,n=5 (b)n=5,n=10 Fig.4 Effect of the value n oll privacy metric result 图4 n的取值对隐私度量结果的影响 4结论与展望 本文针对现有的Silent Cascade轨迹隐私保护方法,提出基于熵理论的轨迹隐私度量方法,并将攻击者背景 知识融入到度量方法中.实验结果表明了该度量方法的有效性,当攻击者所拥有的背景知识变化时,也能准确地 度量用户的轨迹隐私.同时,对实验结果的分析给轨迹隐私保护方法的设计者提供了一些参考,有助于他们设计 出更好的轨迹隐私保护方法. 随着对位置服务中轨迹隐私度量的研究,如何将攻击者所拥有的背景知识更贴切地融入到度量方法中,将 是我们下一步要进行的重点工作. References: [1】 Kelly DJ,Raines RA,Grimaila MR,Baldwin RO,Mullins BE.A survey of state—o ̄the-art in anonymity metrics.In:Antonatos S, ed.Proc.of the 1 st ACM Workshop On Network Data Anonymization.Alexandria:ACM,2008.31—40.[doi:10.1 145/1456441. 1456453】 【2】Lin x,Li SP,Yang CH.Attacking algorithms against continuous queries in LBS and anonymity measurement.Journal of Software. 2009,2O(4):1058—1068(in Chinese with English abstract)http://www.jos.org.cn/1000—9825/3428.htm[doi:10.3724/SP.J.1001. 2009.03428】 【3]Xu T,Cai Y.Location anonymity in continuous location—based services.In:Samet H,ed.Proc.of the 15th Annual ACM Int’l Symp.on Advances in Geographic Information Systems.Seattle:ACM,2007.1-8.[doi:10.1 145/1341012.1341062】 【4]Gmteser M,Hoh B.On the anonymiy of tperiodic location samples.In:Hutter D,ed.Proc.of he 2nd Int’t1 Cone on Security in Pervasive Computing.LNCS 3450,Heidelberg:Springer-Verlag,2005.179—192.【doi:10.1007/978—3-540—32004—319】 —【5]Hoh B,CJrUteser M,Xiong H,Alrabady A.Preserving privacy in GPS traces via uncertainty・aware path cloaking.In:Ning P.ed. Proc.of the 14th ACM Conf.Oil Computer and Communications Security.Alexandria:ACM,2007.161—171_【doi:10.1 145/ 1315245.13152661 360 Journal ofSoftware软件学报Vo1.23,No.2,February 2012 【6] Ma ZD,Frank K,Michael M.A location privacy metric for V2X communication systems.In:Manousakis K.ed.Proc.of the 2009 IEEE SamoffSymp.Princeton:IEEE,2009.1-6-【doi:10.1 109/SARNOF.2009.4850318】 [7] Ma ZD,Frank K,Michael M.Measuring location privacy in V2X communication systems with accumulated information.In:Ni LM,ed.Proc.ofthe 6th IEEE Int’l Confi on Mobile Ad-Hoc and Sensor Systems.Macao:IEEE,2009.322—331.【doi:10.1109/ MOBHOC.2009.5336983] vrikaya F,Yener B.A combinatorial approach to measuring anonymity.In:Proc.of the IEEE Intelligence and [8] Edman M,SiSecurity Information.New Brunswick:IEEE,2007.356-363.【doi:10.1109/ISI.2007.379497】 erlichs B,Troncoso C,Diaz C,Preneel B,Verbauwhede I.Revisiting a combinatorial approach toward measuring anonymity.In: 【9] GiAtluri V,ed.Proc.of the 7th ACM Workshop on Privacy in the Electronic Society.Alexandria:ACM,2008.1 1 1-1 16.【doi: 10.1 145/1456403.1456422] R,Freudiger J,Jadliwala M,Hubaux JP.A distortion-based metric for location privacy.In:A1一Shaer E,ed.Proc.of the 8th [10] ShokriACM Workshop on Privacy in the Electronic Society.Chicago:ACM,2009.21-30.[doi:10 1145/1655188.1655192】 Riboni D,Pareschi L,Bettini C.Shadow attacks on users’anonymity in pervasive computing environments.Pervasive and Mobile Computing,2008,4(6):819—835.【doi:10.1016 ̄.pmcj.2008.04.008] 【12] Huang L,Yamane L,Mastsuura K,Sezaki K.Silent Cascade:Enhancing location privacy without communication QoS degradation. In:Clark JA,ed.Proc.of the 3rd Int’1 Conf.on Security in Pervasive Computing.LNCS 3934,Heidelberg:Springer—Verlag,2006. 165—180.[doi:10.1007/1 173466613】 LP,Matsuura K,Yamane H,Sezaki K Enhancing wireless location privacy using silent period.In:Pauly L,ed.Proc.of the [13] Huang 1EEE Wireless Communications and Networking Conf.New Orleans:IEEE,2005.1 187—1 192.【doi:10.1 109/WCNC.2005. 1424677] H,Matsuura K,Sezaki K.Towards modeling wireless location privacy.In:Danezis G,ed.Proc.of the 5th Int’1 [14] Huang LP,Yamane Workshop on Privacy Enhancing Technology(PET).LNCS 3856,Heidelberg:Springer—Verlag,2005.59—77_【doi:10.1007/ 1176783l5】 tini C,Mascetti S,Wang XS,Jajodia S.Anonymity in location-based services:Towards a general framework.In:Proc.of the [15] Bet8th Int’l Conf.on Mobile Data Management.Mannheim:IEEE,2007.69-76.【doi:10.1 109/MDM.2007.19] [16] Du WL,Teng ZX,Zhu ZT.Privacy—MaxEnt:Integrating background knowledge in privacy quantification.In:Lakshmanan LVS, ed.Proc.of the 2008 ACM SIGMOD Int’1 Conf.on Management of Data.Vancouver:ACM,2008.459—472.[doi:10.1 145/ 1376616.1376665] 附中文参考文献: [2】林欣,李善平,杨朝晖.LBS中连续查询攻击算法及匿名性度量.软件学报,2009,2O(4):1058-1068.http://www.jos.org.cn/1000—9825/ 3428.htm[doi:10,3724/SP.J.1001.2009.03428] 王彩梅(1986一),女,湖北仙桃人,硕士生 主要研究领域为信息安全. 郭艳华(1985--),女,硕士生,主要研究领域 为信息安全. 郭亚军(1965--),男,博士,教授,CCF高级 会员,主要研究领域为信息安全,普适计 算,物联网.