您好,欢迎来到九壹网。
搜索
您的当前位置:首页社交网络隐私保护技术最新研究进展

社交网络隐私保护技术最新研究进展

来源:九壹网
第32卷第5期 计算机应用研究 V0l_32 No.5 2015年5月 Application Research of Computers Mav 2015 社交网络隐私保护技术最新研究进展冰 马飞 ,蒋建国 ,李娟 (1.合肥工业大学计算机与信息学院,合肥230009;2.北方民族大学计算机科学与工程学院,银川750021) 摘要:针对社交网络进行研究分析的同时不破坏其中的敏感隐私信息,研究者提出了各种各样面向社交网络 的隐私保护技术。从攻击者具有的背景知识、敏感数据信息的定义、信息的有用性三方面出发对社交网络隐私 保护技术进行了深入研究,重点对基于k一匿名、Markov链、聚类、随机化等技术的隐私保护方案的优点与不足进 行了深入比较与分析。最后,讨论了社交网络隐私保护技术所面临的挑战并对未来的研究方向进行了展望。 关键词:社交网络;隐私保护;背景知识; 一匿名;Markov链;聚类 中图分类号:TP393.08 文献标志码:A 文章编号:1001-3695(2015)05—1291—07 doi:10.3969/j.issn.1001—3695.2015.05.003 Latest research progress on privacy preserving technology of social networks MA Fei 一,JIANG Jian.guo’,LI Juan (1.College ofComputer&Information,Hefei UniversityofTechnology,Hefei 230009,China;2.College ofComputer Science&Engineering, 口e ng University of Nationalities,Yinchuan 750021,China) Abstract:In order to research and analyze the social networks without destroying privacy of sensitive information,the re— searchers have put forward a variety of privacy preserving technologies of social networks.From the three aspects of background knowledge of attackers,the definition of sensitive information,utility of information,this paper studied the latest privacy pre— serving technologies in detail.Especially,it compared and analyzed the important privacy preserving technologies based on k- anonymity,Markov chain,clustering,randomization,and SO on,in depth.Finally,it discussed the challenges and new re- search directions of social networks. Key words:social network;privacy preserving;background knowledge;k-anonymity;Markov chain;clustering 随着社交网络的快速发展,吸引了越来越多来自于数据挖 化、聚类的隐私保护技术作了深入研究与比较。 掘、社会学、数据库等领域的专家学者对其进行深入研究与分 析。目前的研究主要集中在发掘重要的网络特性及寻找有效 1 社交网络隐私定义、背景知识、有用性 可行的分析方法两方面。社交网络中通常会包含一些敏感的 对社交网络的隐私破坏主要分成实体信息破坏、链接信息 个体属性、个体间的关系、图形结构等信息,而这些隐私信息可 破坏、属性信息破坏三类。实体信息破坏指的是社交网络中的 能会在分析研究过程中被破坏,因此,如何对社交网络进行有 效挖掘研究的同时而不破坏其隐私信息成为目前社交网络研 个体ID与节点的关联关系被揭露;链接信息破坏指的是个体 间的敏感关系被揭露;属性信息揭露指的是与节点或边关联的 究领域中一个重要的研究课题。PPDP(privacy—preserving data 敏感属性被破坏。设计针对社交网络的隐私保护技术很大一 publication)技术已被广泛应用于数据库数据的隐私保护中。 数据库表格数据很容易通过施加通用化、压缩和随机化等操作 部分困难在于如何模型化攻击者的背景知识及量化经匿名保 来获得隐私保护,并且操作产生的影响被严格地限定在元组内 护后的网络信息损失。所以,必须结合社交网络中的隐私定 而不会扩散到其他元组。但是,对社交网络对应的图节点和图 义、攻击者背景知识及对匿名社交网络的有用性进行度量来设 形结构进行通用化或扰动操作所面临的困难性更大,因为操作 计有效的隐私保护方案。 产生的影响有可能会在图中扩散并造成信息损失,进而影响研 1.1 社交网络隐私定义 究人员对数据进一步的深入分析与挖掘。所以,如何设计有效 隐私模型化是设计隐私保护方案很重要的一步。不同的 的面向社交网络的隐私保护技术是目前信息安全与数据挖掘 隐私定义会导致不同的问题产生,从而影响隐私保护方案的设 领域的研究热点之一。  。计。由于社交网络所包含信息的复杂性,对隐私的定义也具有 本文从攻击者背景知识模型化、社交网络中的敏感数据信 很强的个性化。目前被看做隐私的信息主要有: 息定义、信息的有用性度量、匿名技术和解匿名技术几方面出 a)图形特征。在对社交网络进行分析与数据挖掘时,通 发,对当前重要的社交网络隐私保护技术进行了详尽的阐述与 常要提取图形的特征来分析社交网络对应的图形结构,这些特 分析,重点对基于k-anonymity、Markov链、图形特征保持、随机 征包括介数、中心度、路径长度、度序列、可达性等,而这些特征 收稿日期:2014-08-06;修回日期:2014—09—29 基金项目:北方民族大学科研项目(2013XYZ029,2014XYZ13) 作者简介:马飞(1976一),男,陕西榆林人,副教授,博士研究生,主要研究方向为网络安全、云计算、社交网络分析与隐私保护(feixiangflying33@ nxu.edu.cn);蒋建国(1955-),男,安徽广德人,教授,博导,主要研究方向为云计算、隐私保护、图形图像处理;李娟(1975一),女,宁夏银川人,副教 授,硕士,主要研究方向为云计算、社会计算、社交网络与隐私保护. ・1292・ 计算机应用研究 第32卷 可被看做隐私。 种针对大规模社交网络的解匿名技术,该技术完全基于网络拓 扑,并利用目标网络与辅助网络的结构相似性来进行解匿名。 Hay等人 提出一种针对社交网络中特定目标个体或个体集 b)节点存在性。目标个体是否在社交网络中存在可被看 做是该个体的隐私。 C)敏感节点标签。社交网络中的节点标签可分为敏感和 非敏感两类。当社交网络中的特定目标被定位后,与之关联的 敏感标签也被泄露。 d)敏感边标签。在一些社交网络中,边上通常会被赋予 的解匿名方法,攻击者通过揭露围绕在目标节点的K-hop子图 来对其进行定位,并使用随机图模型和真实数据来分析存在特 别链接关系的节点隐私性。 ̄Wondracek等人“ 利用从社交网 络中获得的群成员信息作为背景知识来对目标个体进行定位, 或者缩小目标个体候选集的规模,并通过理论分析和实验测试 特定的标签,而该标签类型也可分为敏感边标签和非敏感边标 签两种。敏感边标签的值通常被看做是隐私信息。 e)链接关系。节点间的边表征了节点间的关联关系,而 这种关系也可被看做是个体间的隐私。 f)节点结构属性。社交网络中的节点结构属性也常被看 做隐私。 g)链接权重。在具有边权重的社交网络中,边上的权重 表征了顶点间的通信代价或关系的重要程度,该权重亦可被用 户看做是敏感隐私信息。 1.2背景知识与解匿名 攻击者能否对匿名社交网络成功解匿名主要依靠两个重 要因素:攻击者所获取的外部信息(背景知识)的强度及节点 或图形间的结构相似性。攻击者用所获得的背景知识来解匿 名节点及它们之间的关系,而节点或图形结构间的相似性却可 让目标个体隐藏到特定节点集合中以抵抗解匿名。所以,如何 模型化攻击者的背景知识在设计社交网络隐私保护方案中起 到很重要的作用。 Zhou等人…列举了几种背景知识,包括节点属性、目标个 体之间的链接关系、节点的度、目标个体的邻居结构、嵌入子图 及图的特征等;Liu等人 以目标节点的度作为背景知识来破 坏目标个体的隐私;还有其他方案 使用目标节点的邻居结 构信息作为背景知识,甚至用户对网络的浏览记录亦可作为攻 击者的背景知识。 Backstrom等人 以目标个体结构信息作为背景知识来对 隐私进行破坏,并提出了两种分别称为主动攻击与被动攻击的 解匿名技术。主动攻击需要在社交网络数据发布之前,在目标 个体周围构造有效的可识别子图来对目标个体解匿名。作者 创造了一个具有七个节点且包含哈密尔顿路径的子图并嵌入 到目标个体周围对其进行解匿名。研究结论表明,针对有向图 进行子图嵌入的主动攻击较易被检测,原因在于目标个体主动 连向嵌入子图的边几乎不存在或非常少。而被动攻击则需在 图中集合一定数量的共谋节点来为解匿名目标节点提供链接 关系信息。被动攻击虽然不需要事先进行子图嵌入,但只能解 匿名很少的目标个体。两种攻击方案都涉及到要在目标节点 周围创建或寻找O(1ogN)个节点。Zou等人 也采用嵌入的 子图作为攻击者的背景知识。 利用个体的属性信息来进行解匿名已被广泛地应用于数 据库领域,而Ying等人 重点研究了利用节点属性和节点结 构信息作为背景知识来破坏具有多种属性的节点及多种不同 类型链接关系的复杂图中目标节点与链接关系的隐私。文献 [9—11]考察了针对各种复杂网络,为抵抗各种复杂背景知识 而设计的隐私保护技术。Zheleva和Liu等人 川研究了模型 化各种类型的背景知识及量化了因施加匿名操作而对所发布 的匿名社交网络带来的影响。Narayanan等人 成功提出一 对方法的有效性进行了评估。Cordelia等人¨ 提出VF算法 来对以图结构为背景知识的目标个体进行精确子图匹配或子 图同构判定。该算法与著名的乌尔曼回溯算法¨ 相比具有更 低的复杂度。Tian等人 设计了一种称为TALE的图匹配算 法,该算法使用在混合索引结构中合并图的结构信息的新颖索 引方法来进行匹配。Zhou等人 采用了称为1.neighbor—graph 的攻击方案,该方案的实质就是使用最小深度优先搜索算法来 进行子图匹配。在Thompson等人 以目标个体的度及与其 在/-hop距离之内的所有邻居的度被作为攻击者的背景知识来 进行解匿名。其他采用图形结构作为背景知识的解匿名方案 还包括基于图的随机游走算法 。。、EM算法 、SVD算法 1] 以及基于编辑距离的近似图匹配算法等 。而这些算法由于 基本都涉及到复杂的矩阵与概率计算,都不适合于大规模社交 网络。 1.3信息损失与有用性 发布社交网络数据的重要目标是允许研究者对其进行深 入分析,不同的分析任务希望社交网络保持不同的有用性,但 是社交网络经过匿名保护后,通常会带来一定的信息损失,而 不同的信息损失将不同程度地降低社交网络数据的有用性,所 以必须在隐私保护与有用性的矛盾之间进行平衡。社交网络 数据的有用性主要考虑以下三方面: a)图形拓扑属性。研究社交网络的重要目标之一是分析与 社交网络对应的网络图形属性。为了理解和利用图形信息,研 究人员利用各种技术手段从不同角度来揭示图形的结构及特 征 J。图的特征包括度序列、度分布、平均最短路径、聚类系数 等,一些文献[2,3,5,24,25]对这些杼陛进行了详尽的叙述。 b)图的谱特征。图谱通常被定义为图的邻接矩阵或 Laplacian矩阵及其他导出矩阵的特征值构成的集合。图谱与 图的许多特性具有非常紧密的关系,而且能对很多网络特性提 供全局性描述。拍J。在一些文献[24,25]中用是否保持图谱特 征来评价匿名随机图的有用性。 C)聚合网络查询。指计算满足特定查询条件的一些路径 或子图。研究者对匿名社交网络进行聚合网络查询返回结果 准确性的判定以及图有用性保持的度量进行了研究 ’ ” 。 对于数据库表中的记录,每条记录通常被假设为的,则可 使用对每条记录施加匿名操作而引起的信息损失之和来度量 整个匿名数据库表的损失。对于社交网络,不但要考虑图形结 构的改变引起的信息损失,同时也要考虑节点属性的变化带来 的信息损失。Zou等人 使用匿名前后对图进行修改的边数 来量化图形结构改变带来的信息损失,对原始图改变越小,带 来的信息损失越少。 由于社交网络的复杂性,在设计隐私保护方案时要综合考 虑隐私定义、背景知识及信息有用性三个方面,而它们的不同 第5期 马 飞,等:社交网络隐私保护技术最新研究进展 ・1293・ 组合会给设计隐私保护方案带来非常大的困难。 Zou等人 提出一种称为k-match的算法使图形满足k— automorphism性质以抵抗结构攻击,并对k-match算法进行扩 展用来处理动态网络匿名发布问题。 3)k-degree anonymity 2重要的社交网络隐私保护技术 2.1朴素匿名隐私保护技术 最简单但安全性也最低的隐私保护方法称之为na'/ve ano— Liu等人 指出实际社交网络中的度序列分布都具有比 较高的非均衡性,易让攻击者利用目标个体度的信息来进行隐 私破坏。为了解决该问题,研究者把k-anonymity模型应用到 关于度的隐私保护中。 nymization(朴素匿名)。数据发布者用随机ID来代替节点的 真实ID,而攻击者希望找到具有真实ID的原始G与具有随机 ID的匿名图Gn 之间的节点映射关系,但由于映射的随机性, G 。中节点映射到G中任何节点的概率相等。朴素匿名隐私的 若图G=( ,E)被称之为k-degree anonymity,当且仅当Vu∈ 优点是最大程度地保持了图的有用性,但无法有效保护图中的 隐私信息,攻击者可以利用目标节点的一些结构信息来解匿 名,所以,必须要提出更加高效与安全的隐私保护模型。 2.2基于k-anonymity模型的隐私保护技术 在数据库领域中比较著名的PPDP模型主要包括k-ano- nymity[ ’ 29]、/-divemity[∞ 和£一closeness[31,32]以及相应的变体 (O/,j}).anonymity、(C,z).diversity等,这些模型都已被成功借 鉴到社交网络隐私保护中。以下几种隐私保护技术就是借鉴 了k-anonymity模型的思想。 I)k-candidate anonymity 对节点x进行结构查询Q,若满足至少存在K一1个其他 在图中的节点与之匹配的条件,即f cand( )f≥k,则称该节点 满足k-candidate anonymity,此处 cand( ):{Y∈VIQ(y)=Q( )} (1) 若图形关于查询Q满足k-candidate anonymity,当且仅当 所有节点关于查询Q满足该定义。该定义意味着节点K在原 始图中都至少有K一1个候选节点,且这些候选节点是均匀概 率分布。Hay等人 使用边随机修改技术来满足k-candidate anonymity。Hay等人 提出了一种通用化技术,把满足特定条 件的节点与边划分到相应的“超点”与“超边”,以此来满足 - candidate anonymity条件。其他一些基于k-candidate anonymity 模型的解匿名攻击的方法也被先后提出,这些方法不同于以结 构信息作为背景知识的方法, u等人 假设攻击者仅仅知道 目标个体的节点度;Zhou等人 假定已知目标节点直接邻居 的一个明确子图结构。 2)k-automorphism anonymity Zou等人 综合考查目标个体周围所有可能的结构信息, 提出一种叫做k-automorphism anonymity的技术来抵抗任何以 图结构为背景知识的解匿名攻击以保证隐私不被破坏。如果 所发布的图G满足k-automorphism anonymity,则当攻击者尝试 通过“的子图来解匿名目标个体 时,将会在G中至少得到 种不同的子图来匹配其进行的子图查询,而 值越高,则成功 解匿名的概率越低。 Hay等人 提出了等价自同构的概念,即对图中的节点进 行划分,每个划分块中的节点的结构是一致的。当划分块中的 节点数比较大时,攻击者将无法有效利用结构相似性背景知识 来对节点进行解匿名,反之,则可结合其他辅助信息来对节点 进行解匿名。Zou等人 采用更加通用化的假设:攻击者已知 与目标个体 关联的任何子图,若子图能够以很高的概率在 匿名网络中被识别,则 就会以很高的概率被定位。作者的 目标是构造一个图G ,G 中至少包含K一1个子图与 同构 (XcG)。 ,在 中至少有 一1个其他节点与“有相同的度。Liu等 人 研究了如何对图的结构进行一系列的边删除或添加操作 来构造一个满足k-degree anonymity的图,同时要求对边的修 改尽量少以保持图的有用性。k-degree anonymity的优点是能 够阻止攻击者利用特定用户的社会关系数量这一先验知识来 对个体进行定位。Liu等人 所提出的算法如下: a)从原始图G。=( ,E )的度序列d 开始,构造一个满 足k-anonymity的度序列d 及一个距离 ,要求d6与d。的距 离,即l一范数最小化。 b)构造一个新的G :( , ),满足G 的度序列等于d , = ,并且E nE6=Eo或 n 一 。 第a)步可以用具有线性时间的动态规划算法来解决,第 b)步可以通过基于已知度序列而进行的一系列图构造算法来 实现。实验结果显示他们所提出的算法能够有效地保持图形 结构的有用性并满足k-degree anonymity。 在一些关于图形理论的文献[33,34]中,对实现具有约束 的度序列的图形构造问题进行了广泛研究。 4)k-neighborhood anonymity 若节点U被称之为k.n,eighborhood anonymity,当且仅当至 少存在k一1个其他节点 .-, 一 ∈V,这些节点通过直接邻 居所构造的子图与 的直接邻居子图是同构的。而图G被称 之为k-neighborhood anonymity,当且仅当图中所有的节点都满 足k-neighborhood anonymity条件。该定义可以把目标顶点 的直接邻居扩展到 的d步邻居,即d-neighbors,其中d>1。 即给定一个图G=( , ),构造一个新图G =( ,E )满足如 下性质:(a)Gf满足 一neighborhood anonymity;(b)V= ;(C) E n =层;(d)G 应尽可能满足聚合网络查询。构造满足前三 个条件的k-neighborhood anonymity图形被证明是NP难问题 Zhou等人 针对攻击者具有与目标节点直接邻接的子图 结构的背景知识,提出了一种贪婪修改算法来通用化节点标签 及对边进行插入操作,该算法直到目标节点至少与其他一 一1 个节点的邻居结构不可区分为止。所提出的算法主要有两个 步骤:(a)用邻接成员编码技术提取和表示网络中所有节点的 邻居;(b)划分各节点进入相应的群,然后对相同群中的各节 点进行匿名操作,直到所有节点都满足k-neighborhood anonv— mity为止。该启发式算法从具有较高节点度值的节点开始,原 因是高度值节点更易受到结构攻击 该算法非常有利于比较 不同节点问邻居结构的差异性,且可以进行结构间的同构测 试。作者利用聚合网络查询的反馈结果来度量匿名社交网络 数据的有用性。 由于采用k-anonymity模型对原始图施加最小结构改变来 进行隐私保护是一个NP难问题,对社交网络进行匿名时需要 ・1294・ 计算机应用研究 第32卷 在网络结构和数据隐私之间找到平衡点。 2.3基于随机化的隐私保护技术 除了k-anonymity方法,随机化是另一种被广泛采纳的隐 私保护策略。添加噪声的随机化方法已经被很好地应用于针 为了保持图的有用性,数据拥有者希望所发布的图形中一 些特别的特性保持在一个精确的范围内。Ying等人心 假设所 有满足度序列d和特征约束s的图形构成了一个图形空间 G 。从原始图开始,一系列的转换形成一个基于图形空间 的Markov链,Ying等人所提出的算法能够以相等概率产生在 G女中的任何图。Hanhijarvi等人 也提出了一种以非常高的 对数值型数据的隐私保护数据挖掘中。对于社交网络而言,以 下两种基于边随机化策略被普遍采用。 a)Rand add/del。随机删除Jj}条真实存在的边,随机添加 .j}条虚假的边,经修改后边的总数与原始图保持一致。 b)Rand s ̄tch。随机转换一对现存的边(t,w)和(u, ) 概率产生一个与原始图在图特性上非常接近的图生成算法。 通常增加特征约束条件将会减小图空间的大小,随之也会增加 隐私破坏的危险。Ying等人研究了如何利用所发布的图及特 征约束来破坏链接隐私,攻击者利用图形空间G 来计算某种 (要求边(t, )和(“,W)在图c中不存在)变为(t, )和( ,W), 重复 次类似过程。随机化的过程与随机化参数 随着发布 链接存在的后验概率,比如,若在图形空间 中的大部分图都 的图形也被发布。该策略最大的优点是可保持每一个节点的 度。边随机化过程可看做是一种添加噪声形成扰动的过程,经 过施加随机化操作,随机化图与原始图是不同的,于是节点实 体及节点间的敏感隐私关系将被保护。 “u等人 提出了两种针对具有边权重的敏感边隐私保 护技术:高斯随机化方案和贪婪扰动方案。这两种方案对于实 际网络而言其计算复杂性太高,并且没有考虑到具有边权重网 络的动态性本质这一问题。 随机化方法能有效对抗基于概率的解匿名攻击,但不能保 证随机化图直接满足k-naonymity条件。随机化方法的一个重 要优点是施加随机化操作的图可以很好地重构图特性,但重构 图形特征的方法会根据不同的随机化过程而不同,Liu和Hay 等人 在其研究文献中有详细的论述。目前的边随机化技 术的主要缺点是有可能会改变图形中的某些具体特性,如最短 距离、节点可达性等。 2.4具有图谱特征保持的隐私保护技术 边随机化方法显著影响所发布的随机化图的可用性。为 保持其可用性,原始图的一些聚合特性应基本保持不变,或者 一些重要的图特性能够被从随机图中重构。然而,正如Ying 等人 的研究结果显示,由于随机化操作而使图的许多结构 特征被破坏,所以特征保留策略或者通用化策略的复杂性比随 机化策略更高。 图的谱矩阵与图的一些重要拓扑特征有紧密关系,如图的 直径、聚类系数、路径长度以及图的随机性等 。Ying等人提 出的一种能够保持图谱特征的随机化策略,其主要目标是在随 机化过程中保持图的两种重要特征值:邻接矩阵的最大特征值 和Laplacian矩阵的第二小特征值。作者的研究显示:纯粹的 随机化技术倾向于把特征值向一个方向移动,并且随机化后的 特征值与原始图明显不同。针对该问题,作者提出了两种分别 叫做Spctr add/del与Spctr switch的算法,算法目标是希望在 随机化过程中,新图与原始图的特征值差异性不可过大。经实 验评估显示,即使施加随机化程度非常高的操作,新图的许多 拓扑特性与原始图都非常接近。一些文献[25,37]中也分别 提出了几种随机转换技术,这些技术也能够保持实际社交网络 中的度序列及其他重要特性。 2.5基于Ma ̄ov链的特征保持隐私保护技术 图的度序列和拓扑特性是研究人员考察社交网络特性的 重要研究内容,所以,如果匿名图能够保持原始图的度序列和 某种(些)拓扑特征,则说明所采用的隐私保护方案能很好地 保持图的有用性,这对研究工作是非常有利的。 具有链接(a,b),则原始图也有很大的可能性具有链接(a,b), 因此攻击者关于链接(a,6)的后验概率可以通过下式计算: 1 P[G(Ⅱ,6)=1IG女]= G (。,6) (2) 0trds 0 6t t-dz 当已知度序列d和特征约束S,攻击者从发布图的Markov 链开始,产生.7、,个样本 ∈G (t:1,2,…,Ⅳ),其满足基于图 1 N 形空间 的均匀分布,用公式专∑GtV t 1 (o,b)来估计P[G(o,b)= 1 J ]的值。攻击者把具有最高后验置信度的链接看做是候 选链接。该攻击模型能够工作的原因在于Markov链的收敛并 不依赖于初始点。经实验结果显示,一些特征约束能够显著提 高与扩大攻击者的攻击精度和范围。 2.6基于聚类的隐私保护技术 为了进行隐私保护,既可使用k-anonymity,又可使用添加 边和删除边的随机化方法来修改图结构,然后对匿名图进行发 布。不同于以上两种方法,聚类技术是把一些特定节点与边归 于相应的集合,这些集合分别称之为超点和超边,个体的细节 将被隐藏在相应的集合中,这类聚类方法已被很好地应用于隐 私保护数据库数据中。对于社交网络,经聚类隐私保护后仍可 利用聚类后的图形特征来考察原始图的宏观特性。 1)顶点聚类隐私保护方法 Hay等人 考察了一种节点和边都无标签的图模型,并针 对该模型提出一种利用图的结构信息,如目标顶点的完全或部 分邻居结构,及与hub节点的连接性等作为背景知识的节点解 匿名技术。攻击者对图施加诸如节点细化查询、子图查询和 hub指纹查询等解匿名攻击,Hay等人针对以上攻击提出了一 种顶点聚类匿名技术。该技术利用图形结构的相似性原理,通 过对顶点及其结构施加变换而使顶点间的结构具有很高的相 似性,这样可把顶点间的结构差异性隐藏在等价类中,而社交 网络研究者仍可以对经过匿名操作后所发布的社交网络图进 行宏观分析。  ‘Thompson等人 提出了两种新颖的针对元向图的节点 聚类算法来对目标节点进行隐私保护:有界T一均值聚类算法 和集合分割聚类算法。算法按照网络中节点相似性原则对节 点进行聚类,并利用Netflix奖金数据集来验证其算法的有效 性。所提算法不但可以应用于社交网络,亦可应用到普通的数 据聚类中。 2)边聚类隐私保护方法 Zheleva等人 研究了具有多类型边、单一类型顶点的社 交网络匿名问题。在所提出的模型中,假定在众多类型的边 中,某些边的类型是敏感的,需要被保护,而隐私破坏的程度与 第5期 马 飞,等:社交网络隐私保护技术最新研究进展 。1295・ 被解匿名的敏感边的条数成正比。作者利用非敏感边对敏感 边的存在性提供预测信息这一条件用Noisy—or模型 副来对敏 感边进行预测。该模型中,假定每条非敏感边e 都有一个噪 声参数A ,每条 对敏感边的存在产生的影响互相。A。 被称为泄露参数,它主要是度量其他隐含因素对敏感边存在的 概率影响。根据Noisy or模型,敏感边存在概率用下式计算: P(e =1)=P(e;=1fe 一,e )=1一 (1一A^) (3) 定义为第一种类型节点,所有从属组织定义为第二种类型的节 点,用户与从属组织之间的关系看做是隐私。他们提出二类通 用化技术来保护链接隐私。第一种技术称之为uniform list,该 技术与Corr ̄ode等人采用的匿名方法( ,z)一groupings 很相 似,他们通过创造“安全群”来抵抗一些常见的攻击,并且这些 “群”或“列”能够很好地保持原始图的基本特性。第二种技术 称为partitioning approach,作者采用能否对匿名图进行精确的 针对敏感边进行预测的攻击,作者提出了节点合并及边删 结构与特征分析作为有用性的度量标准。 Yuan等人 副首次提出了社交网络中部分节点敏感信息 除方案来进行应对,其中对边采用两种删除策略:a)仅移除敏 感边,而保留所有的非敏感边;b)移除部分非敏感边,移除的 原则是当非敏感边有助于让攻击者利用其对敏感边的存在性 进行有效预测时,这类非敏感边要首先被删除。为了模型化图 形数据的有用性,对必须要删除的边进行计数,删除得越少,数 据的有用性越高。类似Noisy—or模型的概率预测方法还有 Bayesian网络及Markov网络等。 3)顶点和边聚类隐私保护方法 Campan等人 把社交网络模型化为无向图,图中的每个 节点具有若干属性标签,边上无标签。不同的属性被分为三 类:a)ID属性,这类能唯一定位目标节点的属性应在社交网络 发布之前被移除;b)QI属性,攻击者可以把该属性与背景知识 结合起来对目标节点进行解匿名;C)敏感属性,被定义为隐私 信息。Campan他们也是把数据库隐私保护方法中较成熟的k— anonymity模型应用到社交网络的隐私保护中,在网络中,具有 相同特性的顶点的个数必须大于等于 ;要求匿名方法对网络 中顶点的属性及结构改变尽可能地小。匿名顶点属性采用k— anonymity的通用化方法,而边匿名方法则采用边通用化方法, 该方法类似于Zheleva等人 所采用的方法。两者的显著不 同在于,Campan等人-3 的方法既考虑了通用化过程中的信息 损失,也考虑了结构损失,与Zheleva等人所采用的方法类似, 他们在匿名过程中对顶点进行聚类划分,而为了匿名边,在相 同聚类中的顶点被聚集为一个超点,敏感的顶点属性与边都被 隐藏在超点中。对于图的可用性而言,Campan等人主要考察 通用化过程引起的结构改变对信息造成的损失。 4)顶点属性映射聚类隐私保护方法 设G=(V, ,E)为二分图,l f与f l为两个不同类型的 顶点集,仅有不同类型节点之间才存在关联。在一些应用中, 实体及实体间的关系可被模型化为二分图,如Ne ̄ix奖金数 据集 加 就可被看做为巨大而松散的二分图 ,而二分图中的 边通常被看做隐私。 Cormode等人 着重对二分图的匿名进行了研究,他们把 一种特别类型的网络数据模型化成为一个二分图。两类实体, 不同类型节点之间才存在关联性且被看做是隐私,且必须被保 护,而实体中的一些特性可被公开。Cormode等人采用的匿名 方法能够通过屏蔽从实体到节点的映射而精确地保持图形结 构,而无须屏蔽或者改变图形结构本身。实验结果显示,对匿 名后的图进行基于图形结构的研究分析都是正确的。 5)其他重要的解匿名及隐私保护技术 Korolova等人 借鉴数据库隐私保护中的(8, 一differen. tial模型来对社交网络进行隐私保护。Bhagat等人 考察了针 对社交与从属关系网络这类复杂交互图的敏感链接关系揭露 问题。他们把社交与从属关系网络看做是二分图,所有的用户 允许被发布,部分节点的隐私信息不允许发布的子集匿名概 念,并具体研究了针对有标签网络及二分图进行如何添加最少 的边使其满足 标签序列子集匿名及 节点序列子集匿名的 问题。Fard等人 重点考察了针对有向图的链接隐私揭露问 题,提出一种称为邻居随机化的结构感知随机化模型,经理论 与实验证明,所提算法在隐私保护敏感边的同时能够很好地保 持图的有用性。Wang等人 提出了一种称为1 一邻居攻击 的针对经 -匿名隐私保护的社交网络攻击方案。方案假定攻 击者知道目标个体一跳范围内的所有邻居的节点度值以及“1一 邻居:’图的结构。利用这两个背景知识,攻击者能以超过1/k 的概率来识别经 匿名保护的目标个体。为了抵抗该攻击,作 者针对外源性的社交网络定义了一个称之为无区别概率的关 键隐私属性,并且提出一种启发式的无辨别群匿名方案(HI— GA)来产生出满足关键隐私属性的社交网络。实验结果显示, 经匿名的社交网络仍可以比较高的概率满足聚合查询的要求。 该文献将隐私保护、社交网络及云架构结合起来进行综合 研究。 3未来发展方向与面临问题 当前尽管提出了诸如基于k-anonymity、Markov链、聚类等 思想的社交网络隐私保护技术,但并没有深入探讨与分析这些 技术应用的基本条件是什么,也没有深入细化和量化施加这些 技术后对社交网络造成的信息损失,所以,对这部分内容需要 进行深入研究与分析。需要设计新的实体匿名模型,因为现有 的技术主要是基于 一匿名及其变体。需要设计有效的针对敏 感链接关系隐私保护的图修饰算法,现在的随机化修饰算法由 于对图形结构的改变较大而不能很好地保持图的有用性。 对匿名社交网络进行解匿名技术研究目前主要集中在如 何用最少的辅助信息来进行最大化解匿名,甚至只用已发布匿 名社交网络的部分图形结构信息未完成解匿名操作,而这将重 点涉及到图形结构的匹配问题,该问题已被证明是NP难的。 目前常见的利用图形结构进行解匿名的算法通常都需从事先 插入社交网络中的种子节点出发来进行结构匹配,当社交网络 规模庞大,其对应的图形结构亦很复杂,用这种方法在进行近 似图形匹配将很难在有效时间完成。所以,如何设计面向大模 型复杂网络的隐私保护模型及解匿名技术是当前社交网络隐 私保护领域面临的一个重要难题。 与利用图形匹配来进行解匿名算法设计相反,研究者利用 扰动来改变图形结构以降低或阻止图匹配解匿名的可能性,并 且希望保持图形结构宏观特性以便社交网络研究人员对其进 行挖掘与分析。在文献[45—48]中虽然已利用差分隐私技术 对这方面问题进行了一定应用研究,但仍处于不成熟阶段,有 ・1296・ 计算机应用研究 第32卷 必要对其进行深入分析。 现有的许多隐私保护及解匿名技术应用于小规模社交网 络时比较有效,但当社交网络随时间不断演化,其规模变得非 常庞大时,原有技术将因算法复杂度过高而不能很好地工作。 所以,如何对现有隐私保护与解匿名技术进行优化来应对社交 网络规模不断扩大的问题也是需要进一步研究的课题。 目前的隐私保护技术主要是针对无向图,在特定情况下, 社交网络中也需要研究实体节点关系的方向性问题。所以。需 要针对有向图的链接隐私保护技术进行研究,而这一部分的研 racy preserving network publication[C]//Proc of the 35th Intema— tional Conference on Very Large Data Base. 2009:946—957. [8]YING Xiao—wei,wu Xin—tao.On link privacy in randomizing social networks[c]//Advances in Knowledge Discovery and Data Mining. Berlin:Springer,2009:28-39. [9]BHAGAT S,CORMODE G,KRISHNAMURTHY B,et a1.Class— based graph anonymization for socila network data[J].Proceedings of the VLDB Endowment,2009,2(1):766—777. [10]CAMPAN A,TRUTA T M.A clustering approach for data and struc. tural anonymity in socila networks[c]//Proc ofPrivacy,Security,and Trust in KDD Workshop.Berlin:Springer,2008:56—70. 究工作开展得较少。 目前在设计隐私保护技术时主要是针对特定的攻击背景 知识,而随着攻击者具备的背景知识越来越丰富,如何设计综 [1 1]CORMODE G,SRIVASTAVA D,Yu Ting,et a1.Anonymizing bi— partite graph data using safe rgoupings[J].VLDB Journal,2010,19 (1):115—139. 合的、有效的、可扩展的隐私保护技术来保护实体、链接和属性 隐私等敏感信息将面临越来越大的挑战。现有的研究主要是 针对静态社交网络,较少考虑社交网络的动态性,而许多关于 演化动态社交网络的应用需要周期性地发布来支持对其进行 动态分析。当攻击者收集多次发布的静态社交网络的周期性 信息以作为背景知识去攻击匿名社交网络时,针对单次发布的 社交网络隐私保护技术已不能给其带来足够保护,所以必须针 对动态社交网络提出更加有效的隐私保护方案。 [12]ZHELEVA E,GETOOR L.Preserving the privacy of sensitive rela- tionships in graph data[C]//Proc of Privacy,Security,and Trust in KDD Workshop.Berlin:Springer,2008:153-171. [13]LIU Kun,DAS K,GRANDISON T,et a1.Privacy—preserving data analysis on graphs and socila networks[J].Next Generation Data Mining,2013,1(1):79-92. [14]NARAYANAN A,SHMATIKOV V.De—nonymiazing social networks [C]//Proc of the 30th IEEE Symposium on Secuirty and Privacy. 2009:173—187. 针对分布式数据库的隐私保护已被广泛地研究,随着智能 手机、平板电脑的不断普及以及云计算技术的不断发展,越来 [15]WONDRACEK G,HOLZ T,KIRDA E,et a1.A practical attack to de—nonymiaze social n ̄work user8【C ̄//Proc《IEEE Symposium on Security&Privacy.2012:69。80. 越多的用户使用移动设备来访问社交网络和使用云环境,而目 前针对分布式社交网络及移动社交网络的隐私保护研究还相 对比较少,这也将成为以后的研究热点。 [16]CORDELLA L P,FOGGIA P,SANSONE C,et a1.A(sub)graph isomorphism lagoirthm for matching large rgaphs[J].IEEE Trans on Pattern Analysis and Machine Intelligence,2004,26(10):1367— 1372. 4结束语 本文从攻击者的背景知识模型化、敏感数据信息定义、信 息的有用性三方面对当前基于k-anonymity、聚类、随机化、 [17]ULLMANN J R.An algorithm orf subgraph isomorphism[J].Journal of the ACM,1976,23(1):31—42. Markov链等技术的重要的社交网络隐私保护方案进行了详尽 的阐述、比较与分析。最后对社交网络隐私保护技术的未来发 展方向及所面I临的挑战进行了展望和讨论。 参考文献: [1]ZHOU Bin,PEI Jian,LUK W S.A brief survey on anonymization techniques for privacy preserving publishing of social network data [18]TIAN Yuan-yuan,PATEL J M.TALE:a tool for approximate large rgaph matching[C]//Proc of the 24th IEEE Intenartional Cofnerence on Data Engineering.2008:963-972. [19]THOMPSON B,YAO Dan—feng.The union・split lagorithm and clus- ter-based anonymization of social networks[C]//Proc of the 4th In— ternational Symposium on Ifornmation,Computer,and Communica- tions Security.New York:ACM Press,2013:218—227. [J].SIGKDD Explorations,2008,lo(2):12—22. [20]GORI M,MAGGINI M,SARTI L.Exact and approximate graph matching using random walks[J].IEEE Trans on Pa№m Analysis and Machine Intelligence,2005,27(7):1100—1111. [2]LIU Kun,TERZI E.Towards identity anonymization on graphs[C] //Proc of ACM SIGMOD International Conference on Management of Data.New York:ACM Press,2008:93—106. [21]LUO Bin,HANCOCK E R.Structurla graph matching using the EM 【3]HAY M,MIKLAU G,JENSEN D,醣a1.Resisting strnctural re—iden— lagorithm and singular vlaue decomposition[J].IEEE Trans on Pat- tern Analysis and Machine Intelligence,2001,23(10):1 120— 1136. tiifeation in anonymized social networks[J].VLDB Journal,2010,19 (6):797-823. [4]HAY M,MIKLAU G,JENSEN D, a1.Anonymizing social net- [22]MYERS R,WILSON R C,HANCOCK E R.Bayesina graph edit dis- tnce[J].IaEEE Trans on Pattern Analysis and Machine Intelli。 gence,2000,22(6):628・635. works,TR07-19[R].Boston:University ofMassacifusetts,2010. [5]ZHOU Bin,PE[Jin.Preseraving privacy in socil netaworks against neighborhood attacks[C]//Prc oof the 24th IEEE International Con- ference on Data Engineering.2008:506—515. [23]COSTA L da F,RODRIGUES F A,TRAVIESO G,et a1.Chraacte— rization of complex networks:a survey of measurements[J].Ad- vances in Physics,2007,56(1):167—242. [6]BACKSTROM L,DWORK C,KLEINBERG J.Wherefore art thou R3479x?:anonymized socil netaworks,hidden patterns,and structu— [24]YING Xiao-wei,wu Xin—tao.Randomizing socila networks:a spec— trum preserving approach[C]//Proc ofthe 1lth SIAM Conference on Data Mining.2008:739—750. ral stefanography[C]//Proc of the 16th International Conference on World Wide Web Conference.New York:ACM Press,2007:181—190. [7]ZOU Lei,CHEN Lei.K-automorphism:a generla framework for pri— [25]YING Xiao-wei,wu Xin—tao.Graph generation with prescirbed fea— 第5期 马飞,等:社交网络隐私保护技术最新研究进展 ・1297・ ture constraints[C J//Proc of the 9th SIAM Conference on Data Mi ence on Data Mining.2009:780。791. ning.2009:966—977. [38] PEARL J.Probabilistic reasoning in intelligent systems:networks of [26]SEARY A,RICHARDS W.Spectral methods for analyzing nad visua— plausible inference[M].San Frnacisco:Morgan Kaufmann,1988. lizing networks:an introduction[J].Dynamic Social Network [39] CAMPAN A,TRUTA T M.A clustering approach for data nad strut- Modeling and Analysis,2003,3(4):209—228. turla naonymity in social networks[C]//Proc of the 2nd ACM SIGK— [27]NERGIZ M E,CLIFTON C.Thoughts on k-anonymization[J].Data& DD International Workshop on Privacy,Security,and Trust in KDD. Knowledge Engineering,2007,63(3):622—645. New Y0rk:ACM Press。2010:110—123. [28]NERGIZ M E,CLITFON C,NERGIZ A E.Muhirelational k-ano- [40] Netlfix prize[EB/OL].http://www.netlfixprize.corn. nymity[J].IEEE Trans on Knowledge and Data Engineering, [41] KOROLOVA A,KENTHAPADI K,MISHRA N,et a1.Releasing 2012,24(8):1104-1117. search queries and clicks privately[C]//Prco of hte 18th Intenratio- [29]SWEENEY L.k-anonymity:a model for protecting privacy[J].Inter- nal Conference on World de Web.New Y0rk:ACM Press.2009: national Journal on Uncertainty,Fuzziness and Knowledge— 171—180. based Systems,2002,10(5):557-570. [42] YUAN Ming-xuan,CHEN Lei,YU P S.Personalized privacy protec— [30]MACHANAVAJJHALA A,GEHRKE J,KIFER D.1-diversity:pri・ tion in socila networks[J].Proceedings of the VLDB Endow— vacy beyond k-anonymity[J].ACM Trans off Knowledge Disco- ment,2010,4(2):141-150. very fr0m Data,2007,1(1):24-35. [43]FARD A M,WANG Ke.Neig}lborhood randomization ofr link privacy [3 1]LI Ning—hui,LI Tian—zheng.VENKATASUBRAMANIAN S.Close— ness:a new privacy measul ̄for data publishing[J].IEEE Trans off in socila network analysis[J].World Wide Web Journal,2013,24 (7):134.145. Knowledge&Data Engineering,2010,22(7):943・956. [44】WANG Guo-jun,LIU Qin,LI Feng,et a1.Outsourcing privacy—pre— [32]LI Ning—hui,LI Tiara-eheng.t-closeness:privacy beyond k-anonymity and/-diversity[C]//Proc ofICDE.2007:106・115. serving socila networks to a cloud[C]//Prco of IEEE INFOCOM. [33]DIESTEL R.Graph theory[M].4th ed.Heidelberg:Springer—Velfag, 2013:2886—2894. 2010. [45]DWORK C.Diferentila pirvacy[C]//Proc of the 33rd International [34]GROSS J,YELLEN J.Graph theory and its applications[M】.2nd Colloquium on Automata,Languages and Programming.2006:1—12. ed.『S.I.]:CRC Press,2005. [46]DWORK C.Differentila privacy:a survey of results[C]//Proc of the [35]LIU Lian,WANG Jie,LIU Jin—ze,et a1.Privacy preserving in socila 5th International Conference on Theory and Applications of Models of networks against sensitive edge disclosure,CMIDA—HiPSCCS 006—08 Computation.Berlin:Springer,2010:1—19. [R].Kentucky:University of Kentucky,2008. [47]HAY M,LI Chao,MIKLAU G,et a1.Accurate estimation ofthe de— [36 J CARMINATI B,FERRARI E,PEREGO A.Private relationships in gree distribution of private networks[C]//Proc of the 9th IEEE Inter- social networks[C]//Proc of the 23rd IEEE International Conference national Conference on Data Mining.2009:169—178. on Data Engineering.2007:163-171. [48]MIR D J,WRIGHT R N.A diferentilaly private graph estimator [37]HANHHARVI S,GARRIGA G C,PUOLAM. ̄KI K.Randomization [C]//Pree of the 9th IEEE Intenrational Conference on Data Mining. techniques for graphs[C]//Proc of the SIAM International Confer- 2009:122—129. (上接第1290页) [23]PICARD R R,COOK R D.Cross-validation of regression models [15]MARKATOU M,TIAN Hong,BISWAS S,et a1.Analysis of variance [J].Journal of the American Statistical Associaiton,1984,79 of cross.validation estimators of the generalization error『J].Journal (387):575—583. 0f Machine Learning Research,2005,6:1127-l168. [24]BREIMAN L,SPECTOR P.Submodel selection and evaluation in re— [16]YILDIZ 0 T.Omnivariate rule induction using a novel pairwise statis- gression:the X.random case[J].International Statistical Review, tieal test[J].IEEE Trans on Knowledge and Data Engineering, 1992,60(3):291-319. 2013,25(9):2105-2118. [25]BURMAN P.A comparative study of ordinary cross—vlaidation.v-fold [17]FU Wen-jinag,CARROLL R J,WANG Suo-jin.Estimating misclas— CroSS—validation and the repeated learning—testing methods[J].Biome- sifieation error with small samples via bootstrap CROSS-validation[J]. tnka,1989,76(3):503—514. Bioinformatics,2005,21(9):1979-1986. [18]LARSON S C.TIle shrinkage of the coefficient of multiple correlation [26]CRAVEN P,WAHBA G.Smoothing noisy data with spline functions: Estimating the correct degree of smoothing by the method of genera— [J].Journal Educational Psychology,1931,22(1):45—55. [19]DEVROYE L,WAGNER T J.Distirbution-free performance bounds lized cross-validation[J].Numerische Mathematik,1979,31(4): 377.403. for potentila function rules[J].IEEE Trans in Information Theory, 1979,25(5):6Ol一604. [27]MOLINARO A M,SIMON R。PFEIFFER R M.Prediction elTor esti— [20]GEISSER S.The predictive sample reuse method wiht applications mation:a comparison of resampling methods[J].Bioinformatics, [J].Journal of the American Statistical Association,1975,70 2005,21(15):3301—3307. (35):320—328. [28]胡军艳.基于生物信息数据的几种交叉验证方法比较[D].太原: [21]SHAO Jun.Linear model selection by CorSS-vlaidation[J].Journal of 山西大学,2013. the American Statistical Association,1993,88(422):486-494. [29]BREIMAN L,FRIEDMAN J H,STONE C J,et oi.Classiifcation and [22]ZHANG Ping.Model selection via muhifold cross validation[J].An- regression trees[M]//Wadsworth Advanced Books and Sofwtare.『S. nals of Statistics,1993,21(1):299—313. 1.]:Chapman&Hall/CRC.1984. 

因篇幅问题不能全部显示,请点此查看更多更全内容

Copyright © 2019- 91gzw.com 版权所有 湘ICP备2023023988号-2

违法及侵权请联系:TEL:199 18 7713 E-MAIL:2724546146@qq.com

本站由北京市万商天勤律师事务所王兴未律师提供法律服务