数据分析与知识发现 2018 , 2 (2): 58-63 https://doi.org/10.11925/infotech.2096-3467.2017.0809

研究论文

基于互联网大数据的脱敏分析技术研究

周倩伊, 王亚民, 王闯

西安电子科技大学经济与管理学院西安 710126

Data Masking Analysis Based on Internet Big Data

Zhou Qianyi, Wang Yamin, Wang Chuang

School of Economics and Management, Xidian University, Xi’an 710126, China

中图分类号: TP391 G35

通讯作者: 通讯作者:周倩伊, ORCID: 0000-0001-8465-6223, E-mail: 18309202290@163.com。

收稿日期: 2017-08-15

修回日期: 2017-10-6

网络出版日期: 2018-02-25

展开

摘要

【目的】基于现有的脱敏技术, 改进匿名组的划分效果, 得到较优的脱敏模型及算法。【方法】基于k-匿名技术, 改进维度划分标准, 以KD树作为存储结构, 构造新算法。利用Python实现程序, 比较所产生的匿名组数量、NCP百分比, 验证算法的可行性与有效性。【结果】新算法能够使得脱敏后整个数据集所生成的匿名组个数达到最大。且NCP百分比低于同类算法。【局限】对于有某一属性离散程度显著的数据集, 循环计算划分维度较为繁琐。【结论】新算法相比于传统算法增加了匿名组个数, 相比于同类算法, 信息损失较低。

关键词： 数据脱敏 ; k-匿名模型 ; 取整划分

Abstract

[Objective] This paper aims to improve the classification results of anonymous groups and then obtain better data masking model and algorithm. [Methods] First, we modified the dimension judgment standards based on k-anonymity. Then, we used the KD tree as storage structure to construct a new algorithm. Third, we implemented the proposed algorithm with Python. Finally, we examined the feasibility and effectiveness of the new algorithm with the number of anonymous groups and the percentage of NCP. [Results] The new algorithm could maximize the number of anonymous groups generated by the whole dataset, while the percentage of NCP was lower than similar algorithms. [Limitations] For datasets with significant degree of dispersion, the dimension of the loop computation was cumbersome. [Conclusions] The proposed algorithm could improve the availability of the anonymous groups and reduce the data loss.

Keywords： Data Masking ; k-anonymity ; Integer Division

PDF (546KB) 元数据多维度评价相关文章收藏文章

本文引用格式导出 EndNote Ris Bibtex

周倩伊, 王亚民, 王闯. 基于互联网大数据的脱敏分析技术研究[J]. 数据分析与知识发现, 2018, 2(2): 58-63 https://doi.org/10.11925/infotech.2096-3467.2017.0809

Zhou Qianyi, Wang Yamin, Wang Chuang. Data Masking Analysis Based on Internet Big Data[J]. Data Analysis and Knowledge Discovery, 2018, 2(2): 58-63 https://doi.org/10.11925/infotech.2096-3467.2017.0809

1 引言

近年来, 随着信息技术的发展, 数据中蕴藏的巨大商业价值逐步被挖掘, 但同时也为敏感数据的安全问题带来巨大的挑战。数据脱敏又称数据去隐私化或数据变形, 是在给定的规则、策略下对敏感数据进行变换、修改的技术机制, 在很大程度上能够解决敏感数据在非可信环境中的安全问题。在信息技术层面, 数据脱敏的核心是寻找合适的模型和算法, 在保护隐私信息和保证数据可用性之间寻找一种平衡。

现阶段对数据脱敏技术的研究, 主要包括基于自适应算法的隐私保护方法^[1]、基于分布式挖掘算法的隐私保护方法^[2]和基于k-匿名算法的隐私保护方法。其中, 最常用的是基于k-匿名的隐私保护方法。如MDAV基于多敏感属性的算法^[3]、FVS k-匿名^[4]、(k,$\delta $,l)-匿名^[5]等算法均是以k-匿名为基础的隐私保护模型。在k-匿名模型中, 基于分治策略的概化技术实现较为简单且能够保证数据可用性^[6], 但其中关于数据划分策略部分还有待研究。为进一步优化划分效果, 本文结合前人思想, 提出了一种改进算法。

针对数据隐私保护问题, 本文从数据的内容和管理两个层面入手, 给出数据脱敏的总体架构; 基于数据k-匿名化技术, 给出以Adult数据集为例的匿名模型; 结合数据离散程度、取整划分、KD树等思想, 在前人算法上进行改进和验证, 得到改进后的脱敏算法。

2 研究方法与研究基础

首先比较现有的主要数据脱敏技术, 选取其中应用较为广泛的数据匿名技术进行深入研究。k-匿名模型及取整划分思想是本文的研究基础。

2.1 k-匿名及取整划分思想

在匿名模型中, 数据表中的属性被分成显示标识符(ID)、准标识符(QI)、敏感属性(SA)、非敏感属性(NSA)^[7]。k-匿名模型数据表中所有准标识符对应的记录相同的个数至少是k个, 保证发布表中的任意记录与其他k-1条记录不可区分, 从而使身份确实的概率不超过1/k。一种有效的方法是“基于分治策略的概化技术”^[6], 而此方法的关键是找到合适的划分策略。

2012年, 吴英杰等针对划分上界, 提出用取整划分代替原有均衡二划分的方法, 并给出取整函数, 如公式(1)所示^[7]。

$\left\{ \begin{align} & {{X}_{1}}:\ \left| {{X}_{1}} \right|=\left\lfloor \frac{d}{2} \right\rfloor k+\left\lfloor \frac{r}{2} \right\rfloor \\ & {{X}_{2}}:\ \left| {{X}_{2}} \right|=\left\lceil \frac{d}{2} \right\rceil k+\left\lceil \frac{r}{2} \right\rceil \\ \end{align} \right.$ (1)

其中, X为划分后所生成的匿名组个数, ${{X}_{1}}$和${{X}_{2}}$表示每次划分后所生成的两个区域; k为k-划分中所给定的参数值; 若用total表示数据集总量, 则$d=\frac{total}{k}$, r = total % k。在${{X}_{1}}$中, 对出现的小数取底; 在${{X}_{2}}$中, 对出现的小数取顶。在给定数据集后, 通过计算total值, 将其作为参数值输入到脱敏算法中, 定义d和r, 并将上述取整函数作为划分标准。该划分方式能够降低匿名组规模的最优上界, 使之在n足够大时趋近于k, 与同类算法相比能够使得生成匿名组数量最大, 从而提升数据可用性。

2.2 数据质量度量

通过匿名算法对原始数据匿名化处理之后, 通常要用数据质量评价函数来度量脱敏后的数据。本文选取匿名组个数、NCP百分比评价函数作为评价标准。

(1) 匿名组个数

对于满足k-匿名安全要求的匿名化数据而言, 匿名组规模越小、数量越多, 则匿名化后的数据愈接近源数据, 数据的信息损失便越小, 数据可用性也就越高。

(2) NCP百分比评价函数^[8]

NCP(标准化确定性惩罚)通过计算数据所受惩罚度量数据的质量。本文通过对NCP评价函数进行变形, 采用NCP百分比函数作为数据质量评价函数, 通过将NCP值与数据集中的值数GCP^[9]相除以计算NCP百分比。NCP百分比范围从0到1, 其中0表示没有数据丢失, 1表示丢失所有信息, 且该方法对数据集的大小敏感。计算公式如下:

per=NCP/GCP (2)

3 基于互联网大数据的脱敏模型及算法

3.1 逻辑架构

对于隐私数据的保护需要从管理和内容两个层面共同进行。基于管理层面的隐私数据保护主要由数据库管理系统(DBMS)实现, 包括对敏感数据的访问控制、异常检测以及安全审计等。基于数据内容层面的隐私数据保护主要由脱敏模型及算法实现, 其逻辑框架如表1所示。

表1 大数据脱敏整体逻辑架构

层面	内容		实现机制
数据管理层面	安全管理、访问控制、审计追溯		数据库管理系统DBMS
数据内容层面	应用层	脱敏数据的使用	数据分析、挖掘算法
	脱敏层	隐私数据脱敏层	隐私数据脱敏算法
	数据层	数据库、知识库、规则库	敏感数据分类分级
	资源层	计算资源、网络资源	脱敏数据集的来源

新窗口打开

其中, 资源层为数据脱敏服务提供基础性物理资源, 包括计算资源、网络资源和存储资源等; 数据层包括支持系统完成隐私数据脱敏的各类数据库、知识库, 针对不同敏感数据的脱敏规则库, 管理规则及规则集合的脱敏策略库等^[10]; 脱敏层主要是选择合适的脱敏模型及算法对隐私数据进行脱敏; 应用层主要涉及脱敏后待分析的隐私数据及敏感数据的应用, 通常为数据分析、数据挖掘等。

3.2 脱敏模型

以UCI数据集中Adult数据为例, 公开的属性有14个, 但原始数据集中包含的name、ID等作为显示标识符在公开之前已被删除。假设特定情境中, age、workclass、education_num、marital_status、occupation、race、sex、native_country这些属性作为实验中的QI, 属性relationship为敏感信息。得到该数据集的匿名模型, 如表2所示。

表2 Adult数据集的匿名模型

所属类别	对应属性
显示标识符	name、phone、ID、address等
准标识符	age、workclass、education_num、marital_status、 occupation、race、sex、native_country
敏感信息	relationship
非敏感信息	fnlwgt、education、capital-gain、capital-loss、 hours-per-week

新窗口打开

针对交易中所产生的数据, 基于匿名模型建立数据集模型(ID, QI, SA, NSA)。所谓隐私保护, 是指隐藏其中数据持有者的个人身份信息以及敏感属性信息。但是出于数据分析的需要, 通常需要保留数据表中的

敏感信息。通常情况下, 对ID进行删除或失真处理; 对QI中的属性进行脱敏处理; SA属性保留进行分析; NSA直接输出。以此实现数据的脱敏, 在满足数据可用性的同时实现隐私保护。

一般情况下, 在给定数据集以及准标识符的时候, 首先定义准标识符中的每个属性取值域上的顺序, 使之成为有序域。然后再将有序域映射到实数域中, 且必须是一一映射, 以实现多维空间矩形的构建^[6]。

3.3 基于KD树的取整划分k-匿名算法

(1) 符号说明

基于KD树的取整划分k-匿名算法, 考虑不同维度数据离散程度, 结合取整划分的思想, 在原有KD树生成算法上进行改进, 算法中的符号如表3所示。

表3 基于KD树的取整划分k-匿名算法符号表示

	域名	数据类型	描述
取整划分符号	T(d)	关系表	假设表T(d)有d个准标识符, 即d维空间。
	Q_i	属性值	准标识符中的第i个属性。
	P	点集	每个Q_i对应的实域序列$\left\{ q(i,1),q(i,2),\cdots ,q(i,{{t}_{i}}) \right\}$中的集合。
	Ω	点集	能够覆盖P的最小的多维矩形区域, 即KD树中的Range。
	q(i, j)	元素取值	对应Q_i的域中的第j个元素, 且$1\le i\le d,1\le j\le {{t}_{i}}=\left\| {{Q}_{i}} \right\|$。
	$\prod{_{i}(p)}$	属性值	一个点p在这个d维空间中的第i维上的投影。
构建KD树的符号	Node-data	数据矢量	某个属性的取值(划分标准), 或者某个点的取值。(叶子节点)
	Range	空间矢量	待划分的点的集合, 此上述的Ω相同。
	split	整数	代表维度的序号, 通常分割超面是垂直于坐标轴的。
	left	k-d树	每一次分割的左节点, 递归的实现KD树左侧的划分。
	right	k-d树	每一次分割的右节点, 递归的实现KD树右侧的划分。
	parent	k-d树	父节点

新窗口打开

(2) 划分维度选择

已有的基于取整划分函数的隐私保护算法中, 采用任意维度作为初始划分维度。本文对此进行改进, 通过计算数据的离散程度, 选取离散程度最大的属性作为划分标准, 给出基于NCP评价函数改进得到的dim函数以计算离散程度。公式如下:

dim=|(dim[high]-dim[low])|/dimRange

其中, dim[high]为该维度待划分记录中出现频次最高值, dim[low]为该维度待划分记录出现频次最小的值, dimRange为该维度待划分的值域范围。

(3) 算法流程

算法: 基于KD树的取整划分k-匿名算法。

输入: 表T(d), $\Omega $, P, k。

输出: 匿名数据集T。

令Range=$\Omega $, TMP=P, 通过$\left| P \right|=\alpha k+\beta $将P表示为k的线性函数, 其中$\beta $是比k小的非负数。

If矩形区域Range为空, 则返回空的k-d tree。

调用KD节点生成程序。

①确定split(划分维度的选取): 将数据集中每条记录表示成特征矢量。通过前文给出的dim=(dim[high]-dim[low])/ dimRange函数计算不同属性上的dim取值。dim值大表明沿该坐标轴方向上的数据离散程度大, 在这个方向上进行数据分割有较好的分辨率;

②确定Node-data: 将TMP中的点按步骤①中求出的维度上的取值进行排序。取正整数j, 使得$\left| {{\bigcup }_{p\in TMP\wedge \underset{i}{\mathop{\prod }}\,p\le q(i,j)}} \right|\ge \left\lceil \frac{\alpha }{2} \right\rceil k+\left\lceil \frac{\beta }{2} \right\rceil $, 并且$\left| {{\bigcup }_{p\in TMP\wedge \underset{i}{\mathop{\prod }}\,p\ge q(i,j)}} \right|\ge $ $\left\lfloor \frac{\alpha }{2} \right\rfloor k+\left\lfloor \frac{\beta }{2} \right\rfloor $, 从j处将Range划分为两个多维矩形区域^[9]。令Node-data=q(i, j)。此时TMP不变;

③将Range划分成为满足: $\left| dataleft \right|=\left\lceil \frac{\alpha }{2} \right\rceil k+\left\lceil \frac{\beta }{2} \right\rceil $, $\left| dataright \right|=\left\lfloor \frac{\alpha }{2} \right\rfloor k+\left\lfloor \frac{\beta }{2} \right\rfloor $的两个点集, 分别为dataleft 和dataright。其中:

dataleft = {d属于TMP &&在步骤①中所求维度上的取值小于等于步骤②中求出的划分节点}; left_Range = {Range && dataleft}; 修改左侧划分区域的数据集参数。

dataright = {d属于TMP &&在步骤①中所求维度上的取值大于等于步骤②中求出的划分节点; right_Range = {Range && dataright}; 修改右侧划分区域的数据集参数。

④如果$\left| dataleft \right|\ge 2k$, 则继续划分, 左侧递归参数为步骤③中(dataleft, left_Range), 并设置left的parent域为kd;

⑤如果$\left| dataright \right|\ge 2k$, 则继续划分, 右侧递归参数为步骤③中(dataright, right_Range), 并设置right的parent域为kd。

对KD树的叶子节点进行概化处理, 要求组内的每个元组准标识符QI的取值保持一致, 从而形成匿名组。遍历KD树的叶子节点中的匿名组得到匿名表; 除叶子节点以外的点都是分割超面, 与某个叶子节点直接相连的树节点就是此叶子节点的分割超面。

(4) 算法分析

“基于KD树的取整划分k-匿名算法”是结合数据离散程度、取整划分、KD树等思想, 对前人算法上进行的改进, 得到了改进后的脱敏算法。

新算法采用取整划分作为划分标准^[6], 与传统的k-匿名算法相比, 能够保证匿名组数量取得最大值。在此基础上, 给出选择划分维度的方法, 在取得最大匿名组数量的同时降低信息损失。从而得到改进后的新算法。相比于同类算法, 拥有隐私保护程度不变、匿名组数量最大、信息损失最低等特点。能够在不降低用户隐私保护程度的前提下, 提高数据可用性。

若令$n=|T(d)|$, 在寻找分割超面时, 对于某个临时矩形区域dataleft或dataright, 至多需要遍历该临时匿名组内的所有记录。因此, 其时间耗费为$O(n)$; 另外, 在k-匿名限制下, 表格T(d)至多能分成$\left[ \frac{n}{k} \right]$个多维矩形区域, 因此, 表格至多被划分$\left[ \frac{n}{k} \right]-1$次。因而, 对于固定的k, 划分部分的时间开销是$O\left( \frac{{{n}^{2}}}{k} \right)$。然而, 在分割过程中形成的待划分数据集规模往往远小于n。因此, 对时间复杂度的分析是相对松弛的。

当$\Omega $划分成众多最小的子矩形区域时, 需要遍历KD树的叶子节点, 将所划分的匿名组输出, 以形成完整的匿名表。如上所述若令$n=|T(d)|$, 则KD树最多被划分$\left[ \frac{n}{k} \right]-1$次, 即有这么多层, 共要遍历$\left[ \frac{n}{k} \right]$个节点, 故输出部分的时间复杂度是$O\left( \frac{{{n}^{2}}}{{{k}^{2}}} \right)$, 同理, 上述时间复杂度是松弛的。

4 实验结果

吴英杰等^[7]将基于取整划分函数的算法与常见的Mondrian算法、松弛Mondrian算法以及Bottom-Up算法进行比较, 可以看出, 基于取整划分的算法优于传统的隐私保护算法。在前人工作的基础上, 本文对比笔者提出的“基于KD树的取整划分k-匿名算法”与吴英杰等提出的“基于取整划分函数的k-匿名算法”^[7]。通过比较两种算法最终所产生的匿名组个数, 并利用“NCP百分比函数”作为数据质量评价函数, 以此说明本文算法的可用性及有效性。

实验所用数据来源于UCI数据集中Adult数据, 共计32 561条记录, 选取age、workclass、education_num、marital_status、occupation、race、sex、native_country这几个属性作为实验中的QI。图1给出了两种算法所产生匿名组数量的实验结果。Flexible-Partition为基于整数划分的k-匿名算法, Partition为改进后的算法。

显示原图| 下载原图ZIP| 生成PPT

图1 匿名组数量对比图

可以看出, 随着k的取值增大, Flexible-Partition算法和Partition算法所产生的匿名组数量趋于相当; 而在k的取值较小时, Partition算法能够比Flexible- Partition算法产生更多匿名组。说明两种算法的性能相近, 均优于传统算法。

如图2所示, 两种算法的NCP百分比有明显的区别。Flexible-Partition算法的曲线位于Partition上方, 说明Flexible-Partition算法的信息损失较Partition算法大, Partition算法具有较低的信息损失。

显示原图| 下载原图ZIP| 生成PPT

图2 NCP百分比对比图

综合来看, Partition算法在性能方面与Flexible- Partition算法相近, 使得匿名组个数达到最大, 均优于传统的隐私保护算法。但Partition算法具有较低的信息损失。即在保证用户隐私保护度的前提下, 提高了数据的可用性, 且算法性能不受影响。

5 结语

本文针对数据的内容及管理两个层面的安全保护, 给出数据脱敏的总体架构及匿名模型; 结合数据离散程度、取整划分、KD树等思想, 得到改进的脱敏算法。新算法能够在保持隐私保护程度的前提下, 提高数据可用性; 并且拥有隐私保护程度不变、匿名组数量更大、信息损失更低等特点。未来可围绕脱敏后数据的挖掘使用展开深入研究。

作者贡献声明

王亚民: 提出研究思路, 设计研究方案, 论文审阅及定稿;

周倩伊: 算法设计, 论文撰写;

王闯: 算法实现与验证。

利益冲突声明

所有作者声明不存在利益冲突关系。

支撑数据

支撑数据由作者自存储, E-mail: 18309202290@163.com。

[1] 周倩伊. Adult数据集.data. 测试数据.

[2] 周倩伊. 实验结果对比.xls. 实验运行结果数据.

参考文献

原文顺序

文献年度倒序

文中引用次数倒序

被引期刊影响因子

[1]	穆良, 程良伦. 基于k-匿名位置隐私保护的自适应学习模型 [J]. 计算机工程与应用, 2017, 53(18): 89-94, 101. [本文引用: 1] (Mu Liang, Cheng Lianglun. Adaptive Learning Model Based on K-anonymity Location Privacy Protection [J]. Computer Engineering and Applications, 2017, 53(18): 89-94, 101.) [本文引用: 1]
[2]	叶云, 石聪聪, 余勇, 等. 保护隐私的分布式朴素贝叶斯挖掘 [J]. 应用科学学报, 2017, 35(1): 1-10. https://doi.org/10.3969/j.issn.0255-8297.2017.01.001 URL Magsci [本文引用: 1] 摘要 <p>目前，分布式隐私保护朴素贝叶斯挖掘算法仅考虑分布式参与方的局部数据隐私而忽略全局的数据隐私，故难以有效抵抗合谋攻击.为此，基于差分隐私、秘密共享、安全多方计算等技术，提出一种分布式隐私保护朴素贝叶斯新算法.该算法采用安全求和协议构建保护隐私的朴素贝叶斯协议，对参与方的局部数据进行隐私保护.利用差分隐私保护机制对全局学习得到的朴素贝叶斯分类模型进行隐私保护.针对可能存在的合谋攻击，基于秘密共享设计了随机选择协议，将添加Laplace噪声的参与者随机化，有效防御安全多方计算中的相邻节点合谋及多数节点合谋攻击，并在此基础上优化保护隐私的朴素贝叶斯挖掘算法.实验表明，该隐私保护算法具有良好的分类性能和扩展性.</p> (Ye Yun, Shi Congcong, Yu Yong, et al. Privacy-Preserving Distributed Naive Bayes Data Mining [J]. Journal of Applied Sciences— Electronics and Information Engineering, 2017, 35(1): 1-10.) https://doi.org/10.3969/j.issn.0255-8297.2017.01.001 URL Magsci [本文引用: 1] 摘要 <p>目前，分布式隐私保护朴素贝叶斯挖掘算法仅考虑分布式参与方的局部数据隐私而忽略全局的数据隐私，故难以有效抵抗合谋攻击.为此，基于差分隐私、秘密共享、安全多方计算等技术，提出一种分布式隐私保护朴素贝叶斯新算法.该算法采用安全求和协议构建保护隐私的朴素贝叶斯协议，对参与方的局部数据进行隐私保护.利用差分隐私保护机制对全局学习得到的朴素贝叶斯分类模型进行隐私保护.针对可能存在的合谋攻击，基于秘密共享设计了随机选择协议，将添加Laplace噪声的参与者随机化，有效防御安全多方计算中的相邻节点合谋及多数节点合谋攻击，并在此基础上优化保护隐私的朴素贝叶斯挖掘算法.实验表明，该隐私保护算法具有良好的分类性能和扩展性.</p>
[3]	王静, 闫仁武, 刘亚梅. 多敏感属性K-匿名模型的实现 [J]. 计算机与数字工程, 2017, 45(7): 1368-1372. [本文引用: 1] (Wang Jing, Yan Renwu, Liu Yamei. Implementation of K-anonymous Model with Multi-sensitive Attributes [J]. Computer & Digital Engineering, 2017, 45(7): 1368-1372.) [本文引用: 1]
[4]	王良, 王伟平, 孟丹. FVS k-匿名: 一种基于k-匿名的隐私保护方法 [J]. 高技术通讯, 2015, 25(3): 228-238. https://doi.org/10.3772/j.issn.1002-0470.2015.03.002 URL [本文引用: 1] 摘要为了确保数据发布应用环节中个人敏感隐私数据信息的安全,深入研究了k-匿名技术的机制及性能,针对其不能完全有效地防止敏感属性数据信息泄漏的问题,通过引入真子树的概念和全新的敏感属性值选择手段,在实验探索的基础上,提出了一种基于k-匿名隐私保护模型的新的数据发布隐私保护方法——FVS k-匿名隐私保护方法。这种隐私保护方法继承了k-匿名技术实现简单、处理数据便捷的优点,而且弥补了其保护个人敏感隐私数据信息不完全、不充分的缺点。优化后的FVS k-匿名方法能有效地防止个人敏感隐私数据信息的泄漏,确保个人敏感隐私数据信息的安全。 (Wang Liang, Wang Weiping, Meng Dan. FVS K-anonymity: An Anonymous Privacy Protection Method Based on K-anonymity [J]. Chinese High Technology Letters, 2015, 25(3): 228-238.) https://doi.org/10.3772/j.issn.1002-0470.2015.03.002 URL [本文引用: 1] 摘要为了确保数据发布应用环节中个人敏感隐私数据信息的安全,深入研究了k-匿名技术的机制及性能,针对其不能完全有效地防止敏感属性数据信息泄漏的问题,通过引入真子树的概念和全新的敏感属性值选择手段,在实验探索的基础上,提出了一种基于k-匿名隐私保护模型的新的数据发布隐私保护方法——FVS k-匿名隐私保护方法。这种隐私保护方法继承了k-匿名技术实现简单、处理数据便捷的优点,而且弥补了其保护个人敏感隐私数据信息不完全、不充分的缺点。优化后的FVS k-匿名方法能有效地防止个人敏感隐私数据信息的泄漏,确保个人敏感隐私数据信息的安全。
[5]	郑路倩, 韩建民, 鲁剑锋, 等. 抵制时空位置点链接攻击的(k, δ, l)-匿名模型 [J]. 计算机科学与探索, 2015, 9(9): 1108-1121. https://doi.org/10.3778/j.issn.1673-9418.1409079 URL Magsci [本文引用: 1] 摘要轨迹数据对城市规划、智能交通、移动业务分析等都具有重要的意义，然而直接发布原始轨迹数据会泄露个人的隐私信息。(<em>k</em>,<em>δ</em>)-匿名是轨迹数据发布隐私保护的重要方法，但它易受时空位置点链接攻击。为此，提出了(<em>k</em>,<em>δ</em>,<em>l</em>)-匿名模型，该模型要求发布数据中任一轨迹在其半径为δ的圆柱范围内至少包含其他<em>k</em>-1条轨迹，并且发布数据中的任一时空位置点通过的轨迹至少有l条。提出了实现(<em>k</em>,<em>δ</em>,<em>l</em>)-匿名模型的AGG-NWA算法。从匿名轨迹的可用性和安全性两个方面与现有的工作进行了比较分析，实验结果表明，在匿名轨迹可用性方面，(<em>k</em>,<em>δ</em>,<em>l</em>)-匿名模型与(<em>k</em>,<em>δ</em>)-匿名模型相似，但在安全性方面，(<em>k</em>,<em>δ</em>,<em>l</em>)-匿名模型比(<em>k</em>,<em>δ</em>)-匿名模型安全。 (Zheng Luqian, Han Jianmin, Lu Jianfeng, et al. (k, δ, l)-Anonymity Model to Resist Spatio-Temporal Point Linkage Attack [J]. Journal of Frontiers of Computer Science and Technology, 2015, 9(9): 1108-1121.) https://doi.org/10.3778/j.issn.1673-9418.1409079 URL Magsci [本文引用: 1] 摘要轨迹数据对城市规划、智能交通、移动业务分析等都具有重要的意义，然而直接发布原始轨迹数据会泄露个人的隐私信息。(<em>k</em>,<em>δ</em>)-匿名是轨迹数据发布隐私保护的重要方法，但它易受时空位置点链接攻击。为此，提出了(<em>k</em>,<em>δ</em>,<em>l</em>)-匿名模型，该模型要求发布数据中任一轨迹在其半径为δ的圆柱范围内至少包含其他<em>k</em>-1条轨迹，并且发布数据中的任一时空位置点通过的轨迹至少有l条。提出了实现(<em>k</em>,<em>δ</em>,<em>l</em>)-匿名模型的AGG-NWA算法。从匿名轨迹的可用性和安全性两个方面与现有的工作进行了比较分析，实验结果表明，在匿名轨迹可用性方面，(<em>k</em>,<em>δ</em>,<em>l</em>)-匿名模型与(<em>k</em>,<em>δ</em>)-匿名模型相似，但在安全性方面，(<em>k</em>,<em>δ</em>,<em>l</em>)-匿名模型比(<em>k</em>,<em>δ</em>)-匿名模型安全。
[6]	吴英杰. 隐私保护数据发布: 模型与算法[M]. 北京: 清华大学出版社, 2015: 7-16. [本文引用: 4] (Wu Yingjie.Privacy Preserving Data Publishing: Models and Algorithms [M]. Beijing: Tsinghua University Press, 2015: 7-16.) [本文引用: 4]
[7]	吴英杰, 唐庆明, 倪巍伟, 等. 基于取整划分函数的k匿名算法 [J]. 软件学报, 2012, 23(8): 2138-2148. https://doi.org/10.3724/SP.J.1001.2012.04157 URL [本文引用: 4] 摘要提出一种基于取整划分函数的K匿名算法,并从理论上证明该算法在非平凡的数据集中可以取得更低的上界.特别地,当数据集大于2k~2时,该算法产生的匿名化数据的匿名组规模的上界为k+1;而当待发布数据表足够大时,算法所生成的所有匿名组的平均规模将足够趋近于K.仿真实验结果表明,该算法是有效而可行的. (Wu Yingjie, Tang Qingming, Ni Weiwei, et al. Algorithm for k-Anonymity Based on Rounded Partition Function [J]. Journal of Software, 2012, 23(8): 2138-2148.) https://doi.org/10.3724/SP.J.1001.2012.04157 URL [本文引用: 4] 摘要提出一种基于取整划分函数的K匿名算法,并从理论上证明该算法在非平凡的数据集中可以取得更低的上界.特别地,当数据集大于2k~2时,该算法产生的匿名化数据的匿名组规模的上界为k+1;而当待发布数据表足够大时,算法所生成的所有匿名组的平均规模将足够趋近于K.仿真实验结果表明,该算法是有效而可行的.
[8]	Xu J, Wang W, Pei J, et al. Utility-Based Anonymization Using Local Recording [C]//Proceedings of ACM SIGKDD International Conference on Knowledge Discovery and Data Mining(SIGKDD). 2006: 785-790. [本文引用: 1]
[9]	Ghinita G, Karras P, Kalnis P, et al. Fast Data Anonymization with Low Information Loss [C]//Proceedings of the 33rd International Conference on Very Large Data Bases, VLDB Endowment. 2007: 758-769. [本文引用: 2]
[10]	陈天莹, 陈剑锋. 大数据环境下的智能数据脱敏系统 [J]. 通信技术, 2016, 49(7): 915-922. [本文引用: 1] (Chen Tianying, Chen Jianfeng. Intelligent Data Masking System for Big Data Productive Environment [J]. Communications Technology, 2016, 49(7): 915-922.) [本文引用: 1]

基于k-匿名位置隐私保护的自适应学习模型

2017

... 现阶段对数据脱敏技术的研究, 主要包括基于自适应算法的隐私保护方法^[1]、基于分布式挖掘算法的隐私保护方法^[2]和基于k-匿名算法的隐私保护方法.其中, 最常用的是基于k-匿名的隐私保护方法.如MDAV基于多敏感属性的算法^[3]、FVS k-匿名^[4]、(k,$\delta $,l)-匿名^[5]等算法均是以k-匿名为基础的隐私保护模型.在k-匿名模型中, 基于分治策略的概化技术实现较为简单且能够保证数据可用性^[6], 但其中关于数据划分策略部分还有待研究.为进一步优化划分效果, 本文结合前人思想, 提出了一种改进算法. ...

基于k-匿名位置隐私保护的自适应学习模型

2017

保护隐私的分布式朴素贝叶斯挖掘

2017

保护隐私的分布式朴素贝叶斯挖掘

2017

多敏感属性K-匿名模型的实现

2017

多敏感属性K-匿名模型的实现

2017

FVS k-匿名: 一种基于k-匿名的隐私保护方法

2015

FVS k-匿名: 一种基于k-匿名的隐私保护方法

2015

抵制时空位置点链接攻击的(k, δ, l)-匿名模型

2015

抵制时空位置点链接攻击的(k, δ, l)-匿名模型

2015

... 在匿名模型中, 数据表中的属性被分成显示标识符(ID)、准标识符(QI)、敏感属性(SA)、非敏感属性(NSA)^[7].k-匿名模型数据表中所有准标识符对应的记录相同的个数至少是k个, 保证发布表中的任意记录与其他k-1条记录不可区分, 从而使身份确实的概率不超过1/k.一种有效的方法是“基于分治策略的概化技术”^[6], 而此方法的关键是找到合适的划分策略. ...

... 一般情况下, 在给定数据集以及准标识符的时候, 首先定义准标识符中的每个属性取值域上的顺序, 使之成为有序域.然后再将有序域映射到实数域中, 且必须是一一映射, 以实现多维空间矩形的构建^[6]. ...

... 新算法采用取整划分作为划分标准^[6], 与传统的k-匿名算法相比, 能够保证匿名组数量取得最大值.在此基础上, 给出选择划分维度的方法, 在取得最大匿名组数量的同时降低信息损失.从而得到改进后的新算法.相比于同类算法, 拥有隐私保护程度不变、匿名组数量最大、信息损失最低等特点.能够在不降低用户隐私保护程度的前提下, 提高数据可用性. ...

2015

基于取整划分函数的k匿名算法

2012

... 2012年, 吴英杰等针对划分上界, 提出用取整划分代替原有均衡二划分的方法, 并给出取整函数, 如公式(1)所示^[7]. ...

... 吴英杰等^[7]将基于取整划分函数的算法与常见的Mondrian算法、松弛Mondrian算法以及Bottom-Up算法进行比较, 可以看出, 基于取整划分的算法优于传统的隐私保护算法.在前人工作的基础上, 本文对比笔者提出的“基于KD树的取整划分k-匿名算法”与吴英杰等提出的“基于取整划分函数的k-匿名算法”^[7].通过比较两种算法最终所产生的匿名组个数, 并利用“NCP百分比函数”作为数据质量评价函数, 以此说明本文算法的可用性及有效性. ...

... [7].通过比较两种算法最终所产生的匿名组个数, 并利用“NCP百分比函数”作为数据质量评价函数, 以此说明本文算法的可用性及有效性. ...

基于取整划分函数的k匿名算法

2012

... 2012年, 吴英杰等针对划分上界, 提出用取整划分代替原有均衡二划分的方法, 并给出取整函数, 如公式(1)所示^[7]. ...

... [7].通过比较两种算法最终所产生的匿名组个数, 并利用“NCP百分比函数”作为数据质量评价函数, 以此说明本文算法的可用性及有效性. ...

Utility-Based Anonymization Using Local Recording

2006

... (2) NCP百分比评价函数^[8] ...

Fast Data Anonymization with Low Information Loss

2007

... NCP(标准化确定性惩罚)通过计算数据所受惩罚度量数据的质量.本文通过对NCP评价函数进行变形, 采用NCP百分比函数作为数据质量评价函数, 通过将NCP值与数据集中的值数GCP^[9]相除以计算NCP百分比.NCP百分比范围从0到1, 其中0表示没有数据丢失, 1表示丢失所有信息, 且该方法对数据集的大小敏感.计算公式如下: ...

... ②确定Node-data: 将TMP中的点按步骤①中求出的维度上的取值进行排序.取正整数j, 使得$\left| {{\bigcup }_{p\in TMP\wedge \underset{i}{\mathop{\prod }}\,p\le q(i,j)}} \right|\ge \left\lceil \frac{\alpha }{2} \right\rceil k+\left\lceil \frac{\beta }{2} \right\rceil $, 并且$\left| {{\bigcup }_{p\in TMP\wedge \underset{i}{\mathop{\prod }}\,p\ge q(i,j)}} \right|\ge $ $\left\lfloor \frac{\alpha }{2} \right\rfloor k+\left\lfloor \frac{\beta }{2} \right\rfloor $, 从j处将Range划分为两个多维矩形区域^[9].令Node-data=q(i, j).此时TMP不变; ...

大数据环境下的智能数据脱敏系统

2016

... 其中, 资源层为数据脱敏服务提供基础性物理资源, 包括计算资源、网络资源和存储资源等; 数据层包括支持系统完成隐私数据脱敏的各类数据库、知识库, 针对不同敏感数据的脱敏规则库, 管理规则及规则集合的脱敏策略库等^[10]; 脱敏层主要是选择合适的脱敏模型及算法对隐私数据进行脱敏; 应用层主要涉及脱敏后待分析的隐私数据及敏感数据的应用, 通常为数据分析、数据挖掘等. ...

大数据环境下的智能数据脱敏系统

2016

〈

〉

基于互联网大数据的脱敏分析技术研究

Data Masking Analysis Based on Internet Big Data

1 引 言

2 研究方法与研究基础

2.1 k-匿名及取整划分思想

2.2 数据质量度量

3 基于互联网大数据的脱敏模型及算法

3.1 逻辑架构

3.2 脱敏模型

3.3 基于KD树的取整划分k-匿名算法

4 实验结果

5 结 语

作者贡献声明

利益冲突声明

支撑数据

参考文献 文献选项 原文顺序 文献年度倒序 文中引用次数倒序 被引期刊影响因子

1 引言

5 结语

参考文献

原文顺序

文献年度倒序

文中引用次数倒序

被引期刊影响因子