Please wait a minute...
Advanced Search
数据分析与知识发现  2018, Vol. 2 Issue (2): 58-63     https://doi.org/10.11925/infotech.2096-3467.2017.0809
  研究论文 本期目录 | 过刊浏览 | 高级检索 |
基于互联网大数据的脱敏分析技术研究
周倩伊(), 王亚民, 王闯
西安电子科技大学经济与管理学院 西安 710126
Data Masking Analysis Based on Internet Big Data
Zhou Qianyi(), Wang Yamin, Wang Chuang
School of Economics and Management, Xidian University, Xi’an 710126, China
全文: PDF (546 KB)   HTML ( 4
输出: BibTeX | EndNote (RIS)      
摘要 

目的】基于现有的脱敏技术, 改进匿名组的划分效果, 得到较优的脱敏模型及算法。【方法】基于k-匿名技术, 改进维度划分标准, 以KD树作为存储结构, 构造新算法。利用Python实现程序, 比较所产生的匿名组数量、NCP百分比, 验证算法的可行性与有效性。【结果】新算法能够使得脱敏后整个数据集所生成的匿名组个数达到最大。且NCP百分比低于同类算法。【局限】对于有某一属性离散程度显著的数据集, 循环计算划分维度较为繁琐。【结论】新算法相比于传统算法增加了匿名组个数, 相比于同类算法, 信息损失较低。

服务
把本文推荐给朋友
加入引用管理器
E-mail Alert
RSS
作者相关文章
周倩伊
王亚民
王闯
关键词 数据脱敏k-匿名模型取整划分    
Abstract

[Objective] This paper aims to improve the classification results of anonymous groups and then obtain better data masking model and algorithm. [Methods] First, we modified the dimension judgment standards based on k-anonymity. Then, we used the KD tree as storage structure to construct a new algorithm. Third, we implemented the proposed algorithm with Python. Finally, we examined the feasibility and effectiveness of the new algorithm with the number of anonymous groups and the percentage of NCP. [Results] The new algorithm could maximize the number of anonymous groups generated by the whole dataset, while the percentage of NCP was lower than similar algorithms. [Limitations] For datasets with significant degree of dispersion, the dimension of the loop computation was cumbersome. [Conclusions] The proposed algorithm could improve the availability of the anonymous groups and reduce the data loss.

Key wordsData Masking    k-anonymity    Integer Division
收稿日期: 2017-08-15      出版日期: 2018-03-07
ZTFLH:  TP391 G35  
引用本文:   
周倩伊, 王亚民, 王闯. 基于互联网大数据的脱敏分析技术研究[J]. 数据分析与知识发现, 2018, 2(2): 58-63.
Zhou Qianyi,Wang Yamin,Wang Chuang. Data Masking Analysis Based on Internet Big Data. Data Analysis and Knowledge Discovery, 2018, 2(2): 58-63.
链接本文:  
https://manu44.magtech.com.cn/Jwk_infotech_wk3/CN/10.11925/infotech.2096-3467.2017.0809      或      https://manu44.magtech.com.cn/Jwk_infotech_wk3/CN/Y2018/V2/I2/58
层面 内容 实现机制
数据管理层面 安全管理、访问控制、审计追溯 数据库管理系统DBMS
数据内容层面 应用层 脱敏数据的使用 数据分析、挖掘算法
脱敏层 隐私数据脱敏层 隐私数据脱敏算法
数据层 数据库、知识库、规则库 敏感数据分类分级
资源层 计算资源、网络资源 脱敏数据集的来源
  大数据脱敏整体逻辑架构
所属类别 对应属性
显示标识符 name、phone、ID、address等
准标识符 age、workclass、education_num、marital_status、
occupation、race、sex、native_country
敏感信息 relationship
非敏感信息 fnlwgt、education、capital-gain、capital-loss、
hours-per-week
  Adult数据集的匿名模型
域名 数据类型 描述
取整划分符号 T(d) 关系表 假设表T(d)d个准标识符, 即d维空间。
Qi 属性值 准标识符中的第i个属性。
P 点集 每个Qi对应的实域序列$\left\{ q(i,1),q(i,2),\cdots ,q(i,{{t}_{i}}) \right\}$中的集合。
Ω 点集 能够覆盖P的最小的多维矩形区域, 即KD树中的Range
q(i, j) 元素取值 对应Qi的域中的第j个元素, 且$1\le i\le d,1\le j\le {{t}_{i}}=\left| {{Q}_{i}} \right|$。
$\prod{_{i}(p)}$ 属性值 一个点p在这个d维空间中的第i维上的投影。
构建KD树的符号 Node-data 数据矢量 某个属性的取值(划分标准), 或者某个点的取值。(叶子节点)
Range 空间矢量 待划分的点的集合, 此上述的Ω相同。
split 整数 代表维度的序号, 通常分割超面是垂直于坐标轴的。
left k-d树 每一次分割的左节点, 递归的实现KD树左侧的划分。
right k-d树 每一次分割的右节点, 递归的实现KD树右侧的划分。
parent k-d树 父节点
  基于KD树的取整划分k-匿名算法符号表示
  匿名组数量对比图
  NCP百分比对比图
[1] 穆良, 程良伦. 基于k-匿名位置隐私保护的自适应学习模型[J]. 计算机工程与应用, 2017, 53(18): 89-94, 101.
[1] (Mu Liang, Cheng Lianglun.Adaptive Learning Model Based on K-anonymity Location Privacy Protection[J]. Computer Engineering and Applications, 2017, 53(18): 89-94, 101.)
[2] 叶云, 石聪聪, 余勇, 等. 保护隐私的分布式朴素贝叶斯挖掘[J]. 应用科学学报, 2017, 35(1): 1-10.
doi: 10.3969/j.issn.0255-8297.2017.01.001
[2] (Ye Yun, Shi Congcong, Yu Yong, et al.Privacy-Preserving Distributed Naive Bayes Data Mining[J]. Journal of Applied Sciences— Electronics and Information Engineering, 2017, 35(1): 1-10.)
doi: 10.3969/j.issn.0255-8297.2017.01.001
[3] 王静, 闫仁武, 刘亚梅. 多敏感属性K-匿名模型的实现[J]. 计算机与数字工程, 2017, 45(7): 1368-1372.
[3] (Wang Jing, Yan Renwu, Liu Yamei.Implementation of K-anonymous Model with Multi-sensitive Attributes[J]. Computer & Digital Engineering, 2017, 45(7): 1368-1372.)
[4] 王良, 王伟平, 孟丹. FVS k-匿名: 一种基于k-匿名的隐私保护方法[J]. 高技术通讯, 2015, 25(3): 228-238.
doi: 10.3772/j.issn.1002-0470.2015.03.002
[4] (Wang Liang, Wang Weiping, Meng Dan.FVS K-anonymity: An Anonymous Privacy Protection Method Based on K-anonymity[J]. Chinese High Technology Letters, 2015, 25(3): 228-238.)
doi: 10.3772/j.issn.1002-0470.2015.03.002
[5] 郑路倩, 韩建民, 鲁剑锋, 等. 抵制时空位置点链接攻击的(k, δ, l)-匿名模型[J]. 计算机科学与探索, 2015, 9(9): 1108-1121.
doi: 10.3778/j.issn.1673-9418.1409079
[5] (Zheng Luqian, Han Jianmin, Lu Jianfeng, et al.(k, δ, l)-Anonymity Model to Resist Spatio-Temporal Point Linkage Attack[J]. Journal of Frontiers of Computer Science and Technology, 2015, 9(9): 1108-1121.)
doi: 10.3778/j.issn.1673-9418.1409079
[6] 吴英杰. 隐私保护数据发布: 模型与算法[M]. 北京: 清华大学出版社, 2015: 7-16.
[6] (Wu Yingjie.Privacy Preserving Data Publishing: Models and Algorithms [M]. Beijing: Tsinghua University Press, 2015: 7-16.)
[7] 吴英杰, 唐庆明, 倪巍伟, 等. 基于取整划分函数的k匿名算法[J]. 软件学报, 2012, 23(8): 2138-2148.
doi: 10.3724/SP.J.1001.2012.04157
[7] (Wu Yingjie, Tang Qingming, Ni Weiwei, et al.Algorithm for k-Anonymity Based on Rounded Partition Function[J]. Journal of Software, 2012, 23(8): 2138-2148.)
doi: 10.3724/SP.J.1001.2012.04157
[8] Xu J, Wang W, Pei J, et al.Utility-Based Anonymization Using Local Recording[C]//Proceedings of ACM SIGKDD International Conference on Knowledge Discovery and Data Mining(SIGKDD). 2006: 785-790.
[9] Ghinita G, Karras P, Kalnis P, et al.Fast Data Anonymization with Low Information Loss[C]//Proceedings of the 33rd International Conference on Very Large Data Bases, VLDB Endowment. 2007: 758-769.
[10] 陈天莹, 陈剑锋. 大数据环境下的智能数据脱敏系统[J]. 通信技术, 2016, 49(7): 915-922.
[10] (Chen Tianying, Chen Jianfeng.Intelligent Data Masking System for Big Data Productive Environment[J]. Communications Technology, 2016, 49(7): 915-922.)
[1] 翁梦娟,姚长青,韩红旗,王莉军,冉亚鑫. 不均衡数据集下基于CNN的中图分类标引方法 *[J]. 数据分析与知识发现, 2020, 4(7): 87-95.
[2] 李轲禹,王昊,龚丽娟,唐慧慧. 学术数据库中研究主题术语的质量测度及分布研究*[J]. 数据分析与知识发现, 2020, 4(6): 91-108.
[3] 郑淞尹,谈国新,史中超. 基于分段用户群与时间上下文的旅游景点推荐模型研究*[J]. 数据分析与知识发现, 2020, 4(5): 92-104.
[4] 魏国辉,张丰聪,付先军,王振国. 中药成分相似性量化建模及寒热药性预测分析*[J]. 数据分析与知识发现, 2020, 4(5): 75-83.
[5] 章成志,李铮. 基于学术论文全文的创新研究评价句抽取研究 *[J]. 数据分析与知识发现, 2019, 3(10): 12-18.
[6] 朱惠,王昊,章成志. 基于“过程-问题”视角的情报学方法技术研究 *——以社会情报学舆情领域为例[J]. 数据分析与知识发现, 2019, 3(10): 2-11.
[7] 高慧颖,魏甜,刘嘉唯. 基于用户聚类与动态交互信任关系的好友推荐方法研究 *[J]. 数据分析与知识发现, 2019, 3(10): 66-77.
[8] 黄漫宇,云琪,彭虎锋,窦雪萌. 基于主题挖掘的超额募资农产品众筹项目文本特征研究 *——以众筹网为例[J]. 数据分析与知识发现, 2019, 3(9): 124-134.
[9] 齐惠颖,江雨荷. 基于多组学数据融合构建乳腺癌生存预测模型 *[J]. 数据分析与知识发现, 2019, 3(8): 88-93.
[10] 李珊,姚叶慧,厉浩,刘洁,嘎玛白姆. 基于ISA联合聚类的组推荐算法研究 *[J]. 数据分析与知识发现, 2019, 3(8): 77-87.
[11] 焦富森,李树青. 基于物品质量和用户评分修正的协同过滤推荐算法 *[J]. 数据分析与知识发现, 2019, 3(8): 62-67.
[12] 关鹏,王曰芬,傅柱. 基于LDA的主题语义演化分析方法研究 * ——以锂离子电池领域为例[J]. 数据分析与知识发现, 2019, 3(7): 61-72.
[13] 尤众喜,华薇娜,潘雪莲. 中文分词器对图书评论和情感词典匹配程度的影响 *[J]. 数据分析与知识发现, 2019, 3(7): 23-33.
[14] 范馨月, 崔雷. 基于网络属性的抗肿瘤药物靶点预测方法及其应用*[J]. 数据分析与知识发现, 2018, 2(12): 98-108.
[15] 赵杨, 李齐齐, 陈雨涵, 曹文航. 基于在线评论情感分析的海淘APP用户满意度研究*[J]. 数据分析与知识发现, 2018, 2(11): 19-27.
Viewed
Full text


Abstract

Cited

  Shared   
  Discussed   
版权所有 © 2015 《数据分析与知识发现》编辑部
地址:北京市海淀区中关村北四环西路33号 邮编:100190
电话/传真:(010)82626611-6626,82624938
E-mail:jishu@mail.las.ac.cn