基于互联网大数据的脱敏分析技术研究
周倩伊, 王亚民, 王闯

Data Masking Analysis Based on Internet Big Data
Zhou Qianyi,Wang Yamin,Wang Chuang
表3 基于KD树的取整划分k-匿名算法符号表示
域名 数据类型 描述
取整划分符号 T(d) 关系表 假设表T(d)d个准标识符, 即d维空间。
Qi 属性值 准标识符中的第i个属性。
P 点集 每个Qi对应的实域序列$\left\{ q(i,1),q(i,2),\cdots ,q(i,{{t}_{i}}) \right\}$中的集合。
Ω 点集 能够覆盖P的最小的多维矩形区域, 即KD树中的Range
q(i, j) 元素取值 对应Qi的域中的第j个元素, 且$1\le i\le d,1\le j\le {{t}_{i}}=\left| {{Q}_{i}} \right|$。
$\prod{_{i}(p)}$ 属性值 一个点p在这个d维空间中的第i维上的投影。
构建KD树的符号 Node-data 数据矢量 某个属性的取值(划分标准), 或者某个点的取值。(叶子节点)
Range 空间矢量 待划分的点的集合, 此上述的Ω相同。
split 整数 代表维度的序号, 通常分割超面是垂直于坐标轴的。
left k-d树 每一次分割的左节点, 递归的实现KD树左侧的划分。
right k-d树 每一次分割的右节点, 递归的实现KD树右侧的划分。
parent k-d树 父节点