Please wait a minute...
Advanced Search
数据分析与知识发现  2018, Vol. 2 Issue (3): 39-48     https://doi.org/10.11925/infotech.2096-3467.2017.0889
  研究论文 本期目录 | 过刊浏览 | 高级检索 |
一种截断距离和聚类中心自适应的聚类算法*
杨震(), 王红军, 周宇
中国人民解放军电子工程学院 合肥 230037
A Clustering Algorithm with Adaptive Cut-off Distance and Cluster Centers
Yang Zhen(), Wang Hongjun, Zhou Yu
Electronic Engineering Institute of PLA, Hefei 230037, China
全文: PDF (2184 KB)   HTML ( 8
输出: BibTeX | EndNote (RIS)      
摘要 

目的】研究一种新的聚类算法, 以改进密度峰值聚类算法无法自动计算截断距离以及需要人工参与选择聚类中心的不足。【方法】首先提出一种基于信息熵的截断距离自适应算法, 实现了DPC算法截断距离的自适应; 然后根据排序图中权值的斜率变化趋势确定拐点, 自动划分出聚类中心与非聚类中心的界限, 实现聚类中心的自动选择。【结果】通过在UCI数据集与人工数据集上的仿真实验, 对DBSCAN算法、DPC算法、DGCCD算法、ACP算法与ADPC算法进行聚类性能的比较, 结果表明ADPC算法不仅能够自动选择截断距离与聚类中心, 在准确率、标准互信息(NMI)、F-measure值等性能上也有较大的提升, 同时证明了改进算法在处理移动终端定位数据上的有效性。【局限】主要针对低维度数据集, 面对高维度数据集略显乏力, 同时未能兼顾处理大数据集时的效率问题。【结论】ADPC算法能够准确选择聚类中心和截断距离, 对于低维度、任意形状簇的处理效果良好。

服务
把本文推荐给朋友
加入引用管理器
E-mail Alert
RSS
作者相关文章
杨震
王红军
周宇
关键词 聚类截断距离斜率变化ADPC    
Abstract

[Objective] This paper develops a new clustering algorithm, aiming to automatically calculate the cut-off distance and select the cluster centers. [Methods] First, we proposed a new adaptive algorithm based on information entropy and the cut-off distance. Then, we extracted the cluster centers, with the help of inflection points determined by the slope trend of the weight in the sorting chart. Finally, we evaluated the performance of the ADPC algorithm to those of the DBSCAN, DPC, DGCCD, and ACP algorithms using UCI and manmade datasets. [Results] The ADPC algorithm automatically identified the cluster centers and significantly improved the precision, F-measure, normalized mutual information measurement and runtime. [Limitations] The proposed algorithm’s performance with high-dimension data as well as its efficiency to process large data sets need to be improved. [Conclusions] The proposed ADPC algorithm could effectively identify clustering centers and the cut-off distance with low-dimension or arbitrary data sets.

Key wordsClustering    Cut-off    Distance    Slope Change    ADPC
收稿日期: 2017-09-06      出版日期: 2018-04-03
ZTFLH:  TP391  
基金资助:*本文系国家自然科学基金项目“动态数据挖掘的构造性机器学习方法研究”(项目编号: 61273302)的研究成果之一
引用本文:   
杨震, 王红军, 周宇. 一种截断距离和聚类中心自适应的聚类算法*[J]. 数据分析与知识发现, 2018, 2(3): 39-48.
Yang Zhen,Wang Hongjun,Zhou Yu. A Clustering Algorithm with Adaptive Cut-off Distance and Cluster Centers. Data Analysis and Knowledge Discovery, 2018, 2(3): 39-48.
链接本文:  
https://manu44.magtech.com.cn/Jwk_infotech_wk3/CN/10.11925/infotech.2096-3467.2017.0889      或      https://manu44.magtech.com.cn/Jwk_infotech_wk3/CN/Y2018/V2/I3/39
  关于决策图的示例图[8]
  截断距离的取值对熵值的影响
  ${{\gamma }_{i}}$排序图与斜率变化趋势图
数据集 样本数 维数 类别数
L3 312 2 3
R15 600 2 15
  本实验采用的人工数据集及基本参数
  各算法对L3聚类效果图
  各算法对R15聚类效果图
数据集 样本数 维数 类别数
Iris 150 4 3
Aggregation 788 2 7
Waveform 5 000 21 3
Wine 178 13 3
  本实验采用的UCI数据集及基本参数
  各算法准确率
  各算法F-measure值
  各算法运行时间
  各算法的标准互信息
  GeoLife数据集4号用户三天内的位置点
  桃红色类簇聚类效果图
  紫色类簇聚类效果图
  青色类簇聚类效果图
  绿色类簇聚类效果图
  蓝色类簇聚类效果图
[1] Datta S, Giannella C, Kargupta H.Approximate Distributed K-Means Clustering over a Peer-to-Peer Network[J]. IEEE Transactions on Knowledge and Data Engineering, 2009, 21(10): 1372-1388.
doi: 10.1109/TKDE.2008.222
[2] Lu W. The Research on Media Audience Market Segmentation Based on Cluster Analysis [J]. Advanced Materials Research, 2011, 219-220: 84-87.
doi: 10.4028/www.scientific.net/AMR.219-220.84
[3] Cluster based Information Security Method in Machine to Machine[P]. KR101317859, 2013-10-14.
[4] Han J, Kamber M.Data Mining Concepts and Techniques[M]. Beijing: China Machine Press, 2012.
[5] 安建瑞, 张龙波, 王雷, 等. 一种基于网格与加权信息熵的OPTICS改进算法[J]. 计算机工程, 2017, 43(2): 206-209.
doi: 10.3969/j.issn.1000-3428.2017.02.034
[5] (An Jianrui, Zhang Longbo, Wang Lei, et al.An Improved OPTICS Algorithm Based on Grid and Weighted Information Entropy[J]. Computer Engineering, 2017, 43(2): 206-209.)
doi: 10.3969/j.issn.1000-3428.2017.02.034
[6] 安计勇, 韩海英, 侯效礼. 一种改进的DBSCAN聚类算法[J]. 微电子学与计算机, 2015, 32(7): 68-71.
[6] (An Jiyong, Han Haiying, Hou Xiaoli.An Improved DBSCAN Clustering Algorithm[J]. Microelectronics and Computer, 2015, 32(7): 68-71.)
[7] 王实美. 基于DBSCAN的自适应非均匀密度聚类算法研究[D]. 北京: 北京交通大学, 2017.
[7] (Wang Shimei.Research on Adaptive Varied Density Clustering Algorithm Based on DBSCAN [D]. Beijing: Beijing Jiaotong University, 2017. )
[8] Rodriguez A, Latio A.Clustering by Fast Search and Find of Density Peaks[J]. Science, 2014, 344(6191): 1492-1496.
doi: 10.1126/science.1242072
[9] 淦文燕, 刘冲. 一种改进的搜索密度峰值的聚类算法[J]. 智能系统学, 2017, 12(2): 229-236.
doi: 10.11992/tis.201512036
[9] (Gan Wenyan, Liu Chong.An Improved Clustering Algorithm That Searches and Finds Density Peaks[J]. CAAI Transactions on Intelligent Systems, 2017, 12(2): 229-236.)
doi: 10.11992/tis.201512036
[10] 李涛, 葛洪伟, 苏树智. 自动确定聚类中心的密度峰聚类[J]. 计算机科学与探索, 2016, 10(11): 1614-1622.
doi: 10.3778/j.issn.1673-9418.1510049
[10] (Li Tao, Ge Hongwei, Su Shuzhi.Density Peaks Clustering by Automatic Determination of Cluster Centers[J]. Journal of Frontiers of Computer Science and Technology, 2016, 10(11): 1614-1622.)
doi: 10.3778/j.issn.1673-9418.1510049
[11] 何熊熊, 管俊轶, 叶宣佐, 等. 一种基于密度和网格的簇心可确定聚类算法[J]. 控制与决策, 2017(5): 913-919.
[11] (He Xiongxiong, Guan Junyi, Ye Xuanzuo, et al.A Density-based and Grid-based Cluster Centers Determination Clustering Algorithm[J]. Control and Decision, 2017(5): 913-919. )
[12] 于晓飞, 葛洪伟.自动确定聚类中心的势能聚类算法[J]. 计算机科学与探索, 2017. DOI: 10.3778/j.issn.1673-9418. 1702048.
[12] (Yu Xiaofei, Ge Hongwei.Potential Clustering by Automatic Determination of Cluster Center[J]. Journal of Frontiers of Computer Science and Technology, 2017. DOI: 10.3778/j.issn.1673-9418.1702048.)
[13] 王华秋, 聂珍. 快速搜索密度峰值聚类在图像检索中的应用[J]. 计算机工程与设计, 2016, 37(11): 3045-3050, 3057.
[13] (Wang Huaqiu, Nie Zhen.Application of Fast Search Density Peak Clustering in Image Retrieval[J]. Computer Engineering and Design, 2016, 37(11): 3045-3050, 3057.)
[14] Chang H, Yeung D Y.Robust Path-based Spectral Clustering[J]. Pattern Recognition, 2008, 41(1): 191-203.
doi: 10.1016/j.patcog.2007.04.010
[15] Veenman C J, Reinders M J T, Backer E. A Maximum Variance Cluster Algorithm[J]. IEEE Transactions on Pattern Analysis & Machine Intelligence, 2002, 24(9): 1273-1280.
doi: 10.1109/TPAMI.2002.1033218
[16] Lichman M. UCI Machine Learning Repository [EB/OL]. [2017-07-09]. .
[17] Zheng Y, Zhang L, Xie X, et al.Mining Interesting Locations and Travel Sequences from GPS Trajectories[C]//Proceedings of International Conference on World Wild Web (WWW 2009), Madrid, Spain. ACM Press, 2009: 791-800.
[18] Zheng Y, Li Q, Chen Y, et al.Understanding Mobility Based on GPS Data[C]//Proceedings of ACM Conference on Ubiquitous Computing (UbiComp 2008), Seoul, Korea. ACM Press, 2008: 312-321.
[19] Zheng Y, Xie X, Ma W Y.GeoLife: A Collaborative Social Networking Service among User, Location and Trajectory[J]. IEEE Data Engineering Bulletin, 2010, 33(2): 32-40.
[1] 王若琳, 牛振东, 蔺奇卡, 朱一凡, 邱萍, 陆浩, 刘东磊. 基于异质信息嵌入与RNN聚类参数预测的作者姓名消歧方法*[J]. 数据分析与知识发现, 2021, 5(8): 13-24.
[2] 王晰巍,贾若男,韦雅楠,张柳. 多维度社交网络舆情用户群体聚类分析方法研究*[J]. 数据分析与知识发现, 2021, 5(6): 25-35.
[3] 卢利农,祝忠明,张旺强,王小春. 基于Lingo3G聚类算法的机构知识库跨库知识整合与知识指纹服务实现[J]. 数据分析与知识发现, 2021, 5(5): 127-132.
[4] 张梦瑶, 朱广丽, 张顺香, 张标. 基于情感分析的微博热点话题用户群体划分模型 *[J]. 数据分析与知识发现, 2021, 5(2): 43-49.
[5] 丁浩, 艾文华, 胡广伟, 李树青, 索炜. 融合用户兴趣波动时序的个性化推荐模型*[J]. 数据分析与知识发现, 2021, 5(11): 45-58.
[6] 杨辰, 陈晓虹, 王楚涵, 刘婷婷. 基于用户细粒度属性偏好聚类的推荐策略*[J]. 数据分析与知识发现, 2021, 5(10): 94-102.
[7] 于丰畅,程齐凯,陆伟. 基于几何对象聚类的学术文献图表定位研究[J]. 数据分析与知识发现, 2021, 5(1): 140-149.
[8] 邬金鸣,侯跃芳,崔雷. 基于医学主题词标引规则的词共现聚类分析结果自动判读和表达的研究[J]. 数据分析与知识发现, 2020, 4(9): 133-144.
[9] 温萍梅,叶志炜,丁文健,刘颖,徐健. 命名实体消歧研究进展综述*[J]. 数据分析与知识发现, 2020, 4(9): 15-25.
[10] 席运江, 杜蝶蝶, 廖晓, 仉学红. 基于超网络的企业微博用户聚类研究及特征分析*[J]. 数据分析与知识发现, 2020, 4(8): 107-118.
[11] 杨旭,钱晓东. 基于改进的Vicsek模型的社会网络同步聚类算法*[J]. 数据分析与知识发现, 2020, 4(4): 119-128.
[12] 熊回香,李晓敏,李跃艳. 基于图书评论属性挖掘的群组推荐研究*[J]. 数据分析与知识发现, 2020, 4(2/3): 214-222.
[13] 魏家泽,董诚,何彦青,刘志辉,彭柯芸. 基于均衡段落和分话题向量的新闻热点话题检测研究*[J]. 数据分析与知识发现, 2020, 4(10): 70-79.
[14] 赵华茗,余丽,周强. 基于均值漂移算法的文本聚类数目优化研究 *[J]. 数据分析与知识发现, 2019, 3(9): 27-35.
[15] 李珊,姚叶慧,厉浩,刘洁,嘎玛白姆. 基于ISA联合聚类的组推荐算法研究 *[J]. 数据分析与知识发现, 2019, 3(8): 77-87.
Viewed
Full text


Abstract

Cited

  Shared   
  Discussed   
版权所有 © 2015 《数据分析与知识发现》编辑部
地址:北京市海淀区中关村北四环西路33号 邮编:100190
电话/传真:(010)82626611-6626,82624938
E-mail:jishu@mail.las.ac.cn