%A 龚凯乐,成颖,孙建军 %T 基于参与者共现分析的博文聚类研究* %0 Journal Article %D 2016 %J 数据分析与知识发现 %R 10.11925/infotech.1003-3513.2016.10.06 %P 50-58 %V 32 %N 10 %U {https://manu44.magtech.com.cn/Jwk_infotech_wk3/CN/abstract/article_4280.shtml} %8 2016-10-25 %X

目的】将博文参与者共现作为特征, 探析其在博文聚类中的价值。【方法】两步聚类: 构建不同博文参与者的共现矩阵并转化为相关矩阵, 采用近邻传播(Affinity Propagation, AP)算法完成第一步聚类; 将AP聚类结果的质心作为初始聚类中心, 对词项进行位置加权, 利用K-means算法完成博文内容的第二步聚类。【结果】综合博文参与者共现与词项位置加权的聚类算法平均准确率与纯度分别达到0.66和0.57, 显著优于对比实验。【局限】本研究的主要贡献是引入参与者共现作为特征改进博文聚类效果, 对于该特征甚少的博文聚类价值有限。【结论】整合词项与博文参与者特征的博文聚类显著地提高了聚类质量, 两步法聚类也为K-means算法初始聚类中心的选择提供了可行的解决方案。