中文文本聚类常用停用词表对比研究*
官琴, 邓三鸿, 王昊

Chinese Stopwords for Text Clustering: A Comparative Study
Guan Qin,Deng Sanhong,Wang Hao
表8 全停用词表实验结果统计
指标 第一簇
(艺术)
第二簇
(经济)
第三簇
(体育)
第四簇
(IT)
第五簇
(军事)
平均值
复旦
语料库
P 0.938 0.965 0.943 0.976 0.438 0.852
R 0.979 1 0.440 0.976 0.842 0.847
F1 0.986 0.982 0.600 0.976 0.576 0.855
指标 第一簇
(艺术)
第二簇
(经济)
第三簇
(军事)
第四簇
(体育)
第五簇
(IT)
平均值
搜狗
语料库
P 0.787 0.325 0.468 0.876 0.446 0.580
R 0.871 0.245 0.789 0.567 0.482 0.591
F1 0.827 0.279 0.588 0.688 0.463 0.586
指标 第一簇
(艺术)
第二簇
(体育)
第三簇
(经济)
第四簇
(IT)
第五簇
(军事)
平均值
中文
语料库
P 0.882 0.833 0.831 0.831 0.467 0.769
R 0.964 0.600 0.936 0.646 0.750 0.779
F1 0.922 0.698 0.880 0.727 0.576 0.774