中文文本聚类常用停用词表对比研究*
官琴, 邓三鸿, 王昊

Chinese Stopwords for Text Clustering: A Comparative Study
Guan Qin,Deng Sanhong,Wang Hao
表5 四川大学停用词表实验结果统计
指标 第一簇
(艺术)
第二簇
(经济)
第三簇
(体育)
第四簇
(IT)
第五簇
(军事)
平均值
复旦
语料库
P 0.907 0.957 0.971 0.963 0.432 0.846
R 0.979 1 0.447 0.976 0.789 0.838
F1 0.942 0.978 0.612 0.969 0.558 0.812
指标 第一簇
(体育)
第二簇
(艺术)
第三簇
(经济)
第四簇
(IT)
第五簇
(军事)
平均值
搜狗
语料库
P 0.614 0.424 0.743 0.455 0.040 0.455
R 0.847 0.443 0.555 0.305 0.053 0.441
F1 0.712 0.434 0.640 0.365 0.046 0.439
指标 第一簇
(艺术)
第二簇
(体育)
第三簇
(经济)
第四簇
(IT)
第五簇
(军事)
平均值
中文
语料库
P 0.899 0.993 0.644 0.839 0.326 0.740
R 0.950 0.893 0.791 0.634 0.421 0.738
F1 0.924 0.940 0.701 0.740 0.367 0.734