中文文本聚类常用停用词表对比研究*
官琴, 邓三鸿, 王昊

Chinese Stopwords for Text Clustering: A Comparative Study
Guan Qin,Deng Sanhong,Wang Hao
表4 百度停用词表实验结果统计
指标 第一簇
(艺术)
第二簇
(经济)
第三簇
(体育)
第四簇
(IT)
第五簇
(军事)
平均值
复旦
语料库
P 0.924 0.965 0.930 0.763 0.608 0.838
R 0.964 1 0.440 0.963 0.816 0.837
F1 0.944 0.982 0.597 0.851 0.697 0.814
指标 第一簇
(艺术)
第二簇
(体育)
第三簇
(经济)
第四簇
(军事)
第五簇
(IT)
平均值
搜狗
语料库
P 0.739 0.693 0.615 0.477 0.521 0.609
R 0.929 0.813 0.582 0.553 0.445 0.664
F1 0.823 0.748 0.598 0.512 0.480 0.632
指标 第一簇
(艺术)
第二簇
(体育)
第三簇
(经济)
第四簇
(IT)
第五簇
(军事)
平均值
中文
语料库
P 0.882 0.803 0.831 0.817 0.233 0.547
R 0.964 0.600 0.936 0.652 0.368 0.704
F1 0.921 0.687 0.884 0.725 0.285 0.700