中文文本聚类常用停用词表对比研究*
官琴, 邓三鸿, 王昊

Chinese Stopwords for Text Clustering: A Comparative Study
Guan Qin,Deng Sanhong,Wang Hao
表7 百度去英文停用词表实验结果统计
指标 第一簇
(艺术)
第二簇
(经济)
第三簇
(体育)
第四簇
(IT)
第五簇
(军事)
平均值
复旦
语料库
P 0.964 1 0.440 0.963 0.803 0.834
R 0.925 0.965 0.923 0.763 0.598 0.835
F1 0.944 0.982 0.6 0.851 0.686 0.813
指标 第一簇
(艺术)
第二簇
(体育)
第三簇
(经济)
第四簇
(军事)
第五簇
(IT)
平均值
搜狗
语料库
P 0.929 0.813 0.582 0.539 0.451 0.663
R 0.739 0.924 0.615 0.465 0.528 0.654
F1 0.823 0.865 0.598 0.499 0.486 0.654
指标 第一簇
(艺术)
第二簇
(体育)
第三簇
(经济)
第四簇
(IT)
第五簇
(军事)
平均值
中文
语料库
P 0.964 0.600 0.936 0.659 0.382 0.708
R 0.882 0.804 0.831 0.824 0.241 0.716
F1 0.921 0.687 0.88 0.732 0.300 0.704