中文文本聚类常用停用词表对比研究*
官琴, 邓三鸿, 王昊

Chinese Stopwords for Text Clustering: A Comparative Study
Guan Qin,Deng Sanhong,Wang Hao
表6 哈尔滨工业大学停用词表实验结果统计
指标 第一簇
(艺术)
第二簇
(经济)
第三簇
(体育)
第四簇
(IT)
第五簇
(军事)
平均值
复旦
语料库
P 0.924 0.948 0.943 0.732 0.667 0.843
R 0.950 1 0.440 0.970 0.816 0.835
F1 0.937 0.973 0.600 0.834 0.734 0.816
指标 第一簇
(艺术)
第二簇
(体育)
第三簇
(经济)
第四簇
(IT)
第五簇
(军事)
平均值
搜狗
语料库
P 0.788 1 0.545 0.535 0.092 0.592
R 0.929 0.840 0.382 0.604 0.105 0.572
F1 0.853 0.913 0.449 0.567 0.098 0.576
指标 第一簇
(艺术)
第二簇
(经济)
第三簇
(军事)
第四簇
(IT)
第五簇
(体育)
平均值
中文语料库 P 0.937 0.438 0.135 0.743 0.605 0.572
R 0.950 0.636 0.105 0.793 0.393 0.575
F1 0.943 0.504 0.116 0.767 0.426 0.551