中文文本聚类常用停用词表对比研究*
|
官琴, 邓三鸿, 王昊
|
Chinese Stopwords for Text Clustering: A Comparative Study
|
Guan Qin,Deng Sanhong,Wang Hao
|
|
表5 四川大学停用词表实验结果统计 |
|
|
| 指标 | 第一簇 (艺术) | 第二簇 (经济) | 第三簇 (体育) | 第四簇 (IT) | 第五簇 (军事) | 平均值 | 复旦 语料库 | P | 0.907 | 0.957 | 0.971 | 0.963 | 0.432 | 0.846 | R | 0.979 | 1 | 0.447 | 0.976 | 0.789 | 0.838 | F1 | 0.942 | 0.978 | 0.612 | 0.969 | 0.558 | 0.812 | | 指标 | 第一簇 (体育) | 第二簇 (艺术) | 第三簇 (经济) | 第四簇 (IT) | 第五簇 (军事) | 平均值 | 搜狗 语料库 | P | 0.614 | 0.424 | 0.743 | 0.455 | 0.040 | 0.455 | R | 0.847 | 0.443 | 0.555 | 0.305 | 0.053 | 0.441 | F1 | 0.712 | 0.434 | 0.640 | 0.365 | 0.046 | 0.439 | | 指标 | 第一簇 (艺术) | 第二簇 (体育) | 第三簇 (经济) | 第四簇 (IT) | 第五簇 (军事) | 平均值 | 中文 语料库 | P | 0.899 | 0.993 | 0.644 | 0.839 | 0.326 | 0.740 | R | 0.950 | 0.893 | 0.791 | 0.634 | 0.421 | 0.738 | F1 | 0.924 | 0.940 | 0.701 | 0.740 | 0.367 | 0.734 |
|
|
|