中文文本聚类常用停用词表对比研究*
|
官琴, 邓三鸿, 王昊
|
Chinese Stopwords for Text Clustering: A Comparative Study
|
Guan Qin,Deng Sanhong,Wang Hao
|
|
表4 百度停用词表实验结果统计 |
|
|
| 指标 | 第一簇 (艺术) | 第二簇 (经济) | 第三簇 (体育) | 第四簇 (IT) | 第五簇 (军事) | 平均值 | 复旦 语料库 | P | 0.924 | 0.965 | 0.930 | 0.763 | 0.608 | 0.838 | R | 0.964 | 1 | 0.440 | 0.963 | 0.816 | 0.837 | F1 | 0.944 | 0.982 | 0.597 | 0.851 | 0.697 | 0.814 | | 指标 | 第一簇 (艺术) | 第二簇 (体育) | 第三簇 (经济) | 第四簇 (军事) | 第五簇 (IT) | 平均值 | 搜狗 语料库 | P | 0.739 | 0.693 | 0.615 | 0.477 | 0.521 | 0.609 | R | 0.929 | 0.813 | 0.582 | 0.553 | 0.445 | 0.664 | F1 | 0.823 | 0.748 | 0.598 | 0.512 | 0.480 | 0.632 | | 指标 | 第一簇 (艺术) | 第二簇 (体育) | 第三簇 (经济) | 第四簇 (IT) | 第五簇 (军事) | 平均值 | 中文 语料库 | P | 0.882 | 0.803 | 0.831 | 0.817 | 0.233 | 0.547 | R | 0.964 | 0.600 | 0.936 | 0.652 | 0.368 | 0.704 | F1 | 0.921 | 0.687 | 0.884 | 0.725 | 0.285 | 0.700 |
|
|
|