中文文本聚类常用停用词表对比研究*
|
官琴, 邓三鸿, 王昊
|
Chinese Stopwords for Text Clustering: A Comparative Study
|
Guan Qin,Deng Sanhong,Wang Hao
|
|
表7 百度去英文停用词表实验结果统计 |
|
|
| 指标 | 第一簇 (艺术) | 第二簇 (经济) | 第三簇 (体育) | 第四簇 (IT) | 第五簇 (军事) | 平均值 | 复旦 语料库 | P | 0.964 | 1 | 0.440 | 0.963 | 0.803 | 0.834 | R | 0.925 | 0.965 | 0.923 | 0.763 | 0.598 | 0.835 | F1 | 0.944 | 0.982 | 0.6 | 0.851 | 0.686 | 0.813 | | 指标 | 第一簇 (艺术) | 第二簇 (体育) | 第三簇 (经济) | 第四簇 (军事) | 第五簇 (IT) | 平均值 | 搜狗 语料库 | P | 0.929 | 0.813 | 0.582 | 0.539 | 0.451 | 0.663 | R | 0.739 | 0.924 | 0.615 | 0.465 | 0.528 | 0.654 | F1 | 0.823 | 0.865 | 0.598 | 0.499 | 0.486 | 0.654 | | 指标 | 第一簇 (艺术) | 第二簇 (体育) | 第三簇 (经济) | 第四簇 (IT) | 第五簇 (军事) | 平均值 | 中文 语料库 | P | 0.964 | 0.600 | 0.936 | 0.659 | 0.382 | 0.708 | R | 0.882 | 0.804 | 0.831 | 0.824 | 0.241 | 0.716 | F1 | 0.921 | 0.687 | 0.88 | 0.732 | 0.300 | 0.704 |
|
|
|