中文文本聚类常用停用词表对比研究*
|
官琴, 邓三鸿, 王昊
|
Chinese Stopwords for Text Clustering: A Comparative Study
|
Guan Qin,Deng Sanhong,Wang Hao
|
|
表6 哈尔滨工业大学停用词表实验结果统计 |
|
|
| 指标 | 第一簇 (艺术) | 第二簇 (经济) | 第三簇 (体育) | 第四簇 (IT) | 第五簇 (军事) | 平均值 | 复旦 语料库 | P | 0.924 | 0.948 | 0.943 | 0.732 | 0.667 | 0.843 | R | 0.950 | 1 | 0.440 | 0.970 | 0.816 | 0.835 | F1 | 0.937 | 0.973 | 0.600 | 0.834 | 0.734 | 0.816 | | 指标 | 第一簇 (艺术) | 第二簇 (体育) | 第三簇 (经济) | 第四簇 (IT) | 第五簇 (军事) | 平均值 | 搜狗 语料库 | P | 0.788 | 1 | 0.545 | 0.535 | 0.092 | 0.592 | R | 0.929 | 0.840 | 0.382 | 0.604 | 0.105 | 0.572 | F1 | 0.853 | 0.913 | 0.449 | 0.567 | 0.098 | 0.576 | | 指标 | 第一簇 (艺术) | 第二簇 (经济) | 第三簇 (军事) | 第四簇 (IT) | 第五簇 (体育) | 平均值 | 中文语料库 | P | 0.937 | 0.438 | 0.135 | 0.743 | 0.605 | 0.572 | R | 0.950 | 0.636 | 0.105 | 0.793 | 0.393 | 0.575 | F1 | 0.943 | 0.504 | 0.116 | 0.767 | 0.426 | 0.551 |
|
|
|