中文文本聚类常用停用词表对比研究*
|
官琴, 邓三鸿, 王昊
|
Chinese Stopwords for Text Clustering: A Comparative Study
|
Guan Qin,Deng Sanhong,Wang Hao
|
|
表8 全停用词表实验结果统计 |
|
|
| 指标 | 第一簇 (艺术) | 第二簇 (经济) | 第三簇 (体育) | 第四簇 (IT) | 第五簇 (军事) | 平均值 | 复旦 语料库 | P | 0.938 | 0.965 | 0.943 | 0.976 | 0.438 | 0.852 | R | 0.979 | 1 | 0.440 | 0.976 | 0.842 | 0.847 | F1 | 0.986 | 0.982 | 0.600 | 0.976 | 0.576 | 0.855 | | 指标 | 第一簇 (艺术) | 第二簇 (经济) | 第三簇 (军事) | 第四簇 (体育) | 第五簇 (IT) | 平均值 | 搜狗 语料库 | P | 0.787 | 0.325 | 0.468 | 0.876 | 0.446 | 0.580 | R | 0.871 | 0.245 | 0.789 | 0.567 | 0.482 | 0.591 | F1 | 0.827 | 0.279 | 0.588 | 0.688 | 0.463 | 0.586 | | 指标 | 第一簇 (艺术) | 第二簇 (体育) | 第三簇 (经济) | 第四簇 (IT) | 第五簇 (军事) | 平均值 | 中文 语料库 | P | 0.882 | 0.833 | 0.831 | 0.831 | 0.467 | 0.769 | R | 0.964 | 0.600 | 0.936 | 0.646 | 0.750 | 0.779 | F1 | 0.922 | 0.698 | 0.880 | 0.727 | 0.576 | 0.774 |
|
|
|