中文文本聚类常用停用词表对比研究*
|
官琴, 邓三鸿, 王昊
|
Chinese Stopwords for Text Clustering: A Comparative Study
|
Guan Qin,Deng Sanhong,Wang Hao
|
|
表13 全停用词表对比结果 |
|
|
文本类型 | 语料库 | 最优值 | 全停用词表 | 经济 | 复旦语料库 | 0.982 | 0.982 | 搜狗语料库 | 0.598 | 0.279 | 中文语料库 | 0.884 | 0.880 | 平均值 | 0.821 | 0.713 | IT | 复旦语料库 | 0.834 | 0.976 | 搜狗语料库 | 0.567 | 0.463 | 中文语料库 | 0.767 | 0.727 | 平均值 | 0.722 | 0.722 | 军事 | 复旦语料库 | 0.697 | 0.576 | 搜狗语料库 | 0.512 | 0.588 | 中文语料库 | 0.285 | 0.576 | 平均值 | 0.498 | 0.580 | 体育 | 复旦语料库 | 0.612 | 0.600 | 搜狗语料库 | 0.712 | 0.688 | 中文语料库 | 0.940 | 0.698 | 平均值 | 0.755 | 0.622 | 艺术 | 复旦语料库 | 0.937 | 0.986 | 搜狗语料库 | 0.853 | 0.827 | 中文语料库 | 0.943 | 0.922 | 平均值 | 0.911 | 0.912 |
|
|
|