中文文本聚类常用停用词表对比研究*
|
官琴, 邓三鸿, 王昊
|
Chinese Stopwords for Text Clustering: A Comparative Study
|
Guan Qin,Deng Sanhong,Wang Hao
|
|
表9 各语料库与文本领域综合统计表-F1值 |
|
|
文本类型 | 语料库 | 百度 | 四川大学 | 哈尔滨工业大学 | 经济 | 复旦语料库 | 0.982 | 0.978 | 0.973 | 搜狗语料库 | 0.598 | 0.640 | 0.449 | 中文语料库 | 0.884 | 0.701 | 0.504 | 平均值 | 0.821 | 0.773 | 0.642 | IT | 复旦语料库 | 0.851 | 0.969 | 0.834 | 搜狗语料库 | 0.480 | 0.365 | 0.567 | 中文语料库 | 0.725 | 0.740 | 0.767 | 平均值 | 0.685 | 0.691 | 0.722 | 军事 | 复旦语料库 | 0.697 | 0.558 | 0.734 | 搜狗语料库 | 0.512 | 0.046 | 0.098 | 中文语料库 | 0.285 | 0.367 | 0.116 | 平均值 | 0.498 | 0.324 | 0.316 | 体育 | 复旦语料库 | 0.597 | 0.612 | 0.600 | 搜狗语料库 | 0.748 | 0.712 | 0.913 | 中文语料库 | 0.687 | 0.940 | 0.426 | 平均值 | 0.677 | 0.755 | 0.646 | 艺术 | 复旦语料库 | 0.944 | 0.942 | 0.937 | 搜狗语料库 | 0.823 | 0.434 | 0.853 | 中文语料库 | 0.921 | 0.924 | 0.943 | 平均值 | 0.896 | 0.767 | 0.911 |
|
|
|