中文文本聚类常用停用词表对比研究*
官琴, 邓三鸿, 王昊

Chinese Stopwords for Text Clustering: A Comparative Study
Guan Qin,Deng Sanhong,Wang Hao
表9 各语料库与文本领域综合统计表-F1值
文本类型 语料库 百度 四川大学 哈尔滨工业大学
经济 复旦语料库 0.982 0.978 0.973
搜狗语料库 0.598 0.640 0.449
中文语料库 0.884 0.701 0.504
平均值 0.821 0.773 0.642
IT 复旦语料库 0.851 0.969 0.834
搜狗语料库 0.480 0.365 0.567
中文语料库 0.725 0.740 0.767
平均值 0.685 0.691 0.722
军事 复旦语料库 0.697 0.558 0.734
搜狗语料库 0.512 0.046 0.098
中文语料库 0.285 0.367 0.116
平均值 0.498 0.324 0.316
体育 复旦语料库 0.597 0.612 0.600
搜狗语料库 0.748 0.712 0.913
中文语料库 0.687 0.940 0.426
平均值 0.677 0.755 0.646
艺术 复旦语料库 0.944 0.942 0.937
搜狗语料库 0.823 0.434 0.853
中文语料库 0.921 0.924 0.943
平均值 0.896 0.767 0.911