中文文本聚类常用停用词表对比研究*
官琴, 邓三鸿, 王昊

Chinese Stopwords for Text Clustering: A Comparative Study
Guan Qin,Deng Sanhong,Wang Hao
表13 全停用词表对比结果
文本类型 语料库 最优值 全停用词表
经济 复旦语料库 0.982 0.982
搜狗语料库 0.598 0.279
中文语料库 0.884 0.880
平均值 0.821 0.713
IT 复旦语料库 0.834 0.976
搜狗语料库 0.567 0.463
中文语料库 0.767 0.727
平均值 0.722 0.722
军事 复旦语料库 0.697 0.576
搜狗语料库 0.512 0.588
中文语料库 0.285 0.576
平均值 0.498 0.580
体育 复旦语料库 0.612 0.600
搜狗语料库 0.712 0.688
中文语料库 0.940 0.698
平均值 0.755 0.622
艺术 复旦语料库 0.937 0.986
搜狗语料库 0.853 0.827
中文语料库 0.943 0.922
平均值 0.911 0.912