Please wait a minute...
Data Analysis and Knowledge Discovery  2017, Vol. 1 Issue (3): 72-80    DOI: 10.11925/infotech.2096-3467.2017.03.09
Orginal Article Current Issue | Archive | Adv Search |
Chinese Stopwords for Text Clustering: A Comparative Study
Guan Qin, Deng Sanhong(), Wang Hao
School of Information Management, Nanjing University, Nanjing 210023, China
Jiangsu Key Lab of Data Engineering and Knowledge Service, Nanjing 210023, China
Download: PDF (565 KB)   HTML ( 21
Export: BibTeX | EndNote (RIS)      
Abstract  

[Objective] This paper compares and analyzes the impacts of stopwords on textual data processing, aiming to improve the construction and use of stopwords. [Methods] We obtained stopword lists from Baidu Search Engine, Harbin Institute of Technology and the Machine Learning Laboratory of Sichuan University for this study. First, we processed text message with the stopword lists and Chinese word segmentation technique, the TF-IDF feature evaluation function and the VSM vector model. Secondly, we analysed the texts with the K-means algorithm to calculate the P, R and F1 values. [Results] Different stopword lists posed various effects to the text data processing tasks. The length of the list and the content structure of the texts directly influenced the clustering results. More importantly, the two-character stopwords was the biggest factor. [Limitations] The text types and quantity were limited. More research is needed to analyze the text with different types of stop words. [Conclusions] Stopword list poses significant impacts on text clustering, thus, it is extremely important to build or choose the appropriate Chinese stopword list. However, excessively increasing the number of stop words might not always improve the clustering results.

Key wordsText Clustering      Stopword List      K-means     
Received: 05 December 2016      Published: 25 March 2006
:  TP391  

Cite this article:

Guan Qin,Deng Sanhong,Wang Hao. Chinese Stopwords for Text Clustering: A Comparative Study. Data Analysis and Knowledge Discovery, 2017, 1(3): 72-80.

URL:

https://manu44.magtech.com.cn/Jwk_infotech_wk3/EN/10.11925/infotech.2096-3467.2017.03.09     OR     https://manu44.magtech.com.cn/Jwk_infotech_wk3/EN/Y2017/V1/I3/72

经济 IT 军事 体育 艺术
文本数 110 164 76 150 140
停用词表 符号 英文 单字词 两字词 三字词 四字词 其他 共计
百度 7 547 173 620 29 19 0 1 395
四川大学 0 0 26 663 80 84 6 859
哈尔滨工业
大学
236 0 167 290 23 19 0 750
对比词表 单字词 两字词 三字词 四字词 共计
百度-四川大学 22 311 23 19 374
百度-哈尔滨工
业大学
167 288 22 18 493
四川大学-哈尔
滨工业大学
22 276 22 18 338
百度-四川大学-
哈尔滨工业大学
22 275 22 18 337
指标 第一簇
(艺术)
第二簇
(经济)
第三簇
(体育)
第四簇
(IT)
第五簇
(军事)
平均值
复旦
语料库
P 0.924 0.965 0.930 0.763 0.608 0.838
R 0.964 1 0.440 0.963 0.816 0.837
F1 0.944 0.982 0.597 0.851 0.697 0.814
指标 第一簇
(艺术)
第二簇
(体育)
第三簇
(经济)
第四簇
(军事)
第五簇
(IT)
平均值
搜狗
语料库
P 0.739 0.693 0.615 0.477 0.521 0.609
R 0.929 0.813 0.582 0.553 0.445 0.664
F1 0.823 0.748 0.598 0.512 0.480 0.632
指标 第一簇
(艺术)
第二簇
(体育)
第三簇
(经济)
第四簇
(IT)
第五簇
(军事)
平均值
中文
语料库
P 0.882 0.803 0.831 0.817 0.233 0.547
R 0.964 0.600 0.936 0.652 0.368 0.704
F1 0.921 0.687 0.884 0.725 0.285 0.700
指标 第一簇
(艺术)
第二簇
(经济)
第三簇
(体育)
第四簇
(IT)
第五簇
(军事)
平均值
复旦
语料库
P 0.907 0.957 0.971 0.963 0.432 0.846
R 0.979 1 0.447 0.976 0.789 0.838
F1 0.942 0.978 0.612 0.969 0.558 0.812
指标 第一簇
(体育)
第二簇
(艺术)
第三簇
(经济)
第四簇
(IT)
第五簇
(军事)
平均值
搜狗
语料库
P 0.614 0.424 0.743 0.455 0.040 0.455
R 0.847 0.443 0.555 0.305 0.053 0.441
F1 0.712 0.434 0.640 0.365 0.046 0.439
指标 第一簇
(艺术)
第二簇
(体育)
第三簇
(经济)
第四簇
(IT)
第五簇
(军事)
平均值
中文
语料库
P 0.899 0.993 0.644 0.839 0.326 0.740
R 0.950 0.893 0.791 0.634 0.421 0.738
F1 0.924 0.940 0.701 0.740 0.367 0.734
指标 第一簇
(艺术)
第二簇
(经济)
第三簇
(体育)
第四簇
(IT)
第五簇
(军事)
平均值
复旦
语料库
P 0.924 0.948 0.943 0.732 0.667 0.843
R 0.950 1 0.440 0.970 0.816 0.835
F1 0.937 0.973 0.600 0.834 0.734 0.816
指标 第一簇
(艺术)
第二簇
(体育)
第三簇
(经济)
第四簇
(IT)
第五簇
(军事)
平均值
搜狗
语料库
P 0.788 1 0.545 0.535 0.092 0.592
R 0.929 0.840 0.382 0.604 0.105 0.572
F1 0.853 0.913 0.449 0.567 0.098 0.576
指标 第一簇
(艺术)
第二簇
(经济)
第三簇
(军事)
第四簇
(IT)
第五簇
(体育)
平均值
中文语料库 P 0.937 0.438 0.135 0.743 0.605 0.572
R 0.950 0.636 0.105 0.793 0.393 0.575
F1 0.943 0.504 0.116 0.767 0.426 0.551
指标 第一簇
(艺术)
第二簇
(经济)
第三簇
(体育)
第四簇
(IT)
第五簇
(军事)
平均值
复旦
语料库
P 0.964 1 0.440 0.963 0.803 0.834
R 0.925 0.965 0.923 0.763 0.598 0.835
F1 0.944 0.982 0.6 0.851 0.686 0.813
指标 第一簇
(艺术)
第二簇
(体育)
第三簇
(经济)
第四簇
(军事)
第五簇
(IT)
平均值
搜狗
语料库
P 0.929 0.813 0.582 0.539 0.451 0.663
R 0.739 0.924 0.615 0.465 0.528 0.654
F1 0.823 0.865 0.598 0.499 0.486 0.654
指标 第一簇
(艺术)
第二簇
(体育)
第三簇
(经济)
第四簇
(IT)
第五簇
(军事)
平均值
中文
语料库
P 0.964 0.600 0.936 0.659 0.382 0.708
R 0.882 0.804 0.831 0.824 0.241 0.716
F1 0.921 0.687 0.88 0.732 0.300 0.704
指标 第一簇
(艺术)
第二簇
(经济)
第三簇
(体育)
第四簇
(IT)
第五簇
(军事)
平均值
复旦
语料库
P 0.938 0.965 0.943 0.976 0.438 0.852
R 0.979 1 0.440 0.976 0.842 0.847
F1 0.986 0.982 0.600 0.976 0.576 0.855
指标 第一簇
(艺术)
第二簇
(经济)
第三簇
(军事)
第四簇
(体育)
第五簇
(IT)
平均值
搜狗
语料库
P 0.787 0.325 0.468 0.876 0.446 0.580
R 0.871 0.245 0.789 0.567 0.482 0.591
F1 0.827 0.279 0.588 0.688 0.463 0.586
指标 第一簇
(艺术)
第二簇
(体育)
第三簇
(经济)
第四簇
(IT)
第五簇
(军事)
平均值
中文
语料库
P 0.882 0.833 0.831 0.831 0.467 0.769
R 0.964 0.600 0.936 0.646 0.750 0.779
F1 0.922 0.698 0.880 0.727 0.576 0.774
文本类型 语料库 百度 四川大学 哈尔滨工业大学
经济 复旦语料库 0.982 0.978 0.973
搜狗语料库 0.598 0.640 0.449
中文语料库 0.884 0.701 0.504
平均值 0.821 0.773 0.642
IT 复旦语料库 0.851 0.969 0.834
搜狗语料库 0.480 0.365 0.567
中文语料库 0.725 0.740 0.767
平均值 0.685 0.691 0.722
军事 复旦语料库 0.697 0.558 0.734
搜狗语料库 0.512 0.046 0.098
中文语料库 0.285 0.367 0.116
平均值 0.498 0.324 0.316
体育 复旦语料库 0.597 0.612 0.600
搜狗语料库 0.748 0.712 0.913
中文语料库 0.687 0.940 0.426
平均值 0.677 0.755 0.646
艺术 复旦语料库 0.944 0.942 0.937
搜狗语料库 0.823 0.434 0.853
中文语料库 0.921 0.924 0.943
平均值 0.896 0.767 0.911
经济 IT 军事 体育 艺术 平均值
百度 0.821 0.685 0.498 0.677 0.896 0.716
四川大学 0.773 0.691 0.324 0.775 0.767 0.667
哈尔滨工业
大学
0.642 0.722 0.316 0.646 0.911 0.647
平均值 0.745 0.699 0.379 0.699 0.858 0.676
复旦 搜狗 中文 平均值
百度 0.814 0.632 0.700 0.715
四川大学 0.812 0.439 0.734 0.662
哈尔滨工业大学 0.816 0.576 0.551 0.648
文本类型 语料库 百度 百度(去英文)
经济 复旦语料库 0.982 0.982
搜狗语料库 0.598 0.598
中文语料库 0.884 0.880
IT 复旦语料库 0.851 0.851
搜狗语料库 0.480 0.486
中文语料库 0.725 0.732
军事 复旦语料库 0.697 0.686
搜狗语料库 0.512 0.499
中文语料库 0.285 0.300
体育 复旦语料库 0.597 0.600
搜狗语料库 0.748 0.865
中文语料库 0.687 0.687
艺术 复旦语料库 0.944 0.944
搜狗语料库 0.823 0.823
中文语料库 0.921 0.921
文本类型 语料库 最优值 全停用词表
经济 复旦语料库 0.982 0.982
搜狗语料库 0.598 0.279
中文语料库 0.884 0.880
平均值 0.821 0.713
IT 复旦语料库 0.834 0.976
搜狗语料库 0.567 0.463
中文语料库 0.767 0.727
平均值 0.722 0.722
军事 复旦语料库 0.697 0.576
搜狗语料库 0.512 0.588
中文语料库 0.285 0.576
平均值 0.498 0.580
体育 复旦语料库 0.612 0.600
搜狗语料库 0.712 0.688
中文语料库 0.940 0.698
平均值 0.755 0.622
艺术 复旦语料库 0.937 0.986
搜狗语料库 0.853 0.827
中文语料库 0.943 0.922
平均值 0.911 0.912
[1] Feldman R, Dagan I.Knowledge Discovery in Textual Databases (KDT)[C]//Proceedings of International Conference on Knowledge Discovery and Data Mining. 1995: 112-117.
[2] Ahonen-Myka H, Heinonen O, Klemettinen M, et al.Applying Data Mining Techniques in Text Analysis[R]. Technical Report C-1997-23, Department of Computer Science, University of Helsinki, 1997.
[3] Luhn H P.A Statistical Approach to Mechanized Encoding and Searching of Literary Information[J]. IBM Journal of Research and Development, 1957, 1(4): 309-317.
doi: 10.1147/rd.14.0309
[4] Luhn H P.The Automatic Creation of Literature Abstracts[J]. IBM Journal of Research Development, 1958, 2(2): 159-165.
doi: 10.1147/rd.22.0159
[5] Francis W N, Kučera H, Mackie A W.Frequency Analysis of English Usage[J]. Frequency Analysis of English Usage Lexicon & Grammar, 1982, 18: 64-70.
[6] Frakes W B, Baeza-Yates R.Information Retrieval: Data Structures and Algorithms[M]. Prentice-Hall, Inc. ,1992.
[7] Lo T W, He B, Ounis I.Automatically Building a Stopword List for an Information Retrieval System[J]. Journal of Digital Information Management, 2005, 3(1): 3-8.
[8] 江兆中. 基于语境和停用词驱动的中文自动分词研究[D]. 合肥: 合肥工业大学, 2010.
[8] (Jiang Zhaozhong.Chinese Words Segmentation Based on Context and Stopwords[D]. Hefei: Hefei University of Technology, 2010.)
[9] 熊文新, 宋柔. 信息检索用户查询语句的停用词过滤[J]. 计算机工程, 2007, 33(6): 195-197.
doi: 10.3969/j.issn.1000-3428.2007.06.068
[9] (Xiong Wenxin, Song Rou.Removal of Stop Word in Users’ Request for Information Retrieval[J]. Computer Engineering, 2007, 33(6): 195-197.)
doi: 10.3969/j.issn.1000-3428.2007.06.068
[10] 周钦强, 孙炳达, 王义. 文本自动分类系统文本预处理方法的研究[J]. 计算机应用研究, 2005(2): 85-86.
doi: 10.3969/j.issn.1001-3695.2005.02.029
[10] (Zhou Qinqiang, Sun Bingda, Wang Yi.Study on New Pretreatment Method for Chinese Text Classification System[J]. Application Research of Computers, 2005(2): 85-86.)
doi: 10.3969/j.issn.1001-3695.2005.02.029
[11] Yang B Y, Pedersen J O.A Comparative Study on Feature[C]//Proceedings of International Conference on Machine Learning. 2010.
[12] Silva C, Ribeiro B.The Importance of Stop Word Removal on Recall Values in Text Categorization[C]// Proceedings of the International Joint Conference on Neural Networks.2003, 3: 20-24.
[13] Tomov D T.Some Critical Remarks on the Stop Word Lists of ISI Publications[J]. Journal of Documentation, 2001, 57(6): 798-808.
doi: 10.1108/EUM0000000007101
[14] 化柏林. 知识抽取中的停用词处理技术[J]. 现代图书情报技术, 2007(8): 48-51.
doi: 10.3969/j.issn.1003-3513.2007.08.011
[14] (Hua Bolin, Stop-Word Processing Technique in Knowledge Extraction[J]. New Technology of Library and Information Service, 2007(8): 48-51.)
doi: 10.3969/j.issn.1003-3513.2007.08.011
[15] Van Rijsbergen C J. Information Retrieval[M]. London: Butterworths, 1975.
[16] Fox C.A Stop List for General Text[J]. ACM SIGIR Forum, 1990, 24(1-2): 19-21.
[17] 陈欣, 张菁, 李晓光, 等. 一种面向中文敏感网页识别的文本分类方法[J]. 测控技术, 2011,30(5): 27-31.
doi: 10.3969/j.issn.1000-8829.2011.05.006
[17] (Chen Xin, Zhang Jing, Li Xiaoguang, et al.A Text Classification Method for Chinese Pornographic Web Recognition[J]. Measurement & Control Technology, 2011,30(5): 27-31.)
doi: 10.3969/j.issn.1000-8829.2011.05.006
[18] 顾益军, 樊孝忠, 王建华, 等. 中文停用词表的自动选取[J]. 北京理工大学学报, 2005, 25(4): 337-340.
doi: 10.3969/j.issn.1001-0645.2005.04.014
[18] (Gu Yijun, Fan Xiaozhong, Wang Jianhua, et al.Automatic Selection of Chinese Stoplist[J]. Transactions of Beijing Institute of Technology, 2005, 25(4): 337-340.)
doi: 10.3969/j.issn.1001-0645.2005.04.014
[19] 崔彩霞. 停用词的选取对文本分类效果的影响研究[J]. 太原师范学院学报:自然科学版, 2008, 7(4): 91-93.
doi: 10.3969/j.issn.1672-2027.2008.04.026
[19] (Cui Caixia.Research on the Effect of Stop Words Selection on Text Categorization[J]. Journal of Taiyuan Normal University: Natural Science Edition, 2008, 7(4): 91-93.)
doi: 10.3969/j.issn.1672-2027.2008.04.026
[20] Zou F, Wang F L, Deng X, et al.Automatic Construction of Chinese Stop Word List[C] // Proceedings of the International Conference on Applied Computer Science. 2006: 16-18.
[21] 王素格, 魏英杰. 停用词表对中文文本情感分类的影响[J]. 情报学报, 2008, 27(2): 175-179.
doi: 10.3969/j.issn.1000-0135.2008.02.003
[21] (Wang Suge, Wei Yingjie.The Influence of Stoplist on the Chinese Text Sentiment Categorization[J]. Journal of the China Society for Scientific and Technical Information, 2008, 27(2): 175-179.)
doi: 10.3969/j.issn.1000-0135.2008.02.003
[22] 周姚. 基于云计算的文本挖掘技术研究[D]. 长沙: 国防科学技术大学, 2011.
[22] (Zhou Yao.Cloud Computing-based Research on Text Mining Techniques[D]. Changsha: National University of Defense Technology, 2011. )
[23] Makrehchi M, Kamel M S.Automatic Extraction of Domain- Specific Stopwords from Labeled Documents[C] // Proceedings of European Conference on IR Research(ECIR 2008), Glasgow, UK. 2008: 222-233.
[24] 华林森. 中文文本情感分类研究[D]. 重庆: 重庆大学, 2014.
[24] (Hua Linsen.Study on Chinese Text Sentiment Classification[D]. Chongqing: Chongqing University, 2014.)
[25] 搜狗实验室. 搜狐新闻数据[DB/OL]. [2016-07-05]. .
[25] (Sogou Labs. Sohu News Data [DB/OL]. [2016-07-05].
[26] 李梅. 改进的K均值算法在中文文本聚类中的研究[D]. 合肥: 安徽大学, 2010.
[26] (Li Mei.Study of Chinese Text Clustering on Improved K-means Algorithm[D]. Hefei: Anhui University, 2010.)
[27] 黄磊, 伍雁鹏, 朱群峰. 关键词自动提取方法的研究与改进[J]. 计算机科学, 2014, 41(6): 204-207.
doi: 10.3969/j.issn.1002-137X.2014.06.040
[27] (Huang Lei, Wu Yanpeng, Zhu Qunfeng.Research and Improvement of TFIDF Text Feature Weighting Method[J]. Computer Science, 2014, 41(6): 204-207.)
doi: 10.3969/j.issn.1002-137X.2014.06.040
[28] 数据堂. 文本分类语料库(复旦)测试语料[DB/OL]. [2016- 07-05]. .
[28] (Data Hall. Text Classification Corpus (Fudan) Test Corpus [DB/OL]. [2016-07-05].
[29] 胡晓辉. 基于团结构的文本分类技术研究[D]. 南昌: 江西师范大学, 2008.
[29] (Hu Xiaohui.The Research on Text Classification Based on Clique Model[D]. Nanchang: Jiangxi Normal University, 2008.)
[30] 孙国菊, 张杰. 中文文本分类的特征选取评价[J]. 哈尔滨理工大学学报, 2005, 10(1): 76-78.
doi: 10.3969/j.issn.1007-2683.2005.01.022
[30] (Sun Guoju, Zhang Jie.An Evaluation of Feature Selection Methods for Text Categorization[J]. Journal of Harbin University of Science and Technology, 2005, 10(1): 76-78.)
doi: 10.3969/j.issn.1007-2683.2005.01.022
[31] 数据堂. 中文文本分类语料[DB/OL]. [2016-07-05]. .
[31] (Data Hall. Chinese Text Categorization Corpus [DB/OL]. [2016-07-05].
[32] 数据堂. 停用词集合[DB/OL]. [2016-07-05]. .
[32] (Data Hall. Stop Words Set [DB/OL]. [2016-07-05].
[33] 于娟, 尹积栋, 费庶. 基于句法结构分析的同义词识别方法研究[J]. 现代图书情报技术, 2013(9): 35-40.
[33] (Yu Juan, Yin Jidong, Fei Shu.Identifying Synonyms Based on Sentence Structure Analysis[J]. New Technology of Library and Information Service, 2013(9): 35-40. )
[34] 费洪晓, 康松林, 朱小娟, 等. 基于词频统计的中文分词的研究[J]. 计算机工程与应用, 2005, 41(7): 67-68.
doi: 10.3321/j.issn:1002-8331.2005.07.024
[34] (Fei Hongxiao, Kang Songlin, Zhu Xiaojuan, et al.Chinese Word Segmentation Research Based on Statistic the Frequency of the Word[J]. Computer Engineering and Applications, 2005, 41(7): 67-68.)
doi: 10.3321/j.issn:1002-8331.2005.07.024
[1] Huaming Zhao,Li Yu,Qiang Zhou. Determining Best Text Clustering Number with Mean Shift Algorithm[J]. 数据分析与知识发现, 2019, 3(9): 27-35.
[2] Quan Lu,Anqi Zhu,Jiyue Zhang,Jing Chen. Research on User Information Requirement in Chinese Network Health Community: Taking Tumor-forum Data of Qiuyi as an Example[J]. 数据分析与知识发现, 2019, 3(4): 22-32.
[3] Tingxin Wen,Yangzi Li,Jingshuang Sun. News Hotspots Discovery Method Based on Multi Factor Feature Selection and AFOA/K-means[J]. 数据分析与知识发现, 2019, 3(4): 97-106.
[4] Zhang Tao,Ma Haiqun. Clustering Policy Texts Based on LDA Topic Model[J]. 数据分析与知识发现, 2018, 2(9): 59-65.
[5] Liu Hongwei,Gao Hongming,Chen Li,Zhan Mingjun,Liang Zhouyang. Identifying User Interests Based on Browsing Behaviors[J]. 数据分析与知识发现, 2018, 2(2): 74-85.
[6] Jia Xiaoting,Wang Mingyang,Cao Yu. Automatic Abstracting of Chinese Document with Doc2Vec and Improved Clustering Algorithm[J]. 数据分析与知识发现, 2018, 2(2): 86-95.
[7] Liu Minghui. Risk Assessment of Civil Aviation Terrorism Based on K-means Clustering[J]. 数据分析与知识发现, 2018, 2(10): 21-26.
[8] Wang Xueying,Zhang Zixuan,Wang Hao,Deng Sanhong. Evaluating Brands of Agriculture Products: A Literature Review[J]. 数据分析与知识发现, 2017, 1(7): 13-21.
[9] Fang Xiaofei,Huang Xiaoxi,Wang Rongbo,Chen Zhiqun,Wang Xiaohua. Identifying Hot Topics from Mobile Complaint Texts[J]. 数据分析与知识发现, 2017, 1(2): 19-27.
[10] Liu Ruilun,Ye Wenhao,Gao Ruiqing,Tang Mengjia,Wang Dongbo. Research on Text Clustering Based on Requirements of Big Data Jobs[J]. 数据分析与知识发现, 2017, 1(12): 32-40.
[11] Niu Liang. New Research and Application with Co-topics Network[J]. 现代图书情报技术, 2016, 32(7-8): 137-146.
[12] Chen Dongyi,Zhou Zicheng,Jiang Shengyi,Wang Lianxi,Wu Jialin. A Framework for Customer Segmentation on Enterprises’ Microblog[J]. 现代图书情报技术, 2016, 32(2): 43-51.
[13] Gong Kaile,Cheng Ying,Sun Jianjun. Clustering Blog Posts with Co-occurrence Analysis[J]. 现代图书情报技术, 2016, 32(10): 50-58.
[14] Chen Ting, Han Tao, Li Zexia, Li Guopeng, Wang Xiaomei. Research on Comparison Method of Scientific Funding Layout——Take NSF and EU FP Grants for Instance[J]. 现代图书情报技术, 2015, 31(7-8): 89-96.
[15] Ren Yuwei, Lv Xueqiang, Li Zhuo, Xu Liping. Named Entity Recognition from Search Log[J]. 现代图书情报技术, 2015, 31(6): 49-56.
  Copyright © 2016 Data Analysis and Knowledge Discovery   Tel/Fax:(010)82626611-6626,82624938   E-mail:jishu@mail.las.ac.cn