Please wait a minute...
Advanced Search
数据分析与知识发现  2017, Vol. 1 Issue (3): 72-80     https://doi.org/10.11925/infotech.2096-3467.2017.03.09
  研究论文 本期目录 | 过刊浏览 | 高级检索 |
中文文本聚类常用停用词表对比研究*
官琴, 邓三鸿(), 王昊
南京大学信息管理学院 南京 210023
江苏省数据工程与知识服务重点实验室 南京 210023
Chinese Stopwords for Text Clustering: A Comparative Study
Guan Qin, Deng Sanhong(), Wang Hao
School of Information Management, Nanjing University, Nanjing 210023, China
Jiangsu Key Lab of Data Engineering and Knowledge Service, Nanjing 210023, China
全文: PDF (565 KB)   HTML ( 19
输出: BibTeX | EndNote (RIS)      
摘要 

目的】通过实验对比分析, 比较不同停用词表对于不同类型的文本数据的作用效果, 对停用词表的构建与使用提供参考意见。【方法】选取百度停用词表、哈尔滨工业大学停用词表以及四川大学机器智能实验室停用词表, 基于三个不同语料库运用汉语分词技术、TF-IDF特征评估函数以及VSM模型进行文本处理, 并且采用Java编写的K-means算法进行聚类实验, 通过准确率P、召回率R和F1三个评价指标对不同聚类结果进行效果评估。【结果】不同停用词表对于不同类型的文本数据作用效果差异明显, 词表的长度、内容结构是影响作用效果的直接因素, 其中两字停用词作用效果最为明显。【局限】实验文本类型及数量有限, 同时对于不同停用词表仅在词语数量及内容上做了简单的分析比较, 未对停用词按照类别分类进行实验分析。【结论】停用词表对于文本聚类准确度有很大的影响, 构建或选取适宜的中文停用词表极为重要。同时, 过度增加停用词的数量并不会一直改善聚类结果。

服务
把本文推荐给朋友
加入引用管理器
E-mail Alert
RSS
作者相关文章
官琴
邓三鸿
王昊
关键词 文本聚类停用词K-means    
Abstract

[Objective] This paper compares and analyzes the impacts of stopwords on textual data processing, aiming to improve the construction and use of stopwords. [Methods] We obtained stopword lists from Baidu Search Engine, Harbin Institute of Technology and the Machine Learning Laboratory of Sichuan University for this study. First, we processed text message with the stopword lists and Chinese word segmentation technique, the TF-IDF feature evaluation function and the VSM vector model. Secondly, we analysed the texts with the K-means algorithm to calculate the P, R and F1 values. [Results] Different stopword lists posed various effects to the text data processing tasks. The length of the list and the content structure of the texts directly influenced the clustering results. More importantly, the two-character stopwords was the biggest factor. [Limitations] The text types and quantity were limited. More research is needed to analyze the text with different types of stop words. [Conclusions] Stopword list poses significant impacts on text clustering, thus, it is extremely important to build or choose the appropriate Chinese stopword list. However, excessively increasing the number of stop words might not always improve the clustering results.

Key wordsText Clustering    Stopword List    K-means
收稿日期: 2016-12-05      出版日期: 2006-03-25
ZTFLH:  TP391  
基金资助:*本文系中国地震局星火计划攻关项目“面向地震应急的空间智能决策方法研究”(项目编号: XH15019)和江苏省自然科学基金项目“面向专利预警的中文文本学习研究”(项目编号: BK20130587)的研究成果之一
引用本文:   
官琴, 邓三鸿, 王昊. 中文文本聚类常用停用词表对比研究*[J]. 数据分析与知识发现, 2017, 1(3): 72-80.
Guan Qin,Deng Sanhong,Wang Hao. Chinese Stopwords for Text Clustering: A Comparative Study. Data Analysis and Knowledge Discovery, 2017, 1(3): 72-80.
链接本文:  
http://manu44.magtech.com.cn/Jwk_infotech_wk3/CN/10.11925/infotech.2096-3467.2017.03.09      或      http://manu44.magtech.com.cn/Jwk_infotech_wk3/CN/Y2017/V1/I3/72
  实验流程
经济 IT 军事 体育 艺术
文本数 110 164 76 150 140
  人工分类文本统计表
停用词表 符号 英文 单字词 两字词 三字词 四字词 其他 共计
百度 7 547 173 620 29 19 0 1 395
四川大学 0 0 26 663 80 84 6 859
哈尔滨工业
大学
236 0 167 290 23 19 0 750
  实验停用词表内容统计
对比词表 单字词 两字词 三字词 四字词 共计
百度-四川大学 22 311 23 19 374
百度-哈尔滨工
业大学
167 288 22 18 493
四川大学-哈尔
滨工业大学
22 276 22 18 338
百度-四川大学-
哈尔滨工业大学
22 275 22 18 337
  停用词表重合词条统计
指标 第一簇
(艺术)
第二簇
(经济)
第三簇
(体育)
第四簇
(IT)
第五簇
(军事)
平均值
复旦
语料库
P 0.924 0.965 0.930 0.763 0.608 0.838
R 0.964 1 0.440 0.963 0.816 0.837
F1 0.944 0.982 0.597 0.851 0.697 0.814
指标 第一簇
(艺术)
第二簇
(体育)
第三簇
(经济)
第四簇
(军事)
第五簇
(IT)
平均值
搜狗
语料库
P 0.739 0.693 0.615 0.477 0.521 0.609
R 0.929 0.813 0.582 0.553 0.445 0.664
F1 0.823 0.748 0.598 0.512 0.480 0.632
指标 第一簇
(艺术)
第二簇
(体育)
第三簇
(经济)
第四簇
(IT)
第五簇
(军事)
平均值
中文
语料库
P 0.882 0.803 0.831 0.817 0.233 0.547
R 0.964 0.600 0.936 0.652 0.368 0.704
F1 0.921 0.687 0.884 0.725 0.285 0.700
  百度停用词表实验结果统计
指标 第一簇
(艺术)
第二簇
(经济)
第三簇
(体育)
第四簇
(IT)
第五簇
(军事)
平均值
复旦
语料库
P 0.907 0.957 0.971 0.963 0.432 0.846
R 0.979 1 0.447 0.976 0.789 0.838
F1 0.942 0.978 0.612 0.969 0.558 0.812
指标 第一簇
(体育)
第二簇
(艺术)
第三簇
(经济)
第四簇
(IT)
第五簇
(军事)
平均值
搜狗
语料库
P 0.614 0.424 0.743 0.455 0.040 0.455
R 0.847 0.443 0.555 0.305 0.053 0.441
F1 0.712 0.434 0.640 0.365 0.046 0.439
指标 第一簇
(艺术)
第二簇
(体育)
第三簇
(经济)
第四簇
(IT)
第五簇
(军事)
平均值
中文
语料库
P 0.899 0.993 0.644 0.839 0.326 0.740
R 0.950 0.893 0.791 0.634 0.421 0.738
F1 0.924 0.940 0.701 0.740 0.367 0.734
  四川大学停用词表实验结果统计
指标 第一簇
(艺术)
第二簇
(经济)
第三簇
(体育)
第四簇
(IT)
第五簇
(军事)
平均值
复旦
语料库
P 0.924 0.948 0.943 0.732 0.667 0.843
R 0.950 1 0.440 0.970 0.816 0.835
F1 0.937 0.973 0.600 0.834 0.734 0.816
指标 第一簇
(艺术)
第二簇
(体育)
第三簇
(经济)
第四簇
(IT)
第五簇
(军事)
平均值
搜狗
语料库
P 0.788 1 0.545 0.535 0.092 0.592
R 0.929 0.840 0.382 0.604 0.105 0.572
F1 0.853 0.913 0.449 0.567 0.098 0.576
指标 第一簇
(艺术)
第二簇
(经济)
第三簇
(军事)
第四簇
(IT)
第五簇
(体育)
平均值
中文语料库 P 0.937 0.438 0.135 0.743 0.605 0.572
R 0.950 0.636 0.105 0.793 0.393 0.575
F1 0.943 0.504 0.116 0.767 0.426 0.551
  哈尔滨工业大学停用词表实验结果统计
指标 第一簇
(艺术)
第二簇
(经济)
第三簇
(体育)
第四簇
(IT)
第五簇
(军事)
平均值
复旦
语料库
P 0.964 1 0.440 0.963 0.803 0.834
R 0.925 0.965 0.923 0.763 0.598 0.835
F1 0.944 0.982 0.6 0.851 0.686 0.813
指标 第一簇
(艺术)
第二簇
(体育)
第三簇
(经济)
第四簇
(军事)
第五簇
(IT)
平均值
搜狗
语料库
P 0.929 0.813 0.582 0.539 0.451 0.663
R 0.739 0.924 0.615 0.465 0.528 0.654
F1 0.823 0.865 0.598 0.499 0.486 0.654
指标 第一簇
(艺术)
第二簇
(体育)
第三簇
(经济)
第四簇
(IT)
第五簇
(军事)
平均值
中文
语料库
P 0.964 0.600 0.936 0.659 0.382 0.708
R 0.882 0.804 0.831 0.824 0.241 0.716
F1 0.921 0.687 0.88 0.732 0.300 0.704
  百度去英文停用词表实验结果统计
指标 第一簇
(艺术)
第二簇
(经济)
第三簇
(体育)
第四簇
(IT)
第五簇
(军事)
平均值
复旦
语料库
P 0.938 0.965 0.943 0.976 0.438 0.852
R 0.979 1 0.440 0.976 0.842 0.847
F1 0.986 0.982 0.600 0.976 0.576 0.855
指标 第一簇
(艺术)
第二簇
(经济)
第三簇
(军事)
第四簇
(体育)
第五簇
(IT)
平均值
搜狗
语料库
P 0.787 0.325 0.468 0.876 0.446 0.580
R 0.871 0.245 0.789 0.567 0.482 0.591
F1 0.827 0.279 0.588 0.688 0.463 0.586
指标 第一簇
(艺术)
第二簇
(体育)
第三簇
(经济)
第四簇
(IT)
第五簇
(军事)
平均值
中文
语料库
P 0.882 0.833 0.831 0.831 0.467 0.769
R 0.964 0.600 0.936 0.646 0.750 0.779
F1 0.922 0.698 0.880 0.727 0.576 0.774
  全停用词表实验结果统计
文本类型 语料库 百度 四川大学 哈尔滨工业大学
经济 复旦语料库 0.982 0.978 0.973
搜狗语料库 0.598 0.640 0.449
中文语料库 0.884 0.701 0.504
平均值 0.821 0.773 0.642
IT 复旦语料库 0.851 0.969 0.834
搜狗语料库 0.480 0.365 0.567
中文语料库 0.725 0.740 0.767
平均值 0.685 0.691 0.722
军事 复旦语料库 0.697 0.558 0.734
搜狗语料库 0.512 0.046 0.098
中文语料库 0.285 0.367 0.116
平均值 0.498 0.324 0.316
体育 复旦语料库 0.597 0.612 0.600
搜狗语料库 0.748 0.712 0.913
中文语料库 0.687 0.940 0.426
平均值 0.677 0.755 0.646
艺术 复旦语料库 0.944 0.942 0.937
搜狗语料库 0.823 0.434 0.853
中文语料库 0.921 0.924 0.943
平均值 0.896 0.767 0.911
  各语料库与文本领域综合统计表-F1值
经济 IT 军事 体育 艺术 平均值
百度 0.821 0.685 0.498 0.677 0.896 0.716
四川大学 0.773 0.691 0.324 0.775 0.767 0.667
哈尔滨工业
大学
0.642 0.722 0.316 0.646 0.911 0.647
平均值 0.745 0.699 0.379 0.699 0.858 0.676
  各领域文本聚类平均F1值
复旦 搜狗 中文 平均值
百度 0.814 0.632 0.700 0.715
四川大学 0.812 0.439 0.734 0.662
哈尔滨工业大学 0.816 0.576 0.551 0.648
  各语料库文本聚类效果平均值
  停用词表对于不同语料库作用效果对比
文本类型 语料库 百度 百度(去英文)
经济 复旦语料库 0.982 0.982
搜狗语料库 0.598 0.598
中文语料库 0.884 0.880
IT 复旦语料库 0.851 0.851
搜狗语料库 0.480 0.486
中文语料库 0.725 0.732
军事 复旦语料库 0.697 0.686
搜狗语料库 0.512 0.499
中文语料库 0.285 0.300
体育 复旦语料库 0.597 0.600
搜狗语料库 0.748 0.865
中文语料库 0.687 0.687
艺术 复旦语料库 0.944 0.944
搜狗语料库 0.823 0.823
中文语料库 0.921 0.921
  百度停用词表对比结果
文本类型 语料库 最优值 全停用词表
经济 复旦语料库 0.982 0.982
搜狗语料库 0.598 0.279
中文语料库 0.884 0.880
平均值 0.821 0.713
IT 复旦语料库 0.834 0.976
搜狗语料库 0.567 0.463
中文语料库 0.767 0.727
平均值 0.722 0.722
军事 复旦语料库 0.697 0.576
搜狗语料库 0.512 0.588
中文语料库 0.285 0.576
平均值 0.498 0.580
体育 复旦语料库 0.612 0.600
搜狗语料库 0.712 0.688
中文语料库 0.940 0.698
平均值 0.755 0.622
艺术 复旦语料库 0.937 0.986
搜狗语料库 0.853 0.827
中文语料库 0.943 0.922
平均值 0.911 0.912
  全停用词表对比结果
[1] Feldman R, Dagan I.Knowledge Discovery in Textual Databases (KDT)[C]//Proceedings of International Conference on Knowledge Discovery and Data Mining. 1995: 112-117.
[2] Ahonen-Myka H, Heinonen O, Klemettinen M, et al.Applying Data Mining Techniques in Text Analysis[R]. Technical Report C-1997-23, Department of Computer Science, University of Helsinki, 1997.
[3] Luhn H P.A Statistical Approach to Mechanized Encoding and Searching of Literary Information[J]. IBM Journal of Research and Development, 1957, 1(4): 309-317.
doi: 10.1147/rd.14.0309
[4] Luhn H P.The Automatic Creation of Literature Abstracts[J]. IBM Journal of Research Development, 1958, 2(2): 159-165.
doi: 10.1147/rd.22.0159
[5] Francis W N, Kučera H, Mackie A W.Frequency Analysis of English Usage[J]. Frequency Analysis of English Usage Lexicon & Grammar, 1982, 18: 64-70.
[6] Frakes W B, Baeza-Yates R.Information Retrieval: Data Structures and Algorithms[M]. Prentice-Hall, Inc. ,1992.
[7] Lo T W, He B, Ounis I.Automatically Building a Stopword List for an Information Retrieval System[J]. Journal of Digital Information Management, 2005, 3(1): 3-8.
[8] 江兆中. 基于语境和停用词驱动的中文自动分词研究[D]. 合肥: 合肥工业大学, 2010.
[8] (Jiang Zhaozhong.Chinese Words Segmentation Based on Context and Stopwords[D]. Hefei: Hefei University of Technology, 2010.)
[9] 熊文新, 宋柔. 信息检索用户查询语句的停用词过滤[J]. 计算机工程, 2007, 33(6): 195-197.
doi: 10.3969/j.issn.1000-3428.2007.06.068
[9] (Xiong Wenxin, Song Rou.Removal of Stop Word in Users’ Request for Information Retrieval[J]. Computer Engineering, 2007, 33(6): 195-197.)
doi: 10.3969/j.issn.1000-3428.2007.06.068
[10] 周钦强, 孙炳达, 王义. 文本自动分类系统文本预处理方法的研究[J]. 计算机应用研究, 2005(2): 85-86.
doi: 10.3969/j.issn.1001-3695.2005.02.029
[10] (Zhou Qinqiang, Sun Bingda, Wang Yi.Study on New Pretreatment Method for Chinese Text Classification System[J]. Application Research of Computers, 2005(2): 85-86.)
doi: 10.3969/j.issn.1001-3695.2005.02.029
[11] Yang B Y, Pedersen J O.A Comparative Study on Feature[C]//Proceedings of International Conference on Machine Learning. 2010.
[12] Silva C, Ribeiro B.The Importance of Stop Word Removal on Recall Values in Text Categorization[C]// Proceedings of the International Joint Conference on Neural Networks.2003, 3: 20-24.
[13] Tomov D T.Some Critical Remarks on the Stop Word Lists of ISI Publications[J]. Journal of Documentation, 2001, 57(6): 798-808.
doi: 10.1108/EUM0000000007101
[14] 化柏林. 知识抽取中的停用词处理技术[J]. 现代图书情报技术, 2007(8): 48-51.
doi: 10.3969/j.issn.1003-3513.2007.08.011
[14] (Hua Bolin, Stop-Word Processing Technique in Knowledge Extraction[J]. New Technology of Library and Information Service, 2007(8): 48-51.)
doi: 10.3969/j.issn.1003-3513.2007.08.011
[15] Van Rijsbergen C J. Information Retrieval[M]. London: Butterworths, 1975.
[16] Fox C.A Stop List for General Text[J]. ACM SIGIR Forum, 1990, 24(1-2): 19-21.
[17] 陈欣, 张菁, 李晓光, 等. 一种面向中文敏感网页识别的文本分类方法[J]. 测控技术, 2011,30(5): 27-31.
doi: 10.3969/j.issn.1000-8829.2011.05.006
[17] (Chen Xin, Zhang Jing, Li Xiaoguang, et al.A Text Classification Method for Chinese Pornographic Web Recognition[J]. Measurement & Control Technology, 2011,30(5): 27-31.)
doi: 10.3969/j.issn.1000-8829.2011.05.006
[18] 顾益军, 樊孝忠, 王建华, 等. 中文停用词表的自动选取[J]. 北京理工大学学报, 2005, 25(4): 337-340.
doi: 10.3969/j.issn.1001-0645.2005.04.014
[18] (Gu Yijun, Fan Xiaozhong, Wang Jianhua, et al.Automatic Selection of Chinese Stoplist[J]. Transactions of Beijing Institute of Technology, 2005, 25(4): 337-340.)
doi: 10.3969/j.issn.1001-0645.2005.04.014
[19] 崔彩霞. 停用词的选取对文本分类效果的影响研究[J]. 太原师范学院学报:自然科学版, 2008, 7(4): 91-93.
doi: 10.3969/j.issn.1672-2027.2008.04.026
[19] (Cui Caixia.Research on the Effect of Stop Words Selection on Text Categorization[J]. Journal of Taiyuan Normal University: Natural Science Edition, 2008, 7(4): 91-93.)
doi: 10.3969/j.issn.1672-2027.2008.04.026
[20] Zou F, Wang F L, Deng X, et al.Automatic Construction of Chinese Stop Word List[C] // Proceedings of the International Conference on Applied Computer Science. 2006: 16-18.
[21] 王素格, 魏英杰. 停用词表对中文文本情感分类的影响[J]. 情报学报, 2008, 27(2): 175-179.
doi: 10.3969/j.issn.1000-0135.2008.02.003
[21] (Wang Suge, Wei Yingjie.The Influence of Stoplist on the Chinese Text Sentiment Categorization[J]. Journal of the China Society for Scientific and Technical Information, 2008, 27(2): 175-179.)
doi: 10.3969/j.issn.1000-0135.2008.02.003
[22] 周姚. 基于云计算的文本挖掘技术研究[D]. 长沙: 国防科学技术大学, 2011.
[22] (Zhou Yao.Cloud Computing-based Research on Text Mining Techniques[D]. Changsha: National University of Defense Technology, 2011. )
[23] Makrehchi M, Kamel M S.Automatic Extraction of Domain- Specific Stopwords from Labeled Documents[C] // Proceedings of European Conference on IR Research(ECIR 2008), Glasgow, UK. 2008: 222-233.
[24] 华林森. 中文文本情感分类研究[D]. 重庆: 重庆大学, 2014.
[24] (Hua Linsen.Study on Chinese Text Sentiment Classification[D]. Chongqing: Chongqing University, 2014.)
[25] 搜狗实验室. 搜狐新闻数据[DB/OL]. [2016-07-05]. .
[25] (Sogou Labs. Sohu News Data [DB/OL]. [2016-07-05].
[26] 李梅. 改进的K均值算法在中文文本聚类中的研究[D]. 合肥: 安徽大学, 2010.
[26] (Li Mei.Study of Chinese Text Clustering on Improved K-means Algorithm[D]. Hefei: Anhui University, 2010.)
[27] 黄磊, 伍雁鹏, 朱群峰. 关键词自动提取方法的研究与改进[J]. 计算机科学, 2014, 41(6): 204-207.
doi: 10.3969/j.issn.1002-137X.2014.06.040
[27] (Huang Lei, Wu Yanpeng, Zhu Qunfeng.Research and Improvement of TFIDF Text Feature Weighting Method[J]. Computer Science, 2014, 41(6): 204-207.)
doi: 10.3969/j.issn.1002-137X.2014.06.040
[28] 数据堂. 文本分类语料库(复旦)测试语料[DB/OL]. [2016- 07-05]. .
[28] (Data Hall. Text Classification Corpus (Fudan) Test Corpus [DB/OL]. [2016-07-05].
[29] 胡晓辉. 基于团结构的文本分类技术研究[D]. 南昌: 江西师范大学, 2008.
[29] (Hu Xiaohui.The Research on Text Classification Based on Clique Model[D]. Nanchang: Jiangxi Normal University, 2008.)
[30] 孙国菊, 张杰. 中文文本分类的特征选取评价[J]. 哈尔滨理工大学学报, 2005, 10(1): 76-78.
doi: 10.3969/j.issn.1007-2683.2005.01.022
[30] (Sun Guoju, Zhang Jie.An Evaluation of Feature Selection Methods for Text Categorization[J]. Journal of Harbin University of Science and Technology, 2005, 10(1): 76-78.)
doi: 10.3969/j.issn.1007-2683.2005.01.022
[31] 数据堂. 中文文本分类语料[DB/OL]. [2016-07-05]. .
[31] (Data Hall. Chinese Text Categorization Corpus [DB/OL]. [2016-07-05].
[32] 数据堂. 停用词集合[DB/OL]. [2016-07-05]. .
[32] (Data Hall. Stop Words Set [DB/OL]. [2016-07-05].
[33] 于娟, 尹积栋, 费庶. 基于句法结构分析的同义词识别方法研究[J]. 现代图书情报技术, 2013(9): 35-40.
[33] (Yu Juan, Yin Jidong, Fei Shu.Identifying Synonyms Based on Sentence Structure Analysis[J]. New Technology of Library and Information Service, 2013(9): 35-40. )
[34] 费洪晓, 康松林, 朱小娟, 等. 基于词频统计的中文分词的研究[J]. 计算机工程与应用, 2005, 41(7): 67-68.
doi: 10.3321/j.issn:1002-8331.2005.07.024
[34] (Fei Hongxiao, Kang Songlin, Zhu Xiaojuan, et al.Chinese Word Segmentation Research Based on Statistic the Frequency of the Word[J]. Computer Engineering and Applications, 2005, 41(7): 67-68.)
doi: 10.3321/j.issn:1002-8331.2005.07.024
[1] 赵华茗,余丽,周强. 基于均值漂移算法的文本聚类数目优化研究 *[J]. 数据分析与知识发现, 2019, 3(9): 27-35.
[2] 陆泉,朱安琪,张霁月,陈静. 中文网络健康社区中的用户信息需求挖掘研究*——以求医网肿瘤板块数据为例[J]. 数据分析与知识发现, 2019, 3(4): 22-32.
[3] 温廷新,李洋子,孙静霜. 基于多因素特征选择与AFOA/K-means的新闻热点发现方法*[J]. 数据分析与知识发现, 2019, 3(4): 97-106.
[4] 张涛, 马海群. 一种基于LDA主题模型的政策文本聚类方法研究*[J]. 数据分析与知识发现, 2018, 2(9): 59-65.
[5] 刘洪伟, 高鸿铭, 陈丽, 詹明君, 梁周扬. 基于用户浏览行为的兴趣识别管理模型*[J]. 数据分析与知识发现, 2018, 2(2): 74-85.
[6] 贾晓婷, 王名扬, 曹宇. 结合Doc2Vec与改进聚类算法的中文单文档自动摘要方法研究*[J]. 数据分析与知识发现, 2018, 2(2): 86-95.
[7] 俞琰, 赵乃瑄. 基于辅助集的专利主题分析领域停用词 选取*[J]. 数据分析与知识发现, 2018, 2(11): 95-103.
[8] 刘明辉. 基于K-means聚类分析的民航系统恐怖主义风险评估*[J]. 数据分析与知识发现, 2018, 2(10): 21-26.
[9] 王雪颖, 张紫玄, 王昊, 邓三鸿. 中国农产品品牌评价研究的内容解析*[J]. 数据分析与知识发现, 2017, 1(7): 13-21.
[10] 方小飞, 黄孝喜, 王荣波, 谌志群, 王小华. 基于LDA模型的移动投诉文本热点话题识别*[J]. 数据分析与知识发现, 2017, 1(2): 19-27.
[11] 刘睿伦, 叶文豪, 高瑞卿, 唐梦嘉, 王东波. 基于大数据岗位需求的文本聚类研究*[J]. 数据分析与知识发现, 2017, 1(12): 32-40.
[12] 钮亮. 共主题网络方法及应用*[J]. 现代图书情报技术, 2016, 32(7-8): 137-146.
[13] 陈东沂,周子程,蒋盛益,王连喜,吴佳林. 面向企业微博的客户细分框架*[J]. 现代图书情报技术, 2016, 32(2): 43-51.
[14] 龚凯乐,成颖,孙建军. 基于参与者共现分析的博文聚类研究*[J]. 现代图书情报技术, 2016, 32(10): 50-58.
[15] 陈挺, 韩涛, 李泽霞, 李国鹏, 王小梅. 科研项目布局差异对比方法研究——以NSF和EUFP项目为例[J]. 现代图书情报技术, 2015, 31(7-8): 89-96.
Viewed
Full text


Abstract

Cited

  Shared   
  Discussed   
版权所有 © 2015 《数据分析与知识发现》编辑部
地址:北京市海淀区中关村北四环西路33号 邮编:100190
电话/传真:(010)82626611-6626,82624938
E-mail:jishu@mail.las.ac.cn