Please wait a minute...
Advanced Search
数据分析与知识发现  2017, Vol. 1 Issue (10): 43-52     https://doi.org/10.11925/infotech.2096-3467.2017.0702
  研究论文 本期目录 | 过刊浏览 | 高级检索 |
基于维基百科的多种类型文献自动分类研究*
李湘东1,2(), 阮涛1, 刘康1
1武汉大学信息管理学院 武汉 430072
2武汉大学电子商务研究与发展中心 武汉 430072
Automatic Classification of Documents from Wikipedia
Li Xiangdong1,2(), Ruan Tao1, Liu Kang1
1School of Information Management, Wuhan University, Wuhan 430072, China
2Center for Electronic Commerce Research and Development, Wuhan University, Wuhan 430072, China
全文: PDF (772 KB)   HTML ( 4
输出: BibTeX | EndNote (RIS)      
摘要 

目的】通过基于维基百科的特征扩展解决由于不同类型文献而产生的特征不匹配等问题, 以提高文本分类效果。【方法】在特征扩展之前, 对TF-IDF加以改进, 提出并使用一种新的特征选择方法CDFmax-IDF获得候选词集; 在使用维基百科进行特征扩展时, 通过分别计算直接链接关系、类别关系、间接链接关系三类词语间关系并进行融合得到词语间的语义相关度实现特征扩展; 针对扩展得到的特征, 提出一种改进的LDA概率主题模型wLDA模型进行文本建模。【结果】本文提出的方法分别在朴素贝叶斯、KNN和SVM三种分类器上实现分类, 其marco-F1和micro-F1分别提升1.6%-2.8%和1.4%-2.7%。【局限】尚未考虑特征词本身及特征词间的相互联系, 比如特征词本身的词性、出现在单篇文档中的位置、特征词间的共现关系等因素对特征词权重的影响。【结论】通过多种对比研究证明了使用基于维基百科的特征扩展方法对特征词扩展的有效性, 提高了多种类型文献的自动分类效果。

服务
把本文推荐给朋友
加入引用管理器
E-mail Alert
RSS
作者相关文章
李湘东
阮涛
刘康
关键词 多种类型文献文本分类特征选择特征扩展维基百科    
Abstract

[Objective] This paper aims to improve the performance of text classification systems with the help of Wikipedia’s feature expansion function. [Methods] First, we established the CDFmax-IDF method based on the modified TF-IDF, which helped retrieve the candidate word list. Then, we used the Wikipedia to extend the document features and calculated the relationship among direct links, categories and indirect links, which decided the semantic relevance of the words. Finally, we proposed an improved LDA model, the wLDA, for the extended feature and text modeling. [Results] The proposed method improved the value of marco-F1 and micro-F1 on Naive Bayes, KNN and SVM classifiers by 1.6%-2.8% and 1.4%-2.7%. [Limitations] We did not include the properties of the words and relationship among them. [Conclusions] The feature expansion method based on the Wikipedia improves the effectiveness of automatic document classification methods.

Key wordsVarious Types of Documents    Text Classification    Feature Selection    Feature Expansion    Wikipedia
收稿日期: 2017-07-17      出版日期: 2017-11-08
ZTFLH:  TP393 G35  
基金资助:*本文系国家社会科学基金项目“多种类型文本数字资源自动分类研究”(项目编号: 15BTQ066)的研究成果之一
引用本文:   
李湘东, 阮涛, 刘康. 基于维基百科的多种类型文献自动分类研究*[J]. 数据分析与知识发现, 2017, 1(10): 43-52.
Li Xiangdong,Ruan Tao,Liu Kang. Automatic Classification of Documents from Wikipedia. Data Analysis and Knowledge Discovery, 2017, 1(10): 43-52.
链接本文:  
https://manu44.magtech.com.cn/Jwk_infotech_wk3/CN/10.11925/infotech.2096-3467.2017.0702      或      https://manu44.magtech.com.cn/Jwk_infotech_wk3/CN/Y2017/V1/I10/43
  基于维基百科的多种类型文本分类方法框架
  LDA主题模型的概率模型图
  训练集在LDA模型下的主题数变化趋势
关键词
经济、体育、企业、发展、市场、浓度、社会、政府、产业、改革、增长、投资、我国、土壤、国有、消费、制度、地区、吸附、技术、图、结构、政策、中国、工业、降解、专业、农村、资本、水、管理、菌、国家、农业、知识、污泥、生产、要、研究、产品、教育、环境、体制、氧、人、……
  基于TF-IDF方法的特征扩展候选词集
类别 关键词
经济 资本、经济增长、企业、经济发展、市场、政策、金融、价格、投资、增长、资金、国民经济、利益、劳动力、市场经济、……
体育 比赛、队、体育、运动员、冠军、选手、成绩、队员、女子、速率、决赛、训练、胜、力量、中国队、……
环境 环境科学、浓度、中国环境、scientiae、水、污染、污染物、化学、温度、试验、生物、离子、含量、pollution、监测、……
  基于CDFmax-IDF的特征扩展候选词集
特征词 扩展特征词及语义相关度
市场 交易:0.102 金融市场:0.211 劳动力市场:0.212
批发:0.224
股东 股票市场:0.146
净利润 资金:0.111 增长率:0.136 市场化:0.108
负债:0.172
女排 排球:1.000
王宝泉 袁伟民:0.115
亚军 冠军:0.709 金牌:0.106 银牌:0.274
环境监测 污染:0.346 污染物:0.100 富营养化:0.148
凝固 蒸发:0.288
污水处理 水质:0.173 水污染:0.357 生活污水:0.112
  语义相似度计算结果
  三种分类算法上的micro-F1分类结果对比
  三种分类算法上的macro-F1分类结果对比
[1] 和艳会, 李和娟, 关琼, 等. 浅谈网络图书馆、数字图书馆、虚拟图书馆的概念[J]. 农业图书情报学刊, 2006, 18(9): 120-123.
doi: 10.3969/j.issn.1002-1248.2006.09.039
[1] (He Yanhui, Li Hejuan, Guan Qiong, et al.Discussion on Concepts of Network Library, Digital Library and Virtual Library[J]. Journal of Library and Information Sciences in Agriculture, 2006, 18(9): 120-123.)
doi: 10.3969/j.issn.1002-1248.2006.09.039
[2] 李湘东, 胡逸泉, 巴志超, 等. 数字图书馆多种类型文献混合自动分类研究[J]. 图书馆杂志, 2014, 33(11): 42-48.
[2] (Li Xiangdong, Hu Yiquan, Ba Zhichao, et al.The Study of Mixed Automatic Categorization on Digital Library Collections[J]. Library Journal, 2014, 33(11): 42-48.)
[3] Pong J Y-H, Kwok R C-W, Lau R Y-K, et al. A Comparative Study of Two Automatic Document Classification Methods in a Library Setting[J]. Journal of Information Science, 2008, 34(2): 213-230.
doi: 10.1177/0165551507082592
[4] 薛春香, 夏祖奇, 侯汉清. 基于语料和基于标引经验的自动分类模式比较[J]. 南京农业大学学报: 社会科学版, 2005, 5(4): 85-91.
doi: 10.3969/j.issn.1671-7465.2005.04.016
[4] (Xue Chunxiang, Xia Zuqi, Hou Hanqing.A Comparison of Automatic Classification Between Corpus-based Model and Experiences-based Model[J]. Journal of Nanjing Agricultural University: Social Sciences Edition, 2005, 5(4): 85-91.)
doi: 10.3969/j.issn.1671-7465.2005.04.016
[5] Joorabchi A, Mahdi A E.An Unsupervised Approach to Automatic Classification of Scientific Literature Utilizing Bibliographic Metadata[J]. Journal of Information Science, 2011, 37(5): 499-514.
doi: 10.1177/0165551511417785
[6] 范云杰, 刘怀亮. 基于维基百科的中文短文本分类研究[J]. 现代图书情报技术, 2012(3): 47-52.
[6] (Fan Yunjie, Liu Huailiang.Research on Chinese Short Text Classification Based on Wikipedia[J]. New Technology of Library and Information Service, 2012(3): 47-52.)
[7] Guo N, He Y, Yan C G, et al.Multi-level Topical Text Categorization with Wikipedia[C]// Proceedings of International Conference on Utility and Cloud Computing. ACM, 2016: 343-352.
[8] Blei D M, Ng A Y, Jordan M I.Latent Dirichlet Allocation[J]. Journal of Machine Learning Research, 2003, 3: 993-1022.
[9] Peter, Maxwell.Co-Clustering Based Classification Algorithm with Latent Semantic Relationship for Cross- Domain Text Classification Through Wikipedia[J]. Bonfring International Journal of Data Mining, 2017, 7(2): 1-5.
doi: 10.9756/BIJDM.8330
[10] 李湘东, 刘康, 高凡. 维基百科在多种类型数字文本资源自动分类中的应用[J]. 情报科学, 2017, 35(2): 75-79.
[10] (Li Xiangdong, Liu Kang, Gao Fan.Application of Wikipedia to Automatic Categorization with Multiple Types of Digital Text Resources[J]. Information Science, 2017, 35(2): 75-79.)
[11] 徐凤亚, 罗振声. 文本自动分类中特征权重算法的改进研究[J]. 计算机工程与应用, 2005, 41(1): 181-184.
[11] (Xu Fengya, Luo Zhensheng.An Improved Approach to Term Weighting in Automated Text Classification[J]. Computer Engineering and Applications, 2005, 41(1): 181-184.)
[12] 蒋健. 文本分类中特征提取和特征加权方法研究[D]. 重庆: 重庆大学, 2010.
[12] (Jiang Jian.Research on Feature Extraction and Feature Weighting in Text Categorization[D]. Chongqing: Chongqing University, 2010.)
[13] 李湘东, 丁丛, 高凡. 基于复合加权LDA模型的书目信息分类方法研究[J]. 情报学报, 2017, 36(4): 352-360.
[13] (Li Xiangdong, Ding Cong, Gao Fan.The Research of Bibliographic Information Classification Method Based on the Composite Weighted LDA Model[J]. Journal of the China Society for Scientific andTechnical Information, 2017, 36(4): 352-360.)
[14] 李锋刚, 梁钰, GAO Xiaozhi, 等. 基于LDA-wSVM模型的文本分类研究[J]. 计算机应用研究, 2015, 32(1): 21-25.
doi: 10.3969/j.issn.1001-3695.2015.01.005
[14] (Li Fenggang, Liang Yu, GAO Xiaozhi, et al.Research on Text Categorization Based on LDA-wSVM Model[J]. Application Research of Computers, 2015, 32(1): 21-25.)
doi: 10.3969/j.issn.1001-3695.2015.01.005
[15] Li X, Ouyang J, Zhou X, et al.Supervised Labeled Latent Dirichlet Allocation for Document Categorization[J]. Applied Intelligence, 2015, 42(3): 581-593.
doi: 10.1007/s10489-014-0595-0
[16] 史庆伟, 从世源. 基于mRMR和LDA主题模型的文本分类研究[J]. 计算机工程与应用, 2016, 52(5): 127-133.
doi: 10.3778/j.issn.1002-8331.1506-0266
[16] (Shi Qingwei, Cong Shiyuan.Research on Text Categorization Based on mRMR and LDA[J].Computer Engineering and Applications, 2016, 52(5): 127-133.)
doi: 10.3778/j.issn.1002-8331.1506-0266
[17] Lin W, Pang X, Wan B, et al.MR-LDA: An Efficient Topic Model for Classification of Short Text in Big Social Data[J]. International Journal of Grid & High Performance Computing, 2016, 8(4): 100-113.
doi: 10.4018/IJGHPC.2016100106
[18] 孙建军. 信息检索技术[M]. 北京: 科学出版社, 2004: 169-170.
[18] (Sun Jianjun.Information Retrieval Technology [M]. Beijing: Science Press, 2004: 169-170.)
[19] 王兰成, 刘晓亮. 维基百科知网的构建研究与应用进展[J]. 情报资料工作, 2012(5): 56-60.
doi: 10.3969/j.issn.1002-0314.2012.05.010
[19] (Wang Lancheng, Liu Xiaoliang.Construction Research and Application Progress of Wikipedia Knowledge Network[J]. Information and Documentation Services, 2012(5): 56-60.)
doi: 10.3969/j.issn.1002-0314.2012.05.010
[20] 卢盛祺, 管连, 金敏, 等. LDA模型在网络视频推荐中的应用[J]. 微型机与应用, 2016, 35(11): 74-79.
doi: 10.19358/j.issn.1674-7720.2016.11.023
[20] (Lu Shengqi, Guan Lian, Jin Min, et al.The Application of LDA in Online Video Recommendation[J]. Microcomputer and Its Applications, 2016, 35(11): 74-79.)
doi: 10.19358/j.issn.1674-7720.2016.11.023
[21] 周琨峰. 基于中文维基百科的概念相关词群研究[D]. 武汉: 华中师范大学, 2012.
[21] (Zhou Kunfeng.Research on the Concept-related Phrases Based on Chinese Wikipedia [D]. Wuhan: Huazhong Normal University, 2012.)
[22] Wei X, Croft W B.LDA-based Document Models for Ad-Hoc Retrieval[C]//Proceedings of the 29th Annual International ACM SIGIR Conference on Research and Development in Information Retrieval. 2006: 178-185.
[23] 王振振, 何明, 杜永萍. 基于LDA主题模型的文本相似度计算[J]. 计算机科学, 2013, 40(12): 229-232.
doi: 10.3969/j.issn.1002-137X.2013.12.049
[23] (Wang Zhenzhen, He Ming, Du Yongping.Text Similarity Computing Based on Topic Model LDA[J]. Computer Science, 2013, 40(12): 229-232.)
doi: 10.3969/j.issn.1002-137X.2013.12.049
[24] Cao J, Xia T, Li J, et al.A Density-based Method for Adaptive LDA Model Selection[J]. Neuro Computing, 2009, 72(7): 1775-1781.
doi: 10.1016/j.neucom.2008.06.011
[25] 复旦大学中文语料库[DB/OL]. [2017-03-01].
[25] (Fudan-Classification-Corpus [DB/ OL]. [2017-03-01]. udan-Classification-Corpus [DB/ OL]. [2017-03-01].
[26] 搜狗互联网语料库[DB/OL]. [2017-03-01].
[26] (SogouT [DB/OL]. [2017-03-01].
[1] 陈杰,马静,李晓峰. 融合预训练模型文本特征的短文本分类方法*[J]. 数据分析与知识发现, 2021, 5(9): 21-30.
[2] 周泽聿,王昊,赵梓博,李跃艳,张小琴. 融合关联信息的GCN文本分类模型构建及其应用研究*[J]. 数据分析与知识发现, 2021, 5(9): 31-41.
[3] 余本功,朱晓洁,张子薇. 基于多层次特征提取的胶囊网络文本分类研究*[J]. 数据分析与知识发现, 2021, 5(6): 93-102.
[4] 梁家铭, 赵洁, 郑鹏, 黄流深, 叶敏祺, 董振宁. 特征选择下融合图像和文本分析的在线短租平台信任计算框架 *[J]. 数据分析与知识发现, 2021, 5(2): 129-140.
[5] 王艳, 王胡燕, 余本功. 基于多特征融合的中文文本分类研究*[J]. 数据分析与知识发现, 2021, 5(10): 1-14.
[6] 唐晓波,高和璇. 基于关键词词向量特征扩展的健康问句分类研究 *[J]. 数据分析与知识发现, 2020, 4(7): 66-75.
[7] 王思迪,胡广伟,杨巳煜,施云. 基于文本分类的政府网站信箱自动转递方法研究*[J]. 数据分析与知识发现, 2020, 4(6): 51-59.
[8] 徐月梅,刘韫文,蔡连侨. 基于深度融合特征的政务微博转发规模预测模型*[J]. 数据分析与知识发现, 2020, 4(2/3): 18-28.
[9] 徐彤彤,孙华志,马春梅,姜丽芬,刘逸琛. 基于双向长效注意力特征表达的少样本文本分类模型研究*[J]. 数据分析与知识发现, 2020, 4(10): 113-123.
[10] 余本功,曹雨蒙,陈杨楠,杨颖. 基于nLD-SVM-RF的短文本分类研究*[J]. 数据分析与知识发现, 2020, 4(1): 111-120.
[11] 聂维民,陈永洲,马静. 融合多粒度信息的文本向量表示模型 *[J]. 数据分析与知识发现, 2019, 3(9): 45-52.
[12] 邵云飞,刘东苏. 基于类别特征扩展的短文本分类方法研究 *[J]. 数据分析与知识发现, 2019, 3(9): 60-67.
[13] 秦贺然,刘浏,李斌,王东波. 融入实体特征的典籍自动分类研究 *[J]. 数据分析与知识发现, 2019, 3(9): 68-76.
[14] 陈果,许天祥. 基于主动学习的科技论文句子功能识别研究 *[J]. 数据分析与知识发现, 2019, 3(8): 53-61.
[15] 周成,魏红芹. 专利价值评估与分类研究*——基于自组织映射支持向量机[J]. 数据分析与知识发现, 2019, 3(5): 117-124.
Viewed
Full text


Abstract

Cited

  Shared   
  Discussed   
版权所有 © 2015 《数据分析与知识发现》编辑部
地址:北京市海淀区中关村北四环西路33号 邮编:100190
电话/传真:(010)82626611-6626,82624938
E-mail:jishu@mail.las.ac.cn