Please wait a minute...
Advanced Search
现代图书情报技术  2014, Vol. 30 Issue (3): 80-87    DOI: 10.11925/infotech.1003-3513.2014.03.12
  知识组织与知识管理 本期目录 | 过刊浏览 | 高级检索 |
机器学习在中文期刊论文自动分类研究中的应用
王昊, 叶鹏, 邓三鸿
南京大学信息管理学院 南京 210093
The Application of Machine-Learning in the Research on Automatic Categorization of Chinese Periodical Articles
Wang Hao, Ye Peng, Deng Sanhong
School of Information Management, Nanjing University, Nanjing 210093, China
全文: PDF(725 KB)   HTML  
输出: BibTeX | EndNote (RIS)      
摘要 

[目的] 在机器学习的计算模式下,利用特征加权和浅层次分类方法可以有效实现期刊论文的中图法分类。[应用背景] 传统的人工分类方式在大数据环境下显得力不从心,而期刊电子化趋势使得自动分类技术能够有效缓解人工分类的压力。[方法] 将机器学习的思想运用到期刊论文的自动分类领域,分析比较支持向量机和BP神经网络算法在期刊论文自动分类中的效果,利用层次分类理念将中图法转化为三层分类体系,将类目号的获取简化为三层分类的实现,基于特征的来源设置特征值的权重。[结果] 分类实验表明,支持向量机算法在大规模稀疏数据环境中较BP神经网络算法更合理,三层体系的分类正确率自顶向下分别达到95.05%、92.89%和89.02%,综合正确率接近80%,多来源的特征权重在论文自动分类中较单一权重具有更好的分类效果。[结论] 研究表明机器学习方法在期刊论文的自动分类方面具有较高的可行性、合理性和有效性,为期刊论文自动分类的实现提出新的思路。

服务
把本文推荐给朋友
加入引用管理器
E-mail Alert
RSS
作者相关文章
王昊
叶鹏
邓三鸿
关键词 机器学习期刊论文文本自动分类特征加权层次分类法    
Abstract

[Objective] Under the computing mode of machine learning, using the methods of feature weighting and shallow-hierarchical classification can effectively achieve Chinese Library Classification (CLC) classification for periodical articles. [Context] The traditional way of artificial classification shows its own limits in the background of "Big Data", and the trend of periodicals electronic makes that automatic classification techniques can effectively relief the pressure of artificial classification jobs. [Methods] This paper introduces the thinking of machine-learning into the field of automatic classification of periodical articles. It analyzes and compares the effects of Support Vector Machine(SVM) and BP Neural Networks Algorithm(BPNN) in the procedure of automatic classification, transforms CLC into another classification system with three levels in the thoughts of hierarchical classification, and sets the weights based the sources of classification features. [Results] The experiments of classification tests show that SVM is more reasonable than BPNN under the condition of large-scale sparse data, the accuracy rates of these three levels reach 95.05%, 92.89% and 89.02%, and the integrated accuracy rate is close to 80%, and the feature weights from mulit-sources can lead to better classification results than single-source. [Conclusions] The study proves that the model of machine-learning with feature weighting and shallow-hierarchical classification in automatic classification of periodical articles has higher feasibility, rationality and effectiveness, and a new idea on automatic classification of periodical articles has been presented.

Key wordsMachine-Learning    Periodical article    Automatic text categorization    Feature weighting    Hierarchy classification
收稿日期: 2013-09-02     
:  TP391  
基金资助:

本文系江苏省自然科学基金项目“面向专利预警的中文本体学习研究”(项目编号:BK20130587)和国家社会科学基金重点项目“基于语义的馆藏资源深度聚合与可视化展示研究”(项目编号:11AZD090)子课题的研究成果之一。

通讯作者: 王昊 E-mail:ywhaowang810710@sina.com     E-mail: ywhaowang810710@sina.com
作者简介: 作者贡献声明:王昊: 提出研究方法和基本思路,进行实验结果的分析和论证,负责论文撰写;叶鹏: 进行实验,包括数据采集、清洗和计算;邓三鸿: 对论文进行最后审阅并提出修改意见。
引用本文:   
王昊, 叶鹏, 邓三鸿. 机器学习在中文期刊论文自动分类研究中的应用[J]. 现代图书情报技术, 2014, 30(3): 80-87.
Wang Hao, Ye Peng, Deng Sanhong. The Application of Machine-Learning in the Research on Automatic Categorization of Chinese Periodical Articles. New Technology of Library and Information Service, DOI:10.11925/infotech.1003-3513.2014.03.12.
链接本文:  
http://manu44.magtech.com.cn/Jwk_infotech_wk3/CN/10.11925/infotech.1003-3513.2014.03.12

[1] 王洪, 贾惠波, 徐端颐. 基于中文学术期刊人工标引的自动分类新算法[J]. 现代图书情报技术, 2002(S1): 59-62. (Wang Hong, Jia Huibo, Xu Duanyi. The New Algorithm of Automatic Classification Based on Artificial Indexing of Chinese Academic Periodical[J]. New Technology of Library and Information Service, 2002(S1): 59-62.)

[2] 包剑, 冀常鹏, 李义杰. 基于矢量空间模型的文本自动分类系统研究[J]. 计算机系统应用, 2005, 14(3): 47-49. (Bao Jian, Ji Changpeng, Li Yijie. Research of Automatic Text Categorization System Based on VSM[J]. Computer Systems & Applications, 2005, 14(3): 47-49.)

[3] 陈玉芹. 多类别科技文献自动分类系统[D]. 武汉: 华中科技大学, 2008. (Chen Yuqin. Multi-class Automatic Categorization System for Technology Literature[D]. Wuhan: Huazhong University of Science and Technology, 2008.)

[4] 张雪英. 基于机器学习的文本自动分类研究进展[J]. 情报学报, 2006, 25(6): 730-739. (Zhang Xueying. Review of Machine Learning in Automatic Text Categorization[J]. Journal of the China Society for Scientific and Technical Information, 2006, 25(6): 730-739.)

[5] 牛延莉, 张化. 文本自动分类研究进展[J]. 软件导刊, 2008, 7(4): 24-26. (Niu Yanli, Zhang Hua. Progress of Automatic Text Classification[J]. Software Guide, 2008, 7(4): 24-26.)

[6] 何琳, 侯汉清, 白振田, 等. 基于标引经验和机器学习相结合的多层自动分类[J]. 情报学报, 2006,25(6):725-729. (He Lin, Hou Hanqing, Bai Zhentian, et al. Automatic Multi-layer Classification Method Based on Integration of Machine Learning and Indexing Experience[J]. Journal of the China Society for Scientific and Technical Information, 2006, 25(6): 725-729.)

[7] 谈文蓉, 杨宪泽, 谈进. 基于相似分类的文献理解及自动文摘系统研究[J]. 计算机科学, 2006, 33(9): 152-154. (Tan Wenrong, Yang Xianze, Tan Jin. Study for Document Interpretation and Automatic Abstracting Based on Analogic Sorting[J]. Computer Science, 2006, 33(9): 152-154.)

[8] 萧莉明, 于宽, 蔡珣. 一种基于Bayes分类器的中文期刊自动分类系统[J]. 现代情报, 2007,27(4):146-147,150. (Xiao Liming, Yu Kuan, Cai Xun. An Automatic Classification System of Chinese Periodical Based on Bayes Classifier[J]. Journal of Modern Information, 2007,27(4): 146-147,150.)

[9] 张野, 杨建林. 基于KNN和SVM的中文文本自动分类研究[J]. 情报科学, 2011,29(9): 1313-1317, 1377. (Zhang Ye,Yang Jianlin. Reseach on Automatic Classification for Chinese Text Based on KNN and SVM[J]. Information Science, 2011,29(9): 1313-1317, 1377.)

[10] Dalal M K, Zaveri M A. Automatic Text Classification: A Technical Review[J]. International Journal of Computer Applications, 2011, 28(2): 37-40.

[11] Li W, Miao D, Wang W. Two-level Hierarchical Combination Method for Text Classification[J]. Expert Systems with Applications, 2011, 38(3): 2030-2039.

[12] Ren F, Sohrab M G. Class-indexing-based Term Weighting for Automatic Text Classification[J]. Information Sciences, 2013, 236: 109-125.

[13] 张燕平, 张玲. 机器学习理论与算法[M]. 北京: 科学出版社, 2012.(Zhang Yanping, Zhang Ling. Machine Learning Theory and Algorithms[M]. Beijing: Science Press, 2012.)

[14] 施彦, 韩力群, 廉小亲. 神经网络设计方法与实例分析[M]. 北京: 北京邮电大学出版社, 2009. (Shi Yan, Han Liqun, Lian Xiaoqin. Neural Network Design Methods and Case Analysis[M]. Beijing: Beijing University of Posts and Telecommunications Press, 2009.)

[15] 张德丰. MATLAB神经网络仿真与应用[M] . 北京: 电子工业出版社, 2009. (Zhang Defeng. MATLAB Neural Network Simulation and Application[M]. Beijing: Publishing House of Electronics Industry, 2009.)

[16] 奉国和. SVM分类核函数及参数选择比较[J]. 计算机工程与应用, 2011,47(3): 123-124,128. (Feng Guohe. Parameter Optimizing for Support Vector Machines Classification[J]. Computer Engineering and Applications, 2011,47(3): 123- 124,128.)

[17] 刘大宁, 杨永乐, 白林. SVM核函数对分类精度影响的研究[J]. 佳木斯大学学报: 自然科学版, 2012, 30(4): 627-630. (Liu Daning,Yang Yongle, Bai Lin. Impact of SVM Kernel Function on the Classification Accuracy [J]. Journal of Jiamusi University: Natural Science Edition, 2012, 30(4): 627-630.)

[18] 王东波, 苏新宁, 朱丹浩,等. 基于支持向量机的医学期刊文章自动分类研究[J]. 情报理论与实践, 2011,34(4): 115-118. (Wang Dongbo, Su Xinning, Zhu Danhao, et al. The Study on Automatic Classification of Medical Journal Articles Based on SVM[J]. Information Studies: Theory & Application, 2011,34(4):115-118.)

[1] 胡佳慧,方安,赵琬清,杨晨柳,任慧玲. 面向知识发现的中文电子病历标注方法
研究 *
[J]. 数据分析与知识发现, 2019, 3(7): 123-132.
[2] 张金柱,胡一鸣. 融合表示学习与机器学习的专利科学引文标题自动抽取研究*[J]. 数据分析与知识发现, 2019, 3(5): 68-76.
[3] 刘志强,都云程,施水才. 基于改进的隐马尔科夫模型的网页新闻关键信息抽取*[J]. 数据分析与知识发现, 2019, 3(3): 120-128.
[4] 徐红霞,李春旺. 科技文献内容知识点抽取研究综述[J]. 数据分析与知识发现, 2019, 3(3): 14-24.
[5] 张紫玄,王昊,朱立平,邓三鸿. 中国海关HS编码风险的识别研究*[J]. 数据分析与知识发现, 2019, 3(1): 72-84.
[6] 刘丽娜,齐佳音,张镇平,曾丹. 品牌对商品在线销量的影响*——基于海量商品评论的在线声誉和品牌知名度的调节作用研究[J]. 数据分析与知识发现, 2018, 2(9): 10-21.
[7] 李湘东,高凡,李悠海. 共通语义空间下的跨文献类型文本自动分类研究*[J]. 数据分析与知识发现, 2018, 2(9): 66-73.
[8] 贾隆嘉,张邦佐. 高校网络舆情安全中主题分类方法研究*——以新浪微博数据为例[J]. 数据分析与知识发现, 2018, 2(7): 55-62.
[9] 陆伟,罗梦奇,丁恒,李信. 深度学习图像标注与用户标注比较研究*[J]. 数据分析与知识发现, 2018, 2(5): 1-10.
[10] 王丽,邹丽雪,刘细文. 基于LDA主题模型的文献关联分析及可视化研究[J]. 数据分析与知识发现, 2018, 2(3): 98-106.
[11] 范馨月,崔雷. 基于网络属性的抗肿瘤药物靶点预测方法及其应用*[J]. 数据分析与知识发现, 2018, 2(12): 98-108.
[12] 赵杨,袁析妮,陈亚文,武立强. 基于机器学习混合算法的APP广告转化率预测研究*[J]. 数据分析与知识发现, 2018, 2(11): 2-9.
[13] 王欣,冯文刚. 在线极端主义和激进化监测技术综述*[J]. 数据分析与知识发现, 2018, 2(10): 2-8.
[14] 胡忠义,王超群,吴江. 融合多源网络评估数据及URL特征的钓鱼网站识别技术研究*[J]. 数据分析与知识发现, 2017, 1(6): 47-55.
[15] 吕伟民,王小梅,韩涛. 结合链路预测和ET机器学习的科研合作推荐方法研究*[J]. 数据分析与知识发现, 2017, 1(4): 38-45.
Viewed
Full text


Abstract

Cited

  Shared   
  Discussed   
版权所有 © 2015 《数据分析与知识发现》编辑部
地址:北京市海淀区中关村北四环西路33号 邮编:100190
电话/传真:(010)82626611-6626,82624938
E-mail:jishu@mail.las.ac.cn