Please wait a minute...
Advanced Search
现代图书情报技术  2014, Vol. 30 Issue (3): 80-87     https://doi.org/10.11925/infotech.1003-3513.2014.03.12
  知识组织与知识管理 本期目录 | 过刊浏览 | 高级检索 |
机器学习在中文期刊论文自动分类研究中的应用
王昊, 叶鹏, 邓三鸿
南京大学信息管理学院 南京 210093
The Application of Machine-Learning in the Research on Automatic Categorization of Chinese Periodical Articles
Wang Hao, Ye Peng, Deng Sanhong
School of Information Management, Nanjing University, Nanjing 210093, China
全文: PDF (725 KB)   HTML  
输出: BibTeX | EndNote (RIS)      
摘要 

[目的] 在机器学习的计算模式下,利用特征加权和浅层次分类方法可以有效实现期刊论文的中图法分类。[应用背景] 传统的人工分类方式在大数据环境下显得力不从心,而期刊电子化趋势使得自动分类技术能够有效缓解人工分类的压力。[方法] 将机器学习的思想运用到期刊论文的自动分类领域,分析比较支持向量机和BP神经网络算法在期刊论文自动分类中的效果,利用层次分类理念将中图法转化为三层分类体系,将类目号的获取简化为三层分类的实现,基于特征的来源设置特征值的权重。[结果] 分类实验表明,支持向量机算法在大规模稀疏数据环境中较BP神经网络算法更合理,三层体系的分类正确率自顶向下分别达到95.05%、92.89%和89.02%,综合正确率接近80%,多来源的特征权重在论文自动分类中较单一权重具有更好的分类效果。[结论] 研究表明机器学习方法在期刊论文的自动分类方面具有较高的可行性、合理性和有效性,为期刊论文自动分类的实现提出新的思路。

服务
把本文推荐给朋友
加入引用管理器
E-mail Alert
RSS
作者相关文章
王昊
叶鹏
邓三鸿
关键词 机器学习期刊论文文本自动分类特征加权层次分类法    
Abstract

[Objective] Under the computing mode of machine learning, using the methods of feature weighting and shallow-hierarchical classification can effectively achieve Chinese Library Classification (CLC) classification for periodical articles. [Context] The traditional way of artificial classification shows its own limits in the background of "Big Data", and the trend of periodicals electronic makes that automatic classification techniques can effectively relief the pressure of artificial classification jobs. [Methods] This paper introduces the thinking of machine-learning into the field of automatic classification of periodical articles. It analyzes and compares the effects of Support Vector Machine(SVM) and BP Neural Networks Algorithm(BPNN) in the procedure of automatic classification, transforms CLC into another classification system with three levels in the thoughts of hierarchical classification, and sets the weights based the sources of classification features. [Results] The experiments of classification tests show that SVM is more reasonable than BPNN under the condition of large-scale sparse data, the accuracy rates of these three levels reach 95.05%, 92.89% and 89.02%, and the integrated accuracy rate is close to 80%, and the feature weights from mulit-sources can lead to better classification results than single-source. [Conclusions] The study proves that the model of machine-learning with feature weighting and shallow-hierarchical classification in automatic classification of periodical articles has higher feasibility, rationality and effectiveness, and a new idea on automatic classification of periodical articles has been presented.

Key wordsMachine-Learning    Periodical article    Automatic text categorization    Feature weighting    Hierarchy classification
收稿日期: 2013-09-02      出版日期: 2014-04-15
:  TP391  
基金资助:

本文系江苏省自然科学基金项目“面向专利预警的中文本体学习研究”(项目编号:BK20130587)和国家社会科学基金重点项目“基于语义的馆藏资源深度聚合与可视化展示研究”(项目编号:11AZD090)子课题的研究成果之一。

通讯作者: 王昊 E-mail:ywhaowang810710@sina.com     E-mail: ywhaowang810710@sina.com
作者简介: 作者贡献声明:王昊: 提出研究方法和基本思路,进行实验结果的分析和论证,负责论文撰写;叶鹏: 进行实验,包括数据采集、清洗和计算;邓三鸿: 对论文进行最后审阅并提出修改意见。
引用本文:   
王昊, 叶鹏, 邓三鸿. 机器学习在中文期刊论文自动分类研究中的应用[J]. 现代图书情报技术, 2014, 30(3): 80-87.
Wang Hao, Ye Peng, Deng Sanhong. The Application of Machine-Learning in the Research on Automatic Categorization of Chinese Periodical Articles. New Technology of Library and Information Service, 2014, 30(3): 80-87.
链接本文:  
https://manu44.magtech.com.cn/Jwk_infotech_wk3/CN/10.11925/infotech.1003-3513.2014.03.12      或      https://manu44.magtech.com.cn/Jwk_infotech_wk3/CN/Y2014/V30/I3/80

[1] 王洪, 贾惠波, 徐端颐. 基于中文学术期刊人工标引的自动分类新算法[J]. 现代图书情报技术, 2002(S1): 59-62. (Wang Hong, Jia Huibo, Xu Duanyi. The New Algorithm of Automatic Classification Based on Artificial Indexing of Chinese Academic Periodical[J]. New Technology of Library and Information Service, 2002(S1): 59-62.)

[2] 包剑, 冀常鹏, 李义杰. 基于矢量空间模型的文本自动分类系统研究[J]. 计算机系统应用, 2005, 14(3): 47-49. (Bao Jian, Ji Changpeng, Li Yijie. Research of Automatic Text Categorization System Based on VSM[J]. Computer Systems & Applications, 2005, 14(3): 47-49.)

[3] 陈玉芹. 多类别科技文献自动分类系统[D]. 武汉: 华中科技大学, 2008. (Chen Yuqin. Multi-class Automatic Categorization System for Technology Literature[D]. Wuhan: Huazhong University of Science and Technology, 2008.)

[4] 张雪英. 基于机器学习的文本自动分类研究进展[J]. 情报学报, 2006, 25(6): 730-739. (Zhang Xueying. Review of Machine Learning in Automatic Text Categorization[J]. Journal of the China Society for Scientific and Technical Information, 2006, 25(6): 730-739.)

[5] 牛延莉, 张化. 文本自动分类研究进展[J]. 软件导刊, 2008, 7(4): 24-26. (Niu Yanli, Zhang Hua. Progress of Automatic Text Classification[J]. Software Guide, 2008, 7(4): 24-26.)

[6] 何琳, 侯汉清, 白振田, 等. 基于标引经验和机器学习相结合的多层自动分类[J]. 情报学报, 2006,25(6):725-729. (He Lin, Hou Hanqing, Bai Zhentian, et al. Automatic Multi-layer Classification Method Based on Integration of Machine Learning and Indexing Experience[J]. Journal of the China Society for Scientific and Technical Information, 2006, 25(6): 725-729.)

[7] 谈文蓉, 杨宪泽, 谈进. 基于相似分类的文献理解及自动文摘系统研究[J]. 计算机科学, 2006, 33(9): 152-154. (Tan Wenrong, Yang Xianze, Tan Jin. Study for Document Interpretation and Automatic Abstracting Based on Analogic Sorting[J]. Computer Science, 2006, 33(9): 152-154.)

[8] 萧莉明, 于宽, 蔡珣. 一种基于Bayes分类器的中文期刊自动分类系统[J]. 现代情报, 2007,27(4):146-147,150. (Xiao Liming, Yu Kuan, Cai Xun. An Automatic Classification System of Chinese Periodical Based on Bayes Classifier[J]. Journal of Modern Information, 2007,27(4): 146-147,150.)

[9] 张野, 杨建林. 基于KNN和SVM的中文文本自动分类研究[J]. 情报科学, 2011,29(9): 1313-1317, 1377. (Zhang Ye,Yang Jianlin. Reseach on Automatic Classification for Chinese Text Based on KNN and SVM[J]. Information Science, 2011,29(9): 1313-1317, 1377.)

[10] Dalal M K, Zaveri M A. Automatic Text Classification: A Technical Review[J]. International Journal of Computer Applications, 2011, 28(2): 37-40.

[11] Li W, Miao D, Wang W. Two-level Hierarchical Combination Method for Text Classification[J]. Expert Systems with Applications, 2011, 38(3): 2030-2039.

[12] Ren F, Sohrab M G. Class-indexing-based Term Weighting for Automatic Text Classification[J]. Information Sciences, 2013, 236: 109-125.

[13] 张燕平, 张玲. 机器学习理论与算法[M]. 北京: 科学出版社, 2012.(Zhang Yanping, Zhang Ling. Machine Learning Theory and Algorithms[M]. Beijing: Science Press, 2012.)

[14] 施彦, 韩力群, 廉小亲. 神经网络设计方法与实例分析[M]. 北京: 北京邮电大学出版社, 2009. (Shi Yan, Han Liqun, Lian Xiaoqin. Neural Network Design Methods and Case Analysis[M]. Beijing: Beijing University of Posts and Telecommunications Press, 2009.)

[15] 张德丰. MATLAB神经网络仿真与应用[M] . 北京: 电子工业出版社, 2009. (Zhang Defeng. MATLAB Neural Network Simulation and Application[M]. Beijing: Publishing House of Electronics Industry, 2009.)

[16] 奉国和. SVM分类核函数及参数选择比较[J]. 计算机工程与应用, 2011,47(3): 123-124,128. (Feng Guohe. Parameter Optimizing for Support Vector Machines Classification[J]. Computer Engineering and Applications, 2011,47(3): 123- 124,128.)

[17] 刘大宁, 杨永乐, 白林. SVM核函数对分类精度影响的研究[J]. 佳木斯大学学报: 自然科学版, 2012, 30(4): 627-630. (Liu Daning,Yang Yongle, Bai Lin. Impact of SVM Kernel Function on the Classification Accuracy [J]. Journal of Jiamusi University: Natural Science Edition, 2012, 30(4): 627-630.)

[18] 王东波, 苏新宁, 朱丹浩,等. 基于支持向量机的医学期刊文章自动分类研究[J]. 情报理论与实践, 2011,34(4): 115-118. (Wang Dongbo, Su Xinning, Zhu Danhao, et al. The Study on Automatic Classification of Medical Journal Articles Based on SVM[J]. Information Studies: Theory & Application, 2011,34(4):115-118.)

[1] 王寒雪,崔文娟,周园春,杜一. 基于机器学习的食源性疾病致病菌识别方法*[J]. 数据分析与知识发现, 2021, 5(9): 54-62.
[2] 陈东华,赵红梅,尚小溥,张润彤. 数据驱动的大型医院手术室运营预测与优化方法研究*[J]. 数据分析与知识发现, 2021, 5(9): 115-128.
[3] 车宏鑫,王桐,王伟. 前列腺癌预测模型对比研究*[J]. 数据分析与知识发现, 2021, 5(9): 107-114.
[4] 苏强, 侯校理, 邹妮. 基于机器学习组合优化方法的术后感染预测模型研究*[J]. 数据分析与知识发现, 2021, 5(8): 65-75.
[5] 曹睿,廖彬,李敏,孙瑞娜. 基于XGBoost的在线短租市场价格预测及特征分析模型*[J]. 数据分析与知识发现, 2021, 5(6): 51-65.
[6] 钟佳娃,刘巍,王思丽,杨恒. 文本情感分析方法及应用综述*[J]. 数据分析与知识发现, 2021, 5(6): 1-13.
[7] 向卓元,刘志聪,吴玉. 基于用户行为自适应推荐模型研究 *[J]. 数据分析与知识发现, 2021, 5(4): 103-114.
[8] 柴国荣,王斌,沙勇忠. 基于多机器学习方法联合的公共卫生风险预测研究——以兰州市流感预测为例*[J]. 数据分析与知识发现, 2021, 5(1): 90-98.
[9] 陈东,王建冬,李慧颖,蔡思航,黄倩倩,易成岐,曹攀. 融合机器学习算法和多因素的禽肉交易量预测方法研究 *[J]. 数据分析与知识发现, 2020, 4(7): 18-27.
[10] 梁野,李小元,许航,胡伊然. CLOpin:一种面向舆情分析与预警领域的跨语言知识图谱架构*[J]. 数据分析与知识发现, 2020, 4(6): 1-14.
[11] 杨恒,王思丽,祝忠明,刘巍,王楠. 基于并行协同过滤算法的领域知识推荐模型研究*[J]. 数据分析与知识发现, 2020, 4(6): 15-21.
[12] 王树义,刘赛,马峥. 基于深度迁移学习的微博图像隐私分类研究*[J]. 数据分析与知识发现, 2020, 4(10): 80-92.
[13] 王若佳,张璐,王继民. 基于机器学习的在线问诊平台智能分诊研究[J]. 数据分析与知识发现, 2019, 3(9): 88-97.
[14] 李纲,周华阳,毛进,陈思菁. 基于机器学习的社交媒体用户分类研究 *[J]. 数据分析与知识发现, 2019, 3(8): 1-9.
[15] 胡佳慧,方安,赵琬清,杨晨柳,任慧玲. 面向知识发现的中文电子病历标注方法研究 *[J]. 数据分析与知识发现, 2019, 3(7): 123-132.
Viewed
Full text


Abstract

Cited

  Shared   
  Discussed   
版权所有 © 2015 《数据分析与知识发现》编辑部
地址:北京市海淀区中关村北四环西路33号 邮编:100190
电话/传真:(010)82626611-6626,82624938
E-mail:jishu@mail.las.ac.cn