Please wait a minute...
Advanced Search
数据分析与知识发现
  本期目录 | 过刊浏览 | 高级检索 |
基于多因子算法的自动分类研究
李娇,黄永文,罗婷婷,赵瑞雪,鲜国建
(中国农业科学院农业信息所 北京  100081)     (农业农村部农业大数据重点实验室 北京  100081)
Automatic Classification based on Multi-factor Algorithm
Li Jiao1,Huang Yongwen,Luo Tingting,Zhao Ruixue,Xian Guojian
(Agricultural Information Institute of CAAS, Beijing 100081, China)
(Key Laboratory of Agricultural Big Data, Ministry of Agriculture and Rural Affairs, Beijing 100081, China)
全文: PDF (453 KB)  
输出: BibTeX | EndNote (RIS)      
摘要 

[目的]从实用角度出发,研制领域适用性广、人力投入少的分类标引方法,支撑海量信息资源分类管理与学科领域地图揭示。

[方法]基于文献中代表主题概念的术语、概念等关键词和分类号的兼容关系研究设计多因子加权分类算法,在此基础上提出全流程自动分类标引方案。

[结果]以权威的多领域标注语料库和标准集为数据来源进行分类标引实验,单类号文献标引准确率84.1%,召回率79.8%,F值81.9%;双类号文献标引准确率83.4%,召回率78.8%,F值81%。

[局限]学科分类标引的准确率及完整性依赖高质量标注语料库,且在多类号资源的标引上有待提升。

[结论]本文提出的多因子算法自动分类标引具有较高的可操作性和实践应用价值。

服务
把本文推荐给朋友
加入引用管理器
E-mail Alert
RSS
作者相关文章
关键词 自动分类学科分类多因子算法     
Abstract

[Objective] This paper develops a manpower-saving method of automatic classification indexing with wide appilcability, aiming to support classification management of massive information resource and disclosure of subject area.

[Methods] By analyzing the correspondence between terms, concepts and other keywords representing the subject concept in the literature and classification number, we designed a multi-factor weighted algorithm, and proposed a full-process automatic classification indexing scheme.

[Results] The experiment based on authoritative multi-domain annotated corpora and standards sets shows: For literature with single subject classification number, the precision, recall and F values were 84.1%, 79.8%, and 81.9% respectively. For literature with two subject classification numbers, the precision, recall and F values were 83.4%, 78.8%, and 81%.

[Limitations] The accuracy and completeness of subject classification indexing depends on high-quality annotation corpora, and the indexing of interdisciplinary literature needs to be improved.

[Conclusions] The proposed automatic classification indexing based on multi-factor algorithm has high operability and practical application value.

Key words Automatic Classification    Subject Classification    Multi-factor Algorithm
     出版日期: 2020-09-02
ZTFLH:  TP393,G250  
引用本文:   
李娇, 黄永文, 罗婷婷, 赵瑞雪, 鲜国建. 基于多因子算法的自动分类研究 [J]. 数据分析与知识发现, 10.11925/infotech.2096-3467. 2020.0238.
Li Jiao, Huang Yongwen, Luo Tingting, Zhao Ruixue, Xian Guojian. Automatic Classification based on Multi-factor Algorithm . Data Analysis and Knowledge Discovery, 0, (): 1-.
链接本文:  
http://manu44.magtech.com.cn/Jwk_infotech_wk3/CN/10.11925/infotech.2096-3467. 2020.0238      或      http://manu44.magtech.com.cn/Jwk_infotech_wk3/CN/Y0/V/I/1
[1] 李湘东, 高凡, 李悠海. 共通语义空间下的跨文献类型文本自动分类研究*[J]. 数据分析与知识发现, 2018, 2(9): 66-73.
[2] 邓三鸿, 傅余洋子, 王昊. 基于LSTM模型的中文图书多标签分类研究*[J]. 数据分析与知识发现, 2017, 1(7): 52-60.
[3] 李湘东,巴志超,高凡. 数字文本自动分类中特征语义关联及加权策略研究综述与展望*[J]. 现代图书情报技术, 2016, 32(9): 17-26.
[4] 王曰芬,傅柱,陈必坤. 采用LDA主题模型的国内知识流研究结构探讨: 以学科分类主题抽取为视角*[J]. 现代图书情报技术, 2016, 32(4): 8-19.
[5] 何琳, 万健, 何娟, 郭诗云. 基于社会标签的中文图书自动分类研究[J]. 现代图书情报技术, 2014, 30(9): 1-7.
[6] 王昊, 叶鹏, 邓三鸿. 机器学习在中文期刊论文自动分类研究中的应用[J]. 现代图书情报技术, 2014, 30(3): 80-87.
[7] 胡冰, 张建立. 基于统计分布的中文专利自动分类方法研究[J]. 现代图书情报技术, 2013, 29(7/8): 101-106.
[8] 杨贺, 杨奕虹, 李宁. 关键词-分类号关联词表构建[J]. 现代图书情报技术, 2013, 29(7/8): 107-113.
[9] 徐健, 温浩胜. 人才网页自动识别系统研究[J]. 现代图书情报技术, 2011, 27(6): 20-26.
[10] 马芳. 基于RBFNN的专利自动分类研究[J]. 现代图书情报技术, 2011, 27(12): 58-63.
[11] 王梅文. 基于本体进行自动分类的元搜索引擎的设计与实现[J]. 现代图书情报技术, 2008, 24(9): 58-63.
[12] 郭少友. 基于词语上下文关系的文本自动分类方法研究[J]. 现代图书情报技术, 2008, 24(5): 44-49.
[13] 钱爱兵,江岚. 基于标题的中文新闻网页自动分类[J]. 现代图书情报技术, 2008, 24(10): 59-68.
[14] 乐庆玲. 基于协同机制的Tag资源自动分类研究[J]. 现代图书情报技术, 2007, 2(9): 58-61.
[15] 罗立群,张慰,陈金鑫. 基础教育黄页网站自动生成系统的设计与实现[J]. 现代图书情报技术, 2007, 2(8): 80-83.
Viewed
Full text


Abstract

Cited

  Shared   
  Discussed   
版权所有 © 2015 《数据分析与知识发现》编辑部
地址:北京市海淀区中关村北四环西路33号 邮编:100190
电话/传真:(010)82626611-6626,82624938
E-mail:jishu@mail.las.ac.cn