Please wait a minute...
Advanced Search
现代图书情报技术  2013, Vol. 29 Issue (7/8): 107-113     https://doi.org/10.11925/infotech.1003-3513.2013.07-08.16
  应用实践 本期目录 | 过刊浏览 | 高级检索 |
关键词-分类号关联词表构建
杨贺1,2, 杨奕虹1,2, 李宁2
1. 中国科学技术信息研究所 北京100038;
2. 北京万方数据股份有限公司 北京100038
Construction of Keywords-Chinese Library Classification Codes Integrated Thesaurus
Yang He1,2, Yang Yihong1,2, Li Ning2
1. Institute of Scientific & Technical Information of China, Beijing 100038, China;
2. Beijing Wanfang Data Co., Ltd., Beijing 100038, China
全文: PDF (1129 KB)   HTML  
输出: BibTeX | EndNote (RIS)      
摘要 在多年海量文献人工标引的数据基础上,采用互信息法(MI)、卡方检验法(Chi-Square)、最大似然估计法(MLE)等概率与数理统计方法计量分析关键词与《中国图书资料分类法》分类号的关联关系,构建适用于科技文献自动标引的关键词-分类号关联词表,并通过实际标引文献数据的封闭与开放测试分析其应用效果。
服务
把本文推荐给朋友
加入引用管理器
E-mail Alert
RSS
作者相关文章
李宁
杨奕虹
杨贺
关键词 关键词-分类号关联词表文献加工自动标引自动分类    
Abstract:Based on years of massive manual indexing data, this paper constructs a natural language classification thesaurus with Mutual Information (MI), Chi-Square (χ2) and Maximum Likelihood Estimate (MLE) to analyze the corresponding relation between keywords and Chinese Library Classification Codes. The performances of the Keywords-Chinese Library Classification Codes Integrated Thesaurus used for automatic indexing of sci-tech literatures are tested by close and open testing.
Key wordsKeywords-Chinese Library Classification Codes Integrated Thesaurus    Literature processing    Automatic indexing    Automatic categorization
收稿日期: 2013-04-07      出版日期: 2013-09-02
: 

G254

 
基金资助:

本文系国家高技术研究发展计划(863计划)基金项目"以科技文献服务为主的搜索引擎研制"(项目编号:2011AA01A206)的研究成果之一。

通讯作者: 杨贺     E-mail: yanghe@wanfangdata.com.cn
引用本文:   
杨贺, 杨奕虹, 李宁. 关键词-分类号关联词表构建[J]. 现代图书情报技术, 2013, 29(7/8): 107-113.
Yang He, Yang Yihong, Li Ning. Construction of Keywords-Chinese Library Classification Codes Integrated Thesaurus. New Technology of Library and Information Service, 2013, 29(7/8): 107-113.
链接本文:  
https://manu44.magtech.com.cn/Jwk_infotech_wk3/CN/10.11925/infotech.1003-3513.2013.07-08.16      或      https://manu44.magtech.com.cn/Jwk_infotech_wk3/CN/Y2013/V29/I7/8/107
[1] 国家图书馆《中国图书馆分类法》编辑委员会.《中国分类主题词表》(第二版)及其电子版手册[M].北京:北京图书馆出版社,2006:43.(National Library of China, Editorial Committee of 《Chinese Library Classification》. 《Chinese Classified Thesaurus》 (The 2nd Edition) with Its Electronic Version of the Handbook[M]. Beijing: Beijing Library Press, 2006:43.)
[2] 国家图书馆《中国图书馆分类法》编辑委员会.《中国分类主题词表》(第二版)[DB/CD].北京:北京图书馆出版社,2006.(National Library of China, Editorial Committee of 《Chinese Library Classification》. 《Chinese Classified Thesaurus》 (The 2nd Edition)[DB/CD]. Beijing: Beijing Library Press, 2006.)
[3] 王梦云,曹素青.基于字频向量的中文文本自动分类系统[J]. 情报学报,2000,19(6):644-649. (Wang Mengyun, Cao Suqing. The System for Automatic Text Categorization Based on Chinese Character Vector[J]. Journal of the China Society for Scientific and Technical Information,2000,19(6):644-649.)
[4] 周茜,赵明生,扈旻.中文文本分类中的特征选择研究[J]. 中文信息学报,2004,18(3):17-23.(Zhou Qian, Zhao Mingsheng, Hu Min. Study on Feature Selection in Chinese Text Categorization[J]. Journal of Chinese Information Processing,2004, 18(3):17-23.)
[5] Yang Y, Pedersen J O. A Comparative Study on Feature Selection in Text Categorization[C].In: Proceedings of the 14th International Conference on Machine Learning, Nashville, Tennessee.1997: 412-420.
[6] Yang Y. An Evaluation of Statistical Approaches to Text Categorization[J].Information Retrieval,1999,1(1-2):69-90.
[7] Yang Y, Liu X. A Re-examination of Text Categorization Methods[C].In: Proceedings of the 22nd Annual International ACM SIGIR Conference on Research and Development in Information Retrieval. New York, NY, USA: ACM, 1999: 42-49.
[8] Mladenic D, Grobelnik M. Feature Selection for Unbalanced Class Distribution and Naive Bayes[C].In: Proceedings of the 16th International Conference on Machine Learning. San Francisco, CA, USA: Morgan Kaufmann Publishers Inc.,1999: 258-267.
[9] Kolcz A, Prabakarmurthi V, Kalita J. Summarization as Feature Selection for Text Categorization[C].In: Proceedings of the 10th International Conference on Information and Knowledge Management. New York, NY, USA: ACM, 2001: 365-370.
[10] Lassi M. Automatic Thesaurus Construction[EB/OL].[2013-03-09]. http://citeseerx.ist.psu.edu/viewdoc/download?doi=10.1.1.106.3346&rep=rep1&type=pdf.
[11] 侯汉清,薛鹏军.中文信息自动分类用知识库的设计与构建[J]. 情报学报,2003,22(6):681-686.(Hou Hanqing, Xue Pengjun. Design & Construction of Knowledge Database for Automatic Classification in Chinese[J]. Journal of the China Society for Scientific and Technical Information,2003,22(6):681-686.)
[12] Liu H, Motoda H, Setiono R, et al. Feature Selection: An Ever Evolving Frontier in Data Mining[C].In: Proceedings of the 4th Workshop on Feature Selection in Data Mining. 2010:4-13.
[13] Yan X. A Study for Important Criteria of Feature Selection in Text Categorization[C].In: Proceedings of the 2nd International Workshop on Intelligent Systems and Applications (ISA).2010: 1-4.
[14] 代六玲,黄河燕,陈肇雄,等.中文文本分类中特征抽取方法的比较研究[J]. 中文信息学报,2004,18(1):26-32.(Dai Liuling, Huang Heyan, Chen Zhaoxiong, et al. A Comparative Study on Feature Selection in Chinese Text Categorization[J]. Journal of Chinese Information Processing,2004,18(1):26-32.)
[15] 胡佳妮,徐蔚然,郭军,等.中文文本分类中的特征选择算法研究[J]. 光通信研究,2005(3):44-46.(Hu Jiani, Xu Weiran, Guo Jun, et al. Study on Feature Selection Methods in Chinese Text Categorization[J]. Study on Optical Communications, 2005(3):44-46.)
[16] 张雪英.经济信息检索高速词汇转换系统的设计[D]. 南京:南京农业大学,1999.(Zhang Xueying. Design of a Vocabulary Switching System of Economic Information Retrieval[D]. Nanjing: Nanjing Agricultural University, 1999.)
[17] Hofmann T. Probabilistic Latent Semantic Indexing[C].In: Proceedings of the 22nd Annual International ACM SIGIR Conference on Research and Development in Information Retrieval. New York, NY, USA:ACM,1999: 50-57.
[18] 季铎,郑伟,蔡东风.潜在语义索引中特征优化技术的研究[J]. 中文信息学报,2009,23(2):69-76. (Ji Duo, Zheng Wei, Cai Dongfeng. Research on Feature Optimization in Latent Semantic Indexing[J]. Journal of Chinese Information Processing,2009,23(2):69-76.)
[19] 杨贺,杨奕虹,乔晓东,等.用于计算机辅助文献标引加工系统的自然语言词表构建[J]. 现代图书情报技术, 2010(6):17-24. (Yang He, Yang Yihong, Qiao Xiaodong, et al.Construction of Natural Language Thesauri for Automatic Assistant Indexing Literature System[J]. New Technology of Library and Information Service,2010(6):17-24.)
[1] 熊欣,王昊,张海潮,张宝隆. 中文术语粒度对其区分能力测度的影响分析*[J]. 数据分析与知识发现, 2020, 4(2/3): 143-152.
[2] 李娇,黄永文,罗婷婷,赵瑞雪,鲜国建. 基于多因子算法的自动分类研究*[J]. 数据分析与知识发现, 2020, 4(11): 43-51.
[3] 李湘东, 高凡, 李悠海. 共通语义空间下的跨文献类型文本自动分类研究*[J]. 数据分析与知识发现, 2018, 2(9): 66-73.
[4] 邓三鸿, 傅余洋子, 王昊. 基于LSTM模型的中文图书多标签分类研究*[J]. 数据分析与知识发现, 2017, 1(7): 52-60.
[5] 李湘东,巴志超,高凡. 数字文本自动分类中特征语义关联及加权策略研究综述与展望*[J]. 现代图书情报技术, 2016, 32(9): 17-26.
[6] 何琳, 万健, 何娟, 郭诗云. 基于社会标签的中文图书自动分类研究[J]. 现代图书情报技术, 2014, 30(9): 1-7.
[7] 王昊, 叶鹏, 邓三鸿. 机器学习在中文期刊论文自动分类研究中的应用[J]. 现代图书情报技术, 2014, 30(3): 80-87.
[8] 胡冰, 张建立. 基于统计分布的中文专利自动分类方法研究[J]. 现代图书情报技术, 2013, 29(7/8): 101-106.
[9] 赵衍, 陈恒. 一种提高中英文混编文本标引准确性的方法[J]. 现代图书情报技术, 2012, 28(6): 36-42.
[10] 徐健, 温浩胜. 人才网页自动识别系统研究[J]. 现代图书情报技术, 2011, 27(6): 20-26.
[11] 马芳. 基于RBFNN的专利自动分类研究[J]. 现代图书情报技术, 2011, 27(12): 58-63.
[12] 杨贺 杨奕虹 乔晓东 李宁 朱礼军. 用于计算机辅助文献标引加工系统的自然语言词表构建*[J]. 现代图书情报技术, 2010, 26(6): 17-24.
[13] 王梅文. 基于本体进行自动分类的元搜索引擎的设计与实现[J]. 现代图书情报技术, 2008, 24(9): 58-63.
[14] 沈静,周金治,马建国. 基于UCL的网页信息自动标引技术研究*[J]. 现代图书情报技术, 2008, 24(8): 58-62.
[15] 章成敏,许鑫,章成志. 条件随机场标引模型的性能影响因素分析[J]. 现代图书情报技术, 2008, 24(6): 34-40.
Viewed
Full text


Abstract

Cited

  Shared   
  Discussed   
版权所有 © 2015 《数据分析与知识发现》编辑部
地址:北京市海淀区中关村北四环西路33号 邮编:100190
电话/传真:(010)82626611-6626,82624938
E-mail:jishu@mail.las.ac.cn