Please wait a minute...
Advanced Search
现代图书情报技术  2013, Vol. 29 Issue (7/8): 55-62     https://doi.org/10.11925/infotech.1003-3513.2013.07-08.08
  知识组织与知识管理 本期目录 | 过刊浏览 | 高级检索 |
面向中文图书的自动标引模型构建及实验分析
王昊, 邹杰利, 邓三鸿
南京大学信息管理学院 南京 210093
Model Construction and Experiment Analysis of Automatic Indexing for Chinese Books
Wang Hao, Zou Jieli, Deng Sanhong
School of Information Management, Nanjing University, Nanjing 210093, China
全文: PDF (1144 KB)   HTML  
输出: BibTeX | EndNote (RIS)      
摘要 针对中文图书关键词自动标引问题,引入条件随机场机器学习算法,通过对大量已有的中文图书手工关键词标引数据进行训练和学习,生成包含序列实体之间语义关系和规则特征的标注模型,并利用该标注模型进行机器预测,自动抽取出图书关键词。主要解决两个问题:鉴于条件随机场模型的参数选择会影响到系统的标注性能,从多个角度进行对比实验,确定针对中文图书关键词标引这一特定问题的条件随机场模型的最佳参数集合;探讨不同的观察特征对关键词标引的影响,通过实验论证4个能够有效提高标引性能的观察特征。最终建立起面向中文图书的最佳关键词标引模型。
服务
把本文推荐给朋友
加入引用管理器
E-mail Alert
RSS
作者相关文章
王昊
邹杰利
邓三鸿
关键词 条件随机场关键词标引特征模板字长窗口特征函数软边界参数观察特征角色    
Abstract:For the problem of automatic keywords indexing for Chinese books, this paper introduces the machine learning algorithm of Condition Radom Fields to deal with it. The method generates an annotation model including semantic relations and rule features among sequence entities though training the large number of existing keywords data of Chinese books indexed by manual, then uses the annotation model for machine predicting so that to automatically extract the books' keywords. The paper mainly solves two problems. First, because the parameters choice of CRFs will affect the indexing performance, the authors make comparative tests from several angles so as to identify the optimal parameter set of CRFs for the specific problem of keywords indexing for Chinese books. Second, the authors discusse the effect of different observed features to the keywords indexing, and demonstrate four observed features which can improve the indexing performance effectively through the experiments analysis. Finally, the optimal model of keywords indexing oriented to Chinese books is constructed.
Key wordsCondition Random Fields    Keywords indexing    Feature template    Word length of window    Feature function    Soft boundary parameter    Observed feature roles
收稿日期: 2013-05-27      出版日期: 2013-09-02
: 

TP391

 
基金资助:

本文系国家863计划"以科技文献服务为主的搜索引擎研制"(项目编号:2011AA01A206)和国家社会科学基金重点项目"基于语义的馆藏资源深度聚合与可视化展示研究"(项目编号:11AZD090)的研究成果之一。

通讯作者: 王昊     E-mail: ywhaowang@nju.edu.cn
引用本文:   
王昊, 邹杰利, 邓三鸿. 面向中文图书的自动标引模型构建及实验分析[J]. 现代图书情报技术, 2013, 29(7/8): 55-62.
Wang Hao, Zou Jieli, Deng Sanhong. Model Construction and Experiment Analysis of Automatic Indexing for Chinese Books. New Technology of Library and Information Service, 2013, 29(7/8): 55-62.
链接本文:  
https://manu44.magtech.com.cn/Jwk_infotech_wk3/CN/10.11925/infotech.1003-3513.2013.07-08.08      或      https://manu44.magtech.com.cn/Jwk_infotech_wk3/CN/Y2013/V29/I7/8/55
[1] 马张华.信息组织[M].北京:清华大学出版社,2003.(Ma Zhanghua. Information Organization[M].Beijing: Tsinghua University Press,2003.)
[2] Frank E, Paynter G W, Witten I H, et al. Domain-Specific Keyphrase Extraction[C].In: Proceedings of the 16th International Joint Conference on Artificial Intelligence, Stockholm, Sweden. San Francisco, CA, USA: Morgan Kaufmann Publishers Inc.,1999:668-673.
[3] Turney P D. Learning to Extract Keyphrases from Text[R]. NRC Technical Report. ERB-1057. Canada: National Research Council,1999:1-43.
[4] Ercan G, Cicekli I. Using Lexical Chains for Keyword Extraction[J].Information Processing and Management,2007,43(6):1705-1714.
[5] 李素建,王厚峰,俞士汶,等.关键词自动标引的最大熵模型应用研究[J]. 计算机学报,2004,27(9):1192-1197.(Li Sujian,Wang Houfeng,Yu Shiwen,et al. Research on Maximum Entropy Model for Keyword Indexing[J].Chinese Journal of Computers,2004,27(9):1192-1197.)
[6] Zhang K, Xu H,Tang Jie,et al. Keyword Extraction Using Support Vector Machine[C].In: Proceedings of the 7th International Conference on Web-Age Information Management (WAIM'06),Hong Kong,China.2006.
[7] 邓三鸿, 王昊,秦嘉杭,等.基于字角色标注的中文书目关键词标引研究[J]. 中国图书馆学报,2012,38(2):38-49.(Deng Sanhong, Wang Hao, Qin Jiahang,et al. Research on Keywords Indexing for Chinese Bibliography Based on Word Roles Annotation[J]. Journal of Library Science in China, 2012,38(2):38-49.)
[8] 宗成庆. 统计自然语言处理[M]. 北京: 清华大学出版社, 2008.(Zong Chengqing. Statistical Natural Language Processing[M].Beijing: Tsinghua University Press,2008.)
[9] CRFs + +[OL].[2013-03-12]. http://crfpp.googlecode.com/svn/trunk/doc/index.html.
[10] 朱莎莎,刘宗田,付剑锋,等. 基于条件随机场的中文时间短语识别[J]. 计算机工程, 2011,37(15):164-167.(Zhu Shasha,Liu Zongtian, Fu Jianfeng, et al. Chinese Temporal Phrase Recognition Based on Conditional Random Fields[J].Computer Engineering, 2011,37(15):164-167.)
[11] 李航.统计学习方法[M].北京:清华大学出版社,2012:212.(Li Hang. Methods of Statistical Learning[M].Beijing: Tsinghua University Press,2012:212.)
[1] 王昊, 林克柔, 孟镇, 李心蕾. 文本表示及其特征生成对法律判决书中多类型实体识别的影响分析[J]. 数据分析与知识发现, 2021, 5(7): 10-25.
[2] 成彬,施水才,都云程,肖诗斌. 基于融合词性的BiLSTM-CRF的期刊关键词抽取方法[J]. 数据分析与知识发现, 2021, 5(3): 101-108.
[3] 赵平,孙连英,涂帅,卞建玲,万莹. 改进的知识迁移景点实体识别算法研究及应用*[J]. 数据分析与知识发现, 2020, 4(5): 118-126.
[4] 李成梁,赵中英,李超,亓亮,温彦. 基于依存关系嵌入与条件随机场的商品属性抽取方法*[J]. 数据分析与知识发现, 2020, 4(5): 54-65.
[5] 黄菡,王宏宇,王晓光. 结合主动学习的条件随机场模型用于法律术语的自动识别*[J]. 数据分析与知识发现, 2019, 3(6): 66-74.
[6] 肖连杰,孟涛,王伟,吴志祥. 基于深度学习的情报分析方法识别研究 * ——以安全情报领域为例[J]. 数据分析与知识发现, 2019, 3(10): 20-28.
[7] 唐慧慧, 王昊, 张紫玄, 王雪颖. 基于汉字标注的中文历史事件名抽取研究*[J]. 数据分析与知识发现, 2018, 2(7): 89-100.
[8] 王东波, 吴毅, 叶文豪, 刘睿伦. 多特征知识下的食品安全事件实体抽取研究*[J]. 数据分析与知识发现, 2017, 1(3): 54-61.
[9] 张越, 王东波, 朱丹浩. 面向食品安全突发事件汉语分词的特征选择及模型优化研究*[J]. 数据分析与知识发现, 2017, 1(2): 64-72.
[10] 张琳, 秦策, 叶文豪. 基于条件随机场的法言法语实体自动识别模型研究*[J]. 数据分析与知识发现, 2017, 1(11): 46-52.
[11] 王密平,王昊,邓三鸿,吴志祥. 基于CRFs的冶金领域中文专利术语抽取研究*[J]. 现代图书情报技术, 2016, 32(6): 28-36.
[12] 贺惠新,刘丽娟. 主动学习的科技文献研究对象标引体系研究*[J]. 现代图书情报技术, 2016, 32(3): 67-73.
[13] 隋明爽,崔雷. 结合多种特征的CRF模型用于化学物质-疾病命名实体识别[J]. 现代图书情报技术, 2016, 32(10): 91-97.
[14] 许德山, 李辉, 张运良. 文献关键词链接标引方法研究[J]. 现代图书情报技术, 2015, 31(9): 31-37.
[15] 段宇锋, 朱雯晶, 陈巧, 刘伟, 刘凤红. 条件随机场与领域本体元素集相结合的未登录词识别研究[J]. 现代图书情报技术, 2015, 31(4): 41-49.
Viewed
Full text


Abstract

Cited

  Shared   
  Discussed   
版权所有 © 2015 《数据分析与知识发现》编辑部
地址:北京市海淀区中关村北四环西路33号 邮编:100190
电话/传真:(010)82626611-6626,82624938
E-mail:jishu@mail.las.ac.cn