基于字序列标注的中文关键词抽取研究

doi:10.11925/infotech.1003-3513.2011.12.06

现代图书情报技术

2011, Vol. 27

Issue (12): 39-45 https://doi.org/10.11925/infotech.1003-3513.2011.12.06

知识组织与知识管理

本期目录 | 过刊浏览 | 高级检索

基于字序列标注的中文关键词抽取研究

王昊, 邓三鸿, 苏新宁

南京大学信息管理系南京 210093

Research on Chinese Keywords Extraction Based on Characters Sequence Annotation

Wang Hao, Deng Sanhong, Su Xinning

Department of Information Management, Nanjing University, Nanjing 210093, China

摘要
参考文献
相关文章
Metrics

全文: PDF (698 KB) HTML
输出: BibTeX | EndNote (RIS)

摘要以某大学图书馆的所有馆藏书目为研究对象,在对图书关键词标引信息进行分析的基础上,总结中文关键词的基本特点及其抽取规律,构建一个基于字序列标注的中文关键词抽取模型,提出中文关键词抽取的基础思路和实现方案,并通过实验论证模型的合理性、正确性和实用性,认为字序列标注方法优于词序列标注,基本上可以解决不分词情况下的中文关键词抽取问题。

	服务

	把本文推荐给朋友
	加入引用管理器
	E-mail Alert
	RSS
	作者相关文章
	王昊
	邓三鸿
	苏新宁

关键词 ：序列标注, 条件随机场, 关键词抽取, 机器学习, 字序列, 词序列

Abstract：Based on the whole Chinese booklist of a certain university library as well as the analysis of its book indexing information, the paper summarizes the features and extracting laws of Chinese keywords, and establishes a Chinese keywords extraction model based on characters sequence annotation, which proposes the basic idea and implementation scheme for extracting keywords. It verifies the feasibility, rationality and practicality of the model by large-scale experiments, and basically solves the problems of Chinese keywords extraction without executing words segmentation, which shows that characters sequence annotation is better than words sequence annotation.

Key words： Sequence annotation Conditional random fields Keywords extraction Machine learning Characters sequence Words sequence

收稿日期: 2011-10-08 出版日期: 2012-02-02

TP391.1

引用本文:

王昊, 邓三鸿, 苏新宁. 基于字序列标注的中文关键词抽取研究[J]. 现代图书情报技术, 2011, 27(12): 39-45.
Wang Hao, Deng Sanhong, Su Xinning. Research on Chinese Keywords Extraction Based on Characters Sequence Annotation. New Technology of Library and Information Service, 2011, 27(12): 39-45.

链接本文:

https://manu44.magtech.com.cn/Jwk_infotech_wk3/CN/10.11925/infotech.1003-3513.2011.12.06 或 https://manu44.magtech.com.cn/Jwk_infotech_wk3/CN/Y2011/V27/I12/39

[1] Hulth A. Combining Machine Learning and Natural Language Processing for Automatic Keyword Extraction[D]. Stockholm: Stockholm University, 2004.

[2] 王昊, 严明, 苏新宁. 基于机器学习的中文书目自动分类研究[J]. 中国图书馆学报, 2010,36(6): 28-39.

[3] 章成志, 苏新宁. 基于条件随机场的自动标引模型研究[J]. 中国图书馆学报, 2008,34(5): 89-94, 99.

[4] Chu C M, O’Brien A. Subject Analysis:The Critical First Stage in Indexing[J]. Journal of Information Science, 1993, 19(6): 439-454.

[5] 邓箴, 包宏. 改进的关键词抽取方法研究[J]. 计算机工程与设计, 2009,30(20): 4677-4680, 4769.

[6] 张雪英, Krause J. 中文文本关键词自动抽取方法研究[J]. 情报学报, 2008,27(4): 512-520.

[7] 徐文海, 温有奎. 一种基于TFIDF方法的中文关键词抽取算法[J]. 情报理论与实践, 2008,31(2): 298-302.

[8] 张庆国, 薛德军, 张振海, 等. 海量数据集上基于特征组合的关键词自动抽取[J]. 情报学报, 2006,25(5): 587-593.

[9] 杨洁, 季铎, 蔡东风, 等. 基于联合权重的多文档关键词抽取技术[J]. 中文信息学报, 2008,22(6): 75-79.

[10] 王灿辉, 张敏, 马少平, 等. 基于相邻词的中文关键词自动抽取[J]. 广西师范大学学报:自然科学版, 2007,25(2): 161-164.

[11] 李素建, 王厚峰, 俞士汶,等. 关键词自动标引的最大熵模型应用研究[J]. 计算机学报, 2004,27(9): 1192-1197.

[12] Frank E, Paynter G W, Witten I H,et al. Domain-Specific Keyphrase Extraction[C]. In: Proceedings of the 16th International Joint Conference on Artificial Intelligence,Stockholm, Sweden.Morgan Kaufmann, 1999: 668-673.

[13] 章成志. 基于集成学习的自动标引方法研究[J]. 情报学报, 2010,29(1): 3-8.

[14] Zhang K, Xu H, Tang J, et al. Keyword Extraction Using Support Vector Machine[C]. In: Proceedings of the 7th International Conference on Web-Age Information Management (WAIM2006), Hong Kong, China.2006: 85-96.

[15] 中国科学院计算技术研究所. ICTCLAS汉语分词系统简介[EB/OL]. [2011-08-13]. http://ictclas.org/ictclas_introduction.html.

[16] 黄昌宁, 赵海. 由字构词——中文分词新方法[C]. 见:中国中文信息学会二十五周年学术会议报告, 2006: 53-63.

[17] Kudo T. CRF++: Yet Another CRF Toolkit[EB/OL]. [2011-08-07]. http://crfpp.sourceforge.net/.

[1]	王寒雪,崔文娟,周园春,杜一. 基于机器学习的食源性疾病致病菌识别方法*[J]. 数据分析与知识发现, 2021, 5(9): 54-62.
[2]	陈东华,赵红梅,尚小溥,张润彤. 数据驱动的大型医院手术室运营预测与优化方法研究*[J]. 数据分析与知识发现, 2021, 5(9): 115-128.
[3]	车宏鑫,王桐,王伟. 前列腺癌预测模型对比研究*[J]. 数据分析与知识发现, 2021, 5(9): 107-114.
[4]	王一钒,李博,史话,苗威,姜斌. 古汉语实体关系联合抽取的标注方法*[J]. 数据分析与知识发现, 2021, 5(9): 63-74.
[5]	苏强, 侯校理, 邹妮. 基于机器学习组合优化方法的术后感染预测模型研究^*[J]. 数据分析与知识发现, 2021, 5(8): 65-75.
[6]	王昊, 林克柔, 孟镇, 李心蕾. 文本表示及其特征生成对法律判决书中多类型实体识别的影响分析[J]. 数据分析与知识发现, 2021, 5(7): 10-25.
[7]	曹睿,廖彬,李敏,孙瑞娜. 基于XGBoost的在线短租市场价格预测及特征分析模型^*[J]. 数据分析与知识发现, 2021, 5(6): 51-65.
[8]	钟佳娃,刘巍,王思丽,杨恒. 文本情感分析方法及应用综述^*[J]. 数据分析与知识发现, 2021, 5(6): 1-13.
[9]	向卓元,刘志聪,吴玉. 基于用户行为自适应推荐模型研究 ^*[J]. 数据分析与知识发现, 2021, 5(4): 103-114.
[10]	成彬,施水才,都云程,肖诗斌. 基于融合词性的BiLSTM-CRF的期刊关键词抽取方法[J]. 数据分析与知识发现, 2021, 5(3): 101-108.
[11]	柴国荣,王斌,沙勇忠. 基于多机器学习方法联合的公共卫生风险预测研究——以兰州市流感预测为例*[J]. 数据分析与知识发现, 2021, 5(1): 90-98.
[12]	陈东,王建冬,李慧颖,蔡思航,黄倩倩,易成岐,曹攀. 融合机器学习算法和多因素的禽肉交易量预测方法研究 ^*[J]. 数据分析与知识发现, 2020, 4(7): 18-27.
[13]	梁野,李小元,许航,胡伊然. CLOpin:一种面向舆情分析与预警领域的跨语言知识图谱架构*[J]. 数据分析与知识发现, 2020, 4(6): 1-14.
[14]	杨恒,王思丽,祝忠明,刘巍,王楠. 基于并行协同过滤算法的领域知识推荐模型研究*[J]. 数据分析与知识发现, 2020, 4(6): 15-21.
[15]	赵平,孙连英,涂帅,卞建玲,万莹. 改进的知识迁移景点实体识别算法研究及应用^*[J]. 数据分析与知识发现, 2020, 4(5): 118-126.

Viewed

Full text

Abstract

Cited

Shared

Discussed