Please wait a minute...
Advanced Search
现代图书情报技术  2008, Vol. 24 Issue (6): 34-40     https://doi.org/10.11925/infotech.1003-3513.2008.06.07
  知识组织与知识管理 本期目录 | 过刊浏览 | 高级检索 |
条件随机场标引模型的性能影响因素分析
章成敏1,2 许鑫3  章成志4,5
1(南京大学信息管理系 南京 210093)
2(中国药科大学图书馆  南京  210009)
3(华东师范大学信息学系 上海  200241)
4(南京理工大学信息管理系 南京  210094)
5(中国科学技术信息研究所 北京  100038)
Analysis of the Factors Affecting the Performance of CRF-based Keywords Extraction Model
Zhang Chengmin1,2   Xu Xin3   Zhang Chengzhi 4,5
1(Department of Information Management, Nanjing University, Nanjing 210093,China)
2(Library of China Pharmaceutical University, Nanjing 210009,China)
3(Department of Informatics, East China Normal University, Shanghai  200241,China)
4(Department of Information Management, Nanjing University of Science & Technology, Nanjing 210094,China)
5(Institute of Scientific & Technical Information of China, Beijing 100038,China)
全文: PDF (452 KB)  
输出: BibTeX | EndNote (RIS)      
摘要 

利用条件随机场模型进行自动标引研究,对文本分词性能、训练集的规模、特征的个数、模型本身的参数设置等影响模型标引性能的因素进行实验和分析。

服务
把本文推荐给朋友
加入引用管理器
E-mail Alert
RSS
作者相关文章
许鑫
章成志
章成敏
关键词 自动标引关键词提取条件随机场机器学习    
Abstract

 The CRF model can use the features of documents more sufficiently and effectively. Keywords extraction based on CRF is proposed and implemented. The factors affecting the performance of the CRF-based keyword extraction model are analyzed. The factors include: the performance of text segmentation, the scale of training corpus, the number of figure and the parameters setting of the CRF model.

Key wordsAutomatic indexing    Keywords extraction    Conditional random fields    Machine learning
收稿日期: 2008-01-31      出版日期: 2008-06-25
ZTFLH: 

TP391 

 
  G252

 
通讯作者: 章成敏     E-mail: zhangchengmin@gmail.com
作者简介: 章成敏,许鑫,章成志
引用本文:   
章成敏,许鑫,章成志. 条件随机场标引模型的性能影响因素分析[J]. 现代图书情报技术, 2008, 24(6): 34-40.
Zhang Chengmin,Xu Xin,Zhang Chengzhi. Analysis of the Factors Affecting the Performance of CRF-based Keywords Extraction Model. New Technology of Library and Information Service, 2008, 24(6): 34-40.
链接本文:  
http://manu44.magtech.com.cn/Jwk_infotech_wk3/CN/10.11925/infotech.1003-3513.2008.06.07      或      http://manu44.magtech.com.cn/Jwk_infotech_wk3/CN/Y2008/V24/I6/34

[1] Salton G, Yang C S, Yu C T. A Theory of Term Importance in Automatic Text Analysis[J]. Journal of the American society for Information Science, 1975, 26(1): 33-44.
[2] 韩客松, 王永成. 中文全文标引的主题词标引和主题概念标引方法[J]. 情报学报, 2001, 20(2): 212-216.
[3] Frank E, Paynter G W, Witten I H. Domain-Specific Keyphrase Extraction[C]. In: Proceedings of the 16th International Joint Conference on Aritifcal Intelliegence, Stockholm, Sweden, Morgan Kaufmann, 1999: 668-673.
[4] Turney P D. Learning to Extract Keyphrases from Text[R]. NRC Technical Report ERB-1057, National Research Council, Canada, 1999: 1-43.
[5] 张庆国, 薛德军, 张振海, 等. 海量数据集上基于特征组合的关键词自动抽取[J]. 情报学报, 2006, 25(5): 587-593.
[6] Lafferty J, McCallum A, Pereira F. Conditional Random Fields: Probabilistic Models for Segementing and Labeling Sequence Data[C]. In: Proceedings of the 18th International Conference on Machine Learning (ICML01), Williamstown, MA, USA, 2001: 282-289.
[7] CRF++: Yet Another CRF Toolkit[CP/OL]. [2005-12-20]. http://chasen.org/~taku/software/CRF++.
[8] 中文自然语言处理开放平台[EB/OL].[2005-12-20].  http://www.nlp.org.cn.
[9] Yang W F, Li X. Chinese Keyword Extraction Based on Max-dupliated Strings of the Documents[C]. In: Proceedings of the 25th Annual International Conference on Research and Development in Information Retrieval (SIGIR02), Tampere, Finland, 2002: 439-440.
[10] Lexicon_full_2000[DB/OL]. [2006-04-20]. http://ccl.pku.edu.cn/doubtfire/Course/Chinese%20Information%20Processing/Source_Code/Chapter_8/Lexicon_full_2000.zip.
[11] HaCohen-Kerner Y. Automatic Extraction of Keywords from Abstracts[C]. In: Proceedings of the 7th International Conference on Knowledge-Based Intelligent Information and Engineering Systems. Berlin, Heidelberg: Springer-Verlag, 2003: 843-849.

[1] 陈东,王建冬,李慧颖,蔡思航,黄倩倩,易成岐,曹攀. 融合机器学习算法和多因素的禽肉交易量预测方法研究 *[J]. 数据分析与知识发现, 2020, 4(7): 18-27.
[2] 梁野,李小元,许航,胡伊然. CLOpin:一种面向舆情分析与预警领域的跨语言知识图谱架构*[J]. 数据分析与知识发现, 2020, 4(6): 1-14.
[3] 杨恒,王思丽,祝忠明,刘巍,王楠. 基于并行协同过滤算法的领域知识推荐模型研究*[J]. 数据分析与知识发现, 2020, 4(6): 15-21.
[4] 赵平,孙连英,涂帅,卞建玲,万莹. 改进的知识迁移景点实体识别算法研究及应用*[J]. 数据分析与知识发现, 2020, 4(5): 118-126.
[5] 李成梁,赵中英,李超,亓亮,温彦. 基于依存关系嵌入与条件随机场的商品属性抽取方法*[J]. 数据分析与知识发现, 2020, 4(5): 54-65.
[6] 熊欣,王昊,张海潮,张宝隆. 中文术语粒度对其区分能力测度的影响分析*[J]. 数据分析与知识发现, 2020, 4(2/3): 143-152.
[7] 王若佳,张璐,王继民. 基于机器学习的在线问诊平台智能分诊研究[J]. 数据分析与知识发现, 2019, 3(9): 88-97.
[8] 李纲,周华阳,毛进,陈思菁. 基于机器学习的社交媒体用户分类研究 *[J]. 数据分析与知识发现, 2019, 3(8): 1-9.
[9] 胡佳慧,方安,赵琬清,杨晨柳,任慧玲. 面向知识发现的中文电子病历标注方法研究 *[J]. 数据分析与知识发现, 2019, 3(7): 123-132.
[10] 曾庆田,胡晓慧,李超. 融合主题词嵌入和网络结构分析的主题关键词提取方法 *[J]. 数据分析与知识发现, 2019, 3(7): 52-60.
[11] 黄菡,王宏宇,王晓光. 结合主动学习的条件随机场模型用于法律术语的自动识别*[J]. 数据分析与知识发现, 2019, 3(6): 66-74.
[12] 张金柱,胡一鸣. 融合表示学习与机器学习的专利科学引文标题自动抽取研究*[J]. 数据分析与知识发现, 2019, 3(5): 68-76.
[13] 刘志强,都云程,施水才. 基于改进的隐马尔科夫模型的网页新闻关键信息抽取*[J]. 数据分析与知识发现, 2019, 3(3): 120-128.
[14] 徐红霞,李春旺. 科技文献内容知识点抽取研究综述[J]. 数据分析与知识发现, 2019, 3(3): 14-24.
[15] 李静,潘舒笑,李雪岩,贾立静,赵宇卓. 基于多目标量子优化分类器的急诊危重患者关键指标筛选 *[J]. 数据分析与知识发现, 2019, 3(12): 101-112.
Viewed
Full text


Abstract

Cited

  Shared   
  Discussed   
版权所有 © 2015 《数据分析与知识发现》编辑部
地址:北京市海淀区中关村北四环西路33号 邮编:100190
电话/传真:(010)82626611-6626,82624938
E-mail:jishu@mail.las.ac.cn