Please wait a minute...
Advanced Search
现代图书情报技术  2010, Vol. 26 Issue (6): 48-52    DOI: 10.11925/infotech.1003-3513.2010.06.08
  知识组织与知识管理 本期目录 | 过刊浏览 | 高级检索 |
中文化学物质名称识别研究*
郑荣廷,李楠,吉久明,滕青青
(华东理工大学图书馆上海  200237)
Research on Recognition of Chinese Chemical Substance Names
Zheng Rongting,Li Nan,Ji Jiuming,Teng Qingqing
(Library of East China University of Science and Technology, Shanghai 200237,China)
全文: PDF(448 KB)   HTML  
输出: BibTeX | EndNote (RIS)      
摘要 

在CRF模型下,进行单字标注和单元词标注的识别效果和识别效率的比较;实验结果表明,单字标注在付出更长运行时间的代价下,较单元词标注识别效果更佳;此外,还研究特征数量对实验效果的影响。

服务
把本文推荐给朋友
加入引用管理器
E-mail Alert
RSS
作者相关文章
郑荣廷
李楠
吉久明
滕青青
关键词 条件随机场中文化学物质名称单元词标注单字标注特征数量    
Abstract

This article uses the model of CRF to conduct an experiment for comparing recognition performance and recognition efficiency between the way based on char labeled and the way based on word labeled. The experiment result shows that the performance of based on char is better than that of based on word at the expense of costing more time. In addition, it also pays more attention to the quantity of feature’s influence on the experiment performance.  

Key wordsCRF    Chinese chemical substance names    Labeled on char    Labeled on word    Quantity of feature
收稿日期: 2010-04-12     
: 

TP393

 
基金资助:

*本文系上海市科委软科学研究基金项目“基于知识集成的上海研发公共服务平台协同机制研究”(项目编号:056921012)的研究成果之一。
*本文系2010“图书馆信息技术的应用、服务和创新”学术研讨会论文。

Fund:

*本文系上海市科委软科学研究基金项目“基于知识集成的上海研发公共服务平台协同机制研究”(项目编号:056921012)的研究成果之一。
*本文系2010“图书馆信息技术的应用、服务和创新”学术研讨会论文。

通讯作者: 吉久明     E-mail: jjm@mail.lib.ecust.edu.cn
引用本文:   
郑荣廷 李楠 吉久明 滕青青. 中文化学物质名称识别研究*[J]. 现代图书情报技术, 2010, 26(6): 48-52.
Zheng Rongting Li Nan Ji Jiuming Teng Qingqing. Research on Recognition of Chinese Chemical Substance Names. New Technology of Library and Information Service, DOI:10.11925/infotech.1003-3513.2010.06.08.
链接本文:  
http://manu44.magtech.com.cn/Jwk_infotech_wk3/CN/10.11925/infotech.1003-3513.2010.06.08

[1] ICTCLAS简介[EB/OL].[2009-05-18]. http://ictclas.org/sub_1_1.html.
[2] He Y, Kayaal P M. Biological Entity Recognition with Conditional Random Fields[C].In: Proceedings of AMIA Annual Symposium.2008: 293-297.
[3] 梁樑, 李祎. 商品文本中药物名称和化学名称识别的研究[J]. 烟台大学学报:自然科学与工程版,2002,15(4):280-285.
[4] 宋丹,孙济庆.基于规则的化学特征词自动标引研究[J].情报学报,2009,28(5):689-692.
[5] Klinger R, Koláik C, Fluck J, et al. Detection of IUPAC and IUPAC-like Chemical Names[J]. Bioinformatics, 2008, 24(13):i268-i276.
[6] Lafferty J, McCallum A, Pereira F. Conditional Random Fields: Probabilistic Models for Segmenting and Labeling Sequence Data[C]. In: Proceedings of the 18th International Conference on Machine Learning. San Francisco, CA,USA:Morgan Kaufmann Publishers Inc., 2001: 282-289.
[7] 王昊,苏新宁.基于CRFs的角色标注人名识别模型在网络舆情分析中的应用[J].情报学报, 2009, 28(1):88-96.
[8] 黄昌宁,赵海.中文分词十年回顾[J].中文信息学报,2007,21(3):8-19.
[9] 许晓丽,卢志茂,张格森.基于条件随机场的中文命名实体识别研究[J].中国新技术新产品, 2009(2):15.
[10] 贾美英,杨炳儒,郑德权,等. 采用CRF技术的军事情报术语自动抽取研究[J].计算机工程与应用,2009,45(32):126-129.
[11] Van Rijsbergen C J. Information Retrieval[M]. 2nd Edition. London: Butterworth, 1979.

[1] 黄菡,王宏宇,王晓光. 结合主动学习的条件随机场模型用于法律术语的自动识别*[J]. 数据分析与知识发现, 2019, 3(6): 66-74.
[2] 唐慧慧,王昊,张紫玄,王雪颖. 基于汉字标注的中文历史事件名抽取研究*[J]. 数据分析与知识发现, 2018, 2(7): 89-100.
[3] 王东波,吴毅,叶文豪,刘睿伦. 多特征知识下的食品安全事件实体抽取研究*[J]. 数据分析与知识发现, 2017, 1(3): 54-61.
[4] 张越,王东波,朱丹浩. 面向食品安全突发事件汉语分词的特征选择及模型优化研究*[J]. 数据分析与知识发现, 2017, 1(2): 64-72.
[5] 张琳,秦策,叶文豪. 基于条件随机场的法言法语实体自动识别模型研究*[J]. 数据分析与知识发现, 2017, 1(11): 46-52.
[6] 王密平,王昊,邓三鸿,吴志祥. 基于CRFs的冶金领域中文专利术语抽取研究*[J]. 现代图书情报技术, 2016, 32(6): 28-36.
[7] 贺惠新,刘丽娟. 主动学习的科技文献研究对象标引体系研究*[J]. 现代图书情报技术, 2016, 32(3): 67-73.
[8] 隋明爽,崔雷. 结合多种特征的CRF模型用于化学物质-疾病命名实体识别[J]. 现代图书情报技术, 2016, 32(10): 91-97.
[9] 段宇锋, 朱雯晶, 陈巧, 刘伟, 刘凤红. 条件随机场与领域本体元素集相结合的未登录词识别研究[J]. 现代图书情报技术, 2015, 31(4): 41-49.
[10] 姜春涛. 自动标注中文专利的引文信息[J]. 现代图书情报技术, 2015, 31(10): 81-87.
[11] 何宇, 吕学强, 徐丽萍. 新能源汽车领域中文术语抽取方法[J]. 现代图书情报技术, 2015, 31(10): 88-94.
[12] 曾镇, 吕学强, 李卓. 搜索日志中中文人名的自动识别[J]. 现代图书情报技术, 2014, 30(12): 71-77.
[13] 石翠, 王杨, 杨彬, 姚晔. 面向中文专利文献的单层并列结构识别[J]. 现代图书情报技术, 2014, 30(10): 76-83.
[14] 汪润,何琳,王东波,黄水清,范远标. 面向文本挖掘的植物生长发育实体识别研究*[J]. 现代图书情报技术, 2014, 30(1): 24-27.
[15] 关晓炟,吕学强,李卓,郑略省,. 用户查询日志中的中文机构名识别*[J]. 现代图书情报技术, 2014, 30(1): 72-78.
Viewed
Full text


Abstract

Cited

  Shared   
  Discussed   
版权所有 © 2015 《数据分析与知识发现》编辑部
地址:北京市海淀区中关村北四环西路33号 邮编:100190
电话/传真:(010)82626611-6626,82624938
E-mail:jishu@mail.las.ac.cn