中文化学物质名称识别研究

引用本文

郑荣廷, 李楠, 吉久明, 滕青青. 中文化学物质名称识别研究 . 现代图书情报技术, 2010, 26(6): 48-52
Zheng Rongting, Li Nan, Ji Jiuming, Teng Qingqing. Research on Recognition of Chinese Chemical Substance Names. New Technology of Library and Information Service, 2010, 26(6): 48-52 复制到剪切板

Permissions

This article is the open access journal literature, in the following situations are free to use: academic research and academic exchanges, scientific research and teaching, etc., but don't allow for commercial purposes.

中文化学物质名称识别研究

郑荣廷, 李楠, 吉久明, 滕青青

华东理工大学图书馆上海 200237

基金:*本文系上海市科委软科学研究基金项目“基于知识集成的上海研发公共服务平台协同机制研究”(项目编号:056921012)的研究成果之一

摘要

在CRF模型下,进行单字标注和单元词标注的识别效果和识别效率的比较;实验结果表明,单字标注在付出更长运行时间的代价下,较单元词标注识别效果更佳;此外,还研究特征数量对实验效果的影响。

关键词: 条件随机场; 中文化学物质名称; 单元词标注; 单字标注; 特征数量

中图分类号:TP393

Research on Recognition of Chinese Chemical Substance Names

Zheng Rongting, Li Nan, Ji Jiuming, Teng Qingqing

Library of East China University of Science and Technology, Shanghai 200237,China

Abstract

This article uses the model of CRF to conduct an experiment for comparing recognition performance and recognition efficiency between the way based on char labeled and the way based on word labeled. The experiment result shows that the performance of based on char is better than that of based on word at the expense of costing more time. In addition, it also pays more attention to the quantity of feature’s influence on the experiment performance.

Keyword: CRF; Chinese chemical substance names; Labeled on char; Labeled on word; Quantity of feature

Show Figures

1 引言

命名实体的识别是分词技术的基础,更是制约分词技术发展的瓶颈和难点。为了提高中文分词系统的性能,一个迫切的需求就是能够准确地在专业领域文本中进行专有名词的识别。与其他领域的专有名词识别工作相比,化学文本中的专有名词,尤其是化学物质名称的识别难度更大,因为化学词汇的命名规则、构词方式、内部结构、词汇长度都与普通词汇有着很大的区别,这就造成现有的主要针对非专业领域文本进行切分的分词系统对化学文本的切分效果相对较差。

中国科学院计算技术研究所开发的ICTCLAS分词系统的分词速度单机996KB/S,分词精度98.45%^{[ 1]}。但对维普数据库中500条 (约15 000个字符) 有机化学学科 (中图分类号:O62) 的论文文摘使用该系统进行分词实验得知,ICTCLAS分词系统对有机化学这类专业领域文本的分词效果很差。通过对实验结果进行分析,其中化学物质名称的正确识别率仅为6.8%,即使只参照切分效果稍好的词长在29个字符以下的化学物质名称,正确识别率也仅有14.2%。

从国内文献调研情况来看,专有名词的识别研究主要集中在对传统专有名词,如人名、地名、机构名、商标名等的识别,且取得了较好的识别效果,采用的方法主要有基于词典的识别方法、基于规则的识别方法、基于统计机器学习的识别方法以及这几种方法的交叉使用,并以基于统计机器学习的识别方法应用最多。通过对文献调研结果进行分析发现,现阶段学术界对于化学领域专有名词进行识别研究的文献数量极少。

目前,国内学者对化学专有名词进行识别的研究主要集中在生物医学分领域的专有名词识别,如识别生物医学文献中的蛋白质、DNA等,例如:2008年,He等利用GENIA语料库进行生物学领域的命名实体识别^{[ 2]},但这些研究以英文文献语料库为主,缺乏对中文文献语料库的研究。梁樑等^{[ 3]}采用规则和统计模型相结合的方法对商品文本中的药物名称和化学物质名称进行识别,但识别效果不佳,化学物质名称的正确识别率不足60%。宋丹等应用基于规则的方法对文献中的化学物质名称进行识别,并取得了较好的实验结果^{[ 4]},但该方法的一个重大缺陷是对化学文本中的不规范物质名称(化学物质名称缩写、个人习惯写法、俗名等)无法识别。

从国外文献调研情况来看,相关学者对化学领域的专有名词研究较多且成果显著。如Klinger等采用CRF模型,专门针对外文期刊和专利中符合或类似IUPAC(国际纯粹与应用化学联合会)命名规范的化学物质名称进行识别^{[ 5]},该思路和方法可以借鉴到识别中文化学专有名词的研究中。

本文的研究是在CRF模型下,分析比较两种标注方法(完全字标注和在ICTCLAS识别基础上进行标注)在中文化学物质名称识别中的识别效果与识别效率,并通过不断加入特征,考察特征数量对CRF的识别结果的影响。

2 基于条件随机场的中文化学物质名称识别

2.1 条件随机场在命名实体识别中的应用

条件随机场(Conditional Random Fields, CRFs)^{[ 6]}是一个序列标注模型,2001年由Lafferty等人引入。它是一个在给定输入节点(观察值)条件下计算输出节点条件概率的无向图模型。从理论上讲,CRF要优于HMM(隐马尔可夫模型)和MEM(最大熵模型),相对于HMM和MEM,CRF更适合解决序列标注的问题^{[ 7]}。

通过对中文命名实体识别的研究文献进行计量分析,发现使用CRF模型的文献数量较多且识别效果较其他统计模型更佳,尤其在机构名和地名的识别实验中,CRF的识别效果远远高于其他统计模型,如HMM、SVM(支持向量机)、MEM等。另外,在国外学者对命名实体的识别研究中,也以使用CRF居多,且取得了较高的应用效果,因而选取CRF作为本文实验中的统计模型。

2.2 识别思路

采用统计机器学习模型进行命名实体识别的过程实际上是一个“字标注”过程,字标注的方法实际上是构词方法,即把识别的过程视为字在字串中的标注问题^{[ 8]}。于是识别的过程就转化为对字在字串中的特征进行标记;选择一定的机器学习模型,如隐马尔可夫、最大熵、支持向量机、条件随机场等,可以从训练语料中获得字特征的概率模型,应用于识别的问题。

需要注意的是,“字标注”中的字不仅可以是单字(Char),如汉字、英文字母、数字、标点符号等,即一些文章中提到的组成文本的“原子”^{[ 9]},还可以是一个个的词语、词块(非单字)。

采取两种“字标注”方法:完全字标注方法(简称为“单字标注”),即将文本切分成单个字符和符号,并对这些字符和符号的字位等特征进行标记;“字标注”方法,即用ICTCLAS分词软件将文本进行粗切分,将ICTCLAS切分后的一个个字串(非单字)进行特征标记(简称为“单元词标注”)。

为了比较单字标注与单元词标注的识别效果,为这两种标注方法选取相同的特征和特征模板,使用CRF工具包在相同的语料库中进行训练;将得到的单字训练模型和单元词训练模型在相同的测试语料中进行测试,从而比较出单字标注和单元词标注的识别效果和识别效率。另外,实验还将通过不断增加特征的数量,考察特征数量对两种方法识别结果的影响。

2.3 特征及特征模板的选取

(1) 特征选取及设置

在基于统计和机器学习模型(如CRF)给定的情况下,如何选择合适的特征及特征模板是影响模型识别效果的关键因素。在专有名词识别的相关研究中,采用的特征主要有:词长、词法、词类、词形、词性、字(词)概率、特征字(词)、字(词)频度、构词结构、边界、上下文、语义、语法等。参照这些特征,并主要结合化学物质名称的特殊构词方式、词汇特点和上下文特征,总结出以下几种特征,用以刻画在文献中出现的中文化学物质名称:

①特征字(词)

在实验中,事前已经生成了两个表:化学单字(Char)表和化学单元词(Word)表,该特征用以判断训练语料中每个单字或单元词是否在两个表中出现过。

②特征字(词)概率

在化学文献中,有些单字(单元词)如“基”、“异”,有可能作为化学物质名称或化学物质名称的一部分出现(如“5-硝基水杨酸”、“异嗪皮啶”),也有可能作为普通词汇或普通词汇的一部分出现(如“基础”、“差异”),因而统计训练语料中的每个单字或单元词在化学物质名称中出现的次数与它们在训练语料中出现的总次数,从而得到这个单字或单元词构成化学物质名称的概率。

③特征字(词)文档概率

该特征的选取参照Termhood测度。在一个特定领域,一个术语的分布包含了术语和领域的相关性信息,一个典型的特征就是一个术语很可能只在一些文档中频繁出现,而在其他文档中出现次数较少^{[ 10]}。参照术语的这个特征,将每个化学单字(单元词)出现过的文档数与语料库中的文档总数之比作为一个特征。

④上下文相关特征

与上下文相关的特征有4个,分别用来:判断当前单元字(词)前面的一个字(词)是否为化学物质名称字(词);判断当前单元字(词)后面的一个字(词)是否为化学物质名称字(词);统计当前单元字(词)前面出现化学物质字(词)的概率;统计当前单元字(词)后面出现化学物质字(词)的概率。其中,判断是否为化学单字(词)需要参照化学单字表和化学单元词表。

由于上下文相关特征的选取及实验操作较为复杂,因此实验中仅选取了上文所列的前三种特征,即:特征字(词)、特征字(词)概率、特征字(词)文档概率。三个特征的具体设置如表1所示:

表1 特征标记的设置

(2) 特征模板

由于本文仅讨论特征选取对CRF模型识别效果的影响,而不涉及对特征模板的研究,因而实验中没有对特征模板加以改进,而直接使用了CRF统计模型自带的特征模板。该特征模板的具体参数设置如表2所示:

表2 特征模板

其中,C表示当前字,S表示特征标记1,F表示特征标记2,P表示特征标记3。

3 实验

3.1 实验设置

在维普数据库中下载3 000条有机化学学科的论文文摘(约700 000字符)构建语料库,对语料库中出现的化学物质名称进行人工标注,并由化学专家对标注出的化学物质名称进行校对。在实验中,选取了前2 500条文摘(约550 000字符)作为训练集数据,后500条文摘(约150 000)作为测试集数据。采用的标注符号为B、I、O、Z,其中B表示化学物质名称的开始,I表示化学物质名称中除开始位置外的其他位置,O表示独立成词的化学物质名称,Z表示其他词汇(非化学物质名称)。

其中,在单字标注实验中,对单字标注训练集文摘和测试集文摘都进行单字(Char)切分,然后对每个单字进行特征标注;在单元词标注实验中,使用ICTCLAS分词工具对训练集和测试集文摘进行粗切分(采用ICTCLAS自带的分词词典),将粗切分后的字串作为单元词进行特征标注。另外需要说明的是,实验中所使用的化学单字表与化学单元词表产生自语料库。

3.2 实验结果及分析

(1) 指标的选择

选取三个指标^{[ 11]}对实验结果进行评价:化学物质名称的正确识别率、召回率、F-测度值。

①识别的正确率

P= ×100%

②召回率

R= ×100%

③F-测度值

F= ×100%

(2) 实验结果

训练语料采用上文提及的2 500条有机化学文摘,并对单字和单元词分别在训练集中进行训练得到训练模型;利用得到的两种训练模型在测试语料库的500条有机化学文摘中进行测试。为了考察特征标记的数量对识别效果的影响,逐渐增加特征标记的数量,使用1个特征、2个特征、3个特征分别进行实验,结果如表3所示,耗费时间如表4所示:

表3 实验结果

表4 耗费时间(秒)

(3) 实验分析

无论是采用单字标注还是单元词标注,识别的正确率均高于80%,证明将CRF统计机器学习方法应用于中文化学物质名称的识别是切实可行的。

通过比较单字标注和单元词标注的识别效果,可以发现在所选特征和特征模板相同的情况下,单字标注的识别效果明显优于单元词标注的识别效果。造成这一差异的一个很重要的原因是单元词标注的基础是ICTCLAS对语料进行粗切分后的结果字串。通过对粗切分结果进行分析,ICTCLAS很容易将整个化学物质名称或化学物质名称的一部分与其他非化学物质名称词汇划分成一个字串,这就造成识别模型不能将这个字串中的化学物质名称识别出来,从而导致识别正确率下降。而单字标注由于将文本切分成一个个的字符则不会出现这种问题。

特征的选取是影响CRF识别效果的重要因素,一般认为特征选取越多,对所要识别对象的刻画就越详细,模型的识别效果就越好。但通过实验可以发现,随着特征数量的增多,系统运行时间变长,但CRF模型的识别效果并没有得到相应的提高,甚至有降低的趋势,这说明在使用CRF对中文化学物质名称的识别中,单纯增加特征的数量未必可行。至于哪些特征更能刻画化学物质名称以及选取多少数量的特征标记最为合适,还需要进一步的实验证明。

在实验结果中,笔者发现两种标注方法的识别正确率都能达到80%以上,但召回率不足70%,这是一种典型的“过识别”现象,即模型将许多非化学物质名称字(词)误识别为化学物质名称字(词)。造成这种“过识别”现象的原因是在特征选取中没有选择上下文的相关特征,导致模型很难处理所谓的化学物质名称“左右边界问题”,从而越界识别,将许多非化学物质名称字(词)误识别为化学物质名称字(词)。

识别效率是评价命名实体识别方法的另一方面,从表3和表4可以看出,尽管单字标注的识别正确率平均比单元词标注提高约5%,但代价是单字标注的运行时间远远大于单元词标注的运行时间,这证明单字标注虽然识别效果很好,但其识别效率较低。

4 结语

本文使用基于统计机器学习的CRF模型对化学文献中的中文化学物质名称进行识别,为了对单字标注和单元词标注的识别效果和识别效率进行比较,分别使用这两种标注方法进行实验,结果表明,单字标注在付出更多运行时间的情况下,识别效果更佳。同时为了考察特征数量对模型识别结果的影响,对两种标注方法在不同数量特征下的识别结果进行对比,发现特征数量的选取未必越多越好。

未来工作将进一步研究特征及特征模板对CRF模型的识别效果,找到使CRF在识别中文化学物质名称中表现最好的特征及特征模板参数;除了对化学物质名称进行识别研究以外,还要识别更多的中文化学专有名词,如化学分子式、化学反应名称等。

参考文献

View Option

[1]	ICTCLAS简介[EB/OL]. [2009-05-18]. http://ictclas.org/sub_1_1.html. [本文引用:1]
[2]	He Y, Kayaal P M. Biological Entity Recognition with Conditional Rand om Fields[C]. In: Proceedings of AMIA Annual Symposium. 2008: 293-297. [本文引用:1]
[3]	梁樑, 李祎. 商品文本中药物名称和化学名称识别的研究[J]. 烟台大学学报: 自然科学与工程版, 2002, 15(4): 280-285. [本文引用:1]
[4]	宋丹, 孙济庆. 基于规则的化学特征词自动标引研究[J]. 情报学报, 2009, 28(5): 689-692. [本文引用:1]
5	Klinger R, Koláik C, Fluck J, et al. Detection of IUPAC and IUPAC-like Chemical Names[J]. Bioinformatics, 2008, 24(13): i268-i276. [本文引用:1] [JCR: 5.323]
[6]	Lafferty J, McCallum A, Pereira F. Conditional Rand om Fields: Probabilistic Models for Segmenting and Labeling Sequence Data[C]. In: Proceedings of the 18th International Conference on Machine Learning. San Francisco, CA, USA: Morgan Kaufmann Publishers Inc. , 2001: 282-289. [本文引用:1]
[7]	王昊, 苏新宁. 基于CRFs的角色标注人名识别模型在网络舆情分析中的应用[J]. 情报学报, 2009, 28(1): 88-96. [本文引用:1]
[8]	黄昌宁, 赵海. 中文分词十年回顾[J]. 中文信息学报, 2007, 21(3): 8-19. [本文引用:1]
[9]	许晓丽, 卢志茂, 张格森. 基于条件随机场的中文命名实体识别研究[J]. 中国新技术新产品, 2009(2): 15. [本文引用:1]
[10]	贾美英, 杨炳儒, 郑德权, 等. 采用CRF技术的军事情报术语自动抽取研究[J]. 计算机工程与应用, 2009, 45(32): 126-129. [本文引用:1]
[11]	Van Rijsbergen C J. Information Retrieval[M]. 2nd Edition. London: Butterworth, 1979. [本文引用:1]

2009

0.0

... 45%^[1] ...

2008

0.0

... 目前,国内学者对化学专有名词进行识别的研究主要集中在生物医学分领域的专有名词识别,如识别生物医学文献中的蛋白质、DNA等,例如:2008年,He等利用GENIA语料库进行生物学领域的命名实体识别^[2],但这些研究以英文文献语料库为主,缺乏对中文文献语料库的研究 ...

2002

0.0

... 梁樑等^[3]采用规则和统计模型相结合的方法对商品文本中的药物名称和化学物质名称进行识别,但识别效果不佳,化学物质名称的正确识别率不足60% ...

2009

0.0

... 宋丹等应用基于规则的方法对文献中的化学物质名称进行识别,并取得了较好的实验结果^[4],但该方法的一个重大缺陷是对化学文本中的不规范物质名称(化学物质名称缩写、个人习惯写法、俗名等)无法识别 ...

2008

5.323

0.0

... 如Klinger等采用CRF模型,专门针对外文期刊和专利中符合或类似IUPAC(国际纯粹与应用化学联合会)命名规范的化学物质名称进行识别^[5],该思路和方法可以借鉴到识别中文化学专有名词的研究中 ...

2001

0.0

... 1 条件随机场在命名实体识别中的应用条件随机场(Conditional Random Fields, CRFs)^[6]是一个序列标注模型,2001年由Lafferty等人引入 ...

2009

0.0

... 从理论上讲,CRF要优于HMM(隐马尔可夫模型)和MEM(最大熵模型),相对于HMM和MEM,CRF更适合解决序列标注的问题^[7] ...

2007

0.0

... 2 识别思路采用统计机器学习模型进行命名实体识别的过程实际上是一个“字标注”过程,字标注的方法实际上是构词方法,即把识别的过程视为字在字串中的标注问题^[8] ...

0.0

... 需要注意的是,“字标注”中的字不仅可以是单字(Char),如汉字、英文字母、数字、标点符号等,即一些文章中提到的组成文本的“原子”^[9],还可以是一个个的词语、词块(非单字) ...

2009

0.0

... 在一个特定领域,一个术语的分布包含了术语和领域的相关性信息,一个典型的特征就是一个术语很可能只在一些文档中频繁出现,而在其他文档中出现次数较少^[10] ...

1979

0.0

... 选取三个指标^[11]对实验结果进行评价:化学物质名称的正确识别率、召回率、F-测度值 ...