词形还原方法及实现工具比较分析

引用本文

吴思竹, 钱庆, 胡铁军, 李丹亚, 李军莲, 洪娜. 词形还原方法及实现工具比较分析. 现代图书情报技术, 2012, 28(3): 27-34
Wu Sizhu, Qian Qing, Hu Tiejun, Li Danya, Li Junlian, Hong Na. Contrast Analysis of Methods and Tools for Lemmatization. New Technology of Library and Information Service, 2012, 28(3): 27-34 复制到剪切板

Permissions

This article is the open access journal literature, in the following situations are free to use: academic research and academic exchanges, scientific research and teaching, etc., but don't allow for commercial purposes.

词形还原方法及实现工具比较分析

吴思竹, 钱庆, 胡铁军, 李丹亚, 李军莲, 洪娜

中国医学科学院医学信息研究所北京100020

基金:本文系国家“十二五”科技支撑计划基金项目“科技知识组织体系的协同工作系统和辅助工具开发”（项目编号：2011BAH10B02）和中国科学院医学信息研究所中央级公益性科研院所基本科研业务费课题“基于语言网络的医学文本表示模型构建方法研究”（项目编号：11R0209）的研究成果之一;

摘要

结合理论和实验比较分析用于词形规范的词形还原方法和工具。归纳现有词形还原方法的主要分类,分析各类方法的特点和不足。介绍7种词形还原实现工具,并从其实现原理、使用的词性标注器、词典、开发语言、处理的语种、是否具有拼写检查功能等方面比较分析各工具的特点。选取其中5种工具,利用WordSimith Tools的标准数据进行词形还原实验。结合实验结果分析各工具的优劣,发现Specialist NLP Tools的词形还原工具具有较好的词形还原处理效果,为研究者选择适当的词形还原方法和工具提供参考。

关键词: 词形规范化; 词干提取; 词形还原; 词元

Contrast Analysis of Methods and Tools for Lemmatization

Wu Sizhu, Qian Qing, Hu Tiejun, Li Danya, Li Junlian, Hong Na

Institute of Medical Information, Chinese Academy of Medical Sciences, Beijing 100020, China

Abstract

Combining theory with practice, this paper compares the methods and tools for lemmatization in word normalization. It summarizes the categories of lemmatization methods and analyses their features and disadvantages. Then it separately compares seven tools from aspects as the principle, POS tagger, lexicon, programming language, language, spell checker.It takes experiments with the datasets from WordSimith Tools to evaluate five lemmatizers. By comparing the results, it finds that the Specialist NLP Tools has a better effect than others .This paper provides an assistance for the study in choosing the appropriate method and tool for lemmatization.

Keyword: Word normalization; Stemming; Lemmatization; Lemma

Show Figures

在检索系统和文本挖掘研究中,需要对一个词的不同形态进行归并,即词形规范化,用于降低索引文件所占空间和提高文本处理的效率。词形规范化将一个词的不同形式统一为一种具有代表性的标准形式(词干或原形)。它有两种处理方式:词干提取和词形还原,本文总结了它们的区别,进而研究了词形还原的相关方法和实现工具,对其特点进行分析和比较。

1 词形还原和词干提取

词形还原(Lemmatization),是把一个任何形式的语言词汇还原为一般形式(能表达完整语义),而词干提取(Stemming)是抽取词的词干或词根形式(不一定能够表达完整语义)。词形还原和词干提取是词形规范化的两类重要方式,都能够达到有效归并词形的目的,二者既有联系也有区别。

现将共同点和联系总结为以下4方面:

(1)目标一致。词干提取和词形还原的目标均为将词的屈折形态或派生形态简化或归并为词干(Stem)或原形的基础形式,都是一种对词的不同形态的统一归并的过程。

(2)结果部分交叉。词干提取和词形还原不是互斥关系,其结果是有部分交叉的。一部分词利用这两类方法都能达到相同的词形转换效果。如“dogs”的词干为“dog”,其原形也为“dog”。

(3)主流实现方法类似。目前实现词干提取和词形还原的主流实现方法均是利用语言中存在的规则或利用词典映射提取词干或获得词的原形。

(4)应用领域相似。主要应用于信息检索和文本、自然语言处理等方面,二者均是这些应用的基本步骤。

二者的区别归纳为以下5方面:

(1)在原理上,词干提取主要是采用“缩减”的方法,将词转换为词干,如将“cats”处理为“cat”,将“effective”处理为“effect”。而词形还原主要采用“转变”的方法,将词转变为其原形,如将“drove”处理为“drive”,将“driving”处理为“drive”。

(2)在复杂性上,词干提取方法相对简单,词形还原则需要返回词的原形,需要对词形进行分析,不仅要进行词缀的转化,还要进行词性识别,区分相同词形但原形不同的词的差别。词性标注的准确率也直接影响词形还原的准确率,因此,词形还原更为复杂。

(3)在实现方法上,虽然词干提取和词形还原实现的主流方法类似,但二者在具体实现上各有侧重。词干提取的实现方法主要利用规则变化进行词缀的去除和缩减,从而达到词的简化效果。词形还原则相对较复杂,有复杂的形态变化,单纯依据规则无法很好地完成。其更依赖于词典,进行词形变化和原形的映射,生成词典中的有效词。

(4)在结果上,词干提取和词形还原也有部分区别。词干提取的结果可能并不是完整的、具有意义的词,而只是词的一部分,如“revival”词干提取的结果为“reviv”,“airliner”词干提取的结果为“airlin”。而经词形还原处理后获得的结果是具有一定意义的、完整的词,一般为词典中的有效词。

(5)在应用领域上,同样各有侧重。虽然二者均被应用于信息检索和文本处理中,但侧重不同。词干提取更多被应用于信息检索领域,如Solr、Lucene等,用于扩展检索,粒度较粗。词形还原更主要被应用于文本挖掘、自然语言处理,用于更细粒度、更为准确的文本分析和表达。

相对而言,词干提取是简单的轻量级的词形归并方式,最后获得的结果为词干,并不一定具有实际意义。词形还原处理相对复杂,获得结果为词的原形,能够承载一定意义,与词干提取相比,更具有研究和应用价值。

2 词形还原方法分类

本文进一步对当前的词形还原方法进行归纳,将其分为4类:基于规则的方法、基于词典的方法、基于机器学习的方法和混合的方法。

2.1 基于规则的方法

研究者提出了基于If Then规则或Ripple Down Rule(RDR)的方法。RDR最早被应用于规则系统的知识获取和维护。词形还原引入RDR用于词的变形和原形间的词后缀转换。RDR创建规则和处理规则外的异常情况,避免当前规则发生异常时影响其他规则^{[ 1]}。RDR采用一个决策列表,利用“If-Then-Else”形式创建异常(Except)或现存规则的分支(Else)。如果一个规则被激活,但是发生异常,生成错误的结论,则为新规则启动Except分支。如果没有规则被激活,则启动Else规则。RDR规则生成树状决策结构为:

If A then C

except if B then E

else if D then F

Plisson等^{[ 2]}用于斯洛文尼亚语的词形还原,认为RDR适用于解决词形还原问题,其准确率达到77%。Juršic等^{[ 3]}随后对RDR进行了改进,提出LenGen算法,考虑了规则及异常包含的训练实例的数量及词典排序,并根据实例频次对规则和异常进行排序。同一词形可能有不同原形,RDR树结构中的节点无法对此进行区别,原始RDR算法判断首次出现的词形,而LenGen选择最高频的词形。经过测试,LenGen学习算法比原始算法处理速度更快。

2.2 基于词典的方法

基于词典的方法主要利用词典映射查询找到对应词形的原形,能够提高词形还原的准确度。词典的形式,可以是词形与原形的映射对列表,也可以是入口词与主题词的对应关系的词典。基于词典的词形还原方法比词干提取方法更复杂,需要更复杂的形态分析,特别是需要词性解析和标注。在很多词典中提供词形还原的列表,如WordNet,并且这些词典本身能够提供词的原形查找功能。基于词典的词形还原方法也是词形还原处理的主流方法,方法原理是借助现有词典进行词性识别、词形和原形的映射,在大量词形还原实现工具中均采用这一方法,在本文的具体实现工具中将有所提及。但是词典分析方法的最大缺点在于受到词典收录词汇数量的限制,对于词典未收录的词无法处理。

2.3 基于机器学习的方法

利用机器学习的方法主要是将词形规范化问题看作是分类问题。通过词和原形的多重属性进行规则特征的训练和提取,用于确定是否是原形。Chrupala^{[ 4]}提出了简单数据驱动的情景敏感词形还原方法,主要是将词形还原方法看作是分类方法,利用最短编辑距离和支持向量机的分类方法结合进行词形和原形的转换,其最大改进是在从词形到原形的映射过程中采用了最短编辑距离,用于找出两个字符串间的最长公共序列。该方法无需专家参与并且不依赖于特定语言。Daelemans等^{[ 5]}提出基于原形的主动分类方法(Parall with the Prototype-based Active Classification Approach),采用原形作为用于训练的实例选择标准,进行主动学习,解决训练数据标注费时费力的问题,用于优化预测准确度。经过评估,该方法在分类选择策略上要优于基于随机基线和熵的方法^{[ 5]}。Plisson等^{[ 6]}提出基于机器学习的词形还原词形规范方法,输入一组词对(词,词的原形),获得导出原形的训练模型,而后用于原形输出。

2.4 混合方法

混合方法主要是结合两种或两种以上的词形还原方法进行词形归并,发挥各方法的优势,弥补单个方法的不足。Lemmald是一种混合方法的词形还原器,主要针对冰岛语进行处理。将数据驱动的机器学习和语言知识相结合,通过语言层次识别分析、复合分析、元音变音替代,后处理和词典数据库查找,实现最大的性能^{[ 7]}。如能给出正确的词性标注,该方法准确率可达到99.55%。Branco等^{[ 8]}描述了一种规则和词典结合的针对葡萄牙语的词形还原方法,通过转换规则处理词的屈折形态后缀,规则外的变化通过异常列表(词典)来补充。算法使用多种方法降低异常列表,使其存储最小。评估结果达到了99.60%的召回率,准确率也达到了97.87%。 Kanis等^{[ 9]}通过原形词典训练规则,主要解决词典未登录词的词形还原问题,包括缺少完整形式、未知词和复合词,采用捷克语文本数据测试,结果召回率达到99.3%,准确率达到75.1%。

2.5 词形还原各类方法比较分析

不同类型的词形还原方法各有特点,本文对其优、缺点总结如表1所示:

表1 词形还原各类方法比较分析

词形还原方法中基于规则的方法比词干提取中的同类方法更为复杂。因为要返回有效的原形,其使用的规则也更为复杂,不只是词缀的删除,还有词缀的准确替代及对不规则词形变化的处理。现有研究中该类方法较少单独使用,多与其他方法结合。基于词典的方法是目前词形还原的主要方法,也是最为有效和准确的方法,具有较多的实践和应用。但它依赖于词典的规模、语种、类型并受到领域的限制。基于机器学习的词形还原方法,对词典范围外的未收录词、非规则变形词的规范化处理效果较好。由于其无需语言知识,不依赖于词典,且适用于不同语言的处理,因此引起较多关注。单一算法很难独立完成并达到准确、完整的词形还原要求,如能解决效率问题,将多种方法结合的混合方法在研究中具有更大的优势。

3 主要实现工具

目前,词形还原已有一些实现工具,如单独的词形还原工具WMTrans Lemmatizer,European Languages Lemmatizer、CST’s Lemmatiser。还有集成词形还原功能的其他项目工具,如MorphAdorner、Stanford CoreNLP、NLTK等。

3.1 词形还原工具

(1)European Languages Lemmatizer

European Languages Lemmatizer项目启动于2007年,它是欧洲语言的自动形态分析工具库。其使命是找出一个词的所有的词形变化及其形式,并给出形态学的信息,如词性、实例、时态等。所有库和词汇表提供基于GNU GPL许可^{[ 10]}。该工具的使用需要安装4个组件:

①Library libturglem:包括词形还原所需的必要代码和头文件。

②LibMAFSA:利用最小有限状态自动化作为词典来实现功能。

③turglem-english:是一个英文词典,包括英语语言功能集,英语词典编译器和词典本身。

④turglem-russian:是一个俄文词典。

(2)CST’s Lemmatiser

CST’s Lemmatiser是2002年STO项目开发的。目的是为STO数据库开发处理词形还原的新文本,聚集和选择特定领域的文本^{[ 11]}。CST词形还原处理主要分为:词形还原和训练。词形还原是为每个词找出适合的原形,主要包括三个主要任务:

①找出已知词的原形;

②如果已知词是同形异义词,要进行消歧;

③为未知词猜测原形。

训练的过程是为了创建新的灵活的规则^{[ 12]}。其中,消歧部分主要分为三个步骤:

①如果词典查询获得的结果多于1个,而后根据一些原理过滤部分结果;

②对所有模糊规则进行修剪,获得灵活规则集;

③如果词典查询获得的结果多于1个,使用(消歧的)灵活规则替代。

(3)WMTrans Lemmatizer

Canoo Engineering AG于2002年发布Word Manager Transducer (WMTrans)工具,主要作为德语形态学分析软件,提供信息检索和语言处理应用的智能文本处理^{[ 13]}。WMTrans基于Canoo形态学词典,包括德语和英语。词典包含了词构成依赖的信息,全部的形态学不规则形式和拼写变形。WMTrans提供的词形还原功能包括两种:基于词典的,返回特定语言的任意有效词的基本形式(Citation Form),用于词性标注;未知词词形还原,根据词构成规则,能够处理词典中不包含的未知词。该工具的实现提供两个版本:Java版本,运行于任何平台;特定平台的共享库(适于Linux),提供两个不同的API(ANSI C/C++和Java)。

3.2 集成词形还原功能的其他项目工具

除了词形规范化算法的单独实现工具,词形还原作为文本处理的基础步骤,被集成在很多形态分析、文本处理的相关项目和工具中。这些项目包括形态分析项目MorphAdorner,自然语言处理项目Stanford CoreNLP、NLTK,以及Specialist NLP Tools等。

(1)MorphAdorner

MorphAdorner主要用于处理一篇文本中的词的形态修饰,提供了拼写检查、词性标注和词形还原等方法^{[ 14]}。MorphAdorner使用约200条英语语法规则进行词形还原,并对规则外的词形变化做特殊处理,能够识别超过3 000个不规则形式。MorphAdorner词形还原的主要步骤为:

①词典查找:已知一个(词,词性)的组合,首先检查该词的原形是否在词典中。如果存在,MorphAdorner返回该词原形。

②使用不规则形式列表。当这种(词,词性)的组合在当前词典里找不到时,就会查找一个不规则形式和语法规则的列表。它不受特定词性标注的限制。将词性转换为如表2中的词类,如(striking,vvg)被转换为(striking,verb)^{[ 15]}。当拼写对出现在不规则形式列表中时,返回该表中的原形。如(mice,noun)出现在不规则列表中,返回原形mouse。

表2 词性对应的词类

③分离规则。当词也不存在于不规则形式列表中时,词形还原开始一系列对主要词类的分离规则匹配。每个规则指定一个词缀形式进行匹配,并指定一种生成原形形式的替代形式。一旦替代形式生效,则词形还原过程完成。

(2)Stanford CoreNLP

Stanford CoreNLP中主要应用形态学计算还原英语词汇的基础形式,主要是删除屈折形态(不是衍生形态)^{[ 16]}。它只考虑名词复数、代词和动词结尾情况,而不考虑形容词比较级或派生名称(Derived Nominals)。它有多种方法进行语言形态处理和词形规范。词形还原利用最大熵的词性标注器标注词性,并结合形态分析的有限自动状态机处理词形变化。

(3)NLTK

NLTK是一组用Python语言开发的用于自然语言处理的模块工具包,包含了句子抽取、标注、解析等功能^{[ 17]},其中也包括取词干和词形还原功能。NLTK中的词形还原工具主要是和WordNet词典结合。NLTK本身提供与WordNet的良好接口,能够对WordNet进行访问,包括对词典中的同义词、原形的查询等功能。因此,其词形还原功能主要是通过对WordNet词典的查询进行词缀删除及转换,获得有效的原形。

(4)Specialist NLP Tools

专家自然语言工具(Specialist NLP Tools)是辅助词典开发者和文本分析使用者的工具,与UMLS词典紧密结合,包含三类工具包:词典工具(Lexion Tool)、文本工具和拼写工具^{[ 18]}。

在词典工具中包含词形规范化工具Norm,其进行词形还原是一个较为完整的流程,能够实现将已知词输出变为小写字母,进行屈折变化、拼写变化,去标点符号,对所有格标记,去除停用词、变音符号、连体字母,调整词序等处理。还能够为特定输入词查询UMLS词典并输出同义词。Norm的词形还原功能基于UMLS词典并结合特定规则,与其他原形工具的区别在于其结果不止返回词的一个原形,而是返回多个输出。例如“aconcagua”,输出“aconcagua、“aconcaguon”、“aconcaguum”。

3.3 各工具特点分析

各词形还原工具其功能和用途各不相同,本文侧重分析各工具的词形还原功能,从其算法原理、使用的词性标注器、是否进行拼写检查、处理的语种、使用的词典、工具的开发语言等方面,总结词形还原工具的特点,如表3所示:

表3 词形还原工具特点对比表

(1)词形还原工具主要采用基于词典和规则的方法,以基于词典的方法为主,基于规则的方法作为补充。目前,实现工具根据应用目标不同使用不同的词典,多选取收录范围较大、较权威的词典,如NLTK使用WordNet,MorphAdorner使用早期现代英语和19世纪的小说词典,WMTrans Lemmatizer使用Canoo的形态学词典,这些词典可以应用于通用文本。而Specialist NLP Tools主要处理医学领域文本,基于UMLS词典,也包括美国传统词频书、朗文当代高级词典等,也可以处理通用文本。词形还原工具一般通过(词形、词性)的形式进行词典查找,并返回原形。词形还原结果的召回率和准确率受到工具使用词典的领域和规模限制。为了避免这种不足,现有工具多结合语言规则使用,包括对不规则变化的处理、语法规则等。

(2)词性标注是词形还原工具中的关键。现有工具处理词形还原,需要输入(词形、词性)对。词的词性识别的正确性直接影响词形还原的结果。现有还原工具采用一种或多种的语言词性标注器,用于词性识别。这是由于语言的多样性,同一词形可能具有不同词义,对应不同的原形,如“saw”词义为“看”的动词时,其原形为“see”,而当词义为“锯子”时,原形为“saw”。通过现有词性识别工具可以区别出二者的不同,如Stanford CoreNLP使用最大熵词性标注器;MorphAdorner 使用基于隐马尔科夫模型的Trigram Tagger和Viterbi算法等;WMTrans Lemmatizer虽然没有提供词性标注功能,但在进行词形还原时,数据输入要求添加词性。

(3)词形还原工具采用多种开发语言。词形还原的实现工具大多数为Java语言、C++或Perl语言,开源工具具有二次集成和开发的价值。

(4)词形还原工具处理的语种与词典有关。European Languages Lemmatizer、CST’s Lemmatiser、WMTrans Lemmatizer等能够处理俄语、法语、德语等语种,主要因为其包含了该类语言的词典,能够进行词形和原形间的映射。

3.4 实现工具对比实验

上述分析的7种工具中,由于工具获取及编译语言的限制,仅获得其中5种,并利用实际数据进行测试比较。通过结果分析各工具的特点和不足。

测试环境为Intel(R)Core(TM)2 Duo CPU,2.40GHz,2.39GHz,内存1.98GB,硬盘200GB。实验数据选取由牛津大学开发的词典分析工具WordSimith Tools^{[ 19]}中提供的英文原形还原词表,其中包含词的变形和归并后的原形。数据为14 762个词,对应变形25 807个,通过笔者处理形成25 807个变形-原形对,作为测试基本数据。对数据进行停用词、标点去除,分别利用5种工具实现词形还原。其中,CST’s Lemmatiser和NLTK主要利用网页提供的Demo进行处理,另外三种为开源工具,可以直接获取。结果评估通过精确匹配,公式为Precision=(结果中匹配正确的原形数)/正确原形总数×100%。比较结果如表4所示:

表4 5种词形还原工具实验结果

由于实验中CST’s Lemmatiser和NLTK是通过网页Demo进行分批处理,因此无法准确记录处理时间。其他三种工具,实验中发现在处理全部25 807条数据时,Specialist NLP Tools消耗的时间相对较大,Stanford CoreNLP的时间较少。但是在处理少量数据如1 000条或几百条数据时,Specialist NLP Tools处理时间更快,而Stanford CoreNLP和MorphAdorner相对较慢,这主要是因为,后两种词形还原工具需要加载词性标注的词典,消耗了部分时间,如Stanford CoreNLP花费1 312ms加载词典,MorphAdorner花费8 828ms加载词典,但是一旦词典加载后,其处理速度就比较快,因此在数据较少时速度稍慢,而数据较大时反而速度有所提升。在结果准确率上,NLTK的处理效果较差,它主要使用WordNet词典匹配,如果出现大量词典未登录词,则不能有效处理。Specialist NLP Tools的处理结果最为出色,达到90.24%,其中一些错误匹配的原因,主要是英、美式英语的拼写转换问题,如anesthetize→anaesthetise、arbour→arbor,与测试数据提供的标准结果不符。这种情况在本测试中被算作错误,但在不区分英美式拼写时,是正确的处理。这也说明现有词形还原工具均具有拼写检查功能,可以归并为英式拼写或美式拼写的原形。实验中发现各工具在拼写识别上的特点如表5所示:

表5 5种词形还原工具的拼写种类

在返回的词形还原结果方面,MorphAdorner、NLTK、Stanford CoreNLP的返回结果为一对一,即一个词形对应一个原形,结果通过词性识别或规则确定唯一结果。CST’s Lemmatiser 和Specialist NLP Tools中的Norm工具返回多个结果,如“drunk” 的原形化处理,结果为“drunk”和“drink”,这是为了避免词性识别的失误而导致结果错误,可以提高结果识别的正确率。从错误结果上看,Stanford CoreNLP和CST’s Lemmatiser处理的错误较明显,一般出现在ed、ing结尾的词上,如abutted、accelerated、airing等不能有效去除ed、ing结尾。NLTK主要是无法处理词典WordNet的未登录词。MorphAdorner的问题在于处理s结尾的词,如agnostics不能有效识别去除s。由此看来单纯使用基于词典的方法在处理上是具有局限性的,而综合规则和词典的方法能获得更好的结果。

4 结语

本文对词形规范化的两类方式——词干提取和词形还原进行了比较,进而对词形还原的主要方法进行了归类,并分析了各类型方法的特点,对比了其优、缺点。之后从理论和实践两方面对各词形还原实现工具进行了对比分析,通过实验发现现有词形还原工具能较好地解决词形规范的问题,特别是Specialist NLP Tools准确率达到90.24%,为研究者选择适当的词形还原方法和工具提供参考。由于语言的复杂性,词形还原的研究仍存在一些问题,本文认为应从以下几方面进行拓展:

(1)加强对现有词典的利用和集成。合理使用已有词典,用于词形和原形查找或用作训练集合,并根据具体需求对其进行维护、更新,动态扩大词典规模。

(2)提高词性标注器的标注速度和准确率。词性标注是影响词形还原结果准确性的重要因素,应提高词形还原工具中的词性标注器的标注结果的准确率和标注速度。

(3)细化语种、领域及应用的词形还原工作。已有词形还原工具多针对特定语言类型,较少关注特定领域及具体应用的词形还原任务。虽然同种语言具有通用特点和形态规律,但是领域专业术语和普通用语间也存在较大差别,针对特定领域和具体应用的原形化工具较少,如只有Specialist NLP Tools是基于医学专业词典的。因此,有必要结合领域中专业术语的语言特点进行更准确的词形还原处理。

(4)推进基于机器学习的词形还原方法研究和实际应用。基于机器学习的词形还原方法在处理词典未登录词和不同语言转换上具有较大优势,但是语料标注费时费力,还原结果具有大量噪音是其最大的缺点。应合理利用词典中的词形和原形关系进行语料训练,减轻标注负担,并优化还原结果的去噪流程,提高最终结果的准确性。

参考文献

View Option

[1]	Mansuri Y, Kim J G, Compton P, et al. An Evaluation of Ripple-Down Rules[C]. In: Proceedings of the IJCAI’91 Knowledge Acquisition Workshop Pokolbin. 1991: 114-132. [本文引用:1]
[2]	Plisson J, Lavrac N, Mladenic D. A Rule Based Approach to Word Lemmatization[C]. In: Proceedings of the 7th International MultiConference Information Society IS. 2004: 83-86. [本文引用:1]
[3]	Juršic M, Mozetic I, Lavrac N. Learning Ripple Down Rules for Efficient Lemmatization[C]. In : Proceedings of the 10th International Multi-Conference Information Society IS. 2007: 206-209. [本文引用:1]
[4]	Chrupala G. Simple Data-Driven Context-Sensitive Lemmatization[C]. In: Proceedings of SEPLN. 2006: 121-127. [本文引用:1]
[5]	Daelemans W, Groenewald H J, van Huyssteen G B. Prototype-based Active Learning for Lemmatization[C]. In: Proceedings of Recent Advances in Natural Language Processing (RANLP). 2009: 65-70. [本文引用:2]
[6]	Plisson J, Mladenic D, Lavrac N, et. al. A Lemmatization Web Service Based on Machine Learning Techniques[C]. In: Proceedings of the 2nd Language & Technology Conference. 2005: 369-372. [本文引用:1]
[7]	Ingason A K, Helgadóttir S, Loftsson H, et. al. A Mixed Method Lemmatization Algorithm Using a Hierarchy of Linguistic Identities (HOLI)[OL]. [2011-10-22]. http://linguist.is/skjol/lemmald.pdf. [本文引用:1]
[8]	Branco A, Silva J. Very High Accuracy Rule-based Nominal Lemmatization with a Minimal Lexicon [OL]. [2011-10-22]. http://quexting.di.fc.ul.pt/publicacoes/BrancoSilva2007.pdf. [本文引用:1]
[9]	Kanis J, Müller L. Automatic Lemmatizer Construction with Focus on OOV Words Lemmatization. Text[C]. In: Proceedings of the 8th International Conference on Text, Speech and Dialogue. Berlin, Heidelberg: Springer-Verlag, 2005. [本文引用:1]
[10]	European Languages Lemmatizer[EB/OL]. [2011-10-21]. http://lemmatizer.org/. [本文引用:1]
[11]	CST’s Lemmatiser[EB/OL]. [2011-10-22]. http://cst.dk/online/lemmatiser/uk/. [本文引用:1]
[12]	CST Lemmatiser 4. 0[OL]. [2011-10-22]. http://cst.dk/download/cstlemma/current/doc/cstlemma.pdf. [本文引用:1]
[13]	Wmtrans Lemmatizer[EB/OL]. [2011-10-21]. http://www-dev.canoo.com/wmtrans/home/index.html. [本文引用:1]
[14]	MorphAdorner[EB/OL]. [2011-10-21]. http://morphadorner.northwestern.edu/morphadorner/. [本文引用:1]
[15]	English Lemmatization Process[EB/OL]. [2011-10-21]. http://morphadorner.northwestern.edu/morphadorner/lemmatizer/lemmatizationprocess/. [本文引用:1]
[16]	Stanford CoreNlP[EB/OL]. [2011-10-21]. http://nlp.stanford.edu/software/corenlp.shtml. [本文引用:1]
[17]	NLTK[EB/OL]. [2011-10-21]. http://www.nltk.org/. [本文引用:1]
[18]	Specialist NLP Tools[EB/OL]. [2011-10-21]. http://specialist.nlm.nih.gov/. [本文引用:1]
[19]	WordSmith[EB/OL]. [2011-10-21]. http://www.lexically.net/wordsmith/. [本文引用:1]

1991

0.0

... RDR创建规则和处理规则外的异常情况,避免当前规则发生异常时影响其他规则^[1] ...

2004

0.0

... Plisson等^[2]用于斯洛文尼亚语的词形还原,认为RDR适用于解决词形还原问题,其准确率达到77% ...

2007

0.0

... ic等^[3]随后对RDR进行了改进,提出LenGen算法,考虑了规则及异常包含的训练实例的数量及词典排序,并根据实例频次对规则和异常进行排序 ...

2006

0.0

... Chrupala^[4]提出了简单数据驱动的情景敏感词形还原方法,主要是将词形还原方法看作是分类方法,利用最短编辑距离和支持向量机的分类方法结合进行词形和原形的转换,其最大改进是在从词形到原形的映射过程中采用了最短编辑距离,用于找出两个字符串间的最长公共序列 ...

2009

0.0

... Daelemans等^[5]提出基于原形的主动分类方法(Parall with the Prototype-based Active Classification Approach),采用原形作为用于训练的实例选择标准,进行主动学习,解决训练数据标注费时费力的问题,用于优化预测准确度 ...

... 经过评估,该方法在分类选择策略上要优于基于随机基线和熵的方法^[5] ...

2005

0.0

... Plisson等^[6]提出基于机器学习的词形还原词形规范方法,输入一组词对(词,词的原形),获得导出原形的训练模型,而后用于原形输出 ...

2011

0.0

... 将数据驱动的机器学习和语言知识相结合,通过语言层次识别分析、复合分析、元音变音替代,后处理和词典数据库查找,实现最大的性能^[7] ...

2011

0.0

... Branco等^[8]描述了一种规则和词典结合的针对葡萄牙语的词形还原方法,通过转换规则处理词的屈折形态后缀,规则外的变化通过异常列表(词典)来补充 ...

2005

0.0

... Kanis等^[9]通过原形词典训练规则,主要解决词典未登录词的词形还原问题,包括缺少完整形式、未知词和复合词,采用捷克语文本数据测试,结果召回率达到99 ...

2011

0.0

... 所有库和词汇表提供基于GNU GPL许可^[10] ...

2011

0.0

... 目的是为STO数据库开发处理词形还原的新文本,聚集和选择特定领域的文本^[11] ...

2011

0.0

... 训练的过程是为了创建新的灵活的规则^[12] ...

2011

0.0

... Canoo Engineering AG于2002年发布Word Manager Transducer (WMTrans)工具,主要作为德语形态学分析软件,提供信息检索和语言处理应用的智能文本处理^[13] ...

2011

0.0

... MorphAdorner主要用于处理一篇文本中的词的形态修饰,提供了拼写检查、词性标注和词形还原等方法^[14] ...

2011

0.0

... 将词性转换为如表2中的词类,如(striking,vvg)被转换为(striking,verb)^[15] ...

2011

0.0

... Stanford CoreNLP中主要应用形态学计算还原英语词汇的基础形式,主要是删除屈折形态(不是衍生形态)^[16] ...

2011

0.0

... NLTK是一组用Python语言开发的用于自然语言处理的模块工具包,包含了句子抽取、标注、解析等功能^[17],其中也包括取词干和词形还原功能 ...

2011

0.0

... 专家自然语言工具(Specialist NLP Tools)是辅助词典开发者和文本分析使用者的工具,与UMLS词典紧密结合,包含三类工具包:词典工具(Lexion Tool)、文本工具和拼写工具^[18] ...

2011

0.0

... 实验数据选取由牛津大学开发的词典分析工具WordSimith Tools^[19]中提供的英文原形还原词表,其中包含词的变形和归并后的原形 ...