Advanced Search

数据分析与知识发现, 2020, 4(6): 109-117 doi: 10.11925/infotech.2096-3467.2019.0321

研究论文

词向量和语义知识相结合的汉语未登录词语义预测研究*

魏庭新1,2, 柏文雷3, 曲维光,,2,4

1南京师范大学国际文化教育学院 南京 210097

2南京师范大学文学院 南京 210097

3国家电网南瑞集团有限公司 南京 210003

4南京师范大学计算机科学与技术学院 南京 210023

Sense Prediction for Chinese OOV Based on Word Embedding and Semantic Knowledge

Wei Tingxin1,2, Bai Wenlei3, Qu Weiguang,,2,4

1International College for Chinese Studies, Nanjing Normal University, Nanjing 210097, China

2School of Chinese Language and Literature, Nanjing Normal University, Nanjing 210097, China

3State Grid Nari Group Corporation, Nanjing 210003, China

4School of Computer Science and Technology, Nanjing Normal University, Nanjing 210023, China

通讯作者: 曲维光,ORCID:0000-0002-3555-6186, E-mail:wgqu_nj@163.com

收稿日期: 2019-03-25   网络出版日期: 2020-06-25

基金资助: *本文系国家自然科学基金项目“汉语抽象意义表示关键技术研究”.  61772278
江苏省高校哲学社会科学项目“面向机器学习的汉语复句语料库建设研究”的研究成果之一.  2019SJA0220

Received: 2019-03-25   Online: 2020-06-25

摘要

【目的】 将词向量和语义知识相结合,提高未登录词语义预测的准确性。【方法】 抓取含有未登录词网页的语料,利用Word2Vec等模型得到词语的分布式表示信息,再结合构词语义知识对候选词进行中心词和词性过滤,实现未登录词的语义预测。【结果】 在人民日报语料未登录词测试集上的实验结果表明,模型预测正确率可达87.5%,高于只使用词语内部知识的模型和只使用外部分布信息的词向量模型。【局限】 无法预测语义不透明的未登录词。【结论】 将携带词语外部信息的词向量与词语内部特征相结合,显著提高了未登录词语义预测的正确率,说明词语内、外部信息对于语义的组成有重要作用。

关键词: 未登录词 ; 词向量 ; 语义知识 ; 语义预测

Abstract

[Objective] This paper applies word embedding and word semantic knowledge to improve the sense prediction for Chinese Out Of Vocabulary (OOV). [Methods] First, we crawled webpages with OOV words. Then, we trained the Word2Vec and other embedding methods with the retrieved corpus. Finally, we improved the precision of OOV sense prediction with semantic knowledge of word formation, such as centro and pos filterings. [Results] We examined our method with datasets from the People’s Daily and found it achieved 87.5% precision on OOV sense prediction. Our result was much better than those of the models only adopting word embedding or based on semantic knowledge. [Limitations] The proposed model could not effectively predict semantically opaque OOV words. [Conclusions] Combining the external and internal information (i.e., word embedding and semantic knowledge) could remarkably improve the prediction of OOV words.

Keywords: OOV ; Word Embedding ; Semantic Knowledge ; Sense Prediction

PDF (717KB) 元数据 多维度评价 相关文章 导出 EndNote| Ris| Bibtex  收藏本文

本文引用格式

魏庭新, 柏文雷, 曲维光. 词向量和语义知识相结合的汉语未登录词语义预测研究*. 数据分析与知识发现[J], 2020, 4(6): 109-117 doi:10.11925/infotech.2096-3467.2019.0321

Wei Tingxin. Sense Prediction for Chinese OOV Based on Word Embedding and Semantic Knowledge. Data Analysis and Knowledge Discovery[J], 2020, 4(6): 109-117 doi:10.11925/infotech.2096-3467.2019.0321

1 引言

语义的理解一直是自然语言处理研究的热点,也是研究的终极目标之一。而对文本内容的理解必须建立在对文本中每个词语的理解之上。随着社会、经济及互联网的不断发展,自然语料中不断产生大量未登录词。根据相关统计,语料中约有3.51%的词语是未登录词[1]。未登录词语义未知,因此对于机器翻译、信息抽取、情感分析、文本分类等多项以语义为基础的自然语言处理研究来说,未登录词的语义预测都是其必须跨越的障碍。在此前的未登录词语义预测研究中,大多利用未登录词的内部特征即构词知识进行预测。然而,由于未登录词构词多样性、随意性的特点,仅依靠内部特征无法取得很好的效果,因此该项任务的研究进展较为缓慢。本文提出一种新的内部特征和外部特征相结合的方法,将携带上下文信息的词向量与词语内部构词知识相结合,共同用于未登录词的语义预测工作。

2 相关研究

汉语中复合词的语义多由其构词语素构成,根据苑春法等[2]的研究,在汉语双音节复合词中,87.8%的名词、93.2%的动词和87.0%的形容词词义全部由其语素义构成,以往绝大多数未登录词语义预测研究都使用这一构词知识。例如,Chen等[3]通过对未登录词的组成语素进行切分,计算《同义词词林》[4](简称词林)中与其最相似的词语及类别作为其语义预测。在此基础上,Chen等[5]提出字-类别关联模型,计算未登录词的组成字和词林的语义类别之间的相关度,用以预测词语的语义类别。Lu[6]则是计算未登录词的组成字与词林中的每个语义类别中出现的字的重叠率,从而预测其语义类别。尚芬芬等[7]利用未登录词的构词语素特征构建了一个级联模型,准确率达到77.9%。吉志薇等[8]利用二字词的词素意义、意合结构、义根分布、意指方式、意变类型预测未登录词语义,但其测试集规模太小,准确率也只有43.7%。田元贺等[9]利用未登录词构词语素的语素类、语素义、词性及其结构特征,使用贝叶斯网络对未登录词的语义进行词义表示和语义预测,但效果也不甚理想,前语素义+后语素义的正确率只有43.24%。除此之外,一些学者也基于语料对未登录词进行语义预测。Lu[10]从语料中抽取词林每个语义类别的广义上下文,计算未登录词的上下文与每个候选语义类别上下文的相似度,以对未登录词进行语义类别预测,但这种方法存在数据稀疏的问题,效果不够理想,F值仅为37%。为了解决这一问题,Lu[10]又提出知识和语料的混合模型,利用基于知识的方法得到候选语义,然后利用基于上下文的方法对候选语义进行排序,但效果并没有很大提升

可以看到,利用词语构词知识对未登录词进行语义预测虽然有据可循,但由于汉语一字多义以及不规则构词情况的大量存在,仅依靠构词知识进行预测,效果不尽如人意。若想提高预测性能,必须利用其他信息。而基于使用的语言观[11]指出,语言结构来自使用。词义不仅来自词语内部,同样来自其使用的上下文环境。1954年,Harris[12]提出分布假说:上下文相似的词,其语义也相似。Firth[13]进一步阐释这一观点:词的语义由其上下文决定。因此,本文假设词语的意义可以由词语内部知识和外部信息共同表示。

2003年,Bengio等[14]提出神经概率语言模型,并首次提出词嵌入(Word Embedding)的概念,通过学习单词的分布式表示,将词语表示成低维连续实数向量,因此又被称为词向量,可以很好地度量词与词之间的相似性。词向量由含有目标词的上下文训练得到,因此携带了词语的上下文信息,可以视为词语外部特征的一种体现,也携带了相当一部分语义。由于词向量训练受语料影响较大,所以仅使用词向量对语义进行表示有不稳定、不准确等问题存在。为克服这些问题,本文将未登录词的词向量作为外部信息表示,与词语内部知识相结合,共同作用于未登录词语义预测。2017年,柏文雷[15]将词向量技术应用于未登录词语义预测,在通过训练得到未登录词的词向量后,对候选词进行词缀过滤。本文在其基础上使用多个词向量模型、与更多构词语义知识有机结合,进一步提高未登录词语义预测的性能。

3 研究思路和框架

3.1 基本思路

本文实验基本思路为:通过大规模语料对未登录词进行词向量训练,得到含有上下文信息的未登录词向量表示;选取与其向量最接近的k个词语作为其预测候选词;利用词语语义知识对候选词进行筛选,将候选词映射到词林语义类别,最终得到其语义预测。实验流程如图1所示。

图1

图1   实验流程

Fig.1   Flow Diagram of the Experiment


3.2 语义资源介绍

本文使用《同义词词林(扩展版)》[16]作为语义类别标注的依据。《同义词词林》是由梅家驹等[4]编纂的一部类义词典,2005年哈尔滨工业大学信息检索研究室对其进行扩充及编码,共计收录词语7万多个,分为12个大类、94个中类、1 428个小类、4 223个词群和17 809个原子词群。词林中每个原子词群表示一个概念,由一个8位编码表示,收录一个或多个同义词。例如,词集“Bi18A01= 昆虫 虫 虫子”各编码位意义如表1所示。

表1   词林编码分级表

Table 1  Code Format of Cilin

编码位符号举例符号性质级别
1B大类第一级
2i中类第二级
31小类第三级
48
5A词群第四级
60词集第五级
71
8=\#\@

新窗口打开| 下载CSV


由于一些原子词群和词群划分过于细致,一些原子词群只包含一个两个词语,因此本文采用第三级编码(即小类)对未登录词概念进行语义标注。例如,将未登录词“试销价”标注为表示概念“价格”的“Dj02”小类。

3.3 词向量模型

随着深度学习的不断发展,词向量作为词语语义表示被应用于自然语言处理的各项任务。为探究词向量对词语的语义表示性能,笔者使用三个常用的词向量模型CBOW、Skip-Gram和GloVe 分别训练词向量,其结果一方面作为本文联合模型的输入,另一方面作为外部特征模型直接用于预测未登录词语义,并与本文内、外部特征相结合的模型进行比较。CBOW和Skip-Gram是2013年谷歌开源的一款用于词向量计算的工具——Word2Vec[17]中的两个模型,其中CBOW模型训练目标是给定上下文得到最可能的中心词,其目标函数如公式(1)所示。

L=1Tt=1-cjc,j0Tlogp(wt|wt+j)

其中,wt为目标词,c为上下文窗口大小,T为语料大小。而Skip-Gram模型训练目标是给定中心词得到其窗口大小最可能出现的上下文词语,其目标函数为如公式(2)所示。

L=1Tt=1-cjc,j0Tlogp(wt+j|wt)

GloVe是2014年Pennington等[18]针对Skip-Gram模型只在上下文窗口训练、没有用到全局统计信息的问题提出的一个新模型,基于语料构建词的共现矩阵,然后基于共现矩阵和模型进行词向量训练。该模型假设共现概率大的词语语义更加相似,其目标函数如公式(3)所示。

J=i,j=1Vf(Xij)(wiTw¯j+bi+bj¯-log(Xij))2

其中, V为词典大小,wi为目标词的词向量, w¯j为上下文词的词向量,bib¯j是共现矩阵X行与列的偏移值。本文采用以上三个模型分别在测试语料上进行实验。

在得到未登录词w的词向量后,计算语料中与其相似度最大的k个词语作为其预测候选词集合,本文选用余弦相似度计算两个词语词向量ab间的距离,如公式(4)所示。

cos(a,b)=i=1naibii=1nai2i=1nbi2

其中,n为词向量的维度。经过计算得到预测候选词集合,表示为 S={x1,x2,xi,,xk}。对于每个预测候选词xi,在词林中查找其语义类别,得到该词的语义类别集合,表示为 cxi={c1,c2,,cm},最终得到所有候选词的语义类别集合,表示为 C={cx1,cx2,cxi,,cxk},选取集合中频率最高的类别作为未登录词的语义预测,如公式(5)所示。

CE=argmax(freq(C))

以未登录词“补给舰”为例, k=20,表2为与其最相似的20个词语及其在词林中的语义类别,若词林中没有出现该词,则记为Null。其中Bo30类别有7个,Di11类别有2个,其他类别均只有1个,频率最高的语义类别为Bo30。因此词向量模型选取Bo30作为未登录词“补给舰”的语义预测类别。

表2   与“补给舰”相似度最大的前20个的词语

Table 2  20 Most Similar Words to ‘Supply Ship’

候选词语义类别候选词语义类别
航母Bo30海军Di11
Dn08服役Hj22
驱逐舰Bo30一艘Null
Bo30舰艇Bo30
富池Null两栖舰Bo30
富池级Null该舰Null
指挥舰Null潜艇Bo30
远洋Be05补给船Bo22
编队Dd07舾装Ba05
护卫舰Bo30舰队Di11

新窗口打开| 下载CSV


3.4 词向量与语义知识相结合模型

由于词向量训练的目标是寻找与目标词有共同上下文的词语,因此相似词中含有大量的属于同一语义场的相关词,而非真正的语义相近的同义词。为了减少噪声,本文在词向量模型中引入构词语义知识,充分利用词语的内部和外部特征进行语义预测。

(1) 词向量+中心词模型

中心词即负载一个词语大部分语义的词素。具有相同中心词的词语,其语义也相近。对于汉语复合词的中心性问题,学者们意见不一,并无定论。Williams[19]提出“中心词右向”原则,即复合词的右手语素承担了整词语义核心和词类的功能。Packard[20]提出汉语双音节名词最右边的语素为词义中心,而双音节动词最左边的语素是词义中心。Ceccagno等[21]进一步提出偏正式复合词均为右中心,并列式复合词要么是双核心,要么是无核心。根据苑春法等[2]的统计,在汉语中,双音节名词以定中偏正式为主,占80.6%,其次为联合式,占9.3%;动词则以述宾、联合和状中偏正三种方式为主,各占39.7%、27.0%和23.3%;形容词则以联合式为主,占62.5%。徐艳华等[22]调查发现,三音节新造词语中定中结构占64.7%。综合来看,汉语复合词构成方式中偏正式占比最大,因此本文先选取未登录词的最右边的字(即尾字)作为中心词进行实验,并选取词语中其他语素进行对比实验。在得到与未登录词w最相似的候选词集合 S={x1,x2,,xk}后,进行中心词过滤,如公式(6)所示。

Scentro=filter(S,centro(xi)==centro(w))

i(1,k)

xi为未登录词w的候选相似词,在进行中心词过滤后得到候选词集Scentro,将词集中的相似词分别映射到词林中,获得候选语义类别集合Ccentro,选取集合中频率最高的类别作为词向量+中心词模型的预测CEC,如公式(7)所示。

CEC=argmax(freq(Ccentro))

以未登录词“痴呆症”为例,中心词为尾字,通过词向量得到相似度最高的100个词语后,只选取尾字同样为“症”的词,再将这些词映射到词林中的语义类别,结果如表3所示。候选词中语义类别为Dl01的有6个,其他为Null,因此模型取得票数最多的语义类别Dl01作为未登录词“痴呆症”的预测语义类别。

表3   未登录词“痴呆症”的候选相似词表

Table 3  The Candidate Set of Similar Words to ‘Dementia’

候选词语义类别候选词语义类别
癌症Dl01综合症Dl01
老年痴呆症Dl01躁郁症Null
抑郁症Dl01失智症Null
阿兹海默症Null能症Null
阿尔兹海默氏症NullDl01
精神分裂症Null抽动症Null
尿毒症Dl01

新窗口打开| 下载CSV


(2) 词向量+中心词+词性模型词性相同的词语在语义上比词性不同的词更加接近,因此本文增加了词性过滤,以进一步提高未登录词语义预测准确率。对于经过中心词过滤的未登录词w的预测候选词集合Scentro,只保留与目标词词性相同的成员,如公式(8)所示。

Spos=filter(Scentro,pos(xi)==pos(w))i(1,|Scentro|)

其中,|Scentro|为候选词集合Scentro中的成员个数。随后将其映射到词林中得到其语义类别集合Cpos,选取频率最高的语义类别作为词向量+中心词+词性模型的预测CECP,如公式(9)所示。

CECP=argmax(freq(Cpos))

以未登录词“募款”为例,k=20,经中心词过滤后预测候选词如表4所示。可以看到,候选词只剩下“善款”“筹款”和“捐款”,但“善款”和“捐款”词林语义类别均属于D类,而未登录词“募款”的词性为动词,词林中动词语义类别为F-J类,因此模型选取Hj31作为“募款”的预测类别。

表4   未登录词“募款”的预测候选词表

Table 4  The Candidate Set of Similar Words to ‘Fundraising’

候选词语义类别
善款Dj08
筹款Hj31
捐款Dj08

新窗口打开| 下载CSV


4 实验结果及分析

4.1 数据集来源

本实验数据集来源于北京大学计算语言所开发的人民日报语料[23],该语料库包含2 600多万汉字,语料已完成了词语切分和词性标注。将该语料的词语与现代汉语词典词表比对后得到未登录词,随机抽取3 000个未登录词作为本实验测试集,包含2 370个名词、574个动词和56个形容词,与各词性在未登录词中的分布频率基本一致。

4.2 语料构建

一般来说,词向量可以通过大规模语料库进行训练,如使用维基百科进行训练,但是这种方法对低频词效果不好。而未登录词恰恰多为低频词,在数据稀疏的情况下进行训练,得不到较好的词向量。本文使用爬虫在百度网页上直接抓取含有未登录词的页面,文本预处理后得到6 818万字语料,使用CBOW、Skip-Gram和GloVe模型分别进行训练,得到模型文件。

4.3 BaseLine设置

将只使用外部特征的词向量模型作为BaseLine之一,分别选用CBOW、Skip-Gram和GloVe进行训练,维度分别取100和200。由于文献[7]是一个融合了重叠字模型、字-关联模型及规则模型等的联合模型,且其预测结果在基于知识的模型中最优,可以看作是内部特征模型的代表,因此本文选取文献[7]模型作为另一个BaseLine,列为☆基线模型。

4.4 实验结果及分析

将测试集3 000词采用本文词向量+中心词模型和各BaseLine模型分别进行预测,对比预测结果与人工标注结果,得到正确率。其中,取候选相似词个数k=200,中心词取尾字,词向量维度分别取100和200,实验结果如表5所示。可以看到,只使用词语外部特征的词向量模型预测效果较差,Skip-Gram模型效果稍好,正确率也只有29.8%。而本文加入词语知识后,模型正确率提高到84.2%,性能大幅提升。这说明词向量捕捉到的信息更倾向于共同出现在上下文中的相关词,而非语义相似词。当候选类别去除了尾字不同的词之后,噪声大幅减小,因而预测正确率大幅提升。

表5   词向量+中心词模型与各基线模型语义预测结果

Table 5  Prediction Results of Embedding+Centro Model and Baseline Models

模型有语义返回词数正确数正确率(%)
GloVe1002 13352024.4
GloVe100+中心词1 4481 13578.4
GloVe200+中心词1 5161 18177.9
CBOW1002 54259323.3
CBOW100+中心词1 6171 32882.1
CBOW200+中心词1 6571 35381.7
Skip-Gram1002 38971229.8
Skip-Gram100+中心词1 6071 35384.2
Skip-Gram200+中心词1 6221 33982.6
☆基线模型2 9711 99567.1

新窗口打开| 下载CSV


另外,与☆基线模型相比,本文模型的预测正确率大幅提升,这说明与仅依靠构词知识相比,词向量能表征相当一部分语义,加入上下文信息这一外部特征能够优化语义预测的性能。

在使用词向量+中心词过滤后,加入词性特征,分别对测试集中的名词、动词和形容词进行预测。由于名词偏正式构词占80%以上[2],因此直接选取尾字作为中心词。对测试集中2 370个名词进行实验,结果如表6所示。

表6   不同模型对名词性未登录词语义预测结果

Table 6  Results on Noun Prediction with Different Models

模型词向量训练有语义返回词数正确数正确率(%)召回率(%)F值(%)
词向量+尾字+词性GloVe1001 09592784.739.153.5
GloVe2001 17497082.640.954.7
CBOW1001 4091 20285.350.763.6
CBOW2001 4171 22086.151.564.4
Skip-Gram1001 3711 22489.351.665.4
Skip-Gram2001 3711 21488.551.264.9

新窗口打开| 下载CSV


可以看到,词向量+尾字+词性过滤模型对名词的预测效果非常好,其中使用Skip-Gram训练的100维向量得到的正确率最高达89.3%,考虑到词语中意义不透明的占一定比例,该正确率已较高。这证明名词尾字的确承载词语中心义,可以视为词语的中心词。

由于偏正式不是主流动词构词方式,所以很难说动词中心词由哪个语素承担。本文将中心词设为首字、尾字、首字/尾字以及不设中心词分别进行实验。通过验证,Skip-Gram训练各项性能最好,因此本文使用Skip-Gram模型,词向量维度取100,对574个动词性未登录词进行实验,结果如表7所示。

表7   不同模型对动词性未登录词语义预测结果

Table 7  Results on Verb Prediction with Different Models

模型中心词有语义返回词数正确数正确率(%)召回率(%)F值(%)
Skip-Gram+中心词+词性None36410729.418.622.8
首字1485235.19.114.4
首字/尾字24014460.025.135.4
尾字19014375.324.937.4

新窗口打开| 下载CSV


可以看到,当把动词中心词设为尾字时正确率最高,为75.3%,这说明动词中心语义有相当一部分落在尾字。但其正确率不如名词,且召回率较名词低很多,这也说明相对名词来说,动词语义组合方式更加复杂,语义更加不透明。

形容词多由联合式构成,因此中心词设为首字、尾字、首字/尾字以及不设中心字分别进行实验,依然采用Skip-Gram模型,维度取100,对测试集中56个形容词进行实验,结果如表8所示。

表8   不同模型对形容词性未登录词语义预测结果

Table 8  Results on Adjective Prediction with Different Models

模型中心词有语义返回词数正确数正确率(%)召回率(%)F值(%)
Skip-Gram+中心词+词性None33515.28.911.2
首字191052.617.926.7
首字/尾字251248.021.429.6
尾字12866.714.323.5

新窗口打开| 下载CSV


可以看到,形容词预测中心词取尾字时正确率最高,取首字/尾字时性能最好(F值最高)。这说明形容词的整词语义更加分散地由构词语素分别承担。不过,形容词语义预测的召回率也较低,一方面是因为词向量模型得到的相似词中形容词词性的候选词较少;另一方面说明形容词的语义构成比名词和动词更加复杂和不透明。

将词向量、中心词和词性等内外部特征结合起来对测试集所有词语进行预测,结果如表9所示。其中,模型中心词均取尾字。

表9   词向量+中心词模型与词向量+中心词+词性模型语义预测结果

Table 9  Results of Embedding+Centro Model and Embedding+Centro+POS Model

模型有语义返回数正确数正确率(%)召回率(%)F值(%)
词向量+中心词1 6071 35384.245.158.7
词向量+中心词+词性1 5731 37687.545.960.2

新窗口打开| 下载CSV


可以看到,加入词性后,正确率、召回率和F值均有一定提升,这说明词性信息对于未登录词的语义预测是有一定帮助的。

由于本文模型正确率高、召回率较低,而☆基线模型正确率低、召回率高,因此结合两种模型的优势,设计一个级联模型,先利用本文模型对未登录词进行语义预测,对于本文模型无法预测的词语再使用☆基线模型进行预测,结果如表10所示。

表10   本文级联模型与基线模型实验结果

Table 10  Results of Our Cascade Model and Baseline Model

模型有语义返回数正确数正确率(%)召回率(%)F值(%)
☆基线模型2 9711 99567.166.566.8
本文级联模型2 9752 18673.572.973.2

新窗口打开| 下载CSV


与☆基线模型相比,本文级联模型正确率和F值都提高约6%,这充分说明将内、外部特征共同用于未登录词语义预测是有效的。

4.5 小结

通过对比和分析上述模型的实验结果,有以下一些结论。

(1)通过本文模型和各基线模型的比较可以看出,词语外部特征的加入对于未登录词的语义预测起到了很好的性能提升作用。这再次证明了语义不仅从结构内部来,还来自其使用的环境。

(2)通过结合词性信息的模型结果可以看出,汉语中名词中心语义多由尾字承担,是“右向”的,而动词和形容词的语义多由构词语素分担,语义相对名词而言不够透明。

(3)词向量由于可以很好地表征词义,且可以从文本中无监督学习得到,一直以来作为底层输入被应用于自然语言处理的各项任务。然而,通过本文实验可以发现,词向量在表征词义时更倾向于相关而非相似。加入已有的语义资源和知识库能够更好地对词汇语义进行表征。

(4)通过比较可以看到,Skip-Gram模型和CBOW模型的预测效果均优于GloVe模型,这说明在寻找近义词任务上,相比全局信息,直接利用离中心词最近的上下文更加有效;同时验证了Skip-Gram模型在较小数据集上以及低频、稀疏词语的词向量训练上性能更好。

(5)与重叠字模型、字-类别关联模型等基于构词知识的内部特征模型所需要较大的特征工程相比,本文模型特征选择简单直观,运算量低,且达到目前未登录词语义预测的最高水平。

另外,为了探究未登录词中意义不透明词的情况,对本文模型和基线模型均无法预测的157个未登录词进行考查,如表11所示。

表11   模型无法预测未登录词类别

Table 11  The OOV Categories that cannot be Predicted by Our Model

类别数量比例(%)实例
命名实体2415.3曾侯乙、鸸鹋
文言词汇2717.2夕曛、杲杲
方言词117.0饸饹、包谷糁
紧缩词2012.7固氦、冷拼
字母词、音译词117.0激肽B、桑拿
专业领域词汇2515.9胸腺肽、氧哌嗪
临时复合词2214.0救命楼、精品展
其他1710.8水困、超凡琦

新窗口打开| 下载CSV


由于人民日报语料是机器标注、人工复检的,所以难免有些分词及词性标注错误,模型对这些词无法进行预测。除此之外,无法预测的词语中绝大部分是非理据性的,这些词的语素不参与词义构成,词义无法从构词语素中得到,如人名、地名、植物名、音译词、方言词等。对于这类词,模型无法提取有效特征,因此无法对其进行语义预测。

另外,模型对于文言词、紧缩词、专业词汇以及临时复合词的预测也不理想,主要是因为这些词在文档中的出现频率低,数据稀疏,训练出的词向量不能很好地表示其意义。要解决这类词的语义预测问题,需要引入更多的外部特征,辅以相应的专业知识库。

5 结语

本文将可以反映词语外部特征的词向量应用于未登录词语义预测,词向量与词语构词知识构成的联合模型取得了良好的效果。但本文模型在动词和形容词词性的未登录词语义预测任务上表现并不够理想,同时对专业词汇、文言词汇等预测效果也不佳。今后的工作将着眼于探索语义不透明词语的预测方法,引入更多外部特征,以及专业知识库,以期建立更好的未登录词语义预测模型。

作者贡献声明

曲维光,魏庭新:提出研究思路,设计研究方案;

柏文雷:采集、清洗数据和进行实验;

魏庭新:进行实验和分析数据;

魏庭新,柏文雷:论文起草;

曲维光,魏庭新:论文最终版本修订。

利益冲突声明

所有作者声明不存在利益冲突关系。

支撑数据:

支撑数据由作者自存储,E-mail: tingxin.wei@163.com。

[1] 魏庭新. oov_words.txt. 未登录词数据集.

[2] 魏庭新. oov_corpus.txt. 百度爬取未登录词语料数据集.

[3] 魏庭新. python_oov_prediction.rar. 未登录词语义预测算法.

参考文献

Chen H, Lin C.

Sense-Tagging Chinese Corpus

[C]//Proceedings of the 2nd Workshop on Chinese Language Processing. 2000: 7-14.

[本文引用: 1]

苑春法, 黄昌宁.

基于语素数据库的汉语语素及构词研究

[J]. 世界汉语教学, 1998(2):8-13.

[本文引用: 3]

( Yuan Chunfa, Huang Changning.

Study on Chinese Morphemes and Word Formation Based on Chinese Morpheme Data Bank

[J]. Chinese Teaching in the World, 1998(2):8-13.)

[本文引用: 3]

Chen K J, Chen C J.

Automatic Semantic Classification for Chinese Unknown Compound Nouns

[C]//Proceedings of the 18th International Conference on Computational Linguistics (COLING). 2000: 173-179.

[本文引用: 1]

梅家驹. 同义词词林[M]. 上海: 上海辞书出版社, 1983.

[本文引用: 2]

( Mei Jiaju. Tongyici Cilin[M]. Shanghai: Shanghai Lexicographical Publishing House, 1983.)

[本文引用: 2]

Chen C J.

Character-Sense Association and Compounding Template Similarity: Automatic Semantic Classification of Chinese Compounds

[C]// Proceedings of the 3rd SIGHAN Workshop on Chinese Language Processing. 2004: 33-40.

[本文引用: 1]

Lu X F.

Hybrid Model for Semantic Classification of Chinese Unknown Words

[C]//Proceedings of North American Chapter of the Association for Computational Linguistics: Human Language Technologies. 2007: 188-195.

[本文引用: 1]

尚芬芬, 顾彦慧, 戴茹冰, .

基于《现代汉语语义词典》的未登录词语义预测研究

[J]. 北京大学学报:自然科学版, 2016,52(1):10-16.

[本文引用: 3]

( Shang Fenfen, Gu Yanhui, Dai Rubing, et al.

Research on the Sense Guessing of Chinese Unknown Words Based on “Semantic Knowledge-base of Modern Chinese”

[J]. Acta Scientiarum Naturalium Universitatis Pekinensis, 2016,52(1):10-16.)

[本文引用: 3]

吉志薇, 冯敏萱.

面向普通未登录词理解的二字词语义构词研究

[J]. 中文信息学报, 2015,29(5):63-69.

URL     [本文引用: 1]

把词素作为基本资源,从语义上寻找他们组合成词的规律,可以辅助自然语言理解。该文首先参照《现代汉语词典》和知网标注了二字词的词素意义,继而从意合结构、意根分布、意指方式、意变类型四个角度标注了词素间的词化意义,最后综合词素意义和词化意义,在定量统计的基础上建立了一个二字词的语义描写体系。通过对论坛及《现代汉语词典》的新词进行实验,我们发现二字词的语义构词研究在普通未登录词的理解中具有一定的应用价值。

( Ji Zhiwei, Feng Minxuan.

A Study on Semantic Word-Formation of Bi-Character for Common Unknown Word Understanding

[J]. Journal of Chinese Information Processing, 2015,29(5):63-69.)

URL     [本文引用: 1]

把词素作为基本资源,从语义上寻找他们组合成词的规律,可以辅助自然语言理解。该文首先参照《现代汉语词典》和知网标注了二字词的词素意义,继而从意合结构、意根分布、意指方式、意变类型四个角度标注了词素间的词化意义,最后综合词素意义和词化意义,在定量统计的基础上建立了一个二字词的语义描写体系。通过对论坛及《现代汉语词典》的新词进行实验,我们发现二字词的语义构词研究在普通未登录词的理解中具有一定的应用价值。

田元贺, 刘扬.

汉语未登录词的词义知识表示及语义预测

[J]. 中文信息学报, 2016,30(6):26-34.

[本文引用: 1]

( Tian Yuanhe, Liu Yang.

Lexical Knowledge Representation and Sense Prediction of Chinese Unknown Words

[J]. Journal of Chinese Information Processing, 2016,30(6):26-34.)

[本文引用: 1]

Lu X F.

Hybrid Model for Chinese Unknown Word Resolution

[D]. Ohio State University, 2006.

[本文引用: 2]

Langacker R W.

Foundations of Cognitive Grammar, Vol.1, Theoretical Prerequisites

[M]. Stanford: Stanford University Press, 1987: 402.

[本文引用: 1]

Harris Z S.

Distributional Structure

[J]. Word, 1954,10(2-3):146-162.

DOI:10.1080/00437956.1954.11659520      URL     [本文引用: 1]

Firth J R.

A Synopsis of Linguistic Theory 1930-1955

[A]// Studies in Linguistic Analysis[M]. Oxford: Blackwell, 1957: 1-31.

[本文引用: 1]

Bengio Y, Rejean D, Pascal V.

A Neural Probabilistic Language Model

[J]. Journal of Machine Learning Research, 2003(3):1137-1155.

[本文引用: 1]

柏文雷.

面向全文标注的未登录词语义研究与实现

[D]. 南京:南京师范大学, 2017.

[本文引用: 1]

( Bai Wenlei.

Research on Prediction of Unknown Words Sense and Application in Text Sense Tagging

[D]. Nanjing: Nanjing Normal University, 2017.)

[本文引用: 1]

哈尔滨工业大学信息检索研究中心. 同义词词林(扩展板)

[EB/OL].[2019-02-02]. https://www.ltp-cloud.com/download.

URL     [本文引用: 1]

(

HIT-SCIR. Tongyici Cilin (Extended Version

[EB/OL]. [ 2019-02-02]. https://www.ltp-cloud.com/download. )

URL     [本文引用: 1]

Mikolov T, Sutskever I, Chen K, et al.

Distributed Representations of Words and Phrases and Their Compositionality

[C]//Proceedings of the 26th International Conference on Neural Information Processing Systems. 2013: 3111-3119.

[本文引用: 1]

Pennington J, Socher R, Manning C D.

GloVe: Global Vectors for Word Representation

[C]//Proceedings of the 2014 Conference on Empirical Methods in Natural Language Processing. 2014: 1532-1543.

[本文引用: 1]

Williams E.

On the Notions Lexically Related and Head of a Word

[J]. Linguistic Inquiry, 1981,12(2):245-274.

[本文引用: 1]

Packard J L.

The Morphology of Chinese: A Linguistic and Cognitive Approach (汉语形态学:语言认知研究法)

[M]. Beijing: Foreign Language Teaching and Research Press, UK: Cambridge University Press, 2001: 39-40.

[本文引用: 1]

Ceccagno A, Scalise S.

Classification Structure and Headedness of Chinese Compounds

[J]. Lingue e Linguaggio, 2006,5(2):233-260.

[本文引用: 1]

徐艳华, 亢世勇.

基于语料库的新造词语的构词法研究

[C]//第一届学生计算语言学研讨会. 2002: 286-291.

[本文引用: 1]

( Xu Yanhua, Kang Shiyong.

Researches on Word-Formation of New Word Based on the Corpus

[C]//Proceedings of the 1st Student Computational Linguistics Seminar. 2002: 286-291.)

[本文引用: 1]

俞士汶, 段慧明, 朱学锋, .

北京大学现代汉语语料库基本加工规范

[J]. 中文信息学报, 2002,16(5):51-66.

URL     [本文引用: 1]

北京大学计算语言学研究所已经完成了一个有2700万汉字的现代汉语语料库的基本加工。加工项目除词语切分和词性标注外, 还包括专有名词(人名、地名、团体机构名称等)标注、语素子类标注以及动词、形容词的特殊用法标注。这项大规模语言工程的顺利完成得益于事先制订并不断完善的规范。发表《北京大学现代汉语语料库墓本加工规范》是为了抛砖引玉, 更广泛地向专家、同行征询意见, 以便进一步修订。

( Yu Shiwen, Duan Huiming, Zhu Xuefeng, et al.

The Basic Processing of Contemporary Chinese Corpus at Peking University SPECIFICATION

[J]. Journal of Chinese Information Processing, 2002,16(5):51-66.)

URL     [本文引用: 1]

北京大学计算语言学研究所已经完成了一个有2700万汉字的现代汉语语料库的基本加工。加工项目除词语切分和词性标注外, 还包括专有名词(人名、地名、团体机构名称等)标注、语素子类标注以及动词、形容词的特殊用法标注。这项大规模语言工程的顺利完成得益于事先制订并不断完善的规范。发表《北京大学现代汉语语料库墓本加工规范》是为了抛砖引玉, 更广泛地向专家、同行征询意见, 以便进一步修订。

/

版权所有 © 2015 《数据分析与知识发现》编辑部
地址:北京市海淀区中关村北四环西路33号 邮编:100190
电话/传真:(010)82626611-6626,82624938
E-mail:jishu@mail.las.ac.cn