Advanced Search

数据分析与知识发现  2017 , 1 (9): 8-15 https://doi.org/10.11925/infotech.2096-3467.2017.09.01

研究论文

融合词嵌入表示特征的实体关系抽取方法研究*

张琴12, 郭红梅1, 张智雄13

1中国科学院文献情报中心 北京 100190
2中国科学院大学 北京 100049
3中国科学院武汉文献情报中心 武汉 430071

Extracting Entity Relationship with Word Embedding Representation Features

Zhang Qin12, Guo Hongmei1, Zhang Zhixiong13

1National Science Library, Chinese Academy of Sciences, Beijing 100190, China
2University of Chinese Academy of Sciences, Beijing 100049, China
3Wuhan Documentation and Information Center, Chinese Academy of Sciences, Wuhan 430071, China

中图分类号:  TP393

通讯作者:  通讯作者: 张琴, ORCID: 0000-0003-1404-842X, E-mail: qinzhang.zq@foxmail.com

收稿日期: 2017-06-15

修回日期:  2017-07-12

网络出版日期:  2017-09-25

版权声明:  2017 《数据分析与知识发现》编辑部 《数据分析与知识发现》编辑部

基金资助:  *本文系ISTIC-EBSCO文献大数据发现服务联合实验室基金项目“基于clique子团聚类的文本主题识别方法研究”的研究成果之一

展开

摘要

目的】为解决已有方法中单词特征表示不具有语义信息这一问题, 对词嵌入表示特征在关系抽取中的作用进行探讨。【方法】考虑词嵌入表示级别、词汇级别和语法级别三种类型特征, 利用朴素贝叶斯模型、决策树模型和随机森林模型进行对比实验, 并选出代表全部特征的有效特征子集。【结果】使用全部特征时, 决策树算法的准确率达到0.48, 关系抽取效果最佳, Member-Collection(E2,E1)类型关系的F1值达到0.70, 特征排序结果表明依存关系有助于关系抽取。【局限】对小样本量和情况复杂的关系类型识别效果有待提高, 以及词向量训练及方法的相关参数需要进一步优化。【结论】实验证明选取的三种类型特征的有效性, 词嵌入表示级别特征在实体关系抽取问题中可以发挥重要作用。

关键词: 关系抽取 ; 词嵌入表示 ; Word2Vec

Abstract

[Objective] This study explores the word embedding representation features for entity relationship extraction, aiming to add semantic message to the existing methods. [Methods] First, we used the feature characteristics at word embedding representation, the vocabulary and the grammar levels to extract relations using Naive Bayesian, Decision Tree and Random Forest models. Then, we obtained the optimal subset of the full features. [Results] The accuracy of the Decision Tree algorithm was 0.48 with full features, which was the best. The F1 score of Member-Collection (E2, E1) was 0.70, and the dependency could help us extract the relations. [Limitations] We need to improve the relation extraction results with small sample size and complex situation. The word vector training method could be further optimized. [Conclusions] This study proves the effectiveness of three types of features. And the word embedding representation level feature plays an important role to extract relations.

Keywords: Relation Extraction ; Word Embedding Representation ; Word2Vec

0

PDF (464KB) 元数据 多维度评价 相关文章 收藏文章

本文引用格式 导出 EndNote Ris Bibtex

张琴, 郭红梅, 张智雄. 融合词嵌入表示特征的实体关系抽取方法研究*[J]. , 2017, 1(9): 8-15 https://doi.org/10.11925/infotech.2096-3467.2017.09.01

Zhang Qin, Guo Hongmei, Zhang Zhixiong. Extracting Entity Relationship with Word Embedding Representation Features[J]. 数据分析与知识发现, 2017, 1(9): 8-15 https://doi.org/10.11925/infotech.2096-3467.2017.09.01

1 引 言

随着网络技术的发展, 非结构化信息的数量不断增多, 如此庞大的数字资源给人类学习和工作带来困扰。为了更好地利用这些信息, 研究人员利用信息抽取技术, 将非结构化信息转化成结构化信息。

信息抽取技术希望计算机能够自动识别并抽取出文本中有价值的信息, 它具体分为命名实体识别(Named Entity Recognition)、关系抽取(Relation Extraction)、事件抽取(Event Extraction)、时间信息抽取(Temporal Information Extraction)和指代消解(Coreference Resolution)等研究点。其中, 关系抽取是指自动识别两个实体之间属于哪种语义关系, 例如“John Smith is the chief scientist of the Hard.com Corporation.”中实体“John Smith”和“Hard.com”之间存在“Person-Affiliation”的语义关系。实体间关系抽取是信息结构化的重要环节, 是知识图谱构建的关键部分, 也是问答系统、自然语言理解应用中至关重要的一步。

传统的基于特征工程的实体关系抽取方法中使用单词、实体类型、依存关系等特征, 单词使用字典索引表示, 这种表示方法不带有语义信息, 无法表达两个语义相近的实体之间的联系。词嵌入表示可以将以往离散的单词语义连续化, 如果两个单词语义越接近, 那么它们对应的词向量空间距离就越大, 词嵌入表示为自然语言处理提供非常有效的工具。为了解决以上问题, 本文融合词嵌入表示特征进行实体关系抽取。

融合词嵌入表示特征的实体关系抽取方法考虑词嵌入表示级别特征、词汇级别特征和语法级别特征三类特征, 对基于特征工程的实体关系抽取方法进行改进, 通过特征排序和有效特征子集进行实体关系抽取效果研究。

2 实体关系抽取相关研究

实体关系定义为两个实体之间的某种联系, 用元组$R=({{e}_{1}},{{e}_{2}})$表示, 其中${{e}_{1}}$, ${{e}_{2}}$是文档$D$中具有关系$R$的实体, 关系抽取就是自动找出该特定语义关系。通常, 实体关系抽取任务比较关注人、组织、位置等实体之间的关系, 例如人和组织之间的“Person- Affiliation”从属关系、组织和位置之间的“Organization- Position”关系。此外, 还包括很多其他类别的关系, 例如:

①We poured the milk into the pumpkin mixture.

②The burst has been caused by water hammer pressure.

③This article gives details on 2004 in music in the United Kingdom.

句子①中的实体“milk”和“pumpkin mixture”之间存在语义关系“Entity-Destination”; 对于句子②和句子③, “burst”和“pressure”存在“Cause-Effect”语义关系, “article”和“music”存在“Message-Topic”语义关系。

关系抽取的研究方法集中于将判断两个实体之间是否存在某种语义关系看作一个分类问题, 在此基础上, 实体关系分类研究分为核函数方法、远距离监督方法和特征提取方法。

(1) 核函数可以计算结构之间的相似性, 实现关系分类目的, 效果比较突出的是字符串核函数[1]、解析树核函数[2]、依存树核函数[3]、最短依存路径核函数[4]和多核融合[5]等。其中, Bunescu等[1]使用词的稀疏子序列、词性标签、通用词性标签、实体类型和WordNet同义词等模式, 将三种子核函数联合构成字符串序列核函数, 通过将它和支持向量机(Support Vector Machine, SVM)模型结合, 找到能将正样本与负样本分开的决策超平面。为了解决传统径向基核函数训练矩阵元素趋近于0时不利于分类的问题, 郭剑毅等[5]对径向基核函数训练矩阵进行改进, 并将改进的径向基核函数融合多项式核函数及卷积树核函数, 通过枚举的方式获得复合核函数的最优参数, 利用多核融合方法与SVM模型结合进行中文领域实体关系抽取。

(2) 远距离监督方法利用自举自动产生标注数据, 然后训练各种分类器模型完成关系抽取工作[6]。Mintz等[7]使用Freebase知识库, 将其中的关系实例所包含的实体同维基百科文本中的实体对齐, 从而产生训练数据, 然后使用逻辑回归模型进行关系抽取。Banko等[8]提出TextRunner系统, 包括学习机、抽取器和评估三个模块。具体过程是: 首先, 给定一个小样本集, 提取两个实体间的单词数量、停用词数量和实体是否是专有名词等特征后, 用这组自动标记的特征向量训练朴素贝叶斯分类器得到学习机。然后, 抽取器对整个语料库进行单个传递, 以提取所有可能的关系元组, 将每个元组发送到分类器中, 并标记可信赖关系元组。最后, 根据文本冗余的概率模型, 为每个保留的元组分配概率。远距离监督方法适用于大规模多领域的网络文本信息抽取, 使用该方法产生了一系列原型系统, 例如WOE系统[9]和ReVerb系统[10]等。

(3) 特征提取方法利用文本分析处理得到的特征数据训练不同的分类器, 特征主要包括实体、词性标签和语法分析结果等。Kambhatla[11]研究实体、实体类型、依存树和解析树等特征, 使用最大熵分类器进行关系抽取。Zhou等[12]考虑两个实体的首单词和WordNet中语义类, 训练SVMLight分类器, 研究如何将各种特征组合起来。高俊平等[13]利用词在句子中的位置、词性标签、实体类别、依存关系和语义角色标签等特征, 采用条件随机场(Conditional Random Fields, CRF)模型对句子成分进行序列标注, 识别中文维基百科数据中概念间的演化关系。甘丽新等[14]在传统特征基础上进行扩展, 利用依存句法分析和词性标注结果得到依存句法关系组合特征和最近句法依赖动词特征, 使用SVM模型作为分类器进行实验。

以往关系抽取研究中的词汇特征往往使用字典索引或独热(One Hot)模型进行表示, 在独热模型中单词对应的向量中只有某一维非零, 因此, 会面临数据稀疏的问题。此外, 无论是字典索引表示方法还是独热模型表示方法, 单词表示均不带有语义信息, 无法识别语义相近的词汇。2013年, Mikolov等[15]提出Word2Vec词嵌入表示学习模型, 旨在将研究对象的语义信息表示为稠密低维实值向量, 并且该向量能够表达两个语义相近的单词之间的联系。词嵌入表示模型可以解决数据稀疏和维数灾难问题, 在自然语言处理中有广泛应用。

本文融合词嵌入表示特征进行实体间关系抽取, 从数据集中提取词嵌入表示级别、词汇级别和语法级别三类特征, 将关系抽取看作分类问题, 利用这些特征训练朴素贝叶斯模型、决策树模型和随机森林模型, 并使用特征排序算法分析各类特征的性能, 最后选择有效特征子集, 完成关系抽取任务。

3 融合词嵌入表示特征的实体关系抽取方法

基于特征工程的实体关系抽取方法将实体关系识别看作一个分类问题, 即将判断两个实体之间是否存在某种关系看作一个分类问题。由此转化为数学问题: 文档$D={{w}_{1}},{{w}_{2}},\cdots ,{{e}_{1}},\cdots ,{{w}_{j}},\cdots ,{{e}_{2}},\cdots ,{{w}_{n}}$中e1e2是两个实体, 映射函数$f$为:

${{f}_{R}}(T(S))=\left\{ \begin{align} & +1\ \ {{e}_{1}}{{e}_{2}}R \\ & -1\ \ {{e}_{1}}{{e}_{2}}R \\ \end{align} \right.$

其中, T(S)是从文档D中提取的特征, 通过映射函数f 判断句子中的实体是否存在关系。这样, 实体关系抽取任务等价于实体关系检测任务。

3.1 词嵌入表示

词嵌入表示旨在将单词的语义信息分布式地表示成稠密低维实值向量, 单独考虑向量的某一维都没有明确的含义, 但是综合考虑这个向量则能够表达这个单词的语义信息, 如果两个单词的语义信息相近, 则它们的词嵌入表示向量的相似度就越高, 空间距离就越小。词嵌入表示研究主要利用神经网络模型进行实现, 比较突出的工作有神经网络语言模型(Neural Network Language Model, NNLM)[16]、循环神经网络语言模型(Recurrent Neural Network based Language Model, RNNLM)[17]。2013年, Mikolov等提出Word2Vec[15]词嵌入表示学习模型, 它又细分为两种: 一种是CBOW模型, 已知单词wt的上下文${{w}_{t-2}},{{w}_{t-1}},{{w}_{t+1}},$ wt+2, 预测单词wt; 另一种是Skip-gram模型, 在已知单词wt的前提下, 预测其上下文${{w}_{t-2}},{{w}_{t-1}},{{w}_{t+1}},{{w}_{t+2}}$。Word2Vec模型将神经网络中非常耗时的非线性隐藏层去除, 输入是文档集, 输出为文档集中的单词的词嵌入表示向量, Mikolov等的研究表明该模型的词嵌入表示效果较好, 因此本文选择Word2Vec模型进行词嵌入表示训练。

3.2 特 征

与以往研究不同, 融合词嵌入表示特征的实体关系抽取方法创新性地考虑词嵌入表示级别特征, 这是由于基于神经网络的词嵌入表示包含单词的语义信息, 可以反映词汇之间的语义相关性, 本文探究性地考查这种特征的关系抽取效果。同时, 考虑词汇级别特征和语法级别特征, 研究这三种特征对关系抽取任务的效果。

(1) 词嵌入表示级别特征

按照实体在句子中的相对位置, 将左、右两个实体分别记为E1E2。关系抽取工作首先考虑两个实体本身作为特征, 两个实体分别用词嵌入表示方法向量化表示为WE1WE2。然后, 因为分布式词向量空间存在平移不变性[15], 即king和queen的向量差与man和woman的向量差近似相等, 所以, 本文中的词嵌入表示级别特征考虑实体E1和实体E2的空间向量差$W{{E}_{12}}=W{{E}_{1}}-W{{E}_{2}}$。此外, 具有相同关系的实体对间的语义相似度可能相同或相近, 基于这一想法, 词嵌入表示级别特征还包括实体对的欧几里德距离和余弦相似性两个特征。假设实体E1n维词嵌入向量表示为$W{{E}_{1}}=\left\{ {{a}_{1}},{{a}_{2}},\cdots ,{{a}_{n}} \right\}$, 实体E2n维词嵌入向量表示为$W{{E}_{2}}=\left\{ {{b}_{1}},{{b}_{2}},\cdots ,{{b}_{n}} \right\}$。那么, 实体E1和实体E2的词嵌入表示向量空间的欧几里德距离如公式(1)所示。

$D({{E}_{1}},{{E}_{2}})=\sqrt{\sum\limits_{i=1}^{n}{{{({{a}_{i}}-{{b}_{i}})}^{2}}}}$ (1)

两个实体${{E}_{1}}$和${{E}_{2}}$的词嵌入表示向量空间的余弦相似性如公式(2)所示。

$S({{E}_{1}},{{E}_{2}})=\frac{\left\langle W{{E}_{1}}\cdot W{{E}_{2}} \right\rangle }{\left| W{{E}_{1}} \right|\times \left| W{{E}_{2}} \right|}\text{ }$ (2)

(2) 词汇级别特征

为了更清楚地描述词汇级别特征, 将其细分为词汇特征、类型特征和数量特征。词汇特征主要考虑单词, 根据单词在句子中出现位置的不同, 将句中所有单词分为三类: 两个实体之间的词, 实体E1之前的词和实体E2之后的词。因为实体的首单词通常更重要, 所以将它们的首单词和其他单词进行区分, 考虑两个实体的首单词作为两个特征, 分别为$H{{E}_{1}}$和$H{{E}_{2}}$。同时, 两个实体之间的单词又分为三部分: 首个单词, 最后一个单词和之间的其他单词。而针对实体E1之前的词和实体E2之后的词, 则分别取实体${{E}_{1}}$前的第一个和第二个单词, 以及实体E2后的第一个和第二个单词。类型特征指实体类型, 可以是ORGANIZATION、LOCATION、DATE、NUMBER、MONEY、PERSON、TIME、ORDINAL、DURATION、MISC和OTHER这11类。此外, 数量特征主要统计两个实体之间的单词数量和实体数量。按照上述思路, 词汇级别特征名称及其详细描述如表1所示。

表1   词汇级别特征及其描述

   

特征类别特征特征描述
词汇HE1实体E1的首单词
HE2实体E2的首单词
BNULL当实体间没有单词时, 取值为1, 否则为-1
BO当实体间仅有一个单词时, 取值为该单词, 否则为-1
BF当实体间至少有两个单词时, 实体间的第一个单词
BL当实体间至少有两个单词时, 实体间的最后一个单词
E1F实体E1之前的第一个单词
E1S实体E1之前的第二个单词
E2F实体E2之后的第一个单词
E2S实体E2之后的第二个单词
类型E1T实体E1的类型
E2T实体E2的类型
数量BE两个实体之间的实体数量
BW两个实体之间的单词数量

新窗口打开

(3) 语法级别特征

语法级别特征主要指句子的依存解析树中包含的信息和词性标签信息, 句子的依存解析树从其句法解析树中获得, 包括实体的依存词和实体与其依存词之间的依存关系等信息。具体而言, 实体E1和实体E2的依存词分别记为DE1DE2, 实体E1和依存词DE1的依存关系记为R1, 实体E2和依存词DE2的依存关系记为R2。词性特征考虑实体E1和实体E2的词性$PO{{S}_{1}}$、POS2, 实体E1的依存词DE1的词性POSD1, 以及实体E2的依存词DE2的词性POSD2

3.3 融合词嵌入表示特征的实体关系抽取方法

融合词嵌入表示特征的实体关系抽取方法基于上述词嵌入表示级别、词汇级别和语法级别三类特征, 共27个特征, 将实体关系抽取工作看作分类问题进行处理。在词嵌入表示特征抽取过程中, 针对Skip-gram和CBOW两种对数线性模型, 由于Skip-gram模型在识别单词间的语义关系方面效果更好, 因此使用Skip-gram模型训练词嵌入表示向量。同时, 在分类结果方面, 本文区分两个实体的顺序, 即区分实体关系的方向, 例如“Component-Whole (E1, E2)”与“Component- Whole(E2, E1)”是两种不同的关系, 前者表示实体${{E}_{1}}$是组件, 后者表示实体E2是组件。对于训练数据和测试数据, 需要计算并提取上述27个特征, 并利用训练数据的这些特征训练分类器, 然后用测试数据检验分类器的关系抽取效果。

4 实验过程与结果分析

4.1 数据集

实验的主要目的是探究本文提出的融合词嵌入表示特征的实体关系抽取方法的有效性, 验证其是否能够准确识别实体关系。实验在SemEval-2010第8个任务[18]提供的数据集上进行, 该数据集共有10 717个标注样本, 其中训练样本8 000个, 测试样本2 717个。这10 717个标注样本共包含9种有向关系以及1种无向关系, 有向关系包括“Component-Whole”、“Member- Collection”、“Entity-Origin”、“Entity-Destination”、“Product-Producer”、“Message-Topic”、“Content-Container”、“Instrument-Agency”和“Cause-Effect”, 无向关系指“Other”关系。各种关系类型及其所占比例如表2所示。

表2   SemEval-2010 task8数据集中关系类型及其比例

   

序号关系类型样本数量占比
(%)
训练集测试集总和
1Component-Whole(E2, E1)4721506225.80
2Component-Whole(E1, E2)4701626325.90
3Member-Collection(E2, E1)6122018137.59
4Member-Collection(E1, E2)78321101.03
5Entity-Origin(E1, E2)5682117797.27
6Entity-Origin(E2, E1)148471951.82
7Entity-Destination(E2, E1)1120.02
8Entity-Destination(E1, E2)8442911 13510.59
9Product-Producer(E1, E2)3231084314.02
10Product-Producer(E2, E1)3961235194.84
11Message-Topic(E2, E1)144511951.82
12Message-Topic(E1, E2)4902107006.53
13Content-Container(E2, E1)166392051.91
14Content-Container(E1, E2)3741535274.92
15Instrument-Agency(E1, E2)97221191.11
16Instrument-Agency(E2, E1)4071345415.05
17Cause-Effect(E1, E2)3441344784.46
18Cause-Effect(E2, E1)6591948537.96
19Other1 4074541 86117.36

新窗口打开

4.2 数据预处理

在进行分类实验之前, 需要对数据集进行预处理。数据预处理工作包括去停用词、词嵌入表示处理、依存解析树分析、词性标注和关系类型标签数值化等, 其中词嵌入表示处理使用Google的Word2Vec工具[19], 训练Skip-gram词嵌入表示模型, 经过多次实验, 词嵌入表示向量维度大小为100时关系抽取效果最佳。因此, 向量维度设置为100, 训练窗口的大小设置为5。依存解析树和词性标注等语法分析工作使用斯坦福大学提供的StanfordNLP[20]进行, 最后将关系类型标签以1-19进行数值化。

4.3 结合全部特征的关系抽取实验

使用词嵌入表示级别、词汇级别和语法级别27个特征, 共324维特征, 利用这三类特征训练朴素贝叶斯模型、决策树模型和随机森林模型三种分类器。基于全部特征的实体关系抽取实验使用Python调用scikit-learn实现, 分类器使用默认参数和训练集数据进行训练, 并利用测试集数据测试它们在关系抽取任务上的性能, 分别计算每个分类器的查准率P、查全率RF1值, 结果如表3所示。不使用分类器的情况下, 考虑实体关系方向, 一个样本被正确分类的概率是1/19, 而三种分类器的查准率均大于这一概率, 说明融合词嵌入表示特征的实体关系抽取方法的有效性。从表3可以看出, 决策树分类器的关系抽取效果最好, 其次是随机森林模型, 朴素贝叶斯模型的关系抽取效果最差。

表3   分类器的分类效果

   

分类器PRF1
朴素贝叶斯模型0.210.210.15
决策树模型0.480.470.47
随机森林模型0.450.450.44

新窗口打开

表4是使用决策树模型得到的19类关系的实验查准率P、查全率RF1值, 其中的关系类型标号与表2中的序号相对应, 可以看出决策树模型对“Member- Collection(E2, E1)”类型关系的F1值达到0.70, 查准率、查全率也分别达到0.67, 0.73, 因此本文中抽取的27个特征对“Member-Collection(E2, E1)”这种关系的效果最好。此外, 决策树模型对“Entity-Destination (E1, E2)”类型关系的查准率、查全率和F1值分别为0.67, 0.65和0.66, 而对“Entity-Destination(E2, E1)”类型关系的查准率、查全率和F1值为0.00的原因是数据集中训练样本和测试样本太少, 不能够全面捕捉该类关系的特征。对于“Other”类型关系而言, 虽然数据集中的样本数量达到17.36%, 但是由于该类型关系情况复杂, 所以其的查准率、查全率和F1值不是很高。

表4   各类关系的分类效果

   

关系类型序号PRF1
10.350.300.32
20.510.460.49
30.670.730.70
40.430.310.36
50.690.490.57
60.380.300.33
70.000.000.00
80.670.650.66
90.420.420.42
100.300.300.30
110.200.200.20
120.390.400.39
130.610.640.62
140.610.560.58
150.070.140.09
160.280.300.29
170.620.610.61
180.610.680.65
190.280.310.29

新窗口打开

4.4 特征排序

本文使用Weka中的ReliefFAttributeEval[21]算法进行特征排序, 该算法对特征进行排序的思路是: 对于某个特征a, 给出一个样本A, 与样本A同类的样本中距离最近的为样本B, 与样本A异类的样本中距离最近的为样本C, 评估特征$a$的值时需要考虑样本B的特征a值和样本C的特征$a$值。27种特征排序结果及其所属类型如表5所示。可以看出, 前10个特征中有3个是语法级别特征, 6个是词汇级别特征, 1个是词嵌入级别特征, 词汇级别特征信息量更大。其中前3个分别是实体E2的依存词DE2、实体E1的首单词HE1和实体E2的首单词HE2, 这与实体间关系与两个实体本身关系密切相吻合, 并且依存关系在实体关系抽取中发挥重要作用。

表5   特征排序结果

   

排序特征分数特征类型
1DE20.0178语法特征
2HE10.0152词汇特征
3HE20.0104词汇特征
4BNULL0.0081词汇特征
5R20.0078语法特征
6BW0.0056词汇特征
7DE10.0053语法特征
8BL0.0051词汇特征
9BF0.0049词汇特征
10WE10.0045词嵌入特征
11POS20.0040语法特征
12R10.0037语法特征
13POS10.0031语法特征
14POSD20.0031语法特征
15D(E1, E2)0.0030词嵌入特征
16WE20.0027词嵌入特征
17POSD10.0023语法特征
18E2S0.0022词汇特征
19WE120.0015词嵌入特征
20E1F0.0012词汇特征
21E2F0.0010词汇特征
22E2T0.0009词汇特征
23E1T0.0003词汇特征
24BE0.0002词汇特征
25BO-0.0008词汇特征
26S(E1, E2)-0.0009词嵌入特征
27E1S-0.0032词汇特征

新窗口打开

4.5 结合有效特征子集的关系抽取实验

特征选择旨在选择能够代表全部特征的有效特征子集, 本文使用Weka中的CfsSubsetEval[22]算法进行特征选择。该算法假设有用的特征子集应该包含那些能够预测分类但彼此间不相关的特征, 其构建特征子集的过程是: 对于与类别标签相关度最高的特征, 只要子集中不包含与它相关度高的特征, 则将它添加到特征子集中, 迭代处理每一个特征。其优先选择与类别标签相关度高而特征之间相关度低的特征, 通过考虑各个特征的分类能力以及特征之间的冗余度, 评估特征子集的价值。经过分析得到$D({{E}_{1}},{{E}_{2}})$、${{E}_{1}}T$、BEPOS2POSD2R2、$S({{E}_{1}},{{E}_{2}})$、BWBNULL、$W{{E}_{1}}$、$W{{E}_{2}}$、$W{{E}_{12}}$作为全部特征的特征子集。为了调查该特征子集对关系分类任务的作用效果, 使用上述12个特征作为全部特征的特征子集, 训练朴素贝叶斯模型、决策树模型和随机森林模型三种分类器, 实验的查准率P、查全率RF1值如表6所示。

表6   使用特征子集的关系分类效果

   

分类器PRF1
朴素贝叶斯模型0.160.160.13
决策树模型0.440.430.43
随机森林模型0.380.380.37

新窗口打开

表6可以看出, 对于决策树模型, 仅仅使用上述特征子集分类器的${{F}_{1}}$值也可以达到0.43, 与使用全部特征的${{F}_{1}}$值相差不大, 这说明以上12种特征可以作为全部特征的有效特征子集, 代表27个特征完成实体关系抽取工作。另一方面, 上述特征子集中有5种是词嵌入表示级别特征, 4种词汇级别特征, 3种语法级别特征, 这说明本文提出的词嵌入表示级别特征在关系抽取任务中发挥了重要作用, 同时说明本文所选取的三类特征均有效。

5 结 语

本文融合词嵌入表示特征研究实体关系抽取问题, 首先将实体用词嵌入方式表示成带有语义信息的低维实值向量, 然后从数据集中抽取词嵌入表示级别、词汇级别和语法级别三类特征, 最后将实体关系抽取转化为分类问题处理, 对比朴素贝叶斯模型、决策树模型和随机森林模型三种分类器的关系抽取效果。实验结果表明综合考虑所有特征时决策树算法的效果最佳, 特征排序结果发现词汇级别特征信息量大, 依存关系有助于关系抽取, 并且利用特征选择算法选择出全部特征的最优特征子集, 说明本文选取的三类特征的有效性, 且词嵌入表示级别特征在实体关系抽取问题中可以发挥重要作用。

本文的不足之处在于对小样本量的关系类型和语法规则复杂的关系类型存在误判情况。今后的研究将考虑增加上述两种类型的样本数量, 同时优化词向量训练的相关参数, 从而提高整体识别效果。

作者贡献声明:

张琴: 提出研究思路, 设计研究方案, 采集、清洗和分析数据, 进行实验, 起草论文;

郭红梅: 采集、清洗和分析数据, 论文修改;

张智雄: 论文修改及最终版本修订。

利益冲突声明

所有作者声明不存在利益冲突关系。

支撑数据

支撑数据由作者自存储, E-mail: qinzhang.zq@foxmail.com。

[1] 张琴. train_test.txt. 实体关系抽取特征集.

[2] 张琴. train.arff. 实体关系抽取特征训练集.

[3] 张琴. test.arff. 实体关系抽取特征测试集.


参考文献

[1] Bunescu R C, Mooney R J.

Subsequence Kernels for Relation Extraction

[C]//Proceeding of the 18th International Conference on Neural Information Processing Systems. Cambridge, USA: MIT Press, 2005: 171-178.

[本文引用: 2]     

[2] Zelenko D, Aone C, Richardella A.

Kernel Methods for Relation Extraction

[J]. The Journal of Machine Learning Research, 2003, 3(3): 1083-1106.

https://doi.org/10.3115/1118693.1118703      URL      [本文引用: 1]      摘要

We present an application of kernel methods to extracting relations from unstructured natural language sources. We introduce kernels defined over shallow parse representations of text, and design efficient algorithms for computing the kernels. We use the devised kernels in conjunction with Support Vector Machine and Voted Perceptron learning algorithms for the task of extracting person-affiliation and organization-location relations from text. We experimentally evaluate the proposed methods and compare them with feature-based learning algorithms, with promising results.
[3] Culotta A, Sorensen J.

Dependency Tree Kernels for Relation Extraction

[C]//Proceedings of the 42nd Annual Meeting on Association for Computational Linguistics. USA: ACL, 2004: 423-429.

[本文引用: 1]     

[4] Bunescu R C, Mooney R J.

A Shortest Path Dependency Kernel for Relation Extraction

[C]// Proceedings of the Conference on Human Language Technology and Empirical Methods in Natural Language Processing. USA: ACL, 2005: 724-731.

[本文引用: 1]     

[5] 郭剑毅, 陈鹏, 余正涛, .

基于多核融合的中文领域实体关系抽取

[J]. 中文信息学报, 2016, 30(1): 24-29.

URL      Magsci      [本文引用: 2]      摘要

针对传统径向基核函数的训练矩阵中所有元素都十分接近零而不利于分类的问题,该文提出了一种融合了改进的径向基核函数及其他核函数的多核融合中文领域实体关系抽取方法。利用径向基核函数的数学特性,提出一种改进的训练矩阵,使训练矩阵中的向量离散化,并以此改进的径向基核函数融合多项式核函数及卷积树核函数,通过枚举的方式寻找最优的复合核函数参数,并以上述多核融合方法与支持向量机结合进行中文领域实体关系抽取。在旅游领域的语料上测试,相对于单一核方法及传统多核融合方法,关系抽取性能得到提高。<br>

(Guo Jianyi, Chen Peng, Yu Zhengtao, et al.

Domain Specific Chinese Semantic Relation Extraction Based on Composite Kernel

[J]. Journal of Chinese Information Processing, 2016, 30(1): 24-29.)

URL      Magsci      [本文引用: 2]      摘要

针对传统径向基核函数的训练矩阵中所有元素都十分接近零而不利于分类的问题,该文提出了一种融合了改进的径向基核函数及其他核函数的多核融合中文领域实体关系抽取方法。利用径向基核函数的数学特性,提出一种改进的训练矩阵,使训练矩阵中的向量离散化,并以此改进的径向基核函数融合多项式核函数及卷积树核函数,通过枚举的方式寻找最优的复合核函数参数,并以上述多核融合方法与支持向量机结合进行中文领域实体关系抽取。在旅游领域的语料上测试,相对于单一核方法及传统多核融合方法,关系抽取性能得到提高。<br>
[6] Xiang Y, Wang X L, Zhang Y Y, et al.

Distant Supervision for Relation Extraction via Group Selection

[C]// Proceedings of the 22nd International Conference on Neural Information Processing (Part II). USA: Springer, 2015: 250-258.

[本文引用: 1]     

[7] Mintz M, Bills S, Snow R, et al.

Distant Supervision for Relation Extraction Without Labeled Data

[C]// Proceedings of the Joint Conference of the 47th Annual Meeting of the ACL and the 4th International Joint Conference on Natural Language Processing of the AFNLP. USA: ACL, 2009: 1003-1011.

[本文引用: 1]     

[8] Banko M, Cafarella M J, Soderland S, et al.

Open Information Extraction from the Web

[C]// Proceedings of the 20th International Joint Conference on Artificial Intelligence. USA: Morgan Kaufmann Publishers, 2007: 2670-2676.

[本文引用: 1]     

[9] Wu F, Weld D S.

Open Information Extraction Using Wikipedia

[C]// Proceedings of the 48th Annual Meeting of the Association for Computational Linguistics. USA: ACL, 2010: 118-127.

[本文引用: 1]     

[10] Fader A, Soderland S, Etzioni O.

Identifying Relations for Open Information Extraction

[C]// Proceedings of the Conference on Empirical Methods in Natural Language Processing. USA: ACL, 2011: 1535-1545.

[本文引用: 1]     

[11] Kambhatla N.

Combining Lexical, Syntactic and Semantic Features with Maximum Entropy Models for Extracting Relations

[C]// Proceedings of the ACL 2004 on Interactive Poster and Demonstration Sessions. USA: ACL, 2004: Article No. 22.

[本文引用: 1]     

[12] Zhou G D, Su J, Zhang J, et al.

Exploring Various Knowledge in Relation Extraction

[C]// Proceedings of the 43rd Annual Meeting on Association for Computational Linguistics. USA: ACL, 2005: 427-434.

[本文引用: 1]     

[13] 高俊平, 张晖, 赵旭剑, .

面向维基百科的领域知识演化关系抽取

[J]. 计算机学报, 2016, 39(10): 2088-2101.

URL      [本文引用: 1]     

(Gao Junping, Zhang Hui, Zhao Xujian, et al.

Evolutionary Relation Extraction for Domain Knowledge in Wikipedia

[J]. Chinese Journal of Computers, 2016, 39(10): 2088-2101.)

URL      [本文引用: 1]     

[14] 甘丽新, 万常选, 刘德喜, .

基于句法语义特征的中文实体关系抽取

[J].计算机研究与发展, 2016, 53(2): 284-302.

https://doi.org/10.7544/issn1000-1239.2016.20150842      URL      Magsci      [本文引用: 1]      摘要

作为语义网络和本体的基础,实体关系抽取已被广泛应用于信息检索、机器翻译和自动问答系统中.实体关系抽取的核心问题在于实体关系特征的选择和提取.中文长句的句式较复杂,经常包含多个实体的特点以及数据稀疏问题,给中文关系探测和关系抽取任务带了挑战.为了解决上述问题,提出了一种基于句法语义特征的实体关系抽取方法.通过将2个实体各自的依存句法关系进行组合,获取依存句法关系组合特征,利用依存句法分析和词性标注选择最近句法依赖动词特征.将这2个新特征加入到基于特征的关系探测和关系抽取中,使用支持向量机(support vector machine, SVM)方法,以真实旅游领域文本作为语料进行实验.实验表明,从句法和语义上提取的2个特征能够有效地提高实体关系探测和关系抽取的性能,其准确率、召回率和F1值均优于已有方法.此外,最近句法依赖动词特征非常有效,尤其对数据稀疏的关系类型贡献最大,在关系探测和关系抽取上的性能均优于当前经典的基于动词特征方法.

(Gan Lixin, Wan Changxuan, Liu Dexi, et al.

Chinese Named Entity Relation Extraction Based on Syntactic and Semantic Features

[J]. Journal of Computer Research and Development, 2016, 53(2): 284-302.

https://doi.org/10.7544/issn1000-1239.2016.20150842      URL      Magsci      [本文引用: 1]      摘要

作为语义网络和本体的基础,实体关系抽取已被广泛应用于信息检索、机器翻译和自动问答系统中.实体关系抽取的核心问题在于实体关系特征的选择和提取.中文长句的句式较复杂,经常包含多个实体的特点以及数据稀疏问题,给中文关系探测和关系抽取任务带了挑战.为了解决上述问题,提出了一种基于句法语义特征的实体关系抽取方法.通过将2个实体各自的依存句法关系进行组合,获取依存句法关系组合特征,利用依存句法分析和词性标注选择最近句法依赖动词特征.将这2个新特征加入到基于特征的关系探测和关系抽取中,使用支持向量机(support vector machine, SVM)方法,以真实旅游领域文本作为语料进行实验.实验表明,从句法和语义上提取的2个特征能够有效地提高实体关系探测和关系抽取的性能,其准确率、召回率和F1值均优于已有方法.此外,最近句法依赖动词特征非常有效,尤其对数据稀疏的关系类型贡献最大,在关系探测和关系抽取上的性能均优于当前经典的基于动词特征方法.
[15] Mikolov T, Sutskever I, Chen K, et al.

Distributed Representations of Words and Phrases and Their Compositionality

[J]. Advances in Neural Information Processing Systems, 2013, 26: 3111-3119.

URL      [本文引用: 3]      摘要

Abstract: The recently introduced continuous Skip-gram model is an efficient method for learning high-quality distributed vector representations that capture a large number of precise syntactic and semantic word relationships. In this paper we present several extensions that improve both the quality of the vectors and the training speed. By subsampling of the frequent words we obtain significant speedup and also learn more regular word representations. We also describe a simple alternative to the hierarchical softmax called negative sampling. An inherent limitation of word representations is their indifference to word order and their inability to represent idiomatic phrases. For example, the meanings of "Canada" and "Air" cannot be easily combined to obtain "Air Canada". Motivated by this example, we present a simple method for finding phrases in text, and show that learning good vector representations for millions of phrases is possible.
[16] Bengio Y, Ducharme R, Vincent P, et al.

A Neural Probabilistic Language Model

[J]. Journal of Machine Learning Research, 2003, 3(6): 1137-1155.

https://doi.org/10.1007/3-540-33486-6_6      URL      [本文引用: 1]      摘要

A central goal of statistical language modeling is to learn the joint probability function of sequences of words in a language. This is intrinsically difficult because of the curse of dimensionality : a word sequence on which the model will be tested is likely to be different from all the word sequences seen during training. Traditional but very successful approaches based on n-grams obtain generalization by concatenating very short overlapping sequences seen in the training set. We propose to fight the curse of dimensionality by learning a distributed representation for words which allows each training sentence to inform the model about an exponential number of semantically neighboring sentences. Generalization is obtained because a sequence of words that has never been seen before gets high probability if it is made of words that are similar (in the sense of having a nearby representation) to words forming an already seen sentence. Training such large models (with millions of parameters) within a reasonable time is itself a significant challenge. We report on several methods to speed-up both training and probability computation, as well as comparative experiments to evaluate the improvements brought by these techniques. We finally describe the incorporation of this new language model into a state-of-the-art speech recognizer of conversational speech.
[17] Mikolov T, Kombrink S, Burget L.

Extensions of Recurrent Neural Network Language Model

[C]// Proceedings of 2011 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP). USA: IEEE, 2010: 1045-1048.

[本文引用: 1]     

[18] GitHub [EB/OL]. [2017-05-16]..

URL      [本文引用: 1]     

[19]

Google Code

[EB/OL]. [2017-05-16]. .

URL      [本文引用: 1]     

[20]

The Stanford Natural Language Group

[EB/OL]. [2017-05- 16]. .

URL      [本文引用: 1]     

[21] Kononenko I.

Estimating Attributes: Analysis and Extensions of RELIEF

[C]// Proceedings of the European Conference on Machine Learning. USA: Springer, 1994: 171-182.

[本文引用: 1]     

[22] Hall M A.

Correlation-based Feature Subset Selection for Machine Learning

[D]. New Zealand: The University of Waikato, 1998.

[本文引用: 1]     

版权所有 © 2015 《数据分析与知识发现》编辑部
地址:北京市海淀区中关村北四环西路33号 邮编:100190
电话/传真:(010)82626611-6626,82624938
E-mail:jishu@mail.las.ac.cn

/