Please wait a minute...
Advanced Search
数据分析与知识发现  2017, Vol. 1 Issue (9): 8-15    DOI: 10.11925/infotech.2096-3467.2017.09.01
  研究论文 本期目录 | 过刊浏览 | 高级检索 |
融合词嵌入表示特征的实体关系抽取方法研究*
张琴1,2(),郭红梅1,张智雄1,3
1中国科学院文献情报中心 北京 100190
2中国科学院大学 北京 100049
3中国科学院武汉文献情报中心 武汉 430071
Extracting Entity Relationship with Word Embedding Representation Features
Qin Zhang1,2(),Hongmei Guo1,Zhixiong Zhang1,3
1National Science Library, Chinese Academy of Sciences, Beijing 100190, China
2University of Chinese Academy of Sciences, Beijing 100049, China
3Wuhan Documentation and Information Center, Chinese Academy of Sciences, Wuhan 430071, China
全文: PDF(464 KB)   HTML
输出: BibTeX | EndNote (RIS)      
摘要 

目的】为解决已有方法中单词特征表示不具有语义信息这一问题, 对词嵌入表示特征在关系抽取中的作用进行探讨。【方法】考虑词嵌入表示级别、词汇级别和语法级别三种类型特征, 利用朴素贝叶斯模型、决策树模型和随机森林模型进行对比实验, 并选出代表全部特征的有效特征子集。【结果】使用全部特征时, 决策树算法的准确率达到0.48, 关系抽取效果最佳, Member-Collection(E2,E1)类型关系的F1值达到0.70, 特征排序结果表明依存关系有助于关系抽取。【局限】对小样本量和情况复杂的关系类型识别效果有待提高, 以及词向量训练及方法的相关参数需要进一步优化。【结论】实验证明选取的三种类型特征的有效性, 词嵌入表示级别特征在实体关系抽取问题中可以发挥重要作用。

服务
把本文推荐给朋友
加入引用管理器
E-mail Alert
RSS
作者相关文章
张琴
郭红梅
张智雄
关键词 关系抽取词嵌入表示Word2Vec    
Abstract

[Objective] This study explores the word embedding representation features for entity relationship extraction, aiming to add semantic message to the existing methods. [Methods] First, we used the feature characteristics at word embedding representation, the vocabulary and the grammar levels to extract relations using Naive Bayesian, Decision Tree and Random Forest models. Then, we obtained the optimal subset of the full features. [Results] The accuracy of the Decision Tree algorithm was 0.48 with full features, which was the best. The F1 score of Member-Collection (E2, E1) was 0.70, and the dependency could help us extract the relations. [Limitations] We need to improve the relation extraction results with small sample size and complex situation. The word vector training method could be further optimized. [Conclusions] This study proves the effectiveness of three types of features. And the word embedding representation level feature plays an important role to extract relations.

Key wordsRelation Extraction    Word Embedding Representation    Word2Vec
收稿日期: 2017-06-15     
基金资助:*本文系ISTIC-EBSCO文献大数据发现服务联合实验室基金项目“基于clique子团聚类的文本主题识别方法研究”的研究成果之一
引用本文:   
张琴,郭红梅,张智雄. 融合词嵌入表示特征的实体关系抽取方法研究*[J]. 数据分析与知识发现, 2017, 1(9): 8-15.
Qin Zhang,Hongmei Guo,Zhixiong Zhang. Extracting Entity Relationship with Word Embedding Representation Features. Data Analysis and Knowledge Discovery, DOI:10.11925/infotech.2096-3467.2017.09.01.
链接本文:  
http://manu44.magtech.com.cn/Jwk_infotech_wk3/CN/10.11925/infotech.2096-3467.2017.09.01
特征类别 特征 特征描述
词汇 HE1 实体E1的首单词
HE2 实体E2的首单词
BNULL 当实体间没有单词时, 取值为1, 否则为-1
BO 当实体间仅有一个单词时, 取值为该单词, 否则为-1
BF 当实体间至少有两个单词时, 实体间的第一个单词
BL 当实体间至少有两个单词时, 实体间的最后一个单词
E1F 实体E1之前的第一个单词
E1S 实体E1之前的第二个单词
E2F 实体E2之后的第一个单词
E2S 实体E2之后的第二个单词
类型 E1T 实体E1的类型
E2T 实体E2的类型
数量 BE 两个实体之间的实体数量
BW 两个实体之间的单词数量
表1  词汇级别特征及其描述
序号 关系类型 样本数量 占比
(%)
训练集 测试集 总和
1 Component-Whole(E2, E1) 472 150 622 5.80
2 Component-Whole(E1, E2) 470 162 632 5.90
3 Member-Collection(E2, E1) 612 201 813 7.59
4 Member-Collection(E1, E2) 78 32 110 1.03
5 Entity-Origin(E1, E2) 568 211 779 7.27
6 Entity-Origin(E2, E1) 148 47 195 1.82
7 Entity-Destination(E2, E1) 1 1 2 0.02
8 Entity-Destination(E1, E2) 844 291 1 135 10.59
9 Product-Producer(E1, E2) 323 108 431 4.02
10 Product-Producer(E2, E1) 396 123 519 4.84
11 Message-Topic(E2, E1) 144 51 195 1.82
12 Message-Topic(E1, E2) 490 210 700 6.53
13 Content-Container(E2, E1) 166 39 205 1.91
14 Content-Container(E1, E2) 374 153 527 4.92
15 Instrument-Agency(E1, E2) 97 22 119 1.11
16 Instrument-Agency(E2, E1) 407 134 541 5.05
17 Cause-Effect(E1, E2) 344 134 478 4.46
18 Cause-Effect(E2, E1) 659 194 853 7.96
19 Other 1 407 454 1 861 17.36
表2  SemEval-2010 task8数据集中关系类型及其比例
分类器 P R F1
朴素贝叶斯模型 0.21 0.21 0.15
决策树模型 0.48 0.47 0.47
随机森林模型 0.45 0.45 0.44
表3  分类器的分类效果
关系类型序号 P R F1
1 0.35 0.30 0.32
2 0.51 0.46 0.49
3 0.67 0.73 0.70
4 0.43 0.31 0.36
5 0.69 0.49 0.57
6 0.38 0.30 0.33
7 0.00 0.00 0.00
8 0.67 0.65 0.66
9 0.42 0.42 0.42
10 0.30 0.30 0.30
11 0.20 0.20 0.20
12 0.39 0.40 0.39
13 0.61 0.64 0.62
14 0.61 0.56 0.58
15 0.07 0.14 0.09
16 0.28 0.30 0.29
17 0.62 0.61 0.61
18 0.61 0.68 0.65
19 0.28 0.31 0.29
表4  各类关系的分类效果
排序 特征 分数 特征类型
1 DE2 0.0178 语法特征
2 HE1 0.0152 词汇特征
3 HE2 0.0104 词汇特征
4 BNULL 0.0081 词汇特征
5 R2 0.0078 语法特征
6 BW 0.0056 词汇特征
7 DE1 0.0053 语法特征
8 BL 0.0051 词汇特征
9 BF 0.0049 词汇特征
10 WE1 0.0045 词嵌入特征
11 POS2 0.0040 语法特征
12 R1 0.0037 语法特征
13 POS1 0.0031 语法特征
14 POSD2 0.0031 语法特征
15 D(E1, E2) 0.0030 词嵌入特征
16 WE2 0.0027 词嵌入特征
17 POSD1 0.0023 语法特征
18 E2S 0.0022 词汇特征
19 WE12 0.0015 词嵌入特征
20 E1F 0.0012 词汇特征
21 E2F 0.0010 词汇特征
22 E2T 0.0009 词汇特征
23 E1T 0.0003 词汇特征
24 BE 0.0002 词汇特征
25 BO -0.0008 词汇特征
26 S(E1, E2) -0.0009 词嵌入特征
27 E1S -0.0032 词汇特征
表5  特征排序结果
分类器 P R F1
朴素贝叶斯模型 0.16 0.16 0.13
决策树模型 0.44 0.43 0.43
随机森林模型 0.38 0.38 0.37
表6  使用特征子集的关系分类效果
[1] Bunescu R C, Mooney R J.Subsequence Kernels for Relation Extraction[C]//Proceeding of the 18th International Conference on Neural Information Processing Systems. Cambridge, USA: MIT Press, 2005: 171-178.
[2] Zelenko D, Aone C, Richardella A.Kernel Methods for Relation Extraction[J]. The Journal of Machine Learning Research, 2003, 3(3): 1083-1106.
doi: 10.3115/1118693.1118703
[3] Culotta A, Sorensen J.Dependency Tree Kernels for Relation Extraction[C]//Proceedings of the 42nd Annual Meeting on Association for Computational Linguistics. USA: ACL, 2004: 423-429.
[4] Bunescu R C, Mooney R J.A Shortest Path Dependency Kernel for Relation Extraction[C]// Proceedings of the Conference on Human Language Technology and Empirical Methods in Natural Language Processing. USA: ACL, 2005: 724-731.
[5] 郭剑毅, 陈鹏, 余正涛, 等. 基于多核融合的中文领域实体关系抽取[J]. 中文信息学报, 2016, 30(1): 24-29.
(Guo Jianyi, Chen Peng, Yu Zhengtao, et al.Domain Specific Chinese Semantic Relation Extraction Based on Composite Kernel[J]. Journal of Chinese Information Processing, 2016, 30(1): 24-29.)
[6] Xiang Y, Wang X L, Zhang Y Y, et al.Distant Supervision for Relation Extraction via Group Selection[C]// Proceedings of the 22nd International Conference on Neural Information Processing (Part II). USA: Springer, 2015: 250-258.
[7] Mintz M, Bills S, Snow R, et al.Distant Supervision for Relation Extraction Without Labeled Data[C]// Proceedings of the Joint Conference of the 47th Annual Meeting of the ACL and the 4th International Joint Conference on Natural Language Processing of the AFNLP. USA: ACL, 2009: 1003-1011.
[8] Banko M, Cafarella M J, Soderland S, et al.Open Information Extraction from the Web[C]// Proceedings of the 20th International Joint Conference on Artificial Intelligence. USA: Morgan Kaufmann Publishers, 2007: 2670-2676.
[9] Wu F, Weld D S.Open Information Extraction Using Wikipedia[C]// Proceedings of the 48th Annual Meeting of the Association for Computational Linguistics. USA: ACL, 2010: 118-127.
[10] Fader A, Soderland S, Etzioni O.Identifying Relations for Open Information Extraction[C]// Proceedings of the Conference on Empirical Methods in Natural Language Processing. USA: ACL, 2011: 1535-1545.
[11] Kambhatla N. Combining Lexical, Syntactic and Semantic Features with Maximum Entropy Models for Extracting Relations [C]// Proceedings of the ACL 2004 on Interactive Poster and Demonstration Sessions. USA: ACL, 2004: Article No. 22.
[12] Zhou G D, Su J, Zhang J, et al.Exploring Various Knowledge in Relation Extraction[C]// Proceedings of the 43rd Annual Meeting on Association for Computational Linguistics. USA: ACL, 2005: 427-434.
[13] 高俊平, 张晖, 赵旭剑, 等. 面向维基百科的领域知识演化关系抽取[J]. 计算机学报, 2016, 39(10): 2088-2101.
(Gao Junping, Zhang Hui, Zhao Xujian, et al.Evolutionary Relation Extraction for Domain Knowledge in Wikipedia[J]. Chinese Journal of Computers, 2016, 39(10): 2088-2101.)
[14] 甘丽新, 万常选, 刘德喜, 等. 基于句法语义特征的中文实体关系抽取[J].计算机研究与发展, 2016, 53(2): 284-302.
doi: 10.7544/issn1000-1239.2016.20150842
(Gan Lixin, Wan Changxuan, Liu Dexi, et al.Chinese Named Entity Relation Extraction Based on Syntactic and Semantic Features[J]. Journal of Computer Research and Development, 2016, 53(2): 284-302.
[15] Mikolov T, Sutskever I, Chen K, et al.Distributed Representations of Words and Phrases and Their Compositionality[J]. Advances in Neural Information Processing Systems, 2013, 26: 3111-3119.
[16] Bengio Y, Ducharme R, Vincent P, et al.A Neural Probabilistic Language Model[J]. Journal of Machine Learning Research, 2003, 3(6): 1137-1155.
doi: 10.1007/3-540-33486-6_6
[17] Mikolov T, Kombrink S, Burget L.Extensions of Recurrent Neural Network Language Model[C]// Proceedings of 2011 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP). USA: IEEE, 2010: 1045-1048.
[18] GitHub [EB/OL]. [2017-05-16]..
[19] Google Code [EB/OL]. [2017-05-16]. .
[20] The Stanford Natural Language Group [EB/OL]. [2017-05- 16]. .
[21] Kononenko I.Estimating Attributes: Analysis and Extensions of RELIEF[C]// Proceedings of the European Conference on Machine Learning. USA: Springer, 1994: 171-182.
[22] Hall M A.Correlation-based Feature Subset Selection for Machine Learning [D]. New Zealand: The University of Waikato, 1998.
[1] 高永兵,杨贵朋,张娣,马占飞. 基于突显词博文聚类的官微事件检测方法*[J]. 数据分析与知识发现, 2017, 1(9): 57-64.
[2] 夏天. 词向量聚类加权TextRank的关键词抽取*[J]. 数据分析与知识发现, 2017, 1(2): 28-34.
[3] 罗文馨,陈翀,邓思艺. 基于Word2Vec及大众健康信息源的疾病关联探测[J]. 现代图书情报技术, 2016, 32(9): 78-87.
[4] 宁建飞,刘降珍. 融合Word2vec与TextRank的关键词抽取研究[J]. 现代图书情报技术, 2016, 32(6): 20-27.
[5] 王秀艳, 崔雷. 采用混合方法抽取生物医学实体间语义关系[J]. 现代图书情报技术, 2013, 29(3): 77-82.
[6] 黄勋, 游宏梁, 于洋. 关系抽取技术研究综述[J]. 现代图书情报技术, 2013, 29(11): 30-39.
[7] 谷俊, 许鑫. 中文专利中本体关系获取研究[J]. 现代图书情报技术, 2013, 29(10): 73-78.
[8] 王秀艳, 崔雷. 应用关键动词抽取生物医学实体间语义关系研究综述[J]. 现代图书情报技术, 2011, 27(9): 21-27.
[9] Miao Chen,Xiaozhong Liu,Jian Qin . 从社会性标签中进行语义关系抽取——一种元数据生成方法[J]. 现代图书情报技术, 2009, 3(3): 38-45.
[10] 傅继彬,刘杰,贾可亮,毛金涛. 基于知网和术语相关度的本体关系抽取研究*[J]. 现代图书情报技术, 2008, 24(9): 36-40.
[11] 徐健,张智雄,吴振新. 实体关系抽取的技术方法综述*[J]. 现代图书情报技术, 2008, 24(8): 18-23.
Viewed
Full text


Abstract

Cited

  Shared   
  Discussed   
版权所有 © 2015 《数据分析与知识发现》编辑部
地址:北京市海淀区中关村北四环西路33号 邮编:100190
电话/传真:(010)82626611-6626,82624938
E-mail:jishu@mail.las.ac.cn