Please wait a minute...
Advanced Search
数据分析与知识发现  2017, Vol. 1 Issue (9): 8-15     https://doi.org/10.11925/infotech.2096-3467.2017.09.01
  研究论文 本期目录 | 过刊浏览 | 高级检索 |
融合词嵌入表示特征的实体关系抽取方法研究*
张琴1,2(), 郭红梅1, 张智雄1,3
1中国科学院文献情报中心 北京 100190
2中国科学院大学 北京 100049
3中国科学院武汉文献情报中心 武汉 430071
Extracting Entity Relationship with Word Embedding Representation Features
Zhang Qin1,2(), Guo Hongmei1, Zhang Zhixiong1,3
1National Science Library, Chinese Academy of Sciences, Beijing 100190, China
2University of Chinese Academy of Sciences, Beijing 100049, China
3Wuhan Documentation and Information Center, Chinese Academy of Sciences, Wuhan 430071, China
全文: PDF (464 KB)   HTML ( 9
输出: BibTeX | EndNote (RIS)      
摘要 

目的】为解决已有方法中单词特征表示不具有语义信息这一问题, 对词嵌入表示特征在关系抽取中的作用进行探讨。【方法】考虑词嵌入表示级别、词汇级别和语法级别三种类型特征, 利用朴素贝叶斯模型、决策树模型和随机森林模型进行对比实验, 并选出代表全部特征的有效特征子集。【结果】使用全部特征时, 决策树算法的准确率达到0.48, 关系抽取效果最佳, Member-Collection(E2,E1)类型关系的F1值达到0.70, 特征排序结果表明依存关系有助于关系抽取。【局限】对小样本量和情况复杂的关系类型识别效果有待提高, 以及词向量训练及方法的相关参数需要进一步优化。【结论】实验证明选取的三种类型特征的有效性, 词嵌入表示级别特征在实体关系抽取问题中可以发挥重要作用。

服务
把本文推荐给朋友
加入引用管理器
E-mail Alert
RSS
作者相关文章
张琴
郭红梅
张智雄
关键词 关系抽取词嵌入表示Word2Vec    
Abstract

[Objective] This study explores the word embedding representation features for entity relationship extraction, aiming to add semantic message to the existing methods. [Methods] First, we used the feature characteristics at word embedding representation, the vocabulary and the grammar levels to extract relations using Naive Bayesian, Decision Tree and Random Forest models. Then, we obtained the optimal subset of the full features. [Results] The accuracy of the Decision Tree algorithm was 0.48 with full features, which was the best. The F1 score of Member-Collection (E2, E1) was 0.70, and the dependency could help us extract the relations. [Limitations] We need to improve the relation extraction results with small sample size and complex situation. The word vector training method could be further optimized. [Conclusions] This study proves the effectiveness of three types of features. And the word embedding representation level feature plays an important role to extract relations.

Key wordsRelation Extraction    Word Embedding Representation    Word2Vec
收稿日期: 2017-06-15      出版日期: 2017-10-18
ZTFLH:  TP393  
基金资助:*本文系ISTIC-EBSCO文献大数据发现服务联合实验室基金项目“基于clique子团聚类的文本主题识别方法研究”的研究成果之一
引用本文:   
张琴, 郭红梅, 张智雄. 融合词嵌入表示特征的实体关系抽取方法研究*[J]. 数据分析与知识发现, 2017, 1(9): 8-15.
Zhang Qin,Guo Hongmei,Zhang Zhixiong. Extracting Entity Relationship with Word Embedding Representation Features. Data Analysis and Knowledge Discovery, 2017, 1(9): 8-15.
链接本文:  
https://manu44.magtech.com.cn/Jwk_infotech_wk3/CN/10.11925/infotech.2096-3467.2017.09.01      或      https://manu44.magtech.com.cn/Jwk_infotech_wk3/CN/Y2017/V1/I9/8
特征类别 特征 特征描述
词汇 HE1 实体E1的首单词
HE2 实体E2的首单词
BNULL 当实体间没有单词时, 取值为1, 否则为-1
BO 当实体间仅有一个单词时, 取值为该单词, 否则为-1
BF 当实体间至少有两个单词时, 实体间的第一个单词
BL 当实体间至少有两个单词时, 实体间的最后一个单词
E1F 实体E1之前的第一个单词
E1S 实体E1之前的第二个单词
E2F 实体E2之后的第一个单词
E2S 实体E2之后的第二个单词
类型 E1T 实体E1的类型
E2T 实体E2的类型
数量 BE 两个实体之间的实体数量
BW 两个实体之间的单词数量
  词汇级别特征及其描述
序号 关系类型 样本数量 占比
(%)
训练集 测试集 总和
1 Component-Whole(E2, E1) 472 150 622 5.80
2 Component-Whole(E1, E2) 470 162 632 5.90
3 Member-Collection(E2, E1) 612 201 813 7.59
4 Member-Collection(E1, E2) 78 32 110 1.03
5 Entity-Origin(E1, E2) 568 211 779 7.27
6 Entity-Origin(E2, E1) 148 47 195 1.82
7 Entity-Destination(E2, E1) 1 1 2 0.02
8 Entity-Destination(E1, E2) 844 291 1 135 10.59
9 Product-Producer(E1, E2) 323 108 431 4.02
10 Product-Producer(E2, E1) 396 123 519 4.84
11 Message-Topic(E2, E1) 144 51 195 1.82
12 Message-Topic(E1, E2) 490 210 700 6.53
13 Content-Container(E2, E1) 166 39 205 1.91
14 Content-Container(E1, E2) 374 153 527 4.92
15 Instrument-Agency(E1, E2) 97 22 119 1.11
16 Instrument-Agency(E2, E1) 407 134 541 5.05
17 Cause-Effect(E1, E2) 344 134 478 4.46
18 Cause-Effect(E2, E1) 659 194 853 7.96
19 Other 1 407 454 1 861 17.36
  SemEval-2010 task8数据集中关系类型及其比例
分类器 P R F1
朴素贝叶斯模型 0.21 0.21 0.15
决策树模型 0.48 0.47 0.47
随机森林模型 0.45 0.45 0.44
  分类器的分类效果
关系类型序号 P R F1
1 0.35 0.30 0.32
2 0.51 0.46 0.49
3 0.67 0.73 0.70
4 0.43 0.31 0.36
5 0.69 0.49 0.57
6 0.38 0.30 0.33
7 0.00 0.00 0.00
8 0.67 0.65 0.66
9 0.42 0.42 0.42
10 0.30 0.30 0.30
11 0.20 0.20 0.20
12 0.39 0.40 0.39
13 0.61 0.64 0.62
14 0.61 0.56 0.58
15 0.07 0.14 0.09
16 0.28 0.30 0.29
17 0.62 0.61 0.61
18 0.61 0.68 0.65
19 0.28 0.31 0.29
  各类关系的分类效果
排序 特征 分数 特征类型
1 DE2 0.0178 语法特征
2 HE1 0.0152 词汇特征
3 HE2 0.0104 词汇特征
4 BNULL 0.0081 词汇特征
5 R2 0.0078 语法特征
6 BW 0.0056 词汇特征
7 DE1 0.0053 语法特征
8 BL 0.0051 词汇特征
9 BF 0.0049 词汇特征
10 WE1 0.0045 词嵌入特征
11 POS2 0.0040 语法特征
12 R1 0.0037 语法特征
13 POS1 0.0031 语法特征
14 POSD2 0.0031 语法特征
15 D(E1, E2) 0.0030 词嵌入特征
16 WE2 0.0027 词嵌入特征
17 POSD1 0.0023 语法特征
18 E2S 0.0022 词汇特征
19 WE12 0.0015 词嵌入特征
20 E1F 0.0012 词汇特征
21 E2F 0.0010 词汇特征
22 E2T 0.0009 词汇特征
23 E1T 0.0003 词汇特征
24 BE 0.0002 词汇特征
25 BO -0.0008 词汇特征
26 S(E1, E2) -0.0009 词嵌入特征
27 E1S -0.0032 词汇特征
  特征排序结果
分类器 P R F1
朴素贝叶斯模型 0.16 0.16 0.13
决策树模型 0.44 0.43 0.43
随机森林模型 0.38 0.38 0.37
  使用特征子集的关系分类效果
[1] Bunescu R C, Mooney R J.Subsequence Kernels for Relation Extraction[C]//Proceeding of the 18th International Conference on Neural Information Processing Systems. Cambridge, USA: MIT Press, 2005: 171-178.
[2] Zelenko D, Aone C, Richardella A.Kernel Methods for Relation Extraction[J]. The Journal of Machine Learning Research, 2003, 3(3): 1083-1106.
doi: 10.3115/1118693.1118703
[3] Culotta A, Sorensen J.Dependency Tree Kernels for Relation Extraction[C]//Proceedings of the 42nd Annual Meeting on Association for Computational Linguistics. USA: ACL, 2004: 423-429.
[4] Bunescu R C, Mooney R J.A Shortest Path Dependency Kernel for Relation Extraction[C]// Proceedings of the Conference on Human Language Technology and Empirical Methods in Natural Language Processing. USA: ACL, 2005: 724-731.
[5] 郭剑毅, 陈鹏, 余正涛, 等. 基于多核融合的中文领域实体关系抽取[J]. 中文信息学报, 2016, 30(1): 24-29.
[5] (Guo Jianyi, Chen Peng, Yu Zhengtao, et al.Domain Specific Chinese Semantic Relation Extraction Based on Composite Kernel[J]. Journal of Chinese Information Processing, 2016, 30(1): 24-29.)
[6] Xiang Y, Wang X L, Zhang Y Y, et al.Distant Supervision for Relation Extraction via Group Selection[C]// Proceedings of the 22nd International Conference on Neural Information Processing (Part II). USA: Springer, 2015: 250-258.
[7] Mintz M, Bills S, Snow R, et al.Distant Supervision for Relation Extraction Without Labeled Data[C]// Proceedings of the Joint Conference of the 47th Annual Meeting of the ACL and the 4th International Joint Conference on Natural Language Processing of the AFNLP. USA: ACL, 2009: 1003-1011.
[8] Banko M, Cafarella M J, Soderland S, et al.Open Information Extraction from the Web[C]// Proceedings of the 20th International Joint Conference on Artificial Intelligence. USA: Morgan Kaufmann Publishers, 2007: 2670-2676.
[9] Wu F, Weld D S.Open Information Extraction Using Wikipedia[C]// Proceedings of the 48th Annual Meeting of the Association for Computational Linguistics. USA: ACL, 2010: 118-127.
[10] Fader A, Soderland S, Etzioni O.Identifying Relations for Open Information Extraction[C]// Proceedings of the Conference on Empirical Methods in Natural Language Processing. USA: ACL, 2011: 1535-1545.
[11] Kambhatla N. Combining Lexical, Syntactic and Semantic Features with Maximum Entropy Models for Extracting Relations [C]// Proceedings of the ACL 2004 on Interactive Poster and Demonstration Sessions. USA: ACL, 2004: Article No. 22.
[12] Zhou G D, Su J, Zhang J, et al.Exploring Various Knowledge in Relation Extraction[C]// Proceedings of the 43rd Annual Meeting on Association for Computational Linguistics. USA: ACL, 2005: 427-434.
[13] 高俊平, 张晖, 赵旭剑, 等. 面向维基百科的领域知识演化关系抽取[J]. 计算机学报, 2016, 39(10): 2088-2101.
[13] (Gao Junping, Zhang Hui, Zhao Xujian, et al.Evolutionary Relation Extraction for Domain Knowledge in Wikipedia[J]. Chinese Journal of Computers, 2016, 39(10): 2088-2101.)
[14] 甘丽新, 万常选, 刘德喜, 等. 基于句法语义特征的中文实体关系抽取[J].计算机研究与发展, 2016, 53(2): 284-302.
doi: 10.7544/issn1000-1239.2016.20150842
[14] (Gan Lixin, Wan Changxuan, Liu Dexi, et al.Chinese Named Entity Relation Extraction Based on Syntactic and Semantic Features[J]. Journal of Computer Research and Development, 2016, 53(2): 284-302.
doi: 10.7544/issn1000-1239.2016.20150842
[15] Mikolov T, Sutskever I, Chen K, et al.Distributed Representations of Words and Phrases and Their Compositionality[J]. Advances in Neural Information Processing Systems, 2013, 26: 3111-3119.
[16] Bengio Y, Ducharme R, Vincent P, et al.A Neural Probabilistic Language Model[J]. Journal of Machine Learning Research, 2003, 3(6): 1137-1155.
doi: 10.1007/3-540-33486-6_6
[17] Mikolov T, Kombrink S, Burget L.Extensions of Recurrent Neural Network Language Model[C]// Proceedings of 2011 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP). USA: IEEE, 2010: 1045-1048.
[18] GitHub [EB/OL]. [2017-05-16]..
[19] Google Code [EB/OL]. [2017-05-16]. .
[20] The Stanford Natural Language Group [EB/OL]. [2017-05- 16]. .
[21] Kononenko I.Estimating Attributes: Analysis and Extensions of RELIEF[C]// Proceedings of the European Conference on Machine Learning. USA: Springer, 1994: 171-182.
[22] Hall M A.Correlation-based Feature Subset Selection for Machine Learning [D]. New Zealand: The University of Waikato, 1998.
[1] 王一钒,李博,史话,苗威,姜斌. 古汉语实体关系联合抽取的标注方法*[J]. 数据分析与知识发现, 2021, 5(9): 63-74.
[2] 马江微, 吕学强, 游新冬, 肖刚, 韩君妹. 融合BERT与关系位置特征的军事领域关系抽取方法*[J]. 数据分析与知识发现, 2021, 5(8): 1-12.
[3] 沈思,李沁宇,叶媛,孙豪,叶文豪. 基于TWE模型的医学科技报告主题挖掘及演化分析研究*[J]. 数据分析与知识发现, 2021, 5(3): 35-44.
[4] 戴志宏, 郝晓玲. 上下位关系抽取方法及其在金融市场的应用*[J]. 数据分析与知识发现, 2021, 5(10): 60-70.
[5] 李跃艳,熊回香,李晓敏. 在线问诊平台中基于组合条件的医生推荐研究*[J]. 数据分析与知识发现, 2020, 4(8): 130-142.
[6] 唐晓波,高和璇. 基于关键词词向量特征扩展的健康问句分类研究 *[J]. 数据分析与知识发现, 2020, 4(7): 66-75.
[7] 叶佳鑫,熊回香,童兆莉,孟秋晴. 在线医疗社区中面向医生的协同标注研究*[J]. 数据分析与知识发现, 2020, 4(6): 118-128.
[8] 岳丽欣,刘自强,胡正银. 面向趋势预测的热点主题演化分析方法研究*[J]. 数据分析与知识发现, 2020, 4(6): 22-34.
[9] 陶兴,张向先,郭顺利,张莉曼. 学术问答社区用户生成内容的W2V-MMR自动摘要方法研究*[J]. 数据分析与知识发现, 2020, 4(4): 109-118.
[10] 叶佳鑫,熊回香,蒋武轩. 一种融合患者咨询文本与决策机理的医生推荐算法*[J]. 数据分析与知识发现, 2020, 4(2/3): 153-164.
[11] 薛福亮,刘丽芳. 一种基于CRF与ATAE-LSTM的细粒度情感分析方法*[J]. 数据分析与知识发现, 2020, 4(2/3): 207-213.
[12] 龚丽娟,王昊,张紫玄,朱立平. Word2Vec对海关报关商品文本特征降维效果分析*[J]. 数据分析与知识发现, 2020, 4(2/3): 89-100.
[13] 吴粤敏,丁港归,胡滨. 基于注意力机制的农业金融文本关系抽取研究*[J]. 数据分析与知识发现, 2019, 3(5): 86-92.
[14] 蒋翠清,郭轶博,刘尧. 基于中文社交媒体文本的领域情感词典构建方法研究*[J]. 数据分析与知识发现, 2019, 3(2): 98-107.
[15] 李心蕾, 王昊, 刘小敏, 邓三鸿. 面向微博短文本分类的文本向量化方法比较研究*[J]. 数据分析与知识发现, 2018, 2(8): 41-50.
Viewed
Full text


Abstract

Cited

  Shared   
  Discussed   
版权所有 © 2015 《数据分析与知识发现》编辑部
地址:北京市海淀区中关村北四环西路33号 邮编:100190
电话/传真:(010)82626611-6626,82624938
E-mail:jishu@mail.las.ac.cn