Please wait a minute...
Advanced Search
数据分析与知识发现  0, Vol. Issue (): 1-     https://doi.org/10.11925/infotech.2020.0299
  本期目录 | 过刊浏览 | 高级检索 |
基于模式和投影学习的领域概念上下位关系自动识别研究
王思丽,祝忠明,杨恒,刘巍
(中国科学院西北生态环境资源研究院文献情报中心 兰州 730000)
(中国科学院大学 北京 100049)
Research on Automatic Identification of Hypernym-Hyponym Relations of Domain Concepts Based on Pattern and Projection Learning
Wang Sili,Zhu Zhongming,Yang Heng,Liu Wei
(Literature and Information Center of Northwest Institute of Eco-Environment and Resources, Chinese Academy of Sciences, Lan Zhou 730000, China)
(University of Chinese Academy of Sciences, Bei Jing, 100049, China)
全文: PDF (724 KB)  
输出: BibTeX | EndNote (RIS)      
摘要 

[目的]实现对领域概念上下位关系的自动识别,以解决领域本体自动化构建中领域概念间语义关系的自动获取和确立问题。

[方法]将传统无监督的基于模式的方法和当前先进的有监督的基于投影学习的方法有机结合起来应用于领域概念上下位关系自动识别,并进行了试验研究。

[结果]能识别出领域概念的上位词集合,在医学领域的识别精度为0.88,通用领域的识别精度为0.83,在评估基准集BLESS上的平均精度为0.85。

[局限]受句法歧义、语料集的质量等影响,模型精度尚未达到峰值,存在错误识别的情况。 [结论]可发现同一概念词的不同意义的上位词,对低频词和命名实体也具有较好识别效果。未来可考虑从对高频顶层上位词进行适当减权、提升有监督语料集的质量等方面进行优化。

服务
把本文推荐给朋友
加入引用管理器
E-mail Alert
RSS
作者相关文章
关键词 Hearst模式投影学习词嵌入领域概念上下位关系     
Abstract

[Objective] Realize the automatic identification of the hypernym-hyponym relations of domain concepts to solve the problem of automatic acquisition and establishment of semantic relations between domain concepts in the automatic construction of domain ontology.

[Methods] The traditional unsupervised pattern-based method and the current advanced supervised-based projection learning methods are combined organically to apply to the automatic identification of domain concepts, and experimental research is carried out.

[Results] The method can identify the hypernym set of the domain concept. The identification accuracy in the medical field is 0.88, in the general field is 0.83, and in benchmark dataset BLESS is 0.85.

[Limitations] Affected by syntactic ambiguity, the quality of the corpus, the model accuracy has not yet reached its peak, and there are cases of misidentification.

[Conclusions] The model can find hypernym with different meanings of the same concept, and it also has a good identification effect on low-frequency words and named entities. In the future, consideration should be given to optimizing the identification method by appropriately reducing the weight of high-frequency top-level words and improving the quality of supervised corpus.

Key words Hearst pattern    Projection learning    Word embedding    Domain concept    Hypernym-hyponym relations
     出版日期: 2020-08-03
ZTFLH:  TP391.3,G250.7  
引用本文:   
王思丽, 祝忠明, 杨恒, 刘巍. 基于模式和投影学习的领域概念上下位关系自动识别研究 [J]. 数据分析与知识发现, 0, (): 1-.
Wang Sili, Zhu Zhongming, Yang Heng, Liu Wei. Research on Automatic Identification of Hypernym-Hyponym Relations of Domain Concepts Based on Pattern and Projection Learning . Data Analysis and Knowledge Discovery, 0, (): 1-.
链接本文:  
http://manu44.magtech.com.cn/Jwk_infotech_wk3/CN/10.11925/infotech.2020.0299      或      http://manu44.magtech.com.cn/Jwk_infotech_wk3/CN/Y0/V/I/1
[1] 苏传东,黄孝喜,王荣波,谌志群,毛君钰,朱嘉莹,潘宇豪. 基于词嵌入融合和循环神经网络的中英文隐喻识别*[J]. 数据分析与知识发现, 2020, 4(4): 91-99.
[2] 王思丽,祝忠明,杨恒,刘巍. 基于模式和投影学习的领域概念上下位关系自动识别研究*[J]. 数据分析与知识发现, 2020, 4(11): 15-25.
[3] 宰新宇,田学东. 基于公式描述结构和词嵌入的科技文档检索方法*[J]. 数据分析与知识发现, 2020, 4(1): 131-138.
[4] 曾庆田,胡晓慧,李超. 融合主题词嵌入和网络结构分析的主题关键词提取方法 *[J]. 数据分析与知识发现, 2019, 3(7): 52-60.
[5] 李琳, 李辉. 一种基于概念向量空间的文本相似度计算方法[J]. 数据分析与知识发现, 2018, 2(5): 48-58.
[6] 王婷婷, 韩满, 王宇. LDA模型的优化及其主题数量选择研究*——以科技文献为例[J]. 数据分析与知识发现, 2018, 2(1): 29-40.
[7] 张琴, 郭红梅, 张智雄. 融合词嵌入表示特征的实体关系抽取方法研究*[J]. 数据分析与知识发现, 2017, 1(9): 8-15.
[8] 陈果, 肖璐. 网络社区中的知识元链接体系构建研究*[J]. 数据分析与知识发现, 2017, 1(11): 75-83.
[9] 余昕聪, 李红莲, 吕学强. 本体上下位关系在招生问答机器人中的应用研究[J]. 现代图书情报技术, 2015, 31(12): 65-71.
[10] 张巍,于洋,游宏梁. 面向词汇知识库自动构建的概念术语关系识别[J]. 现代图书情报技术, 2009, 25(11): 10-16.
Viewed
Full text


Abstract

Cited

  Shared   
  Discussed   
版权所有 © 2015 《数据分析与知识发现》编辑部
地址:北京市海淀区中关村北四环西路33号 邮编:100190
电话/传真:(010)82626611-6626,82624938
E-mail:jishu@mail.las.ac.cn