Please wait a minute...
Advanced Search
数据分析与知识发现  2017, Vol. 1 Issue (4): 84-93     https://doi.org/10.11925/infotech.2096-3467.2017.04.10
  应用论文 本期目录 | 过刊浏览 | 高级检索 |
科技文献检索系统语义丰富化框架的设计与实践*
谢靖, 王敬东, 吴振新(), 张智雄, 王颖, 叶志飞
中国科学院文献情报中心 北京 100190
Building Semantic Enrichment Framework for Scientific Literature Retrieval System
Xie Jing, Wang Jingdong, Wu Zhenxin(), Zhang Zhixiong, Wang Ying, Ye Zhifei
National Science Library, Chinese Academy of Sciences, Beijing 100190, China
全文: PDF (6590 KB)   HTML ( 3
输出: BibTeX | EndNote (RIS)      
摘要 

目的】通过采用语义识别、知识关系计算等方法提升科技文献检索系统的服务功能和效果, 使之能够呈现更加丰富的知识化语义信息, 将更多的知识点和知识关系展现给用户。【方法】应用数据挖掘和关系计算工具, 深度识别和抽取科技文献中的语义知识, 分析、计算、构建语义关系, 并将得到的语义知识和语义关系建立多维语义索引树, 设计新的数据组织呈现模型。【结果】研发语义丰富化检索示范系统, 在科技文献检索应用过程中充分揭示语义信息, 丰富检索体验。【局限】选取的试验数据集合不够充足, 缺少其他领域应用对比。【结论】本文模型设计给用户带来更多的知识层面的关联、揭示和导航, 提升了检索系统体验。同时分析了设计模型的不足之处, 探索改进方法。

服务
把本文推荐给朋友
加入引用管理器
E-mail Alert
RSS
作者相关文章
谢靖
王敬东
吴振新
张智雄
王颖
叶志飞
关键词 语义丰富化语义知识组织语义关系呈现多维索引    
Abstract

[Objective] This paper aims to improve the scientific literature retrieval system with the help of semantic recognition and knowledge relationship computing. [Methods] First, we identified and extracted semantic objects from the scientific literature. Then, we calculated and established semantic relations among the objects using data-mining tools. Finally, we built semantic multidimensional index for these objects and relations, and then designed a new data organization model. [Results] The new system effectively identified the semantic information and improved the user experience. [Limitations] We need to expand the dataset used in this study and evaluate the new system in other areas. [Conclusions] The proposed system could retrieve more knowledge and indicate some future directions.

Key wordsSemantic Enrichment    Semantic Knowledge Organization    Semantic Relation Presentation    Multidimensional Index
收稿日期: 2017-03-03      出版日期: 2017-05-24
ZTFLH:  TP391  
基金资助:*本文系中国科学院文献情报能力建设专项“基于大数据计算的资源发现平台建设”(项目编号: 院1676)和国家社会科学基金青年项目“基于关联数据的学术资源深度挖掘方法研究”(项目编号: 15CTQ006)的研究成果之一
引用本文:   
谢靖, 王敬东, 吴振新, 张智雄, 王颖, 叶志飞. 科技文献检索系统语义丰富化框架的设计与实践*[J]. 数据分析与知识发现, 2017, 1(4): 84-93.
Xie Jing,Wang Jingdong,Wu Zhenxin,Zhang Zhixiong,Wang Ying,Ye Zhifei. Building Semantic Enrichment Framework for Scientific Literature Retrieval System. Data Analysis and Knowledge Discovery, 2017, 1(4): 84-93.
链接本文:  
http://manu44.magtech.com.cn/Jwk_infotech_wk3/CN/10.11925/infotech.2096-3467.2017.04.10      或      http://manu44.magtech.com.cn/Jwk_infotech_wk3/CN/Y2017/V1/I4/84
  语义丰富化总体设计框架
  语义标引流程
  MetaMap语义标引结果示例
SemRep
标记
文章PMID 来源
标记
文本
位置
术语类型 MeSH词表
术语代码
MeSH词表
标准术语
语义关系缩写 文本中
原始词汇
置信度 术语开始位置 术语结束位置
SE 00000000 tx 1 entity C1280519 Effectiveness qlco Effectiveness 1000 1 13
SE 00000000 tx 1 entity C0150143 Behavior mannagement topp behavioural managenment 964 18 39
SE 00000000 tx 1 entity C0149931 Migraine Disorders dsyn migraine 1000 44 51
SE 00000000 tx 1 entity C0001675 Adult aggp adult 888 56 60
SE 00000000 tx 1 entity C0030705 Patients podg patients 888 62 69
SE 00000000 tx 1 entity C0015607 family medicine
(field)
bmod family practice 901 81 95
SE 00000000 tx 1 entity C0442592 Clinic hcro,mnob clinics 901 97 103
SE 00000000 tx 1 entity C1514720 Randomized ftcn randomized 851 108 117
SE 00000000 tx 1 entity C0702113 Controlled ftcn controlled 851 119 128
SE 00000000 tx 1 entity C0008976 Clinical Trials resa trial 851 130 134
语义关系识别结果:
SE|00000000||tx|1|relation|3|1|C0149931|Migraine Disorders|dsyn|dsyn|||migraine|||1000|44|51|
PREP|PROCESS_OF||53|54|3|1|C0030705|Patients|podg,humn|humn||patients
888|62|69
  SemRep知识对象语义识别结果
  语义索引架构设计图
索引字段 字段描述 字段功能
S 三元组主语 检索查询
P 三元组谓语 检索查询
O 三元组宾语 检索查询
S+P 主语与谓词拼接组合 分面揭示
P+O 谓词与宾语拼接组合 分面揭示
  三元组索引字段描述表
  语义丰富化检索的数据组织结构
  语义识别功能展示
  检索结果知识关系展示
  语义关系导航展示图
  单篇文献的语义化辅助阅读展示
[1] U.S.National Library of Medicine. Semantic Knowledge Representation [EB/OL].[2016-01-13].
[2] Wikipedia. Knowledge Graph [EB/OL].[2016-02-10].
[3] Google Inside Search [EB/OL]. [2016-02-10].
[4] Wolframalpha. Computational Knowledge Engine [EB/OL].[2015-03-10].
[5] Kngine. The Most Intelligent Engine [EB/OL]. [2015-03-10].
[6] SindiceTech. Enterprise Knowledge Graphs [EB/OL]. [2015- 03-10].
[7] W3C Semantic Web. RDF [EB/OL].[2015-06-05].
[8] SindiceTech. FreeBase Distribution [EB/OL]. [2015-03-10].
[9] Apache Solr [EB/OL]. [2015-06-05].
[10] PubMed [EB/OL]. [2015-10-11].
[11] U.S.National Library of Medicine. SemRep [EB/OL].[2015-10-22].
[12] Del Corro L, Gemulla R.ClausIE: Clause-Open Information Extraction[C]//Proceedings of the the 22nd International Conference on World Wide Web. 2013:355-366.
[13] Merrill M D.Knowledge Objects[R]. USA: CBT Solutions, 1998: 1-11.
[14] U.S.National Library of Medicine. Unified Medical Language System (UMLS) [EB/OL].[2016-01-13]. .
[15] 王颖, 张智雄, 李传席, 等. 科技知识组织体系开放引擎系统的设计与实现[J]. 现代图书情报技术,2015 (10): 95-101.
[15] (Wang Ying, Zhang Zhixiong, Li Chuanxi, et al.The Design and Implementation of Open Engine System for Scientific & Technological Knowledge Organization Systems[J]. New Technology of Library and Information Service, 2015 (10): 95-101.)
[16] UMLS. Semantic Relationships [EB/OL].[2015-10-17].
[17] Chakraborty A, Munshi S, Mukhopadhyay D.Searching and Establishment of S-P-O Relationships for Linked RDF Graphs: An Adaptive Approach[C]//Proceedings of International Conference on Cloud & Ubiquitous Computing & Emerging Technologies (CUBE). 2013.
[18] Matthews P H.Syntactic Relations:A Critical Survey[M]. University of CambridgePress, 2007: 3-10.
[19] U.S.National Library of Medicine. Medical Subject Headings (MeSH) [EB/OL].[2015-06-05].
[20] U.S.National Library of Medicine. MeSH Category Tree View [EB/OL].[2015-06-05].
[21] MetaMap - A Tool For Recognizing UMLS Concepts in Text [EB/OL]. [2015-06-20].
[22] The Stanford Natural Language Processing Group. Stanford Part of Speech Tagger [EB/OL].[2015-08-24].
[23] SPECIALIST dTagger [EB/OL]. [2015-06-20].
[24] 孙坦, 刘峥. 面向外文科技文献信息的知识组织体系建设思路[J]. 图书与情报, 2013 (1): 2-7.
doi: 10.3969/j.issn.1003-6938.2013.01.001
[24] (Sun Tan, Liu Zheng.Methodology Framework of Knowledge Organization System for Scientific & Technological Literature[J]. Library & Information, 2013(1): 2-7.)
doi: 10.3969/j.issn.1003-6938.2013.01.001
[25] Rindflesch T C, Fiszman M.The Interaction of Domain Knowledge and Linguistic Structure in Natural Language Pprocessing: Interpreting Hypernymic Propositions in Biomedical Text[J]. Journal of Biomedical Informatics, 2003, 36(6): 462-477.
doi: 10.1016/j.jbi.2003.11.003 pmid: 14759819
[1] 王思丽, 祝忠明, 杨恒, 刘巍. 基于模式和投影学习的领域概念上下位关系自动识别研究 [J]. 数据分析与知识发现, 0, (): 1-.
[2] 翁梦娟,姚长青,韩红旗,王莉军,冉亚鑫. 不均衡数据集下基于CNN的中图分类标引方法 *[J]. 数据分析与知识发现, 2020, 4(7): 87-95.
[3] 唐晓波,高和璇. 基于关键词词向量特征扩展的健康问句分类研究 *[J]. 数据分析与知识发现, 2020, 4(7): 66-75.
[4] 邱尔丽,何鸿魏,易成岐,李慧颖. 基于字符级CNN技术的公共政策网民支持度研究 *[J]. 数据分析与知识发现, 2020, 4(7): 28-37.
[5] 王建冬,于施洋. 构建国家经济大脑的实践探索与初步设想 *[J]. 数据分析与知识发现, 2020, 4(7): 2-17.
[6] 徐红霞,于倩倩,钱力. 基于主题模型和情感分析的话题交互数据观点对抗性分析 *[J]. 数据分析与知识发现, 2020, 4(7): 110-117.
[7] 李轲禹,王昊,龚丽娟,唐慧慧. 学术数据库中研究主题术语的质量测度及分布研究*[J]. 数据分析与知识发现, 2020, 4(6): 91-108.
[8] 魏庭新,柏文雷,曲维光. 词向量和语义知识相结合的汉语未登录词语义预测研究*[J]. 数据分析与知识发现, 2020, 4(6): 109-117.
[9] 杨恒,王思丽,祝忠明,刘巍,王楠. 基于并行协同过滤算法的领域知识推荐模型研究*[J]. 数据分析与知识发现, 2020, 4(6): 15-21.
[10] 焦启航,乐小虬. 对比关系句子生成方法研究[J]. 数据分析与知识发现, 2020, 4(6): 43-50.
[11] 蔡永明,刘璐,王科唯. 网络虚拟学习社区重要用户与核心主题联合分析*[J]. 数据分析与知识发现, 2020, 4(6): 69-79.
[12] 王末,崔运鹏,陈丽,李欢. 基于深度学习的学术论文语步结构分类方法研究*[J]. 数据分析与知识发现, 2020, 4(6): 60-68.
[13] 叶光辉, 徐彤. 基于演化分析的动态城市画像研究 [J]. 数据分析与知识发现, 0, (): 1-.
[14] 李军莲,吴英杰,邓盼盼,冷伏海. 基于特征融合的引文失范数据自动处理策略研究*[J]. 数据分析与知识发现, 2020, 4(5): 38-45.
[15] 刘萍,彭小芳. 基于形式概念分析的词汇相似度计算*[J]. 数据分析与知识发现, 2020, 4(5): 66-74.
Viewed
Full text


Abstract

Cited

  Shared   
  Discussed   
版权所有 © 2015 《数据分析与知识发现》编辑部
地址:北京市海淀区中关村北四环西路33号 邮编:100190
电话/传真:(010)82626611-6626,82624938
E-mail:jishu@mail.las.ac.cn