Please wait a minute...
Advanced Search
数据分析与知识发现  2017, Vol. 1 Issue (4): 84-93     https://doi.org/10.11925/infotech.2096-3467.2017.04.10
  应用论文 本期目录 | 过刊浏览 | 高级检索 |
科技文献检索系统语义丰富化框架的设计与实践*
谢靖, 王敬东, 吴振新(), 张智雄, 王颖, 叶志飞
中国科学院文献情报中心 北京 100190
Building Semantic Enrichment Framework for Scientific Literature Retrieval System
Xie Jing, Wang Jingdong, Wu Zhenxin(), Zhang Zhixiong, Wang Ying, Ye Zhifei
National Science Library, Chinese Academy of Sciences, Beijing 100190, China
全文: PDF (6590 KB)   HTML ( 4
输出: BibTeX | EndNote (RIS)      
摘要 

目的】通过采用语义识别、知识关系计算等方法提升科技文献检索系统的服务功能和效果, 使之能够呈现更加丰富的知识化语义信息, 将更多的知识点和知识关系展现给用户。【方法】应用数据挖掘和关系计算工具, 深度识别和抽取科技文献中的语义知识, 分析、计算、构建语义关系, 并将得到的语义知识和语义关系建立多维语义索引树, 设计新的数据组织呈现模型。【结果】研发语义丰富化检索示范系统, 在科技文献检索应用过程中充分揭示语义信息, 丰富检索体验。【局限】选取的试验数据集合不够充足, 缺少其他领域应用对比。【结论】本文模型设计给用户带来更多的知识层面的关联、揭示和导航, 提升了检索系统体验。同时分析了设计模型的不足之处, 探索改进方法。

服务
把本文推荐给朋友
加入引用管理器
E-mail Alert
RSS
作者相关文章
谢靖
王敬东
吴振新
张智雄
王颖
叶志飞
关键词 语义丰富化语义知识组织语义关系呈现多维索引    
Abstract

[Objective] This paper aims to improve the scientific literature retrieval system with the help of semantic recognition and knowledge relationship computing. [Methods] First, we identified and extracted semantic objects from the scientific literature. Then, we calculated and established semantic relations among the objects using data-mining tools. Finally, we built semantic multidimensional index for these objects and relations, and then designed a new data organization model. [Results] The new system effectively identified the semantic information and improved the user experience. [Limitations] We need to expand the dataset used in this study and evaluate the new system in other areas. [Conclusions] The proposed system could retrieve more knowledge and indicate some future directions.

Key wordsSemantic Enrichment    Semantic Knowledge Organization    Semantic Relation Presentation    Multidimensional Index
收稿日期: 2017-03-03      出版日期: 2017-05-24
ZTFLH:  TP391  
基金资助:*本文系中国科学院文献情报能力建设专项“基于大数据计算的资源发现平台建设”(项目编号: 院1676)和国家社会科学基金青年项目“基于关联数据的学术资源深度挖掘方法研究”(项目编号: 15CTQ006)的研究成果之一
引用本文:   
谢靖, 王敬东, 吴振新, 张智雄, 王颖, 叶志飞. 科技文献检索系统语义丰富化框架的设计与实践*[J]. 数据分析与知识发现, 2017, 1(4): 84-93.
Xie Jing,Wang Jingdong,Wu Zhenxin,Zhang Zhixiong,Wang Ying,Ye Zhifei. Building Semantic Enrichment Framework for Scientific Literature Retrieval System. Data Analysis and Knowledge Discovery, 2017, 1(4): 84-93.
链接本文:  
https://manu44.magtech.com.cn/Jwk_infotech_wk3/CN/10.11925/infotech.2096-3467.2017.04.10      或      https://manu44.magtech.com.cn/Jwk_infotech_wk3/CN/Y2017/V1/I4/84
  语义丰富化总体设计框架
  语义标引流程
  MetaMap语义标引结果示例
SemRep
标记
文章PMID 来源
标记
文本
位置
术语类型 MeSH词表
术语代码
MeSH词表
标准术语
语义关系缩写 文本中
原始词汇
置信度 术语开始位置 术语结束位置
SE 00000000 tx 1 entity C1280519 Effectiveness qlco Effectiveness 1000 1 13
SE 00000000 tx 1 entity C0150143 Behavior mannagement topp behavioural managenment 964 18 39
SE 00000000 tx 1 entity C0149931 Migraine Disorders dsyn migraine 1000 44 51
SE 00000000 tx 1 entity C0001675 Adult aggp adult 888 56 60
SE 00000000 tx 1 entity C0030705 Patients podg patients 888 62 69
SE 00000000 tx 1 entity C0015607 family medicine
(field)
bmod family practice 901 81 95
SE 00000000 tx 1 entity C0442592 Clinic hcro,mnob clinics 901 97 103
SE 00000000 tx 1 entity C1514720 Randomized ftcn randomized 851 108 117
SE 00000000 tx 1 entity C0702113 Controlled ftcn controlled 851 119 128
SE 00000000 tx 1 entity C0008976 Clinical Trials resa trial 851 130 134
语义关系识别结果:
SE|00000000||tx|1|relation|3|1|C0149931|Migraine Disorders|dsyn|dsyn|||migraine|||1000|44|51|
PREP|PROCESS_OF||53|54|3|1|C0030705|Patients|podg,humn|humn||patients
888|62|69
  SemRep知识对象语义识别结果
  语义索引架构设计图
索引字段 字段描述 字段功能
S 三元组主语 检索查询
P 三元组谓语 检索查询
O 三元组宾语 检索查询
S+P 主语与谓词拼接组合 分面揭示
P+O 谓词与宾语拼接组合 分面揭示
  三元组索引字段描述表
  语义丰富化检索的数据组织结构
  语义识别功能展示
  检索结果知识关系展示
  语义关系导航展示图
  单篇文献的语义化辅助阅读展示
[1] U.S.National Library of Medicine. Semantic Knowledge Representation [EB/OL].[2016-01-13].
[2] Wikipedia. Knowledge Graph [EB/OL].[2016-02-10].
[3] Google Inside Search [EB/OL]. [2016-02-10].
[4] Wolframalpha. Computational Knowledge Engine [EB/OL].[2015-03-10].
[5] Kngine. The Most Intelligent Engine [EB/OL]. [2015-03-10].
[6] SindiceTech. Enterprise Knowledge Graphs [EB/OL]. [2015- 03-10].
[7] W3C Semantic Web. RDF [EB/OL].[2015-06-05].
[8] SindiceTech. FreeBase Distribution [EB/OL]. [2015-03-10].
[9] Apache Solr [EB/OL]. [2015-06-05].
[10] PubMed [EB/OL]. [2015-10-11].
[11] U.S.National Library of Medicine. SemRep [EB/OL].[2015-10-22].
[12] Del Corro L, Gemulla R.ClausIE: Clause-Open Information Extraction[C]//Proceedings of the the 22nd International Conference on World Wide Web. 2013:355-366.
[13] Merrill M D.Knowledge Objects[R]. USA: CBT Solutions, 1998: 1-11.
[14] U.S.National Library of Medicine. Unified Medical Language System (UMLS) [EB/OL].[2016-01-13]. .
[15] 王颖, 张智雄, 李传席, 等. 科技知识组织体系开放引擎系统的设计与实现[J]. 现代图书情报技术,2015 (10): 95-101.
[15] (Wang Ying, Zhang Zhixiong, Li Chuanxi, et al.The Design and Implementation of Open Engine System for Scientific & Technological Knowledge Organization Systems[J]. New Technology of Library and Information Service, 2015 (10): 95-101.)
[16] UMLS. Semantic Relationships [EB/OL].[2015-10-17].
[17] Chakraborty A, Munshi S, Mukhopadhyay D.Searching and Establishment of S-P-O Relationships for Linked RDF Graphs: An Adaptive Approach[C]//Proceedings of International Conference on Cloud & Ubiquitous Computing & Emerging Technologies (CUBE). 2013.
[18] Matthews P H.Syntactic Relations:A Critical Survey[M]. University of CambridgePress, 2007: 3-10.
[19] U.S.National Library of Medicine. Medical Subject Headings (MeSH) [EB/OL].[2015-06-05].
[20] U.S.National Library of Medicine. MeSH Category Tree View [EB/OL].[2015-06-05].
[21] MetaMap - A Tool For Recognizing UMLS Concepts in Text [EB/OL]. [2015-06-20].
[22] The Stanford Natural Language Processing Group. Stanford Part of Speech Tagger [EB/OL].[2015-08-24].
[23] SPECIALIST dTagger [EB/OL]. [2015-06-20].
[24] 孙坦, 刘峥. 面向外文科技文献信息的知识组织体系建设思路[J]. 图书与情报, 2013 (1): 2-7.
doi: 10.3969/j.issn.1003-6938.2013.01.001
[24] (Sun Tan, Liu Zheng.Methodology Framework of Knowledge Organization System for Scientific & Technological Literature[J]. Library & Information, 2013(1): 2-7.)
doi: 10.3969/j.issn.1003-6938.2013.01.001
[25] Rindflesch T C, Fiszman M.The Interaction of Domain Knowledge and Linguistic Structure in Natural Language Pprocessing: Interpreting Hypernymic Propositions in Biomedical Text[J]. Journal of Biomedical Informatics, 2003, 36(6): 462-477.
doi: 10.1016/j.jbi.2003.11.003 pmid: 14759819
[1] 王鸿, 舒展, 高印权, 田文洪. 一种单分类器联合多任务网络的隐式句间关系分析方法*[J]. 数据分析与知识发现, 2021, 5(11): 80-88.
[2] 吴彦文, 蔡秋亭, 刘智, 邓云泽. 融合多源数据和场景相似度计算的数字资源推荐研究*[J]. 数据分析与知识发现, 2021, 5(11): 114-123.
[3] 李振宇, 李树青. 嵌入隐式相似群的深度协同过滤算法*[J]. 数据分析与知识发现, 2021, 5(11): 124-134.
[4] 董淼, 苏中琪, 周晓北, 兰雪, 崔志刚, 崔雷. 利用Text-CNN改进PubMedBERT在化学诱导性疾病实体关系分类效果的尝试[J]. 数据分析与知识发现, 2021, 5(11): 145-152.
[5] 余传明, 张贞港, 孔令格. 面向链接预测的知识图谱表示模型对比研究*[J]. 数据分析与知识发现, 2021, 5(11): 29-44.
[6] 丁浩, 艾文华, 胡广伟, 李树青, 索炜. 融合用户兴趣波动时序的个性化推荐模型*[J]. 数据分析与知识发现, 2021, 5(11): 45-58.
[7] 华斌, 吴诺, 贺欣. 基于知识融合的政务信息化项目多专家审批意见整合*[J]. 数据分析与知识发现, 2021, 5(10): 124-136.
[8] 王媛, 时恺泽, 牛振东. 一种用于实体关系三元组抽取的位置辅助分步标记方法*[J]. 数据分析与知识发现, 2021, 5(10): 71-80.
[9] 杨辰, 陈晓虹, 王楚涵, 刘婷婷. 基于用户细粒度属性偏好聚类的推荐策略*[J]. 数据分析与知识发现, 2021, 5(10): 94-102.
[10] 戴志宏, 郝晓玲. 上下位关系抽取方法及其在金融市场的应用*[J]. 数据分析与知识发现, 2021, 5(10): 60-70.
[11] 汪雪锋, 任惠超, 刘玉琴. 融合聚类信息的技术主题图可视化方法研究 [J]. 数据分析与知识发现, 0, (): 1-.
[12] 王一钒,李博,史话,苗威,姜斌. 古汉语实体关系联合抽取的标注方法*[J]. 数据分析与知识发现, 2021, 5(9): 63-74.
[13] 车宏鑫,王桐,王伟. 前列腺癌预测模型对比研究*[J]. 数据分析与知识发现, 2021, 5(9): 107-114.
[14] 周阳,李学俊,王冬磊,陈方,彭莉娟. 炸药配方设计知识图谱的构建与可视分析方法研究*[J]. 数据分析与知识发现, 2021, 5(9): 42-53.
[15] 马江微, 吕学强, 游新冬, 肖刚, 韩君妹. 融合BERT与关系位置特征的军事领域关系抽取方法*[J]. 数据分析与知识发现, 2021, 5(8): 1-12.
Viewed
Full text


Abstract

Cited

  Shared   
  Discussed   
版权所有 © 2015 《数据分析与知识发现》编辑部
地址:北京市海淀区中关村北四环西路33号 邮编:100190
电话/传真:(010)82626611-6626,82624938
E-mail:jishu@mail.las.ac.cn