Please wait a minute...
Advanced Search
现代图书情报技术  2015, Vol. 31 Issue (9): 31-37    DOI: 10.11925/infotech.1003-3513.2015.09.05
  研究论文 本期目录 | 过刊浏览 | 高级检索 |
文献关键词链接标引方法研究
许德山1, 李辉2, 张运良1
1 中国科学技术信息研究所 北京 100038;
2 北京市科学技术情报研究所 北京 100048
A Method of Keywords Annotation Based on Linked Triples
Xu Deshan1, Li Hui2, Zhang Yunliang1
1 Institute of Scientific & Technical Information of China, Beijing 100038, China;
2 Beijing Institute of Science and Technology Information, Beijing 100048, China
全文: PDF(1522 KB)   HTML  
输出: BibTeX | EndNote (RIS)      
摘要 

[目的]以本体管理与服务平台为基础, 利用三元组获取和自然语言处理技术实现中文科技文献的自动标引。[方法]通过Web Services接口将本体知识库和词汇资源集成到标注模块中, 利用词典匹配和分词组合方法分别获取文献中的领域词和未登录词, 并与本体知识库中的三元组建立链接, 形成领域概念关系网络。[结果]通过语料测试, 系统能以86篇/秒的较快速度进行文献标引和词汇链接, 并达到65%的全面率和69%的准确率。[局限]词典加载后未做索引, 匹配计算耗时过多, 空格、断行等噪声数据对文本的分词处理和词性判断产生影响。[结论]数据清洗流程和关键词筛选算法改善后, 可以进一步提高标引效率, 为深度挖掘文本提供支撑。

服务
把本文推荐给朋友
加入引用管理器
E-mail Alert
RSS
作者相关文章
Abstract

[Objective] Build an auto-indexing system by triple acquirement and NLP for Chinese scientific and technical literatures based on Ontology management and service platform. [Methods] Merging Ontology knowledge bases and vocabularies by Web services, the system can identify the terms and unlisted words through matching vocabulary and words combination, as well as link them with the triples in the knowledge bases for building a conceptual relational network. [Results] This system can process 86 articles per second with recall rate of 65% and precision rate of 69%. [Limitations] It takes a lot of time to match terms because no index is built. The performance of Chinese word segmentation and POS tagging are influenced by the noise data such as spaces, line break, and so on. [Conclusions] Data cleaning process and algorithm optimization of keywords selecting need continuous study for supporting the deep mining and enhancing the efficiency of the system.

收稿日期: 2015-01-26     
:  TP391.1  
基金资助:

本文系中国科学技术信息研究所重点工作项目“结构化知识服务平台建设及应用”(项目编号:ZD2015-2)和国家自然科学基金项目“面向特定情报分析应用的知识组织系统快速构建关键问题研究”(项目编号:71203208)的研究成果之一。

通讯作者: 张运良, ORCID: 0000-0003-4987-1539, E-mail: zhangyl@istic.ac.cn。     E-mail: zhangyl@istic.ac.cn
作者简介: 作者贡献声明:许德山:提出研究思路,设计研究方案,编写服务接口和标注程序,论文起草及最终版本修订;李辉:实验数据的采集、清洗、标注,实验结果分析;张运良:领域词系统内容组织、词典到本体格式的转换。
引用本文:   
许德山, 李辉, 张运良. 文献关键词链接标引方法研究[J]. 现代图书情报技术, 2015, 31(9): 31-37.
Xu Deshan, Li Hui, Zhang Yunliang. A Method of Keywords Annotation Based on Linked Triples. New Technology of Library and Information Service, DOI:10.11925/infotech.1003-3513.2015.09.05.
链接本文:  
http://manu44.magtech.com.cn/Jwk_infotech_wk3/CN/10.11925/infotech.1003-3513.2015.09.05

[1] Domingue J, Dzbor M, Motta E. Magpie: Supporting Browsing and Navigating on the Semantic Web [C]. In: Proceeding of the 9th International Conference on Intelligent User Interfaces, Funchal, Portugal. 2004:191-197.
[2] Handschuh S, Staab S. Authoring and Annotation of Web Pages in CREAM [C]. In: Proceeding of the 11th International Conference on World Wide Web, Honolulu, Hawaii, USA. 2002: 462-473.
[3] Annotea Project [EB/OL]. [2014-10-13]. http://www.w3.org/2001/Annotea/.
[4] Ontotext Semantic Platform [EB/OL]. [2014-10-13]. http://www.ontotext.com/products/ontotext-semantic-platform.
[5] Dill S, Eiron N, Gibson D, et al. SemTag and Seeker: Bootstrapping the Semantic Web via Automated Semantic Annotation [C]. In: Proceedings of the 12th International Conference on World Wide Web, Budapest, Hungary. 2003:178-186.
[6] Armadillo [EB/OL]. [2014-10-13]. http://www.hrionline.ac. uk/armadillo/links.html.
[7] GATE [EB/OL]. [2014-10-13] https://gate.ac.uk/overview. html.
[8] Text2Onto [EB/OL]. [2014-10-13]. http://semanticweb.org/wiki/Text2Onto.
[9] 马颖华, 王永成, 苏贵洋, 等. 一种基于字同现频率的汉语文本主题抽取方法[J]. 计算机研究与发展, 2003, 40(6): 874-878. (Ma Yinghua, Wang Yongcheng, Su Guiyang, et al. A Novel Chinese Text Subject Extraction Method Based on Character Co-occurrence [J]. Journal of Computer Research and Development, 2003, 40(6): 874-878.)
[10] 耿焕同, 蔡庆生, 于琨, 等. 一种基于词共现图的文档主题词自动抽取方法[J]. 南京大学学报: 自然科学版, 2006, 42(2): 156-162. (Geng Huantong, Cai Qingsheng, Yu Kun, et al. A Kind of Automatic Text Keyphrase Extraction Method Based on Word Co-occurrence [J]. Journal of Nanjing University: Natural Sciences, 2006, 42(2): 156-162.)
[11] 索红光, 刘玉树, 曹淑英. 一种基于词汇链的关键词抽取方法[J]. 中文信息学报, 2006, 20(6): 25-30. (Suo Hongguang, Liu Yushu, Cao Shuying. A Keyword Selection Method Based on Lexical Chains [J]. Journal of Chinese Information Processing, 2006, 20(6): 25-30.)
[12] 李素建, 王厚峰, 俞士汶, 等. 关键词自动标引的最大熵模型应用研究[J]. 计算机学报, 2004, 27(9): 1192-1197. (Li Sujian, Wang Houfeng, Yu Shiwen, et al. Research on Maximum Entropy Model for Keyword Indexing [J]. Chinese Journal of Computers, 2004, 27(9): 1192-1197.)
[13] 赵鹏, 蔡庆生, 王清毅, 等. 一种基于复杂网络特征的中文文档关键词抽取算法[J]. 模式识别与人工智能, 2007, 20(6): 827-831. (Zhao Peng, Cai Qingsheng, Wang Qingyi, et al. An Automatic Keyword Extraction of Chinese
Document Algorithm Based on Complex Network Features [J]. Pattern Recognition and Artificial Intelligence, 2007, 20(6): 827-831.)
[14] 段宇锋, 黑珍珍, 鞠菲, 等. 基于自主学习规则的中文物种描述文本的语义标注研究[J]. 现代图书情报技术, 2012(5): 41-47. (Duan Yufeng, Hei Zhenzhen, Ju Fei, et al. Study on Semantic Markup of Species Description Text in Chinese Based on Auto-learning Rules [J]. New Technology of Library and Information Service, 2012(5): 41-47.)
[15] 段宇锋, 朱雯晶, 陈巧, 等. 朴素贝叶斯算法与Bootstrapping方法相结合的中文物种描述文本语义标注研究[J]. 现代图书情报技术, 2014(5): 83-89. (Duan Yufeng, Zhu Wenjing, Chen Qiao, et al. Semantic Annotation of Species Description Text in Chinese by Combining Naive Bayes Algorithm with Bootstrapping Method [J]. New Technology of Library and Information Service, 2014(5): 83-89.)
[16] 罗军, 高琦, 王翊. 基于Bootstrapping的本体标注方法[J].计算机工程, 2010, 36(23): 85-87. (Luo Jun, Gao Qi, Wang Yi. Ontology Annotation Method Based on Bootstrapping [J]. Computer Engineering, 2010, 36(23): 85-87.)
[17] 米杨, 曹锦丹. 顶级本体统控的多本体语义标注实证研究[J]. 现代图书情报技术, 2012(9): 36-41. (Mi Yang, Cao Jindan. A Case Study of Semantic Annotation with Multi-Ontology by Upper-level Ontology Unitive Control [J]. New Technology of Library and Information Service, 2012(9): 36-41.)
[18] 许德山, 张运良. 集成化本体管理平台的设计与实现[J]. 数字图书馆论坛, 2013(11): 15-20. (Xu Deshan, Zhang Yunliang. Design and Implementation of Integrated Ontology Management Platform [J]. Digital Library Forum, 2013(11): 15-20.)

[1] 李晓峰,马静,李驰,朱恒民. 基于XGBoost模型的电商商品品名识别算法研究 *[J]. 数据分析与知识发现, 2019, 3(7): 34-41.
[2] 陈诗琴, 李文江. WebSocket在图书馆移动信息服务中的应用[J]. 现代图书情报技术, 2015, 31(9): 90-96.
[3] 胡菊香, 吕学强, 刘克会. 利用类别引导词的投诉文本分类[J]. 现代图书情报技术, 2015, 31(7-8): 97-103.
[4] 段宇锋, 朱雯晶, 陈巧, 刘伟, 刘凤红. 条件随机场与领域本体元素集相结合的未登录词识别研究[J]. 现代图书情报技术, 2015, 31(4): 41-49.
[5] 李军锋, 吕学强, 周绍钧. 带权复杂图模型的专利关键词标引研究[J]. 现代图书情报技术, 2015, 31(3): 26-32.
[6] 马宾, 殷立峰. 一种基于Hadoop平台的并行朴素贝叶斯网络舆情快速分类算法[J]. 现代图书情报技术, 2015, 31(2): 78-84.
[7] 侯婷, 吕学强, 李卓. 专利术语抽取的层次过滤方法[J]. 现代图书情报技术, 2015, 31(1): 24-30.
[8] 唐守利, 徐宝祥. 基于本体的云服务语义检索系统研究[J]. 现代图书情报技术, 2014, 30(12): 27-35.
[9] 唐晓波, 肖璐. 基于依存句法网络的文本特征提取研究[J]. 现代图书情报技术, 2014, 30(11): 31-37.
[10] 石翠, 王杨, 杨彬, 姚晔. 面向中文专利文献的单层并列结构识别[J]. 现代图书情报技术, 2014, 30(10): 76-83.
[11] 张永军, 刘金岭, 马甲林. 中文短信文本信息流中多话题的分类抽取[J]. 现代图书情报技术, 2014, 30(7): 101-106.
[12] 李文江, 陈诗琴. 微信作为APP客户端的图书馆公共服务平台[J]. 现代图书情报技术, 2014, 30(7): 133-138.
[13] 汤青,吕学强,李卓,施水才,. 领域本体术语抽取研究*[J]. 现代图书情报技术, 2014, 30(1): 43-50.
[14] 李文江, 陈诗琴. 基于Android GCM服务的图书馆信息推送系统设计[J]. 现代图书情报技术, 2013, 29(11): 91-96.
[15] 熊李艳, 谭龙, 钟茂生. 基于有效词频的改进C-value自动术语抽取方法[J]. 现代图书情报技术, 2013, 29(9): 54-59.
Viewed
Full text


Abstract

Cited

  Shared   
  Discussed   
版权所有 © 2015 《数据分析与知识发现》编辑部
地址:北京市海淀区中关村北四环西路33号 邮编:100190
电话/传真:(010)82626611-6626,82624938
E-mail:jishu@mail.las.ac.cn