Please wait a minute...
Advanced Search
现代图书情报技术  2015, Vol. 31 Issue (9): 31-37    DOI: 10.11925/infotech.1003-3513.2015.09.05
  研究论文 本期目录 | 过刊浏览 | 高级检索 |
文献关键词链接标引方法研究
许德山1, 李辉2, 张运良1
1 中国科学技术信息研究所 北京 100038;
2 北京市科学技术情报研究所 北京 100048
A Method of Keywords Annotation Based on Linked Triples
Xu Deshan1, Li Hui2, Zhang Yunliang1
1 Institute of Scientific & Technical Information of China, Beijing 100038, China;
2 Beijing Institute of Science and Technology Information, Beijing 100048, China
全文: PDF(1522 KB)   HTML  
输出: BibTeX | EndNote (RIS)      
摘要 

[目的]以本体管理与服务平台为基础, 利用三元组获取和自然语言处理技术实现中文科技文献的自动标引。[方法]通过Web Services接口将本体知识库和词汇资源集成到标注模块中, 利用词典匹配和分词组合方法分别获取文献中的领域词和未登录词, 并与本体知识库中的三元组建立链接, 形成领域概念关系网络。[结果]通过语料测试, 系统能以86篇/秒的较快速度进行文献标引和词汇链接, 并达到65%的全面率和69%的准确率。[局限]词典加载后未做索引, 匹配计算耗时过多, 空格、断行等噪声数据对文本的分词处理和词性判断产生影响。[结论]数据清洗流程和关键词筛选算法改善后, 可以进一步提高标引效率, 为深度挖掘文本提供支撑。

服务
把本文推荐给朋友