Please wait a minute...
Advanced Search
现代图书情报技术  2015, Vol. 31 Issue (4): 26-33    DOI: 10.11925/infotech.1003-3513.2015.04.04
  研究论文 本期目录 | 过刊浏览 | 高级检索 |
领域概念的三层递进筛选方法研究
余凡1, 楼雯2
1 武汉大学质量发展战略研究院 武汉 430072;
2 武汉大学信息管理学院 武汉 430072
A Domain Concepts Triple-layer Filter Method
Duan Yufeng1, Zhu Wenjing2
1 Institute of Quality Development Strategy, Wuhan University, Wuhan 430072, China;
2 School of Information Management, Wuhan University, Wuhan 430072, China
全文: PDF(562 KB)   HTML  
输出: BibTeX | EndNote (RIS)      
摘要 

[目的]通过运用叙词表和文本两种数据源和三种概念筛选方法提高领域概念筛选的效率。[方法]提出一种领域概念三层递进筛选方法, 从叙词表和文本两种数据源提取领域概念, 利用概念相关性、上下文和领域性以点到面三层递进的方式计算领域概念的概念属性和领域属性。[结果]实验结果表明, 基于概念相关性、上下文和领域性的三层递进筛选方法将准确率和召回率分别提高到74.71%和71.25%。[局限]实验数据只来自测绘领域, 还未使用其他领域的数据验证该方法的可行性。[结论]本研究提高领域概念筛选的准确率和召回率, 综合效率高于样本中的其他方法, 能够更加高效地筛选出不同学科的领域概念。

服务
把本文推荐给朋友
加入引用管理器
E-mail Alert
RSS
作者相关文章
关键词 三层概念筛选概念相关性概念上下文概念领域性叙词表    
Abstract

[Objective] To improve the efficiency of concepts filter by using three concept filter method with thesaurus and text. [Methods] This paper proposes a method for domain concepts triple-layer filter. Extract domain concepts from data sources containing thesaurus and text. Focuse on calculating the concepts properties and field properties of domain concepts through concepts correlation, concepts context and concepts territoriality. [Results] Experimental results show that the precision reaches 74.71% and the recall reaches 71.25% based on triple-layer filter method. [Limitations] Data sources are only about mapping, this paper doesn't use the data in other fields to demonstrate the feasibility of method. [Conclusions] This paper improves the precision and recall of domain concepts filter. Comprehensive efficiency is higher than other methods. This method could filter domain concepts from different subjects with high efficiency.

Key wordsTriple-layer concepts filter    Concepts correlation    Concepts context    Concepts territoriality    Thesaurus
收稿日期: 2014-10-08     
:  TP391  
基金资助:

本文系国家社会科学基金重大项目“基于语义的馆藏资源深度聚合与可视化展示研究”(项目编号:11&ZD152)和中国博士后科学基金项目“大数据在乳制品质量安全信息风险治理中的应用研究”(项目编号:2014M552089)的研究成果之一。

通讯作者: 楼雯,ORCID:0000-0002-6369-4615,E-mail:hotwen_l@sina.com     E-mail: hotwen_l@sina.com
作者简介: 作者贡献声明: 楼雯:提出研究思路,设计领域概念筛选方法与分析过程,起草论文;余凡:实验的具体实施,论文修订;楼雯,余凡:清洗、分析数据。
引用本文:   
余凡, 楼雯. 领域概念的三层递进筛选方法研究[J]. 现代图书情报技术, 2015, 31(4): 26-33.
Duan Yufeng, Zhu Wenjing, Chen Qiao, Liu Wei, Liu Fenghong. A Domain Concepts Triple-layer Filter Method. New Technology of Library and Information Service, DOI:10.11925/infotech.1003-3513.2015.04.04.
链接本文:  
http://manu44.magtech.com.cn/Jwk_infotech_wk3/CN/10.11925/infotech.1003-3513.2015.04.04

[1] 丁晟春, 傅柱. 基于航天叙词表的领域本体半自动化构建研究[J]. 情报理论与实践, 2011, 34(11): 113-116. (Ding Shengchun, Fu Zhu. Research on Semi-automatic Construction of Domain Ontology Based on Space Thesaurus [J]. Information Studies: Theory & Application, 2011, 34(11): 113-116.)
[2] Hahn V. Turning Informal Thesauri into Formal Ontologies: A Feasibility Study on Biomedical Knowledge Re-use [J]. Comparative and Functional Genomics, 2003, 4(1): 94-97.
[3] Missikoff M, Navigli R, Velardi P. Integrated Approach to Web Ontology Learning and Engineering [J]. Computer, 2002, 35(11): 60-63.
[4] 涂新辉, 何婷娉, 李芳, 等. 基于排序学习的文本概念标注方法研究[J]. 北京大学学报: 自然科学版, 2013, 49(1): 153-158. (Tu Xinhui, He Tingping, Li Fang, et al. Learning to Rank Concept Annotation for Text [J]. Acta Scientiarum Naturalium Universitatis Pekinensis, 2013, 49(1): 153-158.)
[5] Shamsfard M., Barforoush A. Learning Ontologies from Natural Language Texts [J]. International Journal of Human Computer Studies, 2004, 60(1): 17-63.
[6] Damerau F J. Evaluating Domain-oriented Muiti-Word Terms from Text [J]. Information Processing and Management, 2006, 29(4): 433-447.
[7] Cohen J D. Highlights: Language-and Domain-Independent Automatic Indexing Terms for Abstracting [J]. Journal of the American Society Information Science, 2007, 46(3): 162-174.
[8] 顾晓雪, 章成志. 中文博客标签的聚类及可视化研究[J].情报理论与实践, 2014, 37(7): 116-121. (Gu Xiaoxue, Zhang Chengzhi. Clustering Analysis and Visualization on Chinese Blog Labels [J]. Information Studies: Theory & Application, 2014, 37(7): 116-121.)
[9] 常春, 赖院根. 数字环境下通用概念获取方法[J]. 图书情报工作, 2011, 55(22): 22-25. (Chang Chun, Lai Yuangen. Some Methods of Obtaining General Concepts in Digital Environment [J]. Library and Information Service, 2011, 55(22): 22-25.)
[10] ICTCLAS [EB/OL]. [2013-07-20]. http://ictclas.nlpir.org/.
[11] 段宇锋, 鞠菲. 基于N-Gram的专业领域中文新词识别研究[J]. 现代图书情报技术, 2012(2): 41-47. (Duan Yufeng, Ju Fei. Research on Chinese New Word Recognition in Specialized Field Based on N-Gram [J]. New Technology of Library and Information Service, 2012(2): 41-47.)
[12] 刘海峰, 陈琦, 张以皓. 一种基于互信息的改进文本特征选择[J]. 计算机工程与应用, 2012, 48(25): 1-4. (Liu Haifeng, Chen Qi, Zhang Yihao. Improved Mutual Information Method of Feature Selection in Text Categorization [J]. Computer Engineering and Applications, 2012, 48(25): 1-4.)
[13] 刘文龙, 张桂芸, 陈喆, 等. 基于加权信息熵相似性的协同过滤算法[J]. 郑州大学学报: 工学版, 2012, 33(5): 118-120. (Liu Wenlong, Zhang Guiyun, Chen Zhe, et al. Collaborative Filtering Algorithm Based on Weighted Information Entropy Similarity [J]. Journal of Zhengzhou University: Engineering Science, 2012, 33(5): 118-120.)
[14] 程波波, 张友华, 李绍稳, 等. 茶学本体学习中的概念抽取[J]. 计算机系统应用, 2010, 19(7): 111-114. (Cheng Bobo, Zhang Youhua, Li Shaowen, et al. Concept Extraction in Tea Ontology Learning [J]. Computer Systems & Applications, 2010, 19(7): 111-114.)
[15] 何琳. 基于多策略的领域本体术语抽取研究[J]. 中国索引, 2013, 11(1): 45-52. (He Lin. Domain Ontology Terminology Extraction Based on Integrated Strategy Method [J]. China Index, 2013, 11(1): 45-52.)

[1] 曾新红, 蔡庆河, 黄华军, 林伟明. 基于力导向模型的非一致节点群组布局可视化算法研究[J]. 现代图书情报技术, 2014, 30(9): 33-43.
[2] 李鹏, 朱礼军, 刘亚洁, 闫莹莹. 一种改进RBAC模型在规范概念协同工作平台任务管理中的实现[J]. 现代图书情报技术, 2014, 30(2): 86-91.
[3] 薛建武, 赵娜, 王东娜. 面向本体构建的叙词表词间关系细化和应用研究[J]. 现代图书情报技术, 2013, 29(3): 14-20.
[4] 鲜国建, 赵瑞雪, 寇远涛, 朱亮, 张洁. 农业科学叙词表关联数据构建研究与实践[J]. 现代图书情报技术, 2013, 29(11): 8-14.
[5] 黄华军, 曾新红, 林伟明. OTCSS关联数据服务的研究与实现[J]. 现代图书情报技术, 2012, 28(7): 40-47.
[6] 曾新红, 蔡庆河, 曾汉龙, 唐铖, 黄华军, 林伟明. 中文叙词表本体可视化群组布局算法研究与实现[J]. 现代图书情报技术, 2012, (10): 8-15.
[7] 鲜国建, 赵瑞雪, 朱亮, 寇远涛. 农业科学叙词表的SKOS转化及其应用研究[J]. 现代图书情报技术, 2012, (10): 16-20.
[8] 任瑞娟, 米佳, 濮德敏, 张寿华, 刘丽斌, 王乐. 分布式本体编辑系统的设计与实现[J]. 现代图书情报技术, 2011, 27(3): 9-16.
[9] 田金凤, 曾新红, 黄华军, 林伟明. 中文叙词表本体概念定义注释的自动构建研究[J]. 现代图书情报技术, 2011, (11): 9-16.
[10] 常春, 赖院根. 专业概念机器辅助分类方法研究[J]. 现代图书情报技术, 2011, 27(10): 34-39.
[11] 曾新红 黄华军 林伟明. 超大型中文叙词表本体的检索与推理研究[J]. 现代图书情报技术, 2010, 26(7/8): 58-65.
[12] 熊霞 常春 吴雯娜. 等级关系循环错误检查算法的设计与实现*[J]. 现代图书情报技术, 2010, 26(5): 18-22.
[13] 梁健 乔晓东 朱礼军 张运良. 基于ISO 25964标准的叙词表编制系统模型与实现*[J]. 现代图书情报技术, 2010, 26(4): 77-82.
[14] 杜慧平. 国外计算机辅助编制叙词表软件评价*[J]. 现代图书情报技术, 2009, (9): 17-21.
[15] 曾新红,林伟明,明仲. 中文叙词表本体一致性检测机制研究与实现*[J]. 现代图书情报技术, 2008, 24(5): 1-9.
Viewed
Full text


Abstract

Cited

  Shared   
  Discussed   
版权所有 © 2015 《数据分析与知识发现》编辑部
地址:北京市海淀区中关村北四环西路33号 邮编:100190
电话/传真:(010)82626611-6626,82624938
E-mail:jishu@mail.las.ac.cn