中文叙词表本体概念定义注释的自动构建研究

doi:10.11925/infotech.1003-3513.2011.11.02

现代图书情报技术

2011, Vol.

Issue (11): 9-16 https://doi.org/10.11925/infotech.1003-3513.2011.11.02

数字图书馆

本期目录 | 过刊浏览 | 高级检索

中文叙词表本体概念定义注释的自动构建研究

田金凤¹, 曾新红^1,2, 黄华军², 林伟明²

1. 深圳大学计算机与软件学院深圳 518060;
2. 深圳大学图书馆深圳 518060

Research on Automatic Construction of Definition Notes for Concepts in OntoThesaurus

Tian Jinfeng¹, Zeng Xinhong^1,2, Huang Huajun², Lin Weiming²

1. College of Computer and Software, Shenzhen University, Shenzhen 518060, China;
2. Shenzhen University Library, Shenzhen 518060, China

摘要
参考文献
相关文章
Metrics

全文: PDF (984 KB) HTML
输出: BibTeX | EndNote (RIS)

摘要设计面向综合性中文叙词表本体的叙词概念定义抽取方法,获得良好的实验效果并已投入实际应用。其中,基于“高频词与句子向量”和“TF*IDF向量”两种定义抽取算法提出的二维相对量的融合算法,能够更有效地抽取出前两种方法的良好结果,有效信息提高比一般可达到60%。

	服务

	把本文推荐给朋友
	加入引用管理器
	E-mail Alert
	RSS
	作者相关文章
	田金凤
	曾新红
	黄华军
	林伟明

关键词 ：中文叙词表本体, OTCSS, 定义抽取, 向量空间模型, 高频词与句子向量, TF*IDF向量, 二维相对量

Abstract：The paper proposes some methods of definition extraction for concepts in the comprehensive OntoThesaurus. They achieve good experiment effects and are applied to the actual OTCSS. Among them, an integrated algorithm named “two-dimensional relative quantity” based on “high-frequency words vector”and “TF*IDF vector”is presented. This algorithm can much effectively extract good results from that of the first two methods, and the effective information improving ratio can reach 60% generally.

Key words： OntoThesaurus OTCSS Definition extraction VSM High-frequency words vector TF*IDF vector Two-dimensional relative quantity

收稿日期: 2011-09-22 出版日期: 2012-01-06

TP18 TP301.6

基金资助:

本文系广东省哲学社会科学“十一五”规划项目“中文知识组织系统的形式化语义描述标准体系研究”(编号GD10CTS02)和广东省自然科学基金团队项目“新型计算模式及其软件开发方法研究”(编号:10351806001000000)的研究成果之一。

引用本文:

田金凤, 曾新红, 黄华军, 林伟明. 中文叙词表本体概念定义注释的自动构建研究[J]. 现代图书情报技术, 2011, (11): 9-16.
Tian Jinfeng, Zeng Xinhong, Huang Huajun, Lin Weiming. Research on Automatic Construction of Definition Notes for Concepts in OntoThesaurus. New Technology of Library and Information Service, 2011, (11): 9-16.

链接本文:

https://manu44.magtech.com.cn/Jwk_infotech_wk3/CN/10.11925/infotech.1003-3513.2011.11.02 或 https://manu44.magtech.com.cn/Jwk_infotech_wk3/CN/Y2011/V/I11/9

[1] W3C. SKOS Simple Knowledge Organization System Reference: W3C Recommendation . http://www.w3.org/TR/skos-reference/.

[2] 宋炜, 张铭. 语义网简明教程[M]. 北京:高等教育出版社, 2004: 22.

[3] 曾新红. 中文叙词表本体——叙词表与本体的融合[J]. 现代图书情报技术, 2009(1): 34-43.

[4] 曾新红, 明仲, 蒋颖,等.中文叙词表本体共建共享系统研究[J]. 情报学报 ,2008, 27(3): 386-394.

[5] 深圳大学图书馆NKOS研究室. 中国分类主题词表本体共建共享系统CCT1_OTCSS CCT1_OTCSS . http://nkos.lib.szu.edu.cn:8080/ThesaurusProjectForCCTWL/login.jsp.

[6] Riloff E, Jones R. Learning Dictionaries for Information Extraction by Multi-Level Boots trapping . In: Proceedings of the 16th National Conference on Artificial Intelligence(AAAI-99), Florida. AAAI Press / The MIT Press,1999.

[7] 贾爱平. 科技文献中术语定义的语言模式研究 . 北京:北京语言大学,2002.

[8] 张榕, 宋柔. 术语定义提取研究[J]. 术语标准化与信息技术, 2006 (1):29-32.

[9] Cui H, Kan M Y, Chua T S. Unsupervised Learning of Soft Patterns for Generating Definitions from Online News . In:Proceedings of the 13th World Wide Web Conference, NewYork. 2004:90-99.

[10] Lampouras G, Androutsopoulos I. Finding Short Definitions of Terms on the Web Pages . In:Proceedings of the 2009 Conference on Empirical Methods in Natural Language Processing. 2009: 1270-1279.

[11] 荀恩东, 李晟. 采用术语定义模式和多特征的新术语及定义识别方法[J]. 计算机研究与发展, 2009, 46(1):62-69.

[12] 许勇, 荀恩东, 贾爱平,等. 基于互联网的术语定义获取系统[J]. 中文信息学报, 2004, 18(4):37-43.

[13] Joho H, Sanderson M. Retrieving Descriptive Phrases from Large Amounts of Free Text . In:Proceedings of the 9th International Conference on Information and Knowledge Management. New York: ACM Press,2000: 180-186.

[14] Klavans J L, Muresan S. Evaluation of DEFINDER: A System to Mine Definitions from Consumer-Oriented Medical Text . In: Proceedings of the 1st ACM/IEEE Joint Conference on Digital Libraries. Virginia. ACM Press, 2001: 201-202.

[15] 宗成庆. 统计自然语言处理[M]. 北京: 清华大学出版社, 2008.

[16] 程显毅, 朱倩, 王进. 中文信息抽取原理及应用[M]. 北京: 科学出版社, 2010.

[17] 黄萱菁, 夏迎炬, 吴立德. 基于向量空间模型的文本过滤系统[J]. 软件学报 ,2003, 14(3):435-442.

[1]	白如江, 冷伏海, 廖君华. 一种基于语义组块特征的改进Cosine文本相似度计算方法^*[J]. 数据分析与知识发现, 2017, 1(6): 56-64.
[2]	尹相权, 李书宁. 基于VSM的美国一流大学图书馆网站导航文本调查与分析[J]. 数据分析与知识发现, 2017, 1(3): 90-95.
[3]	曾新红, 蔡庆河, 黄华军, 林伟明. 基于力导向模型的非一致节点群组布局可视化算法研究[J]. 现代图书情报技术, 2014, 30(9): 33-43.
[4]	谭学清, 周通, 罗琳. 一种基于类平均相似度的文本分类算法[J]. 现代图书情报技术, 2014, 30(9): 66-73.
[5]	李湘东, 廖香鹏, 黄莉. LDA模型下书目信息分类系统的研究与实现[J]. 现代图书情报技术, 2014, 30(5): 18-25.
[6]	胡吉明, 肖璐. 向量空间模型文本建模的语义增量化改进研究[J]. 现代图书情报技术, 2014, 30(10): 49-55.
[7]	沈耕宇, 黄水清, 王东波. 以作者合作共现为源数据的科研团队发掘方法研究[J]. 现代图书情报技术, 2013, 29(1): 57-62.
[8]	黄华军, 曾新红, 林伟明. OTCSS关联数据服务的研究与实现[J]. 现代图书情报技术, 2012, 28(7): 40-47.
[9]	路永和, 何新宇. 锐化高斯模板在文本特征项权重调整方法中的应用[J]. 现代图书情报技术, 2012, (12): 39-44.
[10]	曾新红, 蔡庆河, 曾汉龙, 唐铖, 黄华军, 林伟明. 中文叙词表本体可视化群组布局算法研究与实现[J]. 现代图书情报技术, 2012, (10): 8-15.
[11]	曾新红黄华军林伟明. 超大型中文叙词表本体的检索与推理研究[J]. 现代图书情报技术, 2010, 26(7/8): 58-65.
[12]	张志平李琳娜. NSTL文献检索系统中相关文献推荐功能的设计及实现[J]. 现代图书情报技术, 2010, 26(7/8): 110-113.
[13]	王凯王朝飞. 一种基于向量空间模型的表格检索算法[J]. 现代图书情报技术, 2010, 26(4): 41-45.
[14]	杨渊, 高柳滨. 基于传递闭包方法的非相关文献知识发现探索——以癌药物靶点为例[J]. 现代图书情报技术, 2010, 26(12): 52-57.
[15]	章顺瑞, 游宏梁. 基于层次聚类算法的中文人名消歧[J]. 现代图书情报技术, 2010, 26(11): 64-68.

Viewed

Full text

Abstract

Cited

Shared

Discussed