用于计算机辅助文献标引加工系统的自然语言词表构建*

doi:10.11925/infotech.1003-3513.2010.06.04

现代图书情报技术

2010, Vol. 26

Issue (6): 17-24 https://doi.org/10.11925/infotech.1003-3513.2010.06.04

数字图书馆

本期目录 | 过刊浏览 | 高级检索

用于计算机辅助文献标引加工系统的自然语言词表构建*

杨贺^1,2杨奕虹^1,2乔晓东¹李宁²朱礼军¹

¹（中国科学技术信息研究所北京100038）
²（北京万方数据股份有限公司北京100038）

Construction of Natural Language Thesauri for Automatic Assistant Indexing Literature System

Yang He^1,2Yang Yihong^1,2 Qiao Xiaodong¹ Li Ning² Zhu Lijun¹

¹（Institute of Scientific & Technical Information of China，Beijing 100038，China）
²（Beijing Wanfang Data Co.Ltd，Beijing 100038，China）

摘要
参考文献
相关文章
Metrics

全文: PDF (841 KB) HTML
输出: BibTeX | EndNote (RIS)

摘要

讨论计算机辅助标引文献加工系统中自然语言词表系统的建立过程。基于海量文献人工标引，运用计量分析法对多年来积累的人工标引词从词频、词长、词类型、词共现等多方面进行分析，重点阐述运用字面相似度计算词间关系来建立适用于机标和后控词表的自然语言词表的过程。

	服务

	把本文推荐给朋友
	加入引用管理器
	E-mail Alert
	RSS
	作者相关文章
	杨贺
	杨奕虹
	乔晓东
	李宁
	朱礼军

关键词 ：计算机辅助标引, 文献加工, 机标词表, 关键词, 字面相似度算法

Abstract：

The paper mainly discusses the construction of natural language thesauri for automatic assistant indexing literature system. Based on years of massive manual indexing keywords, it analyzes the rules of word frequency, length, type, co-occurrence, and proposes a method for constructing a thesauri of automatic assistant indexing and post controlled vocabulary.

Key words： Automatic assistant indexing Scientific literature processing Thesauri of automatic assistant indexing Keyword Literal similarity algorithm

收稿日期: 2010-04-12 出版日期: 2010-07-26

G254

基金资助:

*本文系“十一五”国家科技支撑计划重点项目《知识组织系统的集成及服务体系研究与实现》子课题“基于集成词表的数据标引加工系统升级改造”(项目编号：2006BAH03B03-02)的研究成果之一。

通讯作者: 杨奕虹 E-mail: yangyh@wanfangdata.com.cn

引用本文:

杨贺杨奕虹乔晓东李宁朱礼军. 用于计算机辅助文献标引加工系统的自然语言词表构建*[J]. 现代图书情报技术, 2010, 26(6): 17-24.
Yang He Yang Yihong Qiao Xiaodong Li Ning Zhu Lijun. Construction of Natural Language Thesauri for Automatic Assistant Indexing Literature System. New Technology of Library and Information Service, 2010, 26(6): 17-24.

链接本文:

https://manu44.magtech.com.cn/Jwk_infotech_wk3/CN/10.11925/infotech.1003-3513.2010.06.04 或 https://manu44.magtech.com.cn/Jwk_infotech_wk3/CN/Y2010/V26/I6/17

［1］张琪玉.积极为自然语言与情报检索语言的结合创造条件——建议大量编制自然语言词表(上)［J］.图书馆杂志,1999，18(9)：7-9.
［2］王群.论自然语言的优势与人工语言的消亡［J］.大学图书馆学报,2004,22(2)：62-65,52.
［3］杨瑜,张文德,陈建芳.用户检索结果选择行为的调查与分析［J］.情报杂志,2009,28(4)：52-55.
［4］周钦强,孙炳达,王义.文本自动分类系统文本预处理方法的研究［J］.计算机应用研究,2005,22(2)：85-86.
［5］宋明亮.汉语词汇字面相似性原理与后控制词表动态维护研究［J］.情报学报,1996,15(4)：261-271.
［6］马费成,望俊成.我国数字信息资源研究的热点领域:共词分析透视［J］.情报理论与实践,2007,30(4)：438-443.
［7］杜慧平,何琳,侯汉清.基于聚类分析的自然语言叙词表的自动构建［J］.国家图书馆学刊,2007,16(3)：44-49.
［8］章成志.基于多层特征的字符串相似度计算模型［J］.情报学报,2005,24(6)：696-701.
［9］仲云云,侯汉清,杜慧平.电子政务主题词表自动构建研究［J］.中国图书馆学报,2008(3)：97-102.
［10］杜慧平,侯汉清.网络环境中汉语叙词表的自动构建研究［J］.情报学报,2008,27(6)：863-869.
［11］刘群,李素建.基于《知网》的词汇语义相似度计算［EB/OL］.［2010-02-20］. http://www.keenage.com/papers/基于《知网》的词汇语义相似度计算.doc.
［12］ Tseng Y H. Automatic Thesaurus Generation for Chinese Documents［J］.Journal of the American Society for Information Science and Technology,2002,53(13):1130-1138.
［13］查贵庭.基于多词表的自动标引技术研究——新华社新闻稿自动标引的实验［J］.情报学报,2002,21(3)：273-277.
［14］ Chung Y M, Lee J Y. A Corpus-based Approach to Comparative Evaluation of Statistical Term Association Measures［J］.Journal of the American Society for Information Science and Technology,2001,52(4):283-296.
［15］ Tsurumaru H, Hitaka T, Yoshida S. An Attempt to Automatic Thesaurus Construction from an Ordinary Japanese Language Dictionary［C］. In: Proceedings of the 11th Conference on Computational Linguistics. Morristown, NJ, USA: Association for Computational Linguistics,1986:445-447.
［16］ Cheung F,Kao B,Cheung D,et al. An Efficient Algorithm for Incremental Update of Concept Spaces［C］. In: Proceedings of the 6th Pacific-Asia Conference on Advances in Knowledge Discovery and Data Mining. Berlin: Springer-Verlag,2002:368-380.
［17］ Crouch C J. An Approach to the Automatic Construction of Global Thesauri［J］.Information Processing and Management,1990,26(5):629-640.
［18］陆勇,侯汉清.面向信息检索的汉语同义词自动识别和挖掘［J］.情报理论与实践,2006,29(4)：472-475.
［19］吴志强.经济信息检索后控制词表的研制［D］.南京：南京农业大学，1999.
［20］朱毅华.智能搜索引擎中的同义词识别算法研究［D］.南京：南京农业大学，2001.
［21］张琪玉.积极为自然语言与情报检索语言的结合创造条件──建议大量编制自然语言词表(下)［J］. 图书馆杂志,1999,18(10):8-10.

[1]	文秀贤,徐健. 基于用户评论的商品特征提取及特征价格研究 ^*[J]. 数据分析与知识发现, 2019, 3(7): 42-51.
[2]	曾庆田,胡晓慧,李超. 融合主题词嵌入和网络结构分析的主题关键词提取方法 ^*[J]. 数据分析与知识发现, 2019, 3(7): 52-60.
[3]	张震,曾金. *面向用户评论的关键词抽取研究^——以美团为例**[J]. 数据分析与知识发现, 2019, 3(3): 36-44.
[4]	李钰曼,陈志泊,许福. 基于KACC模型的文本分类研究 ^*[J]. 数据分析与知识发现, 2019, 3(10): 89-97.
[5]	王培霞,余海,陈力,王永吉. 科技查新中检索词智能抽取系统的设计与实现^*[J]. 现代图书情报技术, 2016, 32(11): 82-93.
[6]	许德山, 李辉, 张运良. 文献关键词链接标引方法研究[J]. 现代图书情报技术, 2015, 31(9): 31-37.
[7]	李军锋, 吕学强, 周绍钧. 带权复杂图模型的专利关键词标引研究[J]. 现代图书情报技术, 2015, 31(3): 26-32.
[8]	李湘东, 曹环, 丁丛, 黄莉. 利用《知网》和领域关键词集扩展方法的短文本分类研究[J]. 现代图书情报技术, 2015, 31(2): 31-38.
[9]	张颖怡, 章成志, 池雪花, 李蕾. 科研用户博文关键词标注行为差异研究——以科学网博客为例[J]. 现代图书情报技术, 2015, 31(10): 13-21.
[10]	夏冬, 肖晓旦, 李国垒, 陈先来. 基于潜在语义分析的关键词-分类号对应关系研究[J]. 现代图书情报技术, 2014, 30(12): 92-96.
[11]	夏天. 词语位置加权TextRank的关键词抽取研究[J]. 现代图书情报技术, 2013, 29(9): 30-34.
[12]	王昊, 邹杰利, 邓三鸿. 面向中文图书的自动标引模型构建及实验分析[J]. 现代图书情报技术, 2013, 29(7/8): 55-62.
[13]	杨贺, 杨奕虹, 李宁. 关键词-分类号关联词表构建[J]. 现代图书情报技术, 2013, 29(7/8): 107-113.
[14]	刘萍, 郭月培, 郭怡婷. 利用作者关键词网络探测作者相似性[J]. 现代图书情报技术, 2013, (12): 62-69.
[15]	叶春蕾, 冷伏海. 基于词汇链的路线图关键词抽取方法研究[J]. 现代图书情报技术, 2013, 29(1): 50-56.

Viewed

Full text

Abstract

Cited

Shared

Discussed