Please wait a minute...
Advanced Search
现代图书情报技术  2011, Vol. 27 Issue (10): 34-39     https://doi.org/10.11925/infotech.1003-3513.2011.10.07
  知识组织与知识管理 本期目录 | 过刊浏览 | 高级检索 |
专业概念机器辅助分类方法研究
常春, 赖院根
中国科学技术信息研究所 北京 100038
Research on Machine-aided Classification Methods of Domain Concepts
Chang Chun, Lai Yuangen
Institute of Scientific & Technical Information of China, Beijing 100038, China
全文: PDF (506 KB)   HTML  
输出: BibTeX | EndNote (RIS)      
摘要 使用万方数据1987-2009年的专业文献数据,抽取所有工业技术类的16个二级类文献,随机统计这些文献中作者关键词的专业词频与类目间相对词频值的标准差。实验结果为50%以上的关键词可以归到1个类目中,将近90%的关键词可以归到1-3个类目中;如果关键词属于3个或3个以上的类目,当词频小于11时,16%的词可归类,当词频等于大于11时,49%的词可归类。实验结论认为,通过词频统计与标准差计算可以实现机器辅助的关键词快速分类,显著减轻传统人工分类方法的工作量。
服务
把本文推荐给朋友
加入引用管理器
E-mail Alert
RSS
作者相关文章
关键词 叙词表本体概念分类词频    
Abstract:With 1987-2009 documents in Wanfang Data, the paper collects all documents of industrial technology. Within 16 second categories, it computes the keywords frequency, and calculates the standard deviation of keywords within relative categories. There are more than 50% keywords can be attributed to one category, and nearly 90% keywords can be put in 1-3 categories. If keywords belong to 3 or more than 3 categories, when the word frequency is less than 11, 16% of the words can be categorized; when word frequency is equal or greater than 11, and 49% of the words can be categorized. Test concludes that keywords can be classified by machine-aided with keyword frequency statistics and standard deviation, which is better than traditional classification method.
Key wordsThesaurus    Ontology    Concept    Classification    Keywords frequency
收稿日期: 2011-06-13      出版日期: 2011-12-03
: 

G254

 
基金资助:

本文系国家社会科学基金项目“网络环境下叙词表的编制模式与应用方式研究”(项目编号:10BTQ048)的研究成果之一。

引用本文:   
常春, 赖院根. 专业概念机器辅助分类方法研究[J]. 现代图书情报技术, 2011, 27(10): 34-39.
Chang Chun, Lai Yuangen. Research on Machine-aided Classification Methods of Domain Concepts. New Technology of Library and Information Service, 2011, 27(10): 34-39.
链接本文:  
https://manu44.magtech.com.cn/Jwk_infotech_wk3/CN/10.11925/infotech.1003-3513.2011.10.07      或      https://manu44.magtech.com.cn/Jwk_infotech_wk3/CN/Y2011/V27/I10/34
[1] 贺德方.《汉语主题词表》的回顾与展望[J]. 情报理论与实践, 2010,33(2): 1-4.

[2] 戴维民. 信息组织[M]. 北京:高等教育出版社, 2009.

[3] 赵妍, 侯汉清. 中文期刊文献通用词标引分析[J]. 图书与情报, 2007(1): 63-65.

[4] 张琪玉, 侯汉清. 情报检索语言实用教程[M]. 武汉:武汉大学出版社, 2004.

[5] Crouch C J. A Cluster-based Approach to Thesaurus Construction . In:Proceeding of the 11th Annual International ACM/SIGIR Conference on Research & Development in Information Retrieval. Grenoble: ACM Press, 1988:309-320.

[6] Crouch C J, Yang B. Experiments in Automatic Statistical Thesaurus Construction . In:Proceeding of the 15th Annual International ACM/SIGIR Conference on Research & Development in Information Retrieval. Copenhagen: ACM Press, 1992:21-24.

[7] 刘华梅, 侯汉清. 基于受控词表互操作的集成词库构建研究[J]. 中国图书馆学报, 2010,36(3): 67-72.

[8] 侯汉清, 刘华梅, 郝嘉树. 60年来情报检索语言及其互操作进展(1949-2009)[J]. 图书馆杂志, 2009(12): 2-13.

[9] 侯汉清, 薛鹏军. 中文信息自动分类用知识库的设计与构建[J]. 情报学报, 2003, 22(6): 681-686.

[10] 陆勇, 章成志, 侯汉清. 基于百科资源的多策略中文同义词自动抽取研究[J]. 中国图书馆学报 , 2010, 36(1): 56-62.

[11] 常春, 赖院根. 基于文献标题词汇共现获取词间关系研究[J]. 图书情报工作, 2009, 53(8): 17-20.

[12] Bechhofer S,Goble C. Thesaurus Construction Through Knowledge Representation[J]. Data & Knowledge Engineers,2001, 37(1):25-45.

[13] Wartena C,Brussee R. Instanced-based Mapping Between Thesauri and Folksonomies . In:Proceeding of the 7th International Semantic Web Conference. 2008: 356-370.

[14] 万方数据.http://www.wanfangdata.com.cn/.

[15] Salton G, Yang C S. On the Specification of Term Values in Automatic Indexing [J]. Journal of Documentation, 1973, 29(4): 351-372.

[16] Salton G, Buckley C. Term-weighting Approaches in Automatic Text Retrieval [J]. Information Processing & Management, 1988, 24(5): 513-523.

[17] 中国图书资料分类法编辑委员会.中国图书资料分类法(第四版)[M].北京:科学技术文献出版社,2000.
[1] 范少萍,赵雨宣,安新颖,吴清强. 基于卷积神经网络的医学实体关系分类模型研究*[J]. 数据分析与知识发现, 2021, 5(9): 75-84.
[2] 陈杰,马静,李晓峰. 融合预训练模型文本特征的短文本分类方法*[J]. 数据分析与知识发现, 2021, 5(9): 21-30.
[3] 周泽聿,王昊,赵梓博,李跃艳,张小琴. 融合关联信息的GCN文本分类模型构建及其应用研究*[J]. 数据分析与知识发现, 2021, 5(9): 31-41.
[4] 陆泉, 何超, 陈静, 田敏, 刘婷. 基于两阶段迁移学习的多标签分类模型研究*[J]. 数据分析与知识发现, 2021, 5(7): 91-100.
[5] 谢豪,毛进,李纲. 基于多层语义融合的图文信息情感分类研究*[J]. 数据分析与知识发现, 2021, 5(6): 103-114.
[6] 余本功,朱晓洁,张子薇. 基于多层次特征提取的胶囊网络文本分类研究*[J]. 数据分析与知识发现, 2021, 5(6): 93-102.
[7] 孟镇,王昊,虞为,邓三鸿,张宝隆. 基于特征融合的声乐分类研究*[J]. 数据分析与知识发现, 2021, 5(5): 59-70.
[8] 李菲菲,吴璠,王中卿. 基于生成式对抗网络和评论专业类型的情感分类研究 *[J]. 数据分析与知识发现, 2021, 5(4): 72-79.
[9] 王鸿, 舒展, 高印权, 田文洪. 一种单分类器联合多任务网络的隐式句间关系分析方法*[J]. 数据分析与知识发现, 2021, 5(11): 80-88.
[10] 盛姝, 黄奇, 杨洋, 解绮雯, 秦新国. HL7 FHIR框架下中国医疗领域信息交换研究与解决方案[J]. 数据分析与知识发现, 2021, 5(11): 13-28.
[11] 董淼, 苏中琪, 周晓北, 兰雪, 崔志刚, 崔雷. 利用Text-CNN改进PubMedBERT在化学诱导性疾病实体关系分类效果的尝试[J]. 数据分析与知识发现, 2021, 5(11): 145-152.
[12] 冯昊, 李树青. 基于多种支持向量机的多层级联式分类器研究及其在信用评分中的应用*[J]. 数据分析与知识发现, 2021, 5(10): 28-36.
[13] 王艳, 王胡燕, 余本功. 基于多特征融合的中文文本分类研究*[J]. 数据分析与知识发现, 2021, 5(10): 1-14.
[14] 冷基栋,吕学强,姜阳,李果林. 联盟链共识机制研究综述*[J]. 数据分析与知识发现, 2021, 5(1): 56-65.
[15] 曾桢,李纲,毛进,陈璟浩. 区域公共安全数据治理与业务领域本体研究*[J]. 数据分析与知识发现, 2020, 4(9): 41-55.
Viewed
Full text


Abstract

Cited

  Shared   
  Discussed   
版权所有 © 2015 《数据分析与知识发现》编辑部
地址:北京市海淀区中关村北四环西路33号 邮编:100190
电话/传真:(010)82626611-6626,82624938
E-mail:jishu@mail.las.ac.cn