Please wait a minute...
Advanced Search
现代图书情报技术  2009, Vol. 25 Issue (5): 22-27     https://doi.org/10.11925/infotech.1003-3513.2009.05.05
  数字图书馆 本期目录 | 过刊浏览 | 高级检索 |
一种基于复合文本描述的科学数据特征表示方法*
孙巍
(中国科学院国家科学图书馆 北京 100190)
(中国科学院研究生院 北京 100049)
A Feature Representation Method of Scientific Data Based on Complex Text Description
Sun Wei
(National Science Library, Chinese Academy of Sciences, Beijing 100190,China)
(Graduate University of Chinese Academy of Sciences, Beijing 100049,China)
全文: PDF (540 KB)  
输出: BibTeX | EndNote (RIS)      
摘要 

特征表示是数据聚类的关键问题之一。当前对科学数据特征表示的深度不够,从而在一定程度上影响科学数据聚类的效果。针对这一问题,提出复合文本描述的概念以及一种基于复合文本描述的科学数据特征表示方法,该方法的主要特点是运用不同的特征权重计算法分别对基于两种文本数据源的候选特征加以表示,并将两种特征集合并,最终实现强化特征集的目的。实验表明,该方法优于传统方法,使科学数据聚类的效果有明显提高。

服务
把本文推荐给朋友
加入引用管理器
E-mail Alert
RSS
作者相关文章
孙巍
关键词 复合文本描述科学数据特征表示权重计算    
Abstract

Feature representation is one of the key issues in data clustering. Currently, feature representation of scientific data is deficient and influences the effect of data clustering.The paper proposes the concept of complex text description and a feature representation method based on it. The method uses different feature weighting computations to represent candidate features from two kinds of data sources respectively, and strengthenes the feature set by merging the two feature sets. Experiments show that the method is much better than kinds of traditional feature representation methods and it can improve the performance of data clustering markedly.

Key wordsComplex Text Description    Scientific Data    Feature Representation    Weighting Computation
收稿日期: 2008-12-09      出版日期: 2009-05-25
: 

TP391

 
基金资助:

*本文系国家科技基础条件平台基金项目子项目“农业科学数据共享中心”(项目编号:2005DKA31800)的研究成果之一。

通讯作者: 孙巍     E-mail: sunwei@mail.las.ac.cn
作者简介: 孙巍
引用本文:   
孙巍. 一种基于复合文本描述的科学数据特征表示方法*[J]. 现代图书情报技术, 2009, 25(5): 22-27.
Sun Wei. A Feature Representation Method of Scientific Data Based on Complex Text Description. New Technology of Library and Information Service, 2009, 25(5): 22-27.
链接本文:  
https://manu44.magtech.com.cn/Jwk_infotech_wk3/CN/10.11925/infotech.1003-3513.2009.05.05      或      https://manu44.magtech.com.cn/Jwk_infotech_wk3/CN/Y2009/V25/I5/22

[1] 焦李成,刘芳,缑水平,等. 智能数据挖掘与知识发现[M]. 西安:西安电子科技大学出版社,2006:16.
[2] 邓绪斌.面向复杂数据源的数据的抽取模型和算法研究[D]. 上海:复旦大学,2005.
[3] Masys D R, Welsh J B, Lynn Fink J,et al. Use of Keyword Hierarchies to Interpret Gene Expression Patterns[J]. Bioinformatics,2001,17(4):319-326.
[4] Liu Y, Brandon M, Navathe S,et al. Text Mining Functional Keywords Associated with Genes[J]. Stud Health Technol Inform,2004,107(Pt 1):292-296.
[5] 李欣宇,傅彦. 一种适合于科学数据的聚类算法[J]. 成都信息工程学院学报,2006,21(3):327-330.
[6] 孙志茹,韩涛,杨文.生物信息学科学数据与科学文献的关联关系分析[J].图书情报工作,2008,52(2):88-91.
[7] Liu Y, Ciliax B J, Borges K,et al. Comparison of Two Schemes for Automatic Keyword Extraction from MEDLINE for Functional Gene Clustering[C]. In:Proc. IEEE Comput. Syst. Bioinform Conf., 2004:394-404.
[8] Liu Y, Navathe S B, Civera J, et al. Text Mining Biomedical Literature for Discovering Gene-to-Gene Relationships: A Comparative Study of Algorithms[J]. IEEE/ACM Transactions on Computational Biology and Bioinformatics, 2005,2(1):62-76.
[9] National Center for Biotechnology Information. Etrez, the Life Sciences Search Engine[EB/OL]. [2008-09-28]. http://www.ncbi.nlm.nih.gov/.
[10] King Yee.生物医学词汇[EB/OL].[2008-02-21]. http://www.medscape.com.cn/download/downloadManager/detail.jsp?id=43.
[11] The U.S. Department of Energy (DOE). Glossary of Bioinformatics Terms[R/OL].[2008-02-21]. http://www.ornl.gov/sci/techresources/Human_Genome/posters/chromosome/genejargon.shtml#sequence.
[12] 基因专业词汇[EB/OL]. [2008-02-21]. http://down.foodmate.net/ziliao/sort/14/7038.html.
[13] 刘海峰,王元元,张学仁.文本分类中一种改进的特征选择方法[J].情报科学,2007,25(10):1534-1537.

[1] 马雨萌, 郭进京, 王昉. e-Science环境下科学数据语义组织模型框架研究[J]. 现代图书情报技术, 2015, 31(7-8): 48-57.
[2] 路永, 王鸿滨. 文本分类中受词性影响的特征权重计算方法[J]. 现代图书情报技术, 2015, 31(4): 18-25.
[3] 刘峰, 张晓林. 科学数据元数据标准述评及其通用化设计研究[J]. 现代图书情报技术, 2015, 31(12): 3-12.
[4] 王辉, Michael Witt, 窦天芳. 普渡大学研究仓储及其支持的科学数据管理服务[J]. 现代图书情报技术, 2015, 31(1): 9-16.
[5] 黄永文, 张建勇, 黄金霞, 王昉. 国外开放科学数据研究综述[J]. 现代图书情报技术, 2013, (5): 21-27.
[6] 刘润达, 彭洁, 涂勇. 一种多维关键词与分类关联的科学数据资源分类导航平台构建方案[J]. 现代图书情报技术, 2010, 26(9): 74-78.
[7] 程肖, 陆蓓, 谌志群. 热点主题词提取方法研究[J]. 现代图书情报技术, 2010, 26(10): 43-48.
[8] 张建中,李望平. 中国科学院科学数据库的建设、应用与发展[J]. 现代图书情报技术, 1997, 13(2): 3-9.
Viewed
Full text


Abstract

Cited

  Shared   
  Discussed   
版权所有 © 2015 《数据分析与知识发现》编辑部
地址:北京市海淀区中关村北四环西路33号 邮编:100190
电话/传真:(010)82626611-6626,82624938
E-mail:jishu@mail.las.ac.cn