&nbps;&nbps;文本分类是目前国内外理论研究的热点领域,在信息检索、数据挖掘、垃圾邮件过滤、数字图书馆等领域具有广泛的应用。随着新一代语义Web的出现和人们对网络信息资源语义分类的需求,基于关键词加权的向量空间模型表征文本的分类方法逐渐呈现出一些问题,如忽略词间重要语义信息,不能解决同义词、多义词、词间上下位关系等;在对海量文献分类时,向量空间维度过高,出现内存不足,分类速度慢等。这些问题的出现为文本分类领域的研究带来新的挑战和研究视角,促进了文本分类新技术和新方法的不断涌现。
&nbps;&nbps;在这样的大背景下,针对文本分类方法在发展过程中出现的问题,围绕“本体及其在文本分类中的应用”和“海量网络学术文献自动分类”两个方面展开深入的研究,笔者有幸申请到国家社会科学基金一般项目“海量网络学术文献自动分类研究(项目编号:10BTQ047)”和教育部人文社会科学一般项目“基于本体集成的文本分类关键技术研究(项目编号:09YJA870019)”。
介绍4种国内外主要的通用本体库WordNet、DBpedia、Cyc、HowNet和两个比较成功的专业领域本体库生物医学和企业领域本体库,从描述语言、存储方式、查询语言、构建平台和应用领域5个方面分别对4种通用本体库和领域本体库进行比较分析,为国内外学者在本体库及其应用研究方面提供帮助。
本体集成是消除本体异质、实现语义通信并达到最高层级的语义融合,最后达到知识重用和互操作的过程。对本体集成的4种主要方法和5种主要工具进行综述,并对它们进行比较分析。
针对本体概念与自然语言词汇之间存在普遍性与特殊性的矛盾,以WordNet同义词典和SUMO本体为研究对象,对两者进行简要概述,详细分析两者之间的映射动机,提出自然语言词汇、WordNet同义集和SUMO本体概念之间的映射模型,并深入分析WordNet同义集与SUMO本体概念之间的映射实例、映射效果及应用。希望藉此更好地利用WordNet同义词典与SUMO本体概念之间的映射关系去解决本体概念与自然语言词汇之间的矛盾,促进本体更广泛地应用于智能检索、语义分类、数据挖掘等领域。
针对传统文本分类方法和目前语义分类方法中存在的问题,提出基于SUMO和WordNet本体集成的文本分类模型,该模型利用WordNet同义词集与SUMO本体概念之间的映射关系,将文档-词向量空间中的词条映射成本体中相应的概念,形成文档-概念向量空间进行文本自动分类。实验表明,该方法能够极大降低向量空间维度,提高文本分类性能。
从文献计量学角度对相关文献检索进行分类,分析其在具体实现过程中涉及到的关键技术,重点阐述PubMed和CBM相关文献检索的文本相似度计算方法、主要研究历程及最新研究进展,在对相关文献检索的评价方法和评价指标进行概述的基础上,从正反两方面对其效用进行分析,最后简要论述其发展方向。
设计符合非用户行为的系统功能,可以增加系统使用率。系统地介绍非用户行为的相关研究,区分非用户的类型,提出非用户行为理论,探讨以临境分析、人物角色和生活实验室来探索非用户行为的方法,可作为改进和提升数字图书馆服务系统的设计工具。
针对现有信息检索系统中存在的词不匹配问题,提出一种基于特征词抽取和相关性融合的伪相关反馈查询扩展算法以及新的扩展词权重计算方法。该算法从前列n篇初检局部文档中抽取与原查询相关的特征词,根据特征词在初检文档集中出现的频度以及与原查询的相关度,将特征词确定为最终的扩展词实现查询扩展。实验结果表明,该方法有效,并能提高和改善信息检索性能。
采用提问式融合与相关反馈方法的结合,对现有的TopN文献选取策略研究和分析,提出利用相关度系数选取数量可变的TopN文献进行扩展查询的提问融合算法,即基于可变N反馈的提问融合算法。通过实验对固定N和可变N算法进行对比分析,结果显示可变N反馈在一定程度上可以改进检索性能。
针对学科领域中热点研究主题探测,尝试综合运用共词分析方法与自组织映射(SOM)方法,在词频统计的基础上,分析高频主题词在文献中的共现,并作为输入数据利用SOM Toolbox进行SOM聚类分析,得到领域热点研究主题。以传统医药领域为例进行实证分析,结果表明该方法对领域中热点主题探测有一定效果。
针对文本信息内容结构参差不齐的问题,提出一种评价文本内容结构分析方法,该方法将文本中的句子作为节点,句子之间的共同名词作为边,构建文本复杂网络,并选取复杂网络的拓扑性质对文本结构特征进行分析。基于一个新闻文本案例构建复杂网络,并计算度、强度、最短路径、加权聚类系数等衡量指标,这些指标能很好地评价文本内容结构的好坏,也为理解和提取文本的中心思想、生成摘要、文本检索过滤提供重要参考依据。
对Web2.0环境下12个典型的中英文网络互动问答社区的基本信息、交互性、个性化服务等方面进行比较研究,并通过一个问答实验按照三个领域4类问题,对其回答问题的质量与效率等方面进行评价。研究结果对网络问答社区的进一步完善与发展提出建议。
对传统的共词聚类方法进行完善:依据高频低频词界分公式选取高频词;计算粘合力确定每个类别的中心词;对比分析两个时间段,发现主题演变。以医学信息学为例,从PubMed数据库分别下载1999年-2003年和2004年-2008年该学科相关文献,提取主要主题词,进行共词聚类分析,探索医学信息学学科结构的演变过程。
为预防和控制ETL中所存在的管理不善的问题,保证数据仓库高效的ETL实施,设计基于CWM元数据标准的ETL元数据库系统模型,该模型能描述数据变换的具体步骤,并根据此模型设计系统,从而有效地实现ETL过程管理。
以中小学简介信息分类为例,在分析该类数据特征项少、权重不均等特点的基础上,采用去噪处理、基于模糊集的同义处理等策略构建类别特征库,并以特征库为依据,使用模糊规则构建分类模型,实现对短文本数据的分类。实验结果表明:对于类别特征项较少、权值分布不均的短文本分类,模糊规则分类优于VSM、Rocchio等分类算法。