“基于本体集成的文本分类关键技术及其应用研究”专题序
王效岳
山东理工大学科技信息研究所 淄博 255049
摘要

文本分类是目前国内外理论研究的热点领域,在信息检索、数据挖掘、垃圾邮件过滤、数字图书馆等领域具有广泛的应用。随着新一代语义Web的出现和人们对网络信息资源语义分类的需求,基于关键词加权的向量空间模型表征文本的分类方法逐渐呈现出一些问题,如忽略词间重要语义信息,不能解决同义词、多义词、词间上下位关系等;在对海量文献分类时,向量空间维度过高,出现内存不足,分类速度慢等。这些问题的出现为文本分类领域的研究带来新的挑战和研究视角,促进了文本分类新技术和新方法的不断涌现。

在这样的大背景下,针对文本分类方法在发展过程中出现的问题,围绕“本体及其在文本分类中的应用”和“海量网络学术文献自动分类”两个方面展开深入的研究,笔者有幸申请到国家社会科学基金一般项目“海量网络学术文献自动分类研究(项目编号:10BTQ047)”和教育部人文社会科学一般项目“基于本体集成的文本分类关键技术研究(项目编号:09YJA870019)”。

课题研究的总体框架如图1所示:

图1 总体研究框架

本专题4篇论文是上述基金项目的部分研究成果。

(1)《国内外主要本体库比较分析研究》主要从描述语言、存储方式、查询语言、构建平台和应用领域5个方面对国内外主要通用本体库如WordNet、DBpedia、Cyc和HowNet,专业领域本体如生物医学本体(Biomedical Ontology)和企业本体(Enterprise Ontology)等进行比较分析研究,为课题的后续研究奠定基础,同时也为国内外学者在本体库及其应用研究方面提供一些帮助。

(2)《本体集成方法和工具综述》主要通过对国内外本体集成方法和工具进行分析、比较和综合,总结出4种主要的本体集成方法和5种主要的本体集成工具,并从相关概念、本体集成的基本过程、方法的优缺点、工具性能等方面对总结出的本体集成方法和本体集成工具进行综述。

(3)《WordNet与SUMO本体之间的映射机制研究》一文针对本体概念与自然语言词汇之间存在普遍性与特殊性的矛盾,以WordNet同义词典和SUMO本体为研究对象,详细分析两者之间的映射动机,给出自然语言词汇、WordNet同义集和SUMO本体概念之间的映射模型,并深入分析WordNet同义集与SUMO本体概念之间的映射实例, 以便更好地利用WordNet同义词典与SUMO本体概念之间的映射关系去解决本体概念与自然语言词汇之间的矛盾,促进本体更广泛地应用于智能检索、语义分类、数据挖掘等领域。

(4)《基于SUMO和WordNet本体集成的文本分类模型研究》一文以SUMO和WordNet本体库为研究对象,提出一种基于SUMO和WordNet本体集成的文本分类模型,该模型主要利用WordNet同义词集与SUMO本体概念之间的映射关系,对SUMO和WordNet本体库进行集成,形成涵盖WordNet同义词集与SUMO本体概念一一映射关系的集成本体库,然后基于集成本体库 将文档-词向量空间中的词条映射成本体中相应的概念,形成文档-概念向量空间进行文本自动分类。该方法能够大幅度降低向量空间维度,增强特征的通用性,改善特征词对文档的贡献程度,达到提高分类器准确率的目的。

文本分类是一个多学科交叉的研究领域,以上4篇论文仅仅从有限的几个角度反映了文本分类及相关领域的一些研究进展,并在前期研究基础上提出一种新的文本分类方法,还有很多方面值得深入研究。该专辑论文是课题组成员辛勤研究的结果,在此谨向各位作者表示感谢,对山东理工大学科技情报研究所的大力支持表示感谢!同时衷心期待各位专家同行的批评指正。

本专辑论文在撰写过程中得到了《现代图书情报技术》编辑部成员的大力支持和帮助,在此表示诚挚的谢意!

The authors have declared that no competing interests exist.

作者已声明无竞争性利益关系。

参考文献