向量空间模型文本建模的语义增量化改进研究
胡吉明, 肖璐
武汉大学信息资源研究中心 武汉 430072
通讯作者: 胡吉明:E-mail:whuhujiming@qq.com

作者贡献声明:

胡吉明: 提出研究思路, 设计研究方案, 实施研究过程, 撰写和修订论文;

肖璐: 采集、清洗和分析数据并进行对比实验。

摘要

【目的】 基于语义增量对向量空间模型文本分类方法进行改进, 并进行实验验证。【方法】 梳理目前文本表示中语义向量引入和改进的相关研究, 提出文本的语义向量表示实现框架。根据主题词和词汇分别与领域本体中概念之间的映射关系, 构建概念层次树和定位词汇, 计算概念语义相似度, 结合语义增量实现文本的语义向量构建。【结果】 通过文本分类的对比实验发现, 本文所提方法可行且有效, 在宏平均准确率、宏平均召回率和宏平均F1方面优于其他方法。【局限】 在向量空间模型基础上的改进, 语义信息的表达不够充分, 应继续探索文本建模的真正语义化实现方法; 应对多种类型数据进行实验验证, 以提高方法的适用性。【结论】 探索原始向量空间模型的语义化问题, 对当前文本分类及其语义关联等研究具有现实意义。

关键词: 文本建模; 语义向量空间模型; 语义增量; 语义相似度
中图分类号:TP391
Semantic Incremental Improvement on Vector Space Model for Text Modeling
Hu Jiming, Xiao Lu
Center for the Studies of Information Resources, Wuhan University, Wuhan 430072, China
Abstract

[Objective] This paper improves the methods of text classification based on VSM using semantic increment, and the model is verified by experiments.[Methods] Combing the studies of semantic vector and its improvement in text representation, this paper improves VSM based on semantic increment, and proposes an implementation frame of semantic vector representation of texts. Furthermore, based on the mapping relationships between words and concepts in domain Ontology, the construction of concept hierarchy tree and words positioning are constructed, semantic similarity of concepts is calculated, and the semantic vector model of texts’ representation is achieved.[Results] The comparative experiments of texts classification demonstrate that the proposed method is feasible and effective, and the performance of this method is better than traditional methods from the perspectives of Precison, Recall and F1-Measure.[Limitations] The description of text semantic information is not good enough, and it is necessary to explore the authentic semantic methods in text modeling. In addition, more comparative experiments on several datasets should be conducted in order to obtain more accurate results.[Conclusions] The semantic improvement on traditional VSM is explored which is important for further text classification and semantic association.

Keyword: Text modeling; Semantic Vector Space Model; Semantic increment; Semantic similarity
1 引言

文本表示或建模方法一直是信息检索、文本分类、信息过滤、数据挖掘等领域研究的重点问题, 基于向量空间模型的文本建模是其研究的主要方向。众所周知, 向量空间模型(Vector Space Model, VSM)于20世纪70年代被杰拉德·索尔顿(Gerard Salton)提出后[ 1], 已广泛应用于信息检索、信息组织及信息推荐中。此后众多学者对其进行了改进, 以提高文本内容表示或描述的准确性。但是, 社会网络环境下信息呈爆炸式增长的趋势越来越严重, 研究者越来越重视语义层次的文本描述和表示, 构建文本表示的语义向量空间模型(Semantic Vector Space Model, SVSM)[ 2]以提高文本表示的精度, 降低计算的复杂度。

近年来, 传统向量空间模型的语义化已成为文本特征描述和表示研究的主要方向。典型研究如杨玉珍等[ 3]从文本表示及特征项之间的组织方式入手, 通过特征词与核心词之间的关联关系树表示文本, 实验发现此方法在特征数量较少的情况下仍能保持较好的分类效果。Chang等[ 4]引入领域本体扩展基于向量空间模型的内容检索功能, 通过描述内容概念之间的关系确定所属的内容主题。Tasi等[ 5]认为当前的相似度计算方法没有考虑信息序列的影响, 因此其将VSM和最大共同子序列(LCS)相结合重新计算词汇权重, 得到词汇之间的语义关系, 结果表明此方法能够提高文本相似度计算的性能。Virpioja等[ 6]利用典型相关分析法(CAA)和无监督学习方法挖掘词汇与文本之间的潜在语义关系。Nasir等[ 7]提出一种语义平滑向量空间模型, 计算词汇与文本之间的语义相关性, 以此提升文本聚类效果。Sbattella等[ 8]提出基于概念层和词汇层相结合的领域知识语义挖掘模型, 使用自然语言处理工具挖掘文本内容蕴含的语法和语义信息, 以此扩展语义信息检索引擎中的领域知识和发现新的潜在概念。

基于此, 挖掘词汇或概念与文本内容之间的语义关联是提高文本向量化表示效果的重要途径, 同时也成为文本分类、信息检索和推荐等后续研究和应用的基础。而当前的一个研究问题则是向量空间模型作为文本表示和建模的基础理论, 如何在原始词汇–文本向量的基础上挖掘或者修正词汇与文本之间的关联关系, 使其能够更加准确地表达文本内容。其中效果较好的一种处理方法是在词汇和文本之间建立基于领域本体的概念层次树, 通过词汇–概念和概念–文本之间的两层转化, 得到词汇与文本之间的语义关系。因此, 本文通过语义增量和语义相似度改进语义向量空间模型, 实现文本主题和词汇与领域本体中概念的映射, 达到准确描述文本特征的目的。

2 基于语义增量的文本语义向量表示机理

在文本语义向量表示中, 本文首先基于LDA主题模型进行文本主题挖掘, 得到两个矩阵: 词汇–主题矩阵(WZ)和文本–主题矩阵(DZ)。在词汇–主题矩阵中, 每一行对应词汇表中的词汇, 每一列对应各个主题(或主题词), 矩阵中的元素值则为某一词汇分配给对应主题的概率; 在文本–主题矩阵中, 每一行对应各个文本, 每一列对应各个主题(或主题词), 矩阵中的元素为文本中的所有词汇分配给某一主题的概率(也可看作是词汇的权重)。 WZ和DZ矩阵中每一行为主题向量和文本向量, 以此为基础进行文本的语义向量构建。

基于SVSM[ 9]的文本表示是将原始向量转换为语义向量, 通过领域本体建立向量空间模型中主题词及特征词汇与领域本体中概念的映射关系, 结合语义相似度[ 10]描述词汇之间的语义关系。SSVM将通过LDA主题模型提取的主题词和词汇映射到领域本体中, 进行文本和词汇的语义信息分析及本体推理[ 11], 得到词汇所对应的深层语义概念, 并把概念作为文本的特征项, 在计算概念特征项权重的前提下, 形成语义空间向量。SSVM能够有效地克服向量空间模型的固有缺陷, 提高文本描述和表示的准确性。

2.1 基于语义向量空间模型的文本表示框架

文本表示的语义向量空间模型构建主要是将初始文本向量映射到潜在语义空间, 生成新的文本向量即语义向量, 其文本表示框架如 图 1所示:

图1 基于语义向量空间模型的文本表示框架

(1) 原始文本向量构建。首先将文本集进行预处理, 通过LDA主题模型提取主题词和相应的词汇, 按照词汇的主题分布情况, 构造D×T维的文本–主题矩阵CDT和V×T维的词汇–主题矩阵CVT

(2) 语义映射。将原始的文本–主题矩阵CDT和词汇–主题矩阵CVT中的主题词和所对应的词汇依次与领域本体中的概念建立映射关系, 将主题词和词汇映射为领域本体中的概念, 并对其进行规范化和泛化处理以及权值修正和优化, 根据概念间的关系形成概念层次树[ 12], 对词汇和主题词关系的分析就转化为对概念层次树的分析。

(3) 文本语义向量构建。经过上述处理后, 将原始矩阵转化为概念关系矩阵, 所反映的不再是词汇、主题词与文本之间简单的频率和分布关系, 而是概念特征项之间以及与文本之间的语义关系, 从而降低了特征项和空间维数, 为准确描述文本特征和提高文本分类的精度打下基础。

2.2 基于词汇语义增量的文本语义表示实现

根据上述文本表示的语义向量空间模型, 模型的各个步骤算法实现如下:

(1) 主题词提取和确定。根据LDA主题模型提取相应的主题词, 在进行语义向量构建时, 需要进行主题词提取, 即选取文本中概率值最大的词汇作为此文本的主题词[ 13], 公式如下:

其中, 为文本d1的主题词, 文本个数 , 词汇个数 , 主题(词)个数 , 表示主题zj在文本dl中出现的概率, max{P((zi=j)|dl)}表示文本中出现的概率值最大的词。

(2) 词汇语义增量计算。假设Z(l,0)为文本d1的主题词, n(l,0)为主题词Z(l,0)在文本dl中出现的次数, 为文本集D中的任意词汇, 则词汇wi与所隶属的文本dl的主题词Z(l,0)之间的语义增量SI(l,i)计算公式如下:

其中, s(l,i)为词汇wi与文本dl的主题词Z(l,0)的语义相似度, 具体计算见3.2节。

(3) 语义向量空间模型构建。给定文本集 和词汇集 , 其中M为文本数,V为词汇数, 则单个文本 的语义空间向量模型如下:

其中, 为文本语义向量, Wli为词汇wi在当前文本dl以及整个文本集中的权重, s(l,i)为词汇wi与当前文本dl的主题词Z(l,0)之间的语义相似度。

因此, 整个文本集合就抽象为一个权重–语义关联矩阵如下:

(4) 基于语义增量的权重计算。在传统向量空间模型权重计算公式 的基础上, 对其进行基于语义增量的改进, 得出新的计算公式STF (Semantic Term Frequency, STF)如下:

其中, 为上述中的语义增量, 为词汇 在文本dl中出现的次数。nwi为词汇wi在文本集中出现的总次数。则基于语义增量的权重(STF-IDF)公式如下:

3 基于概念语义相似度的文本语义建模改进

上述分析已经得出, 基于语义向量空间模型的文本表示或建模须将主题词和词汇转化为本体中的概念表示, 通过概念语义相似度计算进行文本的语义向量表示。因此, 在上述算法的基础上, 基于语义相似度计算对算法进一步改进。

3.1 概念层次树构建与词汇定位

构建领域本体旨在实现某一个特定领域内文本集中词汇之间的语义关联。本文采用IS-A属性[ 14]表示概念关系, 从而将领域本体抽象为概念层次树, 对概念关系的分析转化为对概念层次树的解析, 通过概念层次树中概念的深度和之间的距离计算概念或词汇的语义相似度s(l,i)

在语义相似度计算之前, 必须解决词汇在领域本体中的相对定位问题。本文通过先序遍历算法实现目标主题词的定位, 再以目标主题词为参考实现其他目标词汇的定位[ 15]。领域本体中的目标主题词定位过程如 图3所示:

图2 主题词定位过程

在主题词定位后, 以主题词为参照遍历概念层次树定位词汇。首先遍历主题词的子节点, 若在子节点中未发现目标词汇, 则先序遍历父节点, 直至找到目标词汇。如未发现目标词汇, 则记该词汇与主题词之间的语义相似度为0。目标词汇的定位过程如 图3所示:

图3 目标词汇定位过程

3.2 概念语义相似度计算

概念之间的语义相似度计算是确定词汇和主题词在领域本体中的语义关系的前提[ 16]。根据研究比较[ 17], 为了降低算法在空间和时间上的复杂度, 本文通过计算概念在领域本体中的深度和概念之间的距离实现概念间的语义相似度计算; 词汇所对应的概念在领域本体中的位置决定了概念在领域本体中的深度和概念之间的距离。

(1) 节点概念深度计算[ 18]。在概念层次树中, 设根概念节点Root的深度Dep(Root)为1, 则任一非根节点的概念C在层次树中的深度计算公式如下:

Dep(C)=Dep(parent(C))+1

其中, parent(C)为节点C的父节点。

层次树的深度Dep(Tree)等于树中概念深度的最大值:

Dep(Tree)=max(Dep(C))

(2) 概念距离计算[ 19]。在概念层次树中, 概念之间的距离是由两者的宽度和权值决定的。本文定义从某一概念C引出的边(关系)具有相同的权值W(C), 将概念C的子节点数目定义为其宽度Wid(C), 则概念C的权值计算公式为:

其中, 参数 。从上述公式看出, 处于相同深度的概念宽度越大, 其权值就越低, 反之越高, 保证了概念在层次树中所处的深度由浅入深, 权值也由大变小; 同时也保证了概念的分类从粗糙到细致, 随着概念权值的由大变小, 概念间的相对语义距离也随之变小。

(3) 概念间的语义距离计算。在概念层次树中, 两个概念之间的语义距离Dist(C1, C2)为连接它们的最短路径上所有边的权值之和, 公式如下:

其中, Wi是连接概念C1和C2的最短路径上的第i条边的权值。

从概念层次树的语义分类观点看, 概念C的所有子节点都是由其细分所得。因此, 概念C和其任一子节点的语义距离都小于和其任一兄弟节点的语义距离, 即与其任一子节点的相似度都大于与其兄弟节点的相似度。

(4) 语义相似度计算[ 20]。根据上述语义距离计算的设定, 则概念层次树中任意两个概念的语义距离范围为 , 而其相似度的取值范围为 , 因此概念之间的语义相似度计算公式如下:

其中, (可调节参数)。

3.3 文本语义向量构建

根据上述语义相似度的计算, 可以得到词汇和主题词的语义相似度矩阵Zd如下:

得到词汇与主题词的语义相似度矩阵后, 运用语义增量分别计算每个词汇与当前文本集中主题词的语义增量, 然后计算得出其权重, 得到新的文本–词汇语义关联矩阵:

至此, 经语义相似度计算后得到语义向量空间模型, 以文本–词汇语义向量矩阵的形式展示, 每个文本由矩阵中的每一行向量表示, 从而实现文本的语义向量化表示。至此, 得到每个文本的语义特征向量, 将其作为文本相似度计算和分类的基础。

4 实验分析

实验通过文本分类效果以验证所提方法的有效性和优越性。文本分类实验采用语料库TanCorpV1.0[ 21]中的TanCorp-12单层语料词频格式[ 22], 其在多种经典文本分类算法的评测中均表现良好。选取电脑、房产、教育、科技和娱乐5个子数据集, 随机选取文本集的60%作为训练集, 剩余40%作为预测集, 如 表1所示:

表1 实验数据集

文本预处理后得到训练集文本的原始特征集合及生成原始的基于词汇的文本特征向量[ 23]。利用本体构建工具Protégé创建基于OWL语言的相关文本集领域本体, 其简化形式如 图4所示。使用Java语言在Eclipse平台上实现特征词汇与领域本体概念映射和概念间相似度计算, 将原始向量转化为语义向量, 以此进行基于VSM和SVSM的SVM文本分类实验对比。SVM采用LibCVM工具包[ 24], 本文采用RBF核函数, 其适应性和收敛性较好[ 25]。每次实验重复三次, 最终结果取三次实验的平均值。

图4 科技领域本体

在文本分类的效果评测中, 最常用准确率(Precison)[ 26]、召回率(Recall)[ 27]和两者的综合指标(F1-Measure)来评价实验效果。但是为了从整体上综合评测文本表示性能, 本文在上述基础上采用宏平均作为评估标准。宏平均准确率为:

Pi为第i类的分类准确率

宏平均召回率为:

Ri为第i类的分类召回率

宏平均为:

5类子数据集在两组实验中的准确率、召回率和宏平均结果对比如 表2图5所示:

表2 文本表示实验结果对比

图5 两组分类实验的Macro(F1)值对比

对比 表2图5的实验结果可以得出, 电脑、房产、教育、科技和娱乐文本经过语义向量转化后, 在文本分类上的表现较好, 证明本文所提方法的有效性。

5 结语

文本表示必须进行结构化处理才能作为机器的运算对象, 而传统的向量空间模型等文本表示方法在文本描述准确性和计算精度上存在缺陷, 不但降低了文本相似度、信息检索和推荐的准确性, 而且造成了较高的计算复杂度。因此, 在分析传统文本向量的基础上, 本文通过语义映射, 构建语义向量空间模型, 将文本原始向量转换为文本语义向量。将文本集中的词汇分为两类: 一般词汇和主题词。将词汇和主题词映射到领域本体中的概念层次树中, 根据词汇与主题词所对应的概念在层次树中的深度和宽度, 计算其语义相似度得出词汇与文本主题之间的语义增量, 以此将原始文本–词汇的权重矩阵转换为文本–词汇的语义矩阵, 实现文本的语义向量化表示。文本的语义向量化表示, 提高了文本描述的准确性, 进而改善了文本分类的效果。

参考文献
[1] Salton G, Wong A, Yang C S. A Vector Space Model for Automatic Indexing[J]. Communications of the ACM, 1975, 18(11): 613-620. [本文引用:1] [JCR: 2.511]
[2] Liu G Z. The Semantic Vector Space Model (SVSM): A Text Representation and Searching Technique [C]. In: Proceedings of the 27th Hawaii International Conference on System Science. 1994: 928-937. [本文引用:1]
[3] 杨玉珍, 刘培玉, 姜沛佩. 向量空间模型中结合句法的文本表示研究[J]. 计算机工程, 2011, 37(3): 58-60.
Yang Yuzhen, Liu Peiyu, Jiang Peipei. Research on Text Representation with Combination of Syntactic in Vector Space Model[J]. Computer Engineering, 2011, 37(3): 58-60. [本文引用:1] [CJCR: 0.492]
[4] Chang B, Dho H, Lee Y, et al. Concept Based Learning Contents Retrieval by Using Extended Vector Space Model with Ontology[J]. Information-an International Interdisci-plinary Journal, 2012, 15(2): 793-804. [本文引用:1]
[5] Tasi C, Huang Y, Liu C, et al. Applying VSM and LCS to Develop an Integrated Text Retrieval Mechanism[J]. Expert Systems with Applications, 2012, 39(4): 3974-3982. [本文引用:1] [JCR: 1.854]
[6] Virpioja S, Paukkeri M, Tripathi A, et al. Evaluating Vector Space Models with Canonical Correlation Analysis[J]. Natural Language Engineering, 2012, 18(3): 399-436. [本文引用:1] [JCR: 0.474]
[7] Nasir J A, Varlamis I, Karim A, et al. Semantic Smoothing for Text Clustering[J]. Knowledge-Based Systems, 2012, 54: 216-229. [本文引用:1] [JCR: 4.104]
[8] Sbattella L, Tedesco R. A Novel Semantic Information Retrieval System Based on a Three-level Domain Model[J]. Journal of Systems and Software, 2013, 86(5): 1426-1452. [本文引用:1] [JCR: 1.135]
[9] Liu G Z. Semantic Vector Space Model: Implementation and Evaluation[J]. Journal of the American Society for Information Science, 1997, 48(5): 395-417. [本文引用:1]
[10] Zadeh P D H, Reformat M Z. Assessment of Semantic Similarity of Concepts Defined in Ontology[J]. Information Sciences, 2013, 250: 21-39. [本文引用:1] [JCR: 3.643]
[11] Bobillo F, Delgado M, Sanchez-Sanchez J C. Parallel Algorithms for Fuzzy Ontology Reasoning[J]. IEEE Transactions on Fuzzy Systems, 2013, 21(4): 775-781. [本文引用:1] [JCR: 5.484]
[12] Turney P D, Pantel P. From Frequency to Meaning: Vector Space Models of Semantics[J]. Journal of Artificial Intelligence Research, 2010, 37(1): 141-188. [本文引用:1] [JCR: 1.056]
[13] 余传明, 张小青, 陈雷. 基于LDA模型的评论热点挖掘: 原理与实现[J]. 情报理论与实践, 2010, 33(5): 103-106.
Yu Chuanming, Zhang Xiaoqing, Chen Lei. Mining Hot Topics of User Comment Based on LDA Model: Principle & Approach[J]. Information Studies: Theory & Application, 2010, 33(5): 103-106. [本文引用:1]
[14] Maedche A, Staab S. Ontology Learning for the Semantic Web[J]. IEEE Intelligent Systems, 2001, 16(2): 72-79. [本文引用:1] [JCR: 2.154]
[15] 唐明伟, 卞艺杰, 陶飞飞. 基于领域本体的语义向量空间模型[J]. 情报学报, 2011, 30(9): 951-955.
Tang Mingwei, Bian Yijie, Tao Feifei. Semantic Vector Space Model Based on Domain Ontology[J]. Journal of the China Society for Scientific and Technical Information, 2011, 30(9): 951-955. [本文引用:1] [CJCR: 1.1348]
[16] Oleshchuk V, Pedersen A. Ontology Based Semantic Similarity Comparison of Documents [C]. In: Proceedings of the 14th International Workshop on Database and Expert Systems Applications. IEEE, 2003: 735-738. [本文引用:1]
[17] 魏凯斌, 冉延平, 余牛. 语义相似度的计算方法研究与分析[J]. 计算机技术与发展, 2010, 20(7): 102-105.
Wei Kaibin, Ran Yanping, Yu Niu. The Research and Analysis of Computing Methods on Semantic Similarity[J]. Computer Technology and Development, 2010, 20(7): 102-105. [本文引用:1] [CJCR: 0.74]
[18] Sanchez D, Batet M. A Semantic Similarity Method Based on Information Content Exploiting Multiple Ontologies[J]. Expert Systems with Applications, 2013, 40(4): 1393-1399. [本文引用:1] [JCR: 1.854]
[19] Pietranik M, Nguyen N T. Semantic Distance Measure Between Ontology Concept’s Attributes [C]. In: Proceedings of the 15th International Conference on Knowledge-Based and Intelligent Information and Engineering Systems. Berlin, Heidelberg: Springer-Verlag, 2011: 210-219. [本文引用:1]
[20] Turney P D. Similarity of Semantic Relations[J]. Computational Linguistics, 2006, 32(3): 379-416. [本文引用:1] [JCR: 0.94]
[21] 谭松波, 王月粉. 中文文本分类语料库-TanCorpV1. 0 [OL]. [2013-09-10]. http: //www. searchforum. org. cn/tansongbo/corpus. htm.
Tan Songbo, Wang Yuefen. The Corpus of Chinese Text Classification- TanCorpV1. 0 [OL]. [2013-09-10]. http://www.searchforum.org.cn/tansongbo/corpus.htm. [本文引用:1]
[22] 中国科学院计算技术研究所. ICTCLAS2011[EB/OL]. [2013-09-21]. http: //ictclas. org/ictclas_download. aspx.
Institute of Computing Technology, Chinese Academy of Sciences. ICTCLAS2011[EB/OL]. [2013-09-21]. http://ictclas.org/ictclas_download.aspx. [本文引用:1]
[23] 求TanCorp的文档向量[EB/OL]. [2014-03-10]. http: //www. cnblogs. com/zhangchaoyang/articles/2355397. html.
Calculate the Text Vector from TanCorp [EB/OL]. [2014-03-10]. http://www.cnblogs.com/zhangchaoyang/articles/2355397.html. [本文引用:1]
[24] Tsang I W, Kocsor A, Kwok J T. LibCVM Toolkit Version: 2. 2 (beta)[EB/OL]. [2011-08-29]. http://c2inet.sce.ntu.edu.sg/ivor/cvm.html. [本文引用:1]
[25] Yıldırım E A. Two Algorithms for the Minimum Enclosing Ball Problem[J]. SIAM Journal on Optimization, 2008, 19(3): 1368-1391. [本文引用:1] [JCR: 2.076]
[26] Sebastiani F. Machine Learning in Automated Text Catego-rization[J]. ACM Computing Surveys, 2002, 34(1): 1-47. [本文引用:1] [JCR: 3.543]
[27] Mobasher B, Dai H, Luo T, et al. Discovery and Evaluation of Aggregate Usage Profiles for Web Personalization[J]. Data Mining and Knowledge Discovery, 2002, 6(1): 61-82. [本文引用:1] [JCR: 2.877]