基于形式概念分析的词汇相似度计算*

doi:10.11925/infotech.2096-3467.2019.1297

基于形式概念分析的词汇相似度计算^*

刘萍^,^,¹^,², 彭小芳¹

¹武汉大学信息管理学院武汉 430072

²武汉大学数字图书馆研究所武汉 430072

Calculating Word Similarities Based on Formal Concept Analysis

Liu Ping^,^,¹^,², Peng Xiaofang¹

¹School of Information Management, Wuhan University, Wuhan 430072, China

²Institute for Digital Library, Wuhan University, Wuhan 430072, China

通讯作者: 刘萍,ORCID:0000-0003-4695-3264, E-mail:pliuleeds@126.com。

收稿日期: 2019-12-3 修回日期: 2019-12-30 网络出版日期: 2020-05-25

基金资助:

*本文系国家自然科学基金项目“基于个性化知识地图的交互式信息检索系统研究—从用户认知的角度”的研究成果之一. 71573196

Received: 2019-12-3 Revised: 2019-12-30 Online: 2020-05-25

摘要

【目的】 在文献层和词汇层之间加入主题层,研究一种新的词汇相似度计算方法。【方法】 阐述基于形式概念分析（FCA）的主题定义和表示模型,将词汇项映射到主题层级,提出一种基于主题相似度定量刻画词汇相似度的计算方法。【结果】 以信息检索领域为例,以SIGIR会议2006-2016年收录的论文数据为样本进行评测,结果表明本文方法的精确率与召回率比FastText方法有显著提高,最大提升幅度分别达到30%和21%。【局限】 该方法依赖文献关键特征词抽取的质量。【结论】 基于形式概念分析的词汇相似度计算方法有效利用了词汇对应的主题语义关系,能更好地反映词语之间的关联性。

关键词： 词汇相似度 ; 形式概念分析 ; 概念格 ; 主题

Abstract

[Objective] This paper tries to add a topic layer between document and word layers, aiming to calculate word similarities effectively. [Methods] First, we proposed a topic defintion and representation model based on the theory of formal concept analysis. Then, we mapped words to the topic layer. Finally, we developed an algorithm to calculate word similarities with the help of topic-to-topic relationship.[Results] We analyzed papers of SIGIR conference from 2006 to 2016 with the proposed method to calculate word similarities in the field of information retrieval. The precision and recall of the proposed method were up to 30% and 21% higher than those of the FastText method.[Limitations] The proposed method relies on the quality of extracted feature words of documents.[Conclusions] The proposed method utilizes the semantic relations among associated topics, and effectively calculate word similarities.

Keywords： Words Similarity ; Formal Concept Analysis ; Concept Lattices ; Topic

PDF (756KB) 元数据多维度评价相关文章导出 EndNote| Ris| Bibtex 收藏本文

本文引用格式

刘萍, 彭小芳. 基于形式概念分析的词汇相似度计算^*. 数据分析与知识发现[J], 2020, 4(5): 66-74 doi:10.11925/infotech.2096-3467.2019.1297

Liu Ping, Peng Xiaofang. Calculating Word Similarities Based on Formal Concept Analysis. Data Analysis and Knowledge Discovery[J], 2020, 4(5): 66-74 doi:10.11925/infotech.2096-3467.2019.1297

1 引言

词汇是人类语言和思维的基本单元,而词汇相似度计算是对词汇间复杂关系的定量度量^[1]。词汇相似度计算作为一项基础技术在文本分类、主题提取、信息检索、机器翻译以及知识问答等多个领域有着重要应用。由于词汇相似度涉及到词法、句法、语义、语用等多个层面,学者们从不同角度有不同的理解和定义^[2]。但一致认为现实中很少存在能够在文章中进行互换而不影响原来句子表达的相似词汇,因此词汇相似度计算更多是从语义距离的角度考量^[3],本文仍采用“词汇相似度”,但所指宽泛的相似,既包含词汇语义相似关系也包含语义相关关系。

已有不少学者针对词汇相似度进行研究与测试,所提方法大致分为两类：基于知识库和基于统计的方法^[4]。前者利用语义词典^[5,6,7,8]和语义网络^[9,10,11]中规范的知识体系结构计算词汇之间的相似度,后者基于词汇在大规模语料库(包括传统语料库^[12,13,14]和Web语料库^[15,16,17])中的共现关系测量词汇相似度。基于知识库的方法具有坚实的语义学基础,但是收录的词汇有限。而基于统计的方法虽然词汇覆盖面广,却存在数据噪音和语义误差问题。这是因为以往的统计方法大多基于词汇在文献中的上下文信息,只考虑了词汇和文献之间的对应关系(见图1中A部分),而忽略了起桥梁作用的主题信息。本文认为文献虽然由词汇组成,但词汇是通过主题与文献建立联系的。一篇文献的语义实际上是通过主题标注的（B部分）,而主题又是由不同的词汇表达的（C部分）。词汇和文献之间实际上是间接关系。为了提高词汇相似度计算的精准度,有必要在文献层和词汇层之间加入主题层。本文基于形式概念分析理论(Formal Concept Analysis,FCA)^[18],挖掘文献集合中的隐含研究主题,将词汇项映射到主题层级,并提出一种基于主题相似度定量刻画词汇相似度的计算方法,以期能更精准地测量出词汇的语义相似度。具体来说,本文着重研究三个问题：

（1）基于FCA的主题定义和表示模型;

（2）基于FCA的词汇相似度计算方法;

（3）以信息检索领域为例,对基于FCA的词汇相似度计算进行实证研究。

图1

新窗口打开| 下载原图ZIP| 生成PPT

图1 文献、主题、词汇三者之间的关系

Fig.1 The Relationship Among Documents, Topics and Words

2 基于形式概念分析的主题定义及表示模型

任何一个文献集合都是形式与内容的统一。形式是外在物理层次的文献集合,内容是文献内在主题的集合。文献之间存在着隐含且固有的语义关联,对应于文献隐含主题的关联关系,这种关联通常体现在共同关键词上,称之为关键词耦合。Morris等认为,通过共同的词语联系在一起的文献可能表示一个共同的研究主题^[19]。而文献中共享的关键词集合则作为共同研究主题的表征。本文利用形式概念分析探测文献中隐含的研究主题及其关联关系。

形式概念分析是一种建立在数学基础之上,用于对数据集中概念结构的识别、排序和显示的数学分析理论^[18]。以人的认知为中心,将概念诠释为由外延（对象）和内涵（属性）两个部分组成的思想单元。概念的外延被理解为属于这个概念的所有对象集合,而内涵则被认为是所有这些对象所共有的特征集。概念和概念间的泛化和例化关系可以构成一个概念格,因此形式概念分析通过概念格对概念及其层次关系进行形象化描述。

形式概念分析中对概念的定义巧妙地解读了文献与关键词的关系。由一组共同关键词联系在一起的特定文献集合代表一个概念的外延,而这些文献共享的关键词集合代表该概念的内涵（即该组文献包含的主题）。因此本文引入形式概念分析的原理和方法,将文献视为对象,关键词视为属性,将概念视为由文献集合（外延）和关键词集合（内涵）所组成的知识单元。它们之间的关联关系构成形式背景,而对形式背景进行分析和挖掘可以揭示文献集合中隐含的主题及其层次关系,并通过概念格展示出来。下面给出文献集合隐含主题的相关定义：

定义1：文献隐含主题的形式背景 $M$ 是一个三元组 $(D, K, I)$ ,其中 $D$ 是文献（对象）的集合, $K$ 是关键词（属性）的集合, $I$ 是 $D$ 和 $K$ 的二元关系,即 $I \subseteq D \times K$ 。 $dIk$ 或者 $(d, k) \in I$ 则表示文献 $d$ 拥有词汇 $k$ 。表1是一个由5篇文献和5个关键词所构成的形式背景。其中“×”表示文献 $d_{i}$ 包含关键词 $k_{j}$ ,空格表示文献 $d_{i}$ 未包含关键词 $k_{j}$ 。

表1 形式背景示例

Table 1 An Example of Formal Context

	$k_{1}$	$k_{2}$	$k_{3}$	$k_{4}$	$k_{5}$
$d_{1}$	×	×		×	×
$d_{2}$		×	×		×
$d_{3}$	×		×	×	×
$d_{4}$	×	×	×		×
$d_{5}$	×	×	×	×	×

新窗口打开| 下载CSV

定义2：文献集合的主题及形式概念：设 $A$ 是文档集合 $D$ 的一个子集,定义 $f (A) = {k \in K |$ $\forall d \in A, dIk}$ 表示 $A$ 中文档共享的关键词集合,即主题;同理设 $T$ 是词汇集合 $K$ 的一个子集,代表一组词汇构成的主题,定义 $g (T) = {d \in D |\forall k \in T, dIk}$ ,表示共享主题 $T$ 的文档集合。若 $f (A) = T$ 且 $g (T) = A$ ,则称二元组 $(A, T)$ 为形式背景 $M$ 的一个形式概念。以表1为例,假设 $A_{1} = {d_{1}, d_{2}, d_{4}, d_{5}}$ , $T_{1} = {k_{2}, k_{5}}$ ,满足 $f (A_{1}) = T_{1} 且 g (T_{1}) = A_{1}$ ,则 $(A_{1}, T_{1})$ 是 $M$ 上的一个形式概念。

定义3：概念格：设 $(A_{1}, T_{1})$ 和 $(A_{2}, T_{2})$ 是形式背景 $M$ 上的两个形式概念。如果 $A_{1} \subseteq A_{2}$ （或 $T_{2} \subseteq T_{1}$ ）,那么 $(A_{1}, T_{1})$ 被称为 $(A_{2}, T_{2})$ 的子概念, $(A_{2}, T_{2})$ 被称为 $(A_{1}, T_{1})$ 的超概念,并且记为 $(A_{1}, T_{1})$ ≤ $(A_{2}, T_{2})$ 。关系“≤”为形式概念之间的序。形式背景 $M$ 上所有形式概念用这种序组成的集合被表示为 $β (D, K, I)$ ,并且被称为形式背景 $M$ 的概念格。

图2展示了由表1形式背景所构建的概念格,揭示该形式背景中隐含的12个概念及其层次关系。由于每个概念的内涵对应一个主题,因此概念格也同时展示了能反映主题泛化和特化关系的层次结构。可以看到每个下层主题都继承了上层主题中的所有词汇属性。越往概念格的下层走,主题越具体,对应的外延（即文献）也越少。例如：最上层的概念 $C_{1}$ 的内涵（主题）只有一个词汇 $k_{5}$ ,所有5篇文档都共享这个主题;第二层概念 $C_{4}$ 的内涵（主题）包含两个词汇 ${k_{1}, k_{5}}$ ,共享这个主题的文献有4篇文档,分别是 $d_{1}$ 、 $d_{3}$ 、 $d_{4}$ 和 $d_{5}$ ;第三层概念 $C_{6}$ 的内涵（主题）包含三个词汇 $T_{1} = {k_{1}, k_{2}, k_{5}}$ ,共享这个主题的文档有3篇,分别是 $d_{1}$ 、 $d_{4}$ 和 $d_{5}$ ;第四层概念 $C_{9}$ 的内涵（主题）包含4个词汇 ${k_{1}, k_{2}, k_{3}, k_{5}}$ ,共享这个主题的文档有2篇,分别是 $d_{4}$ 和 $d_{5}$ ;第五层概念 $C_{12}$ 的内涵（主题）包含5个词汇 ${k_{1}, k_{2}, k_{3}, k_{4}, k_{5}}$ ,共享这个主题的文献有1篇,即 $d_{5}$ 。

图2

新窗口打开| 下载原图ZIP| 生成PPT

图2 基于表1生成的概念格

Fig.2 Concept Lattice Based on Table1

3 基于FCA的词汇相似度计算

3.1 基于主题的词汇表征

上文描述了通过形式概念分析的方法在文档和词汇之间引入一个潜在的主题层,将文档和词汇都映射到具有层次结构的主题空间。揭示主题的过程是探究文档主题凝聚词语的过程。不同的文档共享不同粒度的主题,当主题粒度宽泛时,对应的词汇少、文献多;当主题粒度具体时,对应的词汇多、文献少。词汇间的语义关系可以从主题的角度进行度量。当两个词汇共同出现在一个主题中,表示这两个词汇具有一定的语义关系。当两个词汇共同出现在多个主题中,表示这两个词汇具有较强的语义关系。

设主题 $T$ 与词汇集 $K$ 的关联矩阵为 $L = {l_{ij}}$ ,当 $T_{i}$ 包含关键词 $k_{j}$ 时, $l_{ij} = 1$ ,否则 $l_{ij} = 0$ ,对 $L$ 进行转置可以得到词汇 $K$ 与主题 $T$ 的关联矩阵 $L^{T}$ 。基于图2概念格得到 $T - K$ 关联矩阵 $L$ ,如表2所示。 $K - T$ 关联矩阵 $L^{T}$ 如表3所示。

表2 基于图2概念格的 $T - K$ 的关联矩阵

Table 2 The Association Matrix of $T - K$ Based on the Concept Lattice in Fig.2

	$k_{1}$	$k_{2}$	$k_{3}$	$k_{4}$	$k_{5}$
$T_{1}$	0	0	0	0	1
$T_{2}$	0	1	0	0	1
$T_{3}$	0	0	1	0	1
$T_{4}$	1	0	0	0	1
$T_{5}$	0	1	1	0	1
$T_{6}$	1	1	0	0	1
$T_{7}$	1	0	1	0	1
$T_{8}$	1	0	0	1	1
$T_{9}$	1	1	1	0	1
$T_{10}$	1	1	0	1	1
$T_{11}$	1	0	1	1	1
$T_{12}$	1	1	1	1	1

新窗口打开| 下载CSV

表3 基于图2概念格的 $K - T$ 关联矩阵

Table 3 The Association Matrix of $K - T$ Based on the Concept Lattice in Fig.2

	$T_{1}$	$T_{2}$	$T_{3}$	$T_{4}$	$T_{5}$	$T_{6}$	$T_{7}$	$T_{8}$	$T_{9}$	$T_{10}$	$T_{11}$	$T_{12}$
$k_{1}$	0	0	0	1	0	1	1	1	1	1	1	1
$k_{2}$	0	1	0	0	1	1	0	0	1	1	0	1
$k_{3}$	0	0	1	0	1	0	1	0	1	0	1	1
$k_{4}$	0	0	0	0	0	0	0	1	0	1	1	1
$k$ ₅	1	1	1	1	1	1	1	1	1	1	1	1

新窗口打开| 下载CSV

基于词汇集 $K$ 与主题 $T$ 的关联矩阵 $L^{T}$ 可以得到基于主题的词汇表征,如公式（1）所示。

（1）

k_{i} = [w_{i 1}, w_{i 2}, \cdot \cdot \cdot, w_{ij}, \cdot \cdot \cdot, w_{ip}]

其中, $w_{ij}$ 的值反映词汇 $k_{i}$ 在主题 $T_{j}$ 中的所属情况,当 $T_{j}$ 包含 $k_{i}$ 时, $w_{ij} = 1$ ,否则 $w_{ij} = 0$ 。该表征可以简化为公式（2）。

（2）

k_{i} = {T_{j}| k_{i} \in T_{j}}

3.2 基于概念格结构的词汇相似度计算

给定两个词汇 $k_{1}$ 和 $k_{2}$ , $k_{1} = {T_{11}, T_{12}, \cdot \cdot \cdot, T_{1 m}}$ , $k_{2} = {T_{21}, T_{22}, \cdot \cdot \cdot, T_{2 n}}$ 分别表示 $k_{1}$ 对应 $m$ 个主题, $k_{2}$ 对应 $n$ 个主题。那么词汇 $k_{1}$ 和 $k_{2}$ 之间的相似度不仅取决于这两个词汇对应的相同维度的主题数量,还取决于两个主题集合中不同的主题对之间的语义关联度。若两个集合中包含的相同主题越多,或两个集合中不同的主题对关联度越高,则两个词汇的相似度越大。词汇相似度的计算如公式（3）所示。

（3）

sim (k_{1}, k_{2}) = \frac{\sum_{i=1}^{m} \sum_{j=1}^{n} sim (T_{1 i}, T_{2 j})}{\sqrt[]{\sum_{i=1}^{m} \sum_{j=1}^{m} sim (T_{1 i}, T_{1 j})} \sqrt[]{\sum_{i=1}^{n} \sum_{j=1}^{n} sim (T_{2 i}, T_{2 j})}}

其中, $T_{1 i}$ 为 $k_{1}$ 对应的第 $i$ 个主题, $T_{2 j}$ 为 $k_{2}$ 对应的第 $j$ 个主题, $sim (T_{1 i}, T_{2 j})$ 表示主题对 $(T_{1 i}, T_{2 j})$ 的相似度。

主题之间的相似度可以通过其在概念格中的结构位置来计算,主要考察两个主题节点的最近公共父节点深度和最短路径长度^[20]。具体来说任意两个主题 $T_{i} 和 T_{j}$ 的相似度计算如公式（4）所示。

（4）

sim (T_{i}, T_{j}) = \frac{2 \times dept h (LCS)}{2 \times dept h (LCS) + distance (T_{i}, T_{j})}

其中, $T_{i}, T_{j}$ 分别表示概念格结构中的两个主题节点; $LCS$ 代表 $T_{i}$ 和 $T_{j}$ 的最近公共父节点; $dept h (LCS)$ 表示最近公共父节点所处的深度（设根节点的深度为1）, $distance (T_{i}, T_{j})$ 代表两个节点之间的最短路径长度。例如选取图2概念格中主题 $T_{6}$ 和主题 $T_{7}$ ,它们的最近公共父节点是 $T_{4}$ , $T_{4}$ 的深度为2。主题 $T_{6}$ 和主题 $T_{7}$ 之间的最短路径为2,因此相似度计算如下所示。

$\begin{array}{l} sim (T_{6}, T_{7}) = \frac{2 \times dept h (T_{4})}{2 \times dept h (T_{4}) + distance (T_{6}, T_{7})} \\ = \frac{2 \times 2}{2 \times 2 + 2} = \frac{2}{3} \end{array}$

4 实验

4.1 实验数据的获取与预处理

本文以信息检索领域为例,选取2006年-2016年国际会议SIGIR收录的论文为实验数据,共计693篇。下载全文后对文章进行预处理,一般英语的分词是以空格拆分单词的,但考虑到有些词组不应该被拆分成独立的词,所以首先从每篇文章作者给出的关键词中抽取词组,构建基础词组库,然后以此为基础对全文进行分词。去除停用词后,再利用TF-IDF方法从每篇文章的全文中抽取权重排名靠前的词汇以扩充文章关键词,将每篇文章的关键词拓展为8个（文章的关键词一般不超过8个）。

从693篇文章中获得5 544个关键词汇,其中不重复的词汇共计1 310个。考虑到较多关键词出现次数较少,不具代表性,因此从中选取词频大于或等于7的高频词汇共180个（累计词频达到3 023次,占总词汇量的54.5%）。将这180个代表词汇作为文献的属性词汇,表4列出了前50个高频关键词。

表4 获取的高频关键词（前50个）

Table 4 High Frequency Keywords (Top 50)

序号	关键词	词频	序号	关键词	词频
1	information search	117	26	entity	22
2	information retrieval	93	27	test collection	22
3	relevance	77	28	personalization	22
4	query	68	29	summarization	21
5	ranking	62	30	statistical analysis	21
6	user	51	31	tweets	21
7	behavior	50	32	log data	20
8	tag	50	33	term	19
9	evaluation	40	34	language model	19
10	clustering	36	35	bm25	19
11	indexing	35	36	search behavior	19
12	text	34	37	task	19
13	recommendation	31	38	eye tracking	19
14	semantics	29	39	spam	19
15	blog	29	40	experiment	19
16	interactive information retrieval	28	41	retrieval model	18
17	effectiveness	27	42	music	18
18	model	27	43	classification	18
19	relevance feedback	26	44	subtopic	18
20	ndcg	25	45	search session	18
21	prediction	23	46	query reformulation	18
22	topic model	23	47	wikipedia	18
23	bayesian	23	48	diversity	18
24	human factors	23	49	visualization	17
25	user interface	22	50	twitter	17

新窗口打开| 下载CSV

4.2 论文主题形式背景及概念格的构建

基于形式概念分析理论,以693篇文档作为对象集合 $D = {d_{1}, d_{2}, \dots, d_{693}}$ ,以180个高频关键词作为属性集合 $K = {k_{1}, k_{2}, \dots, k_{180}}$ ,通过文章关键词关联关系矩阵构建形式背景,如表5所示,并在此基础上构建概念格。概念格的构造实际上是形式背景中隐含概念及其层次关系识别的过程。本文采用批处理算法将形式背景中的对象及其属性转换成概念格中具有偏序层次的概念节点,共挖掘出1 308个概念节点。由于每个概念的内涵对应一个主题,因此也得到1 308个主题及其层次结构。

表5 主题形式背景（部分）

Table 5 Topic Formal Context (Partial)

	relevance	topic model	text	scalability	information search	semantics
d₁	×
d₂		×	×
d₃				×
d₄					×	×

新窗口打开| 下载CSV

4.3 基于FCA的词汇相似度计算结果

针对概念格中的1 308个概念,根据概念内涵（即主题）与词汇的映射关系构建主题与词汇的关联矩阵L,对L进行转置后得到词汇与主题的关联矩阵L^T,并且通过公式（1）和公式（2）进行基于主题的词汇表征。针对任意两个主题,以其在概念格中的结构位置,运用公式（4）计算出1 308个主题之间相似度矩阵,如表6所示。最后通过公式（3）计算出180个词汇之间的相似度矩阵,如表7所示。

表6 主题相似度矩阵（部分）

Table 6 The Matrix of Topic Similarity (Partial)

	T₁	T₂	T₃	…	T₁₃₀₆	T₁₃₀₇	T₁₃₀₈
T₁	1.00	0.73	0.40	…	0.25	0.22	0.25
T₂	0.73	1.00	0.25	…	0.73	0.83	0.73
T₃	0.40	0.25	1.00	…	0.40	0.33	0.40
…	…	…	…		…	…	…
T₁₃₀₆	0.25	0.73	0.40	…	1.00	0.89	0.25
T₁₃₀₇	0.22	0.83	0.33	…	0.89	1.00	0.22
T₁₃₀₈	0.25	0.73	0.40	…	0.25	0.22	1.00

新窗口打开| 下载CSV

表7 词汇相似度矩阵（部分）

Table 7 The Matrix of Words Similarity (Partial)

	k₁	k₂	k₃	…	k₁₇₈	k₁₇₉	k₁₈₀
k₁	1.00	0.58	0.57	…	0.58	0.52	0.56
k₂	0.58	1.00	0.55	…	0.55	0.52	0.56
k₃	0.57	0.55	1.00	…	0.60	0.53	0.57
…	…	…	…		…	…	…
k₁₇₈	0.58	0.55	0.60	…	1.00	0.62	0.58
k₁₇₉	0.52	0.52	0.53	…	0.62	1.00	0.56
k₁₈₀	0.56	0.56	0.57	…	0.58	0.56	1.00

新窗口打开| 下载CSV

4.4 对比分析

通过神经网络模型生成词向量是近年词汇相似度计算统计方法中研究较多的方法,出现了许多词向量模型,也表现出较好的性能,如FastText^[21]。因此,为验证本文方法的有效性,选择FacebookAI研究院（FAIR）基于维基百科和普通爬网数据集训练的FastText词向量模型^[22]进行词汇相似度计算的对比实验。进行对比的词汇类型有两种：单词和词组。以往词汇相似度实证研究中通常只测试单个词汇的相似度,忽略了词组之间的相似度。本文认为词组之间的相似度计算在实际应用中也尤为重要,因此增加了词组相似度的计算,该FastText模型考虑了词汇的形态构成而且自带未登录词（Out-Of-Vocabulary,OOV）功能,可以解决原本词典中不存在的二元或多元词组问题。表8分别列出利用本文方法和FastText方法得出的词汇相似度计算结果(词汇对后括号内的数字代表人工判断的结果,“1”表示相似,“0”表示不相似)。

表8 词汇相似度计算结果对比

Table 8 Comparison of Words Similarity Calculation

词汇对类型	序号	词汇对	相似度
词汇对类型	序号	词汇对	本文方法	FastText方法
单词-单词	1	tweets; twitter(1)	0.837 4	0.816 8
	2	tweets; microblog(1)	0.800 1	0.747 6
	3	spam; email(1)	0.813 4	0.708 2
	4	behavior; opinion(0)	0.478 2	0.598 3
	5	crowdsourcing; twitter(0)	0.482 7	0.636 3
	6	task; opinion(0)	0.463 9	0.533 6
单词-词组	7	opinion; opinion mining(1)	0.920 5	0.605 7
	8	cqa; question answering(1)	0.912 8	0.586 7
	9	crowdsourcing; amazon mechanical turk(1)	0.779 5	0.502 6
	10	click; opinion mining(0)	0.469 5	0.525 7
	11	fusion; query log analysis(0)	0.468 7	0.542 3
	12	visualization; query log analysis(0)	0.470 9	0.549 2
词组-词组	13	log data; query log analysis(1)	0.875 3	0.652 2
	14	query log; query log analysis(1)	0.807 1	0.880 2
	15	information search; search strategy(1)	0.751 9	0.762 7
	16	user study; collaborative filtering(0)	0.482 5	0.715 8
	17	query log; question answering(0)	0.476 7	0.608 1
	18	human factors; opinion mining(0)	0.474 2	0.607 2

新窗口打开| 下载CSV

在每一类型的词汇对中,分别挑选三组词代表相似词汇和不相似词汇进行比较。从表8中可以发现通过本文方法与FastText方法计算的词汇相似度结果有些相差比较大,已在表中加粗标记。

在单词与词组的相似度计算中,序号1-3词汇对的相似度结果相差较小,本文方法和FastText方法都得到较高的相似度数值,这与实际情况相符。“twitter”（推特）是一家美国社交网络及微博客服务的网站,“microblog”是国内一个类似于“twitter”的社交网络平台,“tweets”是推特用户在该平台上发布的信息,因此“tweets”和“twitter”,“tweets”和“microblog”的相似度较高。“spam”有时也指垃圾邮件,因此它与“email”的语义关联很大,具有较高的相似度。序号4-6词汇对没有明显的相似关系,本文方法得出的较低相似度数值更为合理。在单词与词组的相似度计算中,本文方法展现出的计算效果明显优于FastText方法。序号7词汇对是单词与其拓展词的相似度对比,本文方法识别出它们在信息检索领域的强关联性,而FastText词向量方法所得出的相似度值明显偏低。序号8-9词汇对的相似度计算结果中,本文方法与实际情况更为相符。“cqa”是社区问答系统（Community Question Answering System）的缩写;亚马逊土耳其机器人网站是一个典型的众包市场;因此存在较高语义关系。而FastText方法所得出的相似度偏低,部分原因是该模型对输入上下文的每个单词仅采用基于词5-gram格式进行分解,对长度较短的单词（如缩略词）,其句法形态变化会产生过多的噪声,导致预测效果不理想。序号10-12词汇对中,本文方法和FastText方法均得到较为合理的低相似度值。在词组与词组的相似度计算中,两种方法在序号13-15词汇对的计算结果相差较小。然而在序号16-18词汇对中,FastText方法的计算结果明显偏高,其中部分原因在于该方法采用OOV功能解决多元词组问题,导致词组间的区分度不够。

为了进一步全面地评价算法的有效性,本文采取信息检索领域常用的精确率和召回率验证算法性能。首先在180个词汇中人工标注出相似的72对词汇作为标准集合,然后按照表9的方法计算两种算法的精确率和召回率。

表9 精确率与召回率的计算方法

Table 9 The Calculation Method of Precision and Recall

评价指标	描述
精确率（Precision@n）	排名前n的结果中检测出标准集合中的词汇对个数与n个词汇对的百分比。
召回率（Recall@v）	阈值大于v的词汇对中检测出标准集合中的词汇对个数与标准词汇集合所有相似词汇对总数的百分比。

新窗口打开| 下载CSV

（1）精确率对比

针对本文方法和FastText方法输出的前50对词汇,与标准集合中的词汇对进行比较,分别得出前10到前50的精确率,对比结果如表10所示。

表10 精确率对比

Table 10 Comparison of Precision

方法	P@10	P@20	P@30	P@40	P@50
本文方法	1.000	0.850	0.767	0.675	0.600
FastText方法	0.700	0.550	0.433	0.425	0.420

新窗口打开| 下载CSV

（2）召回率对比

在实验中设置不同相似度阈值（0.5,0.6,0.7）,分别计算本文方法和FastText方法在不同阈值下的召回率,对比结果如表11所示。

表11 召回率对比

Table 11 Comparison of Recall

方法	R@0.5	R@0.6	R@0.7
本文方法	1.000	0.819	0.667
FastText方法	1.000	0.680	0.458

新窗口打开| 下载CSV

结合表10和表11可以发现本文方法计算结果的精确率与召回率比FastText方法有显著提高,最大提升幅度分别达到30%和21%。在不同位置的精确率计算结果中,本文方法得出的精确率均高于对比方法,其中前10对词汇的识别精确率更是达到100%;在不同相似度阈值下的召回率计算结果中,本文方法得出的召回率较对比方法存在一定的优势,其中当阈值设置为0.7时,查找出的相似词汇对数量差距达到15对。

综合以上对比数据可以看出,虽然本文使用的语料库较小,但基于FCA的词汇相似度计算效果明显优于基于大规模语料库的FastText方法。其中也有一些词汇对的计算结果比实际值偏高的现象,如表8中第7对词汇的相似度计算结果超过0.9,这是由于选取的SIGIR语料库过小与特征词抽取所导致的误差。整体来说还是得到了较为满意的结果。相对于通过词的上下文集合构建词向量方法,本文充分利用主题间的层次结构映射词汇间的语义关系,从而能得到更为合理和准确的词汇相似度结果,更适用于特定领域的词汇相似度计算。

5 结语

词汇相似度计算是自然语言处理的基础研究问题,且具有广泛的应用领域。现有的词汇相似度计算无论是知识库的方法还是基于统计的方法,都有着自身难以逾越的瓶颈。本文从一个新的视角,即从主题层面研究关键词的关系。在文档和词汇之间加入主题层,通过形式概念分析挖掘隐含主题及层次关系,将词汇项映射到主题层级,提出一种基于主题相似度定量刻画词汇相似度的计算方法。实验结果证明基于FCA的词汇相似度计算性能在精确率与召回率上都明显优于FastText词向量方法,展现了该方法的有效性和潜在优势。但如果要更严格地区分词汇的相似关系和相关关系,仅使用本文的方法还是有局限的。下一步笔者将结合带有词汇语义相似关系的词典优化结果,并探索该方法在文本分类中的具体应用。

作者贡献声明

刘萍：提出研究思路,设计研究方案,论文修订;

彭小芳：进行实验,采集、清洗和分析数据,论文起草。

利益冲突声明

所有作者声明不存在利益冲突关系。

支撑数据

支撑数据由作者自存储,E-mail: pliuleeds@126.com。

[1] 刘萍, 彭小芳. SIGIR_extracted_keywords.txt. SIGIR国际会议在2006-2016年间收录的693篇论文题目和关键词.

[2] 刘萍, 彭小芳. Fca_similarity.xlsx.基于本文方法的180个词汇之间的相似度计算结果.

[3] 刘萍, 彭小芳. Fasttext_similarity.xlsx.基于FastText方法的180个词汇之间的相似度计算结果.

[4] 刘萍, 彭小芳. Sim_words.txt.人工标注的72对相似词汇.

[5] 刘萍, 彭小芳. Fasttext_sim_words(top50).xlsx. FastText方法输出的前50对词汇人工标注结果.

[6] 刘萍, 彭小芳. Fca_sim_words(top50).xlsx.本文方法输出的前50对词汇人工标注结果.

[7] 刘萍, 彭小芳. Precision.txt.两种方法得到的精确率结果.

[8] 刘萍, 彭小芳. Recall.txt.两种方法得到的召回率结果.

参考文献

原文顺序

文献年度倒序

文中引用次数倒序

被引期刊影响因子

[1]

秦春秀, 赵捧未, 刘怀亮.

词语相似度计算研究

[J]. 情报理论与实践, 2007,30(1):105-108.

检索词推荐：