Advanced Search

数据分析与知识发现, 2020, 4(5): 66-74 doi: 10.11925/infotech.2096-3467.2019.1297

研究论文

基于形式概念分析的词汇相似度计算*

刘萍,,1,2, 彭小芳1

1武汉大学信息管理学院 武汉 430072

2武汉大学数字图书馆研究所 武汉 430072

Calculating Word Similarities Based on Formal Concept Analysis

Liu Ping,,1,2, Peng Xiaofang1

1School of Information Management, Wuhan University, Wuhan 430072, China

2Institute for Digital Library, Wuhan University, Wuhan 430072, China

通讯作者: 刘萍,ORCID:0000-0003-4695-3264, E-mail:pliuleeds@126.com

收稿日期: 2019-12-3   修回日期: 2019-12-30   网络出版日期: 2020-05-25

基金资助: *本文系国家自然科学基金项目“基于个性化知识地图的交互式信息检索系统研究—从用户认知的角度”的研究成果之一.  71573196

Received: 2019-12-3   Revised: 2019-12-30   Online: 2020-05-25

摘要

【目的】 在文献层和词汇层之间加入主题层,研究一种新的词汇相似度计算方法。【方法】 阐述基于形式概念分析(FCA)的主题定义和表示模型,将词汇项映射到主题层级,提出一种基于主题相似度定量刻画词汇相似度的计算方法。【结果】 以信息检索领域为例,以SIGIR会议2006-2016年收录的论文数据为样本进行评测,结果表明本文方法的精确率与召回率比FastText方法有显著提高,最大提升幅度分别达到30%和21%。【局限】 该方法依赖文献关键特征词抽取的质量。【结论】 基于形式概念分析的词汇相似度计算方法有效利用了词汇对应的主题语义关系,能更好地反映词语之间的关联性。

关键词: 词汇相似度 ; 形式概念分析 ; 概念格 ; 主题

Abstract

[Objective] This paper tries to add a topic layer between document and word layers, aiming to calculate word similarities effectively. [Methods] First, we proposed a topic defintion and representation model based on the theory of formal concept analysis. Then, we mapped words to the topic layer. Finally, we developed an algorithm to calculate word similarities with the help of topic-to-topic relationship.[Results] We analyzed papers of SIGIR conference from 2006 to 2016 with the proposed method to calculate word similarities in the field of information retrieval. The precision and recall of the proposed method were up to 30% and 21% higher than those of the FastText method.[Limitations] The proposed method relies on the quality of extracted feature words of documents.[Conclusions] The proposed method utilizes the semantic relations among associated topics, and effectively calculate word similarities.

Keywords: Words Similarity ; Formal Concept Analysis ; Concept Lattices ; Topic

PDF (756KB) 元数据 多维度评价 相关文章 导出 EndNote| Ris| Bibtex  收藏本文

本文引用格式

刘萍, 彭小芳. 基于形式概念分析的词汇相似度计算*. 数据分析与知识发现[J], 2020, 4(5): 66-74 doi:10.11925/infotech.2096-3467.2019.1297

Liu Ping, Peng Xiaofang. Calculating Word Similarities Based on Formal Concept Analysis. Data Analysis and Knowledge Discovery[J], 2020, 4(5): 66-74 doi:10.11925/infotech.2096-3467.2019.1297

1 引言

词汇是人类语言和思维的基本单元,而词汇相似度计算是对词汇间复杂关系的定量度量[1]。词汇相似度计算作为一项基础技术在文本分类、主题提取、信息检索、机器翻译以及知识问答等多个领域有着重要应用。由于词汇相似度涉及到词法、句法、语义、语用等多个层面,学者们从不同角度有不同的理解和定义[2]。但一致认为现实中很少存在能够在文章中进行互换而不影响原来句子表达的相似词汇,因此词汇相似度计算更多是从语义距离的角度考量[3],本文仍采用“词汇相似度”,但所指宽泛的相似,既包含词汇语义相似关系也包含语义相关关系。

已有不少学者针对词汇相似度进行研究与测试,所提方法大致分为两类:基于知识库和基于统计的方法[4]。前者利用语义词典[5,6,7,8]和语义网络[9,10,11]中规范的知识体系结构计算词汇之间的相似度,后者基于词汇在大规模语料库(包括传统语料库[12,13,14]和Web语料库[15,16,17])中的共现关系测量词汇相似度。基于知识库的方法具有坚实的语义学基础,但是收录的词汇有限。而基于统计的方法虽然词汇覆盖面广,却存在数据噪音和语义误差问题。这是因为以往的统计方法大多基于词汇在文献中的上下文信息,只考虑了词汇和文献之间的对应关系(见图1中A部分),而忽略了起桥梁作用的主题信息。本文认为文献虽然由词汇组成,但词汇是通过主题与文献建立联系的。一篇文献的语义实际上是通过主题标注的(B部分),而主题又是由不同的词汇表达的(C部分)。词汇和文献之间实际上是间接关系。为了提高词汇相似度计算的精准度,有必要在文献层和词汇层之间加入主题层。本文基于形式概念分析理论(Formal Concept Analysis,FCA) [18],挖掘文献集合中的隐含研究主题,将词汇项映射到主题层级,并提出一种基于主题相似度定量刻画词汇相似度的计算方法,以期能更精准地测量出词汇的语义相似度。具体来说,本文着重研究三个问题:

(1)基于FCA的主题定义和表示模型;

(2)基于FCA的词汇相似度计算方法;

(3)以信息检索领域为例,对基于FCA的词汇相似度计算进行实证研究。

图1

图1   文献、主题、词汇三者之间的关系

Fig.1   The Relationship Among Documents, Topics and Words


2 基于形式概念分析的主题定义及表示模型

任何一个文献集合都是形式与内容的统一。形式是外在物理层次的文献集合,内容是文献内在主题的集合。文献之间存在着隐含且固有的语义关联,对应于文献隐含主题的关联关系,这种关联通常体现在共同关键词上,称之为关键词耦合。Morris等认为,通过共同的词语联系在一起的文献可能表示一个共同的研究主题[19]。而文献中共享的关键词集合则作为共同研究主题的表征。本文利用形式概念分析探测文献中隐含的研究主题及其关联关系。

形式概念分析是一种建立在数学基础之上,用于对数据集中概念结构的识别、排序和显示的数学分析理论[18]。以人的认知为中心,将概念诠释为由外延(对象)和内涵(属性)两个部分组成的思想单元。概念的外延被理解为属于这个概念的所有对象集合,而内涵则被认为是所有这些对象所共有的特征集。概念和概念间的泛化和例化关系可以构成一个概念格,因此形式概念分析通过概念格对概念及其层次关系进行形象化描述。

形式概念分析中对概念的定义巧妙地解读了文献与关键词的关系。由一组共同关键词联系在一起的特定文献集合代表一个概念的外延,而这些文献共享的关键词集合代表该概念的内涵(即该组文献包含的主题)。因此本文引入形式概念分析的原理和方法,将文献视为对象,关键词视为属性,将概念视为由文献集合(外延)和关键词集合(内涵)所组成的知识单元。它们之间的关联关系构成形式背景,而对形式背景进行分析和挖掘可以揭示文献集合中隐含的主题及其层次关系,并通过概念格展示出来。下面给出文献集合隐含主题的相关定义:

定义1:文献隐含主题的形式背景 M是一个三元组 (D,K,I),其中 D是文献(对象)的集合, K是关键词(属性)的集合, IDK的二元关系,即 ID×KdIk或者 (d,k)I则表示文献 d拥有词汇 k表1是一个由5篇文献和5个关键词所构成的形式背景。其中“×”表示文献 di包含关键词 kj,空格表示文献 di未包含关键词 kj

表1   形式背景示例

Table 1  An Example of Formal Context

k1k2k3k4k5
d1××××
d2×××
d3××××
d4××××
d5×××××

新窗口打开| 下载CSV


定义2:文献集合的主题及形式概念:设 A是文档集合 D的一个子集,定义 fA={kK|dA,dIk}表示 A中文档共享的关键词集合,即主题;同理设 T是词汇集合 K的一个子集,代表一组词汇构成的主题,定义 gT={dDkT,dIk},表示共享主题 T的文档集合。若 fA=TgT=A,则称二元组 (A,T)为形式背景 M的一个形式概念。以表1为例,假设 A1={d1,d2,d4,d5}, T1={k2,k5},满足 f(A1)=T1g(T1)=A1,则 (A1,T1)M上的一个形式概念。

定义3:概念格:设 (A1,T1)(A2,T2)是形式背景 M上的两个形式概念。如果 A1A2(或 T2T1),那么 (A1,T1)被称为 (A2,T2)的子概念, (A2,T2)被称为 (A1,T1)的超概念,并且记为 (A1,T1)(A2,T2)。关系“≤”为形式概念之间的序。形式背景 M上所有形式概念用这种序组成的集合被表示为 β(D,K,I),并且被称为形式背景 M的概念格。

图2展示了由表1形式背景所构建的概念格,揭示该形式背景中隐含的12个概念及其层次关系。由于每个概念的内涵对应一个主题,因此概念格也同时展示了能反映主题泛化和特化关系的层次结构。可以看到每个下层主题都继承了上层主题中的所有词汇属性。越往概念格的下层走,主题越具体,对应的外延(即文献)也越少。例如:最上层的概念 C1的内涵(主题)只有一个词汇 k5,所有5篇文档都共享这个主题;第二层概念 C4的内涵(主题)包含两个词汇 {k1,k5},共享这个主题的文献有4篇文档,分别是 d1d3d4d5;第三层概念 C6的内涵(主题)包含三个词汇 T1={k1,k2,k5},共享这个主题的文档有3篇,分别是 d1d4d5;第四层概念 C9的内涵(主题)包含4个词汇 {k1,k2,k3,k5},共享这个主题的文档有2篇,分别是 d4d5;第五层概念 C12的内涵(主题)包含5个词汇 {k1,k2,k3,k4,k5},共享这个主题的文献有1篇,即 d5

图2

图2   基于表1生成的概念格

Fig.2   Concept Lattice Based on Table1


3 基于FCA的词汇相似度计算

3.1 基于主题的词汇表征

上文描述了通过形式概念分析的方法在文档和词汇之间引入一个潜在的主题层,将文档和词汇都映射到具有层次结构的主题空间。揭示主题的过程是探究文档主题凝聚词语的过程。不同的文档共享不同粒度的主题,当主题粒度宽泛时,对应的词汇少、文献多;当主题粒度具体时,对应的词汇多、文献少。词汇间的语义关系可以从主题的角度进行度量。当两个词汇共同出现在一个主题中,表示这两个词汇具有一定的语义关系。当两个词汇共同出现在多个主题中,表示这两个词汇具有较强的语义关系。

设主题 T与词汇集 K的关联矩阵为 L={lij},当 Ti包含关键词 kj时, lij=1,否则 lij=0,对 L进行转置可以得到词汇 K与主题 T的关联矩阵 LT。基于图2概念格得到 T-K关联矩阵 L,如表2所示。 K-T关联矩阵 LT表3所示。

表2   基于图2概念格的T-K的关联矩阵

Table 2  The Association Matrix of T-K Based on the Concept Lattice in Fig.2

k1k2k3k4k5
T100001
T201001
T300101
T410001
T501101
T611001
T710101
T810011
T911101
T1011011
T1110111
T1211111

新窗口打开| 下载CSV


表3   基于图2概念格的K-T关联矩阵

Table 3  The Association Matrix of K-T Based on the Concept Lattice in Fig.2

T1T2T3T4T5T6T7T8T9T10T11T12
k1000101111111
k2010011001101
k3001010101011
k4000000010111
k5111111111111

新窗口打开| 下载CSV


基于词汇集 K与主题 T的关联矩阵 LT可以得到基于主题的词汇表征,如公式(1)所示。

ki=[wi1,wi2,···,wij,···,wip]

其中, wij的值反映词汇 ki在主题 Tj中的所属情况,当 Tj包含 ki时, wij=1,否则 wij=0。该表征可以简化为公式(2)。

ki={TjkiTj}

3.2 基于概念格结构的词汇相似度计算

给定两个词汇 k1k2, k1={T11,T12,···,T1m}, k2={T21,T22,···,T2n}分别表示 k1对应 m个主题, k2对应 n个主题。那么词汇 k1k2之间的相似度不仅取决于这两个词汇对应的相同维度的主题数量,还取决于两个主题集合中不同的主题对之间的语义关联度。若两个集合中包含的相同主题越多,或两个集合中不同的主题对关联度越高,则两个词汇的相似度越大。词汇相似度的计算如公式(3)所示。

sim(k1,k2)=i=1mj=1nsim(T1i,T2j)i=1mj=1msim(T1i,T1j)i=1nj=1nsim(T2i,T2j)

其中, T1ik1对应的第 i个主题, T2jk2对应的第 j个主题, sim(T1i,T2j)表示主题对 (T1i,T2j)的相似度。

主题之间的相似度可以通过其在概念格中的结构位置来计算,主要考察两个主题节点的最近公共父节点深度和最短路径长度[20]。具体来说任意两个主题 TiTj的相似度计算如公式(4)所示。

sim(Ti,Tj)=2×depthLCS2×depthLCS+distance(Ti,Tj)

其中, Ti,Tj分别表示概念格结构中的两个主题节点; LCS代表 TiTj的最近公共父节点; depth(LCS)表示最近公共父节点所处的深度(设根节点的深度为1), distance(Ti,Tj)代表两个节点之间的最短路径长度。例如选取图2概念格中主题 T6和主题 T7,它们的最近公共父节点是 T4, T4的深度为2。主题 T6和主题 T7之间的最短路径为2,因此相似度计算如下所示。

sim(T6,T7)=2×depth(T4)2×depth(T4)+distance(T6,T7)=2×22×2+2=23

4 实 验

4.1 实验数据的获取与预处理

本文以信息检索领域为例,选取2006年-2016年国际会议SIGIR收录的论文为实验数据,共计693篇。下载全文后对文章进行预处理,一般英语的分词是以空格拆分单词的,但考虑到有些词组不应该被拆分成独立的词,所以首先从每篇文章作者给出的关键词中抽取词组,构建基础词组库,然后以此为基础对全文进行分词。去除停用词后,再利用TF-IDF方法从每篇文章的全文中抽取权重排名靠前的词汇以扩充文章关键词,将每篇文章的关键词拓展为8个(文章的关键词一般不超过8个)。

从693篇文章中获得5 544个关键词汇,其中不重复的词汇共计1 310个。考虑到较多关键词出现次数较少,不具代表性,因此从中选取词频大于或等于7的高频词汇共180个(累计词频达到3 023次,占总词汇量的54.5%)。将这180个代表词汇作为文献的属性词汇,表4列出了前50个高频关键词。

表4   获取的高频关键词(前50个)

Table 4  High Frequency Keywords (Top 50)

序号关键词词频序号关键词词频
1information search11726entity22
2information retrieval9327test collection22
3relevance7728personalization22
4query6829summarization21
5ranking6230statistical analysis21
6user5131tweets21
7behavior5032log data20
8tag5033term19
9evaluation4034language model19
10clustering3635bm2519
11indexing3536search behavior19
12text3437task19
13recommendation3138eye tracking19
14semantics2939spam19
15blog2940experiment19
16interactive information
retrieval
2841retrieval model18
17effectiveness2742music18
18model2743classification18
19relevance feedback2644subtopic18
20ndcg2545search session18
21prediction2346query reformulation18
22topic model2347wikipedia18
23bayesian2348diversity18
24human factors2349visualization17
25user interface2250twitter17

新窗口打开| 下载CSV


4.2 论文主题形式背景及概念格的构建

基于形式概念分析理论,以693篇文档作为对象集合 D={d1,d2,,d693},以180个高频关键词作为属性集合 K={k1,k2,,k180},通过文章关键词关联关系矩阵构建形式背景,如表5所示,并在此基础上构建概念格。概念格的构造实际上是形式背景中隐含概念及其层次关系识别的过程。本文采用批处理算法将形式背景中的对象及其属性转换成概念格中具有偏序层次的概念节点,共挖掘出1 308个概念节点。由于每个概念的内涵对应一个主题,因此也得到1 308个主题及其层次结构。

表5   主题形式背景(部分)

Table 5  Topic Formal Context (Partial)

relevancetopic modeltextscalabilityinformation searchsemantics
d1×
d2××
d3×
d4××

新窗口打开| 下载CSV


4.3 基于FCA的词汇相似度计算结果

针对概念格中的1 308个概念,根据概念内涵(即主题)与词汇的映射关系构建主题与词汇的关联矩阵L,对L进行转置后得到词汇与主题的关联矩阵LT,并且通过公式(1)和公式(2)进行基于主题的词汇表征。针对任意两个主题,以其在概念格中的结构位置,运用公式(4)计算出1 308个主题之间相似度矩阵,如表6所示。最后通过公式(3)计算出180个词汇之间的相似度矩阵,如表7所示。

表6   主题相似度矩阵(部分)

Table 6  The Matrix of Topic Similarity (Partial)

T1T2T3T1306T1307T1308
T11.000.730.400.250.220.25
T20.731.000.250.730.830.73
T30.400.251.000.400.330.40
T13060.250.730.401.000.890.25
T13070.220.830.330.891.000.22
T13080.250.730.400.250.221.00

新窗口打开| 下载CSV


表7   词汇相似度矩阵(部分)

Table 7  The Matrix of Words Similarity (Partial)

k1k2k3k178k179k180
k11.000.580.570.580.520.56
k20.581.000.550.550.520.56
k30.570.551.000.600.530.57
k1780.580.550.601.000.620.58
k1790.520.520.530.621.000.56
k1800.560.560.570.580.561.00

新窗口打开| 下载CSV


4.4 对比分析

通过神经网络模型生成词向量是近年词汇相似度计算统计方法中研究较多的方法,出现了许多词向量模型,也表现出较好的性能,如FastText[21]。因此,为验证本文方法的有效性,选择FacebookAI研究院(FAIR)基于维基百科和普通爬网数据集训练的FastText词向量模型[22]进行词汇相似度计算的对比实验。进行对比的词汇类型有两种:单词和词组。以往词汇相似度实证研究中通常只测试单个词汇的相似度,忽略了词组之间的相似度。本文认为词组之间的相似度计算在实际应用中也尤为重要,因此增加了词组相似度的计算,该FastText模型考虑了词汇的形态构成而且自带未登录词(Out-Of-Vocabulary,OOV)功能,可以解决原本词典中不存在的二元或多元词组问题。表8分别列出利用本文方法和FastText方法得出的词汇相似度计算结果(词汇对后括号内的数字代表人工判断的结果,“1”表示相似,“0”表示不相似)。

表8   词汇相似度计算结果对比

Table 8  Comparison of Words Similarity Calculation

词汇对类型序号词汇对相似度
本文方法FastText方法
单词-单词1tweets; twitter(1)0.837 40.816 8
2tweets; microblog(1)0.800 10.747 6
3spam; email(1)0.813 40.708 2
4behavior; opinion(0)0.478 20.598 3
5crowdsourcing; twitter(0)0.482 70.636 3
6task; opinion(0)0.463 90.533 6
单词-词组7opinion; opinion mining(1)0.920 50.605 7
8cqa; question answering(1)0.912 80.586 7
9crowdsourcing; amazon mechanical turk(1)0.779 50.502 6
10click; opinion mining(0)0.469 50.525 7
11fusion; query log analysis(0)0.468 70.542 3
12visualization; query log analysis(0)0.470 90.549 2
词组-词组13log data; query log analysis(1)0.875 30.652 2
14query log; query log analysis(1)0.807 10.880 2
15information search; search strategy(1)0.751 90.762 7
16user study; collaborative filtering(0)0.482 50.715 8
17query log; question answering(0)0.476 70.608 1
18human factors; opinion mining(0)0.474 20.607 2

新窗口打开| 下载CSV


在每一类型的词汇对中,分别挑选三组词代表相似词汇和不相似词汇进行比较。从表8中可以发现通过本文方法与FastText方法计算的词汇相似度结果有些相差比较大,已在表中加粗标记。

在单词与词组的相似度计算中,序号1-3词汇对的相似度结果相差较小,本文方法和FastText方法都得到较高的相似度数值,这与实际情况相符。“twitter”(推特)是一家美国社交网络及微博客服务的网站,“microblog”是国内一个类似于“twitter”的社交网络平台,“tweets”是推特用户在该平台上发布的信息,因此“tweets”和“twitter”,“tweets”和“microblog”的相似度较高。“spam”有时也指垃圾邮件,因此它与“email”的语义关联很大,具有较高的相似度。序号4-6词汇对没有明显的相似关系,本文方法得出的较低相似度数值更为合理。在单词与词组的相似度计算中,本文方法展现出的计算效果明显优于FastText方法。序号7词汇对是单词与其拓展词的相似度对比,本文方法识别出它们在信息检索领域的强关联性,而FastText词向量方法所得出的相似度值明显偏低。序号8-9词汇对的相似度计算结果中,本文方法与实际情况更为相符。“cqa”是社区问答系统(Community Question Answering System)的缩写;亚马逊土耳其机器人网站是一个典型的众包市场;因此存在较高语义关系。而FastText方法所得出的相似度偏低,部分原因是该模型对输入上下文的每个单词仅采用基于词5-gram格式进行分解,对长度较短的单词(如缩略词),其句法形态变化会产生过多的噪声,导致预测效果不理想。序号10-12词汇对中,本文方法和FastText方法均得到较为合理的低相似度值。在词组与词组的相似度计算中,两种方法在序号13-15词汇对的计算结果相差较小。然而在序号16-18词汇对中,FastText方法的计算结果明显偏高,其中部分原因在于该方法采用OOV功能解决多元词组问题,导致词组间的区分度不够。

为了进一步全面地评价算法的有效性,本文采取信息检索领域常用的精确率和召回率验证算法性能。首先在180个词汇中人工标注出相似的72对词汇作为标准集合,然后按照表9的方法计算两种算法的精确率和召回率。

表9   精确率与召回率的计算方法

Table 9  The Calculation Method of Precision and Recall

评价指标描述
精确率
(Precision@n)
排名前n的结果中检测出标准集合中的词汇对个数与n个词汇对的百分比。
召回率
(Recall@v)
阈值大于v的词汇对中检测出标准集合中的词汇对个数与标准词汇集合所有相似词汇对总数的百分比。

新窗口打开| 下载CSV


(1) 精确率对比

针对本文方法和FastText方法输出的前50对词汇,与标准集合中的词汇对进行比较,分别得出前10到前50的精确率,对比结果如表10所示。

表10   精确率对比

Table 10  Comparison of Precision

方法P@10P@20P@30P@40P@50
本文方法1.0000.8500.7670.6750.600
FastText方法0.7000.5500.4330.4250.420

新窗口打开| 下载CSV


(2) 召回率对比

在实验中设置不同相似度阈值(0.5,0.6,0.7),分别计算本文方法和FastText方法在不同阈值下的召回率,对比结果如表11所示。

表11   召回率对比

Table 11  Comparison of Recall

方法R@0.5R@0.6R@0.7
本文方法1.0000.8190.667
FastText方法1.0000.6800.458

新窗口打开| 下载CSV


结合表10表11可以发现本文方法计算结果的精确率与召回率比FastText方法有显著提高,最大提升幅度分别达到30%和21%。在不同位置的精确率计算结果中,本文方法得出的精确率均高于对比方法,其中前10对词汇的识别精确率更是达到100%;在不同相似度阈值下的召回率计算结果中,本文方法得出的召回率较对比方法存在一定的优势,其中当阈值设置为0.7时,查找出的相似词汇对数量差距达到15对。

综合以上对比数据可以看出,虽然本文使用的语料库较小,但基于FCA的词汇相似度计算效果明显优于基于大规模语料库的FastText方法。其中也有一些词汇对的计算结果比实际值偏高的现象,如表8中第7对词汇的相似度计算结果超过0.9,这是由于选取的SIGIR语料库过小与特征词抽取所导致的误差。整体来说还是得到了较为满意的结果。相对于通过词的上下文集合构建词向量方法,本文充分利用主题间的层次结构映射词汇间的语义关系,从而能得到更为合理和准确的词汇相似度结果,更适用于特定领域的词汇相似度计算。

5 结语

词汇相似度计算是自然语言处理的基础研究问题,且具有广泛的应用领域。现有的词汇相似度计算无论是知识库的方法还是基于统计的方法,都有着自身难以逾越的瓶颈。本文从一个新的视角,即从主题层面研究关键词的关系。在文档和词汇之间加入主题层,通过形式概念分析挖掘隐含主题及层次关系,将词汇项映射到主题层级,提出一种基于主题相似度定量刻画词汇相似度的计算方法。实验结果证明基于FCA的词汇相似度计算性能在精确率与召回率上都明显优于FastText词向量方法,展现了该方法的有效性和潜在优势。但如果要更严格地区分词汇的相似关系和相关关系,仅使用本文的方法还是有局限的。下一步笔者将结合带有词汇语义相似关系的词典优化结果,并探索该方法在文本分类中的具体应用。

作者贡献声明

刘萍:提出研究思路,设计研究方案,论文修订;

彭小芳:进行实验,采集、清洗和分析数据,论文起草。

利益冲突声明

所有作者声明不存在利益冲突关系。

支撑数据

支撑数据由作者自存储,E-mail: pliuleeds@126.com。

[1] 刘萍, 彭小芳. SIGIR_extracted_keywords.txt. SIGIR国际会议在2006-2016年间收录的693篇论文题目和关键词.

[2] 刘萍, 彭小芳. Fca_similarity.xlsx.基于本文方法的180个词汇之间的相似度计算结果.

[3] 刘萍, 彭小芳. Fasttext_similarity.xlsx.基于FastText方法的180个词汇之间的相似度计算结果.

[4] 刘萍, 彭小芳. Sim_words.txt.人工标注的72对相似词汇.

[5] 刘萍, 彭小芳. Fasttext_sim_words(top50).xlsx. FastText方法输出的前50对词汇人工标注结果.

[6] 刘萍, 彭小芳. Fca_sim_words(top50).xlsx.本文方法输出的前50对词汇人工标注结果.

[7] 刘萍, 彭小芳. Precision.txt.两种方法得到的精确率结果.

[8] 刘萍, 彭小芳. Recall.txt.两种方法得到的召回率结果.

参考文献

秦春秀, 赵捧未, 刘怀亮.

词语相似度计算研究

[J]. 情报理论与实践, 2007,30(1):105-108.

[本文引用: 1]

( Qin Chunxiu, Zhao Pengwei, Liu Huailiang.

Computational Research on Word Similarity

[J]. Information Studies: Theory & Practice, 2007,30(1):105-108.)

[本文引用: 1]

刘群, 李素建.

基于《知网》的词汇语义相似度计算

[J]. 中文计算语言学, 2002,7(2):59-76.

[本文引用: 1]

( Liu Qun, Li Sujian.

Word Similarity Computing Based on How-Net

[J]. Chinese Computational Linguisties, 2002,7(2):59-76. )

[本文引用: 1]

韩普, 王东波, 王子敏.

词汇相似度计算和相似词挖掘研究进展

[J]. 情报科学, 2016,34(9):161-165.

[本文引用: 1]

( Han Pu, Wang Dongbo, Wang Zimin.

Research Advancement in Word Similarity Calculation and Mining

[J]. Information Science, 2016,34(9):161-165.)

[本文引用: 1]

刘萍, 陈烨.

词汇相似度研究进展综述

[J].现代图书情报技术, 2012(7):82-89.

[本文引用: 1]

( Liu Ping, Chen Ye.

Survey of the State of the Art in Word Similarity

[J].New Technology of Library and Information Service, 2012(7):82-89.)

[本文引用: 1]

Rada R, Mili H, Bicknell E, et al.

Development and Application of a Metric on Semantic Nets

[J]. IEEE Transactions on Systems, Man, and Cybernetics, 1989,19(1):17-30.

[本文引用: 1]

Gao J B, Zhang B W, Chen X H.

A WordNet-based Semantic Similarity Measurement Combining Edge-counting and Information Content Theory

[J]. Engineering Applications of Artificial Intelligence, 2015,39:80-88.

[本文引用: 1]

朱新华, 马润聪, 孙柳, .

基于知网与词林的词语语义相似度计算

[J]. 中文信息学报, 2016,30(4):29-36.

[本文引用: 1]

( Zhu Xinhua, Ma Runcong, Sun Liu, et al.

Word Semantic Similarity Computation Based on HowNet and CiLin

[J]. Journal of Chinese Information Processing, 2016,30(4):29-36.)

[本文引用: 1]

池哲洁, 张全.

基于概念基元的词语相似度计算研究

[J]. 电子与信息学报, 2017,39(1):150-158.

[本文引用: 1]

( Chi Zhejie, Zhang Quan.

Word Similarity Measurement Based on Concept Primitive

[J]. Journal of Electronics and Information Technology, 2017,39(1):150-158.)

[本文引用: 1]

Strube M, Ponzetto S P .

WikiRelate! Computing Semantic Relatedness Using Wikipedia

[C]// Proceedings of the 21st National Conference on Artificial Intelligence. 2006: 1419-1424.

[本文引用: 1]

Jiang Y, Zhang X, Tang Y, et al.

Feature-based Approaches to Semantic Similarity Assessment of Concepts Using Wikipedia

[J]. Information Processing & Management, 2015,51(3):215-234.

[本文引用: 1]

彭丽针, 吴扬扬.

基于维基百科社区挖掘的词语语义相似度计算

[J]. 计算机科学, 2016,43(4):45-49.

[本文引用: 1]

( Peng Lizhen, Wu Yangyang.

Semantic Similarity Computing Based on Community Mining of Wikipedia

[J]. Computer Science, 2016,43(4):45-49.)

[本文引用: 1]

Salton G.

A Vector Space Model for Automatic Indexing

[J]. Communications of the ACM, 1975,18(11):613-620.

[本文引用: 1]

Saif A, Aziz M J A, Omar N.

Reducing Explicit Semantic Representation Vectors Using Latent Dirichlet Allocation

[J]. Knowledge-Based Systems, 2016,100:145-149.

[本文引用: 1]

吕亚伟, 李芳, 戴龙龙.

基于LDA的中文词语相似度计算

[J]. 北京化工大学学报: 自然科学版, 2016,43(5):79-83.

[本文引用: 1]

( Lv Yawei, Li Fang, Dai Longlong.

Chinese Word Similarity Computing Based on Latent Dirichlet Allocation(LDA) Model

[J]. Journal of Beijing University of Chemical Technology: Natural Science Edition, 2016,43(5):79-83.)

[本文引用: 1]

Bollegala D, Matsuo Y, Ishizuka M.

A Web Search Engine-Based Approach to Measure Semantic Similarity Between Words

[J]. IEEE Transactions on Knowledge and Data Engineering, 2011,23(7):977-990.

DOI:10.1109/TKDE.2010.172      URL     [本文引用: 1]

陈海燕.

基于搜索引擎的词汇语义相似度计算方法

[J]. 计算机科学, 2015,42(1):261-267.

[本文引用: 1]

( Chen Haiyan.

Measuring Semantic Similarity Between Words Using Web Search Engine

[J]. Computer Science, 2015,42(1):261-267.)

[本文引用: 1]

张硕望, 欧阳纯萍, 阳小华, .

融合《知网》和搜索引擎的词汇语义相似度计算

[J]. 计算机应用, 2017,37(4):1056-1060.

[本文引用: 1]

( Zhang Shuowang, Ouyang Chunping, Yang Xiaohua, et al.

Word Semantic Similarity Computation Based on Integrating HowNet and Search Engines

[J]. Computer Applications, 2017,37(4):1056-1060.)

[本文引用: 1]

Wille R .

Restructing Lattice Theory: An Approach Based on Hierarchies of Concepts

[C]// Proceedings of the 7th International Conference on Formal Concept Analysis. 2009: 314-339.

[本文引用: 2]

Morris S A, Yen G G.

Crossmaps: Visualization of Overlapping Relationships in Collections of Journal Papers

[J]. Proceedings of the National Academy of Sciences, 2004,101(S1):5291-5296.

[本文引用: 1]

Wu Z, Palmer M .

Verb Semantic and Lexical Selection

[C]// Proceedings of the 32nd Annual Meeting of the Associations for Computational Linguistics. 1994: 133-138.

[本文引用: 1]

Bojanowski P, Grave E, Joulin A, et al.

Enriching Word Vectors with Subword Information

[J]. Transactions of the Association for Computational Linguistics, 2017,5:135-146.

DOI:10.1162/tacl_a_00051      URL     [本文引用: 1]

Grave E, Bojanowski P, Gupta P , et al.

Learning Word Vectors for 157 Languages

[C]// Proceedings of the 11th International Conference on Language Resources and Evaluation. 2018: 3483-3487.

[本文引用: 1]

/

版权所有 © 2015 《数据分析与知识发现》编辑部
地址:北京市海淀区中关村北四环西路33号 邮编:100190
电话/传真:(010)82626611-6626,82624938
E-mail:jishu@mail.las.ac.cn