面向中文学术文本的单文档关键短语抽取 *

doi:10.11925/infotech.2096-3467.2020.0071

面向中文学术文本的单文档关键短语抽取 ^*

夏天^,^,

中国人民大学数据工程与知识工程教育部重点实验室北京 100872;中国人民大学信息资源管理学院北京 100872

Extracting Key-phrases from Chinese Scholarly Papers

Xia Tian^,^,

Key Laboratory of Data Engineering and Knowledge Engineering of Ministry of Education,Renmin University of China, Beijing 100872, China;School of Information Resource Management, Renmin University of China, Beijing 100872, China

通讯作者: 夏天,ORCID：0000-0001-7564-7368,E-mail:xiat@ruc.edu.cn。

收稿日期: 2020-02-1 网络出版日期: 2020-07-25

基金资助:

*本文系国家社会科学基金重大项目“大数据环境下政务信息资源归档与管理研究”的研究成果之一. 17ZDA293

Received: 2020-02-1 Online: 2020-07-25

摘要

【目的】自动抽取中文学术文本中的关键短语,为学术文本挖掘提供短语级别的概念表达。【方法】引入内部凝聚度和边界自由度两个指标,分别度量短语内部的紧密程度和短语边界的自由组配能力,实现中文双词短语的权威度计算,并与位置加权关键词抽取结果进行融合排序,在此基础上选取TopN个元素生成关键短语。【结果】在构建的中文学术论文数据集上,关键短语抽取算法PhraseRank在准确率、召回率和考虑排序位置的R-MAP评价指标方面,均大幅度优于传统的关键词抽取算法WordRank,其中,R-MAP值相对提升超过了128%。【局限】未识别三个及以上词语构成的关键短语。【结论】相比于关键词,PhraseRank抽取得到的关键短语,与人工标记结果的一致性更高,更能体现中文学术文本的概念表达特点。

关键词： 关键短语抽取 ; 学术文本挖掘 ; TextRank ; 词图

Abstract

[Objective] This paper propose a new method to extract key-phrases from Chinese scholarly articles, aiming to provide concept representation at phrase level for academic text mining.[Methods] First, we introduced the cohesion and freedom concepts to measure the internal tightness of phrases and free collocation ability of boundary words. It helped us compute the authority of bi-word phrases. Then, we merged our list with phrases extracted by position-weighted method. Finally, the TopN elements were retrieved as the final key phrases.[Results] We examined the proposed PhraseRank method with Chinese academic papers, and found its precision, recall and R-MAP values were significantly higher than those of the traditional WordRank algorithm. Among them, the R-MAP value increased by more than 128%.[Limitations] Our method could not identify key phrases with three or more words.[Conclusions] The keyphrases extracted by PhraseRank, which are more consistent with manually labeled results than keywords, effectively describe characteristics of Chinese scholarly papers.

Keywords： Key-phrase Extraction ; Academic Text Mining ; TextRank ; Word Graph

PDF (984KB) 元数据多维度评价相关文章导出 EndNote| Ris| Bibtex 收藏本文

本文引用格式

夏天. 面向中文学术文本的单文档关键短语抽取 ^*. 数据分析与知识发现[J], 2020, 4(7): 76-86 doi:10.11925/infotech.2096-3467.2020.0071

Xia Tian. Extracting Key-phrases from Chinese Scholarly Papers. Data Analysis and Knowledge Discovery[J], 2020, 4(7): 76-86 doi:10.11925/infotech.2096-3467.2020.0071

1 引言

关键短语抽取是指从文本中自动抽取出能够代表文本主要内容的一组短语,与中文关键词抽取的结果全部为单个词语不同,关键短语抽取的结果是由一个或若干个词语构成的具有更丰富语义信息的短语。例如,“高校”和“图书馆”两个分开的词语所各自表达的含义与“高校图书馆”作为一个整体所表达的含义具有显著差异,关键短语的可理解性和相关性均优于关键词,在学术推荐^[1,2]和学术主题发现^[3]等应用中具有重要的基础作用。关键短语的抽取分为有监督和无监督两种方式^[4],有监督抽取方法将关键短语抽取看作一个分类问题,通过构造候选短语的特征信息,如出现频度、词性、位置、长度等信息,训练分类器实现短语识别。无监督方法则不需要事先提供标注语料,而是根据文档本身的信息,或辅之以通用的外部知识,实现短语抽取。相比而言,无监督方法不需要人工构建训练集,在实践中广为流行。

由于单个的中文词语比英文词语承载了更多的语义信息,目前针对中文文本的相关研究多为关键词抽取,但对于学术文本来说,短语承载了更多信息,以本文所构建的学术文本实验数据集为例,论文作者标记的关键词有72%为短语形式,直接采用关键词抽取难以取得令人满意的效果。此外,英文文本的无监督关键短语抽取算法,通常需要按照一定规则事先抽取出若干连续词语作为候选短语,进而基于统计特征或词图网络特征,抽取关键短语。由于语言差异,中文这种意合型语言在基于规则选择候选短语时,比形合型语言更为困难。例如,把连续的名词串作为候选短语是英文关键短语抽取的主流做法,但对于中文来说,连续的名词类词语构成的词串经常会包含多个独立的语义单元,如“学校/研究/中心/研究员/张三/同志/报告/内容/非常/精彩”,把前面连续8个名词类词语作为一个候选短语,在表达文本语义时粒度过大,而采用N-Gram方式则会为词图构建带来困难。因此,本文针对中文学术文本,提出后识别方法,在词语构成词图并识别关键词语节点之后,设计内部凝聚度和边界自由度两个指标进一步计算词语之间构成短语的能力,并与单个词语节点进行融合排序,实现关键短语抽取。

2 相关研究

关键短语抽取与关键词抽取密切相关,其目的都是识别有意义且具有代表性的文本片段或词汇,作为表达文档主题意义的最小单位。在构成粒度方面,部分文献把关键词限定为单个词语,短语则由两个以上词语构成^[5],最近研究倾向于认为关键短语包含关键词,由单个或多个词语构成^[6,7,8],或者不做刻意区分,认为无论关键词还是关键短语均可以包含若干个词语^[9,10,11]。实际应用中,英文的关键词抽取结果通常为短语形式,而中文则默认为单个词语的抽取结果,关键词与关键短语具有互指性。因此,本文将关键短语抽取看作是关键词抽取任务的特殊要求,强调所抽取的语义单元不局限于单个形式,允许由一到多个词语构成。

无监督关键短语的抽取方法包括基于统计的方法和基于图的方法两大类^[4]。基于统计的方法主要以TF-IDF及其变形特征,对候选关键短语进行评分计算和排序,KP-Miner^[12]是其代表性算法。为使关键短语集合尽可能全面地覆盖不同的主题,文献[13]提出KeyCluster算法,将候选关键短语聚为若干簇,进而从每个簇里挑选代表性短语。近年来,将统计特征与上下文信息进行结合,是提升关键词抽取效果的新尝试,如YAKE^[14]利用英文词语的大小写、与上下文的相关度以及位置信息;Won等^[15]则考虑了候选短语的频度、逆文档频度、出现在句子开始的情况、以及短语长度这4类统计信息,并通过形容词和名词组合而成的候选短语以及词干处理,实现英语和葡萄牙语的关键短语抽取。这些统计方法在特征选择方面,都充分考虑了语言特点。

基于图的方法利用文档中词语之间的共现关系,构建由候选短语作为节点而形成的图,在词图之上计算节点重要性,根据重要性大小抽取关键短语,TextRank^[16]是这类算法的典型代表。此后,学者们又提出SingleRank^[17]、RAKE^[18]、SGRank^[19]、PositionRank^[20]等方法,引入边的权重处理,综合考虑构成短语的词语频度、短语内部的停用词、出现位置等因素的影响,或者将主题模型与图模型结合^[21],不断改进TextRank算法在英文文本方面的抽取效果。

与英文强调关键短语抽取不同,现有的中文研究多面向关键词抽取,图方法在中文无监督抽取中同样占据了主流。夏天等以TextRank算法为基础,先后提出了位置加权^[22]、引入LDA的主题加权^[23]、引入词向量的聚类加权^[24]三类关键词抽取方法,将文档本身的频度、位置等统计信息,文档集整体的主题、语义信息纳入到关键词抽取过程中,确立了文档本身特征加权和引入文档外部知识改进关键词抽取效果的两个方向。文献[25,26,27,28]的研究均可以看作是这一思路的拓展。例如,方俊伟等^[28]将候选关键词的使用情况作为先验概率特征值,融入TextRank算法实现学术文本的关键词抽取,相当于将数据集整体知识融入到单篇文档的抽取过程中。

无监督关键短语抽取可以分为三个步骤：候选关键短语选择、候选关键短语的评分计算以及关键短语的排序生成。在候选关键短语选择方面,英文多采用启发式规则,如基于词性、介词、标点符号、词干等构造候选短语。由于中文单个词语能够表达一定的主题意义,同时中文候选短语的选择相对较为困难,导致对中文关键短语的研究较少,整体上尚处于起始阶段^[8]。对于学术文本而言,反映文本核心内容的语义单元不仅有单个词语,多个词语尤其是两个词语构成的组合概念更为常见。因此,本文面对中文学术文本的概念表达特点,基于词语在词图中的影响力以及词语之间的内外部组合能力,实现了单一词语和双词词语两种常见形式的关键短语抽取,避免了英文中候选短语的预构造环节,与经典的关键词抽取方法相比,本文方法所获得的结果与作者标记关键词的一致性得到了显著提升。

3 实现方法

为便于体现关键词和关键短语的差异,本文把抽取单元仅包含单个词语的情况称为关键词抽取,否则称为关键短语抽取,即关键短语的抽取结果包含一个或多个词语。

对于中文学术文本而言,关键短语主要由单词和双词两种形式构成,在实验数据集中,符合这两种形式的情况所占比例超过82%,因此,本文把抽取问题限定在单词和双词短语的抽取方面,并提出如图1所示的4步处理流程。

图1

新窗口打开| 下载原图ZIP| 生成PPT

图1 关键短语抽取的实现流程

Fig.1 Implementation Process of Keyphrase Extraction

（1）词图构建：基于词语之间的邻接关系构建词图网络;

（2）词语节点排序：在词图网络上计算词语节点的重要性并进行排序;

（3）双词短语排序：在词图网络上计算双词短语的重要性并进行排序;

（4）序列融合：根据排序输出的前N个词语结果集和短语结果集,进行融合排序,并基于融合后的序列获取最终的关键短语。

3.1 词图构建

将文本中的词语作为节点,词语之间的邻接关系作为边,构成的有向带权图,称为词图。词图本质上为一个二元组： $G = (V, E)$ ,其中, $V$ 为词语构成的顶点集, $E$ 为词语相邻形成的边集。

在词图构建过程中,给定一段文本,首先对其进行分词和词性标记,形成原始分词序列,记为 $L_{1} = {w_{1} / t_{1}, w_{2} / t_{2}, \dots, w_{n} / t_{n}}$ , $t_{i}$ 为词语 $w_{i}$ 的词性标记;其次,对 $L_{1}$ 进行过滤,仅保留词性为名词（包括普通名词、人名、地名、机构名、专有名词）、动词和形容词的三类词语,将过滤后的序列记为 $L_{2}$ ;对于任意的一对词语 $(w_{a}, w_{b})$ ,如 $w_{a}$ 和 $w_{b}$ 前后相邻出现在 $L_{2}$ 中,则在词图 $G$ 中设置一条由 $w_{a}$ 指向 $w_{b}$ 的边。

为方便关键短语的抽取,如果 $(w_{a}, w_{b})$ 在原始序列 $L_{1}$ 中同样相邻出现,且 $w_{b}$ 对应的词性为名词,则 $(w_{a}, w_{b})$ 为潜在的关键短语,作为关键短语识别的处理对象进行后续计算分析。例如,图2为实验数据集中《公共图书馆优秀传统文化阅读推广研究》一文的摘要所构成的真实词图片断,其中,节点内左侧文字表示词语,右侧数字表示该词语在文本中出现的频度;实线相连的两个词语表示在文本中前后相邻,是候选短语的选择来源;虚线则表示两个词语之间还存在其他词语,如连词、助词、介词等,相连词语会参与到候选短语的重要性计算之中。可见,“阅读”“推广”两个节点具有紧密的连接关系,适宜作为关键短语。

图2

新窗口打开| 下载原图ZIP| 生成PPT

图2 论文摘要文本构成的词图片断

Fig.2 Word Graph Snippet from Abstract Text

3.2 词语节点排序

词语节点排序（WordRank）是通过一定算法计算词语在词图网络中的重要性,将词语根据重要性大小降序排序,从而获得一组具有高影响力、能够反映文本核心概念的词语结果。单个词语本身也可以构成关键短语,一个词语在词图中起到的作用越大,其成为关键短语的概率就越大。

TextRank是词图当中度量词语重要性的主要方法,该方法以迭代方式按照公式（1）计算节点 $v_{i}$ 的重要性^[22]。

（1）

S (v_{i}) = (1 - λ) + λ \sum_{j} \frac{1}{N (v_{j})} S (v_{j})

其中, $N (v_{i})$ 表示节点 $v_{i}$ 的相邻节点集合; $S (v_{i})$ 表示节点 $v_{i}$ 的重要性得分; $λ$ 为阻尼系数,通常取值为0.85,在公式（1）中表示任意时刻都有 $1 - λ$ 的概率由当前节点随机跳转到词图中的其他节点之上。当计算收敛之后, $S (v_{i})$ 值可以表示节点 $v_{i}$ 在词图中的重要性。

在实践中,TextRank算法还可以将词语频度、长度、位置等信息纳入到计算过程之中,进一步提升词语节点的排序效果。本文基于前期在TextRank方面的相关研究,采用文献[22]的位置加权方法进行节点重要性计算和排序。

令向量 $B_{i}$ 为第 $i$ 轮迭代时每一个节点的重要性得分,概率转移矩阵 $M$ 中的每一个元素 $e_{i, j}$ 表示由词语节点 $i$ 跳转到词语节点 $j$ 的概率, $M$ 的具体取值通过文献[22]中的位置加权策略确定,则有公式（2）。

（2）

B_{i} = (1 - λ) \frac{e}{n} + λ \cdot M \cdot B_{i - 1}

基于公式（2）进行迭代计算,当计算结果收敛之后,向量 $B$ 中的第 $j$ 个元素即为词语节点 $j$ 的重要性得分,为词语排序提供判断依据。

理论上,其他TextRank改进算法,也可以用于词语节点排序之中,如LDA主题加权、词向量聚类加权等,本文采用位置加权的原因如下。

（1）针对文献[22]的改进算法,如文献[23-24,26],通常需要特定数据集的训练支撑,并非完全意义上的“无监督”抽取,不易做到“开箱即用”。

（2）针对文献[22]的改进算法,在关键词抽取方面效果有小幅度提升,因此,如果本文的关键短语抽取能够取得较好效果,将本步处理替换为其他相似算法时,整体效果理论上会随之提升,不影响本文方法的适用性。

3.3 双词短语排序

（1）基本假设

给定两个独立的词语a、b,令 $a \to b$ 表示a、b在文本中前后紧邻出现的一个词语对,即在词图中存在由a指向b的边,则 $a \to b$ 构成短语的可能性与如下因素有关。

①假设1：词语a、b前后直接相邻出现的次数越多,则 $a \to b$ 越有可能成为一个有代表意义的关键短语。

②假设2：长度较短的词语与长度较长的词语相比,具有更高的与其他词语组合成为关键短语的能力。

③假设3：相比其他词语节点,词语a、b结合越紧密,则 $a \to b$ 构成关键短语的可能性越大。

④假设4：词语a的左侧相邻的词语种类越多,则词语a越不易于和左侧的其他词语构成关键短语,因此,从a的左侧断开,a与右侧的词语b构成短语的可能性越高。

⑤假设5：词语b的右侧相邻的词语种类越多,则词语b越不易于和其右侧的其他词语构成关键短语,因此,从b的右侧断开,b与左侧的词语a构成短语的可能性越高。

图3给出了以词语a、b为中心的词图片断,边的方向表明两个词语的前后出现顺序,边的粗细代表词对出现的频度大小,虚线表示由其他词语节点指向节点a或b,实线则表示由节点a或b指向其他词语节点。为便于表述,令 $phrase (a \to b)$ 表示a、b合在一起构成关键短语的概率大小。

图3

新窗口打开| 下载原图ZIP| 生成PPT

图3 双词短语识别示意图

Fig.3 Demonstration of Bi-word Phrase Recognition

（2）内部凝聚度计算

为反映两个词语构成短语的内部紧密程度,本文提出凝聚度指标（Cohesion Indicator）,基于前三个假设计算凝聚度大小。

首先,给定由单个词语作为节点构成的词图,假设1可通过词语节点a、b相邻出现的频度度量,假设2则表明 $a \to b$ 构成短语的可能性与两个词语的长度成反比。因此,可得出如下关系。

（3）

phrase (a \to b) \propto Count (a \to b) \frac{1}{| a | | b |}

其中, $phrase (a \to b)$ 表示a、b合在一起构成关键短语的概率; $C ount (a \to b)$ 表示词语a、b共现的频度; $| a |$ 和 $| b |$ 分别表示构成词语a、b的字符个数。

其次,假设3用于反映一对词语a、b与其关联节点相比,构成关键短语的相对能力大小。在由a或b构成的所有潜在短语中, $a \to b$ 的相对比重越大,则 $a \to b$ 构成短语的稳固性越强,这一特点可表示如公式（4）。

（4）

\begin{matrix} phrase (a \to b) \propto p (a \to b | S_{out} (a)) p (a \to b | S_{in} (b)) \end{matrix}

其中, $S_{ou t} (a)$ 表示经节点a出来指向其他词语节点的相关节点集合,图3中为节点a右侧的三条出边所指向的目标节点; $S_{in} (b)$ 表示从其他节点指向节点b的所有节点集合,图3中为节点b左侧的4条入边对应的源节点; $p (a \to b | S_{out} (a))$ 表示词图节点a在与其他节点向右聚合形成 $a \to x$ 的词对之时,属于 $a \to b$ 这一情况的概率,该值越大,说明a与右侧的b结合为短语的程度越紧密;同理, $p (a \to b | S_{in} (b))$ 用于度量节点b的左聚合能力, $a \to b$ 在b的所有左聚合情况中,概率越大,则构成短语的可能性越大。基于极大似然估计,得到公式（5）和公式（6）。

（5）

p (a \to b | S_{out} (a)) = \frac{Count (a \to b)}{\sum_{n \in S_{out} (a)} Count (a \to n)}

（6）

p (a \to b | S_{in} (b)) = \frac{Count (a \to b)}{\sum_{n \in S_{in} (b)} Count (n \to b)}

综合公式（3）-公式（6）,可得出如下关系。

（7）

\begin{matrix} phrase (a \to b) \propto \frac{Count (a \to b)}{| a | | b |} \cdot \\ \frac{Count (a \to b)}{\sum_{n \in S_{out} (a)} Count (a \to n)} \cdot \frac{Count (a \to b)}{\sum_{n \in S_{in} (b)} Count (n \to b)} \end{matrix}

由于关键短语的抽取结果取决于每个短语得分的相对大小,对公式（7）取对数,不改变排序结果的顺序,为方便运算,本文将 $a \to b$ 的内部凝聚度 $cohesion (a \to b)$ 定义为公式（7）的对数运算结果,将公式（7）右侧取对数并化简,可得到如公式（8）所示的内部凝聚度计算公式。

（8）

\begin{matrix} cohesion (a \to b) = 3 lo g_{2} Count (a \to b) - \\ lo g_{2} | a | - lo g_{2} | b | - lo g_{2} \sum_{n \in S_{out} (a)} Count (a \to n) - \\ lo g_{2} \sum_{n \in S_{in} (b)} Count (n \to b) \end{matrix}

（3）边界自由度计算

自由度指标（Freedom Indicator）用于度量一个词语与相邻词语自由搭配的能力。基于假设4和假设5,将自由度进一步分为左自由度和右自由度,其中,左自由度指一个词语与左侧的其他词语自由组合的能力,右自由度则指与右侧其他词语自由组合的能力。给定两个邻接的词语 $a \to b$ ,a的左自由度和b的右自由度越高,则 $a \to b$ 与两侧相邻词语断开,构成关键短语的可能性越大。

为度量自由度的大小,本文基于信息熵原理,通过公式（9）和公式（10）分别计算词语a的左自由度 $freedo m_{L} (a)$ 和词语b的右自由度 $freedo m_{R} (b)$ 。

（9）

freedo m_{L} (a) = \sum_{m} - p (m \to a) \log p (m \to a)

（10）

freedo m_{R} (b) = \sum_{n} - p (b \to n) \log p (b \to n)

其中,对于 $\forall m \in S_{in} (a)$ 和 $\forall n \in S_{out} (b)$ , $p (m \to a)$ 和 $p (b \to n)$ 可根据公式（11）和公式（12）分别计算得到。

（11）

p (m \to a) = \frac{Count (m \to a)}{\sum_{w \in S_{in} (a)} Count (w \to a)}

（12）

p (b \to n) = \frac{Count (b \to n)}{\sum_{w \in S_{out} (b)} Count (b \to w)}

本质上,公式（9）-公式（12）的计算结果为边界词语与其他邻接词语随机出现的熵值,熵作为度量事件不确定性的信息单位,其取值反映了词语的自由搭配能力。进一步, $a \to b$ 的边界自由度 $freedom (a \to b)$ 可通过a的左自由度和b的右自由度合并计算得到,如公式（13）所示。

（13）

freedom (a \to b) = freedo m_{L} (a) + freedo m_{R} (b)

以图3为例,指向词语节点a的入边越多且频度越均匀,则左侧词语与a合并形成关键短语的概率越低;词语节点b的出边越多且频度越均匀,则b与其右侧相邻词语构成短语的概率越低。此时, $a \to b$ 拥有更高的概率构成关键短语。

（4）短语权威度计算与排序输出

两个相邻词语 $a \to b$ 对应的短语权威度由其内部凝聚度和两侧的边界自由度共同决定,基于公式（14）运算得到。

（14）

\begin{array}{l} phrase (a \to b) = α \cdot cohesion (a \to b) + \\ β \cdot freedom (a \to b) \end{array}

其中, $α$ 、 $β$ 为可调节的参数, $0 < α < 1$ , $0 < β < 1$ ,且 $α + β = 1$ 。 $α$ 越大,表明短语最终的权威度更大程度上依赖于词语a、b的内部凝聚度;否则,越依赖于词语两侧的边界自由度。本文后续实验中, $α$ 和 $β$ 取值均为0.5。

对所有符合条件的邻接词语对计算权威度,按照权威度由高到低排序,输出TopN个结果作为关键短语参与后续的序列融合处理。

3.4 序列融合

基于短语权威度排序和节点权威度排序,共得到两个独立的序列,即基于加权TextRank得到的词语权威度输出序列和基于短语权威度运算得到的短语序列,此时,还需要进一步将两个独立序列融合排序,在单一序列上获取最终的抽取结果。

令 $S_{p} = {p_{1}, p_{2}, \dots, p_{m}}$ 表示抽取得到的m个按照短语权威度降序排列的候选短语; $S_{w} = {w_{1}, w_{2}, \dots, w_{n}}$ 表示按照词语权威度大小降序排列的n个词语; $S \in {S_{p}, S_{w}}$ ; $r (x | S)$ 表示 $x$ 在结果集 $S$ 中的排序位置,即结果集 $S$ 中第1个元素的 $r$ 值为1,第2个为2,以此类推。作为 $x$ 的排序重要性, $r (x | S)$ 取值越小,则在排序结果中越重要。如果元素 $x \notin S$ ,则令 $r (x | S) = \infty$ 。按照以下步骤进行序列融合。

（1）无效候选短语的过滤

仅当候选短语 $p_{i}$ 中的每一个词语都属于集合 $S_{w}$ , $p_{i}$ 为可接受短语,否则,将 $p_{i}$ 从 $S_{p}$ 中过滤掉,以保证构成关键短语的每一个词语本身在词图网络中也具有较高的权威度。

（2）短语排序重要性调整

对 $S_{p}$ 中的每一个候选短语 $p_{i}$ ,按照公式（15）计算其新的排序值。

（15）

r_{new} (p_{i}) = \frac{r (p_{i} | S_{p}) + \sum_{w \in p_{i}} lo g_{2} r (w | S_{w})}{1 + Count (w | w \in p_{i})}

即候选短语的最终排序重要性,与其本身在短语结果集中的位置以及构成短语的词语在词语结果集中的位置有关,其中,短语原有的排序位置对其最终排序值起主要作用,词语排序位置通过对数运算之后,起次要作用。

（3）词语排序重要性调整

对于 $S_{w}$ 中的每一个词语 $w_{j}$ ,按照公式（16）调整其排序值。

（16）

r_{new} (w_{j}) = r (w_{j} | S_{w}) + \sum_{w} r_{new} (p_{i})

公式（16）表明,一个词语会随着其在关键短语之中出现的频度而增大排序值,意味着其排序重要性会随之降低。

（4）合并排序

将候选短语和候选词语两个序列合并在一起,并按照新的排序值进行升序排序,挑选TopN个元素作为最终的关键短语抽取结果。

4 实验

4.1 实验数据

在实验数据方面,本文选择图书馆学、情报学、档案学领域的20本CSSCI（2015-2019）收录的期刊,以中国知网为检索平台,导出2015年-2019年期间所刊登文献的标题、摘要和关键词,并剔除其中的英文文献、人工标记的关键词数量小于等于1的文献,形成实验数据集,数据集共包括17 825条数据,以CSV格式保存,并予以公开。

数据集共包含72 337个关键短语,平均每篇文献包含4.06个关键短语,每个关键短语的平均字符长度为4.45,由1.96个词语构成。不同词语长度的关键短语分布如表1所示。

表1 数据集中关键短语的统计信息

Table 1 Key Phrase Statistics in the Dataset

构词数量	平均字符长度	出现次数	占比	累计占比
1	3.34	20 303	28.07%	28.07%
2	4.33	39 028	53.95%	82.02%
3	5.95	10 005	13.83%	95.85%
4	7.46	2 142	2.96%	98.81%
5	9.48	476	0.66%	99.47%
6	10.55	218	0.30%	99.77%
7	12.65	79	0.11%	99.88%
8	15.59	37	0.05%	99.93%
9	17.07	14	0.02%	99.95%
10	16.18	22	0.03%	99.98%
其他	-	13	0.02%	100.00%

新窗口打开| 下载CSV

表1中构词数量是指对作者标记的关键词,进行自动分词后得到的词语数量。其中,多个词语构成的关键短语占比71.93%,表明学术文本在表达概念的时候,多采用短语形式。此外,由单个词语或双词词语构成的关键短语,占比超过80%,这两种情况构成了关键短语的常见形式。处理这两种情况,就可以解决关键短语的主要问题。

4.2 评价指标

为反映算法效果,本文采用两种评价指标,一是常规的准确率 $P$ 、召回率 $R$ 和宏平均 $F$ 值三个评价指标;二是为体现排序效果差异,本文新提出的 $R$ -平均准确率均值（Mean Average Precision,MAP）——R-MAP。

P、R、F指标是目前关键词和关键短语抽取研究中最为常用的评价指标^[8,22],令 $K_{A}$ 表示数据集中文档本身所提供的关键短语集合, $K_{B}$ 为算法所抽取的结果集合,则 $P$ 、 $R$ 和 $F$ 值的计算如公式（17）-公式（19）所示。

（17）

P = \frac{| K_{A} ⋂ K_{B} |}{| K_{B} |}

（18）

R = \frac{| K_{A} ⋂ K_{B} |}{| K_{A} |}

（19）

F = \frac{2 PR}{P + R}

上述评价指标存在如下局限：

（1）需要同时使用三个指标评价效果的优劣;

（2）不能体现排序效果的差异;

（3）排序输出的关键短语数量对评价指标得分有较大影响。

为了用单一指标评价算法的整体效果,并能体现排序效果的差异,本文借鉴信息检索中的 $R$ -准确率和平均准确率均值的特点,提出 $R$ -平均准确率均值指标R-MAP。

首先,对于任一文档 $d$ ,其前 $n$ 个关键短语抽取结果的平均准确率 $A P_{d} @ n$ 定义为公式（20）。

（20）

A P_{d} @ n = \frac{\sum_{k = 1}^{n} (p (k | d) rel (k | d))}{n}

其中, $rel (k | d)$ 为指示函数,令 $R_{d}$ 表示人工标记的关键短语集合,对于文档 $d$ 抽取的第 $k$ 个关键短语,如隶属于集合 $R_{d}$ ,取值为1,否则为0; $P (k | d)$ 表示针对文档 $d$ 抽取 $k$ 个关键短语时的准确率,定义为公式（21）。

（21）

P (k | d) = \frac{\sum_{i = 1}^{k} rel (i | d)}{k}

如果不限定抽取结果的数量 $n$ ,而是考察排序输出中每一个正确的抽取结果,对这些正确位置时的准确率取平均值,即是文档 $d$ 的平均准确率 $A P_{d}$ ,可见,抽取得到的正确关键短语的位置越靠前,排序的r值越小, $AP$ 就越高。

对所有文档的AP取平均值,即MAP,当算法输出的关键短语数量取值为 $n$ 时,对应的平均准确率均值 $MAP @ n$ 定义为公式（22）。

（22）

MAP @ n = \frac{1}{N} \sum_{i = 1}^{N} (A P_{d_{i}} @ n)

显然,算法保留的关键短语数量 $n$ 会影响 $MAP$ 的取值,为减少参数影响,定义召回率 $R$ 上的平均准确率均值R-MAP为公式（23）。

（23）

R - MAP = \frac{1}{N} \sum_{i = 1}^{N} (A P_{d_{i}} @ | R_{d_{i}} |)

即令每个文档 $d$ 保留 $| R_{d} |$ 个关键短语时,对应平均准确率的均值。该指标反映了每次保留人工给定的结果集数量的TopN个关键短语时,算法在整个数据集上的平均准确率均值。单一文档 $d$ 在保留 $| R_{d} |$ 个关键短语时的平均准确率值 $A P_{d} @ | R_{d} |$ ,记为 $R - A P_{d}$ ,当根据所在上下文不影响理解时,简记为 $R - AP$ 。

4.3 结果分析

为对比关键短语和关键词在学术文本中表达核心概念的差异,实验分别采用位置加权关键词抽取算法（简称WordRank）和本文提出的关键短语抽取算法（简称PhraseRank）,分别对数据集进行自动抽取,并和论文作者的原始标记结果进行对比。WordRank算法涉及的参数均与文献[22]保持一致,关键短语抽取中,词语节点排序和双词短语排序均输出前10个结果,参与两个序列的融合计算。同时,本文公开了所有相关数据和代码 ( https://www.github.com/iamxiatian/keyphrase.),方便读者对比或重现实验。

根据N取值不同,分别计算关键短语和关键词抽取结果的 $P$ 、 $R$ 和 $F$ 值,如图4所示,其中横坐标N的取值范围限定为[1,10]的整数。通过观察可以看出,本文PharseRank算法的 $P$ 、 $R$ 和 $F$ 值大幅度高于WordRank算法,这和预期观察一致,学术文本中人们更倾向于采用词组表达文章概念。当N=10时,PhraseRank可以发现36.6%的由论文作者标记的关键词,而WorkRank仅能发现18.6%。

图4

新窗口打开| 下载原图ZIP| 生成PPT

图4 PharseRank与WordRank的P、R、F值对比

Fig.4 P, R and F Comparison of PharseRank and WordRank

为反映排序差异,进一步统计不同N取值的 $MAP$ 指标变化情况,结果如图5所示。可以看出,在考虑排序因素下,PhraseRank在N不同取值情况下,都显著优于WordRank,N取值为3,5,7和10时,具体得分如表2所示。

图5

新窗口打开| 下载原图ZIP| 生成PPT

图5 两种算法的MAP@N变化情况

Fig.5 MAP@N of Two Algorithms

表2 WordRank、PhraseRank的MAP@N和R-MAP对比

Table 2 MAP@N and R-MAP Comparison of WorkRank and PhraseRank

算法	MAP@3	MAP@5	MAP@7	MAP@10	R-MAP
WordRank	0.070	0.083	0.087	0.091	0.077
PhraseRank	0.164	0.188	0.201	0.211	0.176

新窗口打开| 下载CSV

表2中R-MAP一列表明,当算法输出的元素数量限定为人工标记的关键短语数量时,PhraseRank算法平均准确率均值为0.176,远超仅考虑单个词语的WordRank算法,相对提升比例达128.57%。

为便于观察算法表现较差时的抽取情况,本文挑选了 $R - AP = 0$ 时的5篇文档。输出结果如表3所示,算法所抽取的关键短语与人工标记结果不一致的情况,有多种原因：一是本文算法仅考虑了单个词语和双词词语,尚未处理三个及以上词语构成关键短语的情况,如将“电子文件管理”识别成“电子文件”和“文件管理”两个短语;二是本文算法属于无监督、单文档抽取,未考虑词语在文档集中所蕴含的统计信息,如“信息搜寻行为”,虽然在单一文档中构成短语的特性不明显,但在整个数据集中,其短语搭配能力会更为明显;三是算法抽取的部分结果和人工标记虽有不同,但作为表达核心概念的关键短语具有一定合理性,对人工标记结果起到了补充作用。此外,自动分词模块,尤其是学术文本中的书名号、中英文混合词语的分词处理,对算法抽取结果也有一定影响。

表3 R-AP=0文档的抽取结果示例

Table 3 Extract Samples from Documents (R-AP=0)

文档标题	人工标记	WordRank	PhraseRank
面向安全教育的儿童阅读推广研究	图书馆, 儿童阅读推广, 安全	儿童, 推广, 阅读	儿童, 阅读推广, 教育
图书馆电子书馆配研究	馆配市场, 电子书馆配, 图书馆	电子书, 图书馆, 文献	图书馆电子书, 文献, 市场
国外基于情感角度的信息搜寻行为研究进展	情感, 认知, 信息搜寻行为	情感, 信息, 搜寻	情感因素, 影响信息, 搜寻
试析大数据在电子文件管理中的应用	大数据, 电子文件管理	文件, 电子	电子文件, 文件管理
虚实融合的图书馆空间互动服务模式研究	图书馆, 实体空间, 虚拟空间	图书馆, 空间, 服务	图书馆空间, 服务模式, 互动服务

新窗口打开| 下载CSV

基于以上分析,可以得出如下结论。

（1）对于学术文本的词汇级别的语义分析,关键短语要比单纯的关键词更能在词汇级别上表达学术文本的核心概念。

（2）在词图上应用短语内部凝聚度和边界自由度,并对抽取得到关键短语进行融合排序,显著优于词图节点位置加权得到的关键词抽取结果。

（3）R-MAP指标同时考虑了排序因素和数据集人工标记的结果数量,这个单一指标可以度量不同算法在关键词或关键短语抽取方面的效果差异。

5 结语

本文针对中文学术文本中词汇级别的概念表达多为短语形式的特点,提出一种基于词图的短语权威度计算方法,综合考虑了短语内部的凝聚能力和短语边界的自由组合能力,并与位置加权抽取得到的关键词进行融合排序,实现关键短语抽取。此外,本文基于 $R$ -准确率和平均准确率均值两类指标的特点,提出了R-MAP指标,实现对关键短语抽取结果的有序单指标评价。基于中文学术文本数据集的实验结果表明,本文提出的关键短语抽取算法在真实效果上大幅度优于经典的WordRank位置加权关键词抽取算法。

针对无监督单文档关键短语抽取的下一步研究：①解决三个及以上词语组成的关键短语识别与抽取问题;②引入句法分析进一步优化词语之间的搭配关系度量方法,提高关键短语抽取效果。

利益冲突声明

作者声明不存在利益冲突关系。

支撑数据

支撑数据由作者自存储,https://github.com/iamxiatian/keyphrase/blob/master/data/paper_abstract.csv。

[1] 夏天.paper_abstract.csv.中文学术论文摘要数据集.

参考文献

原文顺序

文献年度倒序

文中引用次数倒序

被引期刊影响因子

[1]

Chen H

, Treeratpituk

, Mitra

, et al.

CSSeer: An Expert Recommendation System Based on CiteseerX

[C] //Proceedings of the 13th ACM/IEEE-IC Joint Conference on Digital Libraries (JCDL 2013). 2013: 381-382.

检索词推荐：