基于知识库的图书评论主题抽取研究

祁瑞华¹^,²^,, 周俊艺¹^,², 郭旭², 刘彩虹²

¹(大连外国语大学语言学研究基地大连 116044)

²(大连外国语大学网络空间多语言大数据智能分析研究中心大连 116044)

Qi Ruihua¹^,²^,, Zhou Junyi¹^,², Guo Xu², Liu Caihong²

¹(Linguistics Research Center, Dalian University of Foreign Languages, Dalian 116044, China)

²(Research Center for Multilingual Big Data in Cyberspace, Dalian University of Foreign Languages, Dalian 116044, China)

通讯作者:祁瑞华, ORCID: 0000-0002-2583-3055, E-mail: rhqi@dlufl.edu.cn。

基金资助: *本文系国家社会科学基金一般项目“典籍英译国外读者网上评论观点挖掘研究”(项目编号: 15BYY028)、大连外国语大学研究创新团队“计算语言学与人工智能创新团队”(项目编号: 2016CXTD06)和辽宁省教育厅一般项目“基于用户行为模式发现的移动情境感知推荐系统研究”(项目编号: 2016JYT01)的研究成果之一;

中图分类号: N99 G35

摘要:

【目的】尝试在图书评论主题抽取中引入自然语言语义信息。【方法】将常识知识库的全局语义信息应用到图书评论主题词发现和主题聚类任务中, 自动抽取评论中的显性主题词和隐性主题词。【结果】实验结果表明: 与双向传播算法相比, 基于知识库方法抽取结果的句覆盖率高出30.8%, 主题词汇多样性高出0.36%。以此为基础绘制主题词共词聚类图谱, 结合知识网络中的节点中心度呈现各个类簇中的关键主题词。【局限】由于目前没有成熟的图书评论领域知识库, 本文主题挖掘过程未引入领域知识, 还未达到最理想效果。【结论】基于知识库方法有助于提高图书评论主题抽取的句子覆盖率和主题词汇多样性。

关键词: 知识库 ; 图书评论 ; 主题抽取

Abstract:

[Objective] This paper tries to extract topics from book reviews with the help of natural language semantics. [Methods] We proposed a method to retrieve the explicit and implicit topic keywords with the global semantic information from common sense knowledge base. [Results] The sentence coverage rate with the knowledge base method and the lexical diversity of the proposed method were 30.8% and 0.36% higher than those of the Double-Propagation algorithm. Then, based on the extracted topic words, we created a cluster map to identify the topic keywords identified by the nodes cluster centrality. [Limitations] There is no domain knowledge base in the field of book reviews. [Conclusions] The proposed method based on Knowledge Base improves the sentence coverage and lexical diversity of topics extracted from book reviews.

Key words: Knowledge Base ; Book Review ; Topic Extraction

1 引言

图书评论是了解用户对图书内容、形式与意义观点的主要途径。目前互联网已经成为图书零售的重要渠道, 互联网上发表的图书评论是消费者面对种类繁多的图书商品做出购买决策的重要参考, 同时这些图书评论也为作者、出版商提供了收集和分析读者观点的有效渠道, 能够为图书出版和宣传提供科学依据。

主题分析是情报检索的重要环节, 图书评论主题抽取的研究目标是从图书评论中挖掘被评价的具体对象, 属于细粒度观点挖掘。图书评论主题抽取问题中, 自然语言语义的复杂性一直是难点。本文尝试将常识知识库的全局语义信息应用到图书评论主题词发现和主题聚类任务中, 自动抽取典籍英译图书评论中的显性主题词和隐性主题词, 并以此为基础绘制主题词共词聚类图谱呈现关键主题词。

2 研究现状

评论主题词抽取任务可以分为显性主题词抽取和隐性主题词抽取, 显性主题词在评论文本中以名词或名词短语等形式显性出现; 隐性主题词通常字面表征不明确或者没有直接的书面表述形式, 是需要通过深入的概念分析才能挖掘出来的主题概念或复杂概念的组合, 隐性主题词的分析与提炼建立在显性主题词基础上^[1]。面向文献检索领域, 隐性主题词具有隐含性、相对性、模糊性和依附性, 不同文献情报机构基于不同角度、知识结构基础和词表参照系统, 揭示的隐性主题词有所不同, 隐性主题词与显性主题词的相关程度难以准确衡量^[1]。

2.1 显性主题词抽取

显性主题词抽取方法主要有无监督的基于规则方法、聚类方法, 以及有监督方法。基于规则的方法难点在于规则模板的建立需要领域专家的参与, 例如Hu等^[2,3]利用关联规则挖掘频繁项集作为产品特征, 局限是非频繁主题词的识别率低; Qiu等^[4]利用句法依存关系建立双向传播算法抽取模版, 在中等规模语料集上的效果较好。Poria等^[5]利用依存关系、WordNet和SenticNet常识知识库检测评论主题词, 在公开数据集上取得很好的效果。聚类方法的可移植性有限, 如Su等^[6]利用中文概念词典等多源知识, 提出COP-Kmean聚类和相互强化规则挖掘产品特征和观点词间的映射, 但难以用来解决其他问题。

有监督方法的准确率较高, 但标注大量语料的人工成本高昂, 代表研究有Jin等^[7]用隐马尔科夫算法抽取主题词和观点词; Poria等^[8]提出7层卷积神经网络标注观点主题词, 引入语义知识使深层卷积神经网络适应自然世界数据。

2.2 隐性主题词抽取

隐性主题词的抽取需要对文本包含的有价值的隐含概念进行提炼与揭示^[1], 难点在于隐性主题词标注需要领域专家的参与, 在标注的语料上, Poria等^[5]基于规则方法和句法依存树检测显性和隐性主题词; Cruz等^[9]采用线性链条件随机场序列标注算法抽取隐性主题词标记, 实验结果虽然优于同类研究, 但F1值仅达到0.297, 作者计划加入更多特征以改善效果, 但标注语料成本和规模限制了效果的进一步提升。

基于共词关系的隐性主题词抽取不需要先验知识或人工标注, 效果依赖于语料的覆盖率, 如Zhang等^[10]建立子句级的实词共词矩阵, 然后基于文献[4]的双向传播原理采用双边迭代法生成修饰关系矩阵, 根据平均相关性排序选取概率大的隐性主题词, 效果受到共词矩阵和语料规模的影响。

2.3 基于知识库的主题抽取

从知识覆盖面的角度, 知识库可分为常识知识库和领域知识库。常识知识库的知识覆盖率高, 但精度不能满足领域主题词汇和专有名词抽取的需求。目前领域知识库资源稀缺, 通常需要先根据垂直领域语料和具体任务建立领域知识库, 才能基于领域知识库抽取主题词, 如冯淑芳等^[11]建立面向汽车评论观点挖掘的本体知识库, 为汽车领域的评价观点挖掘和情感分析奠定了良好基础; 王素格等^[12]基于这个本体知识库挖掘汽车领域口碑数据中的评价主题词和观点。领域知识库中的概念及其关系需要不断更新完善, 领域知识库的概念抽取模板也需要领域专家参与建立, 成本较高。

2.4 图书评论主题挖掘

图书评论主题相对分散^[13], 现有研究局限于少量图书的评论数据或主观分析方法, 如Sohail等^[14,15]将图书评论主题分为7类, 收集20个用户对计算机图书评论的主观反馈进行验证, 局限在于主题类别是主观设置而并非从评论文本中抽取; 陈晓美^[16]基于LDA主题模型提出评论观点识别和判定方法, 利用《卡尔威特的教育》一书的评论文本进行验证, 实验方法未得到广泛验证。可见, 当前亟需面向大样本数据的图书评论主题自动抽取方法。

综上, 商品评论的显性主题词自动抽取技术已经比较成熟, 尤其随着深度学习算法和高维表示模型的利用, 显性主题词的自动抽取准确率提升明显; 但隐性主题词的抽取自动化程度不高, 需要领域专家的参与; 领域知识库的建立有助于将领域专家的知识建模, 但目前领域知识库资源少、建设成本高, 而且需要随着语料的变化不断更新。由此, 本文尝试在图书评论主题词抽取中突破主观分析和小样本数据的局限, 引入常识知识库自动抽取显性主题词和隐性主题词, 并形成主题词聚类图谱呈现关键主题词。

3 基于知识库的评论主题抽取

自然语言语义的复杂性是主题抽取中待解决的问题。自然语言文本中的同义词、近义词、同词异形、同词异义等语义信息只有在上下文中才有意义, 本文利用外部常识知识库对图书评论语料进行全局语义映射, 提出从评论文本中同时抽取显性主题词和隐性主题词的无监督方法。

自然语言中的概念可以表达为多种形式, 受限于知识库规模, 语料中的词汇无法全部映射到知识库的概念上。因此, 基于常识库主题词挖掘的关键问题是如何表示这部分非概念词汇。

3.1 AffectNet常识知识库

AffectNet是一个多学科的常识和情感知识库^[17], 其中每个概念表示为矩阵中的一行。Rajagopal等^[18]利用AffectNet知识库, 采用相似性检测将知识库中未包含的非概念词映射到知识库中的相似概念词。两个概念之间的相似度通过行向量间的点积来量化, 点积值越大, 概念相似度越高。为避免点积计算的维度灾难, 使用截断的奇异值分解法, 设AffectNet矩阵的低阶近似矩阵为$\tilde{A}=US{{V}^{*}}$, 其中S是有K个非零对角线元素的对角矩阵, 则可以最小化原始AffectNet情感矩阵与新矩阵的Frobenius范数如公式(1)所示, 得到AffectNet的低阶近似值^[18]。

$\begin{align} & \underset{\tilde{A}|rank(\tilde{A})=k}{\mathop{\min }}\,|A-\tilde{A}|\ =\underset{\tilde{A}|rank(\tilde{A})=k}{\mathop{\min }}\,|\sum{-{{U}^{*}}\tilde{A}V}| \\ & \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ =\underset{\tilde{A}|rank(\tilde{A})=k}{\mathop{\min }}\,|\sum{-S}| \\ \end{align}$ (1)

3.2 基于知识库的评论主题抽取系统

本文进行图书评论主题抽取的总体思路是: 从图书销售网站爬取用户原始评论语料, 通过词性标注、词干处理得到评论的概念列表全集; 构建浅层语法和深层语义相结合的评论主题词发现模式, 运用常识知识库将高维评论文本映射到低维主题词空间, 揭示概念之间及概念属性之间的句法相似度和语义相似度, 通过概念属性匹配和常识库多标度矩阵概念向量夹角度量获取主题词表, 多维度分析挖掘隐含的评论主题词; 为进一步理清主题词的知识关联, 运用共词聚类挖掘主题相近的主题词子类, 通过共词聚类图谱的度数中心度评价主题词在知识网络中的影响力, 进而获取关键主题词。

基于知识库的评论主题抽取系统架构如图1所示。从要素上看, 系统包含预处理模块、主题词抽取模块和主题聚类模块。对于给定的图书评论主题词抽取任务, 先从相关网站上获取评论语料形成原始评论数据, 对评论语料进行分句处理; 对于分句后的评论文本, 执行句法分析截断为语句块; 再对语句块进行词干化处理, 通过词性标注分析获取句子的概念列表全集。

图1 基于知识库的图书评论主题抽取系统

(1) 主题词抽取

在图1的主题词抽取模块中, 基于常识知识库AffectNet主题词抽取的具体步骤如下^[18]:

①检测句法相似度, 对于概念列表中的每一个名词短语语块, 分别抽取语块中的句法元素及其在知识库中匹配概念的属性, 组成名词短语语块的相关属性集合。两两比较这些属性集合, 判断两个名词短语构成的概念是否存在共同元素, 如果发现共同元素则认为两个名词短语相似, 记录在知识库中匹配的概念集合中。

②检测语义相似度, 对于概念列表中的每一个名词短语语块, 在知识库中搜寻语义相似的概念, 语义上相似的概念在语义空间上也表现为相似。此处通过AffectNet计算语义相似度, AffectNet矩阵中的行表示自然语言中的概念, 列表示不同的常识特征值。基于公式(1)中的多维标度矩阵中概念向量间夹角计算语义相似度。

③组合句法相似度检测和语义相似度检测的结果, 找出候选词在AffectNet中句法和语义均相似的概念, 添加到主题词列表。这些主题词既包含显性主题词, 也包含隐性主题词。

④重复步骤①-步骤③, 直至所有语料处理完毕。

(2) 主题聚类

图书评论的观点信息通常按照主题相互聚集, 聚集程度高的词汇一般是具有代表性的主题词。传统的共词聚类存在同义词、近义词辨识和词语歧义问题, 共现关系不能有效表现关键词间的语义相关性, 人工调整或加权处理也很难保证其共现关系的真实性^[19,20]。胡昌平等^[21]和Wang等^[22]研究发现, 对词语进行语义化处理可以改善共词分析效果。

在主题聚类模块中, 将主题词抽取模块中基于常识知识库映射的全局语义信息作为共词聚类的输入, 采用加权模块参数化聚类算法, 将主题词之间的共词网络简化为若干概念相对独立的主题聚类类团, 使得同一类团内主题相似性最大, 不同类团间主题相似性最小, 从而直观地表示主题词间联系的密切程度, 进一步对读者共同关注的具体图书属性进行概括分类。

加权模块参数化聚类算法^[23]的优点是效率高, 适合处理大规模数据, 能够保持同一领域多个映射之间的一致性。具体实现方法如下^[24]: 设c_ij代表n个节点组成的网络中节点i和节点j之间的共现矩阵链接(c_ij=c_ji≥0), c_i代表节点i总的链接, m代表网络中的链接总数, S_ij代表节点i和节点j之间的关联强度, 计算方法如公式(2)所示。

${{S}_{ij}}=\frac{2m{{c}_{ij}}}{{{c}_{i}}{{c}_{j}}}$ (2)

聚类的具体任务是为每一个节点i找到一个正整数x_i表示其所属的类别, 即最小化公式, 如公式(3) 所示^[24]。

$V({{x}_{1}},\cdot \cdot \cdot ,{{x}_{n}})=\sum\limits_{i<j}{{{s}_{ij}}}{{d}_{ij}}^{2}-\sum\limits_{i<j}{{{d}_{ij}}}$ (3)

其中, 第一项代表节点间的吸引力, 关联度高的节点互相吸引, 节点间关联越强吸引力就越强; 第二项代表排斥力, 关联度低的节点互相排斥。d_ij代表节点i和节点j之间的距离, 计算方法如公式(4)-公式(5)所示^[24]。

${{d}_{ij}}=\left\| {{x}_{i}}-{{x}_{j}} \right\|=\sqrt{\sum\limits_{k=1}^{p}{{{({{x}_{ik}}-{{x}_{jk}})}^{2}}}}$ (4)

${{d}_{ij}}=\left\{ \begin{align} & 0\ \ \ \ \ \ \ {{x}_{i}}={{x}_{j}} \\ & 1/\gamma \ \ \ {{x}_{i}}\ne {{x}_{j}} \\ \end{align} \right.$ (5)

公式(5)中, 分辨参数γ(γ>0)的值越大, 得到的聚类数越多。综合公式(3)-公式(5), 公式(3)的最小化等价于公式(6)^[24] , 其中$\delta \text{(}{{x}_{i}}\text{, }{{x}_{j}}\text{)}$的计算如公式(7)所示。

$\overset{\scriptscriptstyle\frown}{V}({{x}_{1}},\cdot \cdot \cdot ,{{x}_{n}})=\frac{1}{2m}\sum\limits_{i<j}{\delta ({{x}_{i}},{{x}_{j}}){{w}_{ij}}\left( {{c}_{ij}}-\gamma \frac{{{c}_{i}}{{c}_{j}}}{2m} \right)}$ (6)

$\delta \text{(}{{x}_{i}}\text{, }{{x}_{j}}\text{)}=\left\{ \begin{align} & \ 1\ \ \ \ \ \ {{x}_{i}}={{x}_{j}} \\ & \ 0\ \ \ \ \ \ {{x}_{i}}\ne {{x}_{j}} \\ \end{align} \right.$ (7)

其中, 权重w_ij的计算方法如公式(8)所示^[24]。

${{w}_{ij}}=\frac{2m}{{{c}_{i}}{{c}_{j}}}$ (8)

4 实验结果及讨论

为验证本文基于知识库的图书评论主题抽取方法的有效性, 从主题词抽取和主题聚类两个方面进行实验, 实验过程包括图书评论文本数据采集和预处理、基于常识知识库的主题词抽取、主题词共词矩阵生成和基于共词矩阵的主题聚类。

4.1 数据采集

典籍英译图书是中国文化走出去的重要途径, 相关评论是判断译本是否得到读者肯定的重要线索。本文从亚马逊网站采集典籍英译图书评论数最多的《孙子兵法》、《西游记》、《三国演义》、《红楼梦》和《论语》5本原著共17个英译本的读者评论, 共计 3 967条图书评论, 经过分句预处理得到由16 830句评论文本构成的语料库, 总字符数133万, 平均每句评论的文本长度为76字符。每本书籍的评论文本数、句子数、字符数、平均句子长度和译本版本数如表1所示。

表1 图书评论语料情况

书名	评论数	句子数	字符数	版本	平均句长(字符数)
孙子兵法	3 167	11 589	840 940	1	72.6
西游记	404	2 933	280 222	8	95.5
三国演义	234	1 643	155 747	5	94.8
红楼梦	65	423	42 408	2	63.8
论语	97	242	12 934	1	53.4
平均	793.4	3 366	266 450	3.4	76.0
合计	3 967	16 830	1 332 251	17

4.2 主题词抽取实验

对语料分句, 以句子为单位进行概念主题词抽取, 采用改进的Stanford词性标注工具^[25]将输入的句子拆分为分句和语句块; 采用Lancaster Stemming Algorithm^[26]词干化每个语句块; 使用Concept Parser在线分析器^[27]进行逐句的主题词抽取, 通过定义概念词的词性标注搭配规则、句法相似检测和语义相似检测, 找出候选词在常识知识库AffectNet中相似度最大的概念, 获取概念词列表作为主题词, 通常表现为复合词。

基于知识库主题词抽取结果与Qiu等^[4]提出的双向传播算法的对照结果如表2所示。从表2的句子层面观察, 基于知识库的主题词抽取的信息比双向传播抽取的信息更丰富, 抽取信息的统计结果如表3所示, 双向传播算法只有67.3%的句子返回抽取结果, 本文提出的基于知识库方法有98.1%的句子返回主题词抽取结果, 从语料中更多的句子中抽取了信息。从抽取信息的质量来看, 双向传播返回总词次也称为型符(Token)60 597个, 不重复计算的类符(Type)4 061个; 基于知识库方法返回总词次175 889个, 不重复计算的类符7 224个, 基于知识库方法返回的型符、类符数量均比双向传播方法多。词汇多样性是反映词汇信息丰富程度的测量维度, 为避免语篇长度对测量信度的影响, 采用Uber Index量化主题词抽取结果的词汇多样性, 计算方法如公式(9)所示。

$Uber\text{ }index=\frac{{{(\log Tokens)}^{2}}}{(\log Tokens-\log Types)}$ (9)

表2 基于知识库的主题词抽取与双向传播算法结果对照

编号	句子文本	双向传播抽取	基于知识库抽取
1	I fell in love with this story when i was a little kid, watching the japanesetv show from the 70s called 'monkey'.	show japanese/ i kid	watch_tv_showjapanese_tv_showtv_showfall_in_lovelove_with_story story little_kid kid 70s call_monkey
2	i love that show.	无	love_showthat_show
3	when i was in primary school, i read an english abridged version of the journey to the west.	version abridged/ version english	be_in_schoolprimary_schoolenglishabridged_versionve rsion_of_journey journey abridged_to_west west
4	but icant read chinese so i was never able to.	无	i_read
5	I bought all four volumes of this immediately on my kindle.	无	buy_volume volume volume_of_thisbuy_on_kindle
6	and I felt so great having the complete novel on my kindle, ready for me to read at my leisure.	novel ready/ novel complete/ ready novel	have_novelcomplete_novel novel novel_on_kindleread_at_leisure
7	I wanted to write this review to thank Anthony Yu, who i read spent 6 years translating this novel.	无	write_review review thank_yuanthony_yuspend_yutranslate_novel novel
8	Thank you Mr Yu!	无	mr_yu
9	I've read Journey to the West, Yu's translation, every few years for the last decade or so now.	无	read_journeyread_yearread_to_west west few_year year last_decade decade

表3 基于知识库的主题词抽取与双向传播算法统计对照

方法	返回结果句数	返回结果句子%	Tokens	Types	Uber_Index
双向传播算法	11 328	67.3%	60 597	4 061	19.485
基于知识库方法	16 512	98.1%	175 889	7 224	19.844

从表3可以看出, 基于知识库方法抽取结果的词汇多样性高于双向传播抽取方法, 虽然基于知识库抽取的复合主题词中重复出现大量的虚词, 如功能词of和介词to、in、with等, 这些词重复次数会使得词汇多样性降低; 而双向传播抽取的是特征词-特征词对、观点词-特征词对、特征词-观点词对和观点词-观点词对, 抽取结果主要包含名词、形容词等有实际意义的实词。综合考虑以上因素, 基于知识库主题词抽取方法的效果更好。

分别统计5本图书评论的主题词频, 保留主题词列表中有名词释义的词汇, 根据自定义的停用词表筛选去除停用词形成主题词表, 停用词表包含语料中的非实体词条(目录词条、类别词条、书名词条、作者姓名和书中人物姓名, 如book、work、read、daiyu、sunzi等)。截取每本典籍的词频最高的20个主题词, 如表4所示, 在三本以上典籍抽取结果中出现的高频主题词汇加粗显示。

表4 基于常识知识库的主题词抽取Top20

序号	孙子兵法	三国演义	西游记	红楼梦	论语
1	text	translation	translation	translation	word
2	life	version	version	chinese	time
3	version	character	chinese	story	wisdom
4	translation	chinese	character	version	life
5	business	history	volume	life	order
6	time	volume	time	family	study
7	reader	game	adventure	classic	philosophy
8	chinese	time	chapter	pinyin	translation
9	strategy	page	page	language	kindle
10	original	dynasty	tale	tone	history
11	situation	text	culture	reader	quote
12	commentary	edition	edition	page	truth
13	warfare	china	classic	original	meaning
14	lesson	end	language	love	disciple
15	deal	people	series	character	teach
16	understanding	language	part	english	stuff
17	sense	han	end	end	fact
18	warrior	classic	reader	edition	idea
19	military	epic	original	culture	classic
20	position	reader	world	volume	collection

可以看出, 5本典籍英译评论者有很多共同关注的主题词, 如translation是5本典籍英译作品均被评论者使用的高频主题词, chinese、classic、reader、time、version出现在4本典籍英译评论者高频使用的主题词列表中, character、edition、end、language、life、original、page、volume出现三次, 表明相关话题被海外读者高度关注。

4.3 主题聚类实验

评论者共同关注的主题是本文另一个研究目标, 对主题词的聚类分析可以从冗杂的网络评论信息中抽取描述实体的概括性信息, 有助于对评论观点进行汇总分析。使用VOSviewer^[28]实现主题词共词聚类, 为改进传统共词分析对于词汇语义关系表现的不足, 以常识知识库抽取的主题词表作为共词聚类的输入, 取词频20以上、句共现频率100以上的167个共现主题词, VOSviewer聚类模型吸引力参数取1, 排斥力参数取-1, 聚类分辨率参数取25, 最小类簇20, 标准化参数为“Linlog/Modularity”, 迭代次数300次。

聚类结果如图2所示, 其中不同圆圈代表主题词节点, 圆圈越大表明主题词出现频率越高, 距离越邻近表明主题词共现频率越高。主题词被分为4个聚类, 其中类1包含51个主题词, 类2包含46个主题词、类3包含41个主题词、类4包含29个主题词。

图2 共词聚类图谱

共词强度是社会网络分析中节点关键程度评价的重要标准, 主要指标是度数中心度。度数中心度越高, 说明该节点在知识网络中影响力越大, 越可能成为关键主题词^[29]。采用知识网络中的度数中心度衡量每个类簇中的节点关键程度, 通过UCINET6.0软件分析得到按类簇度数中心度排序的主题词如表5所示。类1包含的关键主题词主要有: history、journey、character、part、interesting、plot、child、hero等, 主要与书中人物和情节相关; 类2包含的主题词主要有: translation、version、edition、classic、study、commentary、advice、rating、mandarin、English、translate、translator等, 对译本翻译风格、版本的关注比较集中; 类3包括situation、business、nature、deal、strategy、battle、fight、politics等, 主要与书中的主题内容相关; 类4包含的主题词主要有page、volume、cover、note、review、side、quality、price、error、paper等与书籍质量相关的词汇。综上, 典籍英译海外读者主要关注的问题可以概括为书中人物情节、翻译风格、主题内容和质量价格这4类。

表5 概念主题词共词聚类结果

聚类	主题词(按节点中心度排序)
Cluster1 人物情节	history、journey、character、part、interesting、chapter、original、author、understanding、end、game、drab、introduction、dynasty、material、china、enjoy、series、tale、background、century、information、adventure、concept、discover、piece、epic、literature、period、priest、damage、test、plot、concise、fan、style、child、aspect、long、presentation、hero、collection、power、element、format、kind、description、strategist、imagination、readability、reat
Cluster2 翻译风格	translation、version、edition、classic、study、commentary、advice、rating、mandarin、English、ancient、language、conflict、provide、word、type、culture、copy、highest、translate、meaning、reference、translator、year、easy、money、understand、insight、Asian、maintain、mind、order、job、notation、advantage、scholar、age、wisdom、comment、section、average、vision、purchase、voice、fair、informative
Cluster3 主题内容	situation、business、nature、deal、general、sense、strategy、practice、human、forsight、battle、ageless、principle、sector、everyday、owner、litigator、leader、idea、student、fight、problem、professional、practical、corporate、guide、competitive、career、base、America、tactic、ahead、planning、outline、country、win、result、victory、campaign、politics、sawyer
Cluster4 质量价格	warfare、lesson、page、volume、relevant、modern、set、experience、cover、note、review、case、hand、present、side、quality、state、price、error、position、knowledge、philosophy、back、quote、master、paper、managerial、product、condition

5 结语

本文利用常识知识库的全局语义信息, 提出基于常识知识库的无监督评论主题词抽取方法, 以亚马逊网站上17个版本典籍英译图书的评论为数据源进行研究, 自动抽取评论中的显性主题词和隐性主题词, 并以此为基础绘制主题词共词聚类图谱, 通过可视化的相似度映射技术和加权的模块参数化聚类算法呈现海外读者共同高度关注的主题类簇, 发现典籍英译海外评论者主要关注的4个主题类簇, 结合知识网络中的节点中心度呈现各个类簇中的关键主题词。研究结果表明基于知识库方法抽取的结果句子覆盖面更广、主题词汇多样性更丰富。

由于目前没有成熟的图书评论领域知识库, 本文主题挖掘过程尚未引入领域知识, 还未达到最理想效果。未来研究计划是建立图书评论领域知识库, 并在更大规模评论语料上测试, 进一步提高主题抽取的准确率。

作者贡献声明

祁瑞华: 提出研究思路, 设计研究方案, 进行实验, 论文起草及最终版本修订;

周俊艺: 采集、分析数据, 进行实验;

郭旭, 刘彩虹: 清洗和分析数据, 进行实验。

利益冲突声明

所有作者声明不存在利益冲突关系。

支撑数据

支撑数据由作者自存储, E-mail: rhqi@dlufl.edu.cn。

[1] 祁瑞华, 郭旭. 图书评论. csv. 典籍英译图书评论数据集.

[2] 祁瑞华, 郭旭. 概念词列表. csv. 基于知识库的概念词抽取结果.

参考文献

View Option

[1]	刘君. 试论文献的隐性主题[J]. 图书情报知识, 1996(2): 24-27. [本文引用:3] (Liu Jun.On the Implicit Topic of Literature[J]. Documentation, Information and Knowledge, 1996(2): 24-27.)
[2]	Hu M, Liu B.Mining and Summarizing Customer Reviews[C]// Proceedings of the 10th ACM SIGKDD International Conference on Knowledge Discovery and Data Mining. ACM, 2004: 168-177. [本文引用:1]
[3]	Hu M, Liu B.Mining Opinion Features in Customer Reviews[C]// Proceedings of the 19th National Conference on Artificial Intelligence. 2004: 755-760. [本文引用:1]
[4]	Qiu G, Liu B, Bu J, et al.Opinion Word Expansion and Target Extraction Through Double Propagation[J]. Computational Linguistics, 2011, 37(1): 9-27. [本文引用:3]
[5]	Poria S, Cambria E, Ku L W, et al.A Rule-based Approach to Aspect Extraction from Product Reviews[C]// Proceedings of the 2nd Workshop on Natural Language Processing for Social Media. 2014: 28-37. [本文引用:2]
[6]	Su Q, Xu X, Guo H, et al.Hidden Sentiment Association in Chinese Web Opinion Mining[C]// Proceedings of the 17th International Conference on World Wide Web. ACM, 2008: 959-968. [本文引用:1]
[7]	Jin W, Ho H H.A Novel Lexicalized HMM-based Learning Framework for Web Opinion Mining[C]// Proceedings of the 26th Annual International Conference on Machine Learning. 2009: 465-472. [本文引用:1]
[8]	Poria S, Cambria E, Gelbukh A.Aspect Extraction for Opinion Mining with a Deep Convolutional Neural Network[J]. Knowledge-Based Systems, 2016, 108: 42-49. [本文引用:1]
[9]	Cruz I, Gelbukh A, Sidorov G.Implicit Aspect Indicator Extraction for Aspect Based Opinion Mining[J]. International Journal of Computational Linguistics and Applications, 2014, 5(2): 135-152. [本文引用:1]
[10]	Zhang Y, Zhu W.Extracting Implicit Features in Online Customer Reviews for Opinion Mining[C]// Proceedings of the 22nd International Conference on World Wide Web. 2013: 103-104. [本文引用:1]
[11]	冯淑芳, 王素格. 面向观点挖掘的汽车评价本体知识库的构建[J]. 计算机应用与软件, 2011, 28(5): 45-47, 105. [本文引用:1] (Feng Shufang, Wang Suge.Automobile Reviews Ontology Knowledge Base Construction Oriented Towards Opinion Mining[J].Computer Applications and Software, 2011, 28(5): 45-47, 105.)
[12]	王素格, 李大宇, 李旸. 基于联合模型的商品口碑数据情感挖掘[J]. 清华大学学报: 自然科学版, 2017, 57(9): 926-931. [本文引用:1] (Wang Suge, Li Dayu, Li Yang.Sentiment Mining of Commodity Reputation Data Based on Joint Model[J]. Journal of Tsinghua University: Science and Technology, 2017, 57(9): 926-931.)
[13]	Zhang P, Gu H, Gartrell M, et al.Group-based Latent Dirichlet Allocation (Group-LDA): Effective Audience Detection for Books in Online Social Media[J]. Knowledge-Based Systems, 2016, 105: 134-146. [本文引用:1]
[14]	Sohail S S, Siddiqui J, Ali R.Book Recommendation System Using Opinion Mining[C]// Proceedings of the 2013 International Conference on Advances in Computing, Communications and Informatics. 2013: 1609-1614. [本文引用:1]
[15]	Sohail S S, Siddiqui J, Ali R.Feature Extraction and Analysis of Online Reviews for the Recommendation of Books Using Opinion Mining Technique[J]. Perspectives in Science, 2016, 8: 754-756. [本文引用:1]
[16]	陈晓美. 网络评论观点知识发现研究[D]. 长春: 吉林大学, 2014. [本文引用:1] (Chen Xiaomei.Study of Knowledge Discovery of Opinions from Web Reviews[D]. Changchun: Jilin University, 2014.)
[17]	Cambria E, Chandra P, Sharma A, et al.Do not Feel the Trolls[C]// Proceedings of the CEUR Workshop. 2010. [本文引用:1]
[18]	Rajagopal D, Cambria E, Olsher D, et al.A Graph-based Approach to Commonsense Concept Extraction and Semantic Similarity Detection[C]// Proceedings of the 22nd International Conference on World Wide Web. ACM, 2013: 565-570. [本文引用:3]
[19]	李锋. 基于核心关键词的聚类分析——兼论共词聚类分析的不足[J]. 情报科学, 2017, 35(8): 68-71, 78. [本文引用:1] (Li Feng.Clustering Analysis Based on Core Keyword—— Concurrently Discuss the Deficiency of Co-word Analysis[J]. Information Science, 2017, 35(8): 68-71, 78.)
[20]	傅柱, 王曰芬. 共词分析中术语收集阶段的若干问题研究[J]. 情报学报, 2016, 35(7): 704-713. [本文引用:1] (Fu Zhu, Wang Yuefen.A Discussion on Some Questions of Term Collection in Co-Word Analysis[J]. Journal of the China Society for Scientific and Technical Information, 2016, 35(7): 704-713.)
[21]	胡昌平, 陈果. 科技论文关键词特征及其对共词分析的影响[J]. 情报学报, 2014, 33(1): 23-32. [本文引用:1] (Hu Changping, Chen Guo.Characteristics of Keywords in Scientific Papers and Their Impact on Co-Word Analysis[J]. Journal of the China Society for Scientific and Technical Information, 2014,33(1): 23-32.)
[22]	Wang Z Y, Li G, Li C Y, et a1. Research on the Semantic-Based Co-Word Analysis[J]. Scientometrics, 2012, 90(3): 855-875. [本文引用:1]
[23]	Waltman L, Van Eck N J. A Smart Local Moving Algorithm for Large-Scale Modularity-Based Community Detection[J]. The European Physical Journal B, 2013, 86(11): 471. [本文引用:1]
[24]	Waltman L, Van Eck N J, Noyons E C M. A Unified Approach to Mapping and Clustering of Bibliometric Networks[J]. Journal of Informetrics, 2010, 4(4): 629-635. [本文引用:5]
[25]	Manning C D.Part-of-Speech Tagging from 97% to 100%: Is It Time for Some Linguistics?[C]//Proceedings of the 2011 International Conference on Intelligent Text Processing and Computational Linguistics. Berlin, Heidelberg: Springer, 2011: 171-189. [本文引用:1]
[26]	Chris D P.Another Stemmer[J].ACM SIGIR Forum, 1990, 24(3): 56-61. [本文引用:1]
[27]	SenticNet. Concept Parser[OL]. [2018-01-28]. . URL [本文引用:1]
[28]	Van Eck N J, Waltman L. Software Survey: VOSviewer, a Computer Program for Bibliometric Mapping[J]. Scientometrics, 2010, 84(2): 523-538. [本文引用:1]
[29]	杨颖, 崔雷. 基于共词可视化的学科战略情报研究[J]. 情报学报, 2011, 30(3): 325-330. [本文引用:1] (Yang Ying, Cui Lei.Subject Strategic Information Research Based on Visualization of Co-Word Network[J]. Journal of the China Society for Scientific and Technical Information, 2011, 30(3): 325-330.)

试论文献的隐性主题

1996

... 评论主题词抽取任务可以分为显性主题词抽取和隐性主题词抽取, 显性主题词在评论文本中以名词或名词短语等形式显性出现; 隐性主题词通常字面表征不明确或者没有直接的书面表述形式, 是需要通过深入的概念分析才能挖掘出来的主题概念或复杂概念的组合, 隐性主题词的分析与提炼建立在显性主题词基础上^[1].面向文献检索领域, 隐性主题词具有隐含性、相对性、模糊性和依附性, 不同文献情报机构基于不同角度、知识结构基础和词表参照系统, 揭示的隐性主题词有所不同, 隐性主题词与显性主题词的相关程度难以准确衡量^[1]. ...

... [1]. ...

... 隐性主题词的抽取需要对文本包含的有价值的隐含概念进行提炼与揭示^[1], 难点在于隐性主题词标注需要领域专家的参与, 在标注的语料上, Poria等^[5]基于规则方法和句法依存树检测显性和隐性主题词; Cruz等^[9]采用线性链条件随机场序列标注算法抽取隐性主题词标记, 实验结果虽然优于同类研究, 但F1值仅达到0.297, 作者计划加入更多特征以改善效果, 但标注语料成本和规模限制了效果的进一步提升. ...

On the Implicit Topic of Literature

1996

... [1]. ...

Mining and Summarizing Customer Reviews

2004

... 显性主题词抽取方法主要有无监督的基于规则方法、聚类方法, 以及有监督方法.基于规则的方法难点在于规则模板的建立需要领域专家的参与, 例如Hu等^[2,3]利用关联规则挖掘频繁项集作为产品特征, 局限是非频繁主题词的识别率低; Qiu等^[4]利用句法依存关系建立双向传播算法抽取模版, 在中等规模语料集上的效果较好.Poria等^[5]利用依存关系、WordNet和SenticNet常识知识库检测评论主题词, 在公开数据集上取得很好的效果.聚类方法的可移植性有限, 如Su等^[6]利用中文概念词典等多源知识, 提出COP-Kmean聚类和相互强化规则挖掘产品特征和观点词间的映射, 但难以用来解决其他问题. ...

Mining Opinion Features in Customer Reviews

2004

Opinion Word Expansion and Target Extraction Through Double Propagation

2011

... 基于共词关系的隐性主题词抽取不需要先验知识或人工标注, 效果依赖于语料的覆盖率, 如Zhang等^[10]建立子句级的实词共词矩阵, 然后基于文献[4]的双向传播原理采用双边迭代法生成修饰关系矩阵, 根据平均相关性排序选取概率大的隐性主题词, 效果受到共词矩阵和语料规模的影响. ...

... 基于知识库主题词抽取结果与Qiu等^[4]提出的双向传播算法的对照结果如表2所示.从表2的句子层面观察, 基于知识库的主题词抽取的信息比双向传播抽取的信息更丰富, 抽取信息的统计结果如表3所示, 双向传播算法只有67.3%的句子返回抽取结果, 本文提出的基于知识库方法有98.1%的句子返回主题词抽取结果, 从语料中更多的句子中抽取了信息.从抽取信息的质量来看, 双向传播返回总词次也称为型符(Token)60 597个, 不重复计算的类符(Type)4 061个; 基于知识库方法返回总词次175 889个, 不重复计算的类符7 224个, 基于知识库方法返回的型符、类符数量均比双向传播方法多.词汇多样性是反映词汇信息丰富程度的测量维度, 为避免语篇长度对测量信度的影响, 采用Uber Index量化主题词抽取结果的词汇多样性, 计算方法如公式(9)所示. ...

A Rule-based Approach to Aspect Extraction from Product Reviews

2014

Hidden Sentiment Association in Chinese Web Opinion Mining

2008

A Novel Lexicalized HMM-based Learning Framework for Web Opinion Mining

2009

... 有监督方法的准确率较高, 但标注大量语料的人工成本高昂, 代表研究有Jin等^[7]用隐马尔科夫算法抽取主题词和观点词; Poria等^[8]提出7层卷积神经网络标注观点主题词, 引入语义知识使深层卷积神经网络适应自然世界数据. ...

Aspect Extraction for Opinion Mining with a Deep Convolutional Neural Network

2016

Implicit Aspect Indicator Extraction for Aspect Based Opinion Mining

2014

Extracting Implicit Features in Online Customer Reviews for Opinion Mining

2013

面向观点挖掘的汽车评价本体知识库的构建

2011

... 从知识覆盖面的角度, 知识库可分为常识知识库和领域知识库.常识知识库的知识覆盖率高, 但精度不能满足领域主题词汇和专有名词抽取的需求.目前领域知识库资源稀缺, 通常需要先根据垂直领域语料和具体任务建立领域知识库, 才能基于领域知识库抽取主题词, 如冯淑芳等^[11]建立面向汽车评论观点挖掘的本体知识库, 为汽车领域的评价观点挖掘和情感分析奠定了良好基础; 王素格等^[12]基于这个本体知识库挖掘汽车领域口碑数据中的评价主题词和观点.领域知识库中的概念及其关系需要不断更新完善, 领域知识库的概念抽取模板也需要领域专家参与建立, 成本较高. ...

Automobile Reviews Ontology Knowledge Base Construction Oriented Towards Opinion Mining

2011

基于联合模型的商品口碑数据情感挖掘

2017

Sentiment Mining of Commodity Reputation Data Based on Joint Model

2017

Group-based Latent Dirichlet Allocation (Group-LDA): Effective Audience Detection for Books in Online Social Media

2016

... 图书评论主题相对分散^[13], 现有研究局限于少量图书的评论数据或主观分析方法, 如Sohail等^[14,15]将图书评论主题分为7类, 收集20个用户对计算机图书评论的主观反馈进行验证, 局限在于主题类别是主观设置而并非从评论文本中抽取; 陈晓美^[16]基于LDA主题模型提出评论观点识别和判定方法, 利用《卡尔威特的教育》一书的评论文本进行验证, 实验方法未得到广泛验证.可见, 当前亟需面向大样本数据的图书评论主题自动抽取方法. ...

Book Recommendation System Using Opinion Mining

2013

Feature Extraction and Analysis of Online Reviews for the Recommendation of Books Using Opinion Mining Technique

2016

网络评论观点知识发现研究

2014

Study of Knowledge Discovery of Opinions from Web Reviews

2014

Do not Feel the Trolls

2010

... AffectNet是一个多学科的常识和情感知识库^[17], 其中每个概念表示为矩阵中的一行.Rajagopal等^[18]利用AffectNet知识库, 采用相似性检测将知识库中未包含的非概念词映射到知识库中的相似概念词.两个概念之间的相似度通过行向量间的点积来量化, 点积值越大, 概念相似度越高.为避免点积计算的维度灾难, 使用截断的奇异值分解法, 设AffectNet矩阵的低阶近似矩阵为$\tilde{A}=US{{V}^{*}}$, 其中S是有K个非零对角线元素的对角矩阵, 则可以最小化原始AffectNet情感矩阵与新矩阵的Frobenius范数如公式(1)所示, 得到AffectNet的低阶近似值^[18]. ...

A Graph-based Approach to Commonsense Concept Extraction and Semantic Similarity Detection

2013

... [18]. ...

... 在图1的主题词抽取模块中, 基于常识知识库AffectNet主题词抽取的具体步骤如下^[18]: ...

基于核心关键词的聚类分析——兼论共词聚类分析的不足

2017

... 图书评论的观点信息通常按照主题相互聚集, 聚集程度高的词汇一般是具有代表性的主题词.传统的共词聚类存在同义词、近义词辨识和词语歧义问题, 共现关系不能有效表现关键词间的语义相关性, 人工调整或加权处理也很难保证其共现关系的真实性^[19,20].胡昌平等^[21]和Wang等^[22]研究发现, 对词语进行语义化处理可以改善共词分析效果. ...

Clustering Analysis Based on Core Keyword—— Concurrently Discuss the Deficiency of Co-word Analysis

2017

共词分析中术语收集阶段的若干问题研究

2016

A Discussion on Some Questions of Term Collection in Co-Word Analysis

2016

科技论文关键词特征及其对共词分析的影响

2014

Characteristics of Keywords in Scientific Papers and Their Impact on Co-Word Analysis

2014

Research on the Semantic-Based Co-Word Analysis

2012

A Smart Local Moving Algorithm for Large-Scale Modularity-Based Community Detection

2013

... 加权模块参数化聚类算法^[23]的优点是效率高, 适合处理大规模数据, 能够保持同一领域多个映射之间的一致性.具体实现方法如下^[24]: 设c_ij代表n个节点组成的网络中节点i和节点j之间的共现矩阵链接(c_ij=c_ji≥0), c_i代表节点i总的链接, m代表网络中的链接总数, S_ij代表节点i和节点j之间的关联强度, 计算方法如公式(2)所示. ...

A Unified Approach to Mapping and Clustering of Bibliometric Networks

2010

... 聚类的具体任务是为每一个节点i找到一个正整数x_i表示其所属的类别, 即最小化公式, 如公式(3) 所示^[24]. ...

... 其中, 第一项代表节点间的吸引力, 关联度高的节点互相吸引, 节点间关联越强吸引力就越强; 第二项代表排斥力, 关联度低的节点互相排斥.d_ij代表节点i和节点j之间的距离, 计算方法如公式(4)-公式(5)所示^[24]. ...

... 公式(5)中, 分辨参数γ(γ>0)的值越大, 得到的聚类数越多.综合公式(3)-公式(5), 公式(3)的最小化等价于公式(6)^[24] , 其中$\delta \text{(}{{x}_{i}}\text{, }{{x}_{j}}\text{)}$的计算如公式(7)所示. ...

... 其中, 权重w_ij的计算方法如公式(8)所示^[24]. ...

Part-of-Speech Tagging from 97% to 100%: Is It Time for Some Linguistics?

2011

... 对语料分句, 以句子为单位进行概念主题词抽取, 采用改进的Stanford词性标注工具^[25]将输入的句子拆分为分句和语句块; 采用Lancaster Stemming Algorithm^[26]词干化每个语句块; 使用Concept Parser在线分析器^[27]进行逐句的主题词抽取, 通过定义概念词的词性标注搭配规则、句法相似检测和语义相似检测, 找出候选词在常识知识库AffectNet中相似度最大的概念, 获取概念词列表作为主题词, 通常表现为复合词. ...

Another Stemmer

1990

SenticNet. Concept Parser

2018

Software Survey: VOSviewer, a Computer Program for Bibliometric Mapping

2010

... 评论者共同关注的主题是本文另一个研究目标, 对主题词的聚类分析可以从冗杂的网络评论信息中抽取描述实体的概括性信息, 有助于对评论观点进行汇总分析.使用VOSviewer^[28]实现主题词共词聚类, 为改进传统共词分析对于词汇语义关系表现的不足, 以常识知识库抽取的主题词表作为共词聚类的输入, 取词频20以上、句共现频率100以上的167个共现主题词, VOSviewer聚类模型吸引力参数取1, 排斥力参数取-1, 聚类分辨率参数取25, 最小类簇20, 标准化参数为“Linlog/Modularity”, 迭代次数300次. ...

基于共词可视化的学科战略情报研究

2011

... 共词强度是社会网络分析中节点关键程度评价的重要标准, 主要指标是度数中心度.度数中心度越高, 说明该节点在知识网络中影响力越大, 越可能成为关键主题词^[29].采用知识网络中的度数中心度衡量每个类簇中的节点关键程度, 通过UCINET6.0软件分析得到按类簇度数中心度排序的主题词如表5所示.类1包含的关键主题词主要有: history、journey、character、part、interesting、plot、child、hero等, 主要与书中人物和情节相关; 类2包含的主题词主要有: translation、version、edition、classic、study、commentary、advice、rating、mandarin、English、translate、translator等, 对译本翻译风格、版本的关注比较集中; 类3包括situation、business、nature、deal、strategy、battle、fight、politics等, 主要与书中的主题内容相关; 类4包含的主题词主要有page、volume、cover、note、review、side、quality、price、error、paper等与书籍质量相关的词汇.综上, 典籍英译海外读者主要关注的问题可以概括为书中人物情节、翻译风格、主题内容和质量价格这4类. ...

Subject Strategic Information Research Based on Visualization of Co-Word Network

2011