Advanced Search
数据分析与知识发现, 2019, 3(6): 117-122
doi: 10.11925/infotech.2096-3467.2018.1209
基于用户使用行为视角的百度百科词条分类研究*
Classifying Baidu Encyclopedia Entries with User Behaviors
何振宇, 董祥祥, 朱庆华

摘要:

目的】将用户使用行为作为百科词条分类依据, 找到并优化具有高使用价值与使用潜力的词条。【方法】结合国内外学者的研究成果, 选取用户使用程度与用户认可度作为研究指标, 基于波士顿矩阵和BP神经网络方法提出词条分类模型并进行自动分类。【结果】基于用户使用行为指标对词条做出分类并提出相应的发展策略; 自动分类方法可以准确判别单一词条所属的词条类别。【局限】对新生词条的研究不足, 未考虑丰富度、严谨性等难以准确量化的特征。【结论】拓展百科词条分类的新思路, 提出百科词条分类的新方法。

关键词: 百度百科词条 ; 波士顿矩阵 ; BP神经网络

Abstract:

[Objective] This paper classifies Baidu encyclopedia entries based on users’ information behaviors, aiming to identify entries with high potential values. [Methods] We chose the usage and recognition levels as indicators, and proposed a new entry classification model base on Boston matrix and BP neural network. [Results] We classified the Baidu encyclopedia entries automatically with usage indicators and created development strategies for each category. Our new model correctly identified each entry’s category information. [Limitations] More research is needed to study the newly generated entries and features difficult to quantify. [Conclusions] This research proposed an effective method to automatically classify online encyclopedia entries.

Key words: Baidu Encyclopedia Entry ; Boston Matrix ; BP Neural Network

1 引 言

随着网络百科的发展, 网络百科的词条数量也在不断增多。百度百科已成为国内最具代表性的网络百科全书之一, 并且也是人们日常使用最频繁的信息源之一。词条是百度百科的核心内容, 百度百科将词条细分为艺术、科学、自然、文化、地理等11大类, 词条结构非常固定化, 包含词条名称、词条摘要、表格形式的词条基本信息、目录、词条正文、参考注释、词条标签等。

基于词条属性与内容的分类是目前最常见的分类标准, 但随着词条分类研究的不断深入, 众多学者基于不同视角对百科词条进行分类研究。Stvilia等[1]从条目内容和编辑历史上, 提取出7个复合指标以评价词条质量, 并通过决策树算法进行分类, 从而验证词条质量; Warncke-Wang等[2]在Stvilia等的基础上, 最终筛选出5个特征, 并利用决策树算法对词条质量进行分类; Blumenstock[3]使用词条单词数量作为唯一指标进行词条的分类研究, 并取得不错的评价效果; Dalip等[4]通过机器学习技术, 探索了大量的质量指标, 并将质量指标结合到一个单一的评估中, 实验表明最重要的质量指标是最容易提取的文本特征; Wöhner等[5]基于信息质量的生命周期, 提出一个有效测量词条质量的新指标; Wang等[6]通过研究维基百科词条的编辑历史, 提出编辑网络结构模型和网络结构指标, 结合已有指标, 利用支持向量机预测维基百科文章类别; Xu等[7]提出一种基于词汇线索的模型, 用来评估维基百科的词条质量; Suzuki等[8]从词条文本内容的存活率的角度, 通过评估编辑者和词条文本对词条质量进行评价; Ferretti等[9]描述了一种半监督的机器学习方式——PU学习, 用于实现维基百科中的质量缺陷预测, 并成功运用于传统语料库的分类任务; 与用单一值表示词条质量不同, Dalip等[10]基于元学习的方式, 将指标分为三个视图用以表示词条质量; Flekova等[11]基于维基百科用户反馈数据, 依靠维基百科活跃作者的判断, 分析普通维基百科用户对4个质量维度(完整、写得好、值得信赖和客观)的评价; Dang等[12]使用深度学习自动表示维基百科文章以进行质量分类; Khairova等[13]提出通过内容分析的方式取代特征集对维基百科文章进行分类的新方法, 并获得不错的结果; Shen等[14]提出一种将深度学习与相关研究文献中提取出的特征相结合的混合方法, 从而实现对维基百科词条的分类。

国内学者关于网络百科分类的研究还较少。裘江南等[15]基于维基百科原有的7级质量标准, 结合页面编辑情况和页面情况, 从中提取出15个可量化的客观指标, 利用决策树C4.5分类算法, 构建了一个用于评价维基百科页面信息质量的自动分类模型; 肖奎等[16]同时考虑词条本身的属性和编辑者的行为属性, 最终筛选出15个词条属性与4个用户属性, 通过分类和利用余弦相似度计算词条质量以确定维基百科词条的等级。

综上, 目前研究主要集中在词条内容维度、网络维度、编辑维度等视角下的评价与分类。实际上, 除了上述研究中使用的特征指标外, 百科词条属性中还包含用户的使用行为特征指标, 如词条使用者的浏览、分享与点赞数值等, 而基于此类指标的词条分类研究非常少见。因此本研究根据波士顿矩阵的思想, 提出基于用户使用行为指标的百度百科词条分类方法, 并利用BP神经网络实现词条的自动化分类。

2 研究方法
2.1 方法简介

(1) 词条分类思路——波士顿矩阵方法

波士顿矩阵方法[17]由波士顿咨询集团引入, 也称为增长-份额矩阵方法。波士顿矩阵是一种静态分析技术, 通过分析目标产品的销售增长率与相对市场份额之间的关系评估目标产品的当前位置及企业应对目标产品采取的战略决策。一般来说, 波士顿矩阵方法通过市场占有率及销售增长率对产品进行4象限划分, 其中市场占有率为该产品在市场中的数量与同类产品在市场内总量的比值, 通常用以衡量产品竞争力; 销售增长率为该产品一年或几年内销售量增长比例, 通常用以衡量产品发展潜力或用户口碑。

依据图1, 波士顿矩阵方法会将产品划分为4种不同的类型:

①明星产品(Stars): 具有高市场占有率和高销售增长率的产品。

②现金牛产品(Cash Cows): 具有高市场占有率和低销售增长率的产品。

③问题产品(Question Marks): 具有低市场占有率和高销售增长率的产品。

④瘦狗产品(Dogs): 具有低市场占有率和低销售增长率的产品。

图1 波士顿矩阵模型

根据波士顿矩阵划分出的产品类型, 公司或决策者即可针对4种类型产品制定相应的战略对策。常见的战略对策有: 发展、保持、收割和放弃等4种。

根据波士顿矩阵的划分思想, 本研究将整个百度百科词条集合看作目标市场, 每个词条都是属于词条市场的独立产品, 进而依据每个词条在词条市场中的位置对其做出分类。具体来说: 基于波士顿矩阵中的高/低销售额增长和高/低市场份额划分规则, 产品在市场中的价值体现在其销售量(用户的使用行为)及增长率上。对应地, 词条作为词条市场中的产品, 词条在词条市场中的市场价值也应体现在用户的使用行为上, 即用户的浏览、点赞和转发量。浏览量作为点赞和转发的起点, 其高低直接体现用户对于词条的使用程度, 因此, 本研究将词条的浏览量——用户使用程度类比为波士顿矩阵中的市场份额。同时, 点赞与转发作为用户浏览词条之后的衍生行为, 其指标大小体现用户对于词条质量的肯定与喜爱程度, 从某种意义上来说, 它体现了词条的潜在增长率。为了消除高浏览量导致的高点赞、高转发, 本研究以点赞与转发的总和与浏览量的比值——用户认可度来类比增长率, 从而得出百度词条的高/低认可度和高/低使用程度划分规则。

(2) 词条自动分类方法——BP神经网络

BP神经网络(Back Propagation Neural Network)是一种由误差反向传播算法训练的多层前馈网络, 也是最广泛使用的神经网络模型之一[18]。在学习阶段, BP神经网络使用反向传播学习算法, 通过梯度搜索最小化网络的实际输出与期望输出之间的均方误差。最常用的BP神经网络模型由三部分组成: 输入层、隐含层和输出层。

之所以采用BP神经网络方法实现词条的自动分类, 是因为根据波士顿矩阵提出的分类方法是基于某一时间节点的所有百度词条的用户使用行为指标数据得出来的, 然而在现实环境中, 想要获知部分词条所属的类别, 通过统计获取所有百科词条的用户使用行为指标数据进而得出分类结果的方式太过繁琐。

随着时间的变化, 词条的浏览量、点赞量、转发量都会逐渐增多, 同时词条本身也属于不断被编辑修改的更新状态, 各种词条量化指标也在随之变化, 如果根据某一静止时刻单一词条量化指标数据, 就能够准确判别词条所属的类别, 那么研究提出的分类方法实用价值会大大提升, 同时也能展现出分类结果的可靠性与稳定性。

因此本研究以词条的文本量化指标作为输入数据, 以分类结果作为输出数据, 构建了一个三层BP神经网络以实现词条的自动化分类。具体步骤如下:

①确定输入层节点数: 由于词条分类的支撑数据是词条的浏览、点赞与转发量, 研究目的是探究某一静止时刻词条文本量化指标与分类结果的联系, 统计单个词条的指标数据进而依此做出自动化分类, 而不是获取所有词条的使用行为指标并排序分类, 因此选择浏览、点赞与转发量之外的其余9个指标数据(摘要字数、正文字数、infobox数、标签数、出链数、入链数、参考资料数、图片数、编辑次数)经过归一化处理后作为神经网络的输入层。

②确定输出层节点数: 期望输出结果是词条的分类结果, 这并不是可以等距划分的数值型指标, 因此设定一个4维向量作为神经网络的输出层, 以${{(1,0,0,0)}^{\mathrm{T}}}$明星词条的期望输出, 对应的现金牛词条、问题词条、瘦狗词条期望输出分别为${{(0,1,0,0)}^{\mathrm{T}}}$、${{(0,0,1,0)}^{\mathrm{T}}}$、${{(0,0,0,1)}^{\mathrm{T}}}$。

③确定隐含层节点数: BP神经网络的输入层和输出层节点数通常可以根据研究问题确定, 而隐含层节点数则没有一个通用的计算方法。隐含层节点数量过少会导致神经网络结构简单, 影响分类精度; 隐含层节点数过多则容易导致训练量呈指数增长, 甚至出现过拟合的现象。本研究根据经验公式(1)确定隐含层节点数h取值范围为[3,12]。

$h=\sqrt{m+n}+a$ (1)

其中, mna分别为输入层节点数、输出层节点数和调节常数。

④神经网络参数: 网络训练方法选取trainlm, 节点传递函数选取tansig, 最大训练次数epochs为500, 目标误差goal取值为0.01, 学习率lr取值为0.1。

2.2 数据获取

参考国内外学者针对百科词条研究使用的特征指标, 结合2018年百度百科最新版本的用户界面, 爬取并统计全部百度百科词条的12类指标数据: 摘要长度; 正文长度; infobox数; 标签数; 出链数; 入链数; 参考资料数; 图片数; 浏览量; 转发量; 点赞量; 编辑次数。

具体数据获取流程如下:

(1) 初步抓取: 通过分析百度百科站点链接结构, 发现存在形如“http://baike.baidu.com/view/00000010.htm”的链接地址, 通过遍历数字ID, 可以得到一系列初始链接。利用Python的urllib2库, 可以将页面下载到本地。

(2) 数据清洗: 首先确定要爬取的百度百科页面的结构元素, 例如: 主标题、副标题、摘要、正文、图片、内链、外链等。同时建立一个名为Page的类, 用于描述上述信息, 其中标题等用文本变量表示, 链接等用列表表示。

(3) 数据入库: 建立一个MySQL数据库, 库中建立一个名为entry的表, 将上述页面结构元素用表中的属性表示, 使用PyMySQL库将清洗得到的数据写入数据库。

(4) 二次抓取: 初次抓取得到的页面中包含大量/item/abc形式的相对链接, 链接目标为其他词条页面。故以初次页面采集得到的内链作为种子URL地址, 再次利用步骤(1)-步骤(3)进行数据抓取和清洗。二次数据抓取时, 需要判断URL是否已经被写入数据库, 若存在相应记录则不再重复抓取。

3 研究结果分析
3.1 词条分类

以用户认可度为纵坐标轴, 用户使用程度为横坐标轴, 以是否优于85%的词条作为判别标准, 将1 500万余条百度百科词条数据划分为4大类别, 如图2所示。

图2 基于波士顿矩阵的词条分类模型

(1) 第一类明星词条, 即用户使用程度与用户认可度双高的词条。该类词条占词条总数的1.49%, 对应市场增长率高且相对市场份额高的产品。这些词条处于生命周期的增长期, 在领先大部分词条浏览量的优势下, 用户对词条的点赞和转发比例也优于大部分词条, 属于词条市场中最优质的支柱词条。这类词条在未来的发展演变过程中持续位于明星词条序列的几率较高, 也可能因为环境变更、后续编辑不当等原因变成现金牛词条。

(2) 第二类现金牛词条, 即用户使用程度很高, 但用户认可度较低的词条。该类词条占词条总数的18.56%, 对应代表显示为低市场增长率, 但在相关市场中发挥主导作用并保持相对较高市场份额的产品。这些词条介于生命周期的后增长期和下降期之间, 后期发展潜力较低, 在发展演变过程中除了继续保持在现金牛词条序列, 还可能因为被后来者赶超而跌入瘦狗词条序列。这类词条也属于具有编辑修改价值的词条, 在拥有高用户使用量基础的前提下, 对词条保持定期更新与维护, 提高用户认可程度, 可能会使该类词条“升值”进入明星词条序列。

(3) 第三类问题词条, 即用户使用程度较低, 但用户认可度很高的词条。该类词条占词条总数的18.50%, 对应高市场增长率但市场份额相对较低的产品。这些词条可以被视为处于生命周期中生长期的引导期与发展早期之间, 具有极大的发展潜力。这类词条具有最高的宣传推广价值, 保持住优异的用户认可度, 可能在未来的发展演变过程中成为明星词条, 即使增长势头放缓也有很大可能演变为现金牛词条, 但如果在后续的增长期不再被用户认可, 也会变成瘦狗词条。

(4) 第四类瘦狗词条, 即用户使用程度与用户认可度双低词条。该类词条占词条总数的61.45%, 对应市场增长率低且市场份额相对低的产品。这类词条主要由两种词条组成: 一种是出现时间很短的新生词条, 尚未被用户广泛接触到, 因而导致使用度与认可度双低甚至都为0的情况, 这类词条需要经过一定时间的演变才能稳定在某一个词条类别中; 另一种是处于生命周期中下降期的词条, 长时间处于无人问津的状态, 未来大概率会一直处于瘦狗类词条序列。

针对这4类词条, 提出不同的策略:

(1) 发展: 对词条实行高质量的编辑维护与更频繁的推送。适用于产生时间较短, 受制于用户认可度的现金牛词条与用户认可度高的问题词条, 是两类词条转化为明星词条的必备战略。主要方式有: 以竞赛、物质激励激发编辑者积极性、邀请专家完善、置于相近百度检索结果的醒目位置、百科首页推送等。

(2) 保持: 保持原有发展模式与人力投入, 使词条按原有规则发展变化。适用于明星词条, 使之能持续处于词条市场中的支柱地位。同时瘦狗词条中的新生词条也适用于保持战略, 观察一段时间之后再相应使用其他战略。

(3) 收割: 放弃长远发展, 注重短期效果。适用于产生时间较长、处于词条发展下降期的现金牛词条, 未来用户使用程度会更低, 应当在其仍具备可观浏览量的情况下, 尽量发挥其剩余价值。主要方式有: 缩减投入、加入实行发展战略词条的出链等。

(4) 放弃: 放弃投入, 将编辑与宣传资源投入其他词条, 仅仅依靠读者自发编辑修改。主要适用于产生时间较长的瘦狗词条, 这类词条冷门与专业词条占据相当大的比例, 编辑维护需要相较常规词条更丰富的知识资源和更专业的人员配置, 用户使用程度低的同时却带来高额的更新成本, 放弃往往是最明智的选择。

3.2 词条自动分类

根据词条ID随机抽取500 000条已分类词条作为实验数据, 其中400 000条词条作为训练数据, 剩余100 000条词条作为测试数据。实验工具使用Matlab, 隐含层节点数取值从3到12分别基于训练数据得出一个BP神经网络, 将测试数据输入神经网络, 将得到的预测分类结果与实际分类结果进行对比, 最终得到10个神经网络的迭代次数与判别准确率, 如表1所示。

表1 神经网络预测结果

表1可以看出, 10个神经网络的预测精度都非常可观, 其中隐含层节点数为9时, 模型预测准确率最高。最终得到的神经网络分类预测模型如图3所示。

图3 最终的神经网络分类模型

实验表明, 根据单个词条摘要字数、正文字数、infobox数、标签数量等9个特征指标来判别词条在整个百度百科词条集合中所属的类别是可行的。

4 结 语

本研究在结合国内外百科词条研究的理论基础上, 基于用户使用行为指标对百度百科词条做出分类, 并基于其他量化指标训练出一个BP神经网络以对百度百科词条实现自动化分类。

(1) 基于用户使用行为指标提出百度百科词条分类方法, 可以清晰表现出词条在整个百度百科词条集合中所处的位置及发展趋势, 同时依据分类结果提出的战略对策, 有利于词条编辑者与百科工作人员更具针对性地分配资源, 也为未来的百科词条分类研究提供了新的思路。

(2) 基于BP神经网络的分类模型分类准确率较高, 不仅验证了分类方法的有效性与可靠性, 也可以直接在后续研究中直接使用训练好的模型。

瘦狗型词条中除了低质量词条外, 还包含用户使用程度和认可度双低甚至双零的新生词条, 此类词条的判别与生成时间、编辑次数或者用户使用行为均存在一定关联, 未来研究可对此类词条进行深入探讨。所选取的指标都是基于统计的可量化指标, 未来将探讨如何将文本丰富度、严谨性、编辑者声誉等定性特征与定量特征相结合。同时由分类结果可以看出, 科学类词条普遍处于瘦狗类和问题类词条中, 这种情形是否会导致词条的全民消费化和娱乐化以及如何改善这种情形, 也是值得深究的问题。

作者贡献声明

何振宇: 提出研究思路, 设计实验方案, 收集与处理数据, 进行实验, 撰写论文;

董祥祥: 撰写论文;

朱庆华: 修改论文。

利益冲突声明

所有作者声明不存在利益冲突关系。

支撑数据

支撑数据由作者自存储, E-mail: demandsupply@163.com。

[1] 何振宇. baidudata.xlsx. 百度百科词条统计后数据.

参考文献

[1] Stvilia B, Twidale M B, Smith L C, et al.Assessing Information Quality of a Community-based Encyclopedia[C]// Proceedings of International Conference on Information Quality, 2005: 442-454.
[本文引用:1]
[2] Warncke-Wang M, Cosley D, Riedl J. Tell Me More: An Actionable Quality Model for Wikipedia[C]// Proceedings of the 9th International Symposium on Open Collaboration. ACM, 2013: Article No.8.
[本文引用:1]
[3] Blumenstock J E.Size Matters: Word Count as a Measure of Quality on Wikipedia[C]// Proceedings of the 17th International Conference on World Wide Web, 2008: 1095-1096.
[本文引用:1]
[4] Dalip D H, Gonçalves M A, Cristo M, et al.Automatic Quality Assessment of Content Created Collaboratively by Web Communities: A Case Study of Wikipedia[C]// Proceedings of the 9th ACM/IEEE-CS Joint Conference on Digital Libraries. ACM, 2009:295-304.
[本文引用:1]
[5] Wöhner T, Peters R. Assessing the Quality of Wikipedia Articles with Lifecycle Based Metrics[C]// Proceedings of the 5th International Symposium on Wikis and Open Collaboration, Orlando, Florida, USA.2009: Article No.16.
[本文引用:1]
[6] Wang S, Iwaihara M.Quality Evaluation of Wikipedia Articles Through Edit History and Editor Groups[C]// Proceedings of Asia-Pacific Web Conference on Web Technologies and Applications. Springer-Verlag, 2011:188-199.
[本文引用:1]
[7] Xu Y, Luo T.Measuring Article Quality in Wikipedia: Lexical Clue Model[C]// Proceedings of the 2011 3rd Symposium on Web Society. IEEE, 2011:141-146.
[本文引用:1]
[8] Suzuki Y, Yoshikawa M. Mutual Evaluation of Editors and Texts for Assessing Quality of Wikipedia Articles[C]// Proceedings of the 8th Annual International Symposium on Wikis and Open Collaboration. ACM, 2012: Article No.18.
[本文引用:1]
[9] Ferretti E, Fusilier D H, Cabrera R G, et al.On the Use of PU Learning for Quality Flaw Prediction in Wikipedia[C]// Proceedings of the CLEF 2012 Evaluation Labs and Workshop, 2012.
[本文引用:1]
[10] Dalip D H, Goncalves M A, Cardoso T, et al.A Multi-view Approach for the Quality Assessment of Wiki Articles[J]. Journal of Information & Data Management, 2012, 3(1):73-82.
[本文引用:1]
[11] Flekova L, Ferschke O, Gurevych I.What Makes a Good Biography? Multidimensional Quality Analysis Based on Wikipedia Article Feedback Data[C]// Proceedings of the International Conference on World Wide Web. ACM, 2014:855-866.
[本文引用:1]
[12] Dang Q V, Ignat C L. Quality Assessment of Wikipedia Articles: A Deep Learning Approach by Quang Vinh Dang and Claudia-Lavinia Ignat with Martin Vesely as Coordinator[J]. ACM SIGWEB Newsletter, 2016, 5: Article No.5.
[本文引用:1]
[13] Khairova N, Lewoniewski W, Wecel K.Estimating the Quality of Articles in Russian Wikipedia Using the Logical-Linguistic Model of Fact Extraction[C]// Proceedings of the International Conference on Business Information Systems(BIS 2017). 2017:28-40.
[本文引用:1]
[14] Shen A L, Qi J Z, Baldwin T.A Hybrid Model for Quality Assessment of Wikipedia Articles[C] // Proceedings of Australasian Language Technology Association Workshop, 2017:43-52.
[本文引用:1]
[15] 裘江南, 翁楠, 徐胜国. 基于C4.5的维基百科页面信息质量评价模型研究[J]. 情报学报, 2012, 31(12):1259-1264.
[本文引用:1]
(Qiu Jiangnan, Weng Nan, Xu Shengguo.Research on Evaluation Model for the Information Quality of Wikipedia Articles Based on C4.5[J]. Journal of the China Society for Scientific and Technical Information, 2012, 31(12): 1259-1264.)
[16] 肖奎, 李兵, 吴天吉. 基于用户行为分析的维基百科词条质量评价方法[J]. 情报杂志, 2015,34(5): 185-189.
[本文引用:1]
(Xiao Kui, Li Bing, Wu Tianji.Detection of Article Qualities in Wikipedia Based on Analysis of User Behaviors[J]. Journal of Intelligence, 2015,34(5): 185-189.)
[17] 袁彬悠, 吕红波. 波士顿矩阵应用扩展研究[J]. 经营与管理, 2012(6):85-89.
[本文引用:1]
(Yuan Binyou, Lv Hongbo.Boston Matrix Application Extension Study[J]. Management and Administration, 2012(6):85-89.)
[18] Karsoliya S.Approximating Number of Hidden Layer Neurons in Multiple Hidden Layer BPNN Architecture[J]. International Journal of Engineering Trends & Technology, 2012, 3(6):714-717.
[本文引用:1]
资源
PDF下载数    
RichHTML 浏览数    
摘要点击数    

分享
导出

相关文章:
关键词(key words)
百度百科词条
波士顿矩阵
BP神经网络

Baidu Encyclopedia Entry
Boston Matrix
BP Neural Network

作者
何振宇
董祥祥
朱庆华

He Zhenyu
Dong Xiangxiang
Zhu Qinghua
版权所有 © 2015 《数据分析与知识发现》编辑部
地址:北京市海淀区中关村北四环西路33号 邮编:100190
电话/传真:(010)82626611-6626,82624938
E-mail:jishu@mail.las.ac.cn