基于改进的隐马尔科夫模型的网页新闻关键信息抽取

刘志强¹^,, 都云程², 施水才²

¹北京信息科技大学计算机学院北京 100101

²拓尔思信息技术股份有限公司北京 100101

Liu Zhiqiang¹^,, Du Yuncheng², Shi Shuicai²

¹School of Computer, Beijing Information Science and Technology University, Beijing 100101, China

²TRS Information Technology Co., Ltd., Beijing 100101, China

通讯作者: 刘志强, ORCID: 0000-0002-0621-9316, E-mail: 670625445@qq.com。

基金资助: *本文系教育部社会科学重大攻关项目基金项目“大数据驱动的城市公共安全风险研究”(项目编号: 16JZD023)的研究成果之一;

中图分类号: TP393

摘要:

【目的】通过隐马尔科夫模型解决新闻网页中标题、日期、来源、正文等关键信息抽取问题, 并根据应用场景对算法做出改进以提高抽取效果。【方法】将网页文档转为DOM树并进行预处理, 映射待抽取信息项为状态, 映射待抽取观测项为词汇, 研究隐马尔科夫模型在网页新闻关键信息抽取中的应用并对算法提出改进。【结果】使用隐马尔科夫模型的改进算法, 在已构建抽取模型的网站中, 平均准确率可达97%。【局限】抽取模型在分类能力上稍有不足, 无法对细微差别信息进行准确抽取。【结论】该方法具有识别准确率高、建模能力强、训练数据小、训练速度快的优点。

关键词: 信息抽取 ; 隐马尔科夫模型 ; 机器学习 ; DOM树

Abstract:

[Objective] This paper aims to solve key information extraction problems in news web pages, such as title, date, source, and text, by Hidden Markov Model (HMM). [Methods] The web document was transformed into a DOM tree and preprocessed. The information items to be extracted were mapped to state, and the observation value of the extracted items was mapped to vocabulary. The application of HMM in key information extraction of web news was studied, and the algorithm was improved. [Results] Using the improved HMM algorithm, the accuracy rate can reach 97% on average in the websites. [Limitations] The extraction model is slightly insufficient in classification ability, and it is impossible to accurately extract the slightly differences. [Conclusions] The experiment proves that this method has the advantages of high recognition accuracy, strong modeling ability, and fast training speed with small set of tracing data.

Key words: Information Extraction ; Hidden Markov Model ; Machine Learning ; DOM Tree

1 引言

随着互联网的迅速发展, 网页中信息呈指数级增长^[1], 新闻网站作为人们获取信息的重要工具而蓬勃发展, 新闻网页中的关键信息如标题、日期、来源、正文对舆情分析有着重要意义^[2]。但是新闻网页中广告、导航栏、评论等噪音信息较多^[3], 且网页文档没有统一的布局, 灵活性较强, 计算机难以直接从网页中准确提取所需信息。因此,如何准确地从半结构化的网页文档中提取出新闻关键信息成为重点和难点, 解决这一问题的主要方法是开发相应的信息抽取工具。

作为可用于标注问题的统计学模型^[4], 隐马尔科夫模型由于其强大的建模能力已经成功应用于半结构化的文本信息抽取中, 在对网页信息进行抽取时, 由于待抽取项在布局上有时序性的特征, 因此使用待抽取项的格式、位置等特征信息作为词汇的抽取方法。

针对该网页信息抽取问题, 本文提出一种基于隐马尔科夫模型的网页信息抽取方法, 着重探讨隐马尔科夫模型在网页信息抽取中的应用, 并对隐马尔科夫模型在网页信息抽取中的应用提出改进。

2 相关工作

国内外开展了很多研究自动化、半自动化地解决网页信息抽取问题。主要的网页信息抽取方法有基于模板的方法、基于统计的方法、基于网页分块的方法。

(1) 基于模板的方法

利用包装器(Wrapper)抽取网页中信息。包装器是一个程序, 它针对特定页面的布局特征, 编写解析器, 解析出待抽取信息在网页中的位置。

基于模板的方法具有配置简单、易于实现的优点, 且由于针对特定页面编写解析器, 抽取的准确率极高; 缺点是通用性较差, 针对不同的网页通常需要编写不同规则, 不适合大规模页面的抽取, 并且一旦页面布局发生细微改动, 就可能导致抽取失败。

基于模板的网页信息抽取维护成本较高, 许多研究者也针对如何较为容易地构造出一个包装器所需规则做了大量工作。文献[5]介绍一种包装器感应方法, 使用一组数据样本对XPath进行排序, 以确定它们是否适合从某个站点的Web页面中提取特定字段, 实现自动动态包装器的创建。文献[6]使用卷积神经网络学习一个包装器, 可以从看不见的模板中提取信息。因此, 这个包装器不需要任何特定于站点的初始化, 并且能够从单个Web页面中提取信息。

这种方法在一定程度上降低了包装器的维护成本, 却没有从根本上解决该方法的种种弊端。但由于基于模板的方法具有准确率极高且易于实现的优点, 在业界得到广泛应用。

(2) 基于统计的方法

从不同角度对网页特征进行提取, 采用统计学的算法进行特征统计, 进而抽取信息, 是当前网页信息抽取研究中比较受关注的方法。文献[7,8,9]分别从不同角度对页面中标签属性、文本密度、DOM树路径等特征进行统计, 使用不同的统计学算法对其进行分析。本文将要讨论的网页新闻关键信息抽取是一种基于统计的抽取方法, 主要从待抽取信息的标签属性和DOM树路径的角度进行分析。

这种方法的优点是与基于模板的方法相比通用性好且维护成本较低, 无需对特定网页单独编写规则。缺点是准确率相对较低, 且训练数据量较大, 在实际应用中通常会借鉴模板方法的经验, 能够在一定程度上提高信息抽取的准确率。

(3) 基于网页分块的方法

针对网页中内容布局结构特征, 从不同角度使用不同方法对网页内容进行分块, 找到待抽取信息所在信息块。文献[10]提出基于视觉特征分块的网页信息抽取方法, 使用VIPS算法将DOM树划分为语义块, VIPS算法是微软亚洲研究院提出的基于视觉的语义块提取方法。根据块的位置找到标准块, 然后将标准块作为中心块, 通过逆向遍历DOM树查找所有相似的视觉块, 即所有待抽取的信息块。文献[2]针对新闻网页正文抽取问题, 利用新闻网页在页面布局上的特征, 基于分块对噪音块进行清洗, 并根据起始块和终止块对新闻内容进行抽取。

这种方法的优点是通用性较好, 缺点是实验过程较为复杂, 如VIPS算法中的赋值过程要遵循的规则较多, 且抽取的信息块中仍有少量噪音。因此, 基于分块的方法有待进一步改进。

3 隐马尔科夫模型

隐马尔科夫模型(Hidden Markov Model, HMM)是时间序列的概率模型, 描述了由隐藏的状态序列组成的一条马尔科夫链和由其中的每一个状态生成的观测所构成的观测序列。序列中每一个位置都可视为一个时刻^[11]。

马尔科夫模型中状态是不可见或不确定的, 只有状态生成的观测是可以被直接观察到的^[12], 状态的值由通过训练生成模型参数再由识别算法解码得到状态序列确定。隐马尔科夫模型生成的状态随机序列$I=({{i}_{1}},{{i}_{2}},\cdot \cdot \cdot ,{{i}_{T}})$, 称为状态序列; 每个状态随机发射出一个或多个观测值, 组成随机观测序列$O=({{o}_{1}},{{o}_{2}},\cdot \cdot \cdot ,{{o}_{T}})$, 称为观测序列。一个隐马尔科夫模型可用一个五元组$lambda =\{Q,V,A,B,\pi \}$表示^[11], 定义如下。

$Q=\{{{q}_{1}},{{q}_{2}},\cdot \cdot \cdot ,{{q}_{N}}\}$是所有可能的状态的集合, 共N个; $V=\{{{v}_{1}},{{v}_{2}},\cdot \cdot \cdot ,{{v}_{M}}\}$是所有可能出现的观测的集合, 称为为词汇集, 共M个词汇; 对于一个状态集和词汇集合固定的HMM模型, 一般用$\lambda =\{A,B,\pi \}$表示模型^[11]。状态转移概率分布$A={{[{{a}_{ij}}]}_{N\times N}}$, 其中, ${{a}_{ij}}$表示在时刻t处于状态${{q}_{i}}$的条件下在时刻t+1转移到状态${{q}_{j}}$的概率; 观测概率分布$B={{[{{b}_{j}}(k)]}_{N\times M}}$, 其中, ${{b}_{j}}(k)$表示在时刻t处于状态${{q}_{j}}$的条件下生成观测v_k的概率; 初始状态概率分布$\pi =({{\pi }_{i}})$, 其中, ${{\pi }_{i}}$是时刻$t=i$处于状态${{q}_{i}}$的概率。

在一个隐马尔科夫模型中, 状态序列由状态转移概率分布A和初始状态概率分布$\pi$共同决定, 观测序列由已生成的状态序列和观测概率分布综合确定。

3.1 网页信息抽取中使用的算法

隐马尔科夫模型主要解决三个问题^[4]。

(1) 估值问题: 已知观测序列$O=\{{{o}_{1}},{{o}_{2}},\cdot \cdot \cdot ,{{o}_{T}}\}$, 给定隐马尔科夫模型$\lambda =(A,B,\pi )$, 计算给定模型$\text{ }\!\!\lambda\!\!\text{ }$的前提下, 观测序列$O$出现的概率,解决该问题的算法一般为基于动态规划算法的前向-后向算法;

(2) 识别问题: 已知观测序列$O=\{{{o}_{1}},{{o}_{2}},\cdot \cdot \cdot ,{{o}_{T}}\}$, 给定隐马尔科夫模型$\lambda =(A,B,\pi )$, 求给定观测序列条件概率$P(I|O,\lambda )$最大的状态序列I, 本文使用的算法是维特比(Viterbi)算法;

(3) 学习问题: 已知观测序列$O=\{{{o}_{1}},{{o}_{2}},\cdot \cdot \cdot ,{{o}_{T}}\}$, 估计模型的参数$\lambda =(A,B,\pi )$, 使得在该模型下出现该观测序列概率$P(O|\lambda )$最大, 本文使用的学习算法为监督学习且计算速度较快的极大似然估计法。

本文在网页信息抽取的应用中解决的问题为学习问题和识别问题。

3.2 隐马尔科夫模型存在的问题

本文研究的基于隐马尔科夫模型的网页信息抽取模型, 具有建模速度快、效率较高、准确率较高等优势。然而, 该模型在网页信息抽取中的准确率与效率还有待进一步提高。隐马尔科夫模型在网页信息抽取中存在三个问题。

(1) 映射问题: 在隐马尔科夫模型中, 词汇集为训练数据中所有观测的集合, 在模型建立后, 将待抽取网页文档中的每一个观测映射为词汇集中的一个词汇, 然后调用维特比算法识别出最佳状态序列。本文在网页新闻关键信息抽取中, 将待抽取项DOM树节点路径映射为词汇, 而在实际应用中, 由于网页上信息的多变性与复杂性, 可能会由于词汇集中不存在该观测而出现无法直接映射的情况, 从而无法对信息进行准确识别。

(2) 数据稀疏问题: 在网页新闻信息抽取中, 由于训练数据量或待抽取项在网页中的分布情况等原因, 训练好的隐马尔科夫模型的参数$A,B,\pi$的概率分布中可能会有概率为0的情况发生, 如观测概率分布B中某一个概率${{b}_{j}}(k)$表示状态为j且观测值为k的概率, 该值可能由于未观测到i到o_t的输出而为0, 那么维特比算法使用连乘计算概率时会导致整个路径的概率为0。这显然是不严谨的, 不能因为一个事件还没有观测到就判断该事件的概率为0^[13]。

(3) 减少计算量: 本文的隐马尔科夫模型学习算法使用最大似然估计法已极大地减少了计算量, 但在识别阶段可进一步减少计算量, 提高网页信息提取效率。

4 隐马尔科夫模型在网页信息抽取中的改进

根据网页信息抽取的特点, 针对隐马尔科夫模型存在的映射观测为词汇问题、数据稀疏问题、减少计算量问题, 在实际应用中对隐马尔科夫模型做如下改进。

4.1 映射观测为词汇的问题

在本文中, 每一状态所对应的观测都是唯一确定的DOM树节点路径, 网页中包含不同状态信息的节点在DOM树中的公共路径很少, 而包含同一状态信息的节点在DOM树中的公共路径很多。针对映射观测为词汇的问题, 使用计算DOM树节点路径相似度^[14]的方法, 给定一个观测, 令其在词汇集中路径相似度最大的词汇作为它的映射, 通过该方法, 对于在词汇集中存在的观测, 可找到其对应词汇; 对于词汇集中不存在的观测, 找到与其DOM树节点路径最为接近的词汇作为观测的映射。计算DOM树节点路径相似度的方法如下。

记任一DOM树节点路径为$N=\{{{N}_{a}},{{N}_{b}},{{N}_{c}},\cdot \cdot \cdot \}$, 记深度depth相同的节点$A,B$的相似度如公式(1)所示。

$sim\text{(}{{T}_{A}},{{T}_{B}}\text{)}=\left\{ \begin{align} & \frac{1}{{{2}^{depth}}}\ \ {{T}_{A}}={{T}_{B}} \\ & 0\ \ \ \ \ \ \ \ \ {{T}_{A}}\ne {{T}_{B}} \\ \end{align} \right.$ (1)

据此, 给出计算任意两个节点的DOM树节点路径相似度方法如公式(2)和公式(3)所示。

$sim\text{(}{{N}_{A}},{{N}_{B}}\text{)}=\sum\nolimits_{depth=1}^{dept{{h}_{A}}}{sim\text{(}{{T}_{A}},{{T}_{B}}\text{)}}\ \ dept{{h}_{A}}\le dept{{h}_{B}}$(2)

$sim\text{(}{{N}_{A}},{{N}_{B}}\text{)}=\sum\nolimits_{depth=1}^{dept{{h}_{B}}}{sim\text{(}{{T}_{A}},{{T}_{B}}\text{)}}\ \ dept{{h}_{A}}>dept{{h}_{B}}$(3)

该方法根据等比数列求和的原理计算DOM树节点路径相似度, 例如, 对两个节点深度为5且每层节点都相等的DOM树节点路径, 相似度为$\frac{1}{{{2}^{1}}}+\frac{1}{{{2}^{2}}}+$ $\frac{1}{{{2}^{3}}}+\frac{1}{{{2}^{4}}}+\frac{1}{{{2}^{5}}}=\frac{31}{32}\approx 0.9688$。据此计算方法, 当两个DOM树节点路径完全相同且深度depth为正无穷时, 它们的相似度无限接近于1。因此, 使用该DOM节点相似度计算的方法, 不管词汇集中是否有当前观测, 都可以准确地映射观测为词汇集中词汇, 从而提升网页信息抽取的准确度。

4.2 数据稀疏问题

本文使用拉普拉斯平滑^[15](Laplace Smoothing)解决模型参数中零概率的问题, 拉普拉斯平滑的思想是用加1的方法估计没有出现过的观测的次数, 当训练数据较大时, 由每个分量x的计数加1引起的概率分布变化是可以忽略的, 但是它可以有效地避免零概率问题。因此拉普拉斯平滑的方法是分子加1, 分母加观测值总数M, 如公式(4)所示。

${{b}_{j}}(k)=\frac{{{B}_{jk}}+1}{\sum\nolimits_{k=1}^{M}{{{B}_{jk}}+M}}$ (4)

对未观测到值的概率处理如公式(5)所示。

${{b}_{j}}(k)=\frac{1}{\sum\nolimits_{k=1}^{M}{{{B}_{jk}}+M}}$ (5)

拉普拉斯平滑对未观测到值的概率进行相同的处理, 不区分概率分布各部分中未观测值情况出现的多少, 而实际上各部分中未观测值出现的概率数量不等, 因此对拉普拉斯平滑做出改进^[14]如公式(6)所示。

${{b}_{j}}(k)={{b}_{j}}(k)-\delta$ (6)

其中, $\delta$表示未观测到值时的概率, 计算方法如公式(7)所示。

$\delta =\frac{1-\sum\nolimits_{k=1}^{M}{{{B}_{jk}}}}{\sum\nolimits_{k=1}^{M}{{{B}_{jk}}}+M}$ (7)

对初始状态概率分布$\pi $, 状态转移概率分布A进行相同的平滑处理。

4.3 隐马尔科夫模型结合规则

针对减少计算量问题, 可以通过在隐马尔科夫模型中结合规则来解决。在一个信息抽取系统中, 除了存在不确定状态和其不确定释放的观测以外, 还有确定状态释放观察值的情况。确定状态在隐马尔科夫模型中作为已知状态, 其观测释放概率设为1。该方法通过匹配模板库, 利用规则的方法, 在使用Viterbi算法确定最佳状态序列之前确定部分状态, 既可以减少Viterbi算法循环次数, 从而减少运行时间, 提高效率, 又可以减少由于数据稀疏等问题带来的对模型参数的负面影响。

5 网页新闻关键信息抽取

在网页新闻关键信息抽取中, 每一个HTML标签所包含的信息对应于待抽取信息中的一类或不需抽取的信息, 且待抽取信息在网页文档中的分布具有一定的次序关系, 如网页新闻关键信息之间的前后关系可能为标题、日期、来源、正文或标题、来源、日期、正文等。而隐马尔科夫模型具有考虑模式的时序性、强建模能力等优点^[11], 可以利用待抽取信息在布局上的突出特点更好地建立模型, 因此, 相较于其他模型, 隐马尔科夫模型在网页信息抽取中具有较为突出的优势。

隐马尔科夫模型应用于网页新闻关键信息抽取需要每个状态对应于一个待抽取的信息, 如标题、日期、来源、正文等。一个状态转移概率示例如图1所示。

图1 状态转移概率示例

每一个状态通过观测概率分布B发射出观测。可以从训练数据中学习到状态转移概率A, 观测概率分布B和状态的初始概率分布$\pi$。为抽取出网页新闻中的关键信息, 将DOM树节点路径作为观测并通过Viterbi算法得到最佳状态序列, 就可以得到每个状态所对应的待抽取信息类别。

一个搜狐网新闻网页实例如图2所示, 包含标题、日期、来源、正文的信息。

图2 搜狐新闻网页实例

其中, 网页文档的HTML标签序列如图3所示。

图3 HTML标签序列

定义DOM树中叶节点到根节点的路径及叶节点或其父节点的标签属性为DOM树节点路径。

由于新闻网页中标题、日期、来源、正文等关键信息都存储在DOM树的叶节点中^[8], 且不同信息的标签类型、标签属性和节点深度是不同的, 如: 标题信息一般被“<h1>”和“<h1>”标签所包围; 来源信息的标签属性值一般为“source”或“origin”; 日期节点的class属性值很可能为“date”或“time”, 且一般与来源节点的深度相同; 新闻正文一般被多个“<p></p>”标签包围且具有节点深度相等、父节点相同等特点。因此不同新闻网页的模板中相同待抽取项的位置相似, DOM树节点路径具有很高的参考价值。

令状态集Q={title, date, source, text, other}, 分别表示新闻网页中待抽取的标题、日期、来源、正文和不需抽取的其他信息。使用待抽取项的DOM树节点路径作为隐马尔科夫模型的观测^[16]。对未标记训练数据集去重得到隐马尔科夫模型词汇集合V。

基于隐马尔科夫模型的网页新闻关键信息抽取分为网页预处理、模型训练、信息抽取、数据精化4个步骤。各个功能模块的功能结构如图4所示。

图4 网页新闻信息抽取系统功能结构

5.1 网页预处理

对抓取的网页进行初步处理。为减少算法计算量, 提高处理效率, 将网页文档解析为DOM树并将其中的样式、列表、脚本、注释等噪音信息删除, 提取DOM树叶节点的DOM树节点路径写入训练数据集。

本文使用Python的BeautifulSoup库进行网页文档的解析与操作, BeautifulSoup将一个网页文档解析为一棵DOM树且提供了一些简单而强大的方法来浏览、搜索、解析DOM树。利用BeautifulSoup删除噪音信息的具体步骤如表1所示。

表1 删除噪音信息的具体步骤

操作	方法
删除“<style>”和“</style>”标签及其中的内容	[s.extract() for s in bsObj('style')]
删除“<li>”和“</li>”标签及其中的内容	[s.extract() for s in bsObj('li')]
删除“<script>”和“</script>”及其中的内容	[s.extract() for s in bsObj('script')]
删除“<!--”和“-- >”及其中的内容	[s.extract() for s in bsObj('!--')]
删除“<head>”和“</head >”及其中的内容	bsObj.head.decompose()

经过预处理的DOM树式样如图5所示。

图5 删除噪音后的DOM树式样

遍历DOM树, 对所有的叶节点, 找出它们从根节点到叶节点的路径, 不同深度的标签以“/”分隔, 若叶节点有class属性, 则将class属性加到叶节点标签之后, 否则加入其父节点的class属性, 得到DOM树节点路径, 得到的DOM树节点路径之间的顺序依然与原网页文档中文本间的布局顺序一致。

5.2 模型训练

将网页预处理后得到的DOM树节点路径写入未标记训练数据集。去重后作为隐马尔科夫模型的词汇集合, 写入词汇数据集。每一状态的部分词汇如表2所示。

表2 每一状态的部分词汇统计

标题	日期	来源	正文	其他
h1['content']/div/div/div/body/ html	span['time']/div/div/div/body/ html	em/span/div/div/div/div/ body/html	p/div/div/div/div/body/html	div['sitem']/div /div/div/body/html
div['h-title']/div/div/div/body/ html	span['date']/div/div/div/body/ html	span['source']/div/div/div/ body/html	p['article']/div/div/div/body/ html	div['name']/div/div/ div/div/body/html
div['tit']/div/div/body/html	i['info']/span/div/div/div/body/html	a/i/span/div/div/div/div/ body/html	strong/p/div/div/div/div/body/html	a['hotwords']/div/div/div/body/html
h1['main-title']/div/body/html	span/div/div/div/div/div/body/html	a['sou']/p/div/div/div/body/html	p['main_p']/div/div/div/div/ div/div/body/html	a['seo']/div/body/html+other

在利用模型进行信息抽取之前, 对未标记训练数据进行人工标记, 标记标题为title,日期为date, 来源为source, 正文为text, 不抽取信息为other, 在DOM树节点路径后用“+标记”的方式进行标记, 写入已标记训练数据集。标记方法如表3所示。

表3 标记训练数据示例

状态	示例
标题	h1['main-title']/div/body/html+title
日期	span['date']/div/div/div/body/html+date
来源	span['source']/div/div/div/body/htm+source
正文	p['article']/div/div/div/div/div/div/body/html+text
其他	a['seo']/div/body/html+other

逐条取出已标记训练数据集中的数据, 根据“+”后的标记判断取出的训练数据所属状态, 使用隐马尔科夫模型的学习算法极大似然估计法进行概率分布的计算, 使用改进的拉普拉斯平滑方法解决数据稀疏问题, 得到训练好的模型参数$A,B,\pi$。

5.3 抽取信息

使用模板库中的规则进行匹配得到确定状态, 将网页预处理后得到的DOM树节点路径作为观测输入,使用最大路径相似度方法将其映射为词汇集中词汇, 使用Viterbi算法将映射后的词汇序列输入, 得到最佳状态序列, 即每一DOM树节点路径所对应信息的最可能状态所组成的序列。

5.4 数据精化

根据模型识别出的DOM树节点路径所对应信息的状态, 找出对应于标题、日期、来源、正文状态的DOM树节点, 使用BeautifulSoup库中的.get_text()方法取出节点中文本信息, 调用数据库管理模块将文本信息写入表中, 至此完成新闻网页中半结构化信息抽取为结构化信息的转换。

6 实验结果与分析

6.1 实验数据与环境

从新浪、搜狐、腾讯、网易等16个新闻网站采集新闻网页链接, 每个新闻网站爬取500个网页作为原始实验数据。为保证数据的多样性, 同时保证实验数据的有效性, 从采集的网页中筛选出2 000篇作为训练数据, 500篇作为测试数据, 训练数据和测试数据均从每个网站中平均选取。

实验环境为Windows10系统, CPU为Intel 4核, 内存为8GB, 开发语言使用Python3.6, 开发工具使用PyCharm 2018, 网页文档爬取解析工具包采用“BeautiflulSoup”, 机器学习库使用“hmmlearn”开发。

6.2 评价指标

使用精确率P、召回率R和F值度量新闻正文抽取的实验结果, 计算方法分别如公式(8)-公式(10)所示。根据F值靠近1的程度判断算法的好坏。

$P=\frac{正确抽取出信息的节点数}{所有抽取的信息节点数}\times 100%$ (8)

$R=\frac{正确抽取出信息的节点数}{所有正确的信息节点数}\times 100%$ (9)

$F=\frac{2\times P\times R}{P+R}\times 100\text{ }\!\!%\!\!\text{ }$ (10)

6.3 结果与分析

使用经典隐马尔科夫模型和本文改进的隐马尔科夫模型分别对相同数据进行训练、测试, 对比抽取效果。实验结果如表4和表5所示。

表4 经典隐马尔科夫模型信息抽取结果

评价标准	标题	日期	来源	正文
准确率(%)	96.23	95.12	94.65	95.98
召回率(%)	95.80	92.38	93.50	94.35
F值(%)	96.01	93.73	94.07	95.16

表5 改进隐马尔科夫模型信息抽取结果

评价标准	标题	日期	来源	正文
准确率(%)	98.68	97.81	97.53	98.05
召回率(%)	98.04	96.32	95.88	97.24
F值(%)	98.36	97.06	96.70	97.64

两种方法实验结果对比如表6所示。

表6 不同方法比较结果

待抽取项	经典隐马尔科夫模型F值(%)	改进的隐马尔科夫模型F值(%)
标题	96.01	98.36
日期	93.73	97.06
来源	94.07	96.70
正文	95.16	97.64

对比表4-表6可以看出, 经典隐马尔科夫模型对新闻关键信息抽取的效果较好, 且经过改进的算法进一步提高了抽取准确度。这是因为新闻网页中关键信息之间本身就有一种时序性的关系, 符合隐马尔科夫算法的思想, 且经过改进的隐马尔科夫模型中解决了平滑问题和词汇映射问题, 很大程度上避免了零概率问题对训练和抽取效果的负面影响。

纵向对比, 发现标题的抽取准确度最高, 这是因为标题普遍在标签“<h1>”和“</h1>”中, 且DOM树节点路径与其他待抽取项差异较大, 特征最为明显, 容易被模型学习到抽取规则。同理发现正文的抽取准确率也相对较高, 这是因为正文节点在DOM树中深度一般相同, 且分布较为集中, 正文节点之间的状态转移概率较高, 因此容易被模型学习到并正确抽取出来。

文献[17]也是一种基于隐马尔科夫模型的网页新闻抽取方法, 对新闻标题和正文进行抽取研究, 对网页文档中“<Title>”与“</Title>”标签所直接包含的字符串进行一定的匹配作为标题, 以标题位置作为正文的开始位置, 使用隐马尔科夫模型, 以文本内容特征作为模型的观察值, 查找正文结束位置确定正文。其抽取标题准确率为94.41%, 抽取正文准确率为92.63%。本文方法对标题和正文抽取的准确率分别为98.68%和98.05%, 由于充分考虑了网页信息抽取相较于传统文本信息抽取在布局结构上的特性, 考虑待抽取项的次序关系, 因而网页信息抽取效果更佳。

文献[18]提出的CEPR算法基于标签路径特征融合对网页新闻正文内容进行抽取, 抽取的准确率与本文基本相当, 但对网页新闻中精准的细粒度内容(如标题、日期、来源等信息)抽取不理想。而本文利用隐马尔科夫模型的时序性特征并结合网页文档的特点, 较好地实现了细粒度内容的抽取。

7 结语

随着某些领域的特殊需求不断增加, 网页信息抽取的重要性不断提高, 本文使用隐马尔科夫模型进行网页新闻关键信息抽取, 并根据实际应用中的平滑问题和词汇映射问题对算法做出改进, 取得了比较好的抽取效果, 为之后的新闻内容挖掘、分类、舆情分析等工作奠定了基础^[19]。

实验结果证明基于隐马尔科夫模型的网页新闻关键信息抽取具有抽取准确率高的优点; 利用最大似然估计法进行特征学习, 具有计算速度快的优点; 隐马尔科夫模型强大的建模能力带来了所需训练数据小的优点。

但该方法对细微差别的信息分类能力有所欠缺, 根据应用场景进一步改进网页信息抽取算法, 加强算法分类能力以提高信息抽取的准确率, 是今后的工作重点。

作者贡献声明

都云程, 施水才: 确定研究方向, 提出研究思路, 修改论文;

刘志强: 设计研究方案, 实验设计, 算法改进, 实验实施, 起草论文;

刘志强, 都云程, 施水才: 论文修改及最终版本修订。

利益冲突声明

所有作者声明不存在利益冲突关系。

支撑数据

支撑数据由作者自存储, E-mail: 670625445@qq.com。

[1] 刘志强. NewsHMM.rar. 基于隐马尔科夫模型的网页新闻抽取项目代码.

[2] 刘志强. A.txt, B.txt, pai.txt. 隐马尔科夫模型训练参数.

[3] 刘志强. result.xlsx. 抽取效果数据统计表.

参考文献

View Option

[1]	万国, 张桂平, 白宇, 等. 基于特征加权的新闻主题句抽取[J]. 中文信息学报, 2017, 31(5): 120-126. [本文引用:1] (Wan Guo, Zhang Guiping, Bai Yu, et al.News Topic Sentence Extraction via Weighted Features[J]. Journal of Chinese Information Processing, 2017, 31(5): 120-126.)
[2]	姬鑫, 钟诚. 基于分块的新闻网页信息抽取算法[J]. 计算机应用与软件, 2015, 32(4): 317-322. [本文引用:2] (Ji Xin, Zhong Cheng.Blocking-Based Information Extraction Algorithm for Webpage of News[J]. Computer Applications and Software, 2015, 32(4): 317-322.)
[3]	孟川, 武小年. 基于文本特征值的正文抽取方法[J]. 桂林电子科技大学学报, 2017, 37(2): 106-110. [本文引用:1] (Meng Chuan, Wu Xiaonian.Web Content Extraction Method Based on Text Feature Value[J]. Journal of Guilin University of Electronic Technology, 2017, 37(2): 106-110.)
[4]	Rabiner L, Juang B.An Introduction to Hidden Markov Models[J]. IEEE ASSP Magazine, 1986, 3(1): 4-16. DOI:10.1109/MASSP.1986.1165381 URL [本文引用:2]
[5]	Jundt O, Keulen M V.Sample-based XPath Ranking for Web Information Extraction[J]. Advances in Intelligent Systems Research, 2013, 32: 187-194. [本文引用:1]
[6]	Gogar T, Hubacek O, Sedivy J.Deep Neural Networks for Web Page Information Extraction[C]// Proceedings of the 2016 IFIP International Conference on Artificial Intelligence Applications and Innovations. 2016: 154-163. [本文引用:1]
[7]	王海艳, 曹攀. 基于节点属性与正文内容的海量Web信息抽取方法[J]. 通信学报, 2016,37(10): 9-17. [本文引用:1] (Wang Haiyan, Cao Pan.Information Extraction from Massive Web Pages Based on Node Property and Text Content[J]. Journal on Communications, 2016,37(10): 9-17.
[8]	马晓慧, 李泓莹. 一种DOM 树标签路径和行块密度结合的 Web 信息抽取方法[J]. 智能计算机与应用, 2017, 7(4): 13-16, 20. [本文引用:2] (Ma Xiaohui, Li Hongying.Web Information Extraction Based on Label Path of DOM Tree and Block Density[J]. Intelligent Computer & Applications, 2017, 7(4): 13-16, 20.)
[9]	向菁菁, 耿光刚, 李晓东. 一种新闻网页关键信息的提取算法[J]. 计算机应用, 2016, 36(8): 2082-2086, 2120. 针对网页正文提取算法缺乏通用性，以及对新闻网页的提取缺乏标题、时间、来源信息的问题，提出一种新闻关键信息的提取算法newsExtractor。该算法首先通过预处理将网页转换成行号和文本的集合，然后根据字数最长的一句话出现在新闻正文的概率极高的特点，从正文中间开始向两端寻找正文的起点和终点提取新闻正文，根据最长公共子串算法提取标题，构造正则表达式并以行号辅助判断提取时间，根据来源的格式特点并辅以行号提取来源；最后构造了数据集与国外开源软件newsPaper进行提取准确率的对比实验。实验结果表明，newsExtractor在正文、标题、时间、来源的平均提取准确率上均优于newsPaper，具有通用性和鲁棒性。 DOI:10.11772/j.issn.1001-9081.2016.08.2082 Magsci [本文引用:1] (Xiang Jingjing, Geng Guanggang, Li Xiaodong.Key Information Extraction Algorithm of News Web Pages[J]. Journal of Computer Applications, 2016, 36(8): 2082-2086, 2120.)
[10]	孙璐, 陈军华, 廉德胜. 一种基于视觉特征的Deep Web信息抽取方法[J]. 计算机与数字工程, 2016, 44(6): 1107-1111. [本文引用:1] (Sun Lu, Chen Junhua, Lian Desheng.Deep Web Information Extraction Method Based on Visual Features[J]. Computer & Digital Engineering, 2016, 44(6): 1107-1111.)
[11]	李航. 统计学习方法[M]. 北京: 清华大学出版社, 2012: 170-189. [本文引用:4] (Li Hang.Statistical Learning Method[M]. Beijing: Tsinghua University Press, 2012: 170-189.)
[12]	杜秋霞, 王洪国, 邵增珍, 等. 基于混合HMM的文献元数据地名抽取方法研究[J]. 计算机与数字工程, 2017, 45(1): 101-106. [本文引用:1] (Du Qiuxia, Wang Hongguo, Shao Zengzhen, et al.Place Names Extraction Method of Literature Metadata Based on Hybrid HMM[J]. Computer and Digital Engineering, 2017, 45(1): 101-106.)
[13]	祝伟华, 卢熠, 刘斌斌. 基于HMM的Web信息抽取算法的研究与应用[J]. 计算机科学, 2010, 37(2): 203-206. [本文引用:1] (Zhu Weihua, Lu Yi, Liu Binbin.Improvement of Web Information Extraction Algorithm Based on HMM[J]. Computer Science, 2010, 37(2): 203-206.)
[14]	潘心宇, 陈长福, 刘蓉, 等. 基于网页DOM树节点路径相似度的正文抽取[J]. 微型机与应用, 2016, 35(19): 74-77. [本文引用:2] (Pan Xinyu, Chen Changfu, Liu Rong, et al.Content Extraction Based on the Similarity of the Web Pages’ DOM Tree Nodes Path[J]. Microcomputer and Its Applications, 2016, 35(19): 74-77.)
[15]	Field D A.Laplacian Smoothing and Delaunay Triangulations[J]. Communications in Applied Numerical Methods, 1988, 4: 709-712. DOI:10.1002/(ISSN)1555-2047 URL [本文引用:1]
[16]	任丽芳. 教育新闻网页信息抽取系统的设计与实现[D]. 广州: 华南理工大学, 2012. [本文引用:1] (Ren Lifang.Design and Implementation of Educational News Web Page Information Extraction System[D]. Guangzhou: South China University of Technology, 2012.)
[17]	刘浩. 基于主题和类别的网络新闻采集系统设计与实现[D]. 济南: 山东师范大学, 2017. [本文引用:1] (Liu Hao.The Design and Implementation of NetWork News Gathering System Based on Topics and Categories[D]. Jinan: Shandong Normal University, 2017.)
[18]	吴共庆, 胡骏, 李莉, 等. 基于标签路径特征融合的在线Web新闻内容抽取[J]. 软件学报, 2016, 27(3): 714-735. [本文引用:1] (Wu Gongqing, Hu Jun, Li Li, et al.Online Web News Extraction via Tag Path Feature Fusion[J]. Journal of Software, 2016, 27(3): 714-735.)
[19]	双哲, 孙蕾. 基于改进的隐马尔可夫模型在网页信息抽取中的研究与应用[J]. 计算机应用与软件, 2017, 34(2): 42-47. [本文引用:1] (Shuang Zhe, Sun Lei.Research and Application for Web Information Extraction Based on Improved Hidden Markov Model[J]. Computer Applications and Software, 2017, 34(2): 42-47.)

基于特征加权的新闻主题句抽取

2017

... 随着互联网的迅速发展, 网页中信息呈指数级增长^[1], 新闻网站作为人们获取信息的重要工具而蓬勃发展, 新闻网页中的关键信息如标题、日期、来源、正文对舆情分析有着重要意义^[2].但是新闻网页中广告、导航栏、评论等噪音信息较多^[3], 且网页文档没有统一的布局, 灵活性较强, 计算机难以直接从网页中准确提取所需信息.因此,如何准确地从半结构化的网页文档中提取出新闻关键信息成为重点和难点, 解决这一问题的主要方法是开发相应的信息抽取工具. ...

News Topic Sentence Extraction via Weighted Features

2017

基于分块的新闻网页信息抽取算法

2015

... 针对网页中内容布局结构特征, 从不同角度使用不同方法对网页内容进行分块, 找到待抽取信息所在信息块.文献[10]提出基于视觉特征分块的网页信息抽取方法, 使用VIPS算法将DOM树划分为语义块, VIPS算法是微软亚洲研究院提出的基于视觉的语义块提取方法.根据块的位置找到标准块, 然后将标准块作为中心块, 通过逆向遍历DOM树查找所有相似的视觉块, 即所有待抽取的信息块.文献[2]针对新闻网页正文抽取问题, 利用新闻网页在页面布局上的特征, 基于分块对噪音块进行清洗, 并根据起始块和终止块对新闻内容进行抽取. ...

Blocking-Based Information Extraction Algorithm for Webpage of News

2015

基于文本特征值的正文抽取方法

2017

Web Content Extraction Method Based on Text Feature Value

2017

An Introduction to Hidden Markov Models

1986

... 作为可用于标注问题的统计学模型^[4], 隐马尔科夫模型由于其强大的建模能力已经成功应用于半结构化的文本信息抽取中, 在对网页信息进行抽取时, 由于待抽取项在布局上有时序性的特征, 因此使用待抽取项的格式、位置等特征信息作为词汇的抽取方法. ...

... 隐马尔科夫模型主要解决三个问题^[4]. ...

Sample-based XPath Ranking for Web Information Extraction

2013

... 基于模板的网页信息抽取维护成本较高, 许多研究者也针对如何较为容易地构造出一个包装器所需规则做了大量工作.文献[5]介绍一种包装器感应方法, 使用一组数据样本对XPath进行排序, 以确定它们是否适合从某个站点的Web页面中提取特定字段, 实现自动动态包装器的创建.文献[6]使用卷积神经网络学习一个包装器, 可以从看不见的模板中提取信息.因此, 这个包装器不需要任何特定于站点的初始化, 并且能够从单个Web页面中提取信息. ...

Deep Neural Networks for Web Page Information Extraction

2016

基于节点属性与正文内容的海量Web信息抽取方法

2016

... 从不同角度对网页特征进行提取, 采用统计学的算法进行特征统计, 进而抽取信息, 是当前网页信息抽取研究中比较受关注的方法.文献[7,8,9]分别从不同角度对页面中标签属性、文本密度、DOM树路径等特征进行统计, 使用不同的统计学算法对其进行分析.本文将要讨论的网页新闻关键信息抽取是一种基于统计的抽取方法, 主要从待抽取信息的标签属性和DOM树路径的角度进行分析. ...

Information Extraction from Massive Web Pages Based on Node Property and Text Content

2016

一种DOM 树标签路径和行块密度结合的 Web 信息抽取方法

2017

... 由于新闻网页中标题、日期、来源、正文等关键信息都存储在DOM树的叶节点中^[8], 且不同信息的标签类型、标签属性和节点深度是不同的, 如: 标题信息一般被“<h1>”和“<h1>”标签所包围; 来源信息的标签属性值一般为“source”或“origin”; 日期节点的class属性值很可能为“date”或“time”, 且一般与来源节点的深度相同; 新闻正文一般被多个“<p></p>”标签包围且具有节点深度相等、父节点相同等特点.因此不同新闻网页的模板中相同待抽取项的位置相似, DOM树节点路径具有很高的参考价值. ...

Web Information Extraction Based on Label Path of DOM Tree and Block Density

2017

一种新闻网页关键信息的提取算法

2016

Key Information Extraction Algorithm of News Web Pages

2016

一种基于视觉特征的Deep Web信息抽取方法

2016

Deep Web Information Extraction Method Based on Visual Features

2016

2012

... 隐马尔科夫模型(Hidden Markov Model, HMM)是时间序列的概率模型, 描述了由隐藏的状态序列组成的一条马尔科夫链和由其中的每一个状态生成的观测所构成的观测序列.序列中每一个位置都可视为一个时刻^[11]. ...

... 马尔科夫模型中状态是不可见或不确定的, 只有状态生成的观测是可以被直接观察到的^[12], 状态的值由通过训练生成模型参数再由识别算法解码得到状态序列确定.隐马尔科夫模型生成的状态随机序列$I=({{i}_{1}},{{i}_{2}},\cdot \cdot \cdot ,{{i}_{T}})$, 称为状态序列; 每个状态随机发射出一个或多个观测值, 组成随机观测序列$O=({{o}_{1}},{{o}_{2}},\cdot \cdot \cdot ,{{o}_{T}})$, 称为观测序列.一个隐马尔科夫模型可用一个五元组$lambda =\{Q,V,A,B,\pi \}$表示^[11], 定义如下. ...

... $Q=\{{{q}_{1}},{{q}_{2}},\cdot \cdot \cdot ,{{q}_{N}}\}$是所有可能的状态的集合, 共N个; $V=\{{{v}_{1}},{{v}_{2}},\cdot \cdot \cdot ,{{v}_{M}}\}$是所有可能出现的观测的集合, 称为为词汇集, 共M个词汇; 对于一个状态集和词汇集合固定的HMM模型, 一般用$\lambda =\{A,B,\pi \}$表示模型^[11].状态转移概率分布$A={{[{{a}_{ij}}]}_{N\times N}}$, 其中, ${{a}_{ij}}$表示在时刻t处于状态${{q}_{i}}$的条件下在时刻t+1转移到状态${{q}_{j}}$的概率; 观测概率分布$B={{[{{b}_{j}}(k)]}_{N\times M}}$, 其中, ${{b}_{j}}(k)$表示在时刻t处于状态${{q}_{j}}$的条件下生成观测v_k的概率; 初始状态概率分布$\pi =({{\pi }_{i}})$, 其中, ${{\pi }_{i}}$是时刻$t=i$处于状态${{q}_{i}}$的概率. ...

... 在网页新闻关键信息抽取中, 每一个HTML标签所包含的信息对应于待抽取信息中的一类或不需抽取的信息, 且待抽取信息在网页文档中的分布具有一定的次序关系, 如网页新闻关键信息之间的前后关系可能为标题、日期、来源、正文或标题、来源、日期、正文等.而隐马尔科夫模型具有考虑模式的时序性、强建模能力等优点^[11], 可以利用待抽取信息在布局上的突出特点更好地建立模型, 因此, 相较于其他模型, 隐马尔科夫模型在网页信息抽取中具有较为突出的优势. ...

2012

基于混合HMM的文献元数据地名抽取方法研究

2017

Place Names Extraction Method of Literature Metadata Based on Hybrid HMM

2017

基于HMM的Web信息抽取算法的研究与应用

2010

... (2) 数据稀疏问题: 在网页新闻信息抽取中, 由于训练数据量或待抽取项在网页中的分布情况等原因, 训练好的隐马尔科夫模型的参数$A,B,\pi$的概率分布中可能会有概率为0的情况发生, 如观测概率分布B中某一个概率${{b}_{j}}(k)$表示状态为j且观测值为k的概率, 该值可能由于未观测到i到o_t的输出而为0, 那么维特比算法使用连乘计算概率时会导致整个路径的概率为0.这显然是不严谨的, 不能因为一个事件还没有观测到就判断该事件的概率为0^[13]. ...

Improvement of Web Information Extraction Algorithm Based on HMM

2010

基于网页DOM树节点路径相似度的正文抽取

2016

... 在本文中, 每一状态所对应的观测都是唯一确定的DOM树节点路径, 网页中包含不同状态信息的节点在DOM树中的公共路径很少, 而包含同一状态信息的节点在DOM树中的公共路径很多.针对映射观测为词汇的问题, 使用计算DOM树节点路径相似度^[14]的方法, 给定一个观测, 令其在词汇集中路径相似度最大的词汇作为它的映射, 通过该方法, 对于在词汇集中存在的观测, 可找到其对应词汇; 对于词汇集中不存在的观测, 找到与其DOM树节点路径最为接近的词汇作为观测的映射.计算DOM树节点路径相似度的方法如下. ...

... 拉普拉斯平滑对未观测到值的概率进行相同的处理, 不区分概率分布各部分中未观测值情况出现的多少, 而实际上各部分中未观测值出现的概率数量不等, 因此对拉普拉斯平滑做出改进^[14]如公式(6)所示. ...

Content Extraction Based on the Similarity of the Web Pages’ DOM Tree Nodes Path

2016

Laplacian Smoothing and Delaunay Triangulations

1988

... 本文使用拉普拉斯平滑^[15](Laplace Smoothing)解决模型参数中零概率的问题, 拉普拉斯平滑的思想是用加1的方法估计没有出现过的观测的次数, 当训练数据较大时, 由每个分量x的计数加1引起的概率分布变化是可以忽略的, 但是它可以有效地避免零概率问题.因此拉普拉斯平滑的方法是分子加1, 分母加观测值总数M, 如公式(4)所示. ...

教育新闻网页信息抽取系统的设计与实现[D]

2012

... 令状态集Q={title, date, source, text, other}, 分别表示新闻网页中待抽取的标题、日期、来源、正文和不需抽取的其他信息.使用待抽取项的DOM树节点路径作为隐马尔科夫模型的观测^[16].对未标记训练数据集去重得到隐马尔科夫模型词汇集合V. ...

Design and Implementation of Educational News Web Page Information Extraction System[D]

2012

基于主题和类别的网络新闻采集系统设计与实现[D]

2017

... 文献[17]也是一种基于隐马尔科夫模型的网页新闻抽取方法, 对新闻标题和正文进行抽取研究, 对网页文档中“<Title>”与“</Title>”标签所直接包含的字符串进行一定的匹配作为标题, 以标题位置作为正文的开始位置, 使用隐马尔科夫模型, 以文本内容特征作为模型的观察值, 查找正文结束位置确定正文.其抽取标题准确率为94.41%, 抽取正文准确率为92.63%.本文方法对标题和正文抽取的准确率分别为98.68%和98.05%, 由于充分考虑了网页信息抽取相较于传统文本信息抽取在布局结构上的特性, 考虑待抽取项的次序关系, 因而网页信息抽取效果更佳. ...

The Design and Implementation of NetWork News Gathering System Based on Topics and Categories[D]

2017

基于标签路径特征融合的在线Web新闻内容抽取

2016

... 文献[18]提出的CEPR算法基于标签路径特征融合对网页新闻正文内容进行抽取, 抽取的准确率与本文基本相当, 但对网页新闻中精准的细粒度内容(如标题、日期、来源等信息)抽取不理想.而本文利用隐马尔科夫模型的时序性特征并结合网页文档的特点, 较好地实现了细粒度内容的抽取. ...

Online Web News Extraction via Tag Path Feature Fusion

2016

基于改进的隐马尔可夫模型在网页信息抽取中的研究与应用

2017

... 随着某些领域的特殊需求不断增加, 网页信息抽取的重要性不断提高, 本文使用隐马尔科夫模型进行网页新闻关键信息抽取, 并根据实际应用中的平滑问题和词汇映射问题对算法做出改进, 取得了比较好的抽取效果, 为之后的新闻内容挖掘、分类、舆情分析等工作奠定了基础^[19]. ...

Research and Application for Web Information Extraction Based on Improved Hidden Markov Model

2017

检索词推荐：