改进的知识迁移景点实体识别算法研究及应用*

doi:10.11925/infotech.2096-3467.2019.0907

改进的知识迁移景点实体识别算法研究及应用^*

赵平¹, 孙连英^,^,², 涂帅¹, 卞建玲³, 万莹¹

¹北京联合大学智慧城市学院北京 100101

²北京联合大学城市轨道交通与物流学院北京 100101

³北京中电普华信息技术有限公司北京100192

Identifying Scenic Spot Entities Based on Improved Knowledge Transfer

Zhao Ping¹, Sun Lianying^,^,², Tu Shuai¹, Bian Jianling³, Wan Ying¹

¹Smart City College, Beijing UnionUniversity, Beijing 100101, China

²College of Urban Rail Transit and Logistics, Beijing Union University, Beijing 100101, China

³Beijing China-Power Information Technology Co., LTD, Beijing 100192, China

通讯作者: 孙连英,ORCID：0000-0002-2595-7285,E-mail:sunlychina@163.com。

收稿日期: 2019-08-5 修回日期: 2019-11-20 网络出版日期: 2020-05-25

基金资助:

*本文系国家重点研发计划项目“多方法综合探测数据融合与智能识别技术研究”. 2018YFC0807806
教育部科研创新基金项目“大数据驱动下的都市轨道交通安全应急决策模式研究”的研究成果之一. 2018A01003

Received: 2019-08-5 Revised: 2019-11-20 Online: 2020-05-25

摘要

【目的】 解决景点实体识别中标注数据难以获取的问题。【方法】 提出一种改进的知识迁移景点实体识别算法,通过对人民日报的数据集进行关键词、句子以及可扩展能力三种级别的实验评估扩展数据集。【结果】 实验结果表明,本文方法在仅使用少量标注数据时,其准确率相比使用全部标注数据的模型提高1.62%。【局限】 对样本扩展能力考虑的特征较少,可能影响模型效果。【结论】 解决了景点实体识别中严重依赖标注数据质量的问题,为旅游自动化推荐提供技术支持。

关键词： 迁移学习 ; BERT ; 条件随机场 ; 景点实体识别

Abstract

[Objective] This paper addresses the issues facing labeled data in the recognition of scenic spots.[Methods] We proposed an improved knowledge transfer algorithm for entity recognition and used datasets from the People’s Daily to evaluate our new model.[Results] Our method’s accuracy was 1.62% higher than the model using all labeled data.[Limitations] More research is needed to examine the expansion of samples.[Conclusions] The proposed method uses less labeled data in entity recognition and provides better technical support for tourism recommendation.

Keywords： Transfer Learning ; BERT ; Conditional Random Fields ; Scenery Spot Recognition

PDF (849KB) 元数据多维度评价相关文章导出 EndNote| Ris| Bibtex 收藏本文

本文引用格式

赵平, 孙连英, 涂帅, 卞建玲, 万莹. 改进的知识迁移景点实体识别算法研究及应用^*. 数据分析与知识发现[J], 2020, 4(5): 118-126 doi:10.11925/infotech.2096-3467.2019.0907

Zhao Ping, Sun Lianying, Tu Shuai, Bian Jianling, Wan Ying. Identifying Scenic Spot Entities Based on Improved Knowledge Transfer. Data Analysis and Knowledge Discovery[J], 2020, 4(5): 118-126 doi:10.11925/infotech.2096-3467.2019.0907

1 引言

随着人们生活水平的逐渐提高,越来越多的人喜欢旅游并通过旅游游记分享旅游体验。旅游游记含有丰富的经济型资源,景点是旅游过程中重要的组成部分,对景点的识别效率将直接影响旅游游记信息抽取的效果。对类似旅游游记的海量非结构化文本数据进行管理和挖掘对旅游领域问答系统、舆情分析、个性化推荐等研究具有重要意义。本文旨在利用知识迁移的方法解决旅游领域内景点实体识别中的标注数据难以获取的问题。

2 研究现状

命名实体识别（Named Entity Recognition, NER）一词在1996年的MUC-6会议上首次提出^[1]。现有的命名实体识别方法主要分为基于规则和词典、基于机器学习、基于深度学习的方法。

（1）基于规则和词典^[2]的实体识别方法主要依赖语言学家根据上下文语义结构归纳的模板,在词典中查找所存在的最长的命名实体。该方法移植性较差,识别效果不明显,且归纳过程代价较大。

（2）基于机器学习的方法主要是以概率论为基础,采用数学统计方法建模。在处理NER问题^[3,4,5]时,使用大规模的标注语料训练模型,通过训练好的模型预测测试语料,得到命名实体。基于机器学习的景点实体识别^[6,7]效率较好,但未能考虑上下文之间的语义信息,旅游领域景点词语一般在不同语境下会存在不同含义,比如“黄山”在不同语境下可以指地名安徽省黄山市,也可以指旅游景区“黄山”等。

（3）基于深度学习的方法^[8]主要为BiLSTM。该方法是对序列中对应标签的得分值独立分类,选取每个得分值最高的标签直接得到输出结果,但由于不考虑相邻标签之间的信息,因此不能得到全局最优。条件随机场（CRF）使用句子级的序列标注,可解决这一问题。所以针对中文NER方法,相关研究通常采用机器学习^[9]与深度学习相结合的方法^[10],该类方法在中文命名实体识别领域有较好的识别效果^[11]。但在文本特征表示时未能考虑一词多义的问题,且识别结果严重依赖语料标注质量。

综上,目前针对命名实体识别主要存在以下问题：

(1)实体不同语境下的不同含义问题在文本特征表示时得不到解决。

(2)对于特定的领域,没有文本规范格式。实体数量过多,无法枚举,在人工构建特征模板时耗时耗力。使用深度学习方法需要人工标注数据,且模型严重依赖标注数据的质量,标注数据难以获取。

针对问题(1),在现有研究基础上,本文构建一种改进的BERT+BiLSTM+CRF（简称BBC）深度学习实体识别模型;针对问题(2),本文研究一种AttTrBBC迁移学习算法,根据旅游领域景点与《人民日报》标注语料中的相似性,利用知识迁移的方法,将辅助领域中有效数据扩展到目标领域训练集中。

3 研究思路与框架

3.1 改进的融合BERT的BiLSTM+CRF方法

为解决实体识别过程中一词多义问题,本文提出改进的融合BERT^[12]的BiLSTM+CRF^[4]模型,整体模型如图1所示。首先使用BERT模型获取字向量,提取文本重要特征;然后通过BiLSTM^[13]深度学习上下文特征信息,进行命名实体识别;最后CRF^[14]层对BiLSTM的输出序列进行处理,结合CRF中的状态转移矩阵,根据相邻之间标签得到全局最优序列。BERT是一种预训练语言表征模型,能够计算词语之间的相互关系,并利用所计算的关系调节权重提取文本中的重要特征。使用自注意力机制的结构进行预训练,基于所有层融合左右两侧语境以预训练深度双向表征,能捕捉到真正意义的上下文信息,并能够学习到连续文本片段之间的关系。在文本特征提取时,能解决一词多义问题,因此本文将BERT模型引入到命名实体识别任务中。

图1

新窗口打开| 下载原图ZIP| 生成PPT

图1 BBC实体识别模型

Fig.1 BBC Entity Recognition Model

3.2 改进的知识迁移实体识别方法

(1) 迁移学习

迁移学习^[15]（Transfer Learning）是通过减小已有知识和新知识之间的分布差异,以此运用已有知识学习新的知识,可以通过减小辅助领域和目标领域的分布差异,利用相关领域有标定的数据完成对未知数据的标注。本文将迁移学习思想与BBC模型结合,提出一种改进的知识迁移实体识别算法AttTrBBC,主要改进是在知识迁移的基础上,针对旅游领域文本特点,提出使用关键词重要性、句子级别相似性和样本可扩展性三种方法评估辅助样本和目标样本的相似性,增强扩展过程中的严谨性,确保不会产生负迁移。

(2) 余弦相似性

本文用sim表示余弦相似性。余弦相似性用于计算句子的相似度和词语之间的相似性^[16]。L和M可以表示两句子的n维句子向量,也可以表示两个n维的词向量,设 $L = {l_{1}, l_{2}, \dots, l_{n}}$ , $Μ = {m_{1}, m_{2}, \dots, m_{n}}$ ,则有公式（1）。

(1)

sim = \frac{L \cdot M}{| | L | | | | M | |} = \frac{\sum_{i=1}^{n} l_{i} \times m_{i}}{\sqrt[]{{\sum_{i=1}^{n} (l_{i})}^{2}} \times \sqrt[]{{\sum_{i=1}^{n} (m_{i})}^{2}}}

sim取值一般为（-1,1）,值越大,则两个句子的相似性越大。

3.3 改进的知识迁移实体识别设计

旅游领域文本表示不规范。辅助领域文本为规范标注的数据,因此迁移的难点在于如何评估辅助领域到目标领域的相似性,保证特征提取和知识迁移的过程中,将辅助领域中尽可能多的关于目标领域的语义信息扩展但不产生负迁移。对此,本文针对旅游领域文本特点,提出关键词重要性、句子级别相似性、样本可扩展性三种不同的计算方式评估样本的好坏,以此评估辅助领域与目标领域的相似度。

(1) 关键词重要性

借鉴TF-IDF^[17],本文提出关键词频率(Keyword Frequency,KF)和句子频率(Sentence Frequency,SF)的概念。KF表示样本句子中某个关键词的出现频率,KF_i,j表示关键词i在句子j中的出现频率,计算方法如公式(2)所示。

(2)

K F_{i, j} = \frac{n_{i, j}}{\sum_{k} n_{i, k}}

其中, $n_{i, j}$ 表示词语i在句子j中出现的次数。

SF表示句子频率,ISF(Inverse Sentence Frequency)表示反句子频率,计算方法如公式（3）所示。

(3)

IS F_{i} = \log \frac{| S |}{| j : t_{i} \in S_{j} | + 1}

其中, $IS F_{i}$ 表示词语i的反句子频率,|S|表示句子总数量, $t_{i} \in S_{j}$ 表示句子 $S_{j}$ 中包含词语 $t_{i}$ , $| j : t_{i} \in S_{j} |$ 表示包含词语 $t_{i}$ 的句子总数,加1是为防止分母为零,导致公式无意义。

某个词语i在句子j中的重要程度如公式（4）所示。

(4)

I (i, j) = K F_{i, j} \times IS F_{i}

(2) 句子级别相似性

句子级别相似性计算方法如公式（5）所示。 $X_{s}$ 表示辅助领域数据集, $X_{t}$ 表示目标领域数据集, $\forall x_{s} \in X_{s}$ , $x_{s} = {x_{s 1}, x_{s 2}, \dots, x_{sn}}$ , $\forall x_{t} \in X_{t}$ , $x_{t} = {x_{t 1}, x_{t 2}, \dots, x_{tn}}$ 。

(5)

si m_{sen} = \frac{\sum_{i}^{=} x_{si} \times x_{ti}}{\sqrt[]{{\sum_{i}^{=} (x_{si})}^{2}} \times \sqrt[]{{\sum_{i}^{=} (x_{ti})}^{2}}}

(3) 样本可扩展性

样本可扩展性(Sample Extension Ability,SEA)计算方法如公式(6)所示。

(6)

SEA = α \cdot si m_{sen} (x_{s}, x_{t}) + β \cdot si m_{word} (i_{(x_{s})}, i_{(x_{t})})

其中 $,$ $i_{(x_{s})}$ 和 $i_{(x_{t})}$ 由公式(4)计算可得,分别表示 $x_{s}$ 和 $x_{t}$ 中的前m个相关性较高的关键词; $si m_{sen} (x_{s}, x_{t})$ 由公式(5)计算所得; $α$ 与 $β$ 分别表示关键词重要性和句子级别相似度所占样本可扩展性的权重系数,根据主观经验法分别设置为0.5。

3.4 算法设计

AttTrBBC算法采用基于特征的知识迁移的思想改进BBC识别方法,设计流程如图2所示。其中, $X_{s}$ 、 $X_{t}$ 分别表示辅助领域和目标领域数据集,由文本文档组成;T_rt表示目标域全标注数据集,T_et表示目标域中少量标注数据。

图2

新窗口打开| 下载原图ZIP| 生成PPT

图2 算法结构

Fig.2 Algorithm Structure

AttTrBBC算法描述如下：

输入：X_s,X_t,T_et,BBC分类模型,相似度阈值m,目标领域少量标注数据占总扩展集的比例μ;

输出：实体识别结果和扩展后的数据集。

①X_t=T_et,对X_s和X_t预处理,初始化m,μ;

②训练语言模型,对 $\forall x_{s} \in X_{s}$ ,有 $v (x_{s}) = {v_{s_{1}}, v_{s_{2}}, \dots, v_{s_{n}}}$ ,n为向量维度,对 $\forall x_{t} \in X_{t}$ ,有 $v (x_{t}) = {v_{t_{1}}, v_{t_{2}}, \dots, v_{t_{n}}}$ ;

③ $\forall v_{sen} (x_{s}) \in v (x_{s}), \forall v_{sen} (x_{t}) \in v (x_{t})$ 根据公式(1)计算句子级别的文本相似性,有 $si m_{sen} (v_{sen} (x_{s}), v_{sen} (x_{t}))$ ;

④对 $\forall x_{s} \in X_{s}$ , $\forall x_{t} \in X_{t}$ ,使用公式(4)计算关键词重要性,获取前m个最相关关键词i₍_xs₎和i₍_xt₎;

⑤从v(x_s)和v(x_t)分别获取i₍_xs₎和i₍_xt₎对应的词向量v_i(x_s)和v_i(x_t);

⑥根据公式(1)对v_i(x_s)和v_i(x_t)计算sim_word(v_i(x_s),v_i(x_t));

⑦ $\forall x_{s} \in X_{s}$ 根据公式(6),将可扩展性较强的x_s扩展到T_et中,得到 $T_{et} = {\tilde{T}}_{et}$ ;

⑧对扩展后的T_et训练新的分类器 $c (x) = \tilde{c} (x)$ ;

⑨对T_et使用BBC分类器预测,得到识别结果;

⑩更新m值重复步骤③-步骤⑨,返回 $m'$ 组实验结果;

⑪根据分类器模型识别效果选取合适的m值,当 $m = \tilde{m}$ 时,识别结果最高,输出此时的识别结果和扩展数据集 ${\tilde{T}}_{et}$ 。

4 实验过程

4.1 数据源

(1) 目标领域数据库

使用Python中的Beautiful Soup对马蜂窝等互联网旅游网站上的游记文章进行网页解析处理,获取2010年至2017年的一万余篇游记文章。游记文本为高度非结构化数据,包含错别字、语法错误、新流行的网络用语以及一些无用的URL信息等,需要首先进行预处理。预处理的过程是：将数据解析成TXT文件;通过正则表达式去除无用的网址、特殊的标点符号（‘ ’,‘<>’,‘~’,‘【】’,‘$’,‘_’等）以及一些符号化的字等信息,按照优先级处理特殊符号,保留逗号、句号等重要的标点符号,完成数据的清洗过程。

对经过预处理的数据按照BIO格式(B表示景点开始标志,I表示词的中间部分,O表示其他非景点的词)标注39 655个句子,并建立旅游游记数据库（TDB）。数据分布情况如表1所示,标注实例如表2所示。

表1 数据分布情况

Table 1 Data Distribution

项	数量（个）
实体数	74 430
非实体数	457 040
总量	531 470

新窗口打开| 下载CSV

表2 标注实例

Table 2 Labeling Examples

字	词性	标注
我	r	O
今	t	O
天	t	O
去	v	O
了	ul	O
故	n	B-SE
宫	n	I-SE

新窗口打开| 下载CSV

(2) 辅助领域数据集

景点属于地名的一种,因此本文辅助领域中的数据选取《人民日报》公开数据——由北京大学计算机语言学研究所制作的现代汉语多级加工语料库^[18],共有2 022万余字的实体标注,通过交叉验证的方法选取其中1 000万条标注语料作为实验训练数据,22万条数据作为测试数据。

(3) 数据特点分析

源域、目标域中的数据能共享共同的特征,如图3所示。源域中标准化标注了地名、人名、机构名等。目标域中的景点是地名的一种,针对这一相似性,对源域进行特征提取,不断筛选出与目标域相似度高的数据,进行训练和学习,得到扩展后的目标领域训练集,以解决目标领域的标注数据难于获取的问题。

图3

新窗口打开| 下载原图ZIP| 生成PPT

图3 数据特点

Fig.3 Data Characteristics

4.2 实验设计

本文基于TensorFlow构建实验模型。训练集batch_size为32,验证集和测试集batch_siz为8,dropout rate为0.5,为了搜索最佳学习率,采用warm up学习率,learning rate初始值为0.001,设置Gradient Clipping为0.5裁剪梯度,控制有效权重。实验评估采用MUC^[1]评测会议上提出的评价指标：准确率P、召回率R和F1值。

(1) 融合BERT的BiLSTM+CRF方法

为验证本文所提模型的有效性,分别与CRF^[14]模型、BiLSTM^[13]模型、BiLSTM+CRF^[4]模型进行对比实验,结果如表3所示。实验训练数据和测试数据均为同一数据集（4.1节数据集）。

表3 模型分层验证

Table 3 Model Layer Verification

方法	P	R	F1
CRF	86.67%	87.84%	87.25%
BiLSTM	93.25%	87.98%	90.53%
BiLSTM+CRF	94.97%	92.10%	93.52%
BBC	96.79%	96.85%	96.74%

新窗口打开| 下载CSV

由表3可知,和其他模型相比,本文提出的BBC模型性能有一定程度的提升。单层BiLSTM不能考虑标签序列顺序性,会将一个完整的实体（如“北京动物园”）拆分成“北京”和“动物园”。去掉BERT层,在特征表示时不能考虑一词多义问题（如“北京海洋馆”）中的“海洋”在不同语境下可以指人名也可以指地名,这会影响实验结果。综上,BBC模型识别结果相比其他三组单层模型高。

为了验证AttTrBBC算法中关键词重要性、句子级别相似度、样本可扩展性三种阈值设置对算法有效性的影响,分别设计了实验(2)-实验(4);同时为了研究AttTrBBC算法对少量目标训练集不同大小的依赖程度,设计实验(5)。

(2) 关键词重要性阈值选取

针对关键词重要性i值的实验设置主要目的是探究算法AttTrBBC中,关键词重要性阈值对迁移效果的影响,分别设置5组不同的相似度阈值,目标领域标注数据大小设置为1/5,实验结果如表4所示。可知,在关键词重要性阈值设置为0.55时,P值最高,设置为0.45时R值和F值最高。

表4 不同i值的实验结果

Table 4 Experimental Results with Different Values of i

i	P	R	F1
0.40	84.64%	64.01%	72.89%
0.45	87.26%	69.28%	77.24%
0.50	90.93%	53.85%	67.64%
0.55	93.14%	55.42%	69.49%
0.60	91.41%	55.74%	69.25%

新窗口打开| 下载CSV

(3) 句子级别相似度阈值选取

针对不同的sim_sen阈值范围对AttTrBBC算法进行对比实验,根据关键词重要性实验结果,设置关键词重要性阈值为0.55,目标领域标注数据大小设置为1/5,实验结果如表5所示。实验结果表明,在同一个数据集上,AttTrBBC算法得到的扩展集在句子级别相似度阈值设置为0.50时,效果最佳。

表5 不同sim_sen值的实验结果

Table 5 Experimental Results with Different Values of sim_sen

sim_sen	P	R	F1
0.40	89.01%	56.07%	68.80%
0.45	91.30%	57.79%	70.78%
0.50	92.05%	58.16%	71.28%
0.55	91.03%	55.99%	69.33%
0.60	90.81%	56.50%	69.66%

新窗口打开| 下载CSV

(4) 样本可扩展性阈值选取

研究不同的SEA阈值选取对实验结果的影响,分别设置5组对比实验,该实验设置关键词重要性阈值为0.55,句子级别相似度阈值为0.50,目标领域标注数据大小设置为1/5,实验结果如表6所示。实验设置不同的样本可扩展性阈值对实验结果有一定程度的影响,综合考虑P、R和F1三个评价指标,设置SEA阈值为0.50时,识别结果最佳。

表6 不同SEA的实验结果

Table 6 Experimental Results with Different Values of SEA

SEA	P	R	F1
0.40	87.26%	79.28%	83.07%
0.45	90.93%	83.85%	87.24%
0.50	93.14%	85.42%	89.11%
0.55	91.41%	85.74%	88.48%
0.60	90.81%	83.50%	87.00%

新窗口打开| 下载CSV

(5) 目标域标注数据大小 $μ$ 的影响

为了验证少量目标领域标注数据集的大小对算法有效性的影响,分别设置4组不同的 $μ$ 值,句子级别相似度阈值设置为0.50,关键词重要性阈值设置为0.55,SEA阈值为0.50,使用AttTrBBC算法进行实验,结果如表7所示。

表7 不同 $μ$ 的实验结果

Table 7 Experimental Results with Different Values of $μ$

$μ$	P	R	F1
1/5	93.14%	85.42%	89.11%
1/4	95.06%	82.12%	88.12%
1/3	97.91%	89.15%	93.30%
1/2	98.41%	88.09%	92.97%

新窗口打开| 下载CSV

可知,目标领域少量标注数据集在扩展集中对实验结果影响较大。仅使用1/5的目标领域标注数据集时,识别结果超过90%,说明该算法在不影响识别结果的前提下,大大减少了人工标注数据所花费的时间和精力。

5 实验结果

将3.1节的BBC分类器使用全标注数据训练模型并与改进的知识迁移景点实体识别算法（使用少量标注数据）进行对比,结果如表8所示。可知,改进的算法在使用1/4的标注数据与全标注实验结果在P值上相差1.73%。此外,使用1/2的标注数据的识别准确率要高于使用全部标注数据的模型1.62%。观察两种结果可知,使用全标注的实验主要存在半自动化标注过程中的实体标注错误。这说明原始训练集中已经存在错误的标注数据,导致在识别过程中准确率下降。而本文算法利用公开的《人民日报》数据通过知识迁移的思想解决了这一问题。

表8 全部标注与少量标注对比实验

Table 8 Comparison BetweenAll Annotations and a Few Annotations

模型	$μ$	P	R	F1
BBC	1	96.79%	96.85%	96.74%
	1/5	93.14%	85.42%	89.11%
AttTrBBC	1/4	95.06%	82.12%	88.12%
	1/3	97.91%	89.15%	93.30%
	1/2	98.41%	88.09%	92.97%

新窗口打开| 下载CSV

为了验证本文算法的效果,选取在旅游领域内景点实体识别结果较好的三组方法进行对比,如表9所示。可知,本文方法相对CNN^[11]方法准确率提高3.38%,F值相对HMM^[6]方法提高5.22%。

表9 工作对比分析

Table 9 Comparative Analysis of Four Methods

方法	P	R	F1
HMM^[11]	85.49%	90.14%	87.75%
CRF^[10]	83.40%	95.70%	89.10%
CNN^[12]	95.03%	92.80%	93.90%
AttTrBBC	98.41%	88.09%	92.97%

新窗口打开| 下载CSV

6 结语

为解决旅游领域内景点实体中特征表示的一词多义问题,本文构建了改进的BiLSTM+CRF的中文命名实体识别模型;为了解决旅游领域标注数据难以获取的问题,提出一种改进的基于迁移学习思想的AttTrBBC算法。对于旅游领域目标训练集,将已有的辅助领域数据按照关键词重要性、句子级别相似性、样本可扩展性三个级别的评估扩展目标领域的训练集数据。实验表明,AttTrBBC算法在仅需要少量的标注数据下就能得到文本中重要的语义,准确率相比使用全部标注数据的模型有所提高。对旅游领域信息抽取的研究具有一定的意义,为自动化旅游路线推荐提供了技术支持。

未来研究将考虑对可扩展性融合多种特征,提高扩展后样本集的质量,提高召回率。并进一步根据游记中的景点实体以及游记内容通过分类器过滤用户仅提及而未真实前往的景点,生成一级节点(市一级景点)和二级节点,二级节点生成二级线路,最终开发出根据游记文字自动识别景点和旅游路线的自动推荐平台。

作者贡献声明

赵平,孙连英：提出研究思路,设计研究方案;

赵平：进行实验,采集、清洗和分析数据,起草论文;

赵平,万莹,孙连英,卞建玲,涂帅：论文最终版本修订。

利益冲突声明

所有作者声明不存在利益冲突关系。

支撑数据

支撑数据由作者自存储,E-mail: 932678068@qq.com。

[1] 赵平.游记文章.zip.原始游记文章.

[2] 赵平.f_src_train.txt.辅助训练集f_src_test.txt辅助测试集.

[3] 赵平.f_tag_train.txt.少量目标训练集f_tag_test.txt目标测试集.

[4] 赵平.T_L_DATA.zip.实验数据.

[5] 赵平.output.zip.实验模型、预测结果、实验过程数据等.

[6] 赵平.model_layer.csv.模型分层验证.

[7] 赵平.sim_word.csv.不同 $si m_{wo rd}$ 值的实验结果.

[8] 赵平.sim_sen.csv.不同 $si m_{sen}$ 值的实验结果.

[9] 赵平.sea.csv.不同 $SEA$ 的实验结果.

[10] 赵平.u.csv.不同 $μ$ 的实验结果.

[11] 赵平.Partial_label.csv.全部标注与少量标注对比实验.

参考文献

原文顺序

文献年度倒序

文中引用次数倒序

被引期刊影响因子

[1]

Grishman

, Sundheim

Message Understanding Conference-6:A Brief History

[C]// Proceedings of the 16th International Conference on Computational Linguistics, Copenhagen, Denmark. Stroudsburg, PA: ACL, 1996: 466-471.

[本文引用: 2]

[2]

Hanisch

, Fundel

, Mevissen H

, et al.

ProMiner: Rule-based Protein and Gene Entity Recognition

[J]. BMC Bioinformatics, 2005,6(1):S14.

[本文引用: 1]

[3]

Lample

, Ballesteros

, Subramanian

, et al.

Neural Architectures for Named Entity Recognition

[C]// Proceedings of the 2016 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies, San Diego, California, USA. Stroudsburg, PA: ACL, 2016: 260-270.

[本文引用: 1]

[4]

Dong

, Zhang

, Zong

, et al.

Character-based LSTM-CRF with Radical-level Features for Chinese Named Entity Recognition

[C]// Proceedings of the Natural Language Understanding and Intelligent Applications,Kunming, China. Berlin, German:Springer, 2016: 239-250.

[本文引用: 3]

[5]

Patil N

, Patil A

, Pawar B

HMM Based Named Entity Recognition for Inflectional Language

[C]// Proceedings of the 2017 International Conference on Computer, Communications and Electronics,Jaipur, India. Piscataway, NJ: IEEE, 2017: 565-572.

[本文引用: 1]

[6]

薛征山, 郭剑毅, 余正涛, 等.

基于HMM的中文旅游景点的识别

[J]. 昆明理工大学学报:理工版, 2009,34(6):44-48.

[本文引用: 2]

( Xue

Zhengshan

, Guo

Jianyi

, Yu

Zhengtao

, et al.

Recognition of HMM-Based Chinese Tourist Attractions

[J]. Journal of Kunming University of Science and Technology:Science and Technology, 2009,34(6):44-48.)

[本文引用: 2]

[7]

郭剑毅, 薛征山, 余正涛, 等.

基于层叠条件随机场的旅游领域命名实体识别

[J]. 中文信息学报, 2009,23(5):47-52.

[本文引用: 1]

( Guo

Jianyi

, Xue

Zhengshan

, Yu

Zhengtao

, et al.

Named Entity Recognition for the Tourism Domain Based on Cascaded Conditional Random Fields

[J]. Journal of Chinese Information Processing, 2009,23(5):47-52.)

[本文引用: 1]

[8]

Chiu J P

, Nichols

Named Entity Recognition with Bidirectional LSTM-CNNs

[J]. Transactions of the Association for Computational Linguistics, 2016,4:357-370.

[本文引用: 1]

[9]

黄菡, 王宏宇, 王晓光.

结合主动学习的条件随机场模型用于法律术语的自动识别

[J]. 数据分析与知识发现, 2019,3(6):66-74.

[本文引用: 1]

( Huang

Han

, Wang

Hongyu

, Wang

Xiaoguang

Automatic Recognizing Legal Terminologies with Active Learning and Conditional Random Field Model

[J]. Data Analysis and Knowledge Discovery, 2019,3(6):66-74.)

[本文引用: 1]

[10]

Greenberg

, Bansal

, Verga

, et al.

Marginal Likelihood Training of BiLSTM-CRF for Biomedical Named Entity Recognition from Disjoint Label Sets

[C]// Proceedings of the 2018 Conference on Empirical Methods in Natural Language Processing, Brussels, Belgium. Stroudsburg, PA: ACL, 2018: 2824-2829.

[本文引用: 2]

[11]

刘小安, 彭涛.

基于卷积神经网络的中文景点识别研究

[J/OL].计算机工程与应用.[ 2019- 08- 01]. http://kns.cnki.net/kcms/detail/11.2127.TP.20190307.1807.007.html.

URL [本文引用: 3]

( Liu

Xiaoan

, Peng

Tao

Research on Chinese Scenic Spot Named Entity Recognition Based on Convolutional Neural Network

[J/OL]. Computer Engineering and Applications.[ 2019- 08- 01]. http://kns.cnki.net/kcms/detail/11.2127.TP.20190307.1807.007.html.)

URL [本文引用: 3]

[12]

Devlin

, Chang M

, Lee

, et al.

BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding

[C]// Proceedings of the 2019 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies, Minneapolis, USA. Stroudsburg, PA: ACL, 2019: 4171-4186.

[本文引用: 2]

[13]

Hochreiter

, Schmidhuber

Long Short-Term Memory

[J]. Neural Computation, 1997,9(8):1735-1780.

[本文引用: 2]

[14]

Sutton

, McCallum

An Introduction to Conditional Random Fields

[J]. Foundations and Trends® in Machine Learning, 2012,4(4):267-373.

[本文引用: 2]

[15]

Peng D

, Wang Y

, Liu

, et al.

TL-NER: A Transfer Learning Model for Chinese Named Entity Recognition

[J]. Information Systems Frontiers, 2019. https://doi.org/10.1007/s10796-019-09932-y.

URL [本文引用: 1]

[16]

Gomaa W

, Fahmy A

A Survey of Text Similarity Approaches

[J]. International Journal of Computer Applications, 2013,68(13):13-18.

[本文引用: 1]

[17]

Zhang

, Yoshida

, Tang

A Comparative Study of TF*IDF, LSI and Multi-Words for Text Classification

[J]. Expert Systems with Applications, 2011,38(3):2758-2765.

[本文引用: 1]

[18]

俞士汶, 段慧明, 吴云芳.

现代汉语多级加工语料库

[DS/OL].[ 2019- 01- 03]. http://dx.doi.org/10.18170/DVN/SEYRX5.

URL [本文引用: 1]

( Yu

Shiwen

, Duan

Huiming

, Wu

Yunfang

Corpus of Multi-Level Processing for Modern Chinese

[DS/OL]. [ 2019- 01- 03]. http://dx.doi.org/10.18170/DVN/SEYRX5.)

URL [本文引用: 1]

Message Understanding Conference-6:A Brief History

1996

... 命名实体识别（Named Entity Recognition, NER）一词在1996年的MUC-6会议上首次提出^[1].现有的命名实体识别方法主要分为基于规则和词典、基于机器学习、基于深度学习的方法. ...

... 本文基于TensorFlow构建实验模型.训练集batch_size为32,验证集和测试集batch_siz为8,dropout rate为0.5,为了搜索最佳学习率,采用warm up学习率,learning rate初始值为0.001,设置Gradient Clipping为0.5裁剪梯度,控制有效权重.实验评估采用MUC^[1]评测会议上提出的评价指标：准确率P、召回率R和F1值. ...

ProMiner: Rule-based Protein and Gene Entity Recognition

2005

... （1）基于规则和词典^[2]的实体识别方法主要依赖语言学家根据上下文语义结构归纳的模板,在词典中查找所存在的最长的命名实体.该方法移植性较差,识别效果不明显,且归纳过程代价较大. ...

Neural Architectures for Named Entity Recognition

2016

... （2）基于机器学习的方法主要是以概率论为基础,采用数学统计方法建模.在处理NER问题^[3,4,5]时,使用大规模的标注语料训练模型,通过训练好的模型预测测试语料,得到命名实体.基于机器学习的景点实体识别^[6,7]效率较好,但未能考虑上下文之间的语义信息,旅游领域景点词语一般在不同语境下会存在不同含义,比如“黄山”在不同语境下可以指地名安徽省黄山市,也可以指旅游景区“黄山”等. ...

Character-based LSTM-CRF with Radical-level Features for Chinese Named Entity Recognition

2016

... 为解决实体识别过程中一词多义问题,本文提出改进的融合BERT^[12]的BiLSTM+CRF^[4]模型,整体模型如图1所示.首先使用BERT模型获取字向量,提取文本重要特征;然后通过BiLSTM^[13]深度学习上下文特征信息,进行命名实体识别;最后CRF^[14]层对BiLSTM的输出序列进行处理,结合CRF中的状态转移矩阵,根据相邻之间标签得到全局最优序列.BERT是一种预训练语言表征模型,能够计算词语之间的相互关系,并利用所计算的关系调节权重提取文本中的重要特征.使用自注意力机制的结构进行预训练,基于所有层融合左右两侧语境以预训练深度双向表征,能捕捉到真正意义的上下文信息,并能够学习到连续文本片段之间的关系.在文本特征提取时,能解决一词多义问题,因此本文将BERT模型引入到命名实体识别任务中. ...

... 为验证本文所提模型的有效性,分别与CRF^[14]模型、BiLSTM^[13]模型、BiLSTM+CRF^[4]模型进行对比实验,结果如表3所示.实验训练数据和测试数据均为同一数据集（4.1节数据集）. ...

HMM Based Named Entity Recognition for Inflectional Language

2017

基于HMM的中文旅游景点的识别

2009

... 为了验证本文算法的效果,选取在旅游领域内景点实体识别结果较好的三组方法进行对比,如表9所示.可知,本文方法相对CNN^[11]方法准确率提高3.38%,F值相对HMM^[6]方法提高5.22%. ...

基于HMM的中文旅游景点的识别

2009

基于层叠条件随机场的旅游领域命名实体识别

2009

基于层叠条件随机场的旅游领域命名实体识别

2009

Named Entity Recognition with Bidirectional LSTM-CNNs

2016

... （3）基于深度学习的方法^[8]主要为BiLSTM.该方法是对序列中对应标签的得分值独立分类,选取每个得分值最高的标签直接得到输出结果,但由于不考虑相邻标签之间的信息,因此不能得到全局最优.条件随机场（CRF）使用句子级的序列标注,可解决这一问题.所以针对中文NER方法,相关研究通常采用机器学习^[9]与深度学习相结合的方法^[10],该类方法在中文命名实体识别领域有较好的识别效果^[11].但在文本特征表示时未能考虑一词多义的问题,且识别结果严重依赖语料标注质量. ...

结合主动学习的条件随机场模型用于法律术语的自动识别

2019

结合主动学习的条件随机场模型用于法律术语的自动识别

2019

Marginal Likelihood Training of BiLSTM-CRF for Biomedical Named Entity Recognition from Disjoint Label Sets

2018

... Comparative Analysis of Four Methods

Table 9

方法	P	R	F1
HMM^[11]	85.49%	90.14%	87.75%
CRF^[10]	83.40%	95.70%	89.10%
CNN^[12]	95.03%	92.80%	93.90%
AttTrBBC	98.41%	88.09%	92.97%

6 结语

为解决旅游领域内景点实体中特征表示的一词多义问题,本文构建了改进的BiLSTM+CRF的中文命名实体识别模型;为了解决旅游领域标注数据难以获取的问题,提出一种改进的基于迁移学习思想的AttTrBBC算法.对于旅游领域目标训练集,将已有的辅助领域数据按照关键词重要性、句子级别相似性、样本可扩展性三个级别的评估扩展目标领域的训练集数据.实验表明,AttTrBBC算法在仅需要少量的标注数据下就能得到文本中重要的语义,准确率相比使用全部标注数据的模型有所提高.对旅游领域信息抽取的研究具有一定的意义,为自动化旅游路线推荐提供了技术支持. ...

基于卷积神经网络的中文景点识别研究

2019

... Comparative Analysis of Four Methods

Table 9

方法	P	R	F1
HMM^[11]	85.49%	90.14%	87.75%
CRF^[10]	83.40%	95.70%	89.10%
CNN^[12]	95.03%	92.80%	93.90%
AttTrBBC	98.41%	88.09%	92.97%

6 结语

基于卷积神经网络的中文景点识别研究

2019

... Comparative Analysis of Four Methods

Table 9

方法	P	R	F1
HMM^[11]	85.49%	90.14%	87.75%
CRF^[10]	83.40%	95.70%	89.10%
CNN^[12]	95.03%	92.80%	93.90%
AttTrBBC	98.41%	88.09%	92.97%

6 结语

BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding

2019

... Comparative Analysis of Four Methods

Table 9

方法	P	R	F1
HMM^[11]	85.49%	90.14%	87.75%
CRF^[10]	83.40%	95.70%	89.10%
CNN^[12]	95.03%	92.80%	93.90%
AttTrBBC	98.41%	88.09%	92.97%

6 结语

Long Short-Term Memory

1997

An Introduction to Conditional Random Fields

2012

TL-NER: A Transfer Learning Model for Chinese Named Entity Recognition

2019

... 迁移学习^[15]（Transfer Learning）是通过减小已有知识和新知识之间的分布差异,以此运用已有知识学习新的知识,可以通过减小辅助领域和目标领域的分布差异,利用相关领域有标定的数据完成对未知数据的标注.本文将迁移学习思想与BBC模型结合,提出一种改进的知识迁移实体识别算法AttTrBBC,主要改进是在知识迁移的基础上,针对旅游领域文本特点,提出使用关键词重要性、句子级别相似性和样本可扩展性三种方法评估辅助样本和目标样本的相似性,增强扩展过程中的严谨性,确保不会产生负迁移. ...

A Survey of Text Similarity Approaches

2013

... 本文用sim表示余弦相似性.余弦相似性用于计算句子的相似度和词语之间的相似性^[16].L和M可以表示两句子的n维句子向量,也可以表示两个n维的词向量,设

L = {l_{1}, l_{2}, \dots, l_{n}}

Μ = {m_{1}, m_{2}, \dots, m_{n}}

,则有公式（1）. ...

A Comparative Study of TF*IDF, LSI and Multi-Words for Text Classification

2011

... 借鉴TF-IDF^[17],本文提出关键词频率(Keyword Frequency,KF)和句子频率(Sentence Frequency,SF)的概念.KF表示样本句子中某个关键词的出现频率,KF_i,j表示关键词i在句子j中的出现频率,计算方法如公式(2)所示. ...

现代汉语多级加工语料库

2019

... 景点属于地名的一种,因此本文辅助领域中的数据选取《人民日报》公开数据——由北京大学计算机语言学研究所制作的现代汉语多级加工语料库^[18],共有2 022万余字的实体标注,通过交叉验证的方法选取其中1 000万条标注语料作为实验训练数据,22万条数据作为测试数据. ...

现代汉语多级加工语料库

2019

〈

〉

检索词推荐：