Advanced Search

数据分析与知识发现, 2020, 4(2/3): 78-88 doi: 10.11925/infotech.2096-3467.2019.0034

专辑

基于Bi-LSTM+CRF的科学文献中生态治理技术相关命名实体抽取研究*

马建霞,,, 袁慧, 蒋翔

中国科学院西北生态环境资源研究院文献情报中心 兰州 730000

国科学院大学经济与管理学院图书情报与档案管理系 北京 100190

Extracting Name Entities from Ecological Restoration Literature with Bi-LSTM+CRF

Ma Jianxia,,, Yuan Hui, Jiang Xiang

The Northwest Institute of Eco-Environment and Resources, Library and Information Center, Chinese Academy of Sciences, Lanzhou 730000, China

Department of Library, Information and Archives Management, University of Chinese Academy of Sciences,Beijing 100190, China

通讯作者: 马建霞,ORCID:0000-0002-5401-9992,E-mail:majx@lzb.ac.cn

收稿日期: 2019-01-8   修回日期: 2019-06-25   网络出版日期: 2020-02-25

基金资助: *本文系国家重点研发计划“生态技术评价方法、指标体系及全球生态治理技术评价”项目 “生态技术评价平台与集成系统研发”课题.  2016YFC0503706
国家自然科学基金项目“基于科学基金项目及知识产出的研究前沿探测”的研究成果之一.  71373260

Received: 2019-01-8   Revised: 2019-06-25   Online: 2020-02-25

摘要

【目的】 从文本中抽取脆弱生态治理技术、实施地、实施时间等命名实体,并分析相关态势。【方法】 利用Bi-LSTM+CRF结合基于特征的命名实体知识库对脆弱生态治理领域CNKI数据库中的相关文献进行脆弱生态治理技术、地名实体、时间实体的自动抽取和标记。【结果】 对于中文文献中生态治理技术相关实体的抽取,获得P值74.34%、R值64.04%和F1值68.81%。采用Bi-LSTM+CRF神经网络模型与单纯采用CRF相比,P值提高9.41%,F1值提高4.26%,R值基本持平。【局限】 依赖于中文分词工具的准确性;仅对相关的实体进行抽取,尚未抽取实体之间的关系。【结论】 Bi-LSTM+CRF结合基于特征的命名实体知识库抽取命名实体技术,可用于基于细粒度内容的资源环境情报分析。

关键词: Bi-LSTM+CRF ; 文本挖掘 ; 生态治理技术 ; 命名实体识别

Abstract

[Objective] This study tries to extract named entities from the text, such as fragile ecological governance technology, implementation site, and implementation time, etc.[Methods] We combined the Bi-LSTM+CRF and feature-based named entity knowledge base to automatically extract needed data from CNKI documents.[Results] For the extraction of entities on ecological governance technology, the P, R and F1 values were 74.34%, 64.04% and 68.81%, respectively. Compared to the classic CRF method, our new model improves the P and F1 values by 9.41% and 4.26%, while the R value was basically the same.[Limitations] The accuracy of Chinese word segmentation tools may affect the performance of our model. More research is needed to study the relationship among entities.[Conclusions] The proposed model could be used for resource and environment information analysis based on fine-grained contents.

Keywords: Bi-LSTM+CRF ; Text-Mining ; Ecological Restoration Technology ; Named Entity Recognition

PDF (949KB) 元数据 多维度评价 相关文章 导出 EndNote| Ris| Bibtex  收藏本文

本文引用格式

马建霞, 袁慧, 蒋翔. 基于Bi-LSTM+CRF的科学文献中生态治理技术相关命名实体抽取研究*. 数据分析与知识发现[J], 2020, 4(2/3): 78-88 doi:10.11925/infotech.2096-3467.2019.0034

Ma Jianxia. Extracting Name Entities from Ecological Restoration Literature with Bi-LSTM+CRF. Data Analysis and Knowledge Discovery[J], 2020, 4(2/3): 78-88 doi:10.11925/infotech.2096-3467.2019.0034

1 引 言

日益增强的人类活动导致全球约60%的生态系统处于退化或者不可持续状态,荒漠化、水土流失、石漠化等退化土地已经至少占全球土地面积的四分之一。20世纪早期开始,美国、德国等发达国家启动大批生态保护项目,并从中积累了数量众多的生态治理技术,这些技术也从以单一目标为主演化为兼顾生态、经济、民生等多目标的复合模式[1]。中国是生态退化最为严重的国家之一,存在荒漠化、水土流失、石漠化、森林生态系统退化等问题的区域占国土面积的22%左右[2]。针对这些问题,中国自20世纪50年代起实施生态保护工程,同时对西北干旱区生态恢复、黄土高原水土流失综合治理、南方喀斯特区石漠化生态恢复等技术开展机理与示范研究,形成了多种生态治理模式和修复技术。

如果能从大量文本中抽取出生态治理技术名称、实施时间、实施的地理位置、实施地生态环境情况等内容,将其结构化存储并进行关联分析,将有利于把握生态治理技术发展演化的脉络和特征,对生态治理技术领域的情报分析有重要意义。在资源环境领域,开展资源环境相关的实体、属性、关系等的自动抽取和分析方法、技术的研究,也有利于促进大数据环境下基于文本挖掘的资源环境情报分析技术方法的研究和应用。

2 研究现状

当前文本挖掘模型的研究主要在机器学习及其相关应用领域。深度学习是机器学习的扩展,但针对更深的语言表示层。深度学习模型效率高,因为需要的特征工程量不大。长短期记忆网络(Long Short-Term Memory,LSTM)和条件随机场(Conditional Random Field, CRF)大大提高了命名实体识别的效率[3,4,5]。Huang等[6]提出使用循环神经网络(Recurrent Neural Network)作为文本建模工具,提出LSTM-CRF模型和Bi-LSTM+CRF模型,将双向长短期记忆神经网络模型(Bi-directional Long Short-Term Memory)结合CRF层的Bi-LSTM+CRF模型用于命名实体识别任务中。为解决Bi-LSTM模型无法充分利用硬件设备导致训练速度较慢的问题,Strubell等[7]提出使用迭代膨胀卷积神经网络(Iterated Dilated Convolutional Neural Networks,ID-CNNs))替代Bi-LSTM,与CRF层结合组成IDCNN-CRF模型,在提高训练速度的同时获得更好的性能表现。徐飞等[8]采用CRF、RNN、Bi-LSTM和Bi-LSTM+CRF等传统机器学习模型与深度学习模型对食品安全事件文本进行词性自动标注。还有一些用于文本挖掘任务,比如关系抽取[9]和问答系统[10]方面的基于深度学习的模型。深度学习需要大量的训练数据[11],而科学文本挖掘任务中,大规模训练语料的构建成本很高,需要依赖相关学科领域的专家;由于只能获得小规模训练语料,大多数科学文本挖掘模型不能充分利用深度学习技术。许多研究人员基于多任务模型[12]、Word2Vec[13]解决缺乏训练语料的问题。Bi-LSTM+CRF在脆弱生态治理技术相关实体抽取方面适应性和效率如何,有待本研究去探索。

近年来,文本挖掘技术在资源环境相关学科的结构化数据库建设、知识图谱建设、文献内容分析等方面的应用已经兴起。Wang 等[14]从地球科学中文文献中抽取信息,构建了一个地质学知识图谱。Peters等[15,16]利用自然语言处理技术从几百万个文档中抽取结构化的古生物信息,并开发古生物学数据库(①http://paleobiodb.org.)。Holden等[17]开发了地质文献分析系统GeoDocA,利用文本挖掘技术对地质勘探报告进行可视化分析。Qiu等[18]提出一种基于本体和增强型嵌入词从地球科学文献中自动提取关键词的方法。

从大量地球科学和资源环境相关领域的文献中抽取结构化信息,并从科学文本数据中发现知识是地球科学和资源环境相关领域逐步开始重视的一个主题,采用有效的方法从地球科学和资源环境相关文献中抽取命名实体和关系,将会促进基于内容的资源环境相关情报分析向自动化和细粒度发展。

3 研究思路与框架

3.1 研究思路

(1)对生态治理技术领域的时间、地名和生态治理技术名称等命名实体的特点和分类进行分析,并在此基础上构建相应的命名实体知识库,作为神经网络模型和词向量的训练语料,以获得质量更高的Word2Vec词向量,从而提升整体识别和抽取的效果。

(2)构建基于Bi-LSTM+CRF的命名实体抽取框架,并结合该框架开展生态治理技术相关命名实体的抽取实验。

(3)开展抽取效果评价。使用Bi-LSTM+CRF神经网络中的随机初始词向量进行命名实体识别模型的训练,作为基准方法;然后分别尝试将Word2Vec训练的两个未标注文本集合的词向量结果替换随机初始词向量,扩大训练语料方法,对比使用不同要素所产生的实验结果;最后评价Bi-LSTM+CRF用于生态治理技术相关命名实体抽取的可行性和效果。

3.2 研究框架

针对本文设计的基于Bi-LSTM与CRF的方法,研究框架主要包括模型构建阶段和后处理阶段,如图1所示。模型构建阶段主要包括语料预处理、词向量的训练。后处理阶段主要包括将测试语料放入模型进行识别,并对识别结果进行处理。

图1

图1   研究框架

Fig.1   Research Framework


3.3 Bi-LSTM+CRF模型

Bi-LSTM+CRF模型结构主要包括三个层次:输入层(Word Embedding)、双向LSTM层(其中包括Tanh层)和CRF层,如图2所示。整体结构确定的情况下,每个层次都需要考虑一些更细致的问题:

(1)输入层的信息,初始词向量的来源、处理工具和维度等内容;

图2

图2   Bi-LSTM+CRF结构

Fig.2   The Structure of Bi-LSTM+CRF


(2)双向LSTM层,包括单元数、网络层数、迭代次数、最大耐心值(即在开发集上的表现累计max_patience次没有提升时,训练即终止)等;

(3)CRF层,承担整个神经网络结构中分类器作用。

根据图2所示,单层圆圈代表Word Embedding输入层,菱形代表学习输入的决定性方程,双层圆圈代表随机变量。信息流将输入层的Word Embedding送到双向LSTM,l(i)代表word(i)和从左边传入的历史信号,r(i)代表word(i)以及从右边传入的未来信号,用c(i)连接这两个向量的信息,代表词word(i)。

在Word Embedding层,对语料进行处理,使用Word2Vec对语料的词进行嵌入,词嵌入的表示可以是纯粹预训练的,也可以在训练模型的时候进行微调,效果更好。在Bi-LSTM层,采用LSTM中的三个门控制送入Memory Cell的输入信息,以及遗忘之前阶段信息的比例,再对Cell状态进行更新,最后用Tanh方程对更新后的细胞状态再做处理,与Sigmoid叠加相乘作为最终输出。在CRF层,将深度神经网络最后学习的结果作为特征,用CRF模型连接起来。

4 研究和实验过程

4.1 实验数据集和运行环境

(1) 实验数据集

选用生态治理技术相关中文文献作为实验数据集,通过训练得到的模型,测试和验证Bi-LSTM+CRF神经网络模型的有效性,测评任务是识别和抽取中文文献中的时间、地名和生态治理技术名称实体。

随机选取CNKI数据库1978年-2017年荒漠化、石漠化和水土流失治理领域收录的文献为研究语料,随机抽取率为10%,得到634篇文献,将得到的数据集按照6∶2∶2的比例切分为训练集、验证/开发集、测试集。训练集用于训练最初模型,验证/开发集用于参数调整,测试集用于测试模型性能。三个集合均对需识别的三类命名实体进行标注,所有文档以TXT格式存储,如表1所示。

表1   数据集的实体数据统计

Table 1  Entity Statistics of Dataset

任务数据集文献数量实体
数量
时间实体数量地名实体数量生态治理技术名称数量
训练集38066 22313 27629 33323 614
验证/开发集12723 3964 13511 2637 998
测试集12719 2044 3538 3756 476
合计634108 82321 76448 97138 088

新窗口打开| 下载CSV


用于Word2Vec训练的两个未标注文本集合如表2所示。

表2   用于Word2Vec训练的两个未标注文本集合

Table 2  Two Sets of Unlabeled Text for Word2Vec Training

文本集来源用于词向量训练的部分
未标注
文本集合1
634篇文献题录信息Title + Keyword + Abstract
未标注
文本集合2
634篇文献题录信息 +实体知识库语料Title + Keyword + Abstract +Time + Place + Tech

新窗口打开| 下载CSV


(2) 运行环境与编程语言

Bi-LSTM+CRF模型的实现采用TensorFlow深度学习框架,编程语言为Python,服务器运行环境为X shell平台(Ubuntu14.04.5 LTS,GNU/Linux 3.13.0-24-generic x86_64)。词向量训练阶段使用Word2Vec[19]工具,采用Java实现。

4.2 基于实体特点的命名实体知识库构建

研究每种命名实体的特点和分类,并构建相应的命名实体知识库,作为神经网络模型和词向量的训练语料,从而提升整体识别和抽取的效果。

(1) 生态治理技术名称特点和分类

本文研究的生态治理技术主要是荒漠化、石漠化和水土流失等方面生态退化问题的治理技术。生态治理技术作为资源环境领域命名实体中一种特别的命名实体,具有一般资源环境领域命名实体的特点和独有特点,比如资源环境命名实体通常命名方式过长,命名实体存在嵌套等形式,这些特性增加了对其识别的难度。在中文文本中,生态治理技术名称描述有以下特点:

①生态治理技术名称描述中可能包含地名实体

技术名称中经常包含技术实施的地理位置信息,且以地名实体的形式嵌套在技术名称中,如“高寒干旱沙地杨树深栽造林”等。

②生态治理技术名称描述中可能包含生态系统或生态区类型

部分技术名称以实施的生态区、或生态区和地名的组合进行命名,如“绿洲农林间作”、“黄土高原梯田技术”等。

③生态治理技术名称描述中可能包含生态退化类型

技术名称对技术的描述通常与生态退化的类型相结合,指示适用于某退化类型的技术,如“荒漠化综合治理技术”等。

④生态治理技术名称描述中可能包含触发词汇

文本中会出现“技术”、“措施”、“工程”等后缀,以及“实施”、“开展”、“采用”等左边界词,用于指示文本中的技术名称。

⑤生态治理技术名称的指代和省略现象

技术名称可能在上下文中以指代形式出现,如“此次治理过程中,……”中的“此次”、“该技术……”中的“该技术”等。

⑥生态治理技术名称缺失现象

部分技术,人们通常以触发词汇与退化类型或技术类型进行描述,而没有具体、完整的技术名称,特别是一些技术大类,或者不明确的技术,如“植物措施”、“化学措施”等。

生态治理技术的分类讨论,可以按照治理的退化生态系统类型或退化原因分类,也可以按照治理技术类型分类,还可以按照治理技术的生物和非生物类型分类。

(2)生态治理技术名称知识库和规则库

由于生态治理技术名称中可能含有生态系统类型或生态区、退化类型以及相关触发词等,整理与之相关的知识库作为生态治理技术名称实体的基础。归纳和总结生态治理技术名称的常用词汇及其触发词汇,如表3所示。总结中文文本中生态治理技术名称的抽取规则,部分规则样例如表4所示。

表3   生态治理技术名称常用词及其触发词举例

Table 3  Common Words and Trigger Words of Ecological Governance Technology

触发词类型举例
左边界词实施;设置;计划;开展;采用;治理;营造;种植;发展……
右边界词技术;模式;体系;方案;措施;工程;治理;修复;方法;XX法;组合;结合;改良;利用……
技术类别植物措施/方法/技术/模式、动物措施、微生物措施、农业措施、工程措施、化学措施、物理措施、管理措施……
触发词沙障;沙墙;沙沟;栅栏;阻沙、草方格;固沙;防护林;混交;粘合剂;固沙剂;喷播;补播;草膜;补种;封禁;梯田;造林;流沙固定;防沙治沙;水土保持;农林复合经营;节水集水;沙产业;可再生能源利用……
技术名称草方格沙障;高立式活沙障;飞播治沙技术;铁路防沙治沙技术;划区轮牧;鱼鳞坑状反坡整地;黄土梯田;旱地农田防护林;造林模式;绿洲农林间作;绿洲农田防护林;农田林网化;砂田技术;盐碱地改造;林草复合法;乔灌混交;改变种植作物;草田轮作;机械阻沙:设置挡沙墙、截沙沟、阻沙栅栏、防沙网;沙障固沙:草方格沙障固沙、黏土沙障、砾石沙障、沙袋沙障……

新窗口打开| 下载CSV


表4   生态治理技术抽取规则样例

Table 4  Rules for Named Entity Extraction of Ecological Governance Technology

技术名称类型技术名称子类型及表达模式样例
辅助技术名称识别相关词表左边界词(LeftWord)实施、开展、采用…
右边界词(RightWord)技术、措施、工程…
土壤类型(Agrotype)沙地、草甸土…
生态系统/生态区(ECO)黄土高原、高寒草甸…
生态退化类型(EcoDegType)荒漠化、石漠化……
简单技术名称触发词(TriggerWords)沙障、防护林、固沙剂…
技术类别(TCategory)生物措施、工程措施…
包含其他实体的技术名称包含地名(Place)和土壤类型(Agrotype)
表达模式:( LeftWord ) + Place + ( Agrotype )+ TriggerWords + ( RightWord )
柴达木沙地杨树深栽造林
包含生态系统类型/生态区(ECO)
表达模式:ECO + TriggerWords + (RightWord)
绿洲农林间作
黄土高原梯田技术
包含生态退化类型
表达模式:(EcoDegType);EcoDegType + (TriggerWords) + RightWord
荒漠化综合治理技术
冻融荒漠化防治
技术名称短语LeftWord + TriggerWords + ( RightWord )
TriggerWords + RightWord
TCategory + RightWord
设置生物围栏;采用乔灌混交技术
草方格沙障技术;林草复合法
植物/农业/工程措施

(注:表达模式中符号()表示其中的内容可以出现也可以不出现。)

新窗口打开| 下载CSV


(3)时间实体抽取研究

汉语中的时间信息研究中需要分析时间要素、时间词语构成形式等。根据中文文本中时间表达形式的规律性,形成时间实体抽取的规则。

①基本元素

在精确时间中,表达式“2017年9月10日上午9时30分”可以分解为[2017年][9月][10日][上午][9时][30分]独立的时间元素进行的组合,上下文跨度小。

②时间触发词

时间信息的出现通常与表达时间单位的触发词相结合,如“2017年9月10日上午9时30分”的“年”、“月”、“日”、“时”、“分”等。

③省略现象

在时间表述过程中,出于表达的简洁或连贯性需要,常出现省略现象,因此很多时间的描述可能不完整,如“9月10日”等,没有出现年份。

④随意性和模糊性

在描述时间信息的过程中,人们经常使用相对时间或未指明具体时间长度的段时间来表示时间。如,过去、现在、将来;季度;周末;上午、晚上等。

⑤相同时间的不同表示

相同的时间可能存在不同的时间层次或不同的表示方法,如阳历和阴历对同一天的表示完全不同;“2017年12月25日”、“2017-12-25”、“2017/12/25”与“2017年圣诞节”表示同一天等。

⑤无显性触发词

这类时间信息主要是事件类时间,即通过事件发生或语义内容反映时间。如,“实施治理之后…”等描述中没有显性时间触发词,但表达了时序关系。

(4)地名实体抽取研究

地名实体的研究主要侧重于两个方面:一是文本中地名实体的识别(Geo-Parsing),二是将识别的地名实体映射为地图上的坐标,即地理编码过程(Geo-Coding)。总结中文文本中地名信息的抽取规则,部分规则样例如表5所示。

表5   地名实体抽取规则样例

Table 5  Rules for Entity Extraction of Place Names

地名实体类型地名实体子类型地名实体表达模式样例
单独出现的地名实体无通名用字的地名(Place)Place中国、山东、青海……
地名实体简称(PlaceAbb)PlaceAbb京、津、冀……
地名实体别名(PlaceAli)PlaceAli燕京、大都、首都、宝岛、六朝古都……
辅助地名识别相关词表左边界词(LeftWord)-位于、流经、抵达……
右边界词(RightWord)-南部、西岸、境内……
通名用字(GeneralWord)-省、市、县、地区、高原、平原、流域……
复合地名短语后缀式地名Place + GeneralWord
Place + RightWord
西北地区、兰州市南部
组合式地名n × [ Place + (GeneralWord) || PlaceAbb || PlaceAli]甘肃省兰州市东岗路、
中国甘肃兰州
并列式地名n × [ [PlaceAbb || PlaceAli || Place + (GeneralWord) ] +
“-”或“、”或“<”或“>”或“和”或“与”+
[PlaceAbb || PlaceAli || Place + (GeneralWord) ] ]
银川-环县-西安、陕>宁>青>甘>新
地名介词短语LeftWord + Place + GeneralWord
LeftWord + Place + ( GeneralWord ) + RightWord
LeftWord + [ PlaceAbb || PlaceAli ]
途径兰州市、抵达兰州市境内、位于六朝古都

(注:表达模式中符号()表示其中的内容可以出现也可以不出现;符号“||”表示“或”等。)

新窗口打开| 下载CSV


4.3 实验过程

(1) 语料预处理

将文献利用PDFBox(①https://pdfbox.apache.org/.)转化为TXT格式。利用Ansj-seg(②http://ictclas.nlpir.org/.)进行分词处理,再对分词后文本进行中文分词和标注词性操作,得到待标注实体类型的文本。

①标注文本:本研究使用的分类及标注方法如表6所示。

表6   实体分类及标注体系

Table 6  Entity Classification and Annotation System

符号含义符号含义
O非实体I-Place地名中间
B-Time时间开头B-Tech技术开头
I-Time时间中间I-Tech技术中间
B-Place地名开头

新窗口打开| 下载CSV


在对语料进行处理后的文本格式中,第一列为文本中的词语,第二列是该词的词性,第三列表示的是该词在句子中代表的实体,以IOB2标注的实例如表7所示。

表7   实体标注举例

Table 7  Examples of Entities Annotation

文本中词语词性IOB2标注
pO
毛乌素nsB-Place
沙地nI-Place
vO
推行vO
灌草nwB-Tech
nrI-Tech
相结合nzI-Tech
pO
………………

新窗口打开| 下载CSV


②词向量:本研究使用大规模无标注语料训练得到的词向量,替换神经网络模型的初始词向量,使神经网络模型在初始阶段就能够应用词向量中已包含的丰富信息,以提高模型的性能。使用谷歌开源的词向量工具Word2Vec(①http://word2vec.googlecode.com/svn/trunk/.)训练词向量。

为比较未标注语料对Word2Vec训练的效果,将上述题录信息语料和实体知识库语料组合成两个未标注集合,模型选择CBOW,词向量的维度设为100维,上下文窗口大小为5,采样的阈值1e-3,开始的Learning Rate为0.025。

(2) 后处理阶段

将预测语料进行文本预处理与清洗,通过分词等将文本整理为已构建模型适用的格式,预测语料输入Bi-LSTM+CRF模型,经过模型输出识别结果,对识别结果进行获取和后处理。

三类实体内容的获取过程如下:

①已训练Bi-LSTM+CRF模型对测试数据进行识别,提取识别后的分类标签,并将相应的标签转化为相应的实体字符串,作为候选实体。

②根据候选实体在文本中的位置确定不同实体之间的关系。

Word2Vec词向量训练过程得到10 976个词的100维词向量,将获得的词向量传给双向的LSTM层,训练模型。其中dev_size表示验证/开发集占训练集的比例(本文中为0.25);Bi-LSTM单元数设为256;激活函数采用Tanh函数。模型参数如表8所示。

表8   Bi-LSTM神经网络模型实验参数

Table 8  Parameters of Bi-LSTM Model Experiment

参数设置
词向量100维,Word2Vec分布式向量
Bi-LSTM单元数Num_Units: 256
学习率Learning_Rate: 0.002
梯度裁剪Clip: 10
DropoutDropout_Rate: 0.5;L2_Rate: 0.01(加在全连接层权重上)
句子最大长度Sequence_Length(Preprocessing.py输出结果中有句子分布)
迭代次数Nb_Epoch: 200(可提前终止)
dev_size0.25

新窗口打开| 下载CSV


基于Bi-LSTM+CRF的命名实体识别模型训练过程算法如下。

1. 对每次循环有:

2. 对每次循环有:

3. ①Bi-LSTM+CRF模型前向传递:

4. 前—LSTM单元状态信息向前传递

5. 后—LSTM单元状态信息向前传递

6. ②CRF层前向后向传递

7. ③Bi-LSTM+CRF模型向后传递:

8. 前—LSTM单元状态信息向后传递

9. 后—LSTM单元状态信息向后传递

10. ④更新参数

11. 结束循环

12. 结束循环

本研究模型构建的思路主要是融合已有研究显示效果较好的策略,同时进一步提供质量更高的Word2Vec词向量,以及更加精准的训练语料。因此,模型构建待解决的关键问题是:探索质量更高的Word2Vec词向量,使用其替换模型随机初始的词向量;模型的各种个性化需求(实验数据与分类标签映射、网络的层数和单元数等);Bi-LSTM+CRF模型结构中的参数设置和激活函数的选择。

在方法上的改进:

1)本研究构建了一种基于Bi-LSTM+CRF的神经网络模型,包括如下步骤:使用Word2Vec获得初始词向量;将词向量输入传到双向LSTM神经网络对每个词的上下文信息进行建模;在Bi-LSTM神经网络的输出端,利用连续的条件随机场对句子进行标签解码,并标注句子中的实体。相较于传统的机器学习方法,此方案基于统计概率学,并能够利用词汇上下文依赖关系,应用场景更广泛。

2)优化Word2Vec初始词向量。初始词向量是神经网络模型的重要输入,而词向量的效果与语料的领域和规模密切相关。

5 结果及讨论

5.1 不同要素与组合的实验结果

对比使用不同词向量和训练语料要素所产生的实验结果,以研究命名实体抽取中不同要素对模型性能的影响,结果如表9所示。

表9   不同要素组合的实验结果

Table 9  Experiment Results of Different Combinations of Elements

序号输入特征P(%)R(%)F1(%)
TimePlaceTechTimePlaceTechTimePlaceTech
Baseline62.6621.6932.22
61.8561.8866.1030.3135.408.8940.6845.0415.68
w2v-170.2356.1962.43
79.7975.1263.8466.0152.1854.9672.2561.5859.07
w2v-270.9956.4162.86
79.1472.0567.2662.3253.1956.2169.7361.2061.24
w2v-2 +
MoreData
73.1059.9465.87
74.1675.8265.0467.0663.1053.7870.4368.8858.04
w2v-2 +MoreData+
dictionaries
74.3464.0468.81
78.6382.0266.0272.2065.7158.7575.2772.9762.17

(注:①基准方法(Baseline):随机初始词向量;②Word2Vec词向量-1(w2v-1):未标注文本集合1投入Word2Vec得到的词向量;③Word2Vec词向量-2(w2v-2):未标注文本集合2投入Word2Vec得到的词向量;选择其中较好的词向量结果,作为后续的改进的基准;④词向量+扩大训练语料(不同规模);⑤词向量+扩大训练语料+高质量词典。)

新窗口打开| 下载CSV


(1) 模型的训练损失变化

Bi-LSTM+CRF在模型训练过程中,5次实验中训练损失的变化如图3所示,呈逐步下降趋势,随着模型在开发集上的表现不再有提升,损失逐步趋于平稳,训练终止。实验1的训练损失整体明显大于后4次实验,因而一个与训练语料相关的初始词向量很重要。

图3

图3   模型训练损失的变化趋势

Fig.3   The Trend of Model Training Loss


(2) Word2Vec未标注训练语料的影响

相较于随机初始化词向量,未标注文本集合1训练得到的词向量获得较好的效果,P、R、F1分别提升7.57%、34.50%、30.21%。未标注文本集合2训练得到的词向量在未标注文本集合1得到词向量基础上P、R、F1又分别提高0.76%、0.22%、0.43%,两个文本集合都与抽取的领域内容高度相关,但集合2的体量更大。来斯惟[20]认为训练词向量首先需要选择一个与任务相匹配语料,本研究在其此基础上增加了相关语料的数量。实验证明,对于确定类型的语料,语料规模越大,词向量的性能越好。作为神经网络的关键输入信息,一个好的词向量很重要。

(3) 扩大训练语料的影响

对于表9中实验①、实验②、实验③中训练集和验证/开发集的文本语料,对实体标签识别得到实体数量为53 776个。在实验④中增加训练语料35 843个实体。通过4.2中对实体特征的分析和抽取,将获得的7 703个实体添加到训练语料,进行实验⑤。训练语料中实体情况如表10所示。

表10   训练语料与增加训练语料中的实体数量

Table 10  Entity Number of Different Training Corpus

语料实体数量时间实体数量地名实体数量生态治理技术名称数量
训练集39 7397 96517 59914 175
验证/开发集14 0372 4816 7574 799
增加的训练语料35 8436 96516 24012 638
增加实体词典7 7035476 693463

新窗口打开| 下载CSV


以每6 000个实体为一个节点,递增进行模型的训练,观察语料的增加对系统性能的影响。训练语料增加对准确率P和F1值的影响如图4所示。

图4

图4   训练语料增加对P和F1的影响

Fig.4   The Influence of Increasing Training Corpus on P and F1


从上述结果可知,相对于原始训练语料提供的53 776个实体而言,增加43 546个实体后,准确率P值提升3.35%,F1值提升5.95%。曲线趋势稳定上升,并未达到平滑,训练语料的数量增加依然还有进一步上升的空间。

5.2 与CRF方法的结果对比

为验证Bi-LSTM+CRF模型学习效果,同时采用CRF++(①http://crfpp.sourceforge.net.)工具包对上述语料进行训练和测试,结果如表11所示。

表11   Bi-LSTM+CRF结果与单独CRF结果对比

Table 11  The Results of Bi-LSTM+CRF and CRF

研究方法模型P(%)R(%)F1(%)
传统机器学习单独CRF方法64.9364.1764.55
深度学习Bi-LSTM+CRF74.3464.0468.81

新窗口打开| 下载CSV


本研究中使用的Bi-LSTM+CRF神经网络模型方法比单独使用CRF方法获得更好的P值和F1值,而R值相对稍弱,但差距不大。本研究优势和局限性如下:

(1) 优 势

①采用语义相关度较高、体量较大的未标注语料,投入Word2Vec训练,获得效果更好的词向量,在源头上保证了模型输入词向量的优质性。②较大量新增的训练语料。在使用新增语料进行训练后,F1值从62.86%提升至68.81%,P值从70.99%提升至74.34%,说明训练语料的增加对系统性能影响显著。

(2) 局限性

①未融合先验知识。只利用了部分实体词典,大量的资源和先验知识(如人工选取的特征)未被利用,将其与深度学习模型结合能极大推动深度学习的效果。②未使用句法信息。③本研究的结果一定程度上依赖于分词软件的效果。

6 结 语

6.1 本研究的主要工作和贡献

(1)设计并实现了基于Bi-LSTM+CRF神经网络模型抽取中文文献中时间、地名和生态治理技术的方法,并进行了实验。

(2)提出并验证了优化的词向量对改进模型的效果。相关领域语料训练的词向量,训练语料规模越大,词向量的性能越好。加入知识资源的模型训练语料,训练语料规模越大,命名实体识别模型性能越好。

6.2 未来的技术方向和应用前景

随着命名实体识别研究的不断推进,ELMo[21]和BERT[22]证明了从更深的结构(比如双向语言模型)获得上下文表示的有效和高效性。为减少因分词错误带来的影响,笔者已经开展基于字嵌入的命名实体抽取实验,并尝试使用BERT在专门领域命名实体识别上进行实验,希望通过融合海量的多源异构数据和已有的先验知识,更好地对数据和知识进行表示、抽取实体之间的关系等。

本研究所采用的方法抽取出文本中生态治理技术名称、生态治理技术的实施时间等内容,将其结构化存储后进行关联分析,有利于把握生态治理技术发展演化的脉络和特征,这将对生态治理技术领域的情报分析工作有重要意义。

作者贡献声明:

马建霞:提出研究思路,设计研究方案,论文修改和定稿;

袁慧:进行实验,撰写论文初稿;

蒋翔:完成部分语料标注、负责后期基于字嵌入的命名实体抽取实验。

利益冲突声明:

所有作者声明不存在利益冲突关系。

支撑数据:

支撑数据由作者自存储, E-mail: tanglin@dlut.edu.cn。

支撑数据由作者自存储,E-mail:majx@lzb.ac.cn。

[1]马建霞,袁慧,蒋翔. 634篇论文全文.rar. 脆弱生态治理领域634篇论文.

[2]马建霞,袁慧,蒋翔. 经过Bi-LSTM+CRF识别的语料.txt. 经过Bi-LSTM+CRF识别的语料.

[3]马建霞,袁慧,蒋翔. 生态治理技术相关命名实体抽取程序.rar. 生态治理技术相关命名实体抽取程序.

参考文献

甄霖, 王继军, 姜志德 , .

生态技术评价方法及全球生态治理技术研究

[J]. 生态学报, 2016,36(22):7152-7157.

[本文引用: 1]

( Zhen Lin, Wang Jijun, Jiang Zhide , et al.

The Methodology for Assessing Ecological Restoration Technologies and Evaluation of Global Ecosystem Rehabilitation Technologies

[J]. Acta Ecologica Sinica, 2016,36(22):7152-7157.)

[本文引用: 1]

国家发展和改革委员会. 全国主体功能区规划[M]. 北京: 人民出版社, 2015.

[本文引用: 1]

(National Development and Reform Commission. Planning of Major Function Regionalization[M]. Beijing: People’s Publishing House, 2015.)

[本文引用: 1]

Habibi M, Weber L, Neves M , et al.

Deep Learning with Word Embeddings Improves Biomedical Named Entity Recognition

[J]. Bioinformatics, 2017,33(14):37-48.

[本文引用: 1]

Wang X, Zhang Y, Ren X , et al.

Cross-Type Biomedical Named Entity Recognition with Deep Multi-Task Learning

[J]. Bioinformatics, 2018,35(10):1745-1752.

[本文引用: 1]

Yoon W, So C H, Lee J , et al.

CollaboNet: Collaboration of Deep Neural Networks for Biomedical Named Entity Recognition

[J]. BMC Bioinformatics, 2019, 20(10): Article No. 249.

[本文引用: 1]

Huang Z, Xu W, Yu K .

Bidirectional LSTM-CRF Models for Sequence Tagging

[OL]. arXiv Preprint, arXiv: 1508. 01991.

[本文引用: 1]

Strubell E, Verga P, Belanger D , et al.

Fast and Accurate Entity Recognition with Iterated Dilated Convolutions

[OL]. arXiv Preprint, arXiv:1702.02098.

[本文引用: 1]

徐飞, 叶文豪, 宋英华 .

基于BiLSTM-CRF模型的食品安全事件词性自动标注研究

[J]. 情报学报, 2018,37(12):1204-1211.

[本文引用: 1]

( Xu Fei, Ye Wenhao, Song Yinghua .

Part-of-Speech Automated Annotation of Food Safety Events Based on BiLSTM-CRF

[J]. Journal of the China Society for Scientific and Technical Information, 2018,37(12):1204-1211.)

[本文引用: 1]

Bhasuran B, Natarajan J .

Automatic Extraction of Gene-disease Associations from Literature Using Joint Ensemble Learning

[J]. PLoS One, 2018,13(7):e0200699.

[本文引用: 1]

Wiese G, Weissenborn D, Neves M .

Neural Domain Adaptation for Biomedical Question Answering

[OL]. arXiv Preprint, arXiv:1706.03610.

[本文引用: 1]

Le Cun Y, Bengio Y, Hinton G .

Deep Learning

[J]. Nature, 2015,521(7553):436-444.

[本文引用: 1]

Wang X, Zhang Y, Ren X , et al.

Cross-Type Biomedical Named Entity Recognition with Deep Multi-Task Learning

[J]. Bioinformatics, 2018,35(10):1745-1752.

[本文引用: 1]

Hu K, Luo Q, Qi K , et al.

Understanding the Topic Evolution of Scientific Literatures like an Evolving City: Using Google Word2Vec Model and Spatial Autocorrelation Analysis

[J]. Information Processing & Management, 2019,56(4):1185-1203.

[本文引用: 1]

Wang C, Ma X, Chen J , et al.

Information Extraction and Knowledge Graph Construction from Geoscience Literature

[J]. Computers and Geosciences, 2018,112:112-120.

[本文引用: 1]

Peters S E, McClennen M .

The Paleobiology Database Application Programming Interface

[J]. Paleobiology, 2016,42(1):1-7.

[本文引用: 1]

Peters S E, Zhang C, Livny M , et al.

A Machine Reading System for Assembling Synthetic Paleontological Databases

[J]. PLoS One, 2014,9(12):e113523.

[本文引用: 1]

Holden E J, Liu W, Horrocks T , et al.

GeoDocA - Fast Analysis of Geological Content in Mineral Exploration Reports: A Text Mining Approach

[J].Ore Geology Reviews, 2019, 111(8):Article 102919.

[本文引用: 1]

Qiu Q, Xie Z, Wu L , et al.

Geoscience Keyphrase Extraction Algorithm Using Enhanced Word Embedding

[J]. Expert Systems with Applications, 2019,125(1):157-169.

[本文引用: 1]

Mikolov T, Sutskever I, Chen K , et al.

Distributed Representations of Words and Phrases and Their Compositionality

[C]// Proceedings of the 26th International Conference on Neural Information Processing Systems. 2013,26:3111-3119.

[本文引用: 1]

来斯惟 .

基于神经网络的词和文档语义向量表示方法研究

[D]. 北京: 中国科学院自动化研究所, 2016.

[本文引用: 1]

( Lai Siwei .

Word and Document Embeddings based on Neural Network Approaches[D]. Beijing: Institute of Automation,

Chinese Academy of Sciences, 2016.)

[本文引用: 1]

Peters M E, Neumann M, Iyyer M , et al.

Deep Contextualized Word Representations

[OL]. rXiv Preprint, arXiv: 1802.05365.

[本文引用: 1]

Devlin J, Chang M W, Lee K , et al.

Bert: Pre-training of Deep Bidirectional Transformers for Language Understanding

[OL]. arXiv Preprint, arXiv: 1810.04805.

[本文引用: 1]

/

版权所有 © 2015 《数据分析与知识发现》编辑部
地址:北京市海淀区中关村北四环西路33号 邮编:100190
电话/传真:(010)82626611-6626,82624938
E-mail:jishu@mail.las.ac.cn