Advanced Search

数据分析与知识发现, 2019, 3(10): 20-28 doi: 10.11925/infotech.2096-3467.2018.1199

专题

基于深度学习的情报分析方法识别研究 * ——以安全情报领域为例

肖连杰,,1,2, 孟涛1,2, 王伟1,2, 吴志祥3

1南京大学信息管理学院 南京 210023

2江苏省数据工程与知识服务重点实验室 南京 210023

3南京工业大学经济管理学院 南京 211800

Entity Recognition of Intelligence Method Based on Deep Learning: Taking Area of Security Intelligence for Example

Xiao Lianjie,,1,2, Meng Tao1,2, Wang Wei1,2, Wu Zhixiang3

1School of Information Management, Nanjing University, Nanjing 210023, China

2Jiangsu Key Laboratory of Data Engineering and Knowledge Service, Nanjing 210023, China

3School of Economics and Management, Nanjing University of Technology, Nanjing 211800, China

通讯作者: 肖连杰, ORCID: 0000-0002-0438-6903, E-mail:1061939301@qq.com

收稿日期: 2018-10-29   修回日期: 2019-02-20   网络出版日期: 2019-10-25

基金资助: *本文系国家社会科学基金重大项目“情报学学科建设与情报工作未来发展路径研究”.  17ZDA291
南京大学研究生跨学科科研创新项目“大数据环境下情报学理论方法知识库构建研究”.  2018ZDW03
国家自然科学基金项目“基于情报视角的应急决策推演的智库协同模式研究”的研究成果之一.  71774078

Received: 2018-10-29   Revised: 2019-02-20   Online: 2019-10-25

摘要

【目的】对安全情报领域情报分析方法进行识别、归纳与总结, 为构建安全情报领域情报分析方法体系提供参考。【方法】以安全情报领域文献为数据来源, 对文献全文本进行汉字级的语料标注, 构建安全情报领域情报分析方法语料库, 在此基础上利用深度学习模型对情报分析方法实体进行识别。【结果】在安全情报领域情报分析方法语料库上进行实体识别对比实验, BiLSTM模型的情报分析方法实体识别准确率81.71%, 召回率77.26%,F1值79.36%; BiLSTM-CRF模型的情报分析方法实体识别准确率84.71%, 召回率79.25%, F1值81.83%。【局限】未考虑句子中包含情报分析方法的指代名词, 可能会对统计结果产生一定的影响。【结论】利用深度学习方法对安全情报领域情报分析方法实体进行识别是可行且有效的。

关键词: 安全情报 ; 情报分析方法 ; 实体识别 ; 双向长短时记忆网络 ; 条件随机场

Abstract

[Objective] This paper provides directions for a new scholarly system, aiming to identify and summarize intelligence analysis methods for security intelligence. [Methods] Firstly, we retrieved full-text security intelligence literature, and tagged them using Character-level method. Then, we constructed the corpus for the extraction of intelligence analysis methods. Finally, we compared the performance of two deep learning models with the experimental data. [Results] For the BiLSTM model, the precision, recall and F1 values were 81.71%, 77.26%, and 79.36% respectively. For the BiLSTM-CRF model, the precision, recall and F1 values were 84.71%, 79.25%, and 81.83%. [Limitations] The pronouns that represent intelligence analysis methods are not taken into consideration. [Conclusions] We could use deep learning model to extract intelligence analysis methods for security intelligence.

Keywords: Security Intelligence ; Intelligence Analysis Methods ; Entity Recognition ; Bi-LSTM

PDF (1325KB) 元数据 多维度评价 相关文章 导出 EndNote| Ris| Bibtex  收藏本文

本文引用格式

肖连杰, 孟涛, 王伟, 吴志祥. 基于深度学习的情报分析方法识别研究 * ——以安全情报领域为例 . 数据分析与知识发现[J], 2019, 3(10): 20-28 doi:10.11925/infotech.2096-3467.2018.1199

Xiao Lianjie. Entity Recognition of Intelligence Method Based on Deep Learning: Taking Area of Security Intelligence for Example. Data Analysis and Knowledge Discovery[J], 2019, 3(10): 20-28 doi:10.11925/infotech.2096-3467.2018.1199

1 引 言

情报分析方法是情报工作者用于解决情报问题的思路、途径、方式和程序[1,2,3]。从文献全文中自动识别情报分析方法对明确安全情报领域情报分析方法的构成、构建安全情报领域情报分析方法体系等后续任务有着重要的参考价值。随着科技文献数量的快速增长, 情报分析方法的多样性不断丰富, 情报分析方法的种类增多且表述存在较大差异, 这为情报分析方法的自动识别带来了挑战。

安全情报作为情报学与安全学交叉的产物, 其研究方法构成具有一定的特点。安全情报领域的文献全文中蕴含丰富的情报分析方法。本文将安全情报领域情报分析方法视作一种命名实体, 将情报分析方法实体识别问题转化为序列标注问题。传统的序列标注研究中, 主要运用条件随机场、最大熵模型、支持向量机等方法。这一类方法的共同特点是依赖于人工构建的实体内外部特征。此类方法虽然取得了较好的实体识别效果, 但其识别效果却很大程度决定于人工特征选取的质量且可移植性较差。近年来在文本深度挖掘领域, 循环神经网络在包括词性标注、汉语分词、组块分析、命名实体识别和语义角色标注等任务中展现出明显的性能优势[4], 其无需领域专家知识, 可以自动地从分布式词向量中学习特征, 因此逐渐成为命名实体识别的主流 方法。

本文在对安全情报领域文献全文进行分析的基础上, 构建一种以字向量为输入的BiLSTM-CRF深度学习模型, 探究其在文献全文中对情报分析方法实体识别的可行性与识别有效性, 并最终实现情报分析方法实体的自动识别。

需要界定的是, 由于在情报研究中涉及到的方法都属于情报分析方法研究范畴[5]。因此, 本文关注的是情报分析方法在文献全文中的提及, 即对全文中出现某种情报分析方法实体进行识别。并在此基础上对识别出的情报分析方法进行统计分析, 归纳总结其一般特点。

2 相关研究

首届“情报学与情报工作发展论坛(2017)”发布《情报学与情报工作发展南京共识》(本文简称《南京共识》)。《南京共识》中强调在总体国家安全观时代背景下, 应当加强情报学理论、技术与方法的研究, 从而提高情报学在学术界的影响力和学术地位[6]。由此可见新时代背景下, 情报分析方法将一直是情报工作者关注的重点。近年来, 循环神经网络在序列标注任务中不断取得新的突破, 其应用领域不断扩展。

2.1 传统命名实体识别方法研究

传统的命名实体识别研究主要采用基于语言规则和基于统计的方法。

基于语言规则的方法是预先定义若干语言规则模板, 然后在语料中匹配查找, 进而识别术语。例如, 谷俊等采用ICTCLAS词典对文本分词, 再利用串频最大匹配算法从中文专利文本中识别候选术语, 准确率达到86.73%[7]; 牟冬梅等基于领域词典, 通过构建实体抽取规则提取文本中疾病和基因实体[8]。可见基于语言规则的方法虽然取得了一定的识别效果, 但是其操作复杂且难以移植到其他领域。由于中文语言表述及语言组织形式多样, 这要求研究者必须具备一定的语言学知识。

采用基于统计的方法进行实体识别也取得了一定的成果。利用条件随机场模型进行实体识别的成果较多, 代表性的研究包括: 陆伟等选取词汇、词法和词形等一系列特征, 采用条件随机场模型对产品命名实体进行识别[9]; 何宇等利用条件随机场模型, 选取词、词长、词性、依存关系、词典位置、停用词等构建特征模板, 抽取新能源汽车领域的中文术语[10]; 陈锋等提出一种新的命名实体识别方法, 利用语义泛化思想, 选取词性、知网义原等领域知识对文献中的理论进行识别[11]。此外, 相关研究还将命名实体识别问题转化为分类问题, 包括: Ju等将生物医学命名实体任务转化为分类任务, 利用支持向量机算法进行识别的准确率为84.24%[12]; Zhu等提出支持向量机与条件随机场融合的模型对生物命名实体进行识别, 该模型充分利用了支持向量机作为二分类器的分类性能和条件随机场对于数据的标记能力[13]。除上述研究之外, 最大熵方法也被应用于命名实体的识别, 代表性的研究有中文临床医学文本实体抽取、中文客户评论菜名识别、数据库中命名实体识别。可见, 采用基于统计的方法进行实体识别较为复杂, 需要领域专家参与语料特征模板构建。因此, 构建的特征模 板的质量在很大程度上决定了领域命名实体的识别 效果。

2.2 循环神经网络研究

近年来, 将循环神经网络应用于招聘[14]、医疗[15]、渔业[16]、化学药物[17]、中文专有名词[18,19,20,21]等命名实体识别的研究取得了丰硕成果。循环神经网络能够通过基于上下文的词向量或基于字的词向量表达文本特征。基于上下文的词向量包含丰富的语义信息, 何红磊采用词向量、基于词向量的聚类和布朗聚类作为分类器的输入, 对生物医学命名实体进行识别[22]。Demir等提出一种半监督方法用以学习单词的连续向量表示, 对土耳其语和捷克语中的命名实体进行识别, 其识别效果较已有最优性能分别提升2.26%、1.53%[23]

由于中文字和词在不同句子中有不同的语义信息, 相同的字在不同的词语中语义也不同, 加上领域词典并不完善, 造成部分未登录词无法识别。为了解决该问题, 以字向量为输入的循环神经网络命名实体方法应运而生。李丽双等构建结合字符级向量和语义特征信息词向量的BiLSTM-CRF深层网络模型, 在两种生物医学语料上测试, F1值分别达89.09%和74.40%[24]。Pham等使用预先训练好的字嵌入作为输入, 利用BiLSTM-CNN-CRF组合模型抽取越南文命名实体, 在标准数据集上F1值为88.59%[25]。孙娟娟等构建Character+LSTM+CRF深度模型, 利用字向量特征为输入, 对渔业领域实体进行识别并取得了较好的效果[16]

综上, 为了对安全情报领域内的情报分析方法实体进行识别, 同时避免现有人工特征选取、分词方法对模型的影响, 提出一种以字向量为输入的深度学习模型。该深度学习模型包含两个模块, 即BiLSTM模块和CRF模块。BiLSTM模块能够充分捕捉上下文信息, 有效改善长距离依赖; CRF模块能够较好地解决BiLSTM在处理输出标签时无法处理有强依赖关系的数据的问题。

本文的贡献有两点: 将BiLSTM-CRF模型应用到安全情报领域情报分析方法实体识别, 验证了该深度学习模型在情报分析方法实体识别中的可行性与有效性; 明确了安全情报领域情报分析方法的基本构成, 总结了安全情报领域的情报分析方法特点, 为后续研究任务提供一定的参考。

3 安全情报领域情报分析方法实体识别模型

将情报分析方法实体识别任务视作序列标注任务, 即分别利用BiLSTM模型和BiLSTM-CRF模型进行情报分析方法实体的识别实验。

3.1 基于字的向量

利用语言模型将文本表示为可以被计算机识别的输入是进行命名实体识别的重要的一步。传统的词嵌入模型中, 应用较为广泛的有Word2Vec模型、Glove模型。此类词嵌入模型能够将文本表示为词向量, 但此类模型未能有效解决多义词不同义项的问题。研究表明, 基于预训练语言模型能够较好地解决上述问题, 应用较为广泛的预训练语言模型有GPT、ELMo等。在充分吸收多种语言模型优势基础之上, 谷歌AI团队于2018年10月推出BERT预训练语言模型。该模型采用基于Transformer的多层双向编码器进行文本特征抽取及训练, 在机器阅读理解测试SQuAD1.1中的11种NLP测试中创造了当时的最佳成绩。图1是基于BERT的文本向量化表示的示意图。

图1

图1   基于BERT的文本向量化表示的示意图


可以看出, 作为预训练输入的向量是由三种不同向量通过加和得到, 三种向量分别为字向量、文本向量和位置向量。BERT通过查找字向量表, 将文本中的字转化为固定维度的字向量。文本向量由 BERT 在训练过程中自动学习获得, 用于表示文本的全局语义信息。而位置向量则可以区分文本中不同位置的字的语义信息。

3.2 BiLSTM-CRF模型概述

(1) BiLSTM模型

LSTM层的输入是一个t维的向量$x(1),x(2),\cdots $$x(t)$。LSTM层具有对信息的记忆功能, 能够动态地记录序列数据信息, 但因此也带来了梯度消失问题。针对该问题, 文献[26]引入记忆单元和门限机制, 解决了长距离记忆问题[27]。本文采用文献[28]提出的改进的门限机制。t时刻, 输Xt经过LSTM层输出ht, 其转换公式如公式(1)-公式(5)所示。

${{i}_{t}}=\sigma ({{W}_{i}}[{{X}_{t}},{{h}_{t-1}},{{C}_{t-1}}]+{{b}_{i}})$
${{f}_{t}}=\sigma ({{W}_{f}}[{{X}_{t}},{{h}_{t-1}},{{C}_{t-1}}]+{{b}_{f}})$
${{C}_{t}}={{f}_{t}}\odot {{C}_{t-1}}+{{i}_{t}}\odot \tanh ({{W}_{c}}[{{X}_{t}},{{h}_{t-1}}]+{{b}_{c}})$
${{o}_{t}}=\sigma ({{W}_{o}}[{{X}_{t}},{{h}_{t-1}},{{C}_{t-1}}]+{{b}_{o}})$
${{h}_{t}}={{o}_{t}}\tanh \odot ({{C}_{t}})$

其中, ${{W}_{i}}$为连接两层的权重矩阵,b为偏置向量,c表示记忆单元的状态, Sigma为Sigmoid激活函数, i,$f$和$o$分别为输入门、忘记门和输出门向量。$\odot $为逐元素乘法。

双向长短时记忆网络(Bi-directional Long Short- Term Memory Model, BiLSTM)是一种改进的循环神经网络(Recurrent Neural Network, RNN) [29]。相比于LSTM只能利用上文信息, BiLSTM能够同时利用文本的上下文信息, 对于文本特征信息的充分表达有助于命名实体的有效识别。BiLSTM模型的结构如图2所示, Xt表示在t时刻文献全文本数据经过Word Embedding后的向量化表示, 对前向LSTM向量与后向LSTM向量进行拼接, 得到最终的BiLSTM向量, 即${{Y}_{t}}$。

图2

图2   具有双向LSTM单元的RNN


(2) CRF模型

条件随机场(Conditional Random Fields, CRF)是一种判别式无向图模型[30], 在词性标注、命名实体识别等序列标注任务中具有良好的性能。CRF能够考虑相邻标签的关系得到一个全局最优的预测序列。将链式CRF模型融入 BiLSTM模型, 设输入的观察序列为x, 输出的预测序列为y, CRF模型如公式(6)所示。

$\begin{matrix} & P(y\mathbf{|}x)= \\ & \frac{1}{Z}(\sum\nolimits_{j}{\sum\nolimits_{i=1}^{n-1}{{{\lambda }_{j}}{{t}_{j}}({{y}_{i+1}},{{y}_{i}},x,i)+\sum\nolimits_{k}{\sum\nolimits_{i=1}^{n}{{{\mu }_{k}}{{s}_{k}}({{y}_{i}},x,i)}}}}) \\ \end{matrix}$

其中, ${{t}_{j}}({{y}_{i+1}},{{y}_{i}},x,i)$为相邻输出标签之间的转移特征函数, ${{s}_{k}}({{y}_{i}},x,i)$为当前观测状态下的转移特征函数,Z为归一化常数。

(3) BiLSTM-CRF模型

将句子中的字向量化后输入BiLSTM-CRF模型, 输出最优的序列标签。BiLSTM-CRF模型框架示意图如图3所示。

图3

图3   BiLSTM-CRF模型框架


本研究的语料标注格式采用Inside-Outside-Begin (IOB)标签, 其中B-Target代表实体的首字, I-Target代表实体的非首字, O-Target代表该字不属于实体。标注使用的例句如表1所示。编号1的句子进行标注的结果如下。

表1   标注使用的例句(部分)

编号例句
1采用内容分析法, 从研究热点和研究特点两方面对大数据环境下的竞争情报研究现状进行总结和分析。
2为了解研究方法应用与研究领域的耦合情况, 构建基于研究方法应用的研究领域关键词的共现矩阵, 同时构建研究方法应用与研究领域的耦合矩阵, 并利用SPSS 19.0进行聚类分析和对应分析;
3结构方程模型是一种建立、估计和检验因果关系模型的方法。

新窗口打开| 下载CSV


采/O用/O内/B-METH容/I-METH分/I-METH/I- METH析/I-METH法/I-METH, /O从/O研/O究/O热/O点/O和/O研/O究/O特/O点/O两/O方/O面/O对/O大/O数/O据/O环/O境/O下/O的/O竞/O争/O情/O报/O研/O究/O现/O状/O进/O行/O总/O结/O和/O分/O析/O。/O标注结果中标注项依次为字、实体边界标记。标注项之间用“/”间隔, 各标注结果以空格间隔。例句1中可以观察到的情报分析方法实体为“内容分 析法”。

4 实验设计与结果分析

4.1 实验数据及评价标准

本文以CNKI数据库中与“安全情报”主题相关的中文文献为数据来源。在CNKI数据库中按照主题词检索, 主题词为: “安全情报”OR“军事情报”OR“公安情报”OR”国安情报”OR”外交情报”, 检索时间为 2018年8月9日。共检索出相关文献868篇, 经过去重、剔除不相关文献后最终得到743篇。

采用Lighten PDF Converter OCR 6.2.0软件(①https://insmac.org/.)将PDF格式文献转化为TXT格式。剔除所有文献的题录信息和参考文献, 只保留摘要和正文。对数据进行清洗, 包括剔除英文字母、乱码句段、特殊字符, 统一标点符号等。清洗后得到的数据集共包含71 821条句子, 4 180 142个字符, 对其进行字符级别的语料标注。

为减少语料标注工作量, 本文采用自定义词典对数据集进行自动BIO标注、人工方式对标注语料进行校对的方式。首先, 收集文献[2, 31]中有关情报分析方法的502个关键词构建本研究的标注词典。其次, 设计Python 程序, 利用标注词典对数据集进行自动标注。最后, 以人工方式对标注语料进行审核, 从而构建安全情报领域情报分析方法语料库(以下简称实验语料)。按照该语料标注方法, 共标注4 890条包含情报分析方法的句子。

本文实验语料及数据处理Python程序存储于Google云端硬盘, 实验采用计算平台为Google Colaboratory。Google Colaboratory提供了免费的云端 Jupyter Notebook环境, 支持Python 3运行, 并提供GPU便于硬件加速。实验平台的参数为Tesla K80, NVIDA驱动版本418.67, CUDA版本10.10, 显存 11.00GB。字符向量化由Google BERT(②https://github.com/google-research/bert.)训练得到, 通过多轮测试, 将语言模型及序列标注模型的参数设置为表2所示。编写Python程序调用Kashgari(③https://github.com/BrikerMan/Kashgari-doc-zh.)开源框架中的BiLSTM及BiLSTM_CRF模型进行实验。

表2   深度学习模型参数

参数名数值参数名数值
embedding_size100learning_rate0.001
神经元数量128batch_size60
隐藏层32epoch200
layer_dropout0.4activationtanh

新窗口打开| 下载CSV


定义三种指标评价实验结果, 即准确率P、召回率RF1值, 如公式(7)-公式(9)所示。其中PRF1三种指标的值均介于0到1之间, 值越大表明识别的准确率、召回率和综合性能越高。

p=$\frac{识别出正确的实体个数}{识别出的实体个数}\times{100}\%$
R=$\frac{识别出正确的实体个数}{所有标注的实体个数}\times{100}\%$
${{F}_{1}}\text{=}\frac{2PR}{P+R}$

4.2 实验结果分析

本文在安全情报领域情报分析方法语料库基础上, 利用BiSTM和BiSTM-CRF 两种深度学习模型进行实验。将实验语料按照4:1的比例划分出训练集和测试集。采用5次交叉验证的方法, 每次实验随机选择其中4份进行训练, 余下1份进行测试, 对5次实验的结果求平均值, 结果如表3所示。

表3   情报分析方法实体识别实验结果(%)

深度模型评价指标
准确率P召回率RF1
BiLSTM80.8180.6180.71
80.1769.2874.33
83.8383.1283.47
80.8979.7580.31
81.9476.8979.34
均值81.7177.2679.36
BiLSTM-CRF85.9778.6982.17
83.6683.4383.55
85.3983.8384.60
80.6275.4877.97
87.9274.8280.84
均值84.7179.2581.83

新窗口打开| 下载CSV


表3可以看出: 两种深度模型得益于双向长短时记忆网络拥有两个相反方向的并行层特征, 能够同时考虑上下文信息。本研究提出以字向量为输入的深度学习模型在安全情报领域情报分析方法实体识别任务上有较好的效果。相比BiLSTM模型, BiLSTM-CRF模型的性能整体上更优, 准确率提高3.00%, 召回率提高1.99%, F1值提高2.47%。这在一定程度上说明集成了链式CRF模型后, 能够充分利用相邻标签之间的关系特征, 从而提高整个序列化标注的性能。例如句子“应以信息共享与协作、[关联分析]、分类与聚类、文本挖掘、时空犯罪模式挖掘、犯罪网络分析为基础知识框架, 以多样化实战型教学素材构建新型教材。”BiLSTM-CRF精准识别出“关联分析”并区分出“分类”、“聚类”两个实体, 但没有识别出“文本挖掘”、“时空犯罪模式挖掘”。

总之, 在不借助于任何人工特征, 仅以字向量为模型输入的情况下, 本文构建的BiLSTM-CRF模型的性能能够满足未来实际应用的需求。同时, 本文对于其他类型的序列标注任务也有一定的参考价值。

4.3 安全情报领域情报分析方法构成

情报分析方法实体识别实验验证了BiLSTM-CRF模型对情报分析方法实体识别的可行性与有效性。对BiLSTM-CRF模型识别出的安全情报领域情报分析方法进行统计分析, 合并情报分析方法同义词, 例如将“人工神经网络”、“深层神经网络”、“深度神经网络”、“深度学习”等统一合并为“深度神经网络”; 将“时间模式分析”、“时间序列分析”、“时间序列预测”、“时序分析法”等统一合并为“时间序列分析法”。合并后得到提及频次大于等于22的情报分析方法, 如表4所示。可以看出, 在安全情报领域文献中, 提及频率排名前5的情报分析方法为“社会调查法”、“分类”、“综合评价法”、“归纳法”以及“聚类分析法”。

表4   实验识别出的情报分析方法(部分)

方法名称提及
频次
方法名称提及
频次
社会调查法(实地调查、专家咨询法、抽样调查、问卷调查)788时间序列分析法164
分类(主题分类、文本分类)623深度神经网络153
综合评价法338定标比超法149
归纳法331竞争性假设分析148
聚类分析法305结构化分析法126
仿真301演绎法125
数学方法(数学模型、统计分析法)298社会网络分析法122
数据挖掘284回归分析法101
比较分析法284头脑风暴法84
案例分析法282系统分析法83
相关性分析法282综述71
内容分析法281情景分析法58
可视化方法257逻辑方法57
文献研究法(文献调研、计量研究)216共词分析54
推理(类比推理、知识推理)215主成分分析法47
检索(情报检索、信息检索)182哲学方法35
引文分析法(专利引文分析、共被引分析)167价值链分析22

新窗口打开| 下载CSV


安全情报领域的情报分析方法继承了情报学一般方法所具备的特征, 例如来自情报学本学科的研究方法有“文献研究法”、“引文分析法”。与此同时, 随着大数据时代的到来, 越来越多的数据分析技术被引入安全情报领域, 例如“聚类分析法”、“数据挖掘”、“可视化分析法”、“深度神经网络”等的提及频次都在153次及以上。从定性定量的角度分析, 按照文献[31]对定量方法和定性方法的划分, 表4中定性分析方法的提及频次占比40.52%, 定量方法的提及频次占比59.48%, 这在一定程度上表明安全情报领域, 定量方法更多地被使用或被展开讨论。文献[32]将图书情报领域研究方法划分为4大类, 分别为应用方法、理论方法、计算机信息技术方法、其他类方法。按照此划分, 表4中提及最多的安全情报分析方法是应用方法, 提及频次占比为35.92%, 其次是计算机信息技术方法, 提及频次占比32.91%, 与应用方法所占比例较为接近。此外, 理论方法及其他方法提及频次占比分别为26.43%、4.74%。

5 结 语

本文通过设计对比实验, 验证了利用深度学习模型对安全情报领域情报分析方法实体识别的可行性与有效性。明确了安全情报领域情报分析方法的构成, 归纳情报分析方法的特点。本文的主要工作为:

(1) 构建一种以字向量为输入的深度学习模型, 实验表明BiLSTM-CRF模型的准确率、召回率、F1值分别达到84.71%、79.25%、81.83%。

(2) 安全情报领域的情报分析方法提及频率排名前5的情报分析方法为“社会调查法”、“分类”、“综合评价法”、“归纳法”和“聚类分析法”。按照研究方法的类别划分, 4种类别研究方法提及排名为应用方法、计算机信息技术方法、理论方法、其他方法。

通过本文的研究, 可以了解安全情报领域情报分析方法的构成, 为后续构建安全情报领域情报分析方法体系提供一定的参考。本研究的不足在于未将句子中包含情报分析方法指代名词考虑在内, 可能会对统计结果产生一定的影响。未来将重点改进语料标注方法、尝试新的深度学习序列标注模型, 以期提高序列标注的效果。

作者贡献声明

肖连杰: 提出研究思路, 设计实验, 起草并修订论文;

王伟: 采集、清洗数据, 语料标注校对;

孟涛: 语料标注校对, 辅助实体抽取实验;

吴志祥: 提供论文修改建议。

利益冲突声明

所有作者声明不存在利益冲突关系。

支撑数据

支撑数据由作者自存储, E-mail: 1061939301@qq.com。

[1] 肖连杰. train.txt. 训练集.

[2] 肖连杰. label.txt. 标签集.

[3] 肖连杰. parameter.txt. 参数配置表.

[4] 肖连杰. result.txt. 情报分析方法词典.

[5] 肖连杰. 语料标注指南. doc. 语料标注指南.

[6] 肖连杰. pre_process.py. 数据预处理程序.

[7] 肖连杰. deep_learning.py. 深度学习训练模型.

参考文献

高伟, 薛梦瑶, 于成成.

面向大数据的情报分析方法和技术体系研究

[J/OL]. 情报理论与实践. [ 2019- 10- 14]. .

URL     [本文引用: 1]

( Gao Wei, Xue Mengyao, Yu Chengcheng.

Big Data-Oriented System of Intelligence Analysis Methods and Technologies

[J/OL]. Information Studies: Theory & Application. [ 2019- 10- 14].

URL     [本文引用: 1]

肖连杰, 成洁, 蒋勋.

大数据环境下国内情报分析研究方法研究

[J/OL]. 情报理论与实践. [ 2019- 10- 14]. .

URL     [本文引用: 1]

( Xiao Lianjie, Cheng Jie, Jiang Xun.

Research on Intelligence Analysis Methods in the Era of Big Data in China

[J/OL]. 情报理论与实践. [ 2019- 10- 14]. .

URL     [本文引用: 1]

王强, 陈安琪 .

情报方法库研究

[J]. 情报工程, 2015,1(1):95-102.

[本文引用: 1]

( Wang Qiang, Chen Anqi .

The Study on the Intelligence Method Base

[J]. Technology Intelligence Engineering, 2015,1(1):95-102.)

[本文引用: 1]

朱丹浩, 杨蕾, 王东波 .

基于深度学习的中文机构名识别研究——一种汉字级别的循环神经网络方法

[J]. 数据分析与知识发现, 2017,1(12):36-43.

[本文引用: 1]

( Zhu Danhao, Yang Lei, Wang Dongbo .

Recognizing Chinese Organization Names Based on Deep Learning: A Recurrent Network Model

[J]. Data Analysis and Knowledge Discovery, 2017,1(12):36-43.)

[本文引用: 1]

化柏林 .

针对中文学术文献的情报方法术语抽取

[J]. 现代图书情报技术, 2013(6):68-75.

[本文引用: 1]

( Hua Bolin .

Extracting Information Method Term from Chinese Academic Literature

[J]. New Technology of Library and Information Service, 2013(6):68-75.)

[本文引用: 1]

邓三鸿, 郭骅 .

情报学与情报工作发展论坛(2017) 隆重召开并凝聚形成《南京共识》

[J]. 图书情报知识, 2017(6):125-127.

[本文引用: 1]

( Deng Sanhong, Guo Hua .

Intelligence Study and Intelligence Work Development Forum(2017)

[J]. Documentation, Information and Knowledge, 2017(6):125-127.)

[本文引用: 1]

谷俊, 王昊 .

基于领域中文文本的术语抽取方法研究

[J]. 现代图书情报技术, 2011(4):29-34.

[本文引用: 1]

( Gu Jun, Wang Hao .

Study on Term Extraction on the Basis of Chinese Domain Texts

[J]. New Technology of Library and Information Service, 2011(4):29-34.)

[本文引用: 1]

牟冬梅, 金姗, 琚沅红 .

基于文献数据的疾病与基因关联关系研究

[J]. 数据分析与知识发现, 2018,2(8):98-106.

[本文引用: 1]

( Mu Dongmei, Jin Shan, Ju Yuanhong .

Finding Association Between Diseases and Genes from Literature Abstracts

[J]. Data Analysis and Knowledge Discovery, 2018,2(8):98-106.)

[本文引用: 1]

陆伟, 鞠源, 张晓娟 , .

产品命名实体特征选择与识别研究

[J]. 图书情报知识, 2012(3):4-12.

[本文引用: 1]

( Lu Wei, Ju Yuan, Zhang Xiaojuan .

Research on Product Named Entity Feature Selection and Recognition

[J]. Documentation, Information and Knowledge, 2012(3):4-12.)

[本文引用: 1]

何宇, 吕学强, 徐丽萍 .

新能源汽车领域中文术语抽取方法

[J]. 现代图书情报技术, 2015(10):88-94.

[本文引用: 1]

( He Yu, Lv Xueqiang, Xu Liping .

A Chinese Term Extraction System in New Energy Vehicles Domain

[J]. New Technology of Library and Information Service, 2015(10):88-94.)

[本文引用: 1]

陈锋, 翟羽佳, 王芳 .

基于条件随机场的学术期刊中理论的自动识别方法

[J]. 图书情报工作, 2016,60(2):122-128.

DOI:10.13266/j.issn.0252-3116.2016.02.019      URL     [本文引用: 1]

进行实验。[结果/结论]实验表明,识别准确率最高达到95.38%,但召回率较低;训练语料规模对性能影响较大,不同程度的语义泛化方法对准确率和召回率有复杂影响。如何选择语义特征、语义标注和语义消歧是需要解决的新问题。

( Chen Feng, Zhai Yujia, Wang Fang .

Automatic Theory Recognition in Academic Journals Based on CRF

[J]. Library and Information Service, 2016,60(2):122-128.)

DOI:10.13266/j.issn.0252-3116.2016.02.019      URL     [本文引用: 1]

进行实验。[结果/结论]实验表明,识别准确率最高达到95.38%,但召回率较低;训练语料规模对性能影响较大,不同程度的语义泛化方法对准确率和召回率有复杂影响。如何选择语义特征、语义标注和语义消歧是需要解决的新问题。

Ju Z, Wang J, Zhu F .

Named Entity Recognition from Biomedical Text Using SVM

[C]//Proceedings of the 5th International Conference on Bioinformatics and Biomedical Engineering, Wuhan, China. IEEE, 2011: 1-4.

[本文引用: 1]

Zhu F, Shen B .

Combined SVM-CRFs for Biological Named Entity Recognition with Maximal Bidirectional Squeezing

[J]. PLoS One, 2012,7(6):1-9.

[本文引用: 1]

王东波, 胡昊天, 周鑫 , .

基于深度学习的数据科学招聘实体自动抽取及分析研究

[J]. 图书情报工作, 2018,62(13):64-73.

[本文引用: 1]

( Wang Dongbo, Hu Haotian, Zhou Xin , et al.

Research of Automatic Extraction of Entities of Data Science Recruitment and Analysis Based on Deep Learning

[J]. Library and Information Service, 2018,62(13):64-73.)

[本文引用: 1]

张帆, 王敏 .

基于深度学习的医疗命名实体识别

[J]. 计算技术与自动化, 2017,36(1):123-127.

[本文引用: 1]

( Zhang Fan, Wang Min .

Medical Text Entities Recognition Method Base on Deep Learning

[J]. Computing Technology and Automation, 2017,36(1):123-127.)

[本文引用: 1]

孙娟娟, 于红, 冯艳红 , .

基于深度学习的渔业领域命名实体识别

[J]. 大连海洋大学学报, 2018,33(2):265-269.

[本文引用: 2]

( Sun Juanjuan, Yu Hong, Feng Yanhong , et al.

Recognition of Nominated Fishery Domain Entity Based on Deep Learning Architectures

[J]. Journal of Dalian Ocean University, 2018,33(2):265-269.)

[本文引用: 2]

杨培, 杨志豪, 罗凌 , .

基于注意机制的化学药物命名实体识别

[J]. 计算机研究与发展, 2018,55(7):1548-1556.

[本文引用: 1]

( Yang Pei, Yang Zhihao, Luo Ling , et al.

An Attention-Based Approach for Chemical Compound and Drug Named Entity Recognition

[J]. Journal of Computer Research and Development, 2018,55(7):1548-1556.)

[本文引用: 1]

沈思, 朱丹浩 .

基于深度学习的中文地名识别研究

[J]. 北京理工大学学报, 2017,37(11):1150-1155.

[本文引用: 1]

( Shen Si, Zhu Danhao .

Chinese Place Name Recognition Based on Deep Learning

[J]. Transactions of Beijing Institute of Technology, 2017,37(11):1150-1155.)

[本文引用: 1]

朱丹浩, 杨蕾, 王东波 .

基于深度学习的中文机构名识别研究——一种汉字级别的循环神经网络方法

[J]. 现代图书情报技术, 2016(12):36-43.

[本文引用: 1]

( Zhu Danhao, Yang Lei, Wang Dongbo .

Recognizing Chinese Organization Names Based on Deep Learning: A Recurrent Network Model

[J]. New Technology of Library and Information Service, 2016(12):36-43.)

[本文引用: 1]

隋臣 .

基于深度学习的中文命名实体识别研究

[D]. 杭州: 浙江大学, 2017.

[本文引用: 1]

( Sui Chen .

Research of Chinese Named Entity Recognition Based on Deep Learning

[D]. Hangzhou: Zhejiang University, 2017.)

[本文引用: 1]

刘玉娇, 琚生根, 李若晨 , .

基于深度学习的中文微博命名实体识别

[J]. 四川大学学报: 工程科学版, 2016,48(S2):142-146.

[本文引用: 1]

( Liu Yujiao, Ju Shenggen, Li Ruochen , et al.

Chinese Microblog Named Entity Recognition in Chinese Micro-blog Based on Deep Learning

[J]. Journal of Sichuan University: Engineering Science Edition, 2016,48(S2):142-146.)

[本文引用: 1]

何红磊 .

基于词表示方法的生物医学命名实体识别

[D]. 大连: 大连理工大学, 2015.

[本文引用: 1]

( He Honglei .

Research of Word Representations on Biomedical Named Entity Recognition

[D]. Dalian: Dalian University of Technology, 2015.)

[本文引用: 1]

Demir H, Ozgur A .

Improving Named Entity Recognition for Morphologically Rich Languages Using Word Embeddings

[C]// Proceedings of the 13th International Conference on Machine Learning & Applications, Detroit, MI, USA. IEEE, 2014: 117-122.

[本文引用: 1]

李丽双, 郭元凯 .

基于CNN-BLSTM-CRF模型的生物医学命名实体识别

[J]. 中文信息学报, 2018,32(1):116-122.

[本文引用: 1]

( Li Lishuang, Guo Yuankai .

Biomedical Named Entity Recognition with CNN-BLSTM-CRF

[J]. Journal of Chinese Information Processing, 2018,32(1):116-122.)

[本文引用: 1]

Pham T H, Le-Hong P.

End-to-End Recurrent Neural Network Models for Vietnamese Named Entity Recognition: Word-Level Vs. Character-Level

[C]// Proceedings of the 15th International Conference of the Pacific Association for Computational Linguistics. Springer, 2017: 219-232.

[本文引用: 1]

Hochreiter S, Schmidhuber J .

Long Short-term Memory

[J]. Neural Computation, 1997,9(8):1735-1780.

[本文引用: 1]

Sutskever I, Vinyals O, Le Q V .

Sequence to Sequence Learning with Neural Networks[A]//Advances in Neural Information Processing Systems

[M]. Morgan Kaufmann Publishers, 2014: 3104-3112.

[本文引用: 1]

Graves A, Mohamed A, Hinton G .

Speech Recognition with Deep Recurrent Neural Networks

[C]// Proceedings of the 2013 IEEE International Conference on Acoustics, Speech, and Signal Processing. IEEE, 2013: 6645-6649.

[本文引用: 1]

Graves A, Schmidhuber J .

Framewise Phoneme Classification with Bidirectional LSTM and Other Neural Network Architectures

[J]. Neural Networks, 2005,18(5-6):602-610.

[本文引用: 1]

周志华 . 机器学习[M]. 北京: 清华大学出版社, 2016.

[本文引用: 1]

( Zhou Zhihua. Machine Learning[M]. Beijing: Tsinghua University Press, 2016.)

[本文引用: 1]

中国大百科全书总委员会《图书馆学情报学档案学》委员会. 中国大百科全书: 图书馆学情报学档案学[M]. 北京: 中国大百科全书出版社. 1993.

[本文引用: 1]

( China Encyclopedia General Committee . Encyclopedia of China: Library, Intelligence Study, Archives [M]. Beijing: Encyclopedia of China Publishing House, 1993.)

[本文引用: 1]

陈传夫, 马浩琴 .

图书情报学现实研究中科学方法应用的调查分析——以2010年的期刊论文为样本

[J]. 图书馆论坛, 2011,31(6):32-37.

[本文引用: 1]

( Chen Chuanfu, Ma Haoqin .

Survey Research on Implementation of Research Methods in Library and Information Science——Take the Journal Articles of 2010 as Sample

[J]. Library Tribune, 2011,31(6):32-37.)

[本文引用: 1]

/

版权所有 © 2015 《数据分析与知识发现》编辑部
地址:北京市海淀区中关村北四环西路33号 邮编:100190
电话/传真:(010)82626611-6626,82624938
E-mail:jishu@mail.las.ac.cn