Please wait a minute...
Advanced Search
数据分析与知识发现  2019, Vol. 3 Issue (10): 20-28    DOI: 10.11925/infotech.2096-3467.2018.1199
  专题 本期目录 | 过刊浏览 | 高级检索 |
基于深度学习的情报分析方法识别研究 * ——以安全情报领域为例
肖连杰1,2(),孟涛1,2,王伟1,2,吴志祥3
1南京大学信息管理学院 南京 210023
2江苏省数据工程与知识服务重点实验室 南京 210023
3南京工业大学经济管理学院 南京 211800
Entity Recognition of Intelligence Method Based on Deep Learning: Taking Area of Security Intelligence for Example
Lianjie Xiao1,2(),Tao Meng1,2,Wei Wang1,2,Zhixiang Wu3
1School of Information Management, Nanjing University, Nanjing 210023, China
2Jiangsu Key Laboratory of Data Engineering and Knowledge Service, Nanjing 210023, China
3School of Economics and Management, Nanjing University of Technology, Nanjing 211800, China
全文: PDF(1325 KB)   HTML ( 48
输出: BibTeX | EndNote (RIS)      
摘要 

【目的】对安全情报领域情报分析方法进行识别、归纳与总结, 为构建安全情报领域情报分析方法体系提供参考。【方法】以安全情报领域文献为数据来源, 对文献全文本进行汉字级的语料标注, 构建安全情报领域情报分析方法语料库, 在此基础上利用深度学习模型对情报分析方法实体进行识别。【结果】在安全情报领域情报分析方法语料库上进行实体识别对比实验, BiLSTM模型的情报分析方法实体识别准确率81.71%, 召回率77.26%,F1值79.36%; BiLSTM-CRF模型的情报分析方法实体识别准确率84.71%, 召回率79.25%, F1值81.83%。【局限】未考虑句子中包含情报分析方法的指代名词, 可能会对统计结果产生一定的影响。【结论】利用深度学习方法对安全情报领域情报分析方法实体进行识别是可行且有效的。

服务
把本文推荐给朋友
加入引用管理器
E-mail Alert
RSS
作者相关文章
肖连杰
孟涛
王伟
吴志祥
关键词 安全情报情报分析方法实体识别双向长短时记忆网络条件随机场    
Abstract

[Objective] This paper provides directions for a new scholarly system, aiming to identify and summarize intelligence analysis methods for security intelligence. [Methods] Firstly, we retrieved full-text security intelligence literature, and tagged them using Character-level method. Then, we constructed the corpus for the extraction of intelligence analysis methods. Finally, we compared the performance of two deep learning models with the experimental data. [Results] For the BiLSTM model, the precision, recall and F1 values were 81.71%, 77.26%, and 79.36% respectively. For the BiLSTM-CRF model, the precision, recall and F1 values were 84.71%, 79.25%, and 81.83%. [Limitations] The pronouns that represent intelligence analysis methods are not taken into consideration. [Conclusions] We could use deep learning model to extract intelligence analysis methods for security intelligence.

Key wordsSecurity Intelligence    Intelligence Analysis Methods    Entity Recognition    Bi-LSTM
收稿日期: 2018-10-29     
中图分类号:  TP393 G35  
基金资助:*本文系国家社会科学基金重大项目“情报学学科建设与情报工作未来发展路径研究”(17ZDA291);南京大学研究生跨学科科研创新项目“大数据环境下情报学理论方法知识库构建研究”(2018ZDW03);国家自然科学基金项目“基于情报视角的应急决策推演的智库协同模式研究”的研究成果之一(71774078)
通讯作者: 肖连杰     E-mail: 1061939301@qq.com
引用本文:   
肖连杰,孟涛,王伟,吴志祥. 基于深度学习的情报分析方法识别研究 * ——以安全情报领域为例[J]. 数据分析与知识发现, 2019, 3(10): 20-28.
Lianjie Xiao,Tao Meng,Wei Wang,Zhixiang Wu. Entity Recognition of Intelligence Method Based on Deep Learning: Taking Area of Security Intelligence for Example. Data Analysis and Knowledge Discovery, DOI:10.11925/infotech.2096-3467.2018.1199.
链接本文:  
http://manu44.magtech.com.cn/Jwk_infotech_wk3/CN/10.11925/infotech.2096-3467.2018.1199
图1  基于BERT的文本向量化表示的示意图
图2  具有双向LSTM单元的RNN
图3  BiLSTM-CRF模型框架
编号 例句
1 采用内容分析法, 从研究热点和研究特点两方面对大数据环境下的竞争情报研究现状进行总结和分析。
2 为了解研究方法应用与研究领域的耦合情况, 构建基于研究方法应用的研究领域关键词的共现矩阵, 同时构建研究方法应用与研究领域的耦合矩阵, 并利用SPSS 19.0进行聚类分析和对应分析;
3 结构方程模型是一种建立、估计和检验因果关系模型的方法。
表1  标注使用的例句(部分)
参数名 数值 参数名 数值
embedding_size 100 learning_rate 0.001
神经元数量 128 batch_size 60
隐藏层 32 epoch 200
layer_dropout 0.4 activation tanh
表2  深度学习模型参数
深度模型 评价指标
准确率P 召回率R F1
BiLSTM 80.81 80.61 80.71
80.17 69.28 74.33
83.83 83.12 83.47
80.89 79.75 80.31
81.94 76.89 79.34
均值 81.71 77.26 79.36
BiLSTM-CRF 85.97 78.69 82.17
83.66 83.43 83.55
85.39 83.83 84.60
80.62 75.48 77.97
87.92 74.82 80.84
均值 84.71 79.25 81.83
表3  情报分析方法实体识别实验结果(%)
方法名称 提及
频次
方法名称 提及
频次
社会调查法(实地调查、专家咨询法、抽样调查、问卷调查) 788 时间序列分析法 164
分类(主题分类、文本分类) 623 深度神经网络 153
综合评价法 338 定标比超法 149
归纳法 331 竞争性假设分析 148
聚类分析法 305 结构化分析法 126
仿真 301 演绎法 125
数学方法(数学模型、统计分析法) 298 社会网络分析法 122
数据挖掘 284 回归分析法 101
比较分析法 284 头脑风暴法 84
案例分析法 282 系统分析法 83
相关性分析法 282 综述 71
内容分析法 281 情景分析法 58
可视化方法 257 逻辑方法 57
文献研究法(文献调研、计量研究) 216 共词分析 54
推理(类比推理、知识推理) 215 主成分分析法 47
检索(情报检索、信息检索) 182 哲学方法 35
引文分析法(专利引文分析、共被引分析) 167 价值链分析 22
表4  实验识别出的情报分析方法(部分)
[1] 高伟, 薛梦瑶, 于成成. 面向大数据的情报分析方法和技术体系研究[J/OL]. 情报理论与实践. [ 2019- 10- 14]. .
( Gao Wei, Xue Mengyao, Yu Chengcheng. Big Data-Oriented System of Intelligence Analysis Methods and Technologies [J/OL]. Information Studies: Theory & Application. [ 2019- 10- 14].
[2] 肖连杰, 成洁, 蒋勋. 大数据环境下国内情报分析研究方法研究[J/OL]. 情报理论与实践. [ 2019- 10- 14]. .
( Xiao Lianjie, Cheng Jie, Jiang Xun. Research on Intelligence Analysis Methods in the Era of Big Data in China[J/OL]. 情报理论与实践. [ 2019- 10- 14]. .
[3] 王强, 陈安琪 . 情报方法库研究[J]. 情报工程, 2015,1(1):95-102.
( Wang Qiang, Chen Anqi . The Study on the Intelligence Method Base[J]. Technology Intelligence Engineering, 2015,1(1):95-102.)
[4] 朱丹浩, 杨蕾, 王东波 . 基于深度学习的中文机构名识别研究——一种汉字级别的循环神经网络方法[J]. 数据分析与知识发现, 2017,1(12):36-43.
( Zhu Danhao, Yang Lei, Wang Dongbo . Recognizing Chinese Organization Names Based on Deep Learning: A Recurrent Network Model[J]. Data Analysis and Knowledge Discovery, 2017,1(12):36-43.)
[5] 化柏林 . 针对中文学术文献的情报方法术语抽取[J]. 现代图书情报技术, 2013(6):68-75.
( Hua Bolin . Extracting Information Method Term from Chinese Academic Literature[J]. New Technology of Library and Information Service, 2013(6):68-75.)
[6] 邓三鸿, 郭骅 . 情报学与情报工作发展论坛(2017) 隆重召开并凝聚形成《南京共识》[J]. 图书情报知识, 2017(6):125-127.
( Deng Sanhong, Guo Hua . Intelligence Study and Intelligence Work Development Forum(2017)[J]. Documentation, Information and Knowledge, 2017(6):125-127.)
[7] 谷俊, 王昊 . 基于领域中文文本的术语抽取方法研究[J]. 现代图书情报技术, 2011(4):29-34.
( Gu Jun, Wang Hao . Study on Term Extraction on the Basis of Chinese Domain Texts[J]. New Technology of Library and Information Service, 2011(4):29-34.)
[8] 牟冬梅, 金姗, 琚沅红 . 基于文献数据的疾病与基因关联关系研究[J]. 数据分析与知识发现, 2018,2(8):98-106.
( Mu Dongmei, Jin Shan, Ju Yuanhong . Finding Association Between Diseases and Genes from Literature Abstracts[J]. Data Analysis and Knowledge Discovery, 2018,2(8):98-106.)
[9] 陆伟, 鞠源, 张晓娟 , 等. 产品命名实体特征选择与识别研究[J]. 图书情报知识, 2012(3):4-12.
( Lu Wei, Ju Yuan, Zhang Xiaojuan . Research on Product Named Entity Feature Selection and Recognition[J]. Documentation, Information and Knowledge, 2012(3):4-12.)
[10] 何宇, 吕学强, 徐丽萍 . 新能源汽车领域中文术语抽取方法[J]. 现代图书情报技术, 2015(10):88-94.
( He Yu, Lv Xueqiang, Xu Liping . A Chinese Term Extraction System in New Energy Vehicles Domain[J]. New Technology of Library and Information Service, 2015(10):88-94.)
[11] 陈锋, 翟羽佳, 王芳 . 基于条件随机场的学术期刊中理论的自动识别方法[J]. 图书情报工作, 2016,60(2):122-128.
doi: 10.13266/j.issn.0252-3116.2016.02.019
( Chen Feng, Zhai Yujia, Wang Fang . Automatic Theory Recognition in Academic Journals Based on CRF[J]. Library and Information Service, 2016,60(2):122-128.)
doi: 10.13266/j.issn.0252-3116.2016.02.019
[12] Ju Z, Wang J, Zhu F . Named Entity Recognition from Biomedical Text Using SVM [C]//Proceedings of the 5th International Conference on Bioinformatics and Biomedical Engineering, Wuhan, China. IEEE, 2011: 1-4.
[13] Zhu F, Shen B . Combined SVM-CRFs for Biological Named Entity Recognition with Maximal Bidirectional Squeezing[J]. PLoS One, 2012,7(6):1-9.
[14] 王东波, 胡昊天, 周鑫 , 等. 基于深度学习的数据科学招聘实体自动抽取及分析研究[J]. 图书情报工作, 2018,62(13):64-73.
( Wang Dongbo, Hu Haotian, Zhou Xin , et al. Research of Automatic Extraction of Entities of Data Science Recruitment and Analysis Based on Deep Learning[J]. Library and Information Service, 2018,62(13):64-73.)
[15] 张帆, 王敏 . 基于深度学习的医疗命名实体识别[J]. 计算技术与自动化, 2017,36(1):123-127.
( Zhang Fan, Wang Min . Medical Text Entities Recognition Method Base on Deep Learning[J]. Computing Technology and Automation, 2017,36(1):123-127.)
[16] 孙娟娟, 于红, 冯艳红 , 等. 基于深度学习的渔业领域命名实体识别[J]. 大连海洋大学学报, 2018,33(2):265-269.
( Sun Juanjuan, Yu Hong, Feng Yanhong , et al. Recognition of Nominated Fishery Domain Entity Based on Deep Learning Architectures[J]. Journal of Dalian Ocean University, 2018,33(2):265-269.)
[17] 杨培, 杨志豪, 罗凌 , 等. 基于注意机制的化学药物命名实体识别[J]. 计算机研究与发展, 2018,55(7):1548-1556.
( Yang Pei, Yang Zhihao, Luo Ling , et al. An Attention-Based Approach for Chemical Compound and Drug Named Entity Recognition[J]. Journal of Computer Research and Development, 2018,55(7):1548-1556.)
[18] 沈思, 朱丹浩 . 基于深度学习的中文地名识别研究[J]. 北京理工大学学报, 2017,37(11):1150-1155.
( Shen Si, Zhu Danhao . Chinese Place Name Recognition Based on Deep Learning[J]. Transactions of Beijing Institute of Technology, 2017,37(11):1150-1155.)
[19] 朱丹浩, 杨蕾, 王东波 . 基于深度学习的中文机构名识别研究——一种汉字级别的循环神经网络方法[J]. 现代图书情报技术, 2016(12):36-43.
( Zhu Danhao, Yang Lei, Wang Dongbo . Recognizing Chinese Organization Names Based on Deep Learning: A Recurrent Network Model[J]. New Technology of Library and Information Service, 2016(12):36-43.)
[20] 隋臣 . 基于深度学习的中文命名实体识别研究[D]. 杭州: 浙江大学, 2017.
( Sui Chen . Research of Chinese Named Entity Recognition Based on Deep Learning[D]. Hangzhou: Zhejiang University, 2017.)
[21] 刘玉娇, 琚生根, 李若晨 , 等. 基于深度学习的中文微博命名实体识别[J]. 四川大学学报: 工程科学版, 2016,48(S2):142-146.
( Liu Yujiao, Ju Shenggen, Li Ruochen , et al. Chinese Microblog Named Entity Recognition in Chinese Micro-blog Based on Deep Learning[J]. Journal of Sichuan University: Engineering Science Edition, 2016,48(S2):142-146.)
[22] 何红磊 . 基于词表示方法的生物医学命名实体识别[D]. 大连: 大连理工大学, 2015.
( He Honglei . Research of Word Representations on Biomedical Named Entity Recognition[D]. Dalian: Dalian University of Technology, 2015.)
[23] Demir H, Ozgur A . Improving Named Entity Recognition for Morphologically Rich Languages Using Word Embeddings [C]// Proceedings of the 13th International Conference on Machine Learning & Applications, Detroit, MI, USA. IEEE, 2014: 117-122.
[24] 李丽双, 郭元凯 . 基于CNN-BLSTM-CRF模型的生物医学命名实体识别[J]. 中文信息学报, 2018,32(1):116-122.
( Li Lishuang, Guo Yuankai . Biomedical Named Entity Recognition with CNN-BLSTM-CRF[J]. Journal of Chinese Information Processing, 2018,32(1):116-122.)
[25] Pham T H, Le-Hong P. End-to-End Recurrent Neural Network Models for Vietnamese Named Entity Recognition: Word-Level Vs. Character-Level [C]// Proceedings of the 15th International Conference of the Pacific Association for Computational Linguistics. Springer, 2017: 219-232.
[26] Hochreiter S, Schmidhuber J . Long Short-term Memory[J]. Neural Computation, 1997,9(8):1735-1780.
[27] Sutskever I, Vinyals O, Le Q V . Sequence to Sequence Learning with Neural Networks[A]//Advances in Neural Information Processing Systems[M]. Morgan Kaufmann Publishers, 2014: 3104-3112.
[28] Graves A, Mohamed A, Hinton G . Speech Recognition with Deep Recurrent Neural Networks [C]// Proceedings of the 2013 IEEE International Conference on Acoustics, Speech, and Signal Processing. IEEE, 2013: 6645-6649.
[29] Graves A, Schmidhuber J . Framewise Phoneme Classification with Bidirectional LSTM and Other Neural Network Architectures[J]. Neural Networks, 2005,18(5-6):602-610.
[30] 周志华 . 机器学习[M]. 北京: 清华大学出版社, 2016.
( Zhou Zhihua. Machine Learning[M]. Beijing: Tsinghua University Press, 2016.)
[31] 中国大百科全书总委员会《图书馆学情报学档案学》委员会. 中国大百科全书: 图书馆学情报学档案学[M]. 北京: 中国大百科全书出版社. 1993.
( China Encyclopedia General Committee . Encyclopedia of China: Library, Intelligence Study, Archives [M]. Beijing: Encyclopedia of China Publishing House, 1993.)
[32] 陈传夫, 马浩琴 . 图书情报学现实研究中科学方法应用的调查分析——以2010年的期刊论文为样本[J]. 图书馆论坛, 2011,31(6):32-37.
( Chen Chuanfu, Ma Haoqin . Survey Research on Implementation of Research Methods in Library and Information Science——Take the Journal Articles of 2010 as Sample[J]. Library Tribune, 2011,31(6):32-37.)
[1] 黄菡,王宏宇,王晓光. 结合主动学习的条件随机场模型用于法律术语的自动识别*[J]. 数据分析与知识发现, 2019, 3(6): 66-74.
[2] 刘勘,杜好宸. 基于深度迁移网络的Twitter谣言检测研究 *[J]. 数据分析与知识发现, 2019, 3(10): 47-55.
[3] 余丽,钱力,付常雷,赵华茗. 基于深度学习的文本中细粒度知识元抽取方法研究*[J]. 数据分析与知识发现, 2019, 3(1): 38-45.
[4] 牟冬梅,金姗,琚沅红. 基于文献数据的疾病与基因关联关系研究*[J]. 数据分析与知识发现, 2018, 2(8): 98-106.
[5] 唐慧慧,王昊,张紫玄,王雪颖. 基于汉字标注的中文历史事件名抽取研究*[J]. 数据分析与知识发现, 2018, 2(7): 89-100.
[6] 范馨月,崔雷. 基于文本挖掘的药物副作用知识发现研究[J]. 数据分析与知识发现, 2018, 2(3): 79-86.
[7] 王东波,吴毅,叶文豪,刘睿伦. 多特征知识下的食品安全事件实体抽取研究*[J]. 数据分析与知识发现, 2017, 1(3): 54-61.
[8] 张越,王东波,朱丹浩. 面向食品安全突发事件汉语分词的特征选择及模型优化研究*[J]. 数据分析与知识发现, 2017, 1(2): 64-72.
[9] 张琳,秦策,叶文豪. 基于条件随机场的法言法语实体自动识别模型研究*[J]. 数据分析与知识发现, 2017, 1(11): 46-52.
[10] 王密平,王昊,邓三鸿,吴志祥. 基于CRFs的冶金领域中文专利术语抽取研究*[J]. 现代图书情报技术, 2016, 32(6): 28-36.
[11] 贺惠新,刘丽娟. 主动学习的科技文献研究对象标引体系研究*[J]. 现代图书情报技术, 2016, 32(3): 67-73.
[12] 隋明爽,崔雷. 结合多种特征的CRF模型用于化学物质-疾病命名实体识别[J]. 现代图书情报技术, 2016, 32(10): 91-97.
[13] 段宇锋, 朱雯晶, 陈巧, 刘伟, 刘凤红. 条件随机场与领域本体元素集相结合的未登录词识别研究[J]. 现代图书情报技术, 2015, 31(4): 41-49.
[14] 姜春涛. 自动标注中文专利的引文信息[J]. 现代图书情报技术, 2015, 31(10): 81-87.
[15] 何宇, 吕学强, 徐丽萍. 新能源汽车领域中文术语抽取方法[J]. 现代图书情报技术, 2015, 31(10): 88-94.
Viewed
Full text


Abstract

Cited

  Shared   
  Discussed   
版权所有 © 2015 《数据分析与知识发现》编辑部
地址:北京市海淀区中关村北四环西路33号 邮编:100190
电话/传真:(010)82626611-6626,82624938
E-mail:jishu@mail.las.ac.cn