Please wait a minute...
Advanced Search
数据分析与知识发现  2017, Vol. 1 Issue (3): 54-61     https://doi.org/10.11925/infotech.2096-3467.2017.03.07
  研究论文 本期目录 | 过刊浏览 | 高级检索 |
多特征知识下的食品安全事件实体抽取研究*
王东波1,2(), 吴毅1, 叶文豪1, 刘睿伦1
1南京农业大学信息科学技术学院 南京 210095
2南京农业大学领域知识关联研究中心 南京 210095
Extracting Events of Food Safety Emergencies with Characteristics Knowledge
Wang Dongbo1,2(), Wu Yi1, Ye Wenhao1, Liu Ruilun1
1College of Information and Technology, Nanjing Agricultural University, Nanjing 210095, China
2Research Center for Correlation of Domain Knowledge, Nanjing Agricultural University, Nanjing 210095, China
全文: PDF (765 KB)   HTML ( 19
输出: BibTeX | EndNote (RIS)      
摘要 

目的】从大规模食品安全事件当中抽取食品安全事件实体。【方法】基于已发生的食品安全事件, 结合情报学数据获取、标注和组织的方法, 融合食品安全事件实体的多种分布特征知识, 通过条件随机场模型, 构建食品安全事件语料并从中抽取相应的实体。【局限】在食品安全事件实体抽取过程中所制定的特征模板在领域化迁移上具有一定的局限性。【结果】在已有1 500万字经过标注的食品安全事件语料的规模上, 通过统计食品安全事件实体的内部和外部特征, 基于条件随机场机器学习模型, 构建了食品安全实体的抽取模型, 该模型最高的F值达到91.94%。【结论】通过对食品安全事件实体抽取结果的分析, 在食品这一领域化的语料上, 基于条件随机场进行实体抽取是可行的。

服务
把本文推荐给朋友
加入引用管理器
E-mail Alert
RSS
作者相关文章
王东波
吴毅
叶文豪
刘睿伦
关键词 特征知识条件随机场模型实体食品安全事件    
Abstract

[Objective] This paper aims to extract the events of food safety emergencies from large food safety emergencies. [Methods] First, we built the food safety emergency corpus based on the past events, as well as the data acquisition, labeling, and organization methods of information science. Then, we extracted the corresponding events with the help of conditional random field model, and the distribution characteristics knowledge of the food safety emergencies. [Limitations] We might not be able to apply the feature template created by this research to other fields. [Results] We examined the proposed model with a food safety emergency corpus of 15 million Chinese words, and the F value of this model reached 91.94%. [Conclusions] It is feasible for us to extract the events from food safety emergency corpus with the help of conditional random field model.

Key wordsCharacteristics Knowledge    Conditional Random Fields    Event    Food Safety Emergency
收稿日期: 2016-08-03      出版日期: 2017-04-20
ZTFLH:  G350  
基金资助:*本文系2011湖北省协同创新中心项目“面向应急推演平台的海量突发事件知识库与模型库构建研究”(编号: JD20150101)、国家自然科学基金项目“基于CSSCI的句法级汉英平行语料库构建及知识挖掘研究”(项目编号: 71303120)和地震科技星火计划项目“面向地震应急的空间智能决策方法研究”(项目编号: HX15019)的研究成果之一
引用本文:   
王东波, 吴毅, 叶文豪, 刘睿伦. 多特征知识下的食品安全事件实体抽取研究*[J]. 数据分析与知识发现, 2017, 1(3): 54-61.
Wang Dongbo,Wu Yi,Ye Wenhao,Liu Ruilun. Extracting Events of Food Safety Emergencies with Characteristics Knowledge. Data Analysis and Knowledge Discovery, 2017, 1(3): 54-61.
链接本文:  
http://manu44.magtech.com.cn/Jwk_infotech_wk3/CN/10.11925/infotech.2096-3467.2017.03.07      或      http://manu44.magtech.com.cn/Jwk_infotech_wk3/CN/Y2017/V1/I3/54
  食品安全事件抓取软件截图
实体长度 数量(个) 实体长度 数量(个)
2 48 036 13 13
3 23 499 9 9
4 6 878 10 7
1 6 594 12 5
5 1 383 14 2
6 394 11 1
7 182 15 1
8 37 20 1
  食品安全事件实体长度分布表
实体 数量(个) 实体 数量(个)
添加剂 2 243 大米 899
奶粉 1 661 牛奶 810
地沟油 1 178 药袋 733
酱油 1 078 菌落总数 377
1 006 亚硝酸盐 352
猪肉 943 反式脂肪酸 95
甲醛 904 过氧化苯甲酰 90
  具体食品安全事件实体的分布情况
  线性链CRFs模型的拓扑结构
词语 词性 词长度 是否
实体词
是否
左边界
是否右边界 标记
有关 p 2 N N N S
反式 b 2 Y N N B
脂肪酸 n 3 Y N N E
问题 n 1 N N N S
, wd 1 N N N S
浙江省 ns 3 N N N S
金华市 ns 3 N N N S
公安局 n 3 N N N S
江南 ns 2 N N N S
分局 n 2 N N N S
接到 v 2 N N N S
群众 n 2 N N N S
举报 vn 2 N N N S
v 1 N N N S
  “食品名称”和“具体因素”训练语料和测试语料标注样例
测试编号 准确率 召回率 F值
1 89.95% 90.17% 90.06%
2 90.46% 91.01% 90.73%
3 91.89% 90.68% 91.28%
4 88.35% 91.88% 90.08%
5 90.37% 91.06% 90.71%
6 91.01% 90.07% 90.54%
7 91.43% 91.74% 91.58%
8 90.48% 91.01% 90.74%
9 92.12% 91.77% 91.94%
10 90.54% 91.65% 91.09%
均值 90.66% 91.10% 90.88%
  基于条件随机场模型“食品名称”和“具体因素”抽取性能比较
测试编号 准确率 召回率 F值
1 72.55% 62.50% 67.15%
2 73.72% 61.89% 67.29%
3 81.90% 65.19% 72.60%
4 84.10% 59.97% 70.01%
5 81.67% 62.49% 70.80%
6 86.52% 63.70% 73.38%
7 81.66% 65.74% 72.84%
8 72.71% 67.10% 69.79%
9 74.72% 63.37% 68.58%
10 80.88% 65.40% 72.32%
均值 79.04% 63.74% 70.48%
  基于最大熵模型”食品名称”和“具体因素”抽取性能比较
编号 条件随机场模型 最大熵模型
训练耗时
(秒)
测试耗时
(毫秒)
训练耗时
(秒)
测试耗时
(毫秒)
1 43 837.09 810 78.01 4
2 41 660.11 1 045 67.01 5
3 43 267.72 980 89.06 78
4 42 078.04 124 67.35 9
5 41 863.00 450 56.43 45
6 43 287.12 160 67.50 7
7 45 677.87 678 57.49 67
8 48 814.89 410 67 56
9 47 691.62 431 78.50 30
10 43 827.01 910 67.59 9
均值 44 200.45 599.8 69.59 31
  条件随机场和最大熵模型训练和测试耗时比较
  知网数据爬取功能截图
  实体抽取功能截图
[1] 掷出窗外 [EB/OL]. [2014-02-18]. .
[1] (Zhi Chu Chuang Wai [EB/OL]. [2014-02-18].
[2] 张慕洁, 沈建华. 关于处置食品药品安全突发事件中信息公开的思考[J]. 上海食品药品监管情报研究, 2012(2): 45-49.
[2] (Zhang Mujie, Shen Jianhua.About the Disposal of the Food and Drug Safety Incident Information to the Public Thinking about the Disposal of the Food and Drug Safety Incident Information[J]. Shanghai Food and Drug Information Research, 2012(2): 45-49.)
[3] 马颖, 张园园, 宋文广. 食品行业事件风险感知的传染病模型研究[J]. 科研管理, 2013, 34(9): 123-130.
[3] (Ma Ying, Zhang Yuanyuan, Song Wenguang.Research on Epidemic Model of Emergency Events Risk Perception in Food Industry[J]. Science Research Management, 2013, 34(9): 123-130.)
[4] 陈宇, 郑德权, 赵铁军. 基于Deep Belief Nets的中文名实体关系抽取[J]. 软件学报, 2012, 23(10): 2572-2585.
doi: 10.3724/SP.J.1001.2012.04181
[4] (Chen Yu, Zheng Dequan,Zhao Tiejun.Chinese Relation Extraction Based on Deep Belief Nets[J]. Journal of Software, 2012, 23(10): 2572-2585.)
doi: 10.3724/SP.J.1001.2012.04181
[5] 邵发, 黄银阁, 周兰江, 等. 基于实体消歧的中文实体关系抽取[J]. 山东大学学报: 工学版, 2014, 44(6): 32-37.
doi: 10.6040/j.issn.1672-3961.1.2014.163
[5] (Shao Fa, Huang Yin’ge, Zhou Lanjiang, et al.Chinese Entity Relation Extraction Based on Entity Disambiguation[J]. Journal of Shandong University: Engineering Science, 2014, 44(6): 32-37.)
doi: 10.6040/j.issn.1672-3961.1.2014.163
[6] 许华, 刘茂福, 姜丽, 等. 基于语言规则的病症菌实体抽取[J]. 武汉大学学报: 理学版, 2015, 61(2): 51-55.
doi: 10.14188/j.1671-8836.2015.02.008
[6] (Xu Hua, Liu Maofu, Jiang Li, et al.Disease and Bacteria Entity Extraction Based on Linguistic Rule[J].Journal of Wuhan University: Natural Science Edition, 2015, 61(2): 51-55.)
doi: 10.14188/j.1671-8836.2015.02.008
[7] 魏秀卓. 食品投诉文本敏感词汇抽取研究[D]. 长春: 东北师范大学, 2015.
[7] (Wei Xiuzhuo.Food Complaint Text Sensitive Words Extraction Research [D]. Changchun: Northeast Normal University, 2015.)
[8] 高蕊. 基于本体的食品投诉文本危害信息抽取研究[D]. 长春: 东北师范大学, 2011.
[8] (Gao Rui.Ontology-based Hazard Information Extraction from Chinese Food Complaint Documents[D]. Changchun: Northeast Normal University, 2011.)
[9] 李丽双, 党延忠, 张婧, 等. 基于条件随机场的汽车领域术语抽取[J]. 大连理工大学学报, 2013, 53(2): 267-272.
doi: 10.7511/dllgxb201302018
[9] (Li Lishuang, Dang Yanzhong, Zhang Jing, et al.Automotive Term Extraction Based on Conditional Random Fields[J]. Journal of Dalian University of Technology, 2013, 53(2): 267-272.)
doi: 10.7511/dllgxb201302018
[10] 王文龙, 王东波. 面向项目申请书的命名实体抽取模型构建研究[J]. 情报资料工作, 2015(1): 30-34.
doi: 10.3969/j.issn.1002-0314.2015.01.005
[10] (Wang Longwen, Wang Dongbo.Project Application-oriented Named Entity Extraction Model Construction[J]. Information and Documentation Services, 2015(1): 30-34.)
doi: 10.3969/j.issn.1002-0314.2015.01.005
[11] 刘凯, 周雪忠, 于剑, 等. 基于条件随机场的中医临床病历命名实体抽取[J]. 计算机工程, 2014, 40(9): 312-316.
doi: 10.3969/j.issn.1000-3428.2014.09.062
[11] (Liu Kai, Zhou Xuezhong, Yu Jian, et al.Named Entity Extraction of Traditional Chinese Medicine Medical Records Based on Conditional Random Field[J]. Computer Engineering, 2014, 40(9): 312-316.)
doi: 10.3969/j.issn.1000-3428.2014.09.062
[12] 吴云芳. 面向语言信息处理的现代汉语并列结构研究[M]. 北京: 北京师范大学出版社, 2004.
[12] (Wu Yunfang.Researches of Modern Chinese Coordinate Construction for Language Information Processing[M]. Beijing: Beijing Normal University Press, 2004.)
[13] Lafferty J, McCallum A, Pereira F. Conditional Random Fields: Probabilistic Models for Segmenting and Labeling Sequence Data[C]// Proceedings of the 18th International Conference on Machine Learning. 2001: 282-289.
[14] McCallum A, Freitag D, Pereira F. Maximum Entropy Markov Models for Information Extraction and Segmentation[C]//Proceedings of the 17th International Conference on Machine Learning. 2000: 591-598.
[1] 赵平,孙连英,涂帅,卞建玲,万莹. 改进的知识迁移景点实体识别算法研究及应用*[J]. 数据分析与知识发现, 2020, 4(5): 118-126.
[2] 高原,施元磊,张蕾,曹天奕,冯筠. 基于游记文本的游客游览行程重构*[J]. 数据分析与知识发现, 2020, 4(2/3): 165-172.
[3] 马建霞,袁慧,蒋翔. 基于Bi-LSTM+CRF的科学文献中生态治理技术相关命名实体抽取研究*[J]. 数据分析与知识发现, 2020, 4(2/3): 78-88.
[4] 秦贺然,刘浏,李斌,王东波. 融入实体特征的典籍自动分类研究 *[J]. 数据分析与知识发现, 2019, 3(9): 68-76.
[5] 黄菡,王宏宇,王晓光. 结合主动学习的条件随机场模型用于法律术语的自动识别*[J]. 数据分析与知识发现, 2019, 3(6): 66-74.
[6] 高广尚. 关于实体解析基本方法的研究和述评*[J]. 数据分析与知识发现, 2019, 3(5): 27-40.
[7] 刘建华,张智雄,张琴. 基于多维政策实体及其关系的科技政策演化路径揭示方法研究*[J]. 数据分析与知识发现, 2019, 3(5): 57-67.
[8] 丁晟春,侯琳琳,王颖. 基于电商数据的产品知识图谱构建研究*[J]. 数据分析与知识发现, 2019, 3(3): 45-56.
[9] 袁悦,王东波,黄水清,李斌. 不同词性标记集在典籍实体抽取上的差异性探究*[J]. 数据分析与知识发现, 2019, 3(3): 57-65.
[10] 陈美杉,夏晨曦. 肝癌患者在线提问的命名实体识别研究:一种基于迁移学习的方法 *[J]. 数据分析与知识发现, 2019, 3(12): 61-69.
[11] 叶光辉,杨金庆. 基于城市地名实体双向链接分析的路线推荐研究 *[J]. 数据分析与知识发现, 2019, 3(11): 79-88.
[12] 肖连杰,孟涛,王伟,吴志祥. 基于深度学习的情报分析方法识别研究 * ——以安全情报领域为例[J]. 数据分析与知识发现, 2019, 3(10): 20-28.
[13] 徐浩,朱学芳,章成志,江川. 面向学术文献全文本的方法论知识抽取系统分析与设计 *[J]. 数据分析与知识发现, 2019, 3(10): 29-36.
[14] 贾君枝,叶壮壮. 基于潜在语义索引的Wikidata机构实体聚类研究 *[J]. 数据分析与知识发现, 2019, 3(10): 56-65.
[15] 余丽,钱力,付常雷,赵华茗. 基于深度学习的文本中细粒度知识元抽取方法研究*[J]. 数据分析与知识发现, 2019, 3(1): 38-45.
Viewed
Full text


Abstract

Cited

  Shared   
  Discussed   
版权所有 © 2015 《数据分析与知识发现》编辑部
地址:北京市海淀区中关村北四环西路33号 邮编:100190
电话/传真:(010)82626611-6626,82624938
E-mail:jishu@mail.las.ac.cn