Please wait a minute...
Advanced Search
数据分析与知识发现  2017, Vol. 1 Issue (2): 64-72     https://doi.org/10.11925/infotech.2096-3467.2017.02.09
  研究论文 本期目录 | 过刊浏览 | 高级检索 |
面向食品安全突发事件汉语分词的特征选择及模型优化研究*
张越1, 王东波1,2(), 朱丹浩3
1南京农业大学信息科学技术学院 南京210095
2南京农业大学领域知识关联研究中心 南京 210095
3江苏警官学院图书馆 南京 210031
Segmenting Chinese Words from Food Safety Emergencies
Zhang Yue1, Wang Dongbo1,2(), Zhu Danhao3
1College of Information Science and Technology, Nanjing Agricultural University, Nanjing 210095, China
2Research Center for Correlation of Domain Knowledge, Nanjing Agricultural University, Nanjing 210095, China
3Library of Jiangsu Police Institute, Nanjing 210031, China
全文: PDF (1706 KB)   HTML ( 26
输出: BibTeX | EndNote (RIS)      
摘要 

目的】在食品安全领域中, 建立相关数据库对食品安全的监管和控制都会有很大的帮助, 自动分词在构建索引、使用索引以及构建语料库中都起到至关重要的作用。将基于条件随机场的字标注统计学习方法, 应用在食品安全突发事件语料的自动分词中。【方法】分析语料的词长分布等特点, 对该方法自动分词过程中所涉及的特征选择和特征模板进行不同实验, 得出不同特征选择和应用不同特征模板对分词结果的影响。【结果】从实验结果可以看出, 特征选择时并不是特征越多分词效果越好, 会出现特征干扰的情况, 在二三字词占46.62%的食品安全突发事件语料中, 特征模板中的当前字和前后驱第一个字所代表的特征模板对分词效果影响明显。【结论】通过对不同特征选择和特征模板及其相互组合的实验, 选择出在本文研究的语料库自动分词中最优的特征和特征模板, 在5Tag特征标记下配合对应特征模板对目标语料分词的F值达到92.88%。

服务
把本文推荐给朋友
加入引用管理器
E-mail Alert
RSS
作者相关文章
张越
王东波
朱丹浩
关键词 中文分词食品安全条件随机场特征模板特征选择    
Abstract

[Objective] This paper examines the automatic word segmentation models, which plays key roles to build databases for food safety administration. We used the statistical learning method based on conditional random field to segment words from food safety emergencies. [Methods] First, we analyzed the length of target words and conducted multiple experiments on the selection and template of word features for the automatic segmentation methods. Second, we identified the impacts of different features and templates to the segmentation results. [Results] We found that selecting more features might not yield better results due to the characteristics interference. About 46.62% of the phrases from the corpus of food safety emergencies only contained two or three words. The first words before and after the current word of the features template pose more effects to the results. [Conclusions] We have identified the optimal feature and template for the automatic segmentation of words and the F score reaches 92.88% with the 5Tag features.

Key wordsChinese Word Segmentation    Food Safety    Conditional Random Field    Feature Template    Feature Selection
收稿日期: 2016-09-22      出版日期: 2017-03-27
ZTFLH:  G351  
基金资助:*本文系国家自然科学基金项目“基于CSSCI的句法级汉英平行语料库构建及知识挖掘研究”(项目编号: 71303120)、2011协同中心项目“面向应急推演平台的海量突发事件知识库与模型库构建研究”(项目编号: JD20150101)和江苏省高校哲学社会科学项目“高校危机管理案例知识库构建及知识挖掘研究”(项目编号: 2014SJB246)的研究成果之一
引用本文:   
张越, 王东波, 朱丹浩. 面向食品安全突发事件汉语分词的特征选择及模型优化研究*[J]. 数据分析与知识发现, 2017, 1(2): 64-72.
Zhang Yue,Wang Dongbo,Zhu Danhao. Segmenting Chinese Words from Food Safety Emergencies. Data Analysis and Knowledge Discovery, 2017, 1(2): 64-72.
链接本文:  
http://manu44.magtech.com.cn/Jwk_infotech_wk3/CN/10.11925/infotech.2096-3467.2017.02.09      或      http://manu44.magtech.com.cn/Jwk_infotech_wk3/CN/Y2017/V1/I2/64
  无向图最大全联通子图示例
  线性链的CRF图形结构
  实验所用语料库构建过程
  实验流程
文本语料 正确标记 CRF输出标记 文本语料 正确标记 CRF输出标记
S S S S
B S B B
E S I E
S S M B
B B E E
E E S S
  CRF分词后输出结果示例
标记类型 标记描述
4Tag
{B, M, E, S}
B表示词首字, M表示词中字, E表示词尾字,
S表示单字词字。
5Tag
{B, I, M, E, S}
B表示词首字, I表示四字以上词首后第一个字, M表示词中, E表示词尾字, S表示单字词字。
6Tag
{B, I, J, M, E, S}
B表示词首字, I表示四字以上词首后第一个字, J表示五字以上词首后第二个字, M表示词中字, E表示词尾字, S表示单字词字。
  位置特征标记
特征标记 标记数量 标记所占百分比
B 597 343.7 30.22%
M 158 744.3 8.03%
E 597 343.7 30.21%
S 623 538.5 31.54%
  4Tag特征标记数量情况
特征标记 标记数量 标记所占百分比
B 597 343.7 30.22%
I 28 529 1.44%
M 130 215.3 6.59%
E 597 343.7 30.21%
S 623 538.5 31.54%
  5Tag特征标记数量情况
特征标记 标记数量 标记所占百分比
B 597 343.7 30.22%
I 28 529 1.44%
J 11 595.4 0.59%
M 118 619.9 6.00%
E 597 343.7 30.21%
S 623 538.5 31.54%
  6Tag特征标记数量情况
食品安全语料 字音特征 词长特征 位置特征
mei 2 B
ti 2 E
diao 2 B
cha 2 E
jie 2 B
tou 2 E
liang 3 B
ban 3 M
cai 3 E
yuan 2 B
liao 2 E
bu 2 B
fen 2 E
wei 1 S
ren 2 B
zao 2 E
huo 1 S
han 1 S
tian 3 B
jia 3 M
ji 3 E
  添加多个特征之后的训练语料
特征选择 P值 R值 F值
4Tag 92.85% 92.89% 92.87%
4Tag+词长 92.74% 92.78% 92.76%
4Tag+字音 92.53% 92.57% 92.55%
4Tag+词长+字音 92.67% 92.69% 92.68%
5Tag 92.85% 92.90% 92.88%
5Tag+词长 92.64% 92.69% 92.67%
5Tag+字音 92.32% 92.38 92.35%
5Tag+词长+字音 92.02% 92.08% 92.05%
6Tag 92.20% 92.11% 92.16%
6Tag+词长 92.09% 92.00% 92.04%
6Tag+字音 92.00% 91.90% 91.95%
6Tag+词长+字音 91.71% 91.60% 91.65%
  不同特征组合的分词测评结果
特征 特征模板 特征描述
C-2 U01:%x[-2, 0] 当前字的前驱第二个字
C-1 U02:%x[-1, 0] 当前字的前驱第一个字
C0 U03:%x[0, 0] 当前字
C1 U04:%x[1, 0] 当前字的后驱第一个字
C2 U05:%x[2, 0] 当前字的后驱第二个字
C-1C0 U06:%x[-1, 0]/%x[0, 0] 前一个字到当前字的转移概率
C0C1 U07:%x[0, 0]/%x[1, 0] 当前字到后一个字的转移概率
C-1C1 U08:%x[-1, 0]/%x[1, 0] 前一个字到后一个字的转移概率
  基本的特征模板
特征模板(对比表8) F值
原始特征模板 92.88%
移除一元特征C-2、C2、C-1、C1 92.72%
移除二元特征C-1C0、C0C1、C-1C1 86.33%
增加一元特征C-3、C3 92.73%
增加二元特征C1C2、C-1C-2 92.56%
  应用不同特征模板的分词结果
  不同特征组合所得F值变化趋势
词类型 词长度 所占百分比
单字词 1 039 205 51.10%
二字词 841 690 41.39%
三字词 106 307 5.23%
四字词 28 220 1.39%
五字词 8 893 0.44%
六字词 2 626 0.13%
其他 6 598 0.32%
  食品安全突发事件语料中词长分布
[1] 李洪峰. 食品安全社会共治的现实困境与发展对策[J]. 食品与机械, 2016, 32(4): 234-236.
[1] (Li Hongfeng.Analysis of Realistic Plights and Countermeasures in Social Co- governance on Food Safety in China[J]. Food & Machinery, 2016, 32(4): 234-236.)
[2] 王辉霞. 公众参与食品安全治理法治探析[J]. 商业研究, 2012(4): 170-177.
doi: 10.3969/j.issn.1001-148X.2012.04.028
[2] (Wang Huixia.Public Participation in Food Safety Management of the Rule of Law[J]. Commercial Research, 2012(4): 170-177.)
doi: 10.3969/j.issn.1001-148X.2012.04.028
[3] 奉国和, 郑伟.国内中文自动分词技术研究综述[J].图书情报工作, 2011, 55(2): 41-45.
[3] (Feng Guohe, Zheng Wei.Review of Chinese Automatic Word Segmentation[J]. Library and Information Service, 2011, 55(2): 41-45.)
[4] 张星联, 唐晓纯. 我国食品安全预警数据库系统的建设与实现[J]. 食品科技, 2008, 33(12): 250-254.
doi: 10.3969/j.issn.1005-9989.2008.12.065
[4] (Zhang Xinglian, Tang Xiaochun.Establishment on Database System of Food Safety Early-warning in China[J]. Food Science and Technology, 2008, 33(12): 250-254.)
doi: 10.3969/j.issn.1005-9989.2008.12.065
[5] 吴云红, 朱亮, 初炜, 等. 食品监管改革的关键——基于互联网的动态第三方数据库[J]. 食品工业科技, 2009(9): 272-274.
[5] (Wu Yunhong, Zhu Liang, Chu Wei, et al.Key of Food Supervision and Administration Reform-dynamic and Third Party Database Based on Internet[J]. Science and Technology of Food Industry, 2009 (9): 272-274.)
[6] 余清, 洪源. 加工食品风险数据库的构建思路[J]. 价值工程, 2013(30): 174-175.
doi: 10.3969/j.issn.1006-4311.2013.30.092
[6] (Yu Qing, Hong Yuan.Construction Idea for Risk Database of Processed Food[J]. Value Engineering, 2013(30): 174-175.)
doi: 10.3969/j.issn.1006-4311.2013.30.092
[7] 贾凯, 彭培好, 阮伟玲. 四川省彭州市三界镇农民专业合作社调查研究[J].北京农业, 2014(3): 247-248.
doi: 10.3969/j.issn.1000-6966.2014.03.190
[7] (Jia Kai, Peng Peihao, Ruan Weiling.Study on the Investigation of Farmer Cooperatives in Sanjie Town, Pengzhou City, Sichuan Province[J]. Beijing Agriculture, 2014(3): 247-248.)
doi: 10.3969/j.issn.1000-6966.2014.03.190
[8] 黄昌宁, 赵海. 中文分词十年回顾[J]. 中文信息学报, 2007, 21(3): 8-19.
doi: 10.3969/j.issn.1003-0077.2007.03.002
[8] (Huang Changning, Zhao Hai.Chinese Word Segmentation: A Decade Review[J]. Journal of Chinese Information Processing, 2007, 21(3): 8-19.)
doi: 10.3969/j.issn.1003-0077.2007.03.002
[9] Zeng D, Wei D, Chau M, et al.Domain-specific Chinese Word Segmentation Using Suffix Tree and Mutual Information[J]. Information Systems Frontiers, 2011, 13(1): 115-125.
doi: 10.1007/s10796-010-9278-5
[10] 刘泽文, 丁冬, 李春文. 基于条件随机场的中文短文本分词方法[J]. 清华大学学报:自然科学版, 2015, 55(8): 16-20.
[10] (Liu Zewen, Ding Dong, Li Chunwen.Chinese Word Segmentation Method for Short Chinese Text Based on Conditional Random Fields[J]. Journal of Tsinghua University:Science and Technology, 2015, 55(8): 16-20.)
[11] Lafferty J D, McCallum A, Pereira F. Conditional Random Fields: Probabilistic Models for Segmenting and Labeling Sequence Data[C]//Proceedings of the 18th International Conference on Machine Learning. 2001: 282-289.
[12] Pearl J.Bayes and Markov Networks:A Comparison of Two Graphical Representations of Probabilistic Knowledge [R]. Los Angeles, California, USA: University of California, 1986.
[13] Wallach H M.Conditional Random Fields: An Introduction [EB/OL]. (2004-02-24). .
[14] CRF++: Yet Another CRF Toolkit [EB/OL]. [2014-08-04]. .
[15] 中国科学院计算技术研究所. ICTCLAS汉语分词系统 [CP/OL]. (2016-02-17). [2016-06-30]. .
[15] (Institute of Computing Technology of the Chinese Academy of Sciences. ICTCLAS Chinese Word Segmentation System [CP/OL]. (2016-02-17). [2016-06-30].
[16] 岳金媛, 徐金安, 张玉洁. 面向专利文献的汉语分词技术研究[J]. 北京大学学报: 自然科学版, 2013, 49(1): 159-164 .
[16] (Yue Jinyuan, Xu Jin’an, Zhang Yujie.Chinese Word Segmentation for Patent Documents[J]. Acta Scientiarum Naturalium Universitatis Pekinensis, 2013, 49(1): 159-164.)
[17] Chen L, Li M, Zhang J, et al.A Double-Layer Word Segmentation Combined with Local Ambiguity Word Grid and CRF[J]. Transactions on Computer Science & Technology, 2013, 2(1): 1-8.
[18] 黄水清, 王东波, 何琳. 以《汉学引得丛刊》为领域词表的先秦典籍自动分词探讨[J]. 图书情报工作, 2015, 59(11): 127-133.
doi: 10.13266/j.issn.0252-3116.2015.11.018
[18] (Huang Shuiqing, Wang Dongbo, He Lin.Exploring of Word Segmentation for Fore-Qin Literature Based on the Domain Glossary of Sinological Index Series[J]. Library and Information Service, 2015, 59(11): 127-133.)
doi: 10.13266/j.issn.0252-3116.2015.11.018
[19] Zhao H, Huang C N, Li M, et al.An Improved Chinese Word Segmentation System with Conditional Random Field[C]// Proceedings of the 5th SIGHAN Workshop on Chinese Language Processing.2006: 162-165.
[1] 赵平,孙连英,涂帅,卞建玲,万莹. 改进的知识迁移景点实体识别算法研究及应用*[J]. 数据分析与知识发现, 2020, 4(5): 118-126.
[2] 李成梁,赵中英,李超,亓亮,温彦. 基于依存关系嵌入与条件随机场的商品属性抽取方法*[J]. 数据分析与知识发现, 2020, 4(5): 54-65.
[3] 唐琳,郭崇慧,陈静锋. 中文分词技术研究综述*[J]. 数据分析与知识发现, 2020, 4(2/3): 1-17.
[4] 尤众喜,华薇娜,潘雪莲. 中文分词器对图书评论和情感词典匹配程度的影响 *[J]. 数据分析与知识发现, 2019, 3(7): 23-33.
[5] 黄菡,王宏宇,王晓光. 结合主动学习的条件随机场模型用于法律术语的自动识别*[J]. 数据分析与知识发现, 2019, 3(6): 66-74.
[6] 周成,魏红芹. 专利价值评估与分类研究*——基于自组织映射支持向量机[J]. 数据分析与知识发现, 2019, 3(5): 117-124.
[7] 梁家铭,赵洁,Jianlong Zhou,董振宁. 用户隐式行为挖掘在抗信誉共谋中的应用研究*[J]. 数据分析与知识发现, 2019, 3(5): 125-138.
[8] 温廷新,李洋子,孙静霜. 基于多因素特征选择与AFOA/K-means的新闻热点发现方法*[J]. 数据分析与知识发现, 2019, 3(4): 97-106.
[9] 谭章禄,王兆刚,胡翰. 一种基于χ2统计的特征分类选择方法研究*[J]. 数据分析与知识发现, 2019, 3(2): 72-78.
[10] 肖连杰,孟涛,王伟,吴志祥. 基于深度学习的情报分析方法识别研究 * ——以安全情报领域为例[J]. 数据分析与知识发现, 2019, 3(10): 20-28.
[11] 唐慧慧,王昊,张紫玄,王雪颖. 基于汉字标注的中文历史事件名抽取研究*[J]. 数据分析与知识发现, 2018, 2(7): 89-100.
[12] 冯国明,张晓冬,刘素辉. 基于自主学习的专业领域文本DBLC分词模型[J]. 数据分析与知识发现, 2018, 2(5): 40-47.
[13] 温廷新,李洋子,孙静霜. 基于改进的果蝇优化算法的文本特征选择优化模型[J]. 数据分析与知识发现, 2018, 2(5): 59-69.
[14] 倪维健,孙浩浩,刘彤,曾庆田. 面向领域文献的无监督中文分词自动优化方法*[J]. 数据分析与知识发现, 2018, 2(2): 96-104.
[15] 陈芬,付希,何源,薛春香. 融合社会网络分析与影响力扩散模型的微博意见领袖发现研究*[J]. 数据分析与知识发现, 2018, 2(12): 60-67.
Viewed
Full text


Abstract

Cited

  Shared   
  Discussed   
版权所有 © 2015 《数据分析与知识发现》编辑部
地址:北京市海淀区中关村北四环西路33号 邮编:100190
电话/传真:(010)82626611-6626,82624938
E-mail:jishu@mail.las.ac.cn