Please wait a minute...
Advanced Search
数据分析与知识发现  2018, Vol. 2 Issue (5): 40-47     https://doi.org/10.11925/infotech.2096-3467.2017.1302
  研究论文 本期目录 | 过刊浏览 | 高级检索 |
基于自主学习的专业领域文本DBLC分词模型
冯国明, 张晓冬(), 刘素辉
北京科技大学经济管理学院 北京 100083
DBLC Model for Word Segmentation Based on Autonomous Learning
Feng Guoming, Zhang Xiaodong(), Liu Suhui
School of Economics and Management, University of Science and Technology Beijing, Beijing 100083, China
全文: PDF (613 KB)   HTML ( 2
输出: BibTeX | EndNote (RIS)      
摘要 

【目的】 提高对专业术语、名词占比较高的专业领域文本的分词准确度。【方法】 提出将词典、统计、深度学习三者有机结合的DBLC模型, 并编程实现。获取中国管理案例库中的部分案例作为专业领域语料, 将其他几种已有分词模型作为对比对象进行实验与分析。【结果】 通过实验得到各模型在实验语料上的分词效果, DBLC模型在各评价指标上均优于其他模型, 分词准确率达到96.3%。【局限】未对原词典词与新词做区别处理, 没有考虑词典的存储结构问题, 模型计算时间复杂度较高。【结论】 本文提出的DBLC模型提高了专业领域文本的分词准确度, 且该模型分词准确率与词典规模正相关。

服务
把本文推荐给朋友
加入引用管理器
E-mail Alert
RSS
作者相关文章
冯国明
张晓冬
刘素辉
关键词 中文分词序列标注BI-LSTM-CRF自主学习基于词典的分词    
Abstract

[Objective] This paper tries to improve the accuracy of word segmentation for literature with lots of scientific terms. [Methods] First, we programed the DBLC model, which combined the methods of dictionary, statistics and deep learning. Then, we retrieved articles from the Chinese Management Case Center to build the experimental corpus. Finally, we compared the performance of this new model with the existing ones. [Results] The performance of the DBLC model was better than others. Its word segmentation accuracy was up to 96.3%. [Limitations] We did not separate the words of the original dictionary from the new words. We did not re-design the storage structure of the dictionary, which prolonged the computing time of our model. [Conclusions] The proposed DBLC model improves the accuracy of word segmentation, which is also positively co-related to the dictionary size.

Key wordsChinese Word Segmentation    Sequence Labeling    BI-LSTM-CRF    Autonomous Learning    Word Segmentation Based on Dictionary
收稿日期: 2017-12-21      出版日期: 2018-06-20
ZTFLH:  G350  
引用本文:   
冯国明, 张晓冬, 刘素辉. 基于自主学习的专业领域文本DBLC分词模型[J]. 数据分析与知识发现, 2018, 2(5): 40-47.
Feng Guoming,Zhang Xiaodong,Liu Suhui. DBLC Model for Word Segmentation Based on Autonomous Learning. Data Analysis and Knowledge Discovery, 2018, 2(5): 40-47.
链接本文:  
https://manu44.magtech.com.cn/Jwk_infotech_wk3/CN/10.11925/infotech.2096-3467.2017.1302      或      https://manu44.magtech.com.cn/Jwk_infotech_wk3/CN/Y2018/V2/I5/40
  DBLC模型处理流程
  词典匹配模块流程
  CRF模型新词发现的过程
  LSTM模型的网络结构
  LSTM模型的神经单元结构
  BI-LSTM-CRF模型网络结构[11]
类别
数据集
训练集 测试集 合计字数
战略管理 33篇 7篇 61万
项目管理 33篇 7篇 71万
管理信息系统 33篇 7篇 58万
合计字数 143万 47万 190万
  实验数据组成及分类
  累计新词数-累计词数
  累计词典词字数-累计字数
方法 分词结果 方法 分词结果
FMM 百丽/鞋业/采取/纵向/一体化/敏捷供应链/的/业务/模式 BI-LSTM-CRF 百丽鞋业/采取/纵向/一体化/敏捷供应链/的/业务模式
JIEBA 百丽/鞋业/采取/纵向/一体化/敏捷供应链/的/业务模式 DBLC 百丽鞋业/采取/纵向一体化(NW)/敏捷供应链/的/业务模式
CRF 百丽鞋业/采取/纵向/一体化/敏捷供应链/的/业务模式 正确分词 百丽鞋业/采取/纵向一体化/敏捷供应链/的/业务模式
  各模型的标注结果举例
数据集
指标值
方法
战略管理 项目管理 管理信息系统 汇总
P R F P R F P R F P R F
FMM 0.837 - - 0.820 - - 0.874 - - 0.849 - -
JIEBA 0.892 - - 0.867 - - 0.894 - - 0.868 - -
CRF 0.917 0.909 0.913 0.889 0.882 0.885 0.925 0.919 0.922 0.891 0.885 0.888
BI-LSTM-CRF 0.903 0.886 0.894 0.934 0.93 0.932 0.907 0.896 0.901 0.946 0.939 0.942
DBLC 0.937 0.927 0.932 0.951 0.946 0.948 0.927 0.921 0.924 0.963 0.95 0.957
  各分词方法在案例库语料上的实验结果
  模型准确率-词典规模
[1] 刘源, 谭强, 沈旭昆. 信息处理用现代汉语分词规范及自动分词方法[M]. 北京: 中国标准出版社, 1994.
[1] (Liu Yuan, Tan Qiang, Shen Xukun.Modern Chinese Word Segmentation and Automatic Word Segmentation Method for Information Processing[M]. Beijing: Standards Press of China, 1994.)
[2] Sui Z, Chen Y, Hu J.The Research on the Automatic Term Extraction in the Domain of Information Science and Technology[C]// Proceedings of the 5th East Asia Forum of the Terminology. 2002.
[3] Xue N.Chinese Word Segmentation as Character Tagging[J]. Computational Linguistics and Chinese Language Processing, 2003, 8(1): 29-47.
[4] 刘群, 张华平, 俞鸿魁, 等. 基于层叠隐马模型的汉语词法分析[J]. 计算机研究与发展, 2004, 41(8): 1421-1429.
[4] (Liu Qun, Zhang Huaping, Yu Hongkui, et al.Chinese Lexical Analysis Using Cascaded Hidden Markov Mode[J]. Journal of Computer Research and Development, 2004, 41(8): 1421-1429.)
[5] Peng F, Feng F, McCallum A. Chinese Segmentation and New Word Detection Using Conditional Random Fields[C]// Proceedings of the 20th International Conference on Computational Linguistics. 2004.
[6] Lafferty J D, McCallum A, Pereira F C N. Conditional Random Fields: Probabilistic Models for Segmenting and Labeling Sequence Data[C]// Proceedings of the 18th International Conference on Machine Learning. 2001: 282-289.
[7] 徐浩煜, 任智慧, 施俊, 等. 基于链式条件随机场的中文分词改进方法[J]. 计算机应用与软件, 2016, 33(12): 211-213.
doi: 10.3969/j.issn.1000-386x.2016.12.050
[7] (Xu Haoyu, Ren Zhihui, Shi Jun, et al.An Improved Chinese Word Segmentation Method Based on Chain Conditional Random Fields[J]. Computer Applications and Software, 2016, 33(12): 211-213.)
doi: 10.3969/j.issn.1000-386x.2016.12.050
[8] 邓丽萍, 罗智勇.基于半监督CRF的跨领域中文分词[J]. 中文信息学报, 2017, 31(4): 9-19.
[8] (Deng Liping, Luo Zhiyong.Domain Adaptation of Chinese Word Segmentation on Semi-Supervised Conditional Random Fields[J]. Journal of Chinese Information Processing, 2017, 31(4): 9-19.)
[9] Collobert R, Weston J.A Unified Architecture for Natural Language Processing: Deep Neural Networks with Multitask Learning[C]// Proceedings of the 25th International Conference on Machine Learning. 2008: 160-167.
[10] Zheng X, Chen H, Xu T.Deep Learning for Chinese Word Segmentation and POS Tagging[C]// Proceedings of the 2015 International Conference on Empirical Methods in Natural Language Processing. 2013.
[11] Chen X, Qiu X, Zhu C, et al.Long Short-Term Memory Neural Networks for Chinese Word Segmentation[C]// Proceedings of the 2015 International Conference on Empirical Methods in Natural Language Processing. 2015: 1197-1206.
[12] Yao K, Cohn T, Vylomova K, et al. Depth-Gated Recurrent Neural Networks[OL]. arXiv Preprint, arXiv: 1508.03790, 2015.
[13] 张子睿, 刘云清. 基于BI-LSTM-CRF模型的中文分词法[J].长春理工大学学报: 自然科学版, 2017, 40(4): 87-92.
[13] (Zhang Zirui, Liu Yunqing.Chinese Word Segmentation Based on Bi-directional LSTM-CRF Model[J]. Journal of Changchun University of Science and Technology, 2017, 40(4): 87-92)
[14] Mikolov T, Chen K, Corrado G, et al. Efficient Estimation of Word Representations in Vector Space[OL]. arXiv Preprint, arXiv:1301.3781, 2013.
[15] 王惠仙, 龙华. 基于改进的正向最大匹配中文分词算法研究[J]. 贵州大学学报: 自然版, 2011, 28(5): 112-115.
doi: 10.3969/j.issn.1000-5269.2011.05.027
[15] (Wang Huixian, Long Hua.The Research of Chinese Word Segmentation Algorithm Based on Forward Maximum Match[J]. Journal of Guizhou University: Natural Science, 2011, 28(5): 112-115.)
doi: 10.3969/j.issn.1000-5269.2011.05.027
[1] 王一钒,李博,史话,苗威,姜斌. 古汉语实体关系联合抽取的标注方法*[J]. 数据分析与知识发现, 2021, 5(9): 63-74.
[2] 胡昊天,吉晋锋,王东波,邓三鸿. 基于深度学习的食品安全事件实体一体化呈现平台构建*[J]. 数据分析与知识发现, 2021, 5(3): 12-24.
[3] 唐琳,郭崇慧,陈静锋. 中文分词技术研究综述*[J]. 数据分析与知识发现, 2020, 4(2/3): 1-17.
[4] 尤众喜,华薇娜,潘雪莲. 中文分词器对图书评论和情感词典匹配程度的影响 *[J]. 数据分析与知识发现, 2019, 3(7): 23-33.
[5] 倪维健, 孙浩浩, 刘彤, 曾庆田. 面向领域文献的无监督中文分词自动优化方法*[J]. 数据分析与知识发现, 2018, 2(2): 96-104.
[6] 张越, 王东波, 朱丹浩. 面向食品安全突发事件汉语分词的特征选择及模型优化研究*[J]. 数据分析与知识发现, 2017, 1(2): 64-72.
[7] 王密平,王昊,邓三鸿,吴志祥. 基于CRFs的冶金领域中文专利术语抽取研究*[J]. 现代图书情报技术, 2016, 32(6): 28-36.
[8] 余昕聪, 李红莲, 吕学强. 本体上下位关系在招生问答机器人中的应用研究[J]. 现代图书情报技术, 2015, 31(12): 65-71.
[9] 张杰, 张海超, 翟东升. 面向中文专利权利要求书的分词方法研究[J]. 现代图书情报技术, 2014, 30(9): 91-98.
[10] 李文江, 陈诗琴. AIMLBot智能机器人在实时虚拟参考咨询中的应用[J]. 现代图书情报技术, 2012, 28(7): 127-132.
[11] 江华, 苏晓光. 无词典中文高频词快速抽取算法[J]. 现代图书情报技术, 2012, 28(6): 50-53.
[12] 石崇德, 王惠临. 统计机器翻译中文分词优化技术研究[J]. 现代图书情报技术, 2012, 28(4): 29-34.
[13] 谷俊, 王昊. 基于领域中文文本的术语抽取方法研究[J]. 现代图书情报技术, 2011, 27(4): 29-34.
[14] 王昊, 邓三鸿, 苏新宁. 基于字序列标注的中文关键词抽取研究[J]. 现代图书情报技术, 2011, 27(12): 39-45.
[15] 常智荣,马自卫,李高虎. 基于Nutch的专题网页资源采集服务系统的设计与实现[J]. 现代图书情报技术, 2010, 26(3): 19-26.
Viewed
Full text


Abstract

Cited

  Shared   
  Discussed   
版权所有 © 2015 《数据分析与知识发现》编辑部
地址:北京市海淀区中关村北四环西路33号 邮编:100190
电话/传真:(010)82626611-6626,82624938
E-mail:jishu@mail.las.ac.cn