中文分词技术研究综述*
唐琳,郭崇慧,陈静锋

Review of Chinese Word Segmentation Studies
Lin Tang,Chonghui Guo,Jingfeng Chen
表3 中文分词相关的多任务联合模型文献分析
Table 3 Analysis of Chinese Word Segmentation Related to Multi-task Joint Model
任务类型 发表年份 作者 来源 研究方法
自然语言统一处理框架 2008 Collobert等[93] ICML 基于深度学习的CNN模型,首次提出自然语言处理统一框架。该框架同时考虑词性标注、浅层语义分析、命名实体识别、语义角色标注进行多任务学习。
中文分词和词性标注 2004 Ng等[76] EMNLP 定义了一种交叉标记方式,能够同时标注两个任务的结果。
2010 Zhang等[94] ACL 基于线性的单模型,通过柱搜索的方法提升解码效率。
2013 Zeng等[95] ACL 基于半监督的方法,采用基于图标签传播的技术。
2013 Qiu等[96] EMNLP 为异质标注语料构建松散的、具有不确定性的映射,在进行训练同时提高异质标注语料的分词及词性标注的准确性。
2013 Zheng等[97] EMNLP 引入深度学习的方法自动学习特征,从而避免了人工的特征筛选,再结合传统的CRF。
2016 Wang等[98] ICIIP 基于层次长短时记忆,在一个目标函数中同时对多个任务进行联合训练,避免了管道模型性的错误传播问题。
2016 Chen等[99] arXiv 提出一种长距依赖的深度框架,基于联合模型同时完成分词和词性标注任务。
2017 Chen等[100] IJCAI 针对中文分词和词性标注任务提出富特征的深度学习框架,也是一种联合模型。该模型也能够解决长距依赖的问题。
中文分词、词性标注和依存句法 2012 Hatori等[101] ACL 提出一种增量的多任务处理联合模型,首次提出能够同时处理中文分词、词性标注和依存句法的联合模型。
2013 Wang等[102] ACL 使用基于晶格的结构,首先句子被划分为词格,在此基础上进行词性标注和依存句法分析,是一种联合模型。
2016 Guo等[103] IEICE Transactions 提出基于字级别的半监督联合处理模型,能够从部分标注的语料中得到N-Gram特征和依赖子树特征。
2016 Shen等[104] COLING 提出一种新颖的标注方法,该方法能够克服传统基于词法标注的两个问题:不一致性问题和稀疏性问题。
中文分词和依存句法分析 2019 Yan等[105] arXiv 首次提出处理中文分词和依存句法的统一模型,该模型为基于图的深度学习模型。
中文分词和未登录词 2015 Li等[106] TALLIP 提出一种基于字的生成式模型,能同时进行分词和未登录词检测。未登录词主要包括:词典中不包含的词、命名实体和后缀衍生词。
中文分词和非正式词检测 2017 Zhang等[107] IJCAI 中文微博语料中存在非正式用词的问题,传统的分词模型不能很好地对该类语料进行分词。针对这个问题,本文提出基于深度学习的分词和非正式词检测的联合模型。
中文分词和中文正确拼写 2017 Shi等[108] SMP 基于注意力机制的Encoder-Decoder架构提出一种序列到序列的标注方法,能够解决中文分词和中文拼写正确性问题。
中文分词和命名实体识别 2019 Wu等[109] WWW 提出一种新的框架CNER,综合使用了深度学习的CNN、LSTM和CRF。该框架能够在分词的同时识别命名实体。