数据分析与知识发现, 2020, 4(2/3): 1-17 doi: 10.11925/infotech.2096-3467.2019.1059

专辑

中文分词技术研究综述*

唐琳, 郭崇慧,,, 陈静锋

大连理工大学系统工程研究所 大连 116024

Review of Chinese Word Segmentation Studies

Tang Lin, Guo Chonghui,,, Chen Jingfeng

Institute of Systems Engineering, Dalian University of Technology, Dalian 116024, China

通讯作者: 郭崇慧, ORCID: 0000-0002-5155-1297, E-mail:dlutguo@dlut.edu.cn

收稿日期: 2019-09-23   修回日期: 2019-11-3   网络出版日期: 2020-02-25

基金资助: *本文系国家自然科学基金项目“电子病历挖掘中的聚类模型与算法研究”.  71771034
揭阳市科技计划项目“大数据驱动的中药材产业发展决策支持系统”的研究成果之一.  2017xm041

Received: 2019-09-23   Revised: 2019-11-3   Online: 2020-02-25

摘要

【目的】 梳理中文分词领域的关键问题、算法和模型,为研究人员提供理论基础和实践指导。【文献范围】 使用知网数据库、万方数据知识服务平台和计算机科学文献库DBLP检索中文分词相关文献,共选择109篇代表性文献进行综述。【方法】 归纳中文分词的发展历程及关键问题,分类总结中文分词的算法和模型,并详述近期的热点研究问题。【结果】 使用多个标注数据集的多准则分词模型是中文分词的研究难点,解决中文分词和自然语言处理其他子任务的多任务联合模型是当前研究的热点。【局限】 没有深入对比分析中文分词的无监督学习方法。【结论】 虽然现有的中文分词方法能在一定程度上满足诸多应用的需求,但是在大数据环境下多视角、多任务和多准则的联合模型研究仍存在挑战。

关键词: 中文分词 ; 分词算法 ; 多准则学习 ; 联合模型

Abstract

[Objective] This paper summarizes key issues, algorithms, and models from the field of Chinese word segmentation, aiming to provide theoretical basis and practical guidance for future research.[Coverage] We reviewed a total of 109 papers from CNKI, Wanfang Data Knowledge Service Platform, and DBLP Computer Science Bibliography.[Methods] First, we discussed the developments and critical issues facing Chinese word segmentation. Then, we explored algorithms and models for Chinese word segmentation. Finally, we identified popular research topics and trends.[Results] The main challenge facing researchers is creating a Multi-Criteria Learning Model for Chinese Word Segmentation with multiple annotation datasets. The most popular research topic is building Multi-task joint model to finish both Chinese word segmentation and other natural language processing tasks.[Limitations] More research is needed to review studies on unsupervised learning approaches for Chinese word segmentation.[Conclusions] The existing methods of Chinese word segmentation still face challenges in building joint models with multi-perspective, multi-task, and multi-criterion features.

Keywords: Chinese ; Word ; Segmentation ; Word ; Segmentation ; Algorithm ; Multi-Criteria ; Learning ; Joint ; Model

PDF (2261KB) 元数据 多维度评价 相关文章 导出 EndNote| Ris| Bibtex  收藏本文

本文引用格式

唐琳, 郭崇慧, 陈静锋. 中文分词技术研究综述*. 数据分析与知识发现[J], 2020, 4(2/3): 1-17 doi:10.11925/infotech.2096-3467.2019.1059

Tang Lin. Review of Chinese Word Segmentation Studies. Data Analysis and Knowledge Discovery[J], 2020, 4(2/3): 1-17 doi:10.11925/infotech.2096-3467.2019.1059

编者按:2019年7月10-11日,第二届“数据分析与知识发现”学术研讨会在兰州召开。会议评选出25篇优秀论文,在《数据分析与知识发现》期刊以会议专辑形式出版。

1 引 言

中文文本中词与词之间没有明确的分割标记,而是以连续字符串形式呈现。所以,任何中文自然语言处理任务都必须解决中文序列切分的问题——中文分词。中文分词是通过某种方法或方法的组合,将输入的中文文本基于某种需求并按照特定的规范划分为“词”的过程[1]。由于任务不同、视角不同、准则不同,不同人对“词”的定义持有不同意见,这也成为中文分词需要解决的一个难题。中文分词已有30余年的研究历史,相应的中文分词研究成果被应用到自然语言处理的不同任务中,包括信息检索、机器翻译、语音识别、文本错误识别、中文繁简体自动转换、自动问答等。

1987年梁南元[2]撰写中文分词综述,介绍当时主流的中文分词方法——机械分词(也称为词典匹配法)。该方法需要预先构建一个词典,再使用匹配算法实现分词。初期的机器词典质量不佳、匹配方法研究尚且粗浅等原因导致机械分词的切分结果偏差较大。1997年刘开瑛[3]对汉语自动分词测评技术进行总结。随着研究的深入,机械分词方法逐步走向成熟。2001年孙茂松[4]基于清华大学的相关工作,介绍中文分词研究的若干最新进展,对机械分词方法中的词典、匹配算法、以及如何解决歧义切分问题进行总结归纳。2007年黄昌宁等[5]归纳中文分词的研究难题:未登录词识别和歧义消解。未登录词识别是机械分词方法无法解决的难题,限制了分词准确率的提升。该研究根据Bakeoff测试数据总结说明,对中文分词的后续研究产生了深远影响。2008年何莘等[6]从自然语言检索角度对中文分词进行讨论。2011年奉国和等[7]基于专家经验的方法对中文分词的中文文献总结归纳,发现相关算法聚焦在机械分词和传统机器学习方面。这一时期基于字粒度的机器学习算法已经能够一定程度上解决未登录词识别的问题。但是,人工特征选择是影响传统机器学习方法分词结果的重要因素。近年,基于深度学习的中文分词方法无需人工选择特征,且有较高的分词准确率,对中文分词算法的进一步发展产生了巨大影响。赵芳芳等[8]、梁喜涛等[9]对中文分词和词性标注两个密切关联的自然语言处理任务进行探讨。赵海等[10]对机器学习中监督学习和深度学习两种主流算法2007年-2017年的发展进行梳理。

中文分词是自然语言处理中的基础工作,是一个复杂的研究问题。本文于2019年10月使用中国知网数据库、万方数据知识服务平台,以“中文分词”、“汉语分词”为主题词检索相关文献,共获得5 064篇文献的标题、关键字和摘要。使用计算机科学领域文献库(DBLP),利用关键字“Chinese Word Segmentation”检索,共获得402篇文献的标题、关键字和摘要。人工阅读标题和摘要,筛选以中文分词为主要研究目的“中文分词文献”共计1 884篇,其中中文1 504篇,英文380篇。最终获取的“中文分词文献”发表年份的数量分布如图1所示。发现从2003年开始,学术界对中文分词一直保持着较高的关注度。本文根据文献研究的具体问题和方法进行人工筛选,保留最具代表性的109篇文献,进行系统总结和分析后,提出需要进一步研究的科学问题。

图1

图1   “中文分词文献”发表年份的数量分布

Fig. 1   Distribution of Chinese Word Segmentation


最初下载的5 466篇中英文文献,大部分是以中文分词为基础,研究特定领域的自然语言处理任务。文献标题大多数包含其应用领域,因此本文基于文献标题探索中文分词的应用场景,得到“中文分词文献”标题词语共现网络如图2所示。

图2

图2   “中文分词文献”标题名词共现网络

Fig.2   Co-occurrence Network of the Nouns in Chinese Word Segmentation Literature Titles


其中,英文标题先使用百度翻译得到中文翻译,再与中文文献标题合并预处理。预处理先进行分词,分词结果仅保留名词,最后去掉“中文分词”、“汉语分词”等没有具体应用领域的词语。出现在同一标题中的作为共现词语。图中节点越大表示出现次数越多,连边越粗代表共现次数越多。图2(a)是5 466篇文献标题的名词共现网络,中文分词最多的应用场景是搜索,包括搜索引擎、全文检索、信息检索等;其次是微博、评论的舆情和情感分析。中文分词作为语义分析的基础,与已有知识库本体紧密相关。图2(b)是2017年-2019年“中文分词文献”标题共线网络,基于评论、微博、商品等数据的情感分析和分类成为主流研究热点,舆情相关的文本被热点关注。热门领域包括金融、医疗、教育等。知识图谱替代本体成为与中文分词紧密相关的知识库。由于搜索技术趋于成熟,近三年搜索相关研究的热度明显减少。

本文从以下三方面对中文分词进行综述:

(1)梳理中文分词评测及相关会议,按时间维度总结,以时间线方式简述测评中各自的重点任务。

(2)总结中文分词的发展历程及过程中的关键问题,分析中文分词的研究现状,展望未来的研究方向。

(3)分析中文分词算法、模型并分类总结。

2 中文分词的发展历程

自然语言处理任务日益成为学术界和产业界关注的热点,中文分词作为自然语言处理的基础任务和关键任务,成为研究的核心热点。380篇英文文献大多是会议文献,来源包括ACL、EMNLP、COLING、IJCNLP等。自然语言处理会议悉数关注中文分词文献,收录最多的会议是ACL,自2003年几乎每年都有中文分词相关文献收录。SIGHAN是国际计算语言学协会中文处理特别兴趣组,共举行9次研讨会,共计发表中文分词相关文献达76篇。SIGHAN采用多家机构的评测数据组织多次评测(即BakeOff),评测使用封闭测试和开放测试两种方法。封闭测试只允许使用固定训练语料学习相应的模型,而开放测试可以使用任意资源。测试使用的评价指标包括准确率、召回率和F值。其中,对比的黄金标准是人工标注的数据集。SIGHAN和中国中文信息学会(CIPS)先后三次举办中文处理资源与评测国际会议,称为CIPS-SIGHAN。中文分词的评测和相关会议都极大地推动了中文分词的发展。

以SIGHAN及CIPS-SIGHAN的评测为主线,展示历届评测的重点内容和相关联的国际会议、时间,如图3所示。图中左侧使用不同颜色矩形框区分各个会议,圆形中的数字表示举办到第几届,评测与会议联合举办则增加了连线。

图3

图3   中文分词相关会议与评测的主题及时间分布

Fig.3   Topics and Time Distribution of the Conferences Related to Chinese Word Segmentation


SIGHAN2005[11]提供的数据集中包括训练集、测试集以及测试集黄金分割标准,除此之外还提供一个用于评分的脚本。比赛数据由4个数据集组成,分别是简体中文的北京大学PKU数据集和微软研究院MSR数据集;繁体中文的CityU数据集和AS数据集。它们至今仍作为学术界评测分词方法准确程度的重要标准。在这些数据集上评测的最佳F值结果如表1所示,包括比赛评测和后续文献。不同方法的最佳F值基本达到甚至超过95%。单纯设计一种学习算法已很难继续提升分词精度,如何更有效地结合不同算法是未来的研究方向。开放测试除了需要关注算法本身,更好的预训练和后处理对于提升分词结果至关重要。

表1   SIGHAN2005数据集上的F值测试结果(%)

Table1  F-value Test Results on SIGHAN2005 Dataset (%)

年份作者研究方法来源封闭测试开放测试
PKUMSRCityUASPKUMSRCityUAS
2018Zhang等[12]结合词典的深度学习方法AAAI----96.597.896.395.9
2017Cai等[13]基于字和词的深度学习方法ACL95.497.095.495.295.897.195.695.3
2015Chen等[14]基于深度学习的长短期记忆网络EMNLP94.395.0--96.597.4--
2012Sun等[15]基于丰富特征的现联合学习模型同时学习中文分词和新词发现ACL95.497.494.8-----
2010Zhao等[16]基于字的6位标注方法TALIP-----98.397.896.1
2008Zhao等[17]非监督分词辅助基于字的条件随机场方法SIGHAN95.497.696.195.7----
2007Zhang等[18]基于词的判别式感知机方法ACL94.597.294.696.5----
2005Bakeoff评测结果评测95.096.494.395.296.997.296.295.6

新窗口打开| 下载CSV


对所有“中文分词文献”中的关键字进行分析。将英文文献中的关键字翻译为中文,部分英文会议文献没有关键字忽略不计。在统计中文文献关键字的过程中,发现部分关键字含义相同但表述不同。例如,条件随机场算法有十余种表达形式,包括条件随机场、条件随机域(CRF)、CRF算法、CRFs模型、CRF标注、CRFs、条件随机场(CRFs)、条件随机域、条件随机场模型、CRF、条件随机场(CRF)、条件随机场算法、Condition Random Field(CRF)、CRF模型等。为保证统计结果更为准确,预先手工构建同义词词典,对同义词进行合并。“中文分词文献”关键字词云如图4所示,可以印证,文献中解决的问题主要是未登录词识别、歧义识别和歧义消减。算法方面基于分词词典和规则进行匹配的机械分词方法使用最多;统计分词中条件随机场和马尔可夫模型是最具代表性的方法;神经网络和深度学习方法还处于发展期。

图4

图4   关键字词云

Fig.4   Word Cloud of the Key Words


在时间维度上,选择总词频多于20的关键字,去掉“中文分词算法”等一般性词汇,得到关键词词频分布如图5所示。可以看出机械分词算法自1984年至今持续在文献中出现;2004年之后机器学习算法被广泛应用,持续保持了较高的关注度;2015年之后深度学习算法相关文献逐渐增多。然而,新算法的出现并没有替代之前的分词算法。深度学习成为近年的研究热点,单独将所有神经网络和深度学习相关的关键字抽取出来,得到词频年份分布如图6所示。可以发现,近三年深度学习、LSTM、双向LSTM和注意力机制是中文分词研究的主流方法。

图5

图5   “中文分词文献”部分关键词分布(篇)

Fig.5   The Distribution of Key Words in Chinese Word Segmentation Literature


图6

图6   神经网络和深度学习方法相关关键字分布

Fig.6   Key Words Distribution Related to Neural Networks and Deep Learning


调研相关文献发现不同算法之间各有优势,结合不同算法优势解决具体中文分词问题是未来探索的方向。“歧义消解”和“未登录词识别”一直作为研究解决的关键问题,相比较而言“未登录词识别”被关注更多。这是因为“未登录词”数量多、形式多样难于解决。Bakeoff2003[19]和Bakeoff2005[11]语料库统计结果表明未登录词大约是切分歧义的5.6-25.6倍。因此,“未登录词识别”问题对中文分词的结果影响很大,也是中文分词的重要子任务。

归纳现有“中文分词文献”描述的研究问题、研究方法(算法及模型)和应用领域,绘制中文分词的研究现状,如图7所示。中文分词研究现状整体上划分为三部分:中文分词的研究问题、算法及模型、通用工具及应用领域。用不同颜色区分已有研究、近期研究热点和未来研究热点。

图7

图7   中文分词研究现状

Fig.7   Research Status of Chinese Word Segmentation


中文分词研究的问题包括:分词标准、切分歧义和未登录词。分词标准很难被精确定义。以往采用事实标准或自定义标准,现阶段主要基于特定领域标准和特定问题标准。由于视角、研究问题和领域的不同,目前不同的分词标准之间存在差异,未来希望能研究出一套通用标准。

中文分词算法及模型分为知识驱动的机械分词和数据驱动的统计分词。机械分词的研究问题包括如何存储知识的表示,即词典,以提升检索效率;为减少切分歧义和未登录词问题的词典匹配方法;规则匹配方法。数据驱动下的统计分词模型处理的原子单位主要是词和字。由于字本身存在多义的问题,构成字意的义原[20]、中文的笔画[21]和读音[22]等作为原子单位也有研究。由于中文分词语料库标注成本高,语料库规模普遍偏小,不同语料库之间标准还存在差异。如何同时使用多个存在标准差异的标注语料,甚至未标注的语料是未来的研究热点。相应的模型算法包括半监督学习、弱监督学习、强化学习等。未来进一步提升中文分词的准确率和分词效率,除了单纯的算法和模型改进,还需要考虑将已有的知识库更好地集成到数据模型中。

传统的管道模型存在错误传播的问题。随着研究范式的不断发展和变化,研究人员不仅需要关注中文分词,也需要关注自然语言处理的相关任务。自然语言处理的多任务联合模型将成为未来研究的重要方向。

3 中文分词的关键问题

中文分词首先要面对的问题是需要有清晰的分词标准,然而中文博大精深,分词标准一直以来都无法被统一。目前,只能对具体问题设定特定标准。在特定标准下,实际分词的过程中主要存在切分歧义和未登录词识别两大问题[5]

3.1 分词标准

中文分词研究者最初认为要先对“词”进行清晰、统一和可计算的定义。然而,目前为止所有关于“词”的定义都是模糊的、不可直接用于计算的。汉语语法教科书(①符淮青. 现代汉语词汇(增订本)[M].第2版,北京:北京大学出版社,2004.)中对“词”的定义为:语言中有意义的能单说或用来造句的最小单位。1993年国家技术监督局发布的《信息处理用现代汉语分词规范》[1]对自然语言处理中的若干问题进行规范和统一,该规范对“词”的定义为:最小的能独立运用的语言单位。

中文词汇本身具有开放性、动态性,与研究问题和研究视角相关,不同人之间也存在认同差异,实验表明人与人之间的认同率只有0.76左右[23]。因此,至今仍无法给出一个通用的可操作标准。已有研究绝大多数都是预先在特定领域或者特定问题前提下设定特定标准,再进行分词研究。事实上,针对不同问题、不同领域的分词标准,甚至是同一问题内部分词标准都存在矛盾。例如:“林丹拿了总冠军。”这句话在现有公开的均衡分词语料中的标准就存在差异。北大的人民日报语料将姓名拆分,即“林”、“丹”拆开作为两个词;而微软语料规范中视其为一个词,即“林丹”不切分[24]。北大训练语料(SIGHAN Bakeoff-2005)统计发现,语料内部存在约3%的切分标准不一致。因此,通用分词标准一直是中文分词的难题。

3.2 切分歧义

切分歧义指在切分中文字符序列时存在歧义,有两种常见的分类。第一种分类广泛在中文分词文献中使用。分为交集型切分歧义(Overlapping Ambiguity Segmentation,OAS)[25]和多义组合型切分歧义(Combination Ambiguity Segmentation,CAS)[26]。交集型切分歧义也被称为交叉歧义,例如:“按时下的进展,很难完成任务!”中“按时”和“时下”都可以构成词。多义组合型切分歧义也被称为覆盖歧义,例如:“李刚是很有才能的人”中“才”、“能”本身都可以单独构词,也可以合并为“才能”构词。另一种是从歧义的真伪角度分类[27],分为真歧义和伪歧义。真歧义是中文文本本身的语法和语义都没有问题,即便人工进行切分也会产生歧义。例如“乒乓球拍卖完了”,这句话本身可以有两种不同的理解,而且都是没有问题的,即“乒乓/球拍/卖完/了”和“乒乓球/拍卖/完/了”。反之,被称为伪歧义。解决真歧义的问题非常复杂,需要依赖具体的情境及更多的上下文信息。

基于机械分词算法研究时,切分歧义是中文分词研究的重点问题。随着研究范式的转变,现有的传统机器学习和深度学习算法已经能较好地解决该问题。

3.3 未登录词识别

未登录词识别包括新涌现的通用词、专业术语和专有名词,如中国人名、外国译名、地名、机构名(泛指机关、团体和其他企事业单位)等。其中,人名、地名和机构名具有多变性,处理难度较大。例如:“康美药业股份有限公司”可以简称为“康美药业”、“康美”等。因此,在1995年11月的第6届MUC会议(MUC-6)上,提出了一个明确的概念——命名实体(Named Entity,NE)[28],包括人名、地名、机构名、日期、时间、百分数和货币。事件抽取任务、知识图谱、信息检索、问答系统等都十分依赖命名实体识别。因此,命名实体识别被单独研究。

4 中文分词模型算法及联合模型

4.1 中文分词模型算法

中文分词模型算法主要经历了三个阶段,分别是基于匹配的词典分词、基于标注的机器学习算法和基于理解的深度学习算法。其中,基于匹配的词典分词也被称为机械分词。基于标注的机器学习算法和深度学习算法被统称为统计分词方法。此外,近期研究的热点和难点包括单一准则下的多模型集成算法和多准则分词。

(1) 机械分词

最初的中文分词研究人员认为需要先建立词典,再通过匹配的方法进行分词,这种方法称为机械分词。主要研究问题包括:如何构建一个完备的词典;随着词典规模的不断增加,如何优化词典的存储,更易于查找以提升检索效率[29];匹配算法如何设计;匹配中出现的歧义切分如何消解。

常见的匹配算法包括:正向最大匹配法或正向最长词优先匹配法(Forward Maximum Matching, FMM)、逆向最大匹配法(Reverse Maximum Matching, RMM)、双向最大匹配法、全切分法等。匹配算法中,存在较多切分歧义问题。切分歧义研究包括歧义发现和歧义消解,歧义消解主要采用规则和统计的方法[27]。由于算法简单,机械分词具有分词速度快的天然优势。然而,分词准确率与词典的好坏正相关,在未登录词较多的情况下,算法的准确率无法保证。

(2) 机器学习

1990年,Sproat等[30]首次基于统计学习方法实现中文分词。根据处理的粒度,分为基于词和基于字两类标注。在2003年、2005年和2006年三次Bakeoff中文分词测评中,基于字标注的中文分词方法有效提升了分词准确率。因此,基于字标注的中文分词方法迅速成为主流[31]。该方法是将中文分词转化为字序列标注的问题[32,33]。汉字的边界位置标注方法包括2位标记法、4位标记等。被广泛使用的是4位标记法[32],B表示开始位置、M表示中间位置、E表示结束位置及S表示单字构词。机器学习算法需要人工设计特征模板,指定窗口的大小。由于算法的复杂度以及对分词结果准确度要求等原因,窗口大小一般不超过5。

最初影响力较大的模型是最大熵模型(Maximum Entropy,ME)[34,35]和隐马尔可夫模型(Hidden Markov Model,HMM)[36]。隐马尔可夫模型存在输出独立性假设的问题,在特征选择时受到限制,故无法选择复杂特征。最大熵马尔可夫模型(Maximum Entropy Markov Model,MEMM)[37]集成了最大熵模型和马尔可夫模型的优点,将上下文信息引入到模型中,可以选择任意特征,模型学习和识别的准确率都有所提升。但是模型对每个节点进行独立归一化,存在偏置问题。条件随机场(CRF)[38,39,40]结合了多方面优势,对所有特征进行全局归一化,避免了偏置问题,成为传统机器学习中应用最多、最具代表性的模型算法之一。条件随机场能够获得更高的分词准确率,但模型复杂导致分词效率略低。

无监督分词策略均需要预设良度标准[41],以往研究中常见的良度标准有子串频率(Frequency of Substring with Reduction, FSR)[42]、描述长度增益(Description Length Gain, DL) [43]、邻接多样性(Accessor Variety, AV)[44]和分支信息熵(Branching Entropy, BE)[45]。传统的无监督分词算法包括判别式模型和生成式模型两大类。基于判别式模型的文献主要在互信息[46,47]、分支信息熵[47,48]、长度增益[49]等方法上进行改进研究。生成式模型主要基于HMM[50]、HDP[51]等进行改进研究。

半监督研究包括semi-CRF算法[52]、Zhao等[53]提出强扩展性的半监督分词算法、Zeng等[54]提出的协同正则化字粒度和词粒度模型。半监督能克服熟语料不足的实际困难,分词的准确率较无监督方式有一定提升。

对于机器学习算法、模型,特征选择好坏仍然是决定最后结果的关键性因素。部分研究人员希望能够通过算法进行自动特征选择,Yang等[55]研究CRF算法下的无监督的特征选择方法。随着深度学习的出现,这一问题才在一定程度上被有效解决[10]

(3) 深度学习

2011年,Collobert等[56]首次将深度学习算法引入自然语言任务中。该方法可以通过最终的分词标注训练集,有效学习原始特征和上下文表示。随后CNN[57,58]、GRN[59]、LSTM[14,60-61]、BiLSTM[62]等深度学习模型都被引入到中文分词任务中,并结合中文分词进行多种改进[63,64]。相对于机器学习而言,深度学习算法无需人工进行特征选择,还可以有效地保留长距离句子信息,是对机器学习算法的有效补充。但是深度学习算法更为复杂,需要更多的计算资源。

在基础深度学习模型的基础上,有效结合预训练和后处理方式已成为深度学习的一种趋势,一般性流程如图8所示。Ma等[65]发现仅使用一个简单的Bi-LSTM模型,基于深度学习的预训练、Dropout及超参调优,可以将分词效果提升到领先水平。实验结果表明,预训练对提升分词准确率有效,平均可以提升0.78%。错误分析发现2/3的错误来自未登录词。更好的预训练结果和更有效的特征表示都是深度学习分词的重要研究方向。预训练既可以根据领域需要和任务特点进行预训练,也可以直接使用现有的预训练结果进行微调。中文分词预训练的基本单位是词(字)的语义、偏旁、拼音和输入法等。语义表示的预训练模型包括与上下文无关的静态词向量训练模型Word2Vec[66]、Glove[67]以及与上下文相关的动态词向量训练模型ELMo[68]、BERT[69]和XLNet[70]等。Wang等[71]在语义表示的基础上,增加了字的拼音、五笔特征,使用Bi-LSTMs-CRF模型训练,在SIGHAN2005[11]和CTB6[72]数据集上测试,结果表明多特征融合确实能提升分词准确率。位置信息和外部知识库也被研究人员尝试使用,基于知识库减少训练集的未登录词问题,研究者尝试将词典与深度学习相结合[12,73]。Zhang等[12]在表示中融入词典外部知识,在SIGHAN2010[74]的Literature、Computer、Medicine、Finance数据集上实验,结果表明融合外部词典分词准确率提升2%左右。

图8

图8   基于深度学习的中文分词流程

Fig.8   Chinese Word Segmentation Flow Chart Based on Deep Learning


(4) 集成算法

在词粒度和字粒度上[75,76],集成机械分词、机器学习和深度学习算法,更好发挥不同分词算法各自的优势是多算法集成的主要探索方向。

张梅山等[77]结合统计与词典提出领域自适应分词算法。近期研究者在机器学习和深度学习算法集成上进行多种尝试。最具代表的是2015年Huang等[78]提出的Bi-LSTM-CRF模型实现序列化标注。除此之外,Ma等[79]提出Bi-LSTM-CNN-CRF模型,利用CNN得到字的语义表示,再基于Bi-LSTM-CRF模型实现序列化标注。Yao等[80]提出Bi-LSTM-RNN模型。冯国明等[81]将词典、统计、深度学习三者有机结合,提出专业领域的自主学习分词算法。集成算法分词不仅在中文分词任务上取得了较好效果,在自然语言多任务联合模型中也被广泛使用。

(5) 多准则分词

由于研究视角、研究任务等差异,目前仍然无法构建统一的分词标准。不同的标注标准导致不同的中文分词数据集存在标注差异,甚至同一数据集内部也有不同标注粒度的问题。数据集的人工标注成本巨大,已有的单一数据集数据量又十分有限。基于更多的标注数据能辅助训练出更好的模型,因此使用多源语料的多准则、多粒度分词成为新的研究方向。

根据标题和摘要筛选得到多粒度多准则分词的研究文献7篇。这些研究主要从语料和方法两个方面出发,实现多准则、多粒度分词。

①设计新的统一的多粒度标注方法将不同语料融合为一个规模更大的语料,再提出新的模型。张文静等[82]2019年提出基于Lattice-LSTM模型,对比Gong等[83]2017年基于字的LSTM模型的效果,F1值从95.35%提高到96.29%。

②同时使用多个独立的语料库,通过方法集成多个分词语料。Gong等[24]提出Switch-LSTM模型并在SIGHAN2005[11]和SIGHAN2008[84]的8个数据集上测试,平均F值达到96.12%。

两种思路下的研究均在深度学习模型基础上进行创新。关于多粒度中文分词模型方法,从研究思路、研究方法以及实验所使用数据集等方面对比分析各研究,如表2所示。多准则分词问题非常复杂,虽然可以使用更多的语料,但是未登录词仍然不可避免。在此基础上,融合已有领域知识进行模型创新以提高分词准确率,仍然是未来重要的研究方向。

表2   多粒度、多准则分词文献对比分析表

Table2  Comparative Analysis of Multi-granularity and Multi-criterion

年份作者来源研究思路研究方法实验使用的数据集
2019Gong等[24]AAAI方法改进模型由多个长短时记忆神经网络(LSTM)和一个切换器组成,可以在这些LSTM之间自动切换。SIGHAN2005[11](MSR、AS)
SIGHAN2008[84](PKU、CTB、SKIP、CityU、NCC、SXU)
2019Huang等[85]arXiv方法改进基于Bidirectional Encoder Representations (BERT),使用模型剪枝、量化和编译器优化。CTB6[72]
SIGHAN2005[11] (CityU、PKU、MSR、AS)
SIGHAN2008[84] (SXU)
CoNLL2017[86](UD)
2019Qiu等[87]arXiv方法改进基于Transformer的构架方法采用全连接自注意力机制。SIGHAN2005[11] (CityU、PKU、MSR、AS)
SIGHAN2008[84] (CTB、SKIP、NCC、SXU)
2019He等[88]SCI语料改进每一个句子的开头和结尾增加人工标记,以区分多粒度语料。再使用LSTM和CRF实现多粒度分词。SIGHAN2005[11] (MSR、 AS、PKU)
SIGHAN2008[84] (CTB、SKIP、CityU、NCC、SXU)
2019张文静等[82]中文信息学报语料改进
方法改进
模型在网格结构的辅助下,对不同粒度的分词标准都有较强的捕捉能力,且不局限于单一的分词标准。MSR[89]、PPD[90]、CTB[72]
2017Chen等[91]ACL方法改进借鉴多任务学习的思想,融合多个语料的数据提升共享字向量模块。在此基础上应用对抗网络,把私有信息从共享模块中剥离到各个私有模块中去,既有大数据量的优势,又避免了不同语料之间的相互制约。SIGHAN2005[11] (MSR、AS)
SIGHAN2008[84](PKU、CTB、SKIP、CityU、NCC、SXU)
2017Gong等[83]EMNLP语料改进构建多粒度语料库。MSR[89]、PPD[90]、CTB[72]

新窗口打开| 下载CSV


4.2 与中文分词相关的联合模型

传统的自然语言处理任务通过管道模型实现,即中文分词作为一个独立的任务建模,再将分词结果作为后续任务的输入。管道模型存在错误传播的问题,不同任务之间信息的共享非常有限。近年来,与中文分词相关的联合模型大量涌现,联合模型能够避免错误传播,同时提升各子任务的准确率。

自然语言处理包括多个相关子任务。其中,与中文分词任务最紧密关联的任务是词性标注(Part-of-Speech Tagging, POS Tagging)和依存句法分析(Dependency Parsing)。已有中文分词相关的多任务处理研究中,被研究最多的是中文分词和词性标注;其次为中文分词、词性标注和依存句法分析。除此之外,多任务还包括中文分词和依存句法分析;所有相关任务的自然语言处理统一框架;中文分词和未登录词识别;中文分词和非正式词检测;中文分词和中文正确拼写;中文分词和命名实体识别。筛选并统计分析重要的多任务联合模型研究,如表3所示。现有研究基本都是基于2004年Ng等[76]提出的交叉标记思想,再结合具体任务设计出一种统一的多任务标注方式,最后提出多任务联合的深度学习模型。融入依存句法和已有知识后,CNN和RNN都不能很好地解决这种具有网络结构的模型,图深度学习模型[74]开始被自然语言处理研究人员关注,未来如何结合和改进深度学习中的图深度学习模型[92]实现多任务学习,将成为重点研究方向。

表3   中文分词相关的多任务联合模型文献分析

Table 3  Analysis of Chinese Word Segmentation Related to Multi-task Joint Model

任务类型发表年份作者来源研究方法
自然语言统一处理框架2008Collobert等[93]ICML基于深度学习的CNN模型,首次提出自然语言处理统一框架。该框架同时考虑词性标注、浅层语义分析、命名实体识别、语义角色标注进行多任务学习。
中文分词和词性标注2004Ng等[76]EMNLP定义了一种交叉标记方式,能够同时标注两个任务的结果。
2010Zhang等[94]ACL基于线性的单模型,通过柱搜索的方法提升解码效率。
2013Zeng等[95]ACL基于半监督的方法,采用基于图标签传播的技术。
2013Qiu等[96]EMNLP为异质标注语料构建松散的、具有不确定性的映射,在进行训练同时提高异质标注语料的分词及词性标注的准确性。
2013Zheng等[97]EMNLP引入深度学习的方法自动学习特征,从而避免了人工的特征筛选,再结合传统的CRF。
2016Wang等[98]ICIIP基于层次长短时记忆,在一个目标函数中同时对多个任务进行联合训练,避免了管道模型性的错误传播问题。
2016Chen等[99]arXiv提出一种长距依赖的深度框架,基于联合模型同时完成分词和词性标注任务。
2017Chen等[100]IJCAI针对中文分词和词性标注任务提出富特征的深度学习框架,也是一种联合模型。该模型也能够解决长距依赖的问题。
中文分词、词性标注和依存句法2012Hatori等[101]ACL提出一种增量的多任务处理联合模型,首次提出能够同时处理中文分词、词性标注和依存句法的联合模型。
2013Wang等[102]ACL使用基于晶格的结构,首先句子被划分为词格,在此基础上进行词性标注和依存句法分析,是一种联合模型。
2016Guo等[103]IEICE Transactions提出基于字级别的半监督联合处理模型,能够从部分标注的语料中得到N-Gram特征和依赖子树特征。
2016Shen等[104]COLING提出一种新颖的标注方法,该方法能够克服传统基于词法标注的两个问题:不一致性问题和稀疏性问题。
中文分词和依存句法分析2019Yan等[105]arXiv首次提出处理中文分词和依存句法的统一模型,该模型为基于图的深度学习模型。
中文分词和未登录词2015Li等[106]TALLIP提出一种基于字的生成式模型,能同时进行分词和未登录词检测。未登录词主要包括:词典中不包含的词、命名实体和后缀衍生词。
中文分词和非正式词检测2017Zhang等[107]IJCAI中文微博语料中存在非正式用词的问题,传统的分词模型不能很好地对该类语料进行分词。针对这个问题,本文提出基于深度学习的分词和非正式词检测的联合模型。
中文分词和中文正确拼写2017Shi等[108]SMP基于注意力机制的Encoder-Decoder架构提出一种序列到序列的标注方法,能够解决中文分词和中文拼写正确性问题。
中文分词和命名实体识别2019Wu等[109]WWW提出一种新的框架CNER,综合使用了深度学习的CNN、LSTM和CRF。该框架能够在分词的同时识别命名实体。

新窗口打开| 下载CSV


联合模型能够使模型下的多个子任务间的信息交互更为便利,提升结果的准确率和效率,但会导致模型更加复杂、搜索空间增大等问题。目前的研究尚且粗浅,未来将进一步探究结合不同自然语言处理任务的联合模型。

5 结 语

中文分词作为自然语言处理的基础任务,对自然语言处理有着重要意义。本文从中文分词的发展历程和关键问题出发,梳理对推动中文分词的发展起到重要作用的历届评测和相关国际会议。总结中文分词的研究现状,分类梳理中文分词的算法、模型以及与中文分词相关的联合模型。

经过多年努力,中文分词研究已经取得了相当的进展,但仍然存在着诸多挑战,本文总结未来的研究方向和研究问题:

(1)进一步集成不同的分词算法,充分利用领域知识,将知识与数据模型有效集成是数据模型的发展方向。

(2)由于语言本身的复杂性、多变性等原因,自然语言处理任务所涉及的中文分词标准往往不能统一,而单一标注数据集数据规模十分有限。多准则、多粒度的中文分词研究能够同时使用多个标注数据集提升中文分词的准确率,更好地解决自然语言处理任务。

(3)割裂自然语言处理各子任务,单纯地进行中文分词研究的管道模型,存在错误传播的先天缺陷,且不利于模型之间的信息共享。同时处理多个自然语言处理子任务的联合模型是当前的研究热点,也将成为未来的发展方向。

作者贡献声明

唐琳:文献调研, 收集、处理、分析数据,确定研究思路,论文起草和修改;

郭崇慧:提出研究思路,论文修改及最终版本修订;

陈静锋:参与提出研究思路,论文修改及最终版本修订。

利益冲突声明

所有作者声明不存在利益冲突关系。

支撑数据

支撑数据由作者自存储, E-mail: tanglin@dlut.edu.cn。

[1] 唐琳, 郭崇慧,陈静锋. papers_summary.rar. 中文分词(中、英)文献目录.

[2] 唐琳, 郭崇慧,陈静锋. papers_all.rar. 论文参考文献.

[3] 唐琳, 郭崇慧,陈静锋. keywordscountbyyear.xls.关键字词频统计表.

[4] 唐琳, 郭崇慧,陈静锋. grap10.json.“中文分词”文献标题共现网络数据.

[5] 唐琳, 郭崇慧,陈静锋. after2017grap3.json. 2017年至今“中文分词”文献标题共现网络数据.

参考文献

GB/T 13715-1992, 信息处理用现代汉语分词规范[S]. 北京: 中国标准出版社, 1993.

[本文引用: 2]

( GB/T 13715-1992, Contemporary Chinese Language Word Segmentation Specification for Information Processing[S]. Beijing: Standards Press of China, 1993.)

[本文引用: 2]

梁南元 .

计算机应用与软件

[J]. 计算机应用与软件, 1987(3):44-50.

[本文引用: 1]

( Liang Nanyuan .

An Introduction to Automatic Distinguishing of Written Chinese Words

[J]. Computer Applications and Software, 1987(3):44-50.)

[本文引用: 1]

刘开瑛 .

语言文字应用

[J]. 语言文字应用, 1997(1):103-108.

[本文引用: 1]

( Liu Kaiying .

Research on Automatic Word Segmentation Assessment Technology in Modern Chinese

[J]. Applied Linguistics, 1997(1):103-108.)

[本文引用: 1]

孙茂松 . 汉语自动分词研究的若干最新进展——清华大学相关工作简介[C]// 中国中文信息学会二十周年学术会议, 北京. 北京: 清华大学出版社, 2001: 44-50.

[本文引用: 1]

( Sun Maosong. Some Recent Advances in the Study of Chinese Automatic Word Segmentation: A Brief Introduction to the Work of Tsinghua University[C]// Proceedings of the 20th Anniversary Academic Conference of Chinese Information Processing Society of China, Beijing. Beijing: Tsinghua University Press, 2001: 44-50.)

[本文引用: 1]

黄昌宁, 赵海 .

中文分词十年回顾

[J]. 中文信息学报, 2007,21(3):8-19.

[本文引用: 2]

( Huang Changning, Zhao Hai .

Chinese Word Segmentation: A Decade Review

[J]. Journal of Chinese Information Processing, 2007,21(3):8-19.)

[本文引用: 2]

何莘, 王琬芜 .

自然语言检索中的中文分词技术研究进展及应用

[J]. 情报科学, 2008,26(5):787-791.

[本文引用: 1]

( He Zi, Wang Wanwu .

Research and Application of Chinese Word Segmentation Technology Based on Natural Language Information Retrieval

[J]. Information Science, 2008,26(5):787-791.)

[本文引用: 1]

奉国和, 郑伟 .

国内中文自动分词技术研究综述

[J]. 图书情报工作, 2011,55(2):41-45.

[本文引用: 1]

( Feng Guohe, Zheng Wei .

Review of Chinese Automatic Word Segmentation

[J]. Library and Information Service, 2011,55(2):41-45.)

[本文引用: 1]

赵芳芳, 蒋志鹏, 关毅 .

中文分词和词性标注联合模型综述

[J]. 智能计算机与应用, 2014,4(3):77-80.

[本文引用: 1]

( Zhao Fangfang, Jiang Zhipeng, Guan Yi .

The Review on the Joint Model of Chinese Word Segmentation and Part-of-speech Tagging

[J]. Intelligent Computer and Applications, 2014,4(3):77-80.)

[本文引用: 1]

梁喜涛, 顾磊 .

中文分词与词性标注研究

[J]. 计算机技术与发展, 2015,25(2):175-180.

[本文引用: 1]

( Liang Xitao, Gu Lei .

Study on Word Segmentation and Part-of-speech Tagging

[J]. Computer Technology and Development, 2015,25(2):175-180.)

[本文引用: 1]

赵海, 蔡登, 黄昌宁 . 中文分词十年又回顾(2007-2017 [A]// 揭春雨, 刘美君. 实证及语料库语言学前沿[M]. 北京: 中国社会科学出版社, 2017.

[本文引用: 2]

( Zhao Hai, Cai Deng, Huang Changning. Chinese Word Segmentation: Review (2007-2017[A]//Jie Chunyu, Liu Meijun. Frontiers of Empirical and Corpus Linguistics[M]. Beijing: China Social Sciences Press, 2017.)

[本文引用: 2]

Emerson T .

The Second International Chinese Word Segmentation Bakeoff

[C]// Proceedings of the 4th SIGHAN Workshop on Chinese Language Processing, Jeju Island, Korea. New York, USA: ACL, 2005: 123-133.

[本文引用: 9]

Zhang Q, Liu X, Fu J .

Neural Networks Incorporating Dictionaries for Chinese Word Segmentation

[C]// Proceedings of the 32nd AAAI Conference on Artificial Intelligence, New Orleans, USA. California, USA: AAAI, 2018.

[本文引用: 3]

Cai D, Zhao H, Zhang Z , et al.

Fast and Accurate Neural Word Segmentation for Chinese

[C]// Proceedings of the 55th Annual Meeting of the Association for Computational Linguistics, Vancouver, Canada. USA: ACL, 2017: 608-615.

[本文引用: 1]

Chen X, Qiu X, Zhu C , et al.

Long Short-Term Memory Neural Networks for Chinese Word Segmentation

[C]// Proceedings of the 2015 Conference on Empirical Methods in Natural Language Processing, Lisbon, Portugal. New York, USA: ACL, 2015: 1197-1206.

[本文引用: 2]

Sun X, Wang H, Li W .

Fast Online Training with Frequency-adaptive Learning Rates for Chinese Word Segmentation and New Word Detection

[C]// Proceedings of the 50th Annual Meeting of the Association for Computational Linguistics, Jeju Island, Korea. USA: ACL, 2012: 253-262.

[本文引用: 1]

Zhao H, Huang C N, Li M , et al.

A Unified Character-based Tagging Framework for Chinese Word Segmentation

[J]. ACM Transactions on Asian Language Information Processing (TALIP), 2010, 9(2):Article No. 5.

[本文引用: 1]

Zhao H, Kit C .

Unsupervised Segmentation Helps Supervised Learning of Character Tagging for Word Segmentation and Named Entity Recognition

[C]// Proceedings of the 6th SIGHAN Workshop on Chinese Language Processing, Hyderabad, India. New York, USA: ACL, 2008: 106-111.

[本文引用: 1]

Zhang Y, Clark S .

Chinese Segmentation with a Word-based Perceptron Algorithm

[C]// Proceedings of the 45th Annual Meeting of the Association of Computational Linguistics, Prague, Czech Republic. USA: ACL, 2007: 840-847.

[本文引用: 1]

Sproat R, Emerson T .

The First International Chinese Word Segmentation Bakeoff

[C]// Proceedings of the 2nd SIGHAN Workshop on Chinese Language Processing, Sapporo, Japan. New York, USA: ACL, 2003: 133-143.

[本文引用: 1]

王换换 .

基于中文分词技术的药品适应症相似性研究

[D]. 淮南: 安徽理工大学, 2015.

[本文引用: 1]

( Wang Huanhuan .

Indication Similarity of Drugs Based on Chinese Word Segmentation Technology

[D]. Huainan: Anhui University of Science & Technology, 2015.)

[本文引用: 1]

赵浩新, 俞敬松, 林杰 .

基于笔画中文字向量模型设计与研究

[J]. 中文信息学报, 2019,33(5):17-23.

[本文引用: 1]

( Zhao Haoxin, Yu Jingsong, Lin Jie .

Design and Research on Chinese Word Embedding Model Based on Strokes

[J]. Journal of Chinese Information Processing, 2019,33(5):17-23.)

[本文引用: 1]

张涛 .

中文文本自动校对系统设计与实现

[D]. 成都: 西南交通大学, 2017.

[本文引用: 1]

( Zhang Tao .

Design and Implementation of Chinese Text Automatic Proofreading System

[D]. Chengdu: Southwest Jiaotong University, 2017.)

[本文引用: 1]

Richard S, Shih C, Gale W , et al.

A Stochastic Finite-State Word-Segmentation Algorithm for Chinese

[C]// Proceedings of the 32nd Annual Meeting of the Association for Computational Linguistics, New Mexico, USA. New York, USA: ACL, 1994: 66-73.

[本文引用: 1]

Gong J, Chen X, Gui T , et al.

Switch-LSTMs for Multi-Criteria Chinese Word Segmentation

[C]// Proceedings of the 33rd AAAI Conference on Artificial Intelligence, Honolulu, USA. California, USA: AAAI, 2019: 6457-6464.

[本文引用: 3]

刘健, 张维明 .

一种快速的交集型歧义检测方法

[J]. 计算机应用研究, 2008,25(11):3259-3261.

[本文引用: 1]

( Liu Jian, Zhang Weiming .

Fast Crossing Ambiguity Detection Method

[J]. Application Research of Computers, 2008,25(11):3259-3261.)

[本文引用: 1]

秦颖, 王小捷, 张素香 .

汉语分词中组合歧义字段的研究

[J]. 中文信息学报, 2007,21(1):3-8.

[本文引用: 1]

( Qin Ying, Wang Xiaojie, Zhang Suxiang .

Research on Combinational Ambiguity in Chinese Word Segmentation

[J]. Journal of Chinese Information Processing, 2007,21(1):3-8.)

[本文引用: 1]

郑家恒, 张剑锋, 谭红叶 .

中文分词中歧义切分处理策略

[J]. 山西大学学报:自然科学版, 2007,30(2):163-167.

[本文引用: 2]

( Zheng Jiaheng, Zhang Jianfeng, Tan Hongye .

Segmentation Strategies on Ambiguity String in Chinese Word Segmentation

[J]. Journal of Shanxi University: Natural Science Edition, 2007,30(2):163-167.)

[本文引用: 2]

Humphreys K, Gaizauskas R, Azzam S , et al.

University of Sheffield: Description of the LaSIE-II System as Used for MUC-7

[C]// Proceedings of the 7th Message Understanding Conference, Virginia, USA. New York, USA: ACL, 1998.

[本文引用: 1]

孙茂松, 左正平, 黄昌宁 .

汉语自动分词词典机制的实验研究

[J]. 中文信息学报, 2000,14(1):1-6.

[本文引用: 1]

( Sun Maosong, Zuo Zhengping, Huang Changning .

An Experimental Study on Dictionary Mechanism for Chinese Word Segmentation

[J]. Journal of Chinese Information Processing, 2000,14(1):1-6.)

[本文引用: 1]

Sproat R, Shih C .

A Statistical Method for Finding Word Boundaries in Chinese Text

[J]. Computer Processing of Chinese and Oriental Languages, 1990,4(4):336-351.

[本文引用: 1]

Huang C N, Zhao H. Which is Essential for Chinese Word Segmentation: Character Versus Word[C]// Proceedings of the 20th Pacific Asia Conference on Language, Information and Computation, Wuhan, China. Beijing, China: Tsinghua University Press, 2006: 1-12.

[本文引用: 1]

Xue N .

Chinese Word Segmentation as Character Tagging

[J]. Computational Linguistics & Chinese Language Processing, 2003,8(1):29-47.

[本文引用: 2]

Xue N, Converse S P .

Combining Classifiers for Chinese Word Segmentation

[C]// Proceedings of the 1st SIGHAN Workshop on Chinese Language Processing, Taipei, China. New York, USA: ACL, 2002.

[本文引用: 1]

Low J K, Ng H T, Guo W .

A Maximum Entropy Approach to Chinese Word Segmentation

[C]// Proceedings of the 4th SIGHAN Workshop on Chinese Language Processing, Jeju Island, Korea. New York, USA: ACL, 2005.

[本文引用: 1]

Berger A L, Pietra V J D, Pietra S A D, .

A Maximum Entropy Approach to Natural Language Processing

[J]. Computational Linguistics, 1996,22(1):39-71.

[本文引用: 1]

Rabiner L R .

A Tutorial on Hidden Markov Models and Selected Applications in Speech Recognition

[J]. Proceedings of the IEEE, 1989,77(2):257-286.

[本文引用: 1]

McCallum A, Freitag D, Pereira F C N .

Maximum Entropy Markov Models for Information Extraction and Segmentation

[C]// Proceedings of the 17th International Conference on Machine Learning, CA, USA. CA, USA: ICMS, 2000.

[本文引用: 1]

Peng F, Feng F, McCallum A .

Chinese Segmentation and New Word Detection Using Conditional Random Fields

[C]// Proceedings of the 20th International Conference on Computational Linguistics, Geneva, Switzerland. New York, USA: ACL, 2004.

[本文引用: 1]

Tseng H, Chang P, Andrew G , et al.

A Conditional Random Field Word Segmenter for SIGHAN Bakeoff 2005

[C]// Proceedings of the 4th SIGHAN Workshop on Chinese Language Processing, Jeju Island, Korea. New York, USA: ACL, 2005.

[本文引用: 1]

Lafferty J, McCallum A, Pereira F C N .

Conditional Random Fields: Probabilistic Models for Segmenting and Labeling Sequence Data

[C]// Proceedings of the 18th International Conference on Machine Learning, MA, USA. CA, USA: ICMS, 2001: 282-289.

[本文引用: 1]

修驰 .

适应于不同领域的中文分词方法研究与实现

[D]. 北京: 北京工业大学, 2013.

[本文引用: 1]

( Xiu Chi .

The Research and Implementation of Method for Domain Chinese Word Segmentation

[D]. Beijing: Beijing University of Technology, 2013.)

[本文引用: 1]

X, Zhang L, Hu J .

Statistical Substring Reduction in Linear Time

[C]// Proceedings of the 2004 International Conference on Natural Language Processing, Hainan, China. 2004.

[本文引用: 1]

Kitt C, Wilks Y .

Unsupervised Learning of Word Boundary with Description Length Gain

[C]// Proceedings of the 3rd SIGNLL Conference on Computational Natural Language Learning, Bergen, Norway. New York, USA: SIGNLL, 1999.

[本文引用: 1]

Feng H, Chen K, Deng X , et al.

Accessor Variety Criteria for Chinese Word Extraction

[J]. Computational Linguistics, 2004,30(1):75-93.

[本文引用: 1]

Huang J H, Powers D .

Chinese Word Segmentation Based on Contextual Entropy

[C]// Proceedings of the 17th Pacific Asia Conference on Language, Information and Computation, Sentosa, Singapore. New York, USA: ACL, 2003: 152-158.

[本文引用: 1]

Chang J S, Lin T .

Unsupervised Word Segmentation Without Dictionary

[C]// Proceedings of the 15th Annual Conference on Computational Linguistics and Speech Processing. 2003.

[本文引用: 1]

Chen S, Xu Y, Chang H .

A Simple and Effective Unsupervised Word Segmentation Approach

[C]// Proceedings of the 25th AAAI Conference on Artificial Intelligence, San Francisco, USA. California, USA: AAAI, 2011.

[本文引用: 2]

Magistry P, Sagot B .

Unsupervized Word Segmentation: The Case for Mandarin Chinese

[C]// Proceedings of the 50th Annual Meeting of the Association for Computational Linguistics, Jeju Island, Korea. New York, USA: ACL, 2012: 383-387.

[本文引用: 1]

Magistry P, Sagot B .

Can MDL Improve Unsupervised Chinese Word Segmentation?

[C]// Proceedings of the 7th SIGHAN Workshop on Chinese Language Processing, Nagoya, Japan. New York, USA: ACL, 2013: 1-10.

[本文引用: 1]

Chen M, Chang B, Pei W .

A Joint Model for Unsupervised Chinese Word Segmentation

[C]// Proceedings of the 2014 Conference on Empirical Methods in Natural Language Processing, Doha, Qatar. New York, USA: ACL, 2014: 854-863.

[本文引用: 1]

Goldwater S, Griffiths T L, Johnson M .

A Bayesian Framework for Word Segmentation: Exploring the Effects of Context

[J]. Cognition, 2009,112(1):21-54.

[本文引用: 1]

Jiao F, Wang S, Lee C H , et al.

Semi-supervised Conditional Random Fields for Improved Sequence Segmentation and Labeling

[C]// Proceedings of the 21st International Conference on Computational Linguistics and the 44th Annual Meeting of the Association for Computational Linguistics, Sydney, Australia. New York, USA: ACL, 2006: 209-216.

[本文引用: 1]

Zhao H, Kit C .

Integrating Unsupervised and Supervised Word Segmentation: The Role of Goodness Measures

[J]. Information Sciences, 2011,181(1):163-183.

[本文引用: 1]

Zeng X, Wong D F, Chao L S , et al.

Co-regularizing Character-based and Word-based Models for Semi-supervised Chinese Word Segmentation

[C]// Proceedings of the 51st Annual Meeting of the Association for Computational Linguistics, Sofia, Bulgaria. New York, USA: ACL, 2013: 171-176.

[本文引用: 1]

Yang T, Jiang T J, Kuo C , et al.

Unsupervised Overlapping Feature Selection for Conditional Random Fields Learning in Chinese Word Segmentation

[C]// Proceedings of the 23rd Conference on Computational Linguistics and Speech Processing. 2011.

[本文引用: 1]

Collobert R, Weston J, Bottou L , et al.

Natural Language Processing (Almost) from Scratch

[J]. Journal of Machine Learning Research, 2011,12:2493-2537.

[本文引用: 1]

LeCun Y, Bottou L, Bengio Y , et al.

Gradient-based Learning Applied to Document Recognition

[J]. Proceedings of the IEEE, 1998,86(11):2278-2324.

[本文引用: 1]

Vincent P, Larochelle H, Lajoie I , et al.

Stacked Denoising Autoencoders: Learning Useful Representations in a Deep Network with a Local Denoising Criterion

[J]. Journal of Machine Learning Research, 2010,11:3371-3408.

[本文引用: 1]

Chen X, Qiu X, Zhu C , et al.

Gated Recursive Neural Network for Chinese Word Segmentation

[C]// Proceedings of the 53rd Annual Meeting of the Association for Computational Linguistics and the 7th International Joint Conference on Natural Language Processing, Beijing, China. New York, USA: ACL, 2015: 1744-1753.

[本文引用: 1]

Cai D, Zhao H .

Neural Word Segmentation Learning for Chinese

[C]// Proceedings of the 54th Annual Meeting of the Association for Computational Linguistics, Berlin, Germany. New York, USA: ACL, 2016.

[本文引用: 1]

Graves A .

Long Short-Term Memory[A]// Graves A. Supervised Sequence Labelling with Recurrent Neural Networks

[M]. Berlin: Springer, 2012: 37-45.

[本文引用: 1]

Schuster M, Paliwal K K .

Bidirectional Recurrent Neural Networks

[J]. IEEE Transactions on Signal Processing, 1997,45(11):2673-2681.

[本文引用: 1]

Pei W, Ge T, Chang B .

Max-margin Tensor Neural Network for Chinese Word Segmentation

[C]// Proceedings of the 52nd Annual Meeting of the Association for Computational Linguistics, Baltimore, USA. New York, USA: ACL, 2014: 293-303.

[本文引用: 1]

张洪刚, 李焕 .

基于双向长短时记忆模型的中文分词方法

[J]. 华南理工大学学报:自然科学版, 2017,45(3):61-67.

[本文引用: 1]

( Zhang Honggang, Li Huan .

Chinese Word Segmentation Method on the Basis of Bidirectional Long-Short Term Memory Model

[J]. Journal of South China University of Technology: Natural Science Edition, 2017,45(3):61-67.)

[本文引用: 1]

Ma J, Ganchev K, Weiss D .

State-of-the-art Chinese Word Segmentation with BI-LSTMs

[C]// Proceedings of the 2018 Conference on Empirical Methods in Natural Language Processing, Brussels, Belgium. New York, USA: ACL, 2018: 4902-4908.

[本文引用: 1]

Mikolov T, Chen K, Corrado G , et al.

Efficient Estimation of Word Representations in Vector Space

[C]// Proceedings of the 1st International Conference on Learning Representations, Arizona, USA. New York, USA: ACL, 2013.

[本文引用: 1]

Pennington J, Socher R, Manning C .

Glove: Global Vectors for Word Representation

[C]// Proceedings of the 2014 Conference on Empirical Methods in Natural Language Processing, Doha, Qatar. New York, USA: ACL, 2014: 1532-1543.

[本文引用: 1]

Peters M E, Neumann M, Iyyer M , et al.

Deep Contextualized Word Representations

[C]// Proceedings of the 2018 Conference of the North American Chapter of the Association for Computational Linguistics, New Orleans, USA. New York, USA: ACL, 2018: 2227-2237.

[本文引用: 1]

Vaswani A, Shazeer N, Parmar N , et al.

Attention is All You Need

[C]// Proceedings of the 31st International Conference on Neural Information Processing Systems, Long Beach, USA. San Diego, CA: NIPS, 2017: 5998-6008.

[本文引用: 1]

Yang Z, Dai Z, Yang Y , et al.

XLNet: Generalized Autoregressive Pretraining for Language Understanding

[OL]. arXiv Preprint, arXiv: 1906. 08237.

[本文引用: 1]

Wang J, Zhou J, Zhou J , et al.

Multiple Character Embeddings for Chinese Word Segmentation

[C]// Proceedings of the 57th Annual Meeting of the Association for Computational Linguistics, Florence, Italy. New York, USA: ACL, 2019: 210-216.

[本文引用: 1]

Xue N, Xia F, Chiou F D , et al.

The Penn Chinese TreeBank: Phrase Structure Annotation of a Large Corpus

[J]. Natural Language Engineering, 2005,11(2):207-238.

[本文引用: 4]

Liu J, Wu F, Wu C , et al.

Neural Chinese Word Segmentation with Dictionary

[J]. Neurocomputing, 2019,338:46-54.

[本文引用: 1]

Zhao H, Liu Q .

The CIPS-SIGHAN CLP2010 Chinese Word Segmentation Backoff

[C]// Proceedings of the 2010 CIPS-SIGHAN Joint Conference on Chinese Language Processing, Beijing, China. New York, USA: ACL, 2010.

[本文引用: 2]

Zhang R, Kikui G, Sumita E .

Subword-based Tagging by Conditional Random Fields for Chinese Word Segmentation

[C]// Proceedings of the 2006 Human Language Technology Conference of the NAACL, New York, USA. New York, USA: ACL, 2006: 193-196.

[本文引用: 1]

Ng H T, Low J K .

Chinese Part-of-Speech Tagging: One-at-a-Time or All-at-Once? Word-Based or Character-Based?

[C]// Proceedings of the 2004 Conference on Empirical Methods in Natural Language Processing, Barcelona, Spain. New York, USA: ACL, 2004: 277-284.

[本文引用: 3]

张梅山, 邓知龙, 车万翔 , .

统计与词典相结合的领域自适应中文分词

[J]. 中文信息学报, 2012,26(2):8-12.

[本文引用: 1]

( Zhang Meishan, Deng Zhilong, Che Wanxiang , et al.

Combining Statistical Model and Dictionary for Domain Adaption of Chinese Word Segmentation

[J]. Journal of Chinese Information Processing, 2012,26(2):8-12.)

[本文引用: 1]

Huang Z, Xu W, Yu K .

Bidirectional LSTM-CRF Models for Sequence Tagging

[OL]. arXiv Preprint, arXiv: 1508. 01991.

[本文引用: 1]

Ma X, Hovy E .

End-to-end Sequence Labeling via Bi-directional LSTM-CNNs-CRF

[C]// Proceedings of the 54th Annual Meeting of the Association for Computational Linguistics, Berlin, Germany. USA: ACL, 2016: 1064-1074.

[本文引用: 1]

Yao Y, Huang Z .

Bi-directional LSTM Recurrent Neural Network for Chinese Word Segmentation

[C]// Proceedings of the 23rd International Conference on Neural Information Processing, Kyoto, Japan. Illinois, USA: INNS, 2016: 345-353.

[本文引用: 1]

冯国明, 张晓冬, 刘素辉 .

基于自主学习的专业领域文本DBLC分词模型

[J]. 数据分析与知识发现, 2018,2(5):40-47.

[本文引用: 1]

( Feng Guoming, Zhang Xiaodong, Liu Suhui .

DBLC Model for Word Segmentation Based on Autonomous Learning

[J]. Data Analysis and Knowledge Discovery, 2018,2(5):40-47.)

[本文引用: 1]

张文静, 张惠蒙, 杨麟儿 , .

基于Lattice-LSTM的多粒度中文分词

[J]. 中文信息学报, 2019,33(1):18-24.

[本文引用: 2]

( Zhang Wenjing, Zhang Huimeng, Yang Liner , et al.

Multi-grained Chinese Word Segmentation with Lattice-LSTM

[J]. Journal of Chinese Information Processing, 2019,33(1):18-24.)

[本文引用: 2]

Gong C, Li Z, Zhang M , et al.

Multi-grained Chinese Word Segmentation

[C]// Proceedings of the 2017 Conference on Empirical Methods in Natural Language Processing, Copenhagen, Denmark. New York, USA: ACL, 2017: 692-703.

[本文引用: 2]

Jin G, Chen X .

The Fourth International Chinese Language Processing BakeOff: Chinese Word Segmentation, Named Entity Recognition and Chinese POS Tagging

[C]// Proceedings of the 6th SIGHAN Workshop on Chinese Language Processing, Hyderabad, India. New York, USA: ACL, 2008: 69-81.

[本文引用: 6]

Huang W, Cheng X, Chen K , et al.

Toward Fast and Accurate Neural Chinese Word Segmentation with Multi-Criteria Learning

[OL]. arXiv Preprint, arXiv: 1903. 04190.

[本文引用: 1]

Zeman D, Popel M, Straka M , et al.

CoNLL 2017 Shared Task: Multilingual Parsing from Raw Text to Universal Dependencies

[C]// Proceedings of the CoNLL 2017 Shared Task: Multilingual Parsing from Raw Text to Universal Dependencies, Vancouver, Canada. New York, USA: ACL, 2017: 1-19.

[本文引用: 1]

Qiu X, Pei H, Yan H , et al.

Multi-Criteria Chinese Word Segmentation with Transformer

[OL]. arXiv Preprint, arXiv: 1906. 12035.

[本文引用: 1]

He H, Wu L, Yan H , et al.

Effective Neural Solution for Multi-Criteria Word Segmentation[A]// Satapathy S C, Bhateja V, Das S. Smart Intelligent Computing and Applications

[M]. Springer, 2019: 133-142.

[本文引用: 1]

黄昌宁, 李玉梅, 朱晓丹 .

中文文本标注规范(5.0版)

[Z]. 微软亚洲研究院, 2006.

[本文引用: 2]

( Huang Changning, Li Yumei, Zhu Xiaodan .

Tokenization Guidelines of Chinese Text (V5. 0)

[Z]. Microsoft Research Asia, 2006.)

[本文引用: 2]

Yu S .

Specification for Corpus Processing at Peking University: Word Segmentation, POS Tagging and Phonetic Notation

[J]. Chinese Language and Computing, 2003,13:121-158.

[本文引用: 2]

Chen X, Shi Z, Qiu X , et al.

Adversarial Multi-Criteria Learning for Chinese Word Segmentation

[C]// Proceedings of the 2017 Conference on Empirical Methods in Natural Language Processing, Copenhagen, Denmark. New York, USA: ACL, 2017: 1193-1203.

[本文引用: 1]

Kipf T N, Welling M .

Semi-supervised Classification with Graph Convolutional Networks

[C]// Proceedings of the 5th International Conference on Learning Representations, Toulon, France. New York, USA: ACL, 2017.

[本文引用: 1]

Collobert R, Weston J .

A Unified Architecture for Natural Language Processing: Deep Neural Networks with Multitask Learning

[C]// Proceedings of the 25th International Conference on Machine Learning, Helsinki, Finland. New York, USA: ACM, 2008: 160-167.

[本文引用: 1]

Zhang Y, Clark S .

A Fast Decoder for Joint Word Segmentation and POS-Tagging Using a Single Discriminative Model

[C]// Proceedings of the 2010 Conference on Empirical Methods in Natural Language Processing, Massachusetts, USA. New York, USA: ACL, 2010: 843-852.

[本文引用: 1]

Zeng X, Wong D F, Chao L S , et al.

Graph-based Semi-supervised Model for Joint Chinese Word Segmentation and Part-of-speech Tagging

[C]// Proceedings of the 51st Annual Meeting of the Association for Computational Linguistics, Sofia, Bulgaria. New York, USA: ACL, 2013: 770-779.

[本文引用: 1]

Qiu X, Zhao J, Huang X .

Joint Chinese Word Segmentation and POS Tagging on Heterogeneous Annotated Corpora with Multiple Task Learning

[C]// Proceedings of the 2013 Conference on Empirical Methods in Natural Language Processing, Seattle, USA. New York, USA: ACL, 2013: 658-668.

[本文引用: 1]

Zheng X, Chen H, Xu T .

Deep Learning for Chinese Word Segmentation and POS Tagging

[C]// Proceedings of the 2013 Conference on Empirical Methods in Natural Language Processing, Seattle, USA. New York, USA: ACL, 2013: 647-657.

[本文引用: 1]

Wang H J, Si N W, Chen C .

An Effective Joint Model for Chinese Word Segmentation and POS Tagging

[C]// Proceedings of the 2016 International Conference on Intelligent Information Processing, Wuhan, China. New York, USA: ACM, 2016.

[本文引用: 1]

Chen X, Qiu X, Huang X . A Long Dependency Aware Deep Architecture for Joint Chinese Word Segmentation and POS Tagging[OL]. arXiv Preprint, arXiv: 1611. 05384.

[本文引用: 1]

Chen X, Qiu X, Huang X .

A Feature-enriched Neural Model for Joint Chinese Word Segmentation and Part-of-speech Tagging

[C]// Proceedings of the 26th International Joint Conference on Artificial Intelligence, Melbourne, Australia. California, USA: IJCAI, 2017: 3960-3966.

[本文引用: 1]

Hatori J, Matsuzaki T, Miyao Y , et al.

Incremental Joint Approach to Word Segmentation, POS Tagging , and Dependency Parsing in Chinese

[C]// Proceedings of the 50th Annual Meeting of the Association for Computational Linguistics, Jeju Island, Korea. New York, USA: ACL, 2012: 1045-1053.

[本文引用: 1]

Wang Z, Zong C, Xue N .

A Lattice-based Framework for Joint Chinese Word Segmentation, POS Tagging and Parsing

[C]// Proceedings of the 51st Annual Meeting of the Association for Computational Linguistics, Sofia, Bulgaria. New York, USA: ACL, 2013: 623-627.

[本文引用: 1]

Guo Z, Zhang Y, Su C , et al.

Character-level Dependency Model for Joint Word Segmentation, POS Tagging, and Dependency Parsing in Chinese

[J]. IEICE Transactions on Information and Systems, 2016,99(1):257-264.

[本文引用: 1]

Shen M, Li W, Choe H J , et al.

Consistent Word Segmentation, Part-of-speech Tagging and Dependency Labelling Annotation for Chinese Language

[C]// Proceedings of the 26th International Conference on Computational Linguistics, Osaka, Japan. New York, USA: COLING, 2016: 298-308.

[本文引用: 1]

Yan H, Qiu X, Huang X .

A Unified Model for Joint Chinese Word Segmentation and Dependency Parsing

[OL]. arXiv Preprint, arXiv: 1904. 04697.

[本文引用: 1]

Li X, Zong C, Su K .

A Unified Model for Solving the OOV Problem of Chinese Word Segmentation

[J]. ACM Transactions on Asian and Low-Resource Language Information Processing, 2015,14(3):12-29.

[本文引用: 1]

Zhang M, Fu G, Yu N .

Segmenting Chinese Microtext: Joint Informal-Word Detection and Segmentation with Neural Networks

[C]// Proceedings of the 26th International Joint Conference on Artificial Intelligence, Melbourne, Australia. California, USA: IJCAI, 2017: 4228-4234.

[本文引用: 1]

Shi X, Huang H, Jian P , et al.

Neural Chinese Word Segmentation as Sequence to Sequence Translation

[C]// Proceedings of the Chinese National Conference on Social Media Processing, Beijing, China. Berlin, Germany: Springer, 2017: 91-103.

[本文引用: 1]

Wu F, Liu J, Wu C , et al.

Neural Chinese Named Entity Recognition via CNN-LSTM-CRF and Joint Training with Word Segmentation

[C]// Proceedings of the 2019 World Wide Web Conference, CA, USA. New York, USA: ACM, 2019: 3342-3348.

[本文引用: 1]

/