中文分词技术研究综述<sup>*</sup>

中文分词技术研究综述^*

唐琳,郭崇慧,陈静锋

Review of Chinese Word Segmentation Studies

Lin Tang,Chonghui Guo,Jingfeng Chen

表2 多粒度、多准则分词文献对比分析表

Table2 Comparative Analysis of Multi-granularity and Multi-criterion

年份	作者	来源	研究思路	研究方法	实验使用的数据集
2019	Gong等^[24]	AAAI	方法改进	模型由多个长短时记忆神经网络(LSTM)和一个切换器组成,可以在这些LSTM之间自动切换。	SIGHAN2005^[11](MSR、AS) SIGHAN2008^[84](PKU、CTB、SKIP、CityU、NCC、SXU)
2019	Huang等^[85]	arXiv	方法改进	基于Bidirectional Encoder Representations (BERT),使用模型剪枝、量化和编译器优化。	CTB6^[72] SIGHAN2005^[11] (CityU、PKU、MSR、AS) SIGHAN2008^[84] (SXU) CoNLL2017^[86](UD)
2019	Qiu等^[87]	arXiv	方法改进	基于Transformer的构架方法采用全连接自注意力机制。	SIGHAN2005^[11] (CityU、PKU、MSR、AS) SIGHAN2008^[84] (CTB、SKIP、NCC、SXU)
2019	He等^[88]	SCI	语料改进	每一个句子的开头和结尾增加人工标记,以区分多粒度语料。再使用LSTM和CRF实现多粒度分词。	SIGHAN2005^[11] (MSR、 AS、PKU) SIGHAN2008^[84] (CTB、SKIP、CityU、NCC、SXU)
2019	张文静等^[82]	中文信息学报	语料改进方法改进	模型在网格结构的辅助下,对不同粒度的分词标准都有较强的捕捉能力,且不局限于单一的分词标准。	MSR^[89]、PPD^[90]、CTB^[72]
2017	Chen等^[91]	ACL	方法改进	借鉴多任务学习的思想,融合多个语料的数据提升共享字向量模块。在此基础上应用对抗网络,把私有信息从共享模块中剥离到各个私有模块中去,既有大数据量的优势,又避免了不同语料之间的相互制约。	SIGHAN2005^[11] (MSR、AS) SIGHAN2008^[84](PKU、CTB、SKIP、CityU、NCC、SXU)
2017	Gong等^[83]	EMNLP	语料改进	构建多粒度语料库。	MSR^[89]、PPD^[90]、CTB^[72]