中文分词技术研究综述*
|
唐琳,郭崇慧,陈静锋
|
Review of Chinese Word Segmentation Studies
|
Lin Tang,Chonghui Guo,Jingfeng Chen
|
|
表1 SIGHAN2005数据集上的F值测试结果(%)
|
Table1 F-value Test Results on SIGHAN2005 Dataset (%)
|
|
年份 | 作者 | 研究方法 | 来源 | 封闭测试 | 开放测试 | PKU | MSR | CityU | AS | PKU | MSR | CityU | AS | 2018 | Zhang等[12] | 结合词典的深度学习方法 | AAAI | - | - | - | - | 96.5 | 97.8 | 96.3 | 95.9 | 2017 | Cai等[13] | 基于字和词的深度学习方法 | ACL | 95.4 | 97.0 | 95.4 | 95.2 | 95.8 | 97.1 | 95.6 | 95.3 | 2015 | Chen等[14] | 基于深度学习的长短期记忆网络 | EMNLP | 94.3 | 95.0 | - | - | 96.5 | 97.4 | - | - | 2012 | Sun等[15] | 基于丰富特征的现联合学习模型同时学习中文分词和新词发现 | ACL | 95.4 | 97.4 | 94.8 | - | - | - | - | - | 2010 | Zhao等[16] | 基于字的6位标注方法 | TALIP | - | - | - | - | - | 98.3 | 97.8 | 96.1 | 2008 | Zhao等[17] | 非监督分词辅助基于字的条件随机场方法 | SIGHAN | 95.4 | 97.6 | 96.1 | 95.7 | - | - | - | - | 2007 | Zhang等[18] | 基于词的判别式感知机方法 | ACL | 94.5 | 97.2 | 94.6 | 96.5 | - | - | - | - | 2005 | Bakeoff | 评测结果 | 评测 | 95.0 | 96.4 | 94.3 | 95.2 | 96.9 | 97.2 | 96.2 | 95.6 |
|
|
|