自然语言统一处理框架 | 2008 | Collobert等[93] | ICML | 基于深度学习的CNN模型,首次提出自然语言处理统一框架。该框架同时考虑词性标注、浅层语义分析、命名实体识别、语义角色标注进行多任务学习。 |
中文分词和词性标注 | 2004 | Ng等[76] | EMNLP | 定义了一种交叉标记方式,能够同时标注两个任务的结果。 |
2010 | Zhang等[94] | ACL | 基于线性的单模型,通过柱搜索的方法提升解码效率。 |
2013 | Zeng等[95] | ACL | 基于半监督的方法,采用基于图标签传播的技术。 |
2013 | Qiu等[96] | EMNLP | 为异质标注语料构建松散的、具有不确定性的映射,在进行训练同时提高异质标注语料的分词及词性标注的准确性。 |
2013 | Zheng等[97] | EMNLP | 引入深度学习的方法自动学习特征,从而避免了人工的特征筛选,再结合传统的CRF。 |
2016 | Wang等[98] | ICIIP | 基于层次长短时记忆,在一个目标函数中同时对多个任务进行联合训练,避免了管道模型性的错误传播问题。 |
2016 | Chen等[99] | arXiv | 提出一种长距依赖的深度框架,基于联合模型同时完成分词和词性标注任务。 |
2017 | Chen等[100] | IJCAI | 针对中文分词和词性标注任务提出富特征的深度学习框架,也是一种联合模型。该模型也能够解决长距依赖的问题。 |
中文分词、词性标注和依存句法 | 2012 | Hatori等[101] | ACL | 提出一种增量的多任务处理联合模型,首次提出能够同时处理中文分词、词性标注和依存句法的联合模型。 |
2013 | Wang等[102] | ACL | 使用基于晶格的结构,首先句子被划分为词格,在此基础上进行词性标注和依存句法分析,是一种联合模型。 |
2016 | Guo等[103] | IEICE Transactions | 提出基于字级别的半监督联合处理模型,能够从部分标注的语料中得到N-Gram特征和依赖子树特征。 |
2016 | Shen等[104] | COLING | 提出一种新颖的标注方法,该方法能够克服传统基于词法标注的两个问题:不一致性问题和稀疏性问题。 |
中文分词和依存句法分析 | 2019 | Yan等[105] | arXiv | 首次提出处理中文分词和依存句法的统一模型,该模型为基于图的深度学习模型。 |
中文分词和未登录词 | 2015 | Li等[106] | TALLIP | 提出一种基于字的生成式模型,能同时进行分词和未登录词检测。未登录词主要包括:词典中不包含的词、命名实体和后缀衍生词。 |
中文分词和非正式词检测 | 2017 | Zhang等[107] | IJCAI | 中文微博语料中存在非正式用词的问题,传统的分词模型不能很好地对该类语料进行分词。针对这个问题,本文提出基于深度学习的分词和非正式词检测的联合模型。 |
中文分词和中文正确拼写 | 2017 | Shi等[108] | SMP | 基于注意力机制的Encoder-Decoder架构提出一种序列到序列的标注方法,能够解决中文分词和中文拼写正确性问题。 |
中文分词和命名实体识别 | 2019 | Wu等[109] | WWW | 提出一种新的框架CNER,综合使用了深度学习的CNN、LSTM和CRF。该框架能够在分词的同时识别命名实体。 |