2
1993
... 中文文本中词与词之间没有明确的分割标记,而是以连续字符串形式呈现.所以,任何中文自然语言处理任务都必须解决中文序列切分的问题——中文分词.中文分词是通过某种方法或方法的组合,将输入的中文文本基于某种需求并按照特定的规范划分为“词”的过程[1].由于任务不同、视角不同、准则不同,不同人对“词”的定义持有不同意见,这也成为中文分词需要解决的一个难题.中文分词已有30余年的研究历史,相应的中文分词研究成果被应用到自然语言处理的不同任务中,包括信息检索、机器翻译、语音识别、文本错误识别、中文繁简体自动转换、自动问答等. ...
... 中文分词研究者最初认为要先对“词”进行清晰、统一和可计算的定义.然而,目前为止所有关于“词”的定义都是模糊的、不可直接用于计算的.汉语语法教科书①(①符淮青. 现代汉语词汇(增订本)[M].第2版,北京:北京大学出版社,2004.)中对“词”的定义为:语言中有意义的能单说或用来造句的最小单位.1993年国家技术监督局发布的《信息处理用现代汉语分词规范》[1]对自然语言处理中的若干问题进行规范和统一,该规范对“词”的定义为:最小的能独立运用的语言单位. ...
2
1993
... 中文文本中词与词之间没有明确的分割标记,而是以连续字符串形式呈现.所以,任何中文自然语言处理任务都必须解决中文序列切分的问题——中文分词.中文分词是通过某种方法或方法的组合,将输入的中文文本基于某种需求并按照特定的规范划分为“词”的过程[1].由于任务不同、视角不同、准则不同,不同人对“词”的定义持有不同意见,这也成为中文分词需要解决的一个难题.中文分词已有30余年的研究历史,相应的中文分词研究成果被应用到自然语言处理的不同任务中,包括信息检索、机器翻译、语音识别、文本错误识别、中文繁简体自动转换、自动问答等. ...
... 中文分词研究者最初认为要先对“词”进行清晰、统一和可计算的定义.然而,目前为止所有关于“词”的定义都是模糊的、不可直接用于计算的.汉语语法教科书①(①符淮青. 现代汉语词汇(增订本)[M].第2版,北京:北京大学出版社,2004.)中对“词”的定义为:语言中有意义的能单说或用来造句的最小单位.1993年国家技术监督局发布的《信息处理用现代汉语分词规范》[1]对自然语言处理中的若干问题进行规范和统一,该规范对“词”的定义为:最小的能独立运用的语言单位. ...
计算机应用与软件
1
1987
... 1987年梁南元[2]撰写中文分词综述,介绍当时主流的中文分词方法——机械分词(也称为词典匹配法).该方法需要预先构建一个词典,再使用匹配算法实现分词.初期的机器词典质量不佳、匹配方法研究尚且粗浅等原因导致机械分词的切分结果偏差较大.1997年刘开瑛[3]对汉语自动分词测评技术进行总结.随着研究的深入,机械分词方法逐步走向成熟.2001年孙茂松[4]基于清华大学的相关工作,介绍中文分词研究的若干最新进展,对机械分词方法中的词典、匹配算法、以及如何解决歧义切分问题进行总结归纳.2007年黄昌宁等[5]归纳中文分词的研究难题:未登录词识别和歧义消解.未登录词识别是机械分词方法无法解决的难题,限制了分词准确率的提升.该研究根据Bakeoff测试数据总结说明,对中文分词的后续研究产生了深远影响.2008年何莘等[6]从自然语言检索角度对中文分词进行讨论.2011年奉国和等[7]基于专家经验的方法对中文分词的中文文献总结归纳,发现相关算法聚焦在机械分词和传统机器学习方面.这一时期基于字粒度的机器学习算法已经能够一定程度上解决未登录词识别的问题.但是,人工特征选择是影响传统机器学习方法分词结果的重要因素.近年,基于深度学习的中文分词方法无需人工选择特征,且有较高的分词准确率,对中文分词算法的进一步发展产生了巨大影响.赵芳芳等[8]、梁喜涛等[9]对中文分词和词性标注两个密切关联的自然语言处理任务进行探讨.赵海等[10]对机器学习中监督学习和深度学习两种主流算法2007年-2017年的发展进行梳理. ...
计算机应用与软件
1
1987
... 1987年梁南元[2]撰写中文分词综述,介绍当时主流的中文分词方法——机械分词(也称为词典匹配法).该方法需要预先构建一个词典,再使用匹配算法实现分词.初期的机器词典质量不佳、匹配方法研究尚且粗浅等原因导致机械分词的切分结果偏差较大.1997年刘开瑛[3]对汉语自动分词测评技术进行总结.随着研究的深入,机械分词方法逐步走向成熟.2001年孙茂松[4]基于清华大学的相关工作,介绍中文分词研究的若干最新进展,对机械分词方法中的词典、匹配算法、以及如何解决歧义切分问题进行总结归纳.2007年黄昌宁等[5]归纳中文分词的研究难题:未登录词识别和歧义消解.未登录词识别是机械分词方法无法解决的难题,限制了分词准确率的提升.该研究根据Bakeoff测试数据总结说明,对中文分词的后续研究产生了深远影响.2008年何莘等[6]从自然语言检索角度对中文分词进行讨论.2011年奉国和等[7]基于专家经验的方法对中文分词的中文文献总结归纳,发现相关算法聚焦在机械分词和传统机器学习方面.这一时期基于字粒度的机器学习算法已经能够一定程度上解决未登录词识别的问题.但是,人工特征选择是影响传统机器学习方法分词结果的重要因素.近年,基于深度学习的中文分词方法无需人工选择特征,且有较高的分词准确率,对中文分词算法的进一步发展产生了巨大影响.赵芳芳等[8]、梁喜涛等[9]对中文分词和词性标注两个密切关联的自然语言处理任务进行探讨.赵海等[10]对机器学习中监督学习和深度学习两种主流算法2007年-2017年的发展进行梳理. ...
语言文字应用
1
1997
... 1987年梁南元[2]撰写中文分词综述,介绍当时主流的中文分词方法——机械分词(也称为词典匹配法).该方法需要预先构建一个词典,再使用匹配算法实现分词.初期的机器词典质量不佳、匹配方法研究尚且粗浅等原因导致机械分词的切分结果偏差较大.1997年刘开瑛[3]对汉语自动分词测评技术进行总结.随着研究的深入,机械分词方法逐步走向成熟.2001年孙茂松[4]基于清华大学的相关工作,介绍中文分词研究的若干最新进展,对机械分词方法中的词典、匹配算法、以及如何解决歧义切分问题进行总结归纳.2007年黄昌宁等[5]归纳中文分词的研究难题:未登录词识别和歧义消解.未登录词识别是机械分词方法无法解决的难题,限制了分词准确率的提升.该研究根据Bakeoff测试数据总结说明,对中文分词的后续研究产生了深远影响.2008年何莘等[6]从自然语言检索角度对中文分词进行讨论.2011年奉国和等[7]基于专家经验的方法对中文分词的中文文献总结归纳,发现相关算法聚焦在机械分词和传统机器学习方面.这一时期基于字粒度的机器学习算法已经能够一定程度上解决未登录词识别的问题.但是,人工特征选择是影响传统机器学习方法分词结果的重要因素.近年,基于深度学习的中文分词方法无需人工选择特征,且有较高的分词准确率,对中文分词算法的进一步发展产生了巨大影响.赵芳芳等[8]、梁喜涛等[9]对中文分词和词性标注两个密切关联的自然语言处理任务进行探讨.赵海等[10]对机器学习中监督学习和深度学习两种主流算法2007年-2017年的发展进行梳理. ...
语言文字应用
1
1997
... 1987年梁南元[2]撰写中文分词综述,介绍当时主流的中文分词方法——机械分词(也称为词典匹配法).该方法需要预先构建一个词典,再使用匹配算法实现分词.初期的机器词典质量不佳、匹配方法研究尚且粗浅等原因导致机械分词的切分结果偏差较大.1997年刘开瑛[3]对汉语自动分词测评技术进行总结.随着研究的深入,机械分词方法逐步走向成熟.2001年孙茂松[4]基于清华大学的相关工作,介绍中文分词研究的若干最新进展,对机械分词方法中的词典、匹配算法、以及如何解决歧义切分问题进行总结归纳.2007年黄昌宁等[5]归纳中文分词的研究难题:未登录词识别和歧义消解.未登录词识别是机械分词方法无法解决的难题,限制了分词准确率的提升.该研究根据Bakeoff测试数据总结说明,对中文分词的后续研究产生了深远影响.2008年何莘等[6]从自然语言检索角度对中文分词进行讨论.2011年奉国和等[7]基于专家经验的方法对中文分词的中文文献总结归纳,发现相关算法聚焦在机械分词和传统机器学习方面.这一时期基于字粒度的机器学习算法已经能够一定程度上解决未登录词识别的问题.但是,人工特征选择是影响传统机器学习方法分词结果的重要因素.近年,基于深度学习的中文分词方法无需人工选择特征,且有较高的分词准确率,对中文分词算法的进一步发展产生了巨大影响.赵芳芳等[8]、梁喜涛等[9]对中文分词和词性标注两个密切关联的自然语言处理任务进行探讨.赵海等[10]对机器学习中监督学习和深度学习两种主流算法2007年-2017年的发展进行梳理. ...
1
2001
... 1987年梁南元[2]撰写中文分词综述,介绍当时主流的中文分词方法——机械分词(也称为词典匹配法).该方法需要预先构建一个词典,再使用匹配算法实现分词.初期的机器词典质量不佳、匹配方法研究尚且粗浅等原因导致机械分词的切分结果偏差较大.1997年刘开瑛[3]对汉语自动分词测评技术进行总结.随着研究的深入,机械分词方法逐步走向成熟.2001年孙茂松[4]基于清华大学的相关工作,介绍中文分词研究的若干最新进展,对机械分词方法中的词典、匹配算法、以及如何解决歧义切分问题进行总结归纳.2007年黄昌宁等[5]归纳中文分词的研究难题:未登录词识别和歧义消解.未登录词识别是机械分词方法无法解决的难题,限制了分词准确率的提升.该研究根据Bakeoff测试数据总结说明,对中文分词的后续研究产生了深远影响.2008年何莘等[6]从自然语言检索角度对中文分词进行讨论.2011年奉国和等[7]基于专家经验的方法对中文分词的中文文献总结归纳,发现相关算法聚焦在机械分词和传统机器学习方面.这一时期基于字粒度的机器学习算法已经能够一定程度上解决未登录词识别的问题.但是,人工特征选择是影响传统机器学习方法分词结果的重要因素.近年,基于深度学习的中文分词方法无需人工选择特征,且有较高的分词准确率,对中文分词算法的进一步发展产生了巨大影响.赵芳芳等[8]、梁喜涛等[9]对中文分词和词性标注两个密切关联的自然语言处理任务进行探讨.赵海等[10]对机器学习中监督学习和深度学习两种主流算法2007年-2017年的发展进行梳理. ...
1
2001
... 1987年梁南元[2]撰写中文分词综述,介绍当时主流的中文分词方法——机械分词(也称为词典匹配法).该方法需要预先构建一个词典,再使用匹配算法实现分词.初期的机器词典质量不佳、匹配方法研究尚且粗浅等原因导致机械分词的切分结果偏差较大.1997年刘开瑛[3]对汉语自动分词测评技术进行总结.随着研究的深入,机械分词方法逐步走向成熟.2001年孙茂松[4]基于清华大学的相关工作,介绍中文分词研究的若干最新进展,对机械分词方法中的词典、匹配算法、以及如何解决歧义切分问题进行总结归纳.2007年黄昌宁等[5]归纳中文分词的研究难题:未登录词识别和歧义消解.未登录词识别是机械分词方法无法解决的难题,限制了分词准确率的提升.该研究根据Bakeoff测试数据总结说明,对中文分词的后续研究产生了深远影响.2008年何莘等[6]从自然语言检索角度对中文分词进行讨论.2011年奉国和等[7]基于专家经验的方法对中文分词的中文文献总结归纳,发现相关算法聚焦在机械分词和传统机器学习方面.这一时期基于字粒度的机器学习算法已经能够一定程度上解决未登录词识别的问题.但是,人工特征选择是影响传统机器学习方法分词结果的重要因素.近年,基于深度学习的中文分词方法无需人工选择特征,且有较高的分词准确率,对中文分词算法的进一步发展产生了巨大影响.赵芳芳等[8]、梁喜涛等[9]对中文分词和词性标注两个密切关联的自然语言处理任务进行探讨.赵海等[10]对机器学习中监督学习和深度学习两种主流算法2007年-2017年的发展进行梳理. ...
中文分词十年回顾
2
2007
... 1987年梁南元[2]撰写中文分词综述,介绍当时主流的中文分词方法——机械分词(也称为词典匹配法).该方法需要预先构建一个词典,再使用匹配算法实现分词.初期的机器词典质量不佳、匹配方法研究尚且粗浅等原因导致机械分词的切分结果偏差较大.1997年刘开瑛[3]对汉语自动分词测评技术进行总结.随着研究的深入,机械分词方法逐步走向成熟.2001年孙茂松[4]基于清华大学的相关工作,介绍中文分词研究的若干最新进展,对机械分词方法中的词典、匹配算法、以及如何解决歧义切分问题进行总结归纳.2007年黄昌宁等[5]归纳中文分词的研究难题:未登录词识别和歧义消解.未登录词识别是机械分词方法无法解决的难题,限制了分词准确率的提升.该研究根据Bakeoff测试数据总结说明,对中文分词的后续研究产生了深远影响.2008年何莘等[6]从自然语言检索角度对中文分词进行讨论.2011年奉国和等[7]基于专家经验的方法对中文分词的中文文献总结归纳,发现相关算法聚焦在机械分词和传统机器学习方面.这一时期基于字粒度的机器学习算法已经能够一定程度上解决未登录词识别的问题.但是,人工特征选择是影响传统机器学习方法分词结果的重要因素.近年,基于深度学习的中文分词方法无需人工选择特征,且有较高的分词准确率,对中文分词算法的进一步发展产生了巨大影响.赵芳芳等[8]、梁喜涛等[9]对中文分词和词性标注两个密切关联的自然语言处理任务进行探讨.赵海等[10]对机器学习中监督学习和深度学习两种主流算法2007年-2017年的发展进行梳理. ...
... 中文分词首先要面对的问题是需要有清晰的分词标准,然而中文博大精深,分词标准一直以来都无法被统一.目前,只能对具体问题设定特定标准.在特定标准下,实际分词的过程中主要存在切分歧义和未登录词识别两大问题[5]. ...
中文分词十年回顾
2
2007
... 1987年梁南元[2]撰写中文分词综述,介绍当时主流的中文分词方法——机械分词(也称为词典匹配法).该方法需要预先构建一个词典,再使用匹配算法实现分词.初期的机器词典质量不佳、匹配方法研究尚且粗浅等原因导致机械分词的切分结果偏差较大.1997年刘开瑛[3]对汉语自动分词测评技术进行总结.随着研究的深入,机械分词方法逐步走向成熟.2001年孙茂松[4]基于清华大学的相关工作,介绍中文分词研究的若干最新进展,对机械分词方法中的词典、匹配算法、以及如何解决歧义切分问题进行总结归纳.2007年黄昌宁等[5]归纳中文分词的研究难题:未登录词识别和歧义消解.未登录词识别是机械分词方法无法解决的难题,限制了分词准确率的提升.该研究根据Bakeoff测试数据总结说明,对中文分词的后续研究产生了深远影响.2008年何莘等[6]从自然语言检索角度对中文分词进行讨论.2011年奉国和等[7]基于专家经验的方法对中文分词的中文文献总结归纳,发现相关算法聚焦在机械分词和传统机器学习方面.这一时期基于字粒度的机器学习算法已经能够一定程度上解决未登录词识别的问题.但是,人工特征选择是影响传统机器学习方法分词结果的重要因素.近年,基于深度学习的中文分词方法无需人工选择特征,且有较高的分词准确率,对中文分词算法的进一步发展产生了巨大影响.赵芳芳等[8]、梁喜涛等[9]对中文分词和词性标注两个密切关联的自然语言处理任务进行探讨.赵海等[10]对机器学习中监督学习和深度学习两种主流算法2007年-2017年的发展进行梳理. ...
... 中文分词首先要面对的问题是需要有清晰的分词标准,然而中文博大精深,分词标准一直以来都无法被统一.目前,只能对具体问题设定特定标准.在特定标准下,实际分词的过程中主要存在切分歧义和未登录词识别两大问题[5]. ...
自然语言检索中的中文分词技术研究进展及应用
1
2008
... 1987年梁南元[2]撰写中文分词综述,介绍当时主流的中文分词方法——机械分词(也称为词典匹配法).该方法需要预先构建一个词典,再使用匹配算法实现分词.初期的机器词典质量不佳、匹配方法研究尚且粗浅等原因导致机械分词的切分结果偏差较大.1997年刘开瑛[3]对汉语自动分词测评技术进行总结.随着研究的深入,机械分词方法逐步走向成熟.2001年孙茂松[4]基于清华大学的相关工作,介绍中文分词研究的若干最新进展,对机械分词方法中的词典、匹配算法、以及如何解决歧义切分问题进行总结归纳.2007年黄昌宁等[5]归纳中文分词的研究难题:未登录词识别和歧义消解.未登录词识别是机械分词方法无法解决的难题,限制了分词准确率的提升.该研究根据Bakeoff测试数据总结说明,对中文分词的后续研究产生了深远影响.2008年何莘等[6]从自然语言检索角度对中文分词进行讨论.2011年奉国和等[7]基于专家经验的方法对中文分词的中文文献总结归纳,发现相关算法聚焦在机械分词和传统机器学习方面.这一时期基于字粒度的机器学习算法已经能够一定程度上解决未登录词识别的问题.但是,人工特征选择是影响传统机器学习方法分词结果的重要因素.近年,基于深度学习的中文分词方法无需人工选择特征,且有较高的分词准确率,对中文分词算法的进一步发展产生了巨大影响.赵芳芳等[8]、梁喜涛等[9]对中文分词和词性标注两个密切关联的自然语言处理任务进行探讨.赵海等[10]对机器学习中监督学习和深度学习两种主流算法2007年-2017年的发展进行梳理. ...
自然语言检索中的中文分词技术研究进展及应用
1
2008
... 1987年梁南元[2]撰写中文分词综述,介绍当时主流的中文分词方法——机械分词(也称为词典匹配法).该方法需要预先构建一个词典,再使用匹配算法实现分词.初期的机器词典质量不佳、匹配方法研究尚且粗浅等原因导致机械分词的切分结果偏差较大.1997年刘开瑛[3]对汉语自动分词测评技术进行总结.随着研究的深入,机械分词方法逐步走向成熟.2001年孙茂松[4]基于清华大学的相关工作,介绍中文分词研究的若干最新进展,对机械分词方法中的词典、匹配算法、以及如何解决歧义切分问题进行总结归纳.2007年黄昌宁等[5]归纳中文分词的研究难题:未登录词识别和歧义消解.未登录词识别是机械分词方法无法解决的难题,限制了分词准确率的提升.该研究根据Bakeoff测试数据总结说明,对中文分词的后续研究产生了深远影响.2008年何莘等[6]从自然语言检索角度对中文分词进行讨论.2011年奉国和等[7]基于专家经验的方法对中文分词的中文文献总结归纳,发现相关算法聚焦在机械分词和传统机器学习方面.这一时期基于字粒度的机器学习算法已经能够一定程度上解决未登录词识别的问题.但是,人工特征选择是影响传统机器学习方法分词结果的重要因素.近年,基于深度学习的中文分词方法无需人工选择特征,且有较高的分词准确率,对中文分词算法的进一步发展产生了巨大影响.赵芳芳等[8]、梁喜涛等[9]对中文分词和词性标注两个密切关联的自然语言处理任务进行探讨.赵海等[10]对机器学习中监督学习和深度学习两种主流算法2007年-2017年的发展进行梳理. ...
国内中文自动分词技术研究综述
1
2011
... 1987年梁南元[2]撰写中文分词综述,介绍当时主流的中文分词方法——机械分词(也称为词典匹配法).该方法需要预先构建一个词典,再使用匹配算法实现分词.初期的机器词典质量不佳、匹配方法研究尚且粗浅等原因导致机械分词的切分结果偏差较大.1997年刘开瑛[3]对汉语自动分词测评技术进行总结.随着研究的深入,机械分词方法逐步走向成熟.2001年孙茂松[4]基于清华大学的相关工作,介绍中文分词研究的若干最新进展,对机械分词方法中的词典、匹配算法、以及如何解决歧义切分问题进行总结归纳.2007年黄昌宁等[5]归纳中文分词的研究难题:未登录词识别和歧义消解.未登录词识别是机械分词方法无法解决的难题,限制了分词准确率的提升.该研究根据Bakeoff测试数据总结说明,对中文分词的后续研究产生了深远影响.2008年何莘等[6]从自然语言检索角度对中文分词进行讨论.2011年奉国和等[7]基于专家经验的方法对中文分词的中文文献总结归纳,发现相关算法聚焦在机械分词和传统机器学习方面.这一时期基于字粒度的机器学习算法已经能够一定程度上解决未登录词识别的问题.但是,人工特征选择是影响传统机器学习方法分词结果的重要因素.近年,基于深度学习的中文分词方法无需人工选择特征,且有较高的分词准确率,对中文分词算法的进一步发展产生了巨大影响.赵芳芳等[8]、梁喜涛等[9]对中文分词和词性标注两个密切关联的自然语言处理任务进行探讨.赵海等[10]对机器学习中监督学习和深度学习两种主流算法2007年-2017年的发展进行梳理. ...
国内中文自动分词技术研究综述
1
2011
... 1987年梁南元[2]撰写中文分词综述,介绍当时主流的中文分词方法——机械分词(也称为词典匹配法).该方法需要预先构建一个词典,再使用匹配算法实现分词.初期的机器词典质量不佳、匹配方法研究尚且粗浅等原因导致机械分词的切分结果偏差较大.1997年刘开瑛[3]对汉语自动分词测评技术进行总结.随着研究的深入,机械分词方法逐步走向成熟.2001年孙茂松[4]基于清华大学的相关工作,介绍中文分词研究的若干最新进展,对机械分词方法中的词典、匹配算法、以及如何解决歧义切分问题进行总结归纳.2007年黄昌宁等[5]归纳中文分词的研究难题:未登录词识别和歧义消解.未登录词识别是机械分词方法无法解决的难题,限制了分词准确率的提升.该研究根据Bakeoff测试数据总结说明,对中文分词的后续研究产生了深远影响.2008年何莘等[6]从自然语言检索角度对中文分词进行讨论.2011年奉国和等[7]基于专家经验的方法对中文分词的中文文献总结归纳,发现相关算法聚焦在机械分词和传统机器学习方面.这一时期基于字粒度的机器学习算法已经能够一定程度上解决未登录词识别的问题.但是,人工特征选择是影响传统机器学习方法分词结果的重要因素.近年,基于深度学习的中文分词方法无需人工选择特征,且有较高的分词准确率,对中文分词算法的进一步发展产生了巨大影响.赵芳芳等[8]、梁喜涛等[9]对中文分词和词性标注两个密切关联的自然语言处理任务进行探讨.赵海等[10]对机器学习中监督学习和深度学习两种主流算法2007年-2017年的发展进行梳理. ...
中文分词和词性标注联合模型综述
1
2014
... 1987年梁南元[2]撰写中文分词综述,介绍当时主流的中文分词方法——机械分词(也称为词典匹配法).该方法需要预先构建一个词典,再使用匹配算法实现分词.初期的机器词典质量不佳、匹配方法研究尚且粗浅等原因导致机械分词的切分结果偏差较大.1997年刘开瑛[3]对汉语自动分词测评技术进行总结.随着研究的深入,机械分词方法逐步走向成熟.2001年孙茂松[4]基于清华大学的相关工作,介绍中文分词研究的若干最新进展,对机械分词方法中的词典、匹配算法、以及如何解决歧义切分问题进行总结归纳.2007年黄昌宁等[5]归纳中文分词的研究难题:未登录词识别和歧义消解.未登录词识别是机械分词方法无法解决的难题,限制了分词准确率的提升.该研究根据Bakeoff测试数据总结说明,对中文分词的后续研究产生了深远影响.2008年何莘等[6]从自然语言检索角度对中文分词进行讨论.2011年奉国和等[7]基于专家经验的方法对中文分词的中文文献总结归纳,发现相关算法聚焦在机械分词和传统机器学习方面.这一时期基于字粒度的机器学习算法已经能够一定程度上解决未登录词识别的问题.但是,人工特征选择是影响传统机器学习方法分词结果的重要因素.近年,基于深度学习的中文分词方法无需人工选择特征,且有较高的分词准确率,对中文分词算法的进一步发展产生了巨大影响.赵芳芳等[8]、梁喜涛等[9]对中文分词和词性标注两个密切关联的自然语言处理任务进行探讨.赵海等[10]对机器学习中监督学习和深度学习两种主流算法2007年-2017年的发展进行梳理. ...
中文分词和词性标注联合模型综述
1
2014
... 1987年梁南元[2]撰写中文分词综述,介绍当时主流的中文分词方法——机械分词(也称为词典匹配法).该方法需要预先构建一个词典,再使用匹配算法实现分词.初期的机器词典质量不佳、匹配方法研究尚且粗浅等原因导致机械分词的切分结果偏差较大.1997年刘开瑛[3]对汉语自动分词测评技术进行总结.随着研究的深入,机械分词方法逐步走向成熟.2001年孙茂松[4]基于清华大学的相关工作,介绍中文分词研究的若干最新进展,对机械分词方法中的词典、匹配算法、以及如何解决歧义切分问题进行总结归纳.2007年黄昌宁等[5]归纳中文分词的研究难题:未登录词识别和歧义消解.未登录词识别是机械分词方法无法解决的难题,限制了分词准确率的提升.该研究根据Bakeoff测试数据总结说明,对中文分词的后续研究产生了深远影响.2008年何莘等[6]从自然语言检索角度对中文分词进行讨论.2011年奉国和等[7]基于专家经验的方法对中文分词的中文文献总结归纳,发现相关算法聚焦在机械分词和传统机器学习方面.这一时期基于字粒度的机器学习算法已经能够一定程度上解决未登录词识别的问题.但是,人工特征选择是影响传统机器学习方法分词结果的重要因素.近年,基于深度学习的中文分词方法无需人工选择特征,且有较高的分词准确率,对中文分词算法的进一步发展产生了巨大影响.赵芳芳等[8]、梁喜涛等[9]对中文分词和词性标注两个密切关联的自然语言处理任务进行探讨.赵海等[10]对机器学习中监督学习和深度学习两种主流算法2007年-2017年的发展进行梳理. ...
中文分词与词性标注研究
1
2015
... 1987年梁南元[2]撰写中文分词综述,介绍当时主流的中文分词方法——机械分词(也称为词典匹配法).该方法需要预先构建一个词典,再使用匹配算法实现分词.初期的机器词典质量不佳、匹配方法研究尚且粗浅等原因导致机械分词的切分结果偏差较大.1997年刘开瑛[3]对汉语自动分词测评技术进行总结.随着研究的深入,机械分词方法逐步走向成熟.2001年孙茂松[4]基于清华大学的相关工作,介绍中文分词研究的若干最新进展,对机械分词方法中的词典、匹配算法、以及如何解决歧义切分问题进行总结归纳.2007年黄昌宁等[5]归纳中文分词的研究难题:未登录词识别和歧义消解.未登录词识别是机械分词方法无法解决的难题,限制了分词准确率的提升.该研究根据Bakeoff测试数据总结说明,对中文分词的后续研究产生了深远影响.2008年何莘等[6]从自然语言检索角度对中文分词进行讨论.2011年奉国和等[7]基于专家经验的方法对中文分词的中文文献总结归纳,发现相关算法聚焦在机械分词和传统机器学习方面.这一时期基于字粒度的机器学习算法已经能够一定程度上解决未登录词识别的问题.但是,人工特征选择是影响传统机器学习方法分词结果的重要因素.近年,基于深度学习的中文分词方法无需人工选择特征,且有较高的分词准确率,对中文分词算法的进一步发展产生了巨大影响.赵芳芳等[8]、梁喜涛等[9]对中文分词和词性标注两个密切关联的自然语言处理任务进行探讨.赵海等[10]对机器学习中监督学习和深度学习两种主流算法2007年-2017年的发展进行梳理. ...
中文分词与词性标注研究
1
2015
... 1987年梁南元[2]撰写中文分词综述,介绍当时主流的中文分词方法——机械分词(也称为词典匹配法).该方法需要预先构建一个词典,再使用匹配算法实现分词.初期的机器词典质量不佳、匹配方法研究尚且粗浅等原因导致机械分词的切分结果偏差较大.1997年刘开瑛[3]对汉语自动分词测评技术进行总结.随着研究的深入,机械分词方法逐步走向成熟.2001年孙茂松[4]基于清华大学的相关工作,介绍中文分词研究的若干最新进展,对机械分词方法中的词典、匹配算法、以及如何解决歧义切分问题进行总结归纳.2007年黄昌宁等[5]归纳中文分词的研究难题:未登录词识别和歧义消解.未登录词识别是机械分词方法无法解决的难题,限制了分词准确率的提升.该研究根据Bakeoff测试数据总结说明,对中文分词的后续研究产生了深远影响.2008年何莘等[6]从自然语言检索角度对中文分词进行讨论.2011年奉国和等[7]基于专家经验的方法对中文分词的中文文献总结归纳,发现相关算法聚焦在机械分词和传统机器学习方面.这一时期基于字粒度的机器学习算法已经能够一定程度上解决未登录词识别的问题.但是,人工特征选择是影响传统机器学习方法分词结果的重要因素.近年,基于深度学习的中文分词方法无需人工选择特征,且有较高的分词准确率,对中文分词算法的进一步发展产生了巨大影响.赵芳芳等[8]、梁喜涛等[9]对中文分词和词性标注两个密切关联的自然语言处理任务进行探讨.赵海等[10]对机器学习中监督学习和深度学习两种主流算法2007年-2017年的发展进行梳理. ...
2
2017
... 1987年梁南元[2]撰写中文分词综述,介绍当时主流的中文分词方法——机械分词(也称为词典匹配法).该方法需要预先构建一个词典,再使用匹配算法实现分词.初期的机器词典质量不佳、匹配方法研究尚且粗浅等原因导致机械分词的切分结果偏差较大.1997年刘开瑛[3]对汉语自动分词测评技术进行总结.随着研究的深入,机械分词方法逐步走向成熟.2001年孙茂松[4]基于清华大学的相关工作,介绍中文分词研究的若干最新进展,对机械分词方法中的词典、匹配算法、以及如何解决歧义切分问题进行总结归纳.2007年黄昌宁等[5]归纳中文分词的研究难题:未登录词识别和歧义消解.未登录词识别是机械分词方法无法解决的难题,限制了分词准确率的提升.该研究根据Bakeoff测试数据总结说明,对中文分词的后续研究产生了深远影响.2008年何莘等[6]从自然语言检索角度对中文分词进行讨论.2011年奉国和等[7]基于专家经验的方法对中文分词的中文文献总结归纳,发现相关算法聚焦在机械分词和传统机器学习方面.这一时期基于字粒度的机器学习算法已经能够一定程度上解决未登录词识别的问题.但是,人工特征选择是影响传统机器学习方法分词结果的重要因素.近年,基于深度学习的中文分词方法无需人工选择特征,且有较高的分词准确率,对中文分词算法的进一步发展产生了巨大影响.赵芳芳等[8]、梁喜涛等[9]对中文分词和词性标注两个密切关联的自然语言处理任务进行探讨.赵海等[10]对机器学习中监督学习和深度学习两种主流算法2007年-2017年的发展进行梳理. ...
... 对于机器学习算法、模型,特征选择好坏仍然是决定最后结果的关键性因素.部分研究人员希望能够通过算法进行自动特征选择,Yang等[55]研究CRF算法下的无监督的特征选择方法.随着深度学习的出现,这一问题才在一定程度上被有效解决[10]. ...
2
2017
... 1987年梁南元[2]撰写中文分词综述,介绍当时主流的中文分词方法——机械分词(也称为词典匹配法).该方法需要预先构建一个词典,再使用匹配算法实现分词.初期的机器词典质量不佳、匹配方法研究尚且粗浅等原因导致机械分词的切分结果偏差较大.1997年刘开瑛[3]对汉语自动分词测评技术进行总结.随着研究的深入,机械分词方法逐步走向成熟.2001年孙茂松[4]基于清华大学的相关工作,介绍中文分词研究的若干最新进展,对机械分词方法中的词典、匹配算法、以及如何解决歧义切分问题进行总结归纳.2007年黄昌宁等[5]归纳中文分词的研究难题:未登录词识别和歧义消解.未登录词识别是机械分词方法无法解决的难题,限制了分词准确率的提升.该研究根据Bakeoff测试数据总结说明,对中文分词的后续研究产生了深远影响.2008年何莘等[6]从自然语言检索角度对中文分词进行讨论.2011年奉国和等[7]基于专家经验的方法对中文分词的中文文献总结归纳,发现相关算法聚焦在机械分词和传统机器学习方面.这一时期基于字粒度的机器学习算法已经能够一定程度上解决未登录词识别的问题.但是,人工特征选择是影响传统机器学习方法分词结果的重要因素.近年,基于深度学习的中文分词方法无需人工选择特征,且有较高的分词准确率,对中文分词算法的进一步发展产生了巨大影响.赵芳芳等[8]、梁喜涛等[9]对中文分词和词性标注两个密切关联的自然语言处理任务进行探讨.赵海等[10]对机器学习中监督学习和深度学习两种主流算法2007年-2017年的发展进行梳理. ...
... 对于机器学习算法、模型,特征选择好坏仍然是决定最后结果的关键性因素.部分研究人员希望能够通过算法进行自动特征选择,Yang等[55]研究CRF算法下的无监督的特征选择方法.随着深度学习的出现,这一问题才在一定程度上被有效解决[10]. ...
The Second International Chinese Word Segmentation Bakeoff
9
2005
... SIGHAN2005[11]提供的数据集中包括训练集、测试集以及测试集黄金分割标准,除此之外还提供一个用于评分的脚本.比赛数据由4个数据集组成,分别是简体中文的北京大学PKU数据集和微软研究院MSR数据集;繁体中文的CityU数据集和AS数据集.它们至今仍作为学术界评测分词方法准确程度的重要标准.在这些数据集上评测的最佳F值结果如表1所示,包括比赛评测和后续文献.不同方法的最佳F值基本达到甚至超过95%.单纯设计一种学习算法已很难继续提升分词精度,如何更有效地结合不同算法是未来的研究方向.开放测试除了需要关注算法本身,更好的预训练和后处理对于提升分词结果至关重要. ...
... 调研相关文献发现不同算法之间各有优势,结合不同算法优势解决具体中文分词问题是未来探索的方向.“歧义消解”和“未登录词识别”一直作为研究解决的关键问题,相比较而言“未登录词识别”被关注更多.这是因为“未登录词”数量多、形式多样难于解决.Bakeoff2003[19]和Bakeoff2005[11]语料库统计结果表明未登录词大约是切分歧义的5.6-25.6倍.因此,“未登录词识别”问题对中文分词的结果影响很大,也是中文分词的重要子任务. ...
... 在基础深度学习模型的基础上,有效结合预训练和后处理方式已成为深度学习的一种趋势,一般性流程如图8所示.Ma等[65]发现仅使用一个简单的Bi-LSTM模型,基于深度学习的预训练、Dropout及超参调优,可以将分词效果提升到领先水平.实验结果表明,预训练对提升分词准确率有效,平均可以提升0.78%.错误分析发现2/3的错误来自未登录词.更好的预训练结果和更有效的特征表示都是深度学习分词的重要研究方向.预训练既可以根据领域需要和任务特点进行预训练,也可以直接使用现有的预训练结果进行微调.中文分词预训练的基本单位是词(字)的语义、偏旁、拼音和输入法等.语义表示的预训练模型包括与上下文无关的静态词向量训练模型Word2Vec[66]、Glove[67]以及与上下文相关的动态词向量训练模型ELMo[68]、BERT[69]和XLNet[70]等.Wang等[71]在语义表示的基础上,增加了字的拼音、五笔特征,使用Bi-LSTMs-CRF模型训练,在SIGHAN2005[11]和CTB6[72]数据集上测试,结果表明多特征融合确实能提升分词准确率.位置信息和外部知识库也被研究人员尝试使用,基于知识库减少训练集的未登录词问题,研究者尝试将词典与深度学习相结合[12,73].Zhang等[12]在表示中融入词典外部知识,在SIGHAN2010[74]的Literature、Computer、Medicine、Finance数据集上实验,结果表明融合外部词典分词准确率提升2%左右. ...
... ②同时使用多个独立的语料库,通过方法集成多个分词语料.Gong等[24]提出Switch-LSTM模型并在SIGHAN2005[11]和SIGHAN2008[84]的8个数据集上测试,平均F值达到96.12%. ...
... Comparative Analysis of Multi-granularity and Multi-criterion
Table2 年份 | 作者 | 来源 | 研究思路 | 研究方法 | 实验使用的数据集 |
2019 | Gong等[24] | AAAI | 方法改进 | 模型由多个长短时记忆神经网络(LSTM)和一个切换器组成,可以在这些LSTM之间自动切换. | SIGHAN2005[11](MSR、AS) SIGHAN2008[84](PKU、CTB、SKIP、CityU、NCC、SXU) |
2019 | Huang等[85] | arXiv | 方法改进 | 基于Bidirectional Encoder Representations (BERT),使用模型剪枝、量化和编译器优化. | CTB6[72] SIGHAN2005[11] (CityU、PKU、MSR、AS) SIGHAN2008[84] (SXU) CoNLL2017[86](UD) |
2019 | Qiu等[87] | arXiv | 方法改进 | 基于Transformer的构架方法采用全连接自注意力机制. | SIGHAN2005[11] (CityU、PKU、MSR、AS) SIGHAN2008[84] (CTB、SKIP、NCC、SXU) |
2019 | He等[88] | SCI | 语料改进 | 每一个句子的开头和结尾增加人工标记,以区分多粒度语料.再使用LSTM和CRF实现多粒度分词. | SIGHAN2005[11] (MSR、 AS、PKU) SIGHAN2008[84] (CTB、SKIP、CityU、NCC、SXU) |
2019 | 张文静等[82] | 中文信息学报 | 语料改进 方法改进 | 模型在网格结构的辅助下,对不同粒度的分词标准都有较强的捕捉能力,且不局限于单一的分词标准. | MSR[89]、PPD[90]、CTB[72] |
2017 | Chen等[91] | ACL | 方法改进 | 借鉴多任务学习的思想,融合多个语料的数据提升共享字向量模块.在此基础上应用对抗网络,把私有信息从共享模块中剥离到各个私有模块中去,既有大数据量的优势,又避免了不同语料之间的相互制约. | SIGHAN2005[11] (MSR、AS) SIGHAN2008[84](PKU、CTB、SKIP、CityU、NCC、SXU) |
2017 | Gong等[83] | EMNLP | 语料改进 | 构建多粒度语料库. | MSR[89]、PPD[90]、CTB[72] |
4.2 与中文分词相关的联合模型 传统的自然语言处理任务通过管道模型实现,即中文分词作为一个独立的任务建模,再将分词结果作为后续任务的输入.管道模型存在错误传播的问题,不同任务之间信息的共享非常有限.近年来,与中文分词相关的联合模型大量涌现,联合模型能够避免错误传播,同时提升各子任务的准确率. ...
... [
11] (CityU、PKU、MSR、AS)
SIGHAN2008
[84] (SXU)
CoNLL2017
[86](UD)
2019 | Qiu等[87] | arXiv | 方法改进 | 基于Transformer的构架方法采用全连接自注意力机制. | SIGHAN2005[11] (CityU、PKU、MSR、AS) SIGHAN2008[84] (CTB、SKIP、NCC、SXU) |
2019 | He等[88] | SCI | 语料改进 | 每一个句子的开头和结尾增加人工标记,以区分多粒度语料.再使用LSTM和CRF实现多粒度分词. | SIGHAN2005[11] (MSR、 AS、PKU) SIGHAN2008[84] (CTB、SKIP、CityU、NCC、SXU) |
2019 | 张文静等[82] | 中文信息学报 | 语料改进 方法改进 | 模型在网格结构的辅助下,对不同粒度的分词标准都有较强的捕捉能力,且不局限于单一的分词标准. | MSR[89]、PPD[90]、CTB[72] |
2017 | Chen等[91] | ACL | 方法改进 | 借鉴多任务学习的思想,融合多个语料的数据提升共享字向量模块.在此基础上应用对抗网络,把私有信息从共享模块中剥离到各个私有模块中去,既有大数据量的优势,又避免了不同语料之间的相互制约. | SIGHAN2005[11] (MSR、AS) SIGHAN2008[84](PKU、CTB、SKIP、CityU、NCC、SXU) |
2017 | Gong等[83] | EMNLP | 语料改进 | 构建多粒度语料库. | MSR[89]、PPD[90]、CTB[72] |
4.2 与中文分词相关的联合模型 传统的自然语言处理任务通过管道模型实现,即中文分词作为一个独立的任务建模,再将分词结果作为后续任务的输入.管道模型存在错误传播的问题,不同任务之间信息的共享非常有限.近年来,与中文分词相关的联合模型大量涌现,联合模型能够避免错误传播,同时提升各子任务的准确率. ...
... [
11] (CityU、PKU、MSR、AS)
SIGHAN2008
[84] (CTB、SKIP、NCC、SXU)
2019 | He等[88] | SCI | 语料改进 | 每一个句子的开头和结尾增加人工标记,以区分多粒度语料.再使用LSTM和CRF实现多粒度分词. | SIGHAN2005[11] (MSR、 AS、PKU) SIGHAN2008[84] (CTB、SKIP、CityU、NCC、SXU) |
2019 | 张文静等[82] | 中文信息学报 | 语料改进 方法改进 | 模型在网格结构的辅助下,对不同粒度的分词标准都有较强的捕捉能力,且不局限于单一的分词标准. | MSR[89]、PPD[90]、CTB[72] |
2017 | Chen等[91] | ACL | 方法改进 | 借鉴多任务学习的思想,融合多个语料的数据提升共享字向量模块.在此基础上应用对抗网络,把私有信息从共享模块中剥离到各个私有模块中去,既有大数据量的优势,又避免了不同语料之间的相互制约. | SIGHAN2005[11] (MSR、AS) SIGHAN2008[84](PKU、CTB、SKIP、CityU、NCC、SXU) |
2017 | Gong等[83] | EMNLP | 语料改进 | 构建多粒度语料库. | MSR[89]、PPD[90]、CTB[72] |
4.2 与中文分词相关的联合模型 传统的自然语言处理任务通过管道模型实现,即中文分词作为一个独立的任务建模,再将分词结果作为后续任务的输入.管道模型存在错误传播的问题,不同任务之间信息的共享非常有限.近年来,与中文分词相关的联合模型大量涌现,联合模型能够避免错误传播,同时提升各子任务的准确率. ...
... [
11] (MSR、 AS、PKU)
SIGHAN2008
[84] (CTB、SKIP、CityU、NCC、SXU)
2019 | 张文静等[82] | 中文信息学报 | 语料改进 方法改进 | 模型在网格结构的辅助下,对不同粒度的分词标准都有较强的捕捉能力,且不局限于单一的分词标准. | MSR[89]、PPD[90]、CTB[72] |
2017 | Chen等[91] | ACL | 方法改进 | 借鉴多任务学习的思想,融合多个语料的数据提升共享字向量模块.在此基础上应用对抗网络,把私有信息从共享模块中剥离到各个私有模块中去,既有大数据量的优势,又避免了不同语料之间的相互制约. | SIGHAN2005[11] (MSR、AS) SIGHAN2008[84](PKU、CTB、SKIP、CityU、NCC、SXU) |
2017 | Gong等[83] | EMNLP | 语料改进 | 构建多粒度语料库. | MSR[89]、PPD[90]、CTB[72] |
4.2 与中文分词相关的联合模型 传统的自然语言处理任务通过管道模型实现,即中文分词作为一个独立的任务建模,再将分词结果作为后续任务的输入.管道模型存在错误传播的问题,不同任务之间信息的共享非常有限.近年来,与中文分词相关的联合模型大量涌现,联合模型能够避免错误传播,同时提升各子任务的准确率. ...
... [
11] (MSR、AS)
SIGHAN2008
[84](PKU、CTB、SKIP、CityU、NCC、SXU)
2017 | Gong等[83] | EMNLP | 语料改进 | 构建多粒度语料库. | MSR[89]、PPD[90]、CTB[72] |
4.2 与中文分词相关的联合模型 传统的自然语言处理任务通过管道模型实现,即中文分词作为一个独立的任务建模,再将分词结果作为后续任务的输入.管道模型存在错误传播的问题,不同任务之间信息的共享非常有限.近年来,与中文分词相关的联合模型大量涌现,联合模型能够避免错误传播,同时提升各子任务的准确率. ...
Neural Networks Incorporating Dictionaries for Chinese Word Segmentation
3
2018
... F-value Test Results on SIGHAN2005 Dataset (%)
Table1 年份 | 作者 | 研究方法 | 来源 | 封闭测试 | 开放测试 |
PKU | MSR | CityU | AS | PKU | MSR | CityU | AS |
2018 | Zhang等[12] | 结合词典的深度学习方法 | AAAI | - | - | - | - | 96.5 | 97.8 | 96.3 | 95.9 |
2017 | Cai等[13] | 基于字和词的深度学习方法 | ACL | 95.4 | 97.0 | 95.4 | 95.2 | 95.8 | 97.1 | 95.6 | 95.3 |
2015 | Chen等[14] | 基于深度学习的长短期记忆网络 | EMNLP | 94.3 | 95.0 | - | - | 96.5 | 97.4 | - | - |
2012 | Sun等[15] | 基于丰富特征的现联合学习模型同时学习中文分词和新词发现 | ACL | 95.4 | 97.4 | 94.8 | - | - | - | - | - |
2010 | Zhao等[16] | 基于字的6位标注方法 | TALIP | - | - | - | - | - | 98.3 | 97.8 | 96.1 |
2008 | Zhao等[17] | 非监督分词辅助基于字的条件随机场方法 | SIGHAN | 95.4 | 97.6 | 96.1 | 95.7 | - | - | - | - |
2007 | Zhang等[18] | 基于词的判别式感知机方法 | ACL | 94.5 | 97.2 | 94.6 | 96.5 | - | - | - | - |
2005 | Bakeoff | 评测结果 | 评测 | 95.0 | 96.4 | 94.3 | 95.2 | 96.9 | 97.2 | 96.2 | 95.6 |
对所有“中文分词文献”中的关键字进行分析.将英文文献中的关键字翻译为中文,部分英文会议文献没有关键字忽略不计.在统计中文文献关键字的过程中,发现部分关键字含义相同但表述不同.例如,条件随机场算法有十余种表达形式,包括条件随机场、条件随机域(CRF)、CRF算法、CRFs模型、CRF标注、CRFs、条件随机场(CRFs)、条件随机域、条件随机场模型、CRF、条件随机场(CRF)、条件随机场算法、Condition Random Field(CRF)、CRF模型等.为保证统计结果更为准确,预先手工构建同义词词典,对同义词进行合并.“中文分词文献”关键字词云如图4所示,可以印证,文献中解决的问题主要是未登录词识别、歧义识别和歧义消减.算法方面基于分词词典和规则进行匹配的机械分词方法使用最多;统计分词中条件随机场和马尔可夫模型是最具代表性的方法;神经网络和深度学习方法还处于发展期. ...
... 在基础深度学习模型的基础上,有效结合预训练和后处理方式已成为深度学习的一种趋势,一般性流程如图8所示.Ma等[65]发现仅使用一个简单的Bi-LSTM模型,基于深度学习的预训练、Dropout及超参调优,可以将分词效果提升到领先水平.实验结果表明,预训练对提升分词准确率有效,平均可以提升0.78%.错误分析发现2/3的错误来自未登录词.更好的预训练结果和更有效的特征表示都是深度学习分词的重要研究方向.预训练既可以根据领域需要和任务特点进行预训练,也可以直接使用现有的预训练结果进行微调.中文分词预训练的基本单位是词(字)的语义、偏旁、拼音和输入法等.语义表示的预训练模型包括与上下文无关的静态词向量训练模型Word2Vec[66]、Glove[67]以及与上下文相关的动态词向量训练模型ELMo[68]、BERT[69]和XLNet[70]等.Wang等[71]在语义表示的基础上,增加了字的拼音、五笔特征,使用Bi-LSTMs-CRF模型训练,在SIGHAN2005[11]和CTB6[72]数据集上测试,结果表明多特征融合确实能提升分词准确率.位置信息和外部知识库也被研究人员尝试使用,基于知识库减少训练集的未登录词问题,研究者尝试将词典与深度学习相结合[12,73].Zhang等[12]在表示中融入词典外部知识,在SIGHAN2010[74]的Literature、Computer、Medicine、Finance数据集上实验,结果表明融合外部词典分词准确率提升2%左右. ...
... [12]在表示中融入词典外部知识,在SIGHAN2010[74]的Literature、Computer、Medicine、Finance数据集上实验,结果表明融合外部词典分词准确率提升2%左右. ...
Fast and Accurate Neural Word Segmentation for Chinese
1
2017
... F-value Test Results on SIGHAN2005 Dataset (%)
Table1 年份 | 作者 | 研究方法 | 来源 | 封闭测试 | 开放测试 |
PKU | MSR | CityU | AS | PKU | MSR | CityU | AS |
2018 | Zhang等[12] | 结合词典的深度学习方法 | AAAI | - | - | - | - | 96.5 | 97.8 | 96.3 | 95.9 |
2017 | Cai等[13] | 基于字和词的深度学习方法 | ACL | 95.4 | 97.0 | 95.4 | 95.2 | 95.8 | 97.1 | 95.6 | 95.3 |
2015 | Chen等[14] | 基于深度学习的长短期记忆网络 | EMNLP | 94.3 | 95.0 | - | - | 96.5 | 97.4 | - | - |
2012 | Sun等[15] | 基于丰富特征的现联合学习模型同时学习中文分词和新词发现 | ACL | 95.4 | 97.4 | 94.8 | - | - | - | - | - |
2010 | Zhao等[16] | 基于字的6位标注方法 | TALIP | - | - | - | - | - | 98.3 | 97.8 | 96.1 |
2008 | Zhao等[17] | 非监督分词辅助基于字的条件随机场方法 | SIGHAN | 95.4 | 97.6 | 96.1 | 95.7 | - | - | - | - |
2007 | Zhang等[18] | 基于词的判别式感知机方法 | ACL | 94.5 | 97.2 | 94.6 | 96.5 | - | - | - | - |
2005 | Bakeoff | 评测结果 | 评测 | 95.0 | 96.4 | 94.3 | 95.2 | 96.9 | 97.2 | 96.2 | 95.6 |
对所有“中文分词文献”中的关键字进行分析.将英文文献中的关键字翻译为中文,部分英文会议文献没有关键字忽略不计.在统计中文文献关键字的过程中,发现部分关键字含义相同但表述不同.例如,条件随机场算法有十余种表达形式,包括条件随机场、条件随机域(CRF)、CRF算法、CRFs模型、CRF标注、CRFs、条件随机场(CRFs)、条件随机域、条件随机场模型、CRF、条件随机场(CRF)、条件随机场算法、Condition Random Field(CRF)、CRF模型等.为保证统计结果更为准确,预先手工构建同义词词典,对同义词进行合并.“中文分词文献”关键字词云如图4所示,可以印证,文献中解决的问题主要是未登录词识别、歧义识别和歧义消减.算法方面基于分词词典和规则进行匹配的机械分词方法使用最多;统计分词中条件随机场和马尔可夫模型是最具代表性的方法;神经网络和深度学习方法还处于发展期. ...
Long Short-Term Memory Neural Networks for Chinese Word Segmentation
2
2015
... F-value Test Results on SIGHAN2005 Dataset (%)
Table1 年份 | 作者 | 研究方法 | 来源 | 封闭测试 | 开放测试 |
PKU | MSR | CityU | AS | PKU | MSR | CityU | AS |
2018 | Zhang等[12] | 结合词典的深度学习方法 | AAAI | - | - | - | - | 96.5 | 97.8 | 96.3 | 95.9 |
2017 | Cai等[13] | 基于字和词的深度学习方法 | ACL | 95.4 | 97.0 | 95.4 | 95.2 | 95.8 | 97.1 | 95.6 | 95.3 |
2015 | Chen等[14] | 基于深度学习的长短期记忆网络 | EMNLP | 94.3 | 95.0 | - | - | 96.5 | 97.4 | - | - |
2012 | Sun等[15] | 基于丰富特征的现联合学习模型同时学习中文分词和新词发现 | ACL | 95.4 | 97.4 | 94.8 | - | - | - | - | - |
2010 | Zhao等[16] | 基于字的6位标注方法 | TALIP | - | - | - | - | - | 98.3 | 97.8 | 96.1 |
2008 | Zhao等[17] | 非监督分词辅助基于字的条件随机场方法 | SIGHAN | 95.4 | 97.6 | 96.1 | 95.7 | - | - | - | - |
2007 | Zhang等[18] | 基于词的判别式感知机方法 | ACL | 94.5 | 97.2 | 94.6 | 96.5 | - | - | - | - |
2005 | Bakeoff | 评测结果 | 评测 | 95.0 | 96.4 | 94.3 | 95.2 | 96.9 | 97.2 | 96.2 | 95.6 |
对所有“中文分词文献”中的关键字进行分析.将英文文献中的关键字翻译为中文,部分英文会议文献没有关键字忽略不计.在统计中文文献关键字的过程中,发现部分关键字含义相同但表述不同.例如,条件随机场算法有十余种表达形式,包括条件随机场、条件随机域(CRF)、CRF算法、CRFs模型、CRF标注、CRFs、条件随机场(CRFs)、条件随机域、条件随机场模型、CRF、条件随机场(CRF)、条件随机场算法、Condition Random Field(CRF)、CRF模型等.为保证统计结果更为准确,预先手工构建同义词词典,对同义词进行合并.“中文分词文献”关键字词云如图4所示,可以印证,文献中解决的问题主要是未登录词识别、歧义识别和歧义消减.算法方面基于分词词典和规则进行匹配的机械分词方法使用最多;统计分词中条件随机场和马尔可夫模型是最具代表性的方法;神经网络和深度学习方法还处于发展期. ...
... 2011年,Collobert等[56]首次将深度学习算法引入自然语言任务中.该方法可以通过最终的分词标注训练集,有效学习原始特征和上下文表示.随后CNN[57,58]、GRN[59]、LSTM[14,60-61]、BiLSTM[62]等深度学习模型都被引入到中文分词任务中,并结合中文分词进行多种改进[63,64].相对于机器学习而言,深度学习算法无需人工进行特征选择,还可以有效地保留长距离句子信息,是对机器学习算法的有效补充.但是深度学习算法更为复杂,需要更多的计算资源. ...
Fast Online Training with Frequency-adaptive Learning Rates for Chinese Word Segmentation and New Word Detection
1
2012
... F-value Test Results on SIGHAN2005 Dataset (%)
Table1 年份 | 作者 | 研究方法 | 来源 | 封闭测试 | 开放测试 |
PKU | MSR | CityU | AS | PKU | MSR | CityU | AS |
2018 | Zhang等[12] | 结合词典的深度学习方法 | AAAI | - | - | - | - | 96.5 | 97.8 | 96.3 | 95.9 |
2017 | Cai等[13] | 基于字和词的深度学习方法 | ACL | 95.4 | 97.0 | 95.4 | 95.2 | 95.8 | 97.1 | 95.6 | 95.3 |
2015 | Chen等[14] | 基于深度学习的长短期记忆网络 | EMNLP | 94.3 | 95.0 | - | - | 96.5 | 97.4 | - | - |
2012 | Sun等[15] | 基于丰富特征的现联合学习模型同时学习中文分词和新词发现 | ACL | 95.4 | 97.4 | 94.8 | - | - | - | - | - |
2010 | Zhao等[16] | 基于字的6位标注方法 | TALIP | - | - | - | - | - | 98.3 | 97.8 | 96.1 |
2008 | Zhao等[17] | 非监督分词辅助基于字的条件随机场方法 | SIGHAN | 95.4 | 97.6 | 96.1 | 95.7 | - | - | - | - |
2007 | Zhang等[18] | 基于词的判别式感知机方法 | ACL | 94.5 | 97.2 | 94.6 | 96.5 | - | - | - | - |
2005 | Bakeoff | 评测结果 | 评测 | 95.0 | 96.4 | 94.3 | 95.2 | 96.9 | 97.2 | 96.2 | 95.6 |
对所有“中文分词文献”中的关键字进行分析.将英文文献中的关键字翻译为中文,部分英文会议文献没有关键字忽略不计.在统计中文文献关键字的过程中,发现部分关键字含义相同但表述不同.例如,条件随机场算法有十余种表达形式,包括条件随机场、条件随机域(CRF)、CRF算法、CRFs模型、CRF标注、CRFs、条件随机场(CRFs)、条件随机域、条件随机场模型、CRF、条件随机场(CRF)、条件随机场算法、Condition Random Field(CRF)、CRF模型等.为保证统计结果更为准确,预先手工构建同义词词典,对同义词进行合并.“中文分词文献”关键字词云如图4所示,可以印证,文献中解决的问题主要是未登录词识别、歧义识别和歧义消减.算法方面基于分词词典和规则进行匹配的机械分词方法使用最多;统计分词中条件随机场和马尔可夫模型是最具代表性的方法;神经网络和深度学习方法还处于发展期. ...
A Unified Character-based Tagging Framework for Chinese Word Segmentation
1
2010
... F-value Test Results on SIGHAN2005 Dataset (%)
Table1 年份 | 作者 | 研究方法 | 来源 | 封闭测试 | 开放测试 |
PKU | MSR | CityU | AS | PKU | MSR | CityU | AS |
2018 | Zhang等[12] | 结合词典的深度学习方法 | AAAI | - | - | - | - | 96.5 | 97.8 | 96.3 | 95.9 |
2017 | Cai等[13] | 基于字和词的深度学习方法 | ACL | 95.4 | 97.0 | 95.4 | 95.2 | 95.8 | 97.1 | 95.6 | 95.3 |
2015 | Chen等[14] | 基于深度学习的长短期记忆网络 | EMNLP | 94.3 | 95.0 | - | - | 96.5 | 97.4 | - | - |
2012 | Sun等[15] | 基于丰富特征的现联合学习模型同时学习中文分词和新词发现 | ACL | 95.4 | 97.4 | 94.8 | - | - | - | - | - |
2010 | Zhao等[16] | 基于字的6位标注方法 | TALIP | - | - | - | - | - | 98.3 | 97.8 | 96.1 |
2008 | Zhao等[17] | 非监督分词辅助基于字的条件随机场方法 | SIGHAN | 95.4 | 97.6 | 96.1 | 95.7 | - | - | - | - |
2007 | Zhang等[18] | 基于词的判别式感知机方法 | ACL | 94.5 | 97.2 | 94.6 | 96.5 | - | - | - | - |
2005 | Bakeoff | 评测结果 | 评测 | 95.0 | 96.4 | 94.3 | 95.2 | 96.9 | 97.2 | 96.2 | 95.6 |
对所有“中文分词文献”中的关键字进行分析.将英文文献中的关键字翻译为中文,部分英文会议文献没有关键字忽略不计.在统计中文文献关键字的过程中,发现部分关键字含义相同但表述不同.例如,条件随机场算法有十余种表达形式,包括条件随机场、条件随机域(CRF)、CRF算法、CRFs模型、CRF标注、CRFs、条件随机场(CRFs)、条件随机域、条件随机场模型、CRF、条件随机场(CRF)、条件随机场算法、Condition Random Field(CRF)、CRF模型等.为保证统计结果更为准确,预先手工构建同义词词典,对同义词进行合并.“中文分词文献”关键字词云如图4所示,可以印证,文献中解决的问题主要是未登录词识别、歧义识别和歧义消减.算法方面基于分词词典和规则进行匹配的机械分词方法使用最多;统计分词中条件随机场和马尔可夫模型是最具代表性的方法;神经网络和深度学习方法还处于发展期. ...
Unsupervised Segmentation Helps Supervised Learning of Character Tagging for Word Segmentation and Named Entity Recognition
1
2008
... F-value Test Results on SIGHAN2005 Dataset (%)
Table1 年份 | 作者 | 研究方法 | 来源 | 封闭测试 | 开放测试 |
PKU | MSR | CityU | AS | PKU | MSR | CityU | AS |
2018 | Zhang等[12] | 结合词典的深度学习方法 | AAAI | - | - | - | - | 96.5 | 97.8 | 96.3 | 95.9 |
2017 | Cai等[13] | 基于字和词的深度学习方法 | ACL | 95.4 | 97.0 | 95.4 | 95.2 | 95.8 | 97.1 | 95.6 | 95.3 |
2015 | Chen等[14] | 基于深度学习的长短期记忆网络 | EMNLP | 94.3 | 95.0 | - | - | 96.5 | 97.4 | - | - |
2012 | Sun等[15] | 基于丰富特征的现联合学习模型同时学习中文分词和新词发现 | ACL | 95.4 | 97.4 | 94.8 | - | - | - | - | - |
2010 | Zhao等[16] | 基于字的6位标注方法 | TALIP | - | - | - | - | - | 98.3 | 97.8 | 96.1 |
2008 | Zhao等[17] | 非监督分词辅助基于字的条件随机场方法 | SIGHAN | 95.4 | 97.6 | 96.1 | 95.7 | - | - | - | - |
2007 | Zhang等[18] | 基于词的判别式感知机方法 | ACL | 94.5 | 97.2 | 94.6 | 96.5 | - | - | - | - |
2005 | Bakeoff | 评测结果 | 评测 | 95.0 | 96.4 | 94.3 | 95.2 | 96.9 | 97.2 | 96.2 | 95.6 |
对所有“中文分词文献”中的关键字进行分析.将英文文献中的关键字翻译为中文,部分英文会议文献没有关键字忽略不计.在统计中文文献关键字的过程中,发现部分关键字含义相同但表述不同.例如,条件随机场算法有十余种表达形式,包括条件随机场、条件随机域(CRF)、CRF算法、CRFs模型、CRF标注、CRFs、条件随机场(CRFs)、条件随机域、条件随机场模型、CRF、条件随机场(CRF)、条件随机场算法、Condition Random Field(CRF)、CRF模型等.为保证统计结果更为准确,预先手工构建同义词词典,对同义词进行合并.“中文分词文献”关键字词云如图4所示,可以印证,文献中解决的问题主要是未登录词识别、歧义识别和歧义消减.算法方面基于分词词典和规则进行匹配的机械分词方法使用最多;统计分词中条件随机场和马尔可夫模型是最具代表性的方法;神经网络和深度学习方法还处于发展期. ...
Chinese Segmentation with a Word-based Perceptron Algorithm
1
2007
... F-value Test Results on SIGHAN2005 Dataset (%)
Table1 年份 | 作者 | 研究方法 | 来源 | 封闭测试 | 开放测试 |
PKU | MSR | CityU | AS | PKU | MSR | CityU | AS |
2018 | Zhang等[12] | 结合词典的深度学习方法 | AAAI | - | - | - | - | 96.5 | 97.8 | 96.3 | 95.9 |
2017 | Cai等[13] | 基于字和词的深度学习方法 | ACL | 95.4 | 97.0 | 95.4 | 95.2 | 95.8 | 97.1 | 95.6 | 95.3 |
2015 | Chen等[14] | 基于深度学习的长短期记忆网络 | EMNLP | 94.3 | 95.0 | - | - | 96.5 | 97.4 | - | - |
2012 | Sun等[15] | 基于丰富特征的现联合学习模型同时学习中文分词和新词发现 | ACL | 95.4 | 97.4 | 94.8 | - | - | - | - | - |
2010 | Zhao等[16] | 基于字的6位标注方法 | TALIP | - | - | - | - | - | 98.3 | 97.8 | 96.1 |
2008 | Zhao等[17] | 非监督分词辅助基于字的条件随机场方法 | SIGHAN | 95.4 | 97.6 | 96.1 | 95.7 | - | - | - | - |
2007 | Zhang等[18] | 基于词的判别式感知机方法 | ACL | 94.5 | 97.2 | 94.6 | 96.5 | - | - | - | - |
2005 | Bakeoff | 评测结果 | 评测 | 95.0 | 96.4 | 94.3 | 95.2 | 96.9 | 97.2 | 96.2 | 95.6 |
对所有“中文分词文献”中的关键字进行分析.将英文文献中的关键字翻译为中文,部分英文会议文献没有关键字忽略不计.在统计中文文献关键字的过程中,发现部分关键字含义相同但表述不同.例如,条件随机场算法有十余种表达形式,包括条件随机场、条件随机域(CRF)、CRF算法、CRFs模型、CRF标注、CRFs、条件随机场(CRFs)、条件随机域、条件随机场模型、CRF、条件随机场(CRF)、条件随机场算法、Condition Random Field(CRF)、CRF模型等.为保证统计结果更为准确,预先手工构建同义词词典,对同义词进行合并.“中文分词文献”关键字词云如图4所示,可以印证,文献中解决的问题主要是未登录词识别、歧义识别和歧义消减.算法方面基于分词词典和规则进行匹配的机械分词方法使用最多;统计分词中条件随机场和马尔可夫模型是最具代表性的方法;神经网络和深度学习方法还处于发展期. ...
The First International Chinese Word Segmentation Bakeoff
1
2003
... 调研相关文献发现不同算法之间各有优势,结合不同算法优势解决具体中文分词问题是未来探索的方向.“歧义消解”和“未登录词识别”一直作为研究解决的关键问题,相比较而言“未登录词识别”被关注更多.这是因为“未登录词”数量多、形式多样难于解决.Bakeoff2003[19]和Bakeoff2005[11]语料库统计结果表明未登录词大约是切分歧义的5.6-25.6倍.因此,“未登录词识别”问题对中文分词的结果影响很大,也是中文分词的重要子任务. ...
基于中文分词技术的药品适应症相似性研究
1
2015
... 中文分词算法及模型分为知识驱动的机械分词和数据驱动的统计分词.机械分词的研究问题包括如何存储知识的表示,即词典,以提升检索效率;为减少切分歧义和未登录词问题的词典匹配方法;规则匹配方法.数据驱动下的统计分词模型处理的原子单位主要是词和字.由于字本身存在多义的问题,构成字意的义原[20]、中文的笔画[21]和读音[22]等作为原子单位也有研究.由于中文分词语料库标注成本高,语料库规模普遍偏小,不同语料库之间标准还存在差异.如何同时使用多个存在标准差异的标注语料,甚至未标注的语料是未来的研究热点.相应的模型算法包括半监督学习、弱监督学习、强化学习等.未来进一步提升中文分词的准确率和分词效率,除了单纯的算法和模型改进,还需要考虑将已有的知识库更好地集成到数据模型中. ...
基于中文分词技术的药品适应症相似性研究
1
2015
... 中文分词算法及模型分为知识驱动的机械分词和数据驱动的统计分词.机械分词的研究问题包括如何存储知识的表示,即词典,以提升检索效率;为减少切分歧义和未登录词问题的词典匹配方法;规则匹配方法.数据驱动下的统计分词模型处理的原子单位主要是词和字.由于字本身存在多义的问题,构成字意的义原[20]、中文的笔画[21]和读音[22]等作为原子单位也有研究.由于中文分词语料库标注成本高,语料库规模普遍偏小,不同语料库之间标准还存在差异.如何同时使用多个存在标准差异的标注语料,甚至未标注的语料是未来的研究热点.相应的模型算法包括半监督学习、弱监督学习、强化学习等.未来进一步提升中文分词的准确率和分词效率,除了单纯的算法和模型改进,还需要考虑将已有的知识库更好地集成到数据模型中. ...
基于笔画中文字向量模型设计与研究
1
2019
... 中文分词算法及模型分为知识驱动的机械分词和数据驱动的统计分词.机械分词的研究问题包括如何存储知识的表示,即词典,以提升检索效率;为减少切分歧义和未登录词问题的词典匹配方法;规则匹配方法.数据驱动下的统计分词模型处理的原子单位主要是词和字.由于字本身存在多义的问题,构成字意的义原[20]、中文的笔画[21]和读音[22]等作为原子单位也有研究.由于中文分词语料库标注成本高,语料库规模普遍偏小,不同语料库之间标准还存在差异.如何同时使用多个存在标准差异的标注语料,甚至未标注的语料是未来的研究热点.相应的模型算法包括半监督学习、弱监督学习、强化学习等.未来进一步提升中文分词的准确率和分词效率,除了单纯的算法和模型改进,还需要考虑将已有的知识库更好地集成到数据模型中. ...
基于笔画中文字向量模型设计与研究
1
2019
... 中文分词算法及模型分为知识驱动的机械分词和数据驱动的统计分词.机械分词的研究问题包括如何存储知识的表示,即词典,以提升检索效率;为减少切分歧义和未登录词问题的词典匹配方法;规则匹配方法.数据驱动下的统计分词模型处理的原子单位主要是词和字.由于字本身存在多义的问题,构成字意的义原[20]、中文的笔画[21]和读音[22]等作为原子单位也有研究.由于中文分词语料库标注成本高,语料库规模普遍偏小,不同语料库之间标准还存在差异.如何同时使用多个存在标准差异的标注语料,甚至未标注的语料是未来的研究热点.相应的模型算法包括半监督学习、弱监督学习、强化学习等.未来进一步提升中文分词的准确率和分词效率,除了单纯的算法和模型改进,还需要考虑将已有的知识库更好地集成到数据模型中. ...
中文文本自动校对系统设计与实现
1
2017
... 中文分词算法及模型分为知识驱动的机械分词和数据驱动的统计分词.机械分词的研究问题包括如何存储知识的表示,即词典,以提升检索效率;为减少切分歧义和未登录词问题的词典匹配方法;规则匹配方法.数据驱动下的统计分词模型处理的原子单位主要是词和字.由于字本身存在多义的问题,构成字意的义原[20]、中文的笔画[21]和读音[22]等作为原子单位也有研究.由于中文分词语料库标注成本高,语料库规模普遍偏小,不同语料库之间标准还存在差异.如何同时使用多个存在标准差异的标注语料,甚至未标注的语料是未来的研究热点.相应的模型算法包括半监督学习、弱监督学习、强化学习等.未来进一步提升中文分词的准确率和分词效率,除了单纯的算法和模型改进,还需要考虑将已有的知识库更好地集成到数据模型中. ...
中文文本自动校对系统设计与实现
1
2017
... 中文分词算法及模型分为知识驱动的机械分词和数据驱动的统计分词.机械分词的研究问题包括如何存储知识的表示,即词典,以提升检索效率;为减少切分歧义和未登录词问题的词典匹配方法;规则匹配方法.数据驱动下的统计分词模型处理的原子单位主要是词和字.由于字本身存在多义的问题,构成字意的义原[20]、中文的笔画[21]和读音[22]等作为原子单位也有研究.由于中文分词语料库标注成本高,语料库规模普遍偏小,不同语料库之间标准还存在差异.如何同时使用多个存在标准差异的标注语料,甚至未标注的语料是未来的研究热点.相应的模型算法包括半监督学习、弱监督学习、强化学习等.未来进一步提升中文分词的准确率和分词效率,除了单纯的算法和模型改进,还需要考虑将已有的知识库更好地集成到数据模型中. ...
A Stochastic Finite-State Word-Segmentation Algorithm for Chinese
1
1994
... 中文词汇本身具有开放性、动态性,与研究问题和研究视角相关,不同人之间也存在认同差异,实验表明人与人之间的认同率只有0.76左右[23].因此,至今仍无法给出一个通用的可操作标准.已有研究绝大多数都是预先在特定领域或者特定问题前提下设定特定标准,再进行分词研究.事实上,针对不同问题、不同领域的分词标准,甚至是同一问题内部分词标准都存在矛盾.例如:“林丹拿了总冠军.”这句话在现有公开的均衡分词语料中的标准就存在差异.北大的人民日报语料将姓名拆分,即“林”、“丹”拆开作为两个词;而微软语料规范中视其为一个词,即“林丹”不切分[24].北大训练语料(SIGHAN Bakeoff-2005)统计发现,语料内部存在约3%的切分标准不一致.因此,通用分词标准一直是中文分词的难题. ...
Switch-LSTMs for Multi-Criteria Chinese Word Segmentation
3
2019
... 中文词汇本身具有开放性、动态性,与研究问题和研究视角相关,不同人之间也存在认同差异,实验表明人与人之间的认同率只有0.76左右[23].因此,至今仍无法给出一个通用的可操作标准.已有研究绝大多数都是预先在特定领域或者特定问题前提下设定特定标准,再进行分词研究.事实上,针对不同问题、不同领域的分词标准,甚至是同一问题内部分词标准都存在矛盾.例如:“林丹拿了总冠军.”这句话在现有公开的均衡分词语料中的标准就存在差异.北大的人民日报语料将姓名拆分,即“林”、“丹”拆开作为两个词;而微软语料规范中视其为一个词,即“林丹”不切分[24].北大训练语料(SIGHAN Bakeoff-2005)统计发现,语料内部存在约3%的切分标准不一致.因此,通用分词标准一直是中文分词的难题. ...
... ②同时使用多个独立的语料库,通过方法集成多个分词语料.Gong等[24]提出Switch-LSTM模型并在SIGHAN2005[11]和SIGHAN2008[84]的8个数据集上测试,平均F值达到96.12%. ...
... Comparative Analysis of Multi-granularity and Multi-criterion
Table2 年份 | 作者 | 来源 | 研究思路 | 研究方法 | 实验使用的数据集 |
2019 | Gong等[24] | AAAI | 方法改进 | 模型由多个长短时记忆神经网络(LSTM)和一个切换器组成,可以在这些LSTM之间自动切换. | SIGHAN2005[11](MSR、AS) SIGHAN2008[84](PKU、CTB、SKIP、CityU、NCC、SXU) |
2019 | Huang等[85] | arXiv | 方法改进 | 基于Bidirectional Encoder Representations (BERT),使用模型剪枝、量化和编译器优化. | CTB6[72] SIGHAN2005[11] (CityU、PKU、MSR、AS) SIGHAN2008[84] (SXU) CoNLL2017[86](UD) |
2019 | Qiu等[87] | arXiv | 方法改进 | 基于Transformer的构架方法采用全连接自注意力机制. | SIGHAN2005[11] (CityU、PKU、MSR、AS) SIGHAN2008[84] (CTB、SKIP、NCC、SXU) |
2019 | He等[88] | SCI | 语料改进 | 每一个句子的开头和结尾增加人工标记,以区分多粒度语料.再使用LSTM和CRF实现多粒度分词. | SIGHAN2005[11] (MSR、 AS、PKU) SIGHAN2008[84] (CTB、SKIP、CityU、NCC、SXU) |
2019 | 张文静等[82] | 中文信息学报 | 语料改进 方法改进 | 模型在网格结构的辅助下,对不同粒度的分词标准都有较强的捕捉能力,且不局限于单一的分词标准. | MSR[89]、PPD[90]、CTB[72] |
2017 | Chen等[91] | ACL | 方法改进 | 借鉴多任务学习的思想,融合多个语料的数据提升共享字向量模块.在此基础上应用对抗网络,把私有信息从共享模块中剥离到各个私有模块中去,既有大数据量的优势,又避免了不同语料之间的相互制约. | SIGHAN2005[11] (MSR、AS) SIGHAN2008[84](PKU、CTB、SKIP、CityU、NCC、SXU) |
2017 | Gong等[83] | EMNLP | 语料改进 | 构建多粒度语料库. | MSR[89]、PPD[90]、CTB[72] |
4.2 与中文分词相关的联合模型 传统的自然语言处理任务通过管道模型实现,即中文分词作为一个独立的任务建模,再将分词结果作为后续任务的输入.管道模型存在错误传播的问题,不同任务之间信息的共享非常有限.近年来,与中文分词相关的联合模型大量涌现,联合模型能够避免错误传播,同时提升各子任务的准确率. ...
一种快速的交集型歧义检测方法
1
2008
... 切分歧义指在切分中文字符序列时存在歧义,有两种常见的分类.第一种分类广泛在中文分词文献中使用.分为交集型切分歧义(Overlapping Ambiguity Segmentation,OAS)[25]和多义组合型切分歧义(Combination Ambiguity Segmentation,CAS)[26].交集型切分歧义也被称为交叉歧义,例如:“按时下的进展,很难完成任务!”中“按时”和“时下”都可以构成词.多义组合型切分歧义也被称为覆盖歧义,例如:“李刚是很有才能的人”中“才”、“能”本身都可以单独构词,也可以合并为“才能”构词.另一种是从歧义的真伪角度分类[27],分为真歧义和伪歧义.真歧义是中文文本本身的语法和语义都没有问题,即便人工进行切分也会产生歧义.例如“乒乓球拍卖完了”,这句话本身可以有两种不同的理解,而且都是没有问题的,即“乒乓/球拍/卖完/了”和“乒乓球/拍卖/完/了”.反之,被称为伪歧义.解决真歧义的问题非常复杂,需要依赖具体的情境及更多的上下文信息. ...
一种快速的交集型歧义检测方法
1
2008
... 切分歧义指在切分中文字符序列时存在歧义,有两种常见的分类.第一种分类广泛在中文分词文献中使用.分为交集型切分歧义(Overlapping Ambiguity Segmentation,OAS)[25]和多义组合型切分歧义(Combination Ambiguity Segmentation,CAS)[26].交集型切分歧义也被称为交叉歧义,例如:“按时下的进展,很难完成任务!”中“按时”和“时下”都可以构成词.多义组合型切分歧义也被称为覆盖歧义,例如:“李刚是很有才能的人”中“才”、“能”本身都可以单独构词,也可以合并为“才能”构词.另一种是从歧义的真伪角度分类[27],分为真歧义和伪歧义.真歧义是中文文本本身的语法和语义都没有问题,即便人工进行切分也会产生歧义.例如“乒乓球拍卖完了”,这句话本身可以有两种不同的理解,而且都是没有问题的,即“乒乓/球拍/卖完/了”和“乒乓球/拍卖/完/了”.反之,被称为伪歧义.解决真歧义的问题非常复杂,需要依赖具体的情境及更多的上下文信息. ...
汉语分词中组合歧义字段的研究
1
2007
... 切分歧义指在切分中文字符序列时存在歧义,有两种常见的分类.第一种分类广泛在中文分词文献中使用.分为交集型切分歧义(Overlapping Ambiguity Segmentation,OAS)[25]和多义组合型切分歧义(Combination Ambiguity Segmentation,CAS)[26].交集型切分歧义也被称为交叉歧义,例如:“按时下的进展,很难完成任务!”中“按时”和“时下”都可以构成词.多义组合型切分歧义也被称为覆盖歧义,例如:“李刚是很有才能的人”中“才”、“能”本身都可以单独构词,也可以合并为“才能”构词.另一种是从歧义的真伪角度分类[27],分为真歧义和伪歧义.真歧义是中文文本本身的语法和语义都没有问题,即便人工进行切分也会产生歧义.例如“乒乓球拍卖完了”,这句话本身可以有两种不同的理解,而且都是没有问题的,即“乒乓/球拍/卖完/了”和“乒乓球/拍卖/完/了”.反之,被称为伪歧义.解决真歧义的问题非常复杂,需要依赖具体的情境及更多的上下文信息. ...
汉语分词中组合歧义字段的研究
1
2007
... 切分歧义指在切分中文字符序列时存在歧义,有两种常见的分类.第一种分类广泛在中文分词文献中使用.分为交集型切分歧义(Overlapping Ambiguity Segmentation,OAS)[25]和多义组合型切分歧义(Combination Ambiguity Segmentation,CAS)[26].交集型切分歧义也被称为交叉歧义,例如:“按时下的进展,很难完成任务!”中“按时”和“时下”都可以构成词.多义组合型切分歧义也被称为覆盖歧义,例如:“李刚是很有才能的人”中“才”、“能”本身都可以单独构词,也可以合并为“才能”构词.另一种是从歧义的真伪角度分类[27],分为真歧义和伪歧义.真歧义是中文文本本身的语法和语义都没有问题,即便人工进行切分也会产生歧义.例如“乒乓球拍卖完了”,这句话本身可以有两种不同的理解,而且都是没有问题的,即“乒乓/球拍/卖完/了”和“乒乓球/拍卖/完/了”.反之,被称为伪歧义.解决真歧义的问题非常复杂,需要依赖具体的情境及更多的上下文信息. ...
中文分词中歧义切分处理策略
2
2007
... 切分歧义指在切分中文字符序列时存在歧义,有两种常见的分类.第一种分类广泛在中文分词文献中使用.分为交集型切分歧义(Overlapping Ambiguity Segmentation,OAS)[25]和多义组合型切分歧义(Combination Ambiguity Segmentation,CAS)[26].交集型切分歧义也被称为交叉歧义,例如:“按时下的进展,很难完成任务!”中“按时”和“时下”都可以构成词.多义组合型切分歧义也被称为覆盖歧义,例如:“李刚是很有才能的人”中“才”、“能”本身都可以单独构词,也可以合并为“才能”构词.另一种是从歧义的真伪角度分类[27],分为真歧义和伪歧义.真歧义是中文文本本身的语法和语义都没有问题,即便人工进行切分也会产生歧义.例如“乒乓球拍卖完了”,这句话本身可以有两种不同的理解,而且都是没有问题的,即“乒乓/球拍/卖完/了”和“乒乓球/拍卖/完/了”.反之,被称为伪歧义.解决真歧义的问题非常复杂,需要依赖具体的情境及更多的上下文信息. ...
... 常见的匹配算法包括:正向最大匹配法或正向最长词优先匹配法(Forward Maximum Matching, FMM)、逆向最大匹配法(Reverse Maximum Matching, RMM)、双向最大匹配法、全切分法等.匹配算法中,存在较多切分歧义问题.切分歧义研究包括歧义发现和歧义消解,歧义消解主要采用规则和统计的方法[27].由于算法简单,机械分词具有分词速度快的天然优势.然而,分词准确率与词典的好坏正相关,在未登录词较多的情况下,算法的准确率无法保证. ...
中文分词中歧义切分处理策略
2
2007
... 切分歧义指在切分中文字符序列时存在歧义,有两种常见的分类.第一种分类广泛在中文分词文献中使用.分为交集型切分歧义(Overlapping Ambiguity Segmentation,OAS)[25]和多义组合型切分歧义(Combination Ambiguity Segmentation,CAS)[26].交集型切分歧义也被称为交叉歧义,例如:“按时下的进展,很难完成任务!”中“按时”和“时下”都可以构成词.多义组合型切分歧义也被称为覆盖歧义,例如:“李刚是很有才能的人”中“才”、“能”本身都可以单独构词,也可以合并为“才能”构词.另一种是从歧义的真伪角度分类[27],分为真歧义和伪歧义.真歧义是中文文本本身的语法和语义都没有问题,即便人工进行切分也会产生歧义.例如“乒乓球拍卖完了”,这句话本身可以有两种不同的理解,而且都是没有问题的,即“乒乓/球拍/卖完/了”和“乒乓球/拍卖/完/了”.反之,被称为伪歧义.解决真歧义的问题非常复杂,需要依赖具体的情境及更多的上下文信息. ...
... 常见的匹配算法包括:正向最大匹配法或正向最长词优先匹配法(Forward Maximum Matching, FMM)、逆向最大匹配法(Reverse Maximum Matching, RMM)、双向最大匹配法、全切分法等.匹配算法中,存在较多切分歧义问题.切分歧义研究包括歧义发现和歧义消解,歧义消解主要采用规则和统计的方法[27].由于算法简单,机械分词具有分词速度快的天然优势.然而,分词准确率与词典的好坏正相关,在未登录词较多的情况下,算法的准确率无法保证. ...
University of Sheffield: Description of the LaSIE-II System as Used for MUC-7
1
1998
... 未登录词识别包括新涌现的通用词、专业术语和专有名词,如中国人名、外国译名、地名、机构名(泛指机关、团体和其他企事业单位)等.其中,人名、地名和机构名具有多变性,处理难度较大.例如:“康美药业股份有限公司”可以简称为“康美药业”、“康美”等.因此,在1995年11月的第6届MUC会议(MUC-6)上,提出了一个明确的概念——命名实体(Named Entity,NE)[28],包括人名、地名、机构名、日期、时间、百分数和货币.事件抽取任务、知识图谱、信息检索、问答系统等都十分依赖命名实体识别.因此,命名实体识别被单独研究. ...
汉语自动分词词典机制的实验研究
1
2000
... 最初的中文分词研究人员认为需要先建立词典,再通过匹配的方法进行分词,这种方法称为机械分词.主要研究问题包括:如何构建一个完备的词典;随着词典规模的不断增加,如何优化词典的存储,更易于查找以提升检索效率[29];匹配算法如何设计;匹配中出现的歧义切分如何消解. ...
汉语自动分词词典机制的实验研究
1
2000
... 最初的中文分词研究人员认为需要先建立词典,再通过匹配的方法进行分词,这种方法称为机械分词.主要研究问题包括:如何构建一个完备的词典;随着词典规模的不断增加,如何优化词典的存储,更易于查找以提升检索效率[29];匹配算法如何设计;匹配中出现的歧义切分如何消解. ...
A Statistical Method for Finding Word Boundaries in Chinese Text
1
1990
... 1990年,Sproat等[30]首次基于统计学习方法实现中文分词.根据处理的粒度,分为基于词和基于字两类标注.在2003年、2005年和2006年三次Bakeoff中文分词测评中,基于字标注的中文分词方法有效提升了分词准确率.因此,基于字标注的中文分词方法迅速成为主流[31].该方法是将中文分词转化为字序列标注的问题[32,33].汉字的边界位置标注方法包括2位标记法、4位标记等.被广泛使用的是4位标记法[32],B表示开始位置、M表示中间位置、E表示结束位置及S表示单字构词.机器学习算法需要人工设计特征模板,指定窗口的大小.由于算法的复杂度以及对分词结果准确度要求等原因,窗口大小一般不超过5. ...
1
2006
... 1990年,Sproat等[30]首次基于统计学习方法实现中文分词.根据处理的粒度,分为基于词和基于字两类标注.在2003年、2005年和2006年三次Bakeoff中文分词测评中,基于字标注的中文分词方法有效提升了分词准确率.因此,基于字标注的中文分词方法迅速成为主流[31].该方法是将中文分词转化为字序列标注的问题[32,33].汉字的边界位置标注方法包括2位标记法、4位标记等.被广泛使用的是4位标记法[32],B表示开始位置、M表示中间位置、E表示结束位置及S表示单字构词.机器学习算法需要人工设计特征模板,指定窗口的大小.由于算法的复杂度以及对分词结果准确度要求等原因,窗口大小一般不超过5. ...
Chinese Word Segmentation as Character Tagging
2
2003
... 1990年,Sproat等[30]首次基于统计学习方法实现中文分词.根据处理的粒度,分为基于词和基于字两类标注.在2003年、2005年和2006年三次Bakeoff中文分词测评中,基于字标注的中文分词方法有效提升了分词准确率.因此,基于字标注的中文分词方法迅速成为主流[31].该方法是将中文分词转化为字序列标注的问题[32,33].汉字的边界位置标注方法包括2位标记法、4位标记等.被广泛使用的是4位标记法[32],B表示开始位置、M表示中间位置、E表示结束位置及S表示单字构词.机器学习算法需要人工设计特征模板,指定窗口的大小.由于算法的复杂度以及对分词结果准确度要求等原因,窗口大小一般不超过5. ...
... [32],B表示开始位置、M表示中间位置、E表示结束位置及S表示单字构词.机器学习算法需要人工设计特征模板,指定窗口的大小.由于算法的复杂度以及对分词结果准确度要求等原因,窗口大小一般不超过5. ...
Combining Classifiers for Chinese Word Segmentation
1
2002
... 1990年,Sproat等[30]首次基于统计学习方法实现中文分词.根据处理的粒度,分为基于词和基于字两类标注.在2003年、2005年和2006年三次Bakeoff中文分词测评中,基于字标注的中文分词方法有效提升了分词准确率.因此,基于字标注的中文分词方法迅速成为主流[31].该方法是将中文分词转化为字序列标注的问题[32,33].汉字的边界位置标注方法包括2位标记法、4位标记等.被广泛使用的是4位标记法[32],B表示开始位置、M表示中间位置、E表示结束位置及S表示单字构词.机器学习算法需要人工设计特征模板,指定窗口的大小.由于算法的复杂度以及对分词结果准确度要求等原因,窗口大小一般不超过5. ...
A Maximum Entropy Approach to Chinese Word Segmentation
1
2005
... 最初影响力较大的模型是最大熵模型(Maximum Entropy,ME)[34,35]和隐马尔可夫模型(Hidden Markov Model,HMM)[36].隐马尔可夫模型存在输出独立性假设的问题,在特征选择时受到限制,故无法选择复杂特征.最大熵马尔可夫模型(Maximum Entropy Markov Model,MEMM)[37]集成了最大熵模型和马尔可夫模型的优点,将上下文信息引入到模型中,可以选择任意特征,模型学习和识别的准确率都有所提升.但是模型对每个节点进行独立归一化,存在偏置问题.条件随机场(CRF)[38,39,40]结合了多方面优势,对所有特征进行全局归一化,避免了偏置问题,成为传统机器学习中应用最多、最具代表性的模型算法之一.条件随机场能够获得更高的分词准确率,但模型复杂导致分词效率略低. ...
A Maximum Entropy Approach to Natural Language Processing
1
1996
... 最初影响力较大的模型是最大熵模型(Maximum Entropy,ME)[34,35]和隐马尔可夫模型(Hidden Markov Model,HMM)[36].隐马尔可夫模型存在输出独立性假设的问题,在特征选择时受到限制,故无法选择复杂特征.最大熵马尔可夫模型(Maximum Entropy Markov Model,MEMM)[37]集成了最大熵模型和马尔可夫模型的优点,将上下文信息引入到模型中,可以选择任意特征,模型学习和识别的准确率都有所提升.但是模型对每个节点进行独立归一化,存在偏置问题.条件随机场(CRF)[38,39,40]结合了多方面优势,对所有特征进行全局归一化,避免了偏置问题,成为传统机器学习中应用最多、最具代表性的模型算法之一.条件随机场能够获得更高的分词准确率,但模型复杂导致分词效率略低. ...
A Tutorial on Hidden Markov Models and Selected Applications in Speech Recognition
1
1989
... 最初影响力较大的模型是最大熵模型(Maximum Entropy,ME)[34,35]和隐马尔可夫模型(Hidden Markov Model,HMM)[36].隐马尔可夫模型存在输出独立性假设的问题,在特征选择时受到限制,故无法选择复杂特征.最大熵马尔可夫模型(Maximum Entropy Markov Model,MEMM)[37]集成了最大熵模型和马尔可夫模型的优点,将上下文信息引入到模型中,可以选择任意特征,模型学习和识别的准确率都有所提升.但是模型对每个节点进行独立归一化,存在偏置问题.条件随机场(CRF)[38,39,40]结合了多方面优势,对所有特征进行全局归一化,避免了偏置问题,成为传统机器学习中应用最多、最具代表性的模型算法之一.条件随机场能够获得更高的分词准确率,但模型复杂导致分词效率略低. ...
Maximum Entropy Markov Models for Information Extraction and Segmentation
1
2000
... 最初影响力较大的模型是最大熵模型(Maximum Entropy,ME)[34,35]和隐马尔可夫模型(Hidden Markov Model,HMM)[36].隐马尔可夫模型存在输出独立性假设的问题,在特征选择时受到限制,故无法选择复杂特征.最大熵马尔可夫模型(Maximum Entropy Markov Model,MEMM)[37]集成了最大熵模型和马尔可夫模型的优点,将上下文信息引入到模型中,可以选择任意特征,模型学习和识别的准确率都有所提升.但是模型对每个节点进行独立归一化,存在偏置问题.条件随机场(CRF)[38,39,40]结合了多方面优势,对所有特征进行全局归一化,避免了偏置问题,成为传统机器学习中应用最多、最具代表性的模型算法之一.条件随机场能够获得更高的分词准确率,但模型复杂导致分词效率略低. ...
Chinese Segmentation and New Word Detection Using Conditional Random Fields
1
2004
... 最初影响力较大的模型是最大熵模型(Maximum Entropy,ME)[34,35]和隐马尔可夫模型(Hidden Markov Model,HMM)[36].隐马尔可夫模型存在输出独立性假设的问题,在特征选择时受到限制,故无法选择复杂特征.最大熵马尔可夫模型(Maximum Entropy Markov Model,MEMM)[37]集成了最大熵模型和马尔可夫模型的优点,将上下文信息引入到模型中,可以选择任意特征,模型学习和识别的准确率都有所提升.但是模型对每个节点进行独立归一化,存在偏置问题.条件随机场(CRF)[38,39,40]结合了多方面优势,对所有特征进行全局归一化,避免了偏置问题,成为传统机器学习中应用最多、最具代表性的模型算法之一.条件随机场能够获得更高的分词准确率,但模型复杂导致分词效率略低. ...
A Conditional Random Field Word Segmenter for SIGHAN Bakeoff 2005
1
2005
... 最初影响力较大的模型是最大熵模型(Maximum Entropy,ME)[34,35]和隐马尔可夫模型(Hidden Markov Model,HMM)[36].隐马尔可夫模型存在输出独立性假设的问题,在特征选择时受到限制,故无法选择复杂特征.最大熵马尔可夫模型(Maximum Entropy Markov Model,MEMM)[37]集成了最大熵模型和马尔可夫模型的优点,将上下文信息引入到模型中,可以选择任意特征,模型学习和识别的准确率都有所提升.但是模型对每个节点进行独立归一化,存在偏置问题.条件随机场(CRF)[38,39,40]结合了多方面优势,对所有特征进行全局归一化,避免了偏置问题,成为传统机器学习中应用最多、最具代表性的模型算法之一.条件随机场能够获得更高的分词准确率,但模型复杂导致分词效率略低. ...
Conditional Random Fields: Probabilistic Models for Segmenting and Labeling Sequence Data
1
2001
... 最初影响力较大的模型是最大熵模型(Maximum Entropy,ME)[34,35]和隐马尔可夫模型(Hidden Markov Model,HMM)[36].隐马尔可夫模型存在输出独立性假设的问题,在特征选择时受到限制,故无法选择复杂特征.最大熵马尔可夫模型(Maximum Entropy Markov Model,MEMM)[37]集成了最大熵模型和马尔可夫模型的优点,将上下文信息引入到模型中,可以选择任意特征,模型学习和识别的准确率都有所提升.但是模型对每个节点进行独立归一化,存在偏置问题.条件随机场(CRF)[38,39,40]结合了多方面优势,对所有特征进行全局归一化,避免了偏置问题,成为传统机器学习中应用最多、最具代表性的模型算法之一.条件随机场能够获得更高的分词准确率,但模型复杂导致分词效率略低. ...
适应于不同领域的中文分词方法研究与实现
1
2013
... 无监督分词策略均需要预设良度标准[41],以往研究中常见的良度标准有子串频率(Frequency of Substring with Reduction, FSR)[42]、描述长度增益(Description Length Gain, DL) [43]、邻接多样性(Accessor Variety, AV)[44]和分支信息熵(Branching Entropy, BE)[45].传统的无监督分词算法包括判别式模型和生成式模型两大类.基于判别式模型的文献主要在互信息[46,47]、分支信息熵[47,48]、长度增益[49]等方法上进行改进研究.生成式模型主要基于HMM[50]、HDP[51]等进行改进研究. ...
适应于不同领域的中文分词方法研究与实现
1
2013
... 无监督分词策略均需要预设良度标准[41],以往研究中常见的良度标准有子串频率(Frequency of Substring with Reduction, FSR)[42]、描述长度增益(Description Length Gain, DL) [43]、邻接多样性(Accessor Variety, AV)[44]和分支信息熵(Branching Entropy, BE)[45].传统的无监督分词算法包括判别式模型和生成式模型两大类.基于判别式模型的文献主要在互信息[46,47]、分支信息熵[47,48]、长度增益[49]等方法上进行改进研究.生成式模型主要基于HMM[50]、HDP[51]等进行改进研究. ...
Statistical Substring Reduction in Linear Time
1
2004
... 无监督分词策略均需要预设良度标准[41],以往研究中常见的良度标准有子串频率(Frequency of Substring with Reduction, FSR)[42]、描述长度增益(Description Length Gain, DL) [43]、邻接多样性(Accessor Variety, AV)[44]和分支信息熵(Branching Entropy, BE)[45].传统的无监督分词算法包括判别式模型和生成式模型两大类.基于判别式模型的文献主要在互信息[46,47]、分支信息熵[47,48]、长度增益[49]等方法上进行改进研究.生成式模型主要基于HMM[50]、HDP[51]等进行改进研究. ...
Unsupervised Learning of Word Boundary with Description Length Gain
1
1999
... 无监督分词策略均需要预设良度标准[41],以往研究中常见的良度标准有子串频率(Frequency of Substring with Reduction, FSR)[42]、描述长度增益(Description Length Gain, DL) [43]、邻接多样性(Accessor Variety, AV)[44]和分支信息熵(Branching Entropy, BE)[45].传统的无监督分词算法包括判别式模型和生成式模型两大类.基于判别式模型的文献主要在互信息[46,47]、分支信息熵[47,48]、长度增益[49]等方法上进行改进研究.生成式模型主要基于HMM[50]、HDP[51]等进行改进研究. ...
Accessor Variety Criteria for Chinese Word Extraction
1
2004
... 无监督分词策略均需要预设良度标准[41],以往研究中常见的良度标准有子串频率(Frequency of Substring with Reduction, FSR)[42]、描述长度增益(Description Length Gain, DL) [43]、邻接多样性(Accessor Variety, AV)[44]和分支信息熵(Branching Entropy, BE)[45].传统的无监督分词算法包括判别式模型和生成式模型两大类.基于判别式模型的文献主要在互信息[46,47]、分支信息熵[47,48]、长度增益[49]等方法上进行改进研究.生成式模型主要基于HMM[50]、HDP[51]等进行改进研究. ...
Chinese Word Segmentation Based on Contextual Entropy
1
2003
... 无监督分词策略均需要预设良度标准[41],以往研究中常见的良度标准有子串频率(Frequency of Substring with Reduction, FSR)[42]、描述长度增益(Description Length Gain, DL) [43]、邻接多样性(Accessor Variety, AV)[44]和分支信息熵(Branching Entropy, BE)[45].传统的无监督分词算法包括判别式模型和生成式模型两大类.基于判别式模型的文献主要在互信息[46,47]、分支信息熵[47,48]、长度增益[49]等方法上进行改进研究.生成式模型主要基于HMM[50]、HDP[51]等进行改进研究. ...
Unsupervised Word Segmentation Without Dictionary
1
2003
... 无监督分词策略均需要预设良度标准[41],以往研究中常见的良度标准有子串频率(Frequency of Substring with Reduction, FSR)[42]、描述长度增益(Description Length Gain, DL) [43]、邻接多样性(Accessor Variety, AV)[44]和分支信息熵(Branching Entropy, BE)[45].传统的无监督分词算法包括判别式模型和生成式模型两大类.基于判别式模型的文献主要在互信息[46,47]、分支信息熵[47,48]、长度增益[49]等方法上进行改进研究.生成式模型主要基于HMM[50]、HDP[51]等进行改进研究. ...
A Simple and Effective Unsupervised Word Segmentation Approach
2
2011
... 无监督分词策略均需要预设良度标准[41],以往研究中常见的良度标准有子串频率(Frequency of Substring with Reduction, FSR)[42]、描述长度增益(Description Length Gain, DL) [43]、邻接多样性(Accessor Variety, AV)[44]和分支信息熵(Branching Entropy, BE)[45].传统的无监督分词算法包括判别式模型和生成式模型两大类.基于判别式模型的文献主要在互信息[46,47]、分支信息熵[47,48]、长度增益[49]等方法上进行改进研究.生成式模型主要基于HMM[50]、HDP[51]等进行改进研究. ...
... [47,48]、长度增益[49]等方法上进行改进研究.生成式模型主要基于HMM[50]、HDP[51]等进行改进研究. ...
Unsupervized Word Segmentation: The Case for Mandarin Chinese
1
2012
... 无监督分词策略均需要预设良度标准[41],以往研究中常见的良度标准有子串频率(Frequency of Substring with Reduction, FSR)[42]、描述长度增益(Description Length Gain, DL) [43]、邻接多样性(Accessor Variety, AV)[44]和分支信息熵(Branching Entropy, BE)[45].传统的无监督分词算法包括判别式模型和生成式模型两大类.基于判别式模型的文献主要在互信息[46,47]、分支信息熵[47,48]、长度增益[49]等方法上进行改进研究.生成式模型主要基于HMM[50]、HDP[51]等进行改进研究. ...
Can MDL Improve Unsupervised Chinese Word Segmentation?
1
2013
... 无监督分词策略均需要预设良度标准[41],以往研究中常见的良度标准有子串频率(Frequency of Substring with Reduction, FSR)[42]、描述长度增益(Description Length Gain, DL) [43]、邻接多样性(Accessor Variety, AV)[44]和分支信息熵(Branching Entropy, BE)[45].传统的无监督分词算法包括判别式模型和生成式模型两大类.基于判别式模型的文献主要在互信息[46,47]、分支信息熵[47,48]、长度增益[49]等方法上进行改进研究.生成式模型主要基于HMM[50]、HDP[51]等进行改进研究. ...
A Joint Model for Unsupervised Chinese Word Segmentation
1
2014
... 无监督分词策略均需要预设良度标准[41],以往研究中常见的良度标准有子串频率(Frequency of Substring with Reduction, FSR)[42]、描述长度增益(Description Length Gain, DL) [43]、邻接多样性(Accessor Variety, AV)[44]和分支信息熵(Branching Entropy, BE)[45].传统的无监督分词算法包括判别式模型和生成式模型两大类.基于判别式模型的文献主要在互信息[46,47]、分支信息熵[47,48]、长度增益[49]等方法上进行改进研究.生成式模型主要基于HMM[50]、HDP[51]等进行改进研究. ...
A Bayesian Framework for Word Segmentation: Exploring the Effects of Context
1
2009
... 无监督分词策略均需要预设良度标准[41],以往研究中常见的良度标准有子串频率(Frequency of Substring with Reduction, FSR)[42]、描述长度增益(Description Length Gain, DL) [43]、邻接多样性(Accessor Variety, AV)[44]和分支信息熵(Branching Entropy, BE)[45].传统的无监督分词算法包括判别式模型和生成式模型两大类.基于判别式模型的文献主要在互信息[46,47]、分支信息熵[47,48]、长度增益[49]等方法上进行改进研究.生成式模型主要基于HMM[50]、HDP[51]等进行改进研究. ...
Semi-supervised Conditional Random Fields for Improved Sequence Segmentation and Labeling
1
2006
... 半监督研究包括semi-CRF算法[52]、Zhao等[53]提出强扩展性的半监督分词算法、Zeng等[54]提出的协同正则化字粒度和词粒度模型.半监督能克服熟语料不足的实际困难,分词的准确率较无监督方式有一定提升. ...
Integrating Unsupervised and Supervised Word Segmentation: The Role of Goodness Measures
1
2011
... 半监督研究包括semi-CRF算法[52]、Zhao等[53]提出强扩展性的半监督分词算法、Zeng等[54]提出的协同正则化字粒度和词粒度模型.半监督能克服熟语料不足的实际困难,分词的准确率较无监督方式有一定提升. ...
Co-regularizing Character-based and Word-based Models for Semi-supervised Chinese Word Segmentation
1
2013
... 半监督研究包括semi-CRF算法[52]、Zhao等[53]提出强扩展性的半监督分词算法、Zeng等[54]提出的协同正则化字粒度和词粒度模型.半监督能克服熟语料不足的实际困难,分词的准确率较无监督方式有一定提升. ...
Unsupervised Overlapping Feature Selection for Conditional Random Fields Learning in Chinese Word Segmentation
1
2011
... 对于机器学习算法、模型,特征选择好坏仍然是决定最后结果的关键性因素.部分研究人员希望能够通过算法进行自动特征选择,Yang等[55]研究CRF算法下的无监督的特征选择方法.随着深度学习的出现,这一问题才在一定程度上被有效解决[10]. ...
Natural Language Processing (Almost) from Scratch
1
2011
... 2011年,Collobert等[56]首次将深度学习算法引入自然语言任务中.该方法可以通过最终的分词标注训练集,有效学习原始特征和上下文表示.随后CNN[57,58]、GRN[59]、LSTM[14,60-61]、BiLSTM[62]等深度学习模型都被引入到中文分词任务中,并结合中文分词进行多种改进[63,64].相对于机器学习而言,深度学习算法无需人工进行特征选择,还可以有效地保留长距离句子信息,是对机器学习算法的有效补充.但是深度学习算法更为复杂,需要更多的计算资源. ...
Gradient-based Learning Applied to Document Recognition
1
1998
... 2011年,Collobert等[56]首次将深度学习算法引入自然语言任务中.该方法可以通过最终的分词标注训练集,有效学习原始特征和上下文表示.随后CNN[57,58]、GRN[59]、LSTM[14,60-61]、BiLSTM[62]等深度学习模型都被引入到中文分词任务中,并结合中文分词进行多种改进[63,64].相对于机器学习而言,深度学习算法无需人工进行特征选择,还可以有效地保留长距离句子信息,是对机器学习算法的有效补充.但是深度学习算法更为复杂,需要更多的计算资源. ...
Stacked Denoising Autoencoders: Learning Useful Representations in a Deep Network with a Local Denoising Criterion
1
2010
... 2011年,Collobert等[56]首次将深度学习算法引入自然语言任务中.该方法可以通过最终的分词标注训练集,有效学习原始特征和上下文表示.随后CNN[57,58]、GRN[59]、LSTM[14,60-61]、BiLSTM[62]等深度学习模型都被引入到中文分词任务中,并结合中文分词进行多种改进[63,64].相对于机器学习而言,深度学习算法无需人工进行特征选择,还可以有效地保留长距离句子信息,是对机器学习算法的有效补充.但是深度学习算法更为复杂,需要更多的计算资源. ...
Gated Recursive Neural Network for Chinese Word Segmentation
1
2015
... 2011年,Collobert等[56]首次将深度学习算法引入自然语言任务中.该方法可以通过最终的分词标注训练集,有效学习原始特征和上下文表示.随后CNN[57,58]、GRN[59]、LSTM[14,60-61]、BiLSTM[62]等深度学习模型都被引入到中文分词任务中,并结合中文分词进行多种改进[63,64].相对于机器学习而言,深度学习算法无需人工进行特征选择,还可以有效地保留长距离句子信息,是对机器学习算法的有效补充.但是深度学习算法更为复杂,需要更多的计算资源. ...
Neural Word Segmentation Learning for Chinese
1
2016
... 2011年,Collobert等[56]首次将深度学习算法引入自然语言任务中.该方法可以通过最终的分词标注训练集,有效学习原始特征和上下文表示.随后CNN[57,58]、GRN[59]、LSTM[14,60-61]、BiLSTM[62]等深度学习模型都被引入到中文分词任务中,并结合中文分词进行多种改进[63,64].相对于机器学习而言,深度学习算法无需人工进行特征选择,还可以有效地保留长距离句子信息,是对机器学习算法的有效补充.但是深度学习算法更为复杂,需要更多的计算资源. ...
Long Short-Term Memory[A]// Graves A. Supervised Sequence Labelling with Recurrent Neural Networks
1
2012
... 2011年,Collobert等[56]首次将深度学习算法引入自然语言任务中.该方法可以通过最终的分词标注训练集,有效学习原始特征和上下文表示.随后CNN[57,58]、GRN[59]、LSTM[14,60-61]、BiLSTM[62]等深度学习模型都被引入到中文分词任务中,并结合中文分词进行多种改进[63,64].相对于机器学习而言,深度学习算法无需人工进行特征选择,还可以有效地保留长距离句子信息,是对机器学习算法的有效补充.但是深度学习算法更为复杂,需要更多的计算资源. ...
Bidirectional Recurrent Neural Networks
1
1997
... 2011年,Collobert等[56]首次将深度学习算法引入自然语言任务中.该方法可以通过最终的分词标注训练集,有效学习原始特征和上下文表示.随后CNN[57,58]、GRN[59]、LSTM[14,60-61]、BiLSTM[62]等深度学习模型都被引入到中文分词任务中,并结合中文分词进行多种改进[63,64].相对于机器学习而言,深度学习算法无需人工进行特征选择,还可以有效地保留长距离句子信息,是对机器学习算法的有效补充.但是深度学习算法更为复杂,需要更多的计算资源. ...
Max-margin Tensor Neural Network for Chinese Word Segmentation
1
2014
... 2011年,Collobert等[56]首次将深度学习算法引入自然语言任务中.该方法可以通过最终的分词标注训练集,有效学习原始特征和上下文表示.随后CNN[57,58]、GRN[59]、LSTM[14,60-61]、BiLSTM[62]等深度学习模型都被引入到中文分词任务中,并结合中文分词进行多种改进[63,64].相对于机器学习而言,深度学习算法无需人工进行特征选择,还可以有效地保留长距离句子信息,是对机器学习算法的有效补充.但是深度学习算法更为复杂,需要更多的计算资源. ...
基于双向长短时记忆模型的中文分词方法
1
2017
... 2011年,Collobert等[56]首次将深度学习算法引入自然语言任务中.该方法可以通过最终的分词标注训练集,有效学习原始特征和上下文表示.随后CNN[57,58]、GRN[59]、LSTM[14,60-61]、BiLSTM[62]等深度学习模型都被引入到中文分词任务中,并结合中文分词进行多种改进[63,64].相对于机器学习而言,深度学习算法无需人工进行特征选择,还可以有效地保留长距离句子信息,是对机器学习算法的有效补充.但是深度学习算法更为复杂,需要更多的计算资源. ...
基于双向长短时记忆模型的中文分词方法
1
2017
... 2011年,Collobert等[56]首次将深度学习算法引入自然语言任务中.该方法可以通过最终的分词标注训练集,有效学习原始特征和上下文表示.随后CNN[57,58]、GRN[59]、LSTM[14,60-61]、BiLSTM[62]等深度学习模型都被引入到中文分词任务中,并结合中文分词进行多种改进[63,64].相对于机器学习而言,深度学习算法无需人工进行特征选择,还可以有效地保留长距离句子信息,是对机器学习算法的有效补充.但是深度学习算法更为复杂,需要更多的计算资源. ...
State-of-the-art Chinese Word Segmentation with BI-LSTMs
1
2018
... 在基础深度学习模型的基础上,有效结合预训练和后处理方式已成为深度学习的一种趋势,一般性流程如图8所示.Ma等[65]发现仅使用一个简单的Bi-LSTM模型,基于深度学习的预训练、Dropout及超参调优,可以将分词效果提升到领先水平.实验结果表明,预训练对提升分词准确率有效,平均可以提升0.78%.错误分析发现2/3的错误来自未登录词.更好的预训练结果和更有效的特征表示都是深度学习分词的重要研究方向.预训练既可以根据领域需要和任务特点进行预训练,也可以直接使用现有的预训练结果进行微调.中文分词预训练的基本单位是词(字)的语义、偏旁、拼音和输入法等.语义表示的预训练模型包括与上下文无关的静态词向量训练模型Word2Vec[66]、Glove[67]以及与上下文相关的动态词向量训练模型ELMo[68]、BERT[69]和XLNet[70]等.Wang等[71]在语义表示的基础上,增加了字的拼音、五笔特征,使用Bi-LSTMs-CRF模型训练,在SIGHAN2005[11]和CTB6[72]数据集上测试,结果表明多特征融合确实能提升分词准确率.位置信息和外部知识库也被研究人员尝试使用,基于知识库减少训练集的未登录词问题,研究者尝试将词典与深度学习相结合[12,73].Zhang等[12]在表示中融入词典外部知识,在SIGHAN2010[74]的Literature、Computer、Medicine、Finance数据集上实验,结果表明融合外部词典分词准确率提升2%左右. ...
Efficient Estimation of Word Representations in Vector Space
1
2013
... 在基础深度学习模型的基础上,有效结合预训练和后处理方式已成为深度学习的一种趋势,一般性流程如图8所示.Ma等[65]发现仅使用一个简单的Bi-LSTM模型,基于深度学习的预训练、Dropout及超参调优,可以将分词效果提升到领先水平.实验结果表明,预训练对提升分词准确率有效,平均可以提升0.78%.错误分析发现2/3的错误来自未登录词.更好的预训练结果和更有效的特征表示都是深度学习分词的重要研究方向.预训练既可以根据领域需要和任务特点进行预训练,也可以直接使用现有的预训练结果进行微调.中文分词预训练的基本单位是词(字)的语义、偏旁、拼音和输入法等.语义表示的预训练模型包括与上下文无关的静态词向量训练模型Word2Vec[66]、Glove[67]以及与上下文相关的动态词向量训练模型ELMo[68]、BERT[69]和XLNet[70]等.Wang等[71]在语义表示的基础上,增加了字的拼音、五笔特征,使用Bi-LSTMs-CRF模型训练,在SIGHAN2005[11]和CTB6[72]数据集上测试,结果表明多特征融合确实能提升分词准确率.位置信息和外部知识库也被研究人员尝试使用,基于知识库减少训练集的未登录词问题,研究者尝试将词典与深度学习相结合[12,73].Zhang等[12]在表示中融入词典外部知识,在SIGHAN2010[74]的Literature、Computer、Medicine、Finance数据集上实验,结果表明融合外部词典分词准确率提升2%左右. ...
Glove: Global Vectors for Word Representation
1
2014
... 在基础深度学习模型的基础上,有效结合预训练和后处理方式已成为深度学习的一种趋势,一般性流程如图8所示.Ma等[65]发现仅使用一个简单的Bi-LSTM模型,基于深度学习的预训练、Dropout及超参调优,可以将分词效果提升到领先水平.实验结果表明,预训练对提升分词准确率有效,平均可以提升0.78%.错误分析发现2/3的错误来自未登录词.更好的预训练结果和更有效的特征表示都是深度学习分词的重要研究方向.预训练既可以根据领域需要和任务特点进行预训练,也可以直接使用现有的预训练结果进行微调.中文分词预训练的基本单位是词(字)的语义、偏旁、拼音和输入法等.语义表示的预训练模型包括与上下文无关的静态词向量训练模型Word2Vec[66]、Glove[67]以及与上下文相关的动态词向量训练模型ELMo[68]、BERT[69]和XLNet[70]等.Wang等[71]在语义表示的基础上,增加了字的拼音、五笔特征,使用Bi-LSTMs-CRF模型训练,在SIGHAN2005[11]和CTB6[72]数据集上测试,结果表明多特征融合确实能提升分词准确率.位置信息和外部知识库也被研究人员尝试使用,基于知识库减少训练集的未登录词问题,研究者尝试将词典与深度学习相结合[12,73].Zhang等[12]在表示中融入词典外部知识,在SIGHAN2010[74]的Literature、Computer、Medicine、Finance数据集上实验,结果表明融合外部词典分词准确率提升2%左右. ...
Deep Contextualized Word Representations
1
2018
... 在基础深度学习模型的基础上,有效结合预训练和后处理方式已成为深度学习的一种趋势,一般性流程如图8所示.Ma等[65]发现仅使用一个简单的Bi-LSTM模型,基于深度学习的预训练、Dropout及超参调优,可以将分词效果提升到领先水平.实验结果表明,预训练对提升分词准确率有效,平均可以提升0.78%.错误分析发现2/3的错误来自未登录词.更好的预训练结果和更有效的特征表示都是深度学习分词的重要研究方向.预训练既可以根据领域需要和任务特点进行预训练,也可以直接使用现有的预训练结果进行微调.中文分词预训练的基本单位是词(字)的语义、偏旁、拼音和输入法等.语义表示的预训练模型包括与上下文无关的静态词向量训练模型Word2Vec[66]、Glove[67]以及与上下文相关的动态词向量训练模型ELMo[68]、BERT[69]和XLNet[70]等.Wang等[71]在语义表示的基础上,增加了字的拼音、五笔特征,使用Bi-LSTMs-CRF模型训练,在SIGHAN2005[11]和CTB6[72]数据集上测试,结果表明多特征融合确实能提升分词准确率.位置信息和外部知识库也被研究人员尝试使用,基于知识库减少训练集的未登录词问题,研究者尝试将词典与深度学习相结合[12,73].Zhang等[12]在表示中融入词典外部知识,在SIGHAN2010[74]的Literature、Computer、Medicine、Finance数据集上实验,结果表明融合外部词典分词准确率提升2%左右. ...
Attention is All You Need
1
2017
... 在基础深度学习模型的基础上,有效结合预训练和后处理方式已成为深度学习的一种趋势,一般性流程如图8所示.Ma等[65]发现仅使用一个简单的Bi-LSTM模型,基于深度学习的预训练、Dropout及超参调优,可以将分词效果提升到领先水平.实验结果表明,预训练对提升分词准确率有效,平均可以提升0.78%.错误分析发现2/3的错误来自未登录词.更好的预训练结果和更有效的特征表示都是深度学习分词的重要研究方向.预训练既可以根据领域需要和任务特点进行预训练,也可以直接使用现有的预训练结果进行微调.中文分词预训练的基本单位是词(字)的语义、偏旁、拼音和输入法等.语义表示的预训练模型包括与上下文无关的静态词向量训练模型Word2Vec[66]、Glove[67]以及与上下文相关的动态词向量训练模型ELMo[68]、BERT[69]和XLNet[70]等.Wang等[71]在语义表示的基础上,增加了字的拼音、五笔特征,使用Bi-LSTMs-CRF模型训练,在SIGHAN2005[11]和CTB6[72]数据集上测试,结果表明多特征融合确实能提升分词准确率.位置信息和外部知识库也被研究人员尝试使用,基于知识库减少训练集的未登录词问题,研究者尝试将词典与深度学习相结合[12,73].Zhang等[12]在表示中融入词典外部知识,在SIGHAN2010[74]的Literature、Computer、Medicine、Finance数据集上实验,结果表明融合外部词典分词准确率提升2%左右. ...
XLNet: Generalized Autoregressive Pretraining for Language Understanding
1
1906
... 在基础深度学习模型的基础上,有效结合预训练和后处理方式已成为深度学习的一种趋势,一般性流程如图8所示.Ma等[65]发现仅使用一个简单的Bi-LSTM模型,基于深度学习的预训练、Dropout及超参调优,可以将分词效果提升到领先水平.实验结果表明,预训练对提升分词准确率有效,平均可以提升0.78%.错误分析发现2/3的错误来自未登录词.更好的预训练结果和更有效的特征表示都是深度学习分词的重要研究方向.预训练既可以根据领域需要和任务特点进行预训练,也可以直接使用现有的预训练结果进行微调.中文分词预训练的基本单位是词(字)的语义、偏旁、拼音和输入法等.语义表示的预训练模型包括与上下文无关的静态词向量训练模型Word2Vec[66]、Glove[67]以及与上下文相关的动态词向量训练模型ELMo[68]、BERT[69]和XLNet[70]等.Wang等[71]在语义表示的基础上,增加了字的拼音、五笔特征,使用Bi-LSTMs-CRF模型训练,在SIGHAN2005[11]和CTB6[72]数据集上测试,结果表明多特征融合确实能提升分词准确率.位置信息和外部知识库也被研究人员尝试使用,基于知识库减少训练集的未登录词问题,研究者尝试将词典与深度学习相结合[12,73].Zhang等[12]在表示中融入词典外部知识,在SIGHAN2010[74]的Literature、Computer、Medicine、Finance数据集上实验,结果表明融合外部词典分词准确率提升2%左右. ...
Multiple Character Embeddings for Chinese Word Segmentation
1
2019
... 在基础深度学习模型的基础上,有效结合预训练和后处理方式已成为深度学习的一种趋势,一般性流程如图8所示.Ma等[65]发现仅使用一个简单的Bi-LSTM模型,基于深度学习的预训练、Dropout及超参调优,可以将分词效果提升到领先水平.实验结果表明,预训练对提升分词准确率有效,平均可以提升0.78%.错误分析发现2/3的错误来自未登录词.更好的预训练结果和更有效的特征表示都是深度学习分词的重要研究方向.预训练既可以根据领域需要和任务特点进行预训练,也可以直接使用现有的预训练结果进行微调.中文分词预训练的基本单位是词(字)的语义、偏旁、拼音和输入法等.语义表示的预训练模型包括与上下文无关的静态词向量训练模型Word2Vec[66]、Glove[67]以及与上下文相关的动态词向量训练模型ELMo[68]、BERT[69]和XLNet[70]等.Wang等[71]在语义表示的基础上,增加了字的拼音、五笔特征,使用Bi-LSTMs-CRF模型训练,在SIGHAN2005[11]和CTB6[72]数据集上测试,结果表明多特征融合确实能提升分词准确率.位置信息和外部知识库也被研究人员尝试使用,基于知识库减少训练集的未登录词问题,研究者尝试将词典与深度学习相结合[12,73].Zhang等[12]在表示中融入词典外部知识,在SIGHAN2010[74]的Literature、Computer、Medicine、Finance数据集上实验,结果表明融合外部词典分词准确率提升2%左右. ...
The Penn Chinese TreeBank: Phrase Structure Annotation of a Large Corpus
4
2005
... 在基础深度学习模型的基础上,有效结合预训练和后处理方式已成为深度学习的一种趋势,一般性流程如图8所示.Ma等[65]发现仅使用一个简单的Bi-LSTM模型,基于深度学习的预训练、Dropout及超参调优,可以将分词效果提升到领先水平.实验结果表明,预训练对提升分词准确率有效,平均可以提升0.78%.错误分析发现2/3的错误来自未登录词.更好的预训练结果和更有效的特征表示都是深度学习分词的重要研究方向.预训练既可以根据领域需要和任务特点进行预训练,也可以直接使用现有的预训练结果进行微调.中文分词预训练的基本单位是词(字)的语义、偏旁、拼音和输入法等.语义表示的预训练模型包括与上下文无关的静态词向量训练模型Word2Vec[66]、Glove[67]以及与上下文相关的动态词向量训练模型ELMo[68]、BERT[69]和XLNet[70]等.Wang等[71]在语义表示的基础上,增加了字的拼音、五笔特征,使用Bi-LSTMs-CRF模型训练,在SIGHAN2005[11]和CTB6[72]数据集上测试,结果表明多特征融合确实能提升分词准确率.位置信息和外部知识库也被研究人员尝试使用,基于知识库减少训练集的未登录词问题,研究者尝试将词典与深度学习相结合[12,73].Zhang等[12]在表示中融入词典外部知识,在SIGHAN2010[74]的Literature、Computer、Medicine、Finance数据集上实验,结果表明融合外部词典分词准确率提升2%左右. ...
... Comparative Analysis of Multi-granularity and Multi-criterion
Table2 年份 | 作者 | 来源 | 研究思路 | 研究方法 | 实验使用的数据集 |
2019 | Gong等[24] | AAAI | 方法改进 | 模型由多个长短时记忆神经网络(LSTM)和一个切换器组成,可以在这些LSTM之间自动切换. | SIGHAN2005[11](MSR、AS) SIGHAN2008[84](PKU、CTB、SKIP、CityU、NCC、SXU) |
2019 | Huang等[85] | arXiv | 方法改进 | 基于Bidirectional Encoder Representations (BERT),使用模型剪枝、量化和编译器优化. | CTB6[72] SIGHAN2005[11] (CityU、PKU、MSR、AS) SIGHAN2008[84] (SXU) CoNLL2017[86](UD) |
2019 | Qiu等[87] | arXiv | 方法改进 | 基于Transformer的构架方法采用全连接自注意力机制. | SIGHAN2005[11] (CityU、PKU、MSR、AS) SIGHAN2008[84] (CTB、SKIP、NCC、SXU) |
2019 | He等[88] | SCI | 语料改进 | 每一个句子的开头和结尾增加人工标记,以区分多粒度语料.再使用LSTM和CRF实现多粒度分词. | SIGHAN2005[11] (MSR、 AS、PKU) SIGHAN2008[84] (CTB、SKIP、CityU、NCC、SXU) |
2019 | 张文静等[82] | 中文信息学报 | 语料改进 方法改进 | 模型在网格结构的辅助下,对不同粒度的分词标准都有较强的捕捉能力,且不局限于单一的分词标准. | MSR[89]、PPD[90]、CTB[72] |
2017 | Chen等[91] | ACL | 方法改进 | 借鉴多任务学习的思想,融合多个语料的数据提升共享字向量模块.在此基础上应用对抗网络,把私有信息从共享模块中剥离到各个私有模块中去,既有大数据量的优势,又避免了不同语料之间的相互制约. | SIGHAN2005[11] (MSR、AS) SIGHAN2008[84](PKU、CTB、SKIP、CityU、NCC、SXU) |
2017 | Gong等[83] | EMNLP | 语料改进 | 构建多粒度语料库. | MSR[89]、PPD[90]、CTB[72] |
4.2 与中文分词相关的联合模型 传统的自然语言处理任务通过管道模型实现,即中文分词作为一个独立的任务建模,再将分词结果作为后续任务的输入.管道模型存在错误传播的问题,不同任务之间信息的共享非常有限.近年来,与中文分词相关的联合模型大量涌现,联合模型能够避免错误传播,同时提升各子任务的准确率. ...
... [
72]
2017 | Chen等[91] | ACL | 方法改进 | 借鉴多任务学习的思想,融合多个语料的数据提升共享字向量模块.在此基础上应用对抗网络,把私有信息从共享模块中剥离到各个私有模块中去,既有大数据量的优势,又避免了不同语料之间的相互制约. | SIGHAN2005[11] (MSR、AS) SIGHAN2008[84](PKU、CTB、SKIP、CityU、NCC、SXU) |
2017 | Gong等[83] | EMNLP | 语料改进 | 构建多粒度语料库. | MSR[89]、PPD[90]、CTB[72] |
4.2 与中文分词相关的联合模型 传统的自然语言处理任务通过管道模型实现,即中文分词作为一个独立的任务建模,再将分词结果作为后续任务的输入.管道模型存在错误传播的问题,不同任务之间信息的共享非常有限.近年来,与中文分词相关的联合模型大量涌现,联合模型能够避免错误传播,同时提升各子任务的准确率. ...
... [
72]
4.2 与中文分词相关的联合模型 传统的自然语言处理任务通过管道模型实现,即中文分词作为一个独立的任务建模,再将分词结果作为后续任务的输入.管道模型存在错误传播的问题,不同任务之间信息的共享非常有限.近年来,与中文分词相关的联合模型大量涌现,联合模型能够避免错误传播,同时提升各子任务的准确率. ...
Neural Chinese Word Segmentation with Dictionary
1
2019
... 在基础深度学习模型的基础上,有效结合预训练和后处理方式已成为深度学习的一种趋势,一般性流程如图8所示.Ma等[65]发现仅使用一个简单的Bi-LSTM模型,基于深度学习的预训练、Dropout及超参调优,可以将分词效果提升到领先水平.实验结果表明,预训练对提升分词准确率有效,平均可以提升0.78%.错误分析发现2/3的错误来自未登录词.更好的预训练结果和更有效的特征表示都是深度学习分词的重要研究方向.预训练既可以根据领域需要和任务特点进行预训练,也可以直接使用现有的预训练结果进行微调.中文分词预训练的基本单位是词(字)的语义、偏旁、拼音和输入法等.语义表示的预训练模型包括与上下文无关的静态词向量训练模型Word2Vec[66]、Glove[67]以及与上下文相关的动态词向量训练模型ELMo[68]、BERT[69]和XLNet[70]等.Wang等[71]在语义表示的基础上,增加了字的拼音、五笔特征,使用Bi-LSTMs-CRF模型训练,在SIGHAN2005[11]和CTB6[72]数据集上测试,结果表明多特征融合确实能提升分词准确率.位置信息和外部知识库也被研究人员尝试使用,基于知识库减少训练集的未登录词问题,研究者尝试将词典与深度学习相结合[12,73].Zhang等[12]在表示中融入词典外部知识,在SIGHAN2010[74]的Literature、Computer、Medicine、Finance数据集上实验,结果表明融合外部词典分词准确率提升2%左右. ...
The CIPS-SIGHAN CLP2010 Chinese Word Segmentation Backoff
2
2010
... 在基础深度学习模型的基础上,有效结合预训练和后处理方式已成为深度学习的一种趋势,一般性流程如图8所示.Ma等[65]发现仅使用一个简单的Bi-LSTM模型,基于深度学习的预训练、Dropout及超参调优,可以将分词效果提升到领先水平.实验结果表明,预训练对提升分词准确率有效,平均可以提升0.78%.错误分析发现2/3的错误来自未登录词.更好的预训练结果和更有效的特征表示都是深度学习分词的重要研究方向.预训练既可以根据领域需要和任务特点进行预训练,也可以直接使用现有的预训练结果进行微调.中文分词预训练的基本单位是词(字)的语义、偏旁、拼音和输入法等.语义表示的预训练模型包括与上下文无关的静态词向量训练模型Word2Vec[66]、Glove[67]以及与上下文相关的动态词向量训练模型ELMo[68]、BERT[69]和XLNet[70]等.Wang等[71]在语义表示的基础上,增加了字的拼音、五笔特征,使用Bi-LSTMs-CRF模型训练,在SIGHAN2005[11]和CTB6[72]数据集上测试,结果表明多特征融合确实能提升分词准确率.位置信息和外部知识库也被研究人员尝试使用,基于知识库减少训练集的未登录词问题,研究者尝试将词典与深度学习相结合[12,73].Zhang等[12]在表示中融入词典外部知识,在SIGHAN2010[74]的Literature、Computer、Medicine、Finance数据集上实验,结果表明融合外部词典分词准确率提升2%左右. ...
... 自然语言处理包括多个相关子任务.其中,与中文分词任务最紧密关联的任务是词性标注(Part-of-Speech Tagging, POS Tagging)和依存句法分析(Dependency Parsing).已有中文分词相关的多任务处理研究中,被研究最多的是中文分词和词性标注;其次为中文分词、词性标注和依存句法分析.除此之外,多任务还包括中文分词和依存句法分析;所有相关任务的自然语言处理统一框架;中文分词和未登录词识别;中文分词和非正式词检测;中文分词和中文正确拼写;中文分词和命名实体识别.筛选并统计分析重要的多任务联合模型研究,如表3所示.现有研究基本都是基于2004年Ng等[76]提出的交叉标记思想,再结合具体任务设计出一种统一的多任务标注方式,最后提出多任务联合的深度学习模型.融入依存句法和已有知识后,CNN和RNN都不能很好地解决这种具有网络结构的模型,图深度学习模型[74]开始被自然语言处理研究人员关注,未来如何结合和改进深度学习中的图深度学习模型[92]实现多任务学习,将成为重点研究方向. ...
Subword-based Tagging by Conditional Random Fields for Chinese Word Segmentation
1
2006
... 在词粒度和字粒度上[75,76],集成机械分词、机器学习和深度学习算法,更好发挥不同分词算法各自的优势是多算法集成的主要探索方向. ...
Chinese Part-of-Speech Tagging: One-at-a-Time or All-at-Once? Word-Based or Character-Based?
3
2004
... 在词粒度和字粒度上[75,76],集成机械分词、机器学习和深度学习算法,更好发挥不同分词算法各自的优势是多算法集成的主要探索方向. ...
... 自然语言处理包括多个相关子任务.其中,与中文分词任务最紧密关联的任务是词性标注(Part-of-Speech Tagging, POS Tagging)和依存句法分析(Dependency Parsing).已有中文分词相关的多任务处理研究中,被研究最多的是中文分词和词性标注;其次为中文分词、词性标注和依存句法分析.除此之外,多任务还包括中文分词和依存句法分析;所有相关任务的自然语言处理统一框架;中文分词和未登录词识别;中文分词和非正式词检测;中文分词和中文正确拼写;中文分词和命名实体识别.筛选并统计分析重要的多任务联合模型研究,如表3所示.现有研究基本都是基于2004年Ng等[76]提出的交叉标记思想,再结合具体任务设计出一种统一的多任务标注方式,最后提出多任务联合的深度学习模型.融入依存句法和已有知识后,CNN和RNN都不能很好地解决这种具有网络结构的模型,图深度学习模型[74]开始被自然语言处理研究人员关注,未来如何结合和改进深度学习中的图深度学习模型[92]实现多任务学习,将成为重点研究方向. ...
... Analysis of Chinese Word Segmentation Related to Multi-task Joint Model
Table 3 任务类型 | 发表年份 | 作者 | 来源 | 研究方法 |
自然语言统一处理框架 | 2008 | Collobert等[93] | ICML | 基于深度学习的CNN模型,首次提出自然语言处理统一框架.该框架同时考虑词性标注、浅层语义分析、命名实体识别、语义角色标注进行多任务学习. |
中文分词和词性标注 | 2004 | Ng等[76] | EMNLP | 定义了一种交叉标记方式,能够同时标注两个任务的结果. |
2010 | Zhang等[94] | ACL | 基于线性的单模型,通过柱搜索的方法提升解码效率. |
2013 | Zeng等[95] | ACL | 基于半监督的方法,采用基于图标签传播的技术. |
2013 | Qiu等[96] | EMNLP | 为异质标注语料构建松散的、具有不确定性的映射,在进行训练同时提高异质标注语料的分词及词性标注的准确性. |
2013 | Zheng等[97] | EMNLP | 引入深度学习的方法自动学习特征,从而避免了人工的特征筛选,再结合传统的CRF. |
2016 | Wang等[98] | ICIIP | 基于层次长短时记忆,在一个目标函数中同时对多个任务进行联合训练,避免了管道模型性的错误传播问题. |
2016 | Chen等[99] | arXiv | 提出一种长距依赖的深度框架,基于联合模型同时完成分词和词性标注任务. |
2017 | Chen等[100] | IJCAI | 针对中文分词和词性标注任务提出富特征的深度学习框架,也是一种联合模型.该模型也能够解决长距依赖的问题. |
中文分词、词性标注和依存句法 | 2012 | Hatori等[101] | ACL | 提出一种增量的多任务处理联合模型,首次提出能够同时处理中文分词、词性标注和依存句法的联合模型. |
2013 | Wang等[102] | ACL | 使用基于晶格的结构,首先句子被划分为词格,在此基础上进行词性标注和依存句法分析,是一种联合模型. |
2016 | Guo等[103] | IEICE Transactions | 提出基于字级别的半监督联合处理模型,能够从部分标注的语料中得到N-Gram特征和依赖子树特征. |
2016 | Shen等[104] | COLING | 提出一种新颖的标注方法,该方法能够克服传统基于词法标注的两个问题:不一致性问题和稀疏性问题. |
中文分词和依存句法分析 | 2019 | Yan等[105] | arXiv | 首次提出处理中文分词和依存句法的统一模型,该模型为基于图的深度学习模型. |
中文分词和未登录词 | 2015 | Li等[106] | TALLIP | 提出一种基于字的生成式模型,能同时进行分词和未登录词检测.未登录词主要包括:词典中不包含的词、命名实体和后缀衍生词. |
中文分词和非正式词检测 | 2017 | Zhang等[107] | IJCAI | 中文微博语料中存在非正式用词的问题,传统的分词模型不能很好地对该类语料进行分词.针对这个问题,本文提出基于深度学习的分词和非正式词检测的联合模型. |
中文分词和中文正确拼写 | 2017 | Shi等[108] | SMP | 基于注意力机制的Encoder-Decoder架构提出一种序列到序列的标注方法,能够解决中文分词和中文拼写正确性问题. |
中文分词和命名实体识别 | 2019 | Wu等[109] | WWW | 提出一种新的框架CNER,综合使用了深度学习的CNN、LSTM和CRF.该框架能够在分词的同时识别命名实体. |
联合模型能够使模型下的多个子任务间的信息交互更为便利,提升结果的准确率和效率,但会导致模型更加复杂、搜索空间增大等问题.目前的研究尚且粗浅,未来将进一步探究结合不同自然语言处理任务的联合模型. ...
统计与词典相结合的领域自适应中文分词
1
2012
... 张梅山等[77]结合统计与词典提出领域自适应分词算法.近期研究者在机器学习和深度学习算法集成上进行多种尝试.最具代表的是2015年Huang等[78]提出的Bi-LSTM-CRF模型实现序列化标注.除此之外,Ma等[79]提出Bi-LSTM-CNN-CRF模型,利用CNN得到字的语义表示,再基于Bi-LSTM-CRF模型实现序列化标注.Yao等[80]提出Bi-LSTM-RNN模型.冯国明等[81]将词典、统计、深度学习三者有机结合,提出专业领域的自主学习分词算法.集成算法分词不仅在中文分词任务上取得了较好效果,在自然语言多任务联合模型中也被广泛使用. ...
统计与词典相结合的领域自适应中文分词
1
2012
... 张梅山等[77]结合统计与词典提出领域自适应分词算法.近期研究者在机器学习和深度学习算法集成上进行多种尝试.最具代表的是2015年Huang等[78]提出的Bi-LSTM-CRF模型实现序列化标注.除此之外,Ma等[79]提出Bi-LSTM-CNN-CRF模型,利用CNN得到字的语义表示,再基于Bi-LSTM-CRF模型实现序列化标注.Yao等[80]提出Bi-LSTM-RNN模型.冯国明等[81]将词典、统计、深度学习三者有机结合,提出专业领域的自主学习分词算法.集成算法分词不仅在中文分词任务上取得了较好效果,在自然语言多任务联合模型中也被广泛使用. ...
Bidirectional LSTM-CRF Models for Sequence Tagging
1
1508
... 张梅山等[77]结合统计与词典提出领域自适应分词算法.近期研究者在机器学习和深度学习算法集成上进行多种尝试.最具代表的是2015年Huang等[78]提出的Bi-LSTM-CRF模型实现序列化标注.除此之外,Ma等[79]提出Bi-LSTM-CNN-CRF模型,利用CNN得到字的语义表示,再基于Bi-LSTM-CRF模型实现序列化标注.Yao等[80]提出Bi-LSTM-RNN模型.冯国明等[81]将词典、统计、深度学习三者有机结合,提出专业领域的自主学习分词算法.集成算法分词不仅在中文分词任务上取得了较好效果,在自然语言多任务联合模型中也被广泛使用. ...
End-to-end Sequence Labeling via Bi-directional LSTM-CNNs-CRF
1
2016
... 张梅山等[77]结合统计与词典提出领域自适应分词算法.近期研究者在机器学习和深度学习算法集成上进行多种尝试.最具代表的是2015年Huang等[78]提出的Bi-LSTM-CRF模型实现序列化标注.除此之外,Ma等[79]提出Bi-LSTM-CNN-CRF模型,利用CNN得到字的语义表示,再基于Bi-LSTM-CRF模型实现序列化标注.Yao等[80]提出Bi-LSTM-RNN模型.冯国明等[81]将词典、统计、深度学习三者有机结合,提出专业领域的自主学习分词算法.集成算法分词不仅在中文分词任务上取得了较好效果,在自然语言多任务联合模型中也被广泛使用. ...
Bi-directional LSTM Recurrent Neural Network for Chinese Word Segmentation
1
2016
... 张梅山等[77]结合统计与词典提出领域自适应分词算法.近期研究者在机器学习和深度学习算法集成上进行多种尝试.最具代表的是2015年Huang等[78]提出的Bi-LSTM-CRF模型实现序列化标注.除此之外,Ma等[79]提出Bi-LSTM-CNN-CRF模型,利用CNN得到字的语义表示,再基于Bi-LSTM-CRF模型实现序列化标注.Yao等[80]提出Bi-LSTM-RNN模型.冯国明等[81]将词典、统计、深度学习三者有机结合,提出专业领域的自主学习分词算法.集成算法分词不仅在中文分词任务上取得了较好效果,在自然语言多任务联合模型中也被广泛使用. ...
基于自主学习的专业领域文本DBLC分词模型
1
2018
... 张梅山等[77]结合统计与词典提出领域自适应分词算法.近期研究者在机器学习和深度学习算法集成上进行多种尝试.最具代表的是2015年Huang等[78]提出的Bi-LSTM-CRF模型实现序列化标注.除此之外,Ma等[79]提出Bi-LSTM-CNN-CRF模型,利用CNN得到字的语义表示,再基于Bi-LSTM-CRF模型实现序列化标注.Yao等[80]提出Bi-LSTM-RNN模型.冯国明等[81]将词典、统计、深度学习三者有机结合,提出专业领域的自主学习分词算法.集成算法分词不仅在中文分词任务上取得了较好效果,在自然语言多任务联合模型中也被广泛使用. ...
基于自主学习的专业领域文本DBLC分词模型
1
2018
... 张梅山等[77]结合统计与词典提出领域自适应分词算法.近期研究者在机器学习和深度学习算法集成上进行多种尝试.最具代表的是2015年Huang等[78]提出的Bi-LSTM-CRF模型实现序列化标注.除此之外,Ma等[79]提出Bi-LSTM-CNN-CRF模型,利用CNN得到字的语义表示,再基于Bi-LSTM-CRF模型实现序列化标注.Yao等[80]提出Bi-LSTM-RNN模型.冯国明等[81]将词典、统计、深度学习三者有机结合,提出专业领域的自主学习分词算法.集成算法分词不仅在中文分词任务上取得了较好效果,在自然语言多任务联合模型中也被广泛使用. ...
基于Lattice-LSTM的多粒度中文分词
2
2019
... ①设计新的统一的多粒度标注方法将不同语料融合为一个规模更大的语料,再提出新的模型.张文静等[82]2019年提出基于Lattice-LSTM模型,对比Gong等[83]2017年基于字的LSTM模型的效果,F1值从95.35%提高到96.29%. ...
... Comparative Analysis of Multi-granularity and Multi-criterion
Table2 年份 | 作者 | 来源 | 研究思路 | 研究方法 | 实验使用的数据集 |
2019 | Gong等[24] | AAAI | 方法改进 | 模型由多个长短时记忆神经网络(LSTM)和一个切换器组成,可以在这些LSTM之间自动切换. | SIGHAN2005[11](MSR、AS) SIGHAN2008[84](PKU、CTB、SKIP、CityU、NCC、SXU) |
2019 | Huang等[85] | arXiv | 方法改进 | 基于Bidirectional Encoder Representations (BERT),使用模型剪枝、量化和编译器优化. | CTB6[72] SIGHAN2005[11] (CityU、PKU、MSR、AS) SIGHAN2008[84] (SXU) CoNLL2017[86](UD) |
2019 | Qiu等[87] | arXiv | 方法改进 | 基于Transformer的构架方法采用全连接自注意力机制. | SIGHAN2005[11] (CityU、PKU、MSR、AS) SIGHAN2008[84] (CTB、SKIP、NCC、SXU) |
2019 | He等[88] | SCI | 语料改进 | 每一个句子的开头和结尾增加人工标记,以区分多粒度语料.再使用LSTM和CRF实现多粒度分词. | SIGHAN2005[11] (MSR、 AS、PKU) SIGHAN2008[84] (CTB、SKIP、CityU、NCC、SXU) |
2019 | 张文静等[82] | 中文信息学报 | 语料改进 方法改进 | 模型在网格结构的辅助下,对不同粒度的分词标准都有较强的捕捉能力,且不局限于单一的分词标准. | MSR[89]、PPD[90]、CTB[72] |
2017 | Chen等[91] | ACL | 方法改进 | 借鉴多任务学习的思想,融合多个语料的数据提升共享字向量模块.在此基础上应用对抗网络,把私有信息从共享模块中剥离到各个私有模块中去,既有大数据量的优势,又避免了不同语料之间的相互制约. | SIGHAN2005[11] (MSR、AS) SIGHAN2008[84](PKU、CTB、SKIP、CityU、NCC、SXU) |
2017 | Gong等[83] | EMNLP | 语料改进 | 构建多粒度语料库. | MSR[89]、PPD[90]、CTB[72] |
4.2 与中文分词相关的联合模型 传统的自然语言处理任务通过管道模型实现,即中文分词作为一个独立的任务建模,再将分词结果作为后续任务的输入.管道模型存在错误传播的问题,不同任务之间信息的共享非常有限.近年来,与中文分词相关的联合模型大量涌现,联合模型能够避免错误传播,同时提升各子任务的准确率. ...
基于Lattice-LSTM的多粒度中文分词
2
2019
... ①设计新的统一的多粒度标注方法将不同语料融合为一个规模更大的语料,再提出新的模型.张文静等[82]2019年提出基于Lattice-LSTM模型,对比Gong等[83]2017年基于字的LSTM模型的效果,F1值从95.35%提高到96.29%. ...
... Comparative Analysis of Multi-granularity and Multi-criterion
Table2 年份 | 作者 | 来源 | 研究思路 | 研究方法 | 实验使用的数据集 |
2019 | Gong等[24] | AAAI | 方法改进 | 模型由多个长短时记忆神经网络(LSTM)和一个切换器组成,可以在这些LSTM之间自动切换. | SIGHAN2005[11](MSR、AS) SIGHAN2008[84](PKU、CTB、SKIP、CityU、NCC、SXU) |
2019 | Huang等[85] | arXiv | 方法改进 | 基于Bidirectional Encoder Representations (BERT),使用模型剪枝、量化和编译器优化. | CTB6[72] SIGHAN2005[11] (CityU、PKU、MSR、AS) SIGHAN2008[84] (SXU) CoNLL2017[86](UD) |
2019 | Qiu等[87] | arXiv | 方法改进 | 基于Transformer的构架方法采用全连接自注意力机制. | SIGHAN2005[11] (CityU、PKU、MSR、AS) SIGHAN2008[84] (CTB、SKIP、NCC、SXU) |
2019 | He等[88] | SCI | 语料改进 | 每一个句子的开头和结尾增加人工标记,以区分多粒度语料.再使用LSTM和CRF实现多粒度分词. | SIGHAN2005[11] (MSR、 AS、PKU) SIGHAN2008[84] (CTB、SKIP、CityU、NCC、SXU) |
2019 | 张文静等[82] | 中文信息学报 | 语料改进 方法改进 | 模型在网格结构的辅助下,对不同粒度的分词标准都有较强的捕捉能力,且不局限于单一的分词标准. | MSR[89]、PPD[90]、CTB[72] |
2017 | Chen等[91] | ACL | 方法改进 | 借鉴多任务学习的思想,融合多个语料的数据提升共享字向量模块.在此基础上应用对抗网络,把私有信息从共享模块中剥离到各个私有模块中去,既有大数据量的优势,又避免了不同语料之间的相互制约. | SIGHAN2005[11] (MSR、AS) SIGHAN2008[84](PKU、CTB、SKIP、CityU、NCC、SXU) |
2017 | Gong等[83] | EMNLP | 语料改进 | 构建多粒度语料库. | MSR[89]、PPD[90]、CTB[72] |
4.2 与中文分词相关的联合模型 传统的自然语言处理任务通过管道模型实现,即中文分词作为一个独立的任务建模,再将分词结果作为后续任务的输入.管道模型存在错误传播的问题,不同任务之间信息的共享非常有限.近年来,与中文分词相关的联合模型大量涌现,联合模型能够避免错误传播,同时提升各子任务的准确率. ...
Multi-grained Chinese Word Segmentation
2
2017
... ①设计新的统一的多粒度标注方法将不同语料融合为一个规模更大的语料,再提出新的模型.张文静等[82]2019年提出基于Lattice-LSTM模型,对比Gong等[83]2017年基于字的LSTM模型的效果,F1值从95.35%提高到96.29%. ...
... Comparative Analysis of Multi-granularity and Multi-criterion
Table2 年份 | 作者 | 来源 | 研究思路 | 研究方法 | 实验使用的数据集 |
2019 | Gong等[24] | AAAI | 方法改进 | 模型由多个长短时记忆神经网络(LSTM)和一个切换器组成,可以在这些LSTM之间自动切换. | SIGHAN2005[11](MSR、AS) SIGHAN2008[84](PKU、CTB、SKIP、CityU、NCC、SXU) |
2019 | Huang等[85] | arXiv | 方法改进 | 基于Bidirectional Encoder Representations (BERT),使用模型剪枝、量化和编译器优化. | CTB6[72] SIGHAN2005[11] (CityU、PKU、MSR、AS) SIGHAN2008[84] (SXU) CoNLL2017[86](UD) |
2019 | Qiu等[87] | arXiv | 方法改进 | 基于Transformer的构架方法采用全连接自注意力机制. | SIGHAN2005[11] (CityU、PKU、MSR、AS) SIGHAN2008[84] (CTB、SKIP、NCC、SXU) |
2019 | He等[88] | SCI | 语料改进 | 每一个句子的开头和结尾增加人工标记,以区分多粒度语料.再使用LSTM和CRF实现多粒度分词. | SIGHAN2005[11] (MSR、 AS、PKU) SIGHAN2008[84] (CTB、SKIP、CityU、NCC、SXU) |
2019 | 张文静等[82] | 中文信息学报 | 语料改进 方法改进 | 模型在网格结构的辅助下,对不同粒度的分词标准都有较强的捕捉能力,且不局限于单一的分词标准. | MSR[89]、PPD[90]、CTB[72] |
2017 | Chen等[91] | ACL | 方法改进 | 借鉴多任务学习的思想,融合多个语料的数据提升共享字向量模块.在此基础上应用对抗网络,把私有信息从共享模块中剥离到各个私有模块中去,既有大数据量的优势,又避免了不同语料之间的相互制约. | SIGHAN2005[11] (MSR、AS) SIGHAN2008[84](PKU、CTB、SKIP、CityU、NCC、SXU) |
2017 | Gong等[83] | EMNLP | 语料改进 | 构建多粒度语料库. | MSR[89]、PPD[90]、CTB[72] |
4.2 与中文分词相关的联合模型 传统的自然语言处理任务通过管道模型实现,即中文分词作为一个独立的任务建模,再将分词结果作为后续任务的输入.管道模型存在错误传播的问题,不同任务之间信息的共享非常有限.近年来,与中文分词相关的联合模型大量涌现,联合模型能够避免错误传播,同时提升各子任务的准确率. ...
The Fourth International Chinese Language Processing BakeOff: Chinese Word Segmentation, Named Entity Recognition and Chinese POS Tagging
6
2008
... ②同时使用多个独立的语料库,通过方法集成多个分词语料.Gong等[24]提出Switch-LSTM模型并在SIGHAN2005[11]和SIGHAN2008[84]的8个数据集上测试,平均F值达到96.12%. ...
... Comparative Analysis of Multi-granularity and Multi-criterion
Table2 年份 | 作者 | 来源 | 研究思路 | 研究方法 | 实验使用的数据集 |
2019 | Gong等[24] | AAAI | 方法改进 | 模型由多个长短时记忆神经网络(LSTM)和一个切换器组成,可以在这些LSTM之间自动切换. | SIGHAN2005[11](MSR、AS) SIGHAN2008[84](PKU、CTB、SKIP、CityU、NCC、SXU) |
2019 | Huang等[85] | arXiv | 方法改进 | 基于Bidirectional Encoder Representations (BERT),使用模型剪枝、量化和编译器优化. | CTB6[72] SIGHAN2005[11] (CityU、PKU、MSR、AS) SIGHAN2008[84] (SXU) CoNLL2017[86](UD) |
2019 | Qiu等[87] | arXiv | 方法改进 | 基于Transformer的构架方法采用全连接自注意力机制. | SIGHAN2005[11] (CityU、PKU、MSR、AS) SIGHAN2008[84] (CTB、SKIP、NCC、SXU) |
2019 | He等[88] | SCI | 语料改进 | 每一个句子的开头和结尾增加人工标记,以区分多粒度语料.再使用LSTM和CRF实现多粒度分词. | SIGHAN2005[11] (MSR、 AS、PKU) SIGHAN2008[84] (CTB、SKIP、CityU、NCC、SXU) |
2019 | 张文静等[82] | 中文信息学报 | 语料改进 方法改进 | 模型在网格结构的辅助下,对不同粒度的分词标准都有较强的捕捉能力,且不局限于单一的分词标准. | MSR[89]、PPD[90]、CTB[72] |
2017 | Chen等[91] | ACL | 方法改进 | 借鉴多任务学习的思想,融合多个语料的数据提升共享字向量模块.在此基础上应用对抗网络,把私有信息从共享模块中剥离到各个私有模块中去,既有大数据量的优势,又避免了不同语料之间的相互制约. | SIGHAN2005[11] (MSR、AS) SIGHAN2008[84](PKU、CTB、SKIP、CityU、NCC、SXU) |
2017 | Gong等[83] | EMNLP | 语料改进 | 构建多粒度语料库. | MSR[89]、PPD[90]、CTB[72] |
4.2 与中文分词相关的联合模型 传统的自然语言处理任务通过管道模型实现,即中文分词作为一个独立的任务建模,再将分词结果作为后续任务的输入.管道模型存在错误传播的问题,不同任务之间信息的共享非常有限.近年来,与中文分词相关的联合模型大量涌现,联合模型能够避免错误传播,同时提升各子任务的准确率. ...
... [
84] (SXU)
CoNLL2017
[86](UD)
2019 | Qiu等[87] | arXiv | 方法改进 | 基于Transformer的构架方法采用全连接自注意力机制. | SIGHAN2005[11] (CityU、PKU、MSR、AS) SIGHAN2008[84] (CTB、SKIP、NCC、SXU) |
2019 | He等[88] | SCI | 语料改进 | 每一个句子的开头和结尾增加人工标记,以区分多粒度语料.再使用LSTM和CRF实现多粒度分词. | SIGHAN2005[11] (MSR、 AS、PKU) SIGHAN2008[84] (CTB、SKIP、CityU、NCC、SXU) |
2019 | 张文静等[82] | 中文信息学报 | 语料改进 方法改进 | 模型在网格结构的辅助下,对不同粒度的分词标准都有较强的捕捉能力,且不局限于单一的分词标准. | MSR[89]、PPD[90]、CTB[72] |
2017 | Chen等[91] | ACL | 方法改进 | 借鉴多任务学习的思想,融合多个语料的数据提升共享字向量模块.在此基础上应用对抗网络,把私有信息从共享模块中剥离到各个私有模块中去,既有大数据量的优势,又避免了不同语料之间的相互制约. | SIGHAN2005[11] (MSR、AS) SIGHAN2008[84](PKU、CTB、SKIP、CityU、NCC、SXU) |
2017 | Gong等[83] | EMNLP | 语料改进 | 构建多粒度语料库. | MSR[89]、PPD[90]、CTB[72] |
4.2 与中文分词相关的联合模型 传统的自然语言处理任务通过管道模型实现,即中文分词作为一个独立的任务建模,再将分词结果作为后续任务的输入.管道模型存在错误传播的问题,不同任务之间信息的共享非常有限.近年来,与中文分词相关的联合模型大量涌现,联合模型能够避免错误传播,同时提升各子任务的准确率. ...
... [
84] (CTB、SKIP、NCC、SXU)
2019 | He等[88] | SCI | 语料改进 | 每一个句子的开头和结尾增加人工标记,以区分多粒度语料.再使用LSTM和CRF实现多粒度分词. | SIGHAN2005[11] (MSR、 AS、PKU) SIGHAN2008[84] (CTB、SKIP、CityU、NCC、SXU) |
2019 | 张文静等[82] | 中文信息学报 | 语料改进 方法改进 | 模型在网格结构的辅助下,对不同粒度的分词标准都有较强的捕捉能力,且不局限于单一的分词标准. | MSR[89]、PPD[90]、CTB[72] |
2017 | Chen等[91] | ACL | 方法改进 | 借鉴多任务学习的思想,融合多个语料的数据提升共享字向量模块.在此基础上应用对抗网络,把私有信息从共享模块中剥离到各个私有模块中去,既有大数据量的优势,又避免了不同语料之间的相互制约. | SIGHAN2005[11] (MSR、AS) SIGHAN2008[84](PKU、CTB、SKIP、CityU、NCC、SXU) |
2017 | Gong等[83] | EMNLP | 语料改进 | 构建多粒度语料库. | MSR[89]、PPD[90]、CTB[72] |
4.2 与中文分词相关的联合模型 传统的自然语言处理任务通过管道模型实现,即中文分词作为一个独立的任务建模,再将分词结果作为后续任务的输入.管道模型存在错误传播的问题,不同任务之间信息的共享非常有限.近年来,与中文分词相关的联合模型大量涌现,联合模型能够避免错误传播,同时提升各子任务的准确率. ...
... [
84] (CTB、SKIP、CityU、NCC、SXU)
2019 | 张文静等[82] | 中文信息学报 | 语料改进 方法改进 | 模型在网格结构的辅助下,对不同粒度的分词标准都有较强的捕捉能力,且不局限于单一的分词标准. | MSR[89]、PPD[90]、CTB[72] |
2017 | Chen等[91] | ACL | 方法改进 | 借鉴多任务学习的思想,融合多个语料的数据提升共享字向量模块.在此基础上应用对抗网络,把私有信息从共享模块中剥离到各个私有模块中去,既有大数据量的优势,又避免了不同语料之间的相互制约. | SIGHAN2005[11] (MSR、AS) SIGHAN2008[84](PKU、CTB、SKIP、CityU、NCC、SXU) |
2017 | Gong等[83] | EMNLP | 语料改进 | 构建多粒度语料库. | MSR[89]、PPD[90]、CTB[72] |
4.2 与中文分词相关的联合模型 传统的自然语言处理任务通过管道模型实现,即中文分词作为一个独立的任务建模,再将分词结果作为后续任务的输入.管道模型存在错误传播的问题,不同任务之间信息的共享非常有限.近年来,与中文分词相关的联合模型大量涌现,联合模型能够避免错误传播,同时提升各子任务的准确率. ...
... [
84](PKU、CTB、SKIP、CityU、NCC、SXU)
2017 | Gong等[83] | EMNLP | 语料改进 | 构建多粒度语料库. | MSR[89]、PPD[90]、CTB[72] |
4.2 与中文分词相关的联合模型 传统的自然语言处理任务通过管道模型实现,即中文分词作为一个独立的任务建模,再将分词结果作为后续任务的输入.管道模型存在错误传播的问题,不同任务之间信息的共享非常有限.近年来,与中文分词相关的联合模型大量涌现,联合模型能够避免错误传播,同时提升各子任务的准确率. ...
Toward Fast and Accurate Neural Chinese Word Segmentation with Multi-Criteria Learning
1
1903
... Comparative Analysis of Multi-granularity and Multi-criterion
Table2 年份 | 作者 | 来源 | 研究思路 | 研究方法 | 实验使用的数据集 |
2019 | Gong等[24] | AAAI | 方法改进 | 模型由多个长短时记忆神经网络(LSTM)和一个切换器组成,可以在这些LSTM之间自动切换. | SIGHAN2005[11](MSR、AS) SIGHAN2008[84](PKU、CTB、SKIP、CityU、NCC、SXU) |
2019 | Huang等[85] | arXiv | 方法改进 | 基于Bidirectional Encoder Representations (BERT),使用模型剪枝、量化和编译器优化. | CTB6[72] SIGHAN2005[11] (CityU、PKU、MSR、AS) SIGHAN2008[84] (SXU) CoNLL2017[86](UD) |
2019 | Qiu等[87] | arXiv | 方法改进 | 基于Transformer的构架方法采用全连接自注意力机制. | SIGHAN2005[11] (CityU、PKU、MSR、AS) SIGHAN2008[84] (CTB、SKIP、NCC、SXU) |
2019 | He等[88] | SCI | 语料改进 | 每一个句子的开头和结尾增加人工标记,以区分多粒度语料.再使用LSTM和CRF实现多粒度分词. | SIGHAN2005[11] (MSR、 AS、PKU) SIGHAN2008[84] (CTB、SKIP、CityU、NCC、SXU) |
2019 | 张文静等[82] | 中文信息学报 | 语料改进 方法改进 | 模型在网格结构的辅助下,对不同粒度的分词标准都有较强的捕捉能力,且不局限于单一的分词标准. | MSR[89]、PPD[90]、CTB[72] |
2017 | Chen等[91] | ACL | 方法改进 | 借鉴多任务学习的思想,融合多个语料的数据提升共享字向量模块.在此基础上应用对抗网络,把私有信息从共享模块中剥离到各个私有模块中去,既有大数据量的优势,又避免了不同语料之间的相互制约. | SIGHAN2005[11] (MSR、AS) SIGHAN2008[84](PKU、CTB、SKIP、CityU、NCC、SXU) |
2017 | Gong等[83] | EMNLP | 语料改进 | 构建多粒度语料库. | MSR[89]、PPD[90]、CTB[72] |
4.2 与中文分词相关的联合模型 传统的自然语言处理任务通过管道模型实现,即中文分词作为一个独立的任务建模,再将分词结果作为后续任务的输入.管道模型存在错误传播的问题,不同任务之间信息的共享非常有限.近年来,与中文分词相关的联合模型大量涌现,联合模型能够避免错误传播,同时提升各子任务的准确率. ...
CoNLL 2017 Shared Task: Multilingual Parsing from Raw Text to Universal Dependencies
1
2017
... Comparative Analysis of Multi-granularity and Multi-criterion
Table2 年份 | 作者 | 来源 | 研究思路 | 研究方法 | 实验使用的数据集 |
2019 | Gong等[24] | AAAI | 方法改进 | 模型由多个长短时记忆神经网络(LSTM)和一个切换器组成,可以在这些LSTM之间自动切换. | SIGHAN2005[11](MSR、AS) SIGHAN2008[84](PKU、CTB、SKIP、CityU、NCC、SXU) |
2019 | Huang等[85] | arXiv | 方法改进 | 基于Bidirectional Encoder Representations (BERT),使用模型剪枝、量化和编译器优化. | CTB6[72] SIGHAN2005[11] (CityU、PKU、MSR、AS) SIGHAN2008[84] (SXU) CoNLL2017[86](UD) |
2019 | Qiu等[87] | arXiv | 方法改进 | 基于Transformer的构架方法采用全连接自注意力机制. | SIGHAN2005[11] (CityU、PKU、MSR、AS) SIGHAN2008[84] (CTB、SKIP、NCC、SXU) |
2019 | He等[88] | SCI | 语料改进 | 每一个句子的开头和结尾增加人工标记,以区分多粒度语料.再使用LSTM和CRF实现多粒度分词. | SIGHAN2005[11] (MSR、 AS、PKU) SIGHAN2008[84] (CTB、SKIP、CityU、NCC、SXU) |
2019 | 张文静等[82] | 中文信息学报 | 语料改进 方法改进 | 模型在网格结构的辅助下,对不同粒度的分词标准都有较强的捕捉能力,且不局限于单一的分词标准. | MSR[89]、PPD[90]、CTB[72] |
2017 | Chen等[91] | ACL | 方法改进 | 借鉴多任务学习的思想,融合多个语料的数据提升共享字向量模块.在此基础上应用对抗网络,把私有信息从共享模块中剥离到各个私有模块中去,既有大数据量的优势,又避免了不同语料之间的相互制约. | SIGHAN2005[11] (MSR、AS) SIGHAN2008[84](PKU、CTB、SKIP、CityU、NCC、SXU) |
2017 | Gong等[83] | EMNLP | 语料改进 | 构建多粒度语料库. | MSR[89]、PPD[90]、CTB[72] |
4.2 与中文分词相关的联合模型 传统的自然语言处理任务通过管道模型实现,即中文分词作为一个独立的任务建模,再将分词结果作为后续任务的输入.管道模型存在错误传播的问题,不同任务之间信息的共享非常有限.近年来,与中文分词相关的联合模型大量涌现,联合模型能够避免错误传播,同时提升各子任务的准确率. ...
Multi-Criteria Chinese Word Segmentation with Transformer
1
1906
... Comparative Analysis of Multi-granularity and Multi-criterion
Table2 年份 | 作者 | 来源 | 研究思路 | 研究方法 | 实验使用的数据集 |
2019 | Gong等[24] | AAAI | 方法改进 | 模型由多个长短时记忆神经网络(LSTM)和一个切换器组成,可以在这些LSTM之间自动切换. | SIGHAN2005[11](MSR、AS) SIGHAN2008[84](PKU、CTB、SKIP、CityU、NCC、SXU) |
2019 | Huang等[85] | arXiv | 方法改进 | 基于Bidirectional Encoder Representations (BERT),使用模型剪枝、量化和编译器优化. | CTB6[72] SIGHAN2005[11] (CityU、PKU、MSR、AS) SIGHAN2008[84] (SXU) CoNLL2017[86](UD) |
2019 | Qiu等[87] | arXiv | 方法改进 | 基于Transformer的构架方法采用全连接自注意力机制. | SIGHAN2005[11] (CityU、PKU、MSR、AS) SIGHAN2008[84] (CTB、SKIP、NCC、SXU) |
2019 | He等[88] | SCI | 语料改进 | 每一个句子的开头和结尾增加人工标记,以区分多粒度语料.再使用LSTM和CRF实现多粒度分词. | SIGHAN2005[11] (MSR、 AS、PKU) SIGHAN2008[84] (CTB、SKIP、CityU、NCC、SXU) |
2019 | 张文静等[82] | 中文信息学报 | 语料改进 方法改进 | 模型在网格结构的辅助下,对不同粒度的分词标准都有较强的捕捉能力,且不局限于单一的分词标准. | MSR[89]、PPD[90]、CTB[72] |
2017 | Chen等[91] | ACL | 方法改进 | 借鉴多任务学习的思想,融合多个语料的数据提升共享字向量模块.在此基础上应用对抗网络,把私有信息从共享模块中剥离到各个私有模块中去,既有大数据量的优势,又避免了不同语料之间的相互制约. | SIGHAN2005[11] (MSR、AS) SIGHAN2008[84](PKU、CTB、SKIP、CityU、NCC、SXU) |
2017 | Gong等[83] | EMNLP | 语料改进 | 构建多粒度语料库. | MSR[89]、PPD[90]、CTB[72] |
4.2 与中文分词相关的联合模型 传统的自然语言处理任务通过管道模型实现,即中文分词作为一个独立的任务建模,再将分词结果作为后续任务的输入.管道模型存在错误传播的问题,不同任务之间信息的共享非常有限.近年来,与中文分词相关的联合模型大量涌现,联合模型能够避免错误传播,同时提升各子任务的准确率. ...
Effective Neural Solution for Multi-Criteria Word Segmentation[A]// Satapathy S C, Bhateja V, Das S. Smart Intelligent Computing and Applications
1
2019
... Comparative Analysis of Multi-granularity and Multi-criterion
Table2 年份 | 作者 | 来源 | 研究思路 | 研究方法 | 实验使用的数据集 |
2019 | Gong等[24] | AAAI | 方法改进 | 模型由多个长短时记忆神经网络(LSTM)和一个切换器组成,可以在这些LSTM之间自动切换. | SIGHAN2005[11](MSR、AS) SIGHAN2008[84](PKU、CTB、SKIP、CityU、NCC、SXU) |
2019 | Huang等[85] | arXiv | 方法改进 | 基于Bidirectional Encoder Representations (BERT),使用模型剪枝、量化和编译器优化. | CTB6[72] SIGHAN2005[11] (CityU、PKU、MSR、AS) SIGHAN2008[84] (SXU) CoNLL2017[86](UD) |
2019 | Qiu等[87] | arXiv | 方法改进 | 基于Transformer的构架方法采用全连接自注意力机制. | SIGHAN2005[11] (CityU、PKU、MSR、AS) SIGHAN2008[84] (CTB、SKIP、NCC、SXU) |
2019 | He等[88] | SCI | 语料改进 | 每一个句子的开头和结尾增加人工标记,以区分多粒度语料.再使用LSTM和CRF实现多粒度分词. | SIGHAN2005[11] (MSR、 AS、PKU) SIGHAN2008[84] (CTB、SKIP、CityU、NCC、SXU) |
2019 | 张文静等[82] | 中文信息学报 | 语料改进 方法改进 | 模型在网格结构的辅助下,对不同粒度的分词标准都有较强的捕捉能力,且不局限于单一的分词标准. | MSR[89]、PPD[90]、CTB[72] |
2017 | Chen等[91] | ACL | 方法改进 | 借鉴多任务学习的思想,融合多个语料的数据提升共享字向量模块.在此基础上应用对抗网络,把私有信息从共享模块中剥离到各个私有模块中去,既有大数据量的优势,又避免了不同语料之间的相互制约. | SIGHAN2005[11] (MSR、AS) SIGHAN2008[84](PKU、CTB、SKIP、CityU、NCC、SXU) |
2017 | Gong等[83] | EMNLP | 语料改进 | 构建多粒度语料库. | MSR[89]、PPD[90]、CTB[72] |
4.2 与中文分词相关的联合模型 传统的自然语言处理任务通过管道模型实现,即中文分词作为一个独立的任务建模,再将分词结果作为后续任务的输入.管道模型存在错误传播的问题,不同任务之间信息的共享非常有限.近年来,与中文分词相关的联合模型大量涌现,联合模型能够避免错误传播,同时提升各子任务的准确率. ...
中文文本标注规范(5.0版)
2
2006
... Comparative Analysis of Multi-granularity and Multi-criterion
Table2 年份 | 作者 | 来源 | 研究思路 | 研究方法 | 实验使用的数据集 |
2019 | Gong等[24] | AAAI | 方法改进 | 模型由多个长短时记忆神经网络(LSTM)和一个切换器组成,可以在这些LSTM之间自动切换. | SIGHAN2005[11](MSR、AS) SIGHAN2008[84](PKU、CTB、SKIP、CityU、NCC、SXU) |
2019 | Huang等[85] | arXiv | 方法改进 | 基于Bidirectional Encoder Representations (BERT),使用模型剪枝、量化和编译器优化. | CTB6[72] SIGHAN2005[11] (CityU、PKU、MSR、AS) SIGHAN2008[84] (SXU) CoNLL2017[86](UD) |
2019 | Qiu等[87] | arXiv | 方法改进 | 基于Transformer的构架方法采用全连接自注意力机制. | SIGHAN2005[11] (CityU、PKU、MSR、AS) SIGHAN2008[84] (CTB、SKIP、NCC、SXU) |
2019 | He等[88] | SCI | 语料改进 | 每一个句子的开头和结尾增加人工标记,以区分多粒度语料.再使用LSTM和CRF实现多粒度分词. | SIGHAN2005[11] (MSR、 AS、PKU) SIGHAN2008[84] (CTB、SKIP、CityU、NCC、SXU) |
2019 | 张文静等[82] | 中文信息学报 | 语料改进 方法改进 | 模型在网格结构的辅助下,对不同粒度的分词标准都有较强的捕捉能力,且不局限于单一的分词标准. | MSR[89]、PPD[90]、CTB[72] |
2017 | Chen等[91] | ACL | 方法改进 | 借鉴多任务学习的思想,融合多个语料的数据提升共享字向量模块.在此基础上应用对抗网络,把私有信息从共享模块中剥离到各个私有模块中去,既有大数据量的优势,又避免了不同语料之间的相互制约. | SIGHAN2005[11] (MSR、AS) SIGHAN2008[84](PKU、CTB、SKIP、CityU、NCC、SXU) |
2017 | Gong等[83] | EMNLP | 语料改进 | 构建多粒度语料库. | MSR[89]、PPD[90]、CTB[72] |
4.2 与中文分词相关的联合模型 传统的自然语言处理任务通过管道模型实现,即中文分词作为一个独立的任务建模,再将分词结果作为后续任务的输入.管道模型存在错误传播的问题,不同任务之间信息的共享非常有限.近年来,与中文分词相关的联合模型大量涌现,联合模型能够避免错误传播,同时提升各子任务的准确率. ...
... [
89]、PPD
[90]、CTB
[72] 4.2 与中文分词相关的联合模型 传统的自然语言处理任务通过管道模型实现,即中文分词作为一个独立的任务建模,再将分词结果作为后续任务的输入.管道模型存在错误传播的问题,不同任务之间信息的共享非常有限.近年来,与中文分词相关的联合模型大量涌现,联合模型能够避免错误传播,同时提升各子任务的准确率. ...
中文文本标注规范(5.0版)
2
2006
... Comparative Analysis of Multi-granularity and Multi-criterion
Table2 年份 | 作者 | 来源 | 研究思路 | 研究方法 | 实验使用的数据集 |
2019 | Gong等[24] | AAAI | 方法改进 | 模型由多个长短时记忆神经网络(LSTM)和一个切换器组成,可以在这些LSTM之间自动切换. | SIGHAN2005[11](MSR、AS) SIGHAN2008[84](PKU、CTB、SKIP、CityU、NCC、SXU) |
2019 | Huang等[85] | arXiv | 方法改进 | 基于Bidirectional Encoder Representations (BERT),使用模型剪枝、量化和编译器优化. | CTB6[72] SIGHAN2005[11] (CityU、PKU、MSR、AS) SIGHAN2008[84] (SXU) CoNLL2017[86](UD) |
2019 | Qiu等[87] | arXiv | 方法改进 | 基于Transformer的构架方法采用全连接自注意力机制. | SIGHAN2005[11] (CityU、PKU、MSR、AS) SIGHAN2008[84] (CTB、SKIP、NCC、SXU) |
2019 | He等[88] | SCI | 语料改进 | 每一个句子的开头和结尾增加人工标记,以区分多粒度语料.再使用LSTM和CRF实现多粒度分词. | SIGHAN2005[11] (MSR、 AS、PKU) SIGHAN2008[84] (CTB、SKIP、CityU、NCC、SXU) |
2019 | 张文静等[82] | 中文信息学报 | 语料改进 方法改进 | 模型在网格结构的辅助下,对不同粒度的分词标准都有较强的捕捉能力,且不局限于单一的分词标准. | MSR[89]、PPD[90]、CTB[72] |
2017 | Chen等[91] | ACL | 方法改进 | 借鉴多任务学习的思想,融合多个语料的数据提升共享字向量模块.在此基础上应用对抗网络,把私有信息从共享模块中剥离到各个私有模块中去,既有大数据量的优势,又避免了不同语料之间的相互制约. | SIGHAN2005[11] (MSR、AS) SIGHAN2008[84](PKU、CTB、SKIP、CityU、NCC、SXU) |
2017 | Gong等[83] | EMNLP | 语料改进 | 构建多粒度语料库. | MSR[89]、PPD[90]、CTB[72] |
4.2 与中文分词相关的联合模型 传统的自然语言处理任务通过管道模型实现,即中文分词作为一个独立的任务建模,再将分词结果作为后续任务的输入.管道模型存在错误传播的问题,不同任务之间信息的共享非常有限.近年来,与中文分词相关的联合模型大量涌现,联合模型能够避免错误传播,同时提升各子任务的准确率. ...
... [
89]、PPD
[90]、CTB
[72] 4.2 与中文分词相关的联合模型 传统的自然语言处理任务通过管道模型实现,即中文分词作为一个独立的任务建模,再将分词结果作为后续任务的输入.管道模型存在错误传播的问题,不同任务之间信息的共享非常有限.近年来,与中文分词相关的联合模型大量涌现,联合模型能够避免错误传播,同时提升各子任务的准确率. ...
Specification for Corpus Processing at Peking University: Word Segmentation, POS Tagging and Phonetic Notation
2
2003
... Comparative Analysis of Multi-granularity and Multi-criterion
Table2 年份 | 作者 | 来源 | 研究思路 | 研究方法 | 实验使用的数据集 |
2019 | Gong等[24] | AAAI | 方法改进 | 模型由多个长短时记忆神经网络(LSTM)和一个切换器组成,可以在这些LSTM之间自动切换. | SIGHAN2005[11](MSR、AS) SIGHAN2008[84](PKU、CTB、SKIP、CityU、NCC、SXU) |
2019 | Huang等[85] | arXiv | 方法改进 | 基于Bidirectional Encoder Representations (BERT),使用模型剪枝、量化和编译器优化. | CTB6[72] SIGHAN2005[11] (CityU、PKU、MSR、AS) SIGHAN2008[84] (SXU) CoNLL2017[86](UD) |
2019 | Qiu等[87] | arXiv | 方法改进 | 基于Transformer的构架方法采用全连接自注意力机制. | SIGHAN2005[11] (CityU、PKU、MSR、AS) SIGHAN2008[84] (CTB、SKIP、NCC、SXU) |
2019 | He等[88] | SCI | 语料改进 | 每一个句子的开头和结尾增加人工标记,以区分多粒度语料.再使用LSTM和CRF实现多粒度分词. | SIGHAN2005[11] (MSR、 AS、PKU) SIGHAN2008[84] (CTB、SKIP、CityU、NCC、SXU) |
2019 | 张文静等[82] | 中文信息学报 | 语料改进 方法改进 | 模型在网格结构的辅助下,对不同粒度的分词标准都有较强的捕捉能力,且不局限于单一的分词标准. | MSR[89]、PPD[90]、CTB[72] |
2017 | Chen等[91] | ACL | 方法改进 | 借鉴多任务学习的思想,融合多个语料的数据提升共享字向量模块.在此基础上应用对抗网络,把私有信息从共享模块中剥离到各个私有模块中去,既有大数据量的优势,又避免了不同语料之间的相互制约. | SIGHAN2005[11] (MSR、AS) SIGHAN2008[84](PKU、CTB、SKIP、CityU、NCC、SXU) |
2017 | Gong等[83] | EMNLP | 语料改进 | 构建多粒度语料库. | MSR[89]、PPD[90]、CTB[72] |
4.2 与中文分词相关的联合模型 传统的自然语言处理任务通过管道模型实现,即中文分词作为一个独立的任务建模,再将分词结果作为后续任务的输入.管道模型存在错误传播的问题,不同任务之间信息的共享非常有限.近年来,与中文分词相关的联合模型大量涌现,联合模型能够避免错误传播,同时提升各子任务的准确率. ...
... [
90]、CTB
[72] 4.2 与中文分词相关的联合模型 传统的自然语言处理任务通过管道模型实现,即中文分词作为一个独立的任务建模,再将分词结果作为后续任务的输入.管道模型存在错误传播的问题,不同任务之间信息的共享非常有限.近年来,与中文分词相关的联合模型大量涌现,联合模型能够避免错误传播,同时提升各子任务的准确率. ...
Adversarial Multi-Criteria Learning for Chinese Word Segmentation
1
2017
... Comparative Analysis of Multi-granularity and Multi-criterion
Table2 年份 | 作者 | 来源 | 研究思路 | 研究方法 | 实验使用的数据集 |
2019 | Gong等[24] | AAAI | 方法改进 | 模型由多个长短时记忆神经网络(LSTM)和一个切换器组成,可以在这些LSTM之间自动切换. | SIGHAN2005[11](MSR、AS) SIGHAN2008[84](PKU、CTB、SKIP、CityU、NCC、SXU) |
2019 | Huang等[85] | arXiv | 方法改进 | 基于Bidirectional Encoder Representations (BERT),使用模型剪枝、量化和编译器优化. | CTB6[72] SIGHAN2005[11] (CityU、PKU、MSR、AS) SIGHAN2008[84] (SXU) CoNLL2017[86](UD) |
2019 | Qiu等[87] | arXiv | 方法改进 | 基于Transformer的构架方法采用全连接自注意力机制. | SIGHAN2005[11] (CityU、PKU、MSR、AS) SIGHAN2008[84] (CTB、SKIP、NCC、SXU) |
2019 | He等[88] | SCI | 语料改进 | 每一个句子的开头和结尾增加人工标记,以区分多粒度语料.再使用LSTM和CRF实现多粒度分词. | SIGHAN2005[11] (MSR、 AS、PKU) SIGHAN2008[84] (CTB、SKIP、CityU、NCC、SXU) |
2019 | 张文静等[82] | 中文信息学报 | 语料改进 方法改进 | 模型在网格结构的辅助下,对不同粒度的分词标准都有较强的捕捉能力,且不局限于单一的分词标准. | MSR[89]、PPD[90]、CTB[72] |
2017 | Chen等[91] | ACL | 方法改进 | 借鉴多任务学习的思想,融合多个语料的数据提升共享字向量模块.在此基础上应用对抗网络,把私有信息从共享模块中剥离到各个私有模块中去,既有大数据量的优势,又避免了不同语料之间的相互制约. | SIGHAN2005[11] (MSR、AS) SIGHAN2008[84](PKU、CTB、SKIP、CityU、NCC、SXU) |
2017 | Gong等[83] | EMNLP | 语料改进 | 构建多粒度语料库. | MSR[89]、PPD[90]、CTB[72] |
4.2 与中文分词相关的联合模型 传统的自然语言处理任务通过管道模型实现,即中文分词作为一个独立的任务建模,再将分词结果作为后续任务的输入.管道模型存在错误传播的问题,不同任务之间信息的共享非常有限.近年来,与中文分词相关的联合模型大量涌现,联合模型能够避免错误传播,同时提升各子任务的准确率. ...
Semi-supervised Classification with Graph Convolutional Networks
1
2017
... 自然语言处理包括多个相关子任务.其中,与中文分词任务最紧密关联的任务是词性标注(Part-of-Speech Tagging, POS Tagging)和依存句法分析(Dependency Parsing).已有中文分词相关的多任务处理研究中,被研究最多的是中文分词和词性标注;其次为中文分词、词性标注和依存句法分析.除此之外,多任务还包括中文分词和依存句法分析;所有相关任务的自然语言处理统一框架;中文分词和未登录词识别;中文分词和非正式词检测;中文分词和中文正确拼写;中文分词和命名实体识别.筛选并统计分析重要的多任务联合模型研究,如表3所示.现有研究基本都是基于2004年Ng等[76]提出的交叉标记思想,再结合具体任务设计出一种统一的多任务标注方式,最后提出多任务联合的深度学习模型.融入依存句法和已有知识后,CNN和RNN都不能很好地解决这种具有网络结构的模型,图深度学习模型[74]开始被自然语言处理研究人员关注,未来如何结合和改进深度学习中的图深度学习模型[92]实现多任务学习,将成为重点研究方向. ...
A Unified Architecture for Natural Language Processing: Deep Neural Networks with Multitask Learning
1
2008
... Analysis of Chinese Word Segmentation Related to Multi-task Joint Model
Table 3 任务类型 | 发表年份 | 作者 | 来源 | 研究方法 |
自然语言统一处理框架 | 2008 | Collobert等[93] | ICML | 基于深度学习的CNN模型,首次提出自然语言处理统一框架.该框架同时考虑词性标注、浅层语义分析、命名实体识别、语义角色标注进行多任务学习. |
中文分词和词性标注 | 2004 | Ng等[76] | EMNLP | 定义了一种交叉标记方式,能够同时标注两个任务的结果. |
2010 | Zhang等[94] | ACL | 基于线性的单模型,通过柱搜索的方法提升解码效率. |
2013 | Zeng等[95] | ACL | 基于半监督的方法,采用基于图标签传播的技术. |
2013 | Qiu等[96] | EMNLP | 为异质标注语料构建松散的、具有不确定性的映射,在进行训练同时提高异质标注语料的分词及词性标注的准确性. |
2013 | Zheng等[97] | EMNLP | 引入深度学习的方法自动学习特征,从而避免了人工的特征筛选,再结合传统的CRF. |
2016 | Wang等[98] | ICIIP | 基于层次长短时记忆,在一个目标函数中同时对多个任务进行联合训练,避免了管道模型性的错误传播问题. |
2016 | Chen等[99] | arXiv | 提出一种长距依赖的深度框架,基于联合模型同时完成分词和词性标注任务. |
2017 | Chen等[100] | IJCAI | 针对中文分词和词性标注任务提出富特征的深度学习框架,也是一种联合模型.该模型也能够解决长距依赖的问题. |
中文分词、词性标注和依存句法 | 2012 | Hatori等[101] | ACL | 提出一种增量的多任务处理联合模型,首次提出能够同时处理中文分词、词性标注和依存句法的联合模型. |
2013 | Wang等[102] | ACL | 使用基于晶格的结构,首先句子被划分为词格,在此基础上进行词性标注和依存句法分析,是一种联合模型. |
2016 | Guo等[103] | IEICE Transactions | 提出基于字级别的半监督联合处理模型,能够从部分标注的语料中得到N-Gram特征和依赖子树特征. |
2016 | Shen等[104] | COLING | 提出一种新颖的标注方法,该方法能够克服传统基于词法标注的两个问题:不一致性问题和稀疏性问题. |
中文分词和依存句法分析 | 2019 | Yan等[105] | arXiv | 首次提出处理中文分词和依存句法的统一模型,该模型为基于图的深度学习模型. |
中文分词和未登录词 | 2015 | Li等[106] | TALLIP | 提出一种基于字的生成式模型,能同时进行分词和未登录词检测.未登录词主要包括:词典中不包含的词、命名实体和后缀衍生词. |
中文分词和非正式词检测 | 2017 | Zhang等[107] | IJCAI | 中文微博语料中存在非正式用词的问题,传统的分词模型不能很好地对该类语料进行分词.针对这个问题,本文提出基于深度学习的分词和非正式词检测的联合模型. |
中文分词和中文正确拼写 | 2017 | Shi等[108] | SMP | 基于注意力机制的Encoder-Decoder架构提出一种序列到序列的标注方法,能够解决中文分词和中文拼写正确性问题. |
中文分词和命名实体识别 | 2019 | Wu等[109] | WWW | 提出一种新的框架CNER,综合使用了深度学习的CNN、LSTM和CRF.该框架能够在分词的同时识别命名实体. |
联合模型能够使模型下的多个子任务间的信息交互更为便利,提升结果的准确率和效率,但会导致模型更加复杂、搜索空间增大等问题.目前的研究尚且粗浅,未来将进一步探究结合不同自然语言处理任务的联合模型. ...
A Fast Decoder for Joint Word Segmentation and POS-Tagging Using a Single Discriminative Model
1
2010
... Analysis of Chinese Word Segmentation Related to Multi-task Joint Model
Table 3 任务类型 | 发表年份 | 作者 | 来源 | 研究方法 |
自然语言统一处理框架 | 2008 | Collobert等[93] | ICML | 基于深度学习的CNN模型,首次提出自然语言处理统一框架.该框架同时考虑词性标注、浅层语义分析、命名实体识别、语义角色标注进行多任务学习. |
中文分词和词性标注 | 2004 | Ng等[76] | EMNLP | 定义了一种交叉标记方式,能够同时标注两个任务的结果. |
2010 | Zhang等[94] | ACL | 基于线性的单模型,通过柱搜索的方法提升解码效率. |
2013 | Zeng等[95] | ACL | 基于半监督的方法,采用基于图标签传播的技术. |
2013 | Qiu等[96] | EMNLP | 为异质标注语料构建松散的、具有不确定性的映射,在进行训练同时提高异质标注语料的分词及词性标注的准确性. |
2013 | Zheng等[97] | EMNLP | 引入深度学习的方法自动学习特征,从而避免了人工的特征筛选,再结合传统的CRF. |
2016 | Wang等[98] | ICIIP | 基于层次长短时记忆,在一个目标函数中同时对多个任务进行联合训练,避免了管道模型性的错误传播问题. |
2016 | Chen等[99] | arXiv | 提出一种长距依赖的深度框架,基于联合模型同时完成分词和词性标注任务. |
2017 | Chen等[100] | IJCAI | 针对中文分词和词性标注任务提出富特征的深度学习框架,也是一种联合模型.该模型也能够解决长距依赖的问题. |
中文分词、词性标注和依存句法 | 2012 | Hatori等[101] | ACL | 提出一种增量的多任务处理联合模型,首次提出能够同时处理中文分词、词性标注和依存句法的联合模型. |
2013 | Wang等[102] | ACL | 使用基于晶格的结构,首先句子被划分为词格,在此基础上进行词性标注和依存句法分析,是一种联合模型. |
2016 | Guo等[103] | IEICE Transactions | 提出基于字级别的半监督联合处理模型,能够从部分标注的语料中得到N-Gram特征和依赖子树特征. |
2016 | Shen等[104] | COLING | 提出一种新颖的标注方法,该方法能够克服传统基于词法标注的两个问题:不一致性问题和稀疏性问题. |
中文分词和依存句法分析 | 2019 | Yan等[105] | arXiv | 首次提出处理中文分词和依存句法的统一模型,该模型为基于图的深度学习模型. |
中文分词和未登录词 | 2015 | Li等[106] | TALLIP | 提出一种基于字的生成式模型,能同时进行分词和未登录词检测.未登录词主要包括:词典中不包含的词、命名实体和后缀衍生词. |
中文分词和非正式词检测 | 2017 | Zhang等[107] | IJCAI | 中文微博语料中存在非正式用词的问题,传统的分词模型不能很好地对该类语料进行分词.针对这个问题,本文提出基于深度学习的分词和非正式词检测的联合模型. |
中文分词和中文正确拼写 | 2017 | Shi等[108] | SMP | 基于注意力机制的Encoder-Decoder架构提出一种序列到序列的标注方法,能够解决中文分词和中文拼写正确性问题. |
中文分词和命名实体识别 | 2019 | Wu等[109] | WWW | 提出一种新的框架CNER,综合使用了深度学习的CNN、LSTM和CRF.该框架能够在分词的同时识别命名实体. |
联合模型能够使模型下的多个子任务间的信息交互更为便利,提升结果的准确率和效率,但会导致模型更加复杂、搜索空间增大等问题.目前的研究尚且粗浅,未来将进一步探究结合不同自然语言处理任务的联合模型. ...
Graph-based Semi-supervised Model for Joint Chinese Word Segmentation and Part-of-speech Tagging
1
2013
... Analysis of Chinese Word Segmentation Related to Multi-task Joint Model
Table 3 任务类型 | 发表年份 | 作者 | 来源 | 研究方法 |
自然语言统一处理框架 | 2008 | Collobert等[93] | ICML | 基于深度学习的CNN模型,首次提出自然语言处理统一框架.该框架同时考虑词性标注、浅层语义分析、命名实体识别、语义角色标注进行多任务学习. |
中文分词和词性标注 | 2004 | Ng等[76] | EMNLP | 定义了一种交叉标记方式,能够同时标注两个任务的结果. |
2010 | Zhang等[94] | ACL | 基于线性的单模型,通过柱搜索的方法提升解码效率. |
2013 | Zeng等[95] | ACL | 基于半监督的方法,采用基于图标签传播的技术. |
2013 | Qiu等[96] | EMNLP | 为异质标注语料构建松散的、具有不确定性的映射,在进行训练同时提高异质标注语料的分词及词性标注的准确性. |
2013 | Zheng等[97] | EMNLP | 引入深度学习的方法自动学习特征,从而避免了人工的特征筛选,再结合传统的CRF. |
2016 | Wang等[98] | ICIIP | 基于层次长短时记忆,在一个目标函数中同时对多个任务进行联合训练,避免了管道模型性的错误传播问题. |
2016 | Chen等[99] | arXiv | 提出一种长距依赖的深度框架,基于联合模型同时完成分词和词性标注任务. |
2017 | Chen等[100] | IJCAI | 针对中文分词和词性标注任务提出富特征的深度学习框架,也是一种联合模型.该模型也能够解决长距依赖的问题. |
中文分词、词性标注和依存句法 | 2012 | Hatori等[101] | ACL | 提出一种增量的多任务处理联合模型,首次提出能够同时处理中文分词、词性标注和依存句法的联合模型. |
2013 | Wang等[102] | ACL | 使用基于晶格的结构,首先句子被划分为词格,在此基础上进行词性标注和依存句法分析,是一种联合模型. |
2016 | Guo等[103] | IEICE Transactions | 提出基于字级别的半监督联合处理模型,能够从部分标注的语料中得到N-Gram特征和依赖子树特征. |
2016 | Shen等[104] | COLING | 提出一种新颖的标注方法,该方法能够克服传统基于词法标注的两个问题:不一致性问题和稀疏性问题. |
中文分词和依存句法分析 | 2019 | Yan等[105] | arXiv | 首次提出处理中文分词和依存句法的统一模型,该模型为基于图的深度学习模型. |
中文分词和未登录词 | 2015 | Li等[106] | TALLIP | 提出一种基于字的生成式模型,能同时进行分词和未登录词检测.未登录词主要包括:词典中不包含的词、命名实体和后缀衍生词. |
中文分词和非正式词检测 | 2017 | Zhang等[107] | IJCAI | 中文微博语料中存在非正式用词的问题,传统的分词模型不能很好地对该类语料进行分词.针对这个问题,本文提出基于深度学习的分词和非正式词检测的联合模型. |
中文分词和中文正确拼写 | 2017 | Shi等[108] | SMP | 基于注意力机制的Encoder-Decoder架构提出一种序列到序列的标注方法,能够解决中文分词和中文拼写正确性问题. |
中文分词和命名实体识别 | 2019 | Wu等[109] | WWW | 提出一种新的框架CNER,综合使用了深度学习的CNN、LSTM和CRF.该框架能够在分词的同时识别命名实体. |
联合模型能够使模型下的多个子任务间的信息交互更为便利,提升结果的准确率和效率,但会导致模型更加复杂、搜索空间增大等问题.目前的研究尚且粗浅,未来将进一步探究结合不同自然语言处理任务的联合模型. ...
Joint Chinese Word Segmentation and POS Tagging on Heterogeneous Annotated Corpora with Multiple Task Learning
1
2013
... Analysis of Chinese Word Segmentation Related to Multi-task Joint Model
Table 3 任务类型 | 发表年份 | 作者 | 来源 | 研究方法 |
自然语言统一处理框架 | 2008 | Collobert等[93] | ICML | 基于深度学习的CNN模型,首次提出自然语言处理统一框架.该框架同时考虑词性标注、浅层语义分析、命名实体识别、语义角色标注进行多任务学习. |
中文分词和词性标注 | 2004 | Ng等[76] | EMNLP | 定义了一种交叉标记方式,能够同时标注两个任务的结果. |
2010 | Zhang等[94] | ACL | 基于线性的单模型,通过柱搜索的方法提升解码效率. |
2013 | Zeng等[95] | ACL | 基于半监督的方法,采用基于图标签传播的技术. |
2013 | Qiu等[96] | EMNLP | 为异质标注语料构建松散的、具有不确定性的映射,在进行训练同时提高异质标注语料的分词及词性标注的准确性. |
2013 | Zheng等[97] | EMNLP | 引入深度学习的方法自动学习特征,从而避免了人工的特征筛选,再结合传统的CRF. |
2016 | Wang等[98] | ICIIP | 基于层次长短时记忆,在一个目标函数中同时对多个任务进行联合训练,避免了管道模型性的错误传播问题. |
2016 | Chen等[99] | arXiv | 提出一种长距依赖的深度框架,基于联合模型同时完成分词和词性标注任务. |
2017 | Chen等[100] | IJCAI | 针对中文分词和词性标注任务提出富特征的深度学习框架,也是一种联合模型.该模型也能够解决长距依赖的问题. |
中文分词、词性标注和依存句法 | 2012 | Hatori等[101] | ACL | 提出一种增量的多任务处理联合模型,首次提出能够同时处理中文分词、词性标注和依存句法的联合模型. |
2013 | Wang等[102] | ACL | 使用基于晶格的结构,首先句子被划分为词格,在此基础上进行词性标注和依存句法分析,是一种联合模型. |
2016 | Guo等[103] | IEICE Transactions | 提出基于字级别的半监督联合处理模型,能够从部分标注的语料中得到N-Gram特征和依赖子树特征. |
2016 | Shen等[104] | COLING | 提出一种新颖的标注方法,该方法能够克服传统基于词法标注的两个问题:不一致性问题和稀疏性问题. |
中文分词和依存句法分析 | 2019 | Yan等[105] | arXiv | 首次提出处理中文分词和依存句法的统一模型,该模型为基于图的深度学习模型. |
中文分词和未登录词 | 2015 | Li等[106] | TALLIP | 提出一种基于字的生成式模型,能同时进行分词和未登录词检测.未登录词主要包括:词典中不包含的词、命名实体和后缀衍生词. |
中文分词和非正式词检测 | 2017 | Zhang等[107] | IJCAI | 中文微博语料中存在非正式用词的问题,传统的分词模型不能很好地对该类语料进行分词.针对这个问题,本文提出基于深度学习的分词和非正式词检测的联合模型. |
中文分词和中文正确拼写 | 2017 | Shi等[108] | SMP | 基于注意力机制的Encoder-Decoder架构提出一种序列到序列的标注方法,能够解决中文分词和中文拼写正确性问题. |
中文分词和命名实体识别 | 2019 | Wu等[109] | WWW | 提出一种新的框架CNER,综合使用了深度学习的CNN、LSTM和CRF.该框架能够在分词的同时识别命名实体. |
联合模型能够使模型下的多个子任务间的信息交互更为便利,提升结果的准确率和效率,但会导致模型更加复杂、搜索空间增大等问题.目前的研究尚且粗浅,未来将进一步探究结合不同自然语言处理任务的联合模型. ...
Deep Learning for Chinese Word Segmentation and POS Tagging
1
2013
... Analysis of Chinese Word Segmentation Related to Multi-task Joint Model
Table 3 任务类型 | 发表年份 | 作者 | 来源 | 研究方法 |
自然语言统一处理框架 | 2008 | Collobert等[93] | ICML | 基于深度学习的CNN模型,首次提出自然语言处理统一框架.该框架同时考虑词性标注、浅层语义分析、命名实体识别、语义角色标注进行多任务学习. |
中文分词和词性标注 | 2004 | Ng等[76] | EMNLP | 定义了一种交叉标记方式,能够同时标注两个任务的结果. |
2010 | Zhang等[94] | ACL | 基于线性的单模型,通过柱搜索的方法提升解码效率. |
2013 | Zeng等[95] | ACL | 基于半监督的方法,采用基于图标签传播的技术. |
2013 | Qiu等[96] | EMNLP | 为异质标注语料构建松散的、具有不确定性的映射,在进行训练同时提高异质标注语料的分词及词性标注的准确性. |
2013 | Zheng等[97] | EMNLP | 引入深度学习的方法自动学习特征,从而避免了人工的特征筛选,再结合传统的CRF. |
2016 | Wang等[98] | ICIIP | 基于层次长短时记忆,在一个目标函数中同时对多个任务进行联合训练,避免了管道模型性的错误传播问题. |
2016 | Chen等[99] | arXiv | 提出一种长距依赖的深度框架,基于联合模型同时完成分词和词性标注任务. |
2017 | Chen等[100] | IJCAI | 针对中文分词和词性标注任务提出富特征的深度学习框架,也是一种联合模型.该模型也能够解决长距依赖的问题. |
中文分词、词性标注和依存句法 | 2012 | Hatori等[101] | ACL | 提出一种增量的多任务处理联合模型,首次提出能够同时处理中文分词、词性标注和依存句法的联合模型. |
2013 | Wang等[102] | ACL | 使用基于晶格的结构,首先句子被划分为词格,在此基础上进行词性标注和依存句法分析,是一种联合模型. |
2016 | Guo等[103] | IEICE Transactions | 提出基于字级别的半监督联合处理模型,能够从部分标注的语料中得到N-Gram特征和依赖子树特征. |
2016 | Shen等[104] | COLING | 提出一种新颖的标注方法,该方法能够克服传统基于词法标注的两个问题:不一致性问题和稀疏性问题. |
中文分词和依存句法分析 | 2019 | Yan等[105] | arXiv | 首次提出处理中文分词和依存句法的统一模型,该模型为基于图的深度学习模型. |
中文分词和未登录词 | 2015 | Li等[106] | TALLIP | 提出一种基于字的生成式模型,能同时进行分词和未登录词检测.未登录词主要包括:词典中不包含的词、命名实体和后缀衍生词. |
中文分词和非正式词检测 | 2017 | Zhang等[107] | IJCAI | 中文微博语料中存在非正式用词的问题,传统的分词模型不能很好地对该类语料进行分词.针对这个问题,本文提出基于深度学习的分词和非正式词检测的联合模型. |
中文分词和中文正确拼写 | 2017 | Shi等[108] | SMP | 基于注意力机制的Encoder-Decoder架构提出一种序列到序列的标注方法,能够解决中文分词和中文拼写正确性问题. |
中文分词和命名实体识别 | 2019 | Wu等[109] | WWW | 提出一种新的框架CNER,综合使用了深度学习的CNN、LSTM和CRF.该框架能够在分词的同时识别命名实体. |
联合模型能够使模型下的多个子任务间的信息交互更为便利,提升结果的准确率和效率,但会导致模型更加复杂、搜索空间增大等问题.目前的研究尚且粗浅,未来将进一步探究结合不同自然语言处理任务的联合模型. ...
An Effective Joint Model for Chinese Word Segmentation and POS Tagging
1
2016
... Analysis of Chinese Word Segmentation Related to Multi-task Joint Model
Table 3 任务类型 | 发表年份 | 作者 | 来源 | 研究方法 |
自然语言统一处理框架 | 2008 | Collobert等[93] | ICML | 基于深度学习的CNN模型,首次提出自然语言处理统一框架.该框架同时考虑词性标注、浅层语义分析、命名实体识别、语义角色标注进行多任务学习. |
中文分词和词性标注 | 2004 | Ng等[76] | EMNLP | 定义了一种交叉标记方式,能够同时标注两个任务的结果. |
2010 | Zhang等[94] | ACL | 基于线性的单模型,通过柱搜索的方法提升解码效率. |
2013 | Zeng等[95] | ACL | 基于半监督的方法,采用基于图标签传播的技术. |
2013 | Qiu等[96] | EMNLP | 为异质标注语料构建松散的、具有不确定性的映射,在进行训练同时提高异质标注语料的分词及词性标注的准确性. |
2013 | Zheng等[97] | EMNLP | 引入深度学习的方法自动学习特征,从而避免了人工的特征筛选,再结合传统的CRF. |
2016 | Wang等[98] | ICIIP | 基于层次长短时记忆,在一个目标函数中同时对多个任务进行联合训练,避免了管道模型性的错误传播问题. |
2016 | Chen等[99] | arXiv | 提出一种长距依赖的深度框架,基于联合模型同时完成分词和词性标注任务. |
2017 | Chen等[100] | IJCAI | 针对中文分词和词性标注任务提出富特征的深度学习框架,也是一种联合模型.该模型也能够解决长距依赖的问题. |
中文分词、词性标注和依存句法 | 2012 | Hatori等[101] | ACL | 提出一种增量的多任务处理联合模型,首次提出能够同时处理中文分词、词性标注和依存句法的联合模型. |
2013 | Wang等[102] | ACL | 使用基于晶格的结构,首先句子被划分为词格,在此基础上进行词性标注和依存句法分析,是一种联合模型. |
2016 | Guo等[103] | IEICE Transactions | 提出基于字级别的半监督联合处理模型,能够从部分标注的语料中得到N-Gram特征和依赖子树特征. |
2016 | Shen等[104] | COLING | 提出一种新颖的标注方法,该方法能够克服传统基于词法标注的两个问题:不一致性问题和稀疏性问题. |
中文分词和依存句法分析 | 2019 | Yan等[105] | arXiv | 首次提出处理中文分词和依存句法的统一模型,该模型为基于图的深度学习模型. |
中文分词和未登录词 | 2015 | Li等[106] | TALLIP | 提出一种基于字的生成式模型,能同时进行分词和未登录词检测.未登录词主要包括:词典中不包含的词、命名实体和后缀衍生词. |
中文分词和非正式词检测 | 2017 | Zhang等[107] | IJCAI | 中文微博语料中存在非正式用词的问题,传统的分词模型不能很好地对该类语料进行分词.针对这个问题,本文提出基于深度学习的分词和非正式词检测的联合模型. |
中文分词和中文正确拼写 | 2017 | Shi等[108] | SMP | 基于注意力机制的Encoder-Decoder架构提出一种序列到序列的标注方法,能够解决中文分词和中文拼写正确性问题. |
中文分词和命名实体识别 | 2019 | Wu等[109] | WWW | 提出一种新的框架CNER,综合使用了深度学习的CNN、LSTM和CRF.该框架能够在分词的同时识别命名实体. |
联合模型能够使模型下的多个子任务间的信息交互更为便利,提升结果的准确率和效率,但会导致模型更加复杂、搜索空间增大等问题.目前的研究尚且粗浅,未来将进一步探究结合不同自然语言处理任务的联合模型. ...
1
1611
... Analysis of Chinese Word Segmentation Related to Multi-task Joint Model
Table 3 任务类型 | 发表年份 | 作者 | 来源 | 研究方法 |
自然语言统一处理框架 | 2008 | Collobert等[93] | ICML | 基于深度学习的CNN模型,首次提出自然语言处理统一框架.该框架同时考虑词性标注、浅层语义分析、命名实体识别、语义角色标注进行多任务学习. |
中文分词和词性标注 | 2004 | Ng等[76] | EMNLP | 定义了一种交叉标记方式,能够同时标注两个任务的结果. |
2010 | Zhang等[94] | ACL | 基于线性的单模型,通过柱搜索的方法提升解码效率. |
2013 | Zeng等[95] | ACL | 基于半监督的方法,采用基于图标签传播的技术. |
2013 | Qiu等[96] | EMNLP | 为异质标注语料构建松散的、具有不确定性的映射,在进行训练同时提高异质标注语料的分词及词性标注的准确性. |
2013 | Zheng等[97] | EMNLP | 引入深度学习的方法自动学习特征,从而避免了人工的特征筛选,再结合传统的CRF. |
2016 | Wang等[98] | ICIIP | 基于层次长短时记忆,在一个目标函数中同时对多个任务进行联合训练,避免了管道模型性的错误传播问题. |
2016 | Chen等[99] | arXiv | 提出一种长距依赖的深度框架,基于联合模型同时完成分词和词性标注任务. |
2017 | Chen等[100] | IJCAI | 针对中文分词和词性标注任务提出富特征的深度学习框架,也是一种联合模型.该模型也能够解决长距依赖的问题. |
中文分词、词性标注和依存句法 | 2012 | Hatori等[101] | ACL | 提出一种增量的多任务处理联合模型,首次提出能够同时处理中文分词、词性标注和依存句法的联合模型. |
2013 | Wang等[102] | ACL | 使用基于晶格的结构,首先句子被划分为词格,在此基础上进行词性标注和依存句法分析,是一种联合模型. |
2016 | Guo等[103] | IEICE Transactions | 提出基于字级别的半监督联合处理模型,能够从部分标注的语料中得到N-Gram特征和依赖子树特征. |
2016 | Shen等[104] | COLING | 提出一种新颖的标注方法,该方法能够克服传统基于词法标注的两个问题:不一致性问题和稀疏性问题. |
中文分词和依存句法分析 | 2019 | Yan等[105] | arXiv | 首次提出处理中文分词和依存句法的统一模型,该模型为基于图的深度学习模型. |
中文分词和未登录词 | 2015 | Li等[106] | TALLIP | 提出一种基于字的生成式模型,能同时进行分词和未登录词检测.未登录词主要包括:词典中不包含的词、命名实体和后缀衍生词. |
中文分词和非正式词检测 | 2017 | Zhang等[107] | IJCAI | 中文微博语料中存在非正式用词的问题,传统的分词模型不能很好地对该类语料进行分词.针对这个问题,本文提出基于深度学习的分词和非正式词检测的联合模型. |
中文分词和中文正确拼写 | 2017 | Shi等[108] | SMP | 基于注意力机制的Encoder-Decoder架构提出一种序列到序列的标注方法,能够解决中文分词和中文拼写正确性问题. |
中文分词和命名实体识别 | 2019 | Wu等[109] | WWW | 提出一种新的框架CNER,综合使用了深度学习的CNN、LSTM和CRF.该框架能够在分词的同时识别命名实体. |
联合模型能够使模型下的多个子任务间的信息交互更为便利,提升结果的准确率和效率,但会导致模型更加复杂、搜索空间增大等问题.目前的研究尚且粗浅,未来将进一步探究结合不同自然语言处理任务的联合模型. ...
A Feature-enriched Neural Model for Joint Chinese Word Segmentation and Part-of-speech Tagging
1
2017
... Analysis of Chinese Word Segmentation Related to Multi-task Joint Model
Table 3 任务类型 | 发表年份 | 作者 | 来源 | 研究方法 |
自然语言统一处理框架 | 2008 | Collobert等[93] | ICML | 基于深度学习的CNN模型,首次提出自然语言处理统一框架.该框架同时考虑词性标注、浅层语义分析、命名实体识别、语义角色标注进行多任务学习. |
中文分词和词性标注 | 2004 | Ng等[76] | EMNLP | 定义了一种交叉标记方式,能够同时标注两个任务的结果. |
2010 | Zhang等[94] | ACL | 基于线性的单模型,通过柱搜索的方法提升解码效率. |
2013 | Zeng等[95] | ACL | 基于半监督的方法,采用基于图标签传播的技术. |
2013 | Qiu等[96] | EMNLP | 为异质标注语料构建松散的、具有不确定性的映射,在进行训练同时提高异质标注语料的分词及词性标注的准确性. |
2013 | Zheng等[97] | EMNLP | 引入深度学习的方法自动学习特征,从而避免了人工的特征筛选,再结合传统的CRF. |
2016 | Wang等[98] | ICIIP | 基于层次长短时记忆,在一个目标函数中同时对多个任务进行联合训练,避免了管道模型性的错误传播问题. |
2016 | Chen等[99] | arXiv | 提出一种长距依赖的深度框架,基于联合模型同时完成分词和词性标注任务. |
2017 | Chen等[100] | IJCAI | 针对中文分词和词性标注任务提出富特征的深度学习框架,也是一种联合模型.该模型也能够解决长距依赖的问题. |
中文分词、词性标注和依存句法 | 2012 | Hatori等[101] | ACL | 提出一种增量的多任务处理联合模型,首次提出能够同时处理中文分词、词性标注和依存句法的联合模型. |
2013 | Wang等[102] | ACL | 使用基于晶格的结构,首先句子被划分为词格,在此基础上进行词性标注和依存句法分析,是一种联合模型. |
2016 | Guo等[103] | IEICE Transactions | 提出基于字级别的半监督联合处理模型,能够从部分标注的语料中得到N-Gram特征和依赖子树特征. |
2016 | Shen等[104] | COLING | 提出一种新颖的标注方法,该方法能够克服传统基于词法标注的两个问题:不一致性问题和稀疏性问题. |
中文分词和依存句法分析 | 2019 | Yan等[105] | arXiv | 首次提出处理中文分词和依存句法的统一模型,该模型为基于图的深度学习模型. |
中文分词和未登录词 | 2015 | Li等[106] | TALLIP | 提出一种基于字的生成式模型,能同时进行分词和未登录词检测.未登录词主要包括:词典中不包含的词、命名实体和后缀衍生词. |
中文分词和非正式词检测 | 2017 | Zhang等[107] | IJCAI | 中文微博语料中存在非正式用词的问题,传统的分词模型不能很好地对该类语料进行分词.针对这个问题,本文提出基于深度学习的分词和非正式词检测的联合模型. |
中文分词和中文正确拼写 | 2017 | Shi等[108] | SMP | 基于注意力机制的Encoder-Decoder架构提出一种序列到序列的标注方法,能够解决中文分词和中文拼写正确性问题. |
中文分词和命名实体识别 | 2019 | Wu等[109] | WWW | 提出一种新的框架CNER,综合使用了深度学习的CNN、LSTM和CRF.该框架能够在分词的同时识别命名实体. |
联合模型能够使模型下的多个子任务间的信息交互更为便利,提升结果的准确率和效率,但会导致模型更加复杂、搜索空间增大等问题.目前的研究尚且粗浅,未来将进一步探究结合不同自然语言处理任务的联合模型. ...
Incremental Joint Approach to Word Segmentation, POS Tagging , and Dependency Parsing in Chinese
1
2012
... Analysis of Chinese Word Segmentation Related to Multi-task Joint Model
Table 3 任务类型 | 发表年份 | 作者 | 来源 | 研究方法 |
自然语言统一处理框架 | 2008 | Collobert等[93] | ICML | 基于深度学习的CNN模型,首次提出自然语言处理统一框架.该框架同时考虑词性标注、浅层语义分析、命名实体识别、语义角色标注进行多任务学习. |
中文分词和词性标注 | 2004 | Ng等[76] | EMNLP | 定义了一种交叉标记方式,能够同时标注两个任务的结果. |
2010 | Zhang等[94] | ACL | 基于线性的单模型,通过柱搜索的方法提升解码效率. |
2013 | Zeng等[95] | ACL | 基于半监督的方法,采用基于图标签传播的技术. |
2013 | Qiu等[96] | EMNLP | 为异质标注语料构建松散的、具有不确定性的映射,在进行训练同时提高异质标注语料的分词及词性标注的准确性. |
2013 | Zheng等[97] | EMNLP | 引入深度学习的方法自动学习特征,从而避免了人工的特征筛选,再结合传统的CRF. |
2016 | Wang等[98] | ICIIP | 基于层次长短时记忆,在一个目标函数中同时对多个任务进行联合训练,避免了管道模型性的错误传播问题. |
2016 | Chen等[99] | arXiv | 提出一种长距依赖的深度框架,基于联合模型同时完成分词和词性标注任务. |
2017 | Chen等[100] | IJCAI | 针对中文分词和词性标注任务提出富特征的深度学习框架,也是一种联合模型.该模型也能够解决长距依赖的问题. |
中文分词、词性标注和依存句法 | 2012 | Hatori等[101] | ACL | 提出一种增量的多任务处理联合模型,首次提出能够同时处理中文分词、词性标注和依存句法的联合模型. |
2013 | Wang等[102] | ACL | 使用基于晶格的结构,首先句子被划分为词格,在此基础上进行词性标注和依存句法分析,是一种联合模型. |
2016 | Guo等[103] | IEICE Transactions | 提出基于字级别的半监督联合处理模型,能够从部分标注的语料中得到N-Gram特征和依赖子树特征. |
2016 | Shen等[104] | COLING | 提出一种新颖的标注方法,该方法能够克服传统基于词法标注的两个问题:不一致性问题和稀疏性问题. |
中文分词和依存句法分析 | 2019 | Yan等[105] | arXiv | 首次提出处理中文分词和依存句法的统一模型,该模型为基于图的深度学习模型. |
中文分词和未登录词 | 2015 | Li等[106] | TALLIP | 提出一种基于字的生成式模型,能同时进行分词和未登录词检测.未登录词主要包括:词典中不包含的词、命名实体和后缀衍生词. |
中文分词和非正式词检测 | 2017 | Zhang等[107] | IJCAI | 中文微博语料中存在非正式用词的问题,传统的分词模型不能很好地对该类语料进行分词.针对这个问题,本文提出基于深度学习的分词和非正式词检测的联合模型. |
中文分词和中文正确拼写 | 2017 | Shi等[108] | SMP | 基于注意力机制的Encoder-Decoder架构提出一种序列到序列的标注方法,能够解决中文分词和中文拼写正确性问题. |
中文分词和命名实体识别 | 2019 | Wu等[109] | WWW | 提出一种新的框架CNER,综合使用了深度学习的CNN、LSTM和CRF.该框架能够在分词的同时识别命名实体. |
联合模型能够使模型下的多个子任务间的信息交互更为便利,提升结果的准确率和效率,但会导致模型更加复杂、搜索空间增大等问题.目前的研究尚且粗浅,未来将进一步探究结合不同自然语言处理任务的联合模型. ...
A Lattice-based Framework for Joint Chinese Word Segmentation, POS Tagging and Parsing
1
2013
... Analysis of Chinese Word Segmentation Related to Multi-task Joint Model
Table 3 任务类型 | 发表年份 | 作者 | 来源 | 研究方法 |
自然语言统一处理框架 | 2008 | Collobert等[93] | ICML | 基于深度学习的CNN模型,首次提出自然语言处理统一框架.该框架同时考虑词性标注、浅层语义分析、命名实体识别、语义角色标注进行多任务学习. |
中文分词和词性标注 | 2004 | Ng等[76] | EMNLP | 定义了一种交叉标记方式,能够同时标注两个任务的结果. |
2010 | Zhang等[94] | ACL | 基于线性的单模型,通过柱搜索的方法提升解码效率. |
2013 | Zeng等[95] | ACL | 基于半监督的方法,采用基于图标签传播的技术. |
2013 | Qiu等[96] | EMNLP | 为异质标注语料构建松散的、具有不确定性的映射,在进行训练同时提高异质标注语料的分词及词性标注的准确性. |
2013 | Zheng等[97] | EMNLP | 引入深度学习的方法自动学习特征,从而避免了人工的特征筛选,再结合传统的CRF. |
2016 | Wang等[98] | ICIIP | 基于层次长短时记忆,在一个目标函数中同时对多个任务进行联合训练,避免了管道模型性的错误传播问题. |
2016 | Chen等[99] | arXiv | 提出一种长距依赖的深度框架,基于联合模型同时完成分词和词性标注任务. |
2017 | Chen等[100] | IJCAI | 针对中文分词和词性标注任务提出富特征的深度学习框架,也是一种联合模型.该模型也能够解决长距依赖的问题. |
中文分词、词性标注和依存句法 | 2012 | Hatori等[101] | ACL | 提出一种增量的多任务处理联合模型,首次提出能够同时处理中文分词、词性标注和依存句法的联合模型. |
2013 | Wang等[102] | ACL | 使用基于晶格的结构,首先句子被划分为词格,在此基础上进行词性标注和依存句法分析,是一种联合模型. |
2016 | Guo等[103] | IEICE Transactions | 提出基于字级别的半监督联合处理模型,能够从部分标注的语料中得到N-Gram特征和依赖子树特征. |
2016 | Shen等[104] | COLING | 提出一种新颖的标注方法,该方法能够克服传统基于词法标注的两个问题:不一致性问题和稀疏性问题. |
中文分词和依存句法分析 | 2019 | Yan等[105] | arXiv | 首次提出处理中文分词和依存句法的统一模型,该模型为基于图的深度学习模型. |
中文分词和未登录词 | 2015 | Li等[106] | TALLIP | 提出一种基于字的生成式模型,能同时进行分词和未登录词检测.未登录词主要包括:词典中不包含的词、命名实体和后缀衍生词. |
中文分词和非正式词检测 | 2017 | Zhang等[107] | IJCAI | 中文微博语料中存在非正式用词的问题,传统的分词模型不能很好地对该类语料进行分词.针对这个问题,本文提出基于深度学习的分词和非正式词检测的联合模型. |
中文分词和中文正确拼写 | 2017 | Shi等[108] | SMP | 基于注意力机制的Encoder-Decoder架构提出一种序列到序列的标注方法,能够解决中文分词和中文拼写正确性问题. |
中文分词和命名实体识别 | 2019 | Wu等[109] | WWW | 提出一种新的框架CNER,综合使用了深度学习的CNN、LSTM和CRF.该框架能够在分词的同时识别命名实体. |
联合模型能够使模型下的多个子任务间的信息交互更为便利,提升结果的准确率和效率,但会导致模型更加复杂、搜索空间增大等问题.目前的研究尚且粗浅,未来将进一步探究结合不同自然语言处理任务的联合模型. ...
Character-level Dependency Model for Joint Word Segmentation, POS Tagging, and Dependency Parsing in Chinese
1
2016
... Analysis of Chinese Word Segmentation Related to Multi-task Joint Model
Table 3 任务类型 | 发表年份 | 作者 | 来源 | 研究方法 |
自然语言统一处理框架 | 2008 | Collobert等[93] | ICML | 基于深度学习的CNN模型,首次提出自然语言处理统一框架.该框架同时考虑词性标注、浅层语义分析、命名实体识别、语义角色标注进行多任务学习. |
中文分词和词性标注 | 2004 | Ng等[76] | EMNLP | 定义了一种交叉标记方式,能够同时标注两个任务的结果. |
2010 | Zhang等[94] | ACL | 基于线性的单模型,通过柱搜索的方法提升解码效率. |
2013 | Zeng等[95] | ACL | 基于半监督的方法,采用基于图标签传播的技术. |
2013 | Qiu等[96] | EMNLP | 为异质标注语料构建松散的、具有不确定性的映射,在进行训练同时提高异质标注语料的分词及词性标注的准确性. |
2013 | Zheng等[97] | EMNLP | 引入深度学习的方法自动学习特征,从而避免了人工的特征筛选,再结合传统的CRF. |
2016 | Wang等[98] | ICIIP | 基于层次长短时记忆,在一个目标函数中同时对多个任务进行联合训练,避免了管道模型性的错误传播问题. |
2016 | Chen等[99] | arXiv | 提出一种长距依赖的深度框架,基于联合模型同时完成分词和词性标注任务. |
2017 | Chen等[100] | IJCAI | 针对中文分词和词性标注任务提出富特征的深度学习框架,也是一种联合模型.该模型也能够解决长距依赖的问题. |
中文分词、词性标注和依存句法 | 2012 | Hatori等[101] | ACL | 提出一种增量的多任务处理联合模型,首次提出能够同时处理中文分词、词性标注和依存句法的联合模型. |
2013 | Wang等[102] | ACL | 使用基于晶格的结构,首先句子被划分为词格,在此基础上进行词性标注和依存句法分析,是一种联合模型. |
2016 | Guo等[103] | IEICE Transactions | 提出基于字级别的半监督联合处理模型,能够从部分标注的语料中得到N-Gram特征和依赖子树特征. |
2016 | Shen等[104] | COLING | 提出一种新颖的标注方法,该方法能够克服传统基于词法标注的两个问题:不一致性问题和稀疏性问题. |
中文分词和依存句法分析 | 2019 | Yan等[105] | arXiv | 首次提出处理中文分词和依存句法的统一模型,该模型为基于图的深度学习模型. |
中文分词和未登录词 | 2015 | Li等[106] | TALLIP | 提出一种基于字的生成式模型,能同时进行分词和未登录词检测.未登录词主要包括:词典中不包含的词、命名实体和后缀衍生词. |
中文分词和非正式词检测 | 2017 | Zhang等[107] | IJCAI | 中文微博语料中存在非正式用词的问题,传统的分词模型不能很好地对该类语料进行分词.针对这个问题,本文提出基于深度学习的分词和非正式词检测的联合模型. |
中文分词和中文正确拼写 | 2017 | Shi等[108] | SMP | 基于注意力机制的Encoder-Decoder架构提出一种序列到序列的标注方法,能够解决中文分词和中文拼写正确性问题. |
中文分词和命名实体识别 | 2019 | Wu等[109] | WWW | 提出一种新的框架CNER,综合使用了深度学习的CNN、LSTM和CRF.该框架能够在分词的同时识别命名实体. |
联合模型能够使模型下的多个子任务间的信息交互更为便利,提升结果的准确率和效率,但会导致模型更加复杂、搜索空间增大等问题.目前的研究尚且粗浅,未来将进一步探究结合不同自然语言处理任务的联合模型. ...
Consistent Word Segmentation, Part-of-speech Tagging and Dependency Labelling Annotation for Chinese Language
1
2016
... Analysis of Chinese Word Segmentation Related to Multi-task Joint Model
Table 3 任务类型 | 发表年份 | 作者 | 来源 | 研究方法 |
自然语言统一处理框架 | 2008 | Collobert等[93] | ICML | 基于深度学习的CNN模型,首次提出自然语言处理统一框架.该框架同时考虑词性标注、浅层语义分析、命名实体识别、语义角色标注进行多任务学习. |
中文分词和词性标注 | 2004 | Ng等[76] | EMNLP | 定义了一种交叉标记方式,能够同时标注两个任务的结果. |
2010 | Zhang等[94] | ACL | 基于线性的单模型,通过柱搜索的方法提升解码效率. |
2013 | Zeng等[95] | ACL | 基于半监督的方法,采用基于图标签传播的技术. |
2013 | Qiu等[96] | EMNLP | 为异质标注语料构建松散的、具有不确定性的映射,在进行训练同时提高异质标注语料的分词及词性标注的准确性. |
2013 | Zheng等[97] | EMNLP | 引入深度学习的方法自动学习特征,从而避免了人工的特征筛选,再结合传统的CRF. |
2016 | Wang等[98] | ICIIP | 基于层次长短时记忆,在一个目标函数中同时对多个任务进行联合训练,避免了管道模型性的错误传播问题. |
2016 | Chen等[99] | arXiv | 提出一种长距依赖的深度框架,基于联合模型同时完成分词和词性标注任务. |
2017 | Chen等[100] | IJCAI | 针对中文分词和词性标注任务提出富特征的深度学习框架,也是一种联合模型.该模型也能够解决长距依赖的问题. |
中文分词、词性标注和依存句法 | 2012 | Hatori等[101] | ACL | 提出一种增量的多任务处理联合模型,首次提出能够同时处理中文分词、词性标注和依存句法的联合模型. |
2013 | Wang等[102] | ACL | 使用基于晶格的结构,首先句子被划分为词格,在此基础上进行词性标注和依存句法分析,是一种联合模型. |
2016 | Guo等[103] | IEICE Transactions | 提出基于字级别的半监督联合处理模型,能够从部分标注的语料中得到N-Gram特征和依赖子树特征. |
2016 | Shen等[104] | COLING | 提出一种新颖的标注方法,该方法能够克服传统基于词法标注的两个问题:不一致性问题和稀疏性问题. |
中文分词和依存句法分析 | 2019 | Yan等[105] | arXiv | 首次提出处理中文分词和依存句法的统一模型,该模型为基于图的深度学习模型. |
中文分词和未登录词 | 2015 | Li等[106] | TALLIP | 提出一种基于字的生成式模型,能同时进行分词和未登录词检测.未登录词主要包括:词典中不包含的词、命名实体和后缀衍生词. |
中文分词和非正式词检测 | 2017 | Zhang等[107] | IJCAI | 中文微博语料中存在非正式用词的问题,传统的分词模型不能很好地对该类语料进行分词.针对这个问题,本文提出基于深度学习的分词和非正式词检测的联合模型. |
中文分词和中文正确拼写 | 2017 | Shi等[108] | SMP | 基于注意力机制的Encoder-Decoder架构提出一种序列到序列的标注方法,能够解决中文分词和中文拼写正确性问题. |
中文分词和命名实体识别 | 2019 | Wu等[109] | WWW | 提出一种新的框架CNER,综合使用了深度学习的CNN、LSTM和CRF.该框架能够在分词的同时识别命名实体. |
联合模型能够使模型下的多个子任务间的信息交互更为便利,提升结果的准确率和效率,但会导致模型更加复杂、搜索空间增大等问题.目前的研究尚且粗浅,未来将进一步探究结合不同自然语言处理任务的联合模型. ...
A Unified Model for Joint Chinese Word Segmentation and Dependency Parsing
1
1904
... Analysis of Chinese Word Segmentation Related to Multi-task Joint Model
Table 3 任务类型 | 发表年份 | 作者 | 来源 | 研究方法 |
自然语言统一处理框架 | 2008 | Collobert等[93] | ICML | 基于深度学习的CNN模型,首次提出自然语言处理统一框架.该框架同时考虑词性标注、浅层语义分析、命名实体识别、语义角色标注进行多任务学习. |
中文分词和词性标注 | 2004 | Ng等[76] | EMNLP | 定义了一种交叉标记方式,能够同时标注两个任务的结果. |
2010 | Zhang等[94] | ACL | 基于线性的单模型,通过柱搜索的方法提升解码效率. |
2013 | Zeng等[95] | ACL | 基于半监督的方法,采用基于图标签传播的技术. |
2013 | Qiu等[96] | EMNLP | 为异质标注语料构建松散的、具有不确定性的映射,在进行训练同时提高异质标注语料的分词及词性标注的准确性. |
2013 | Zheng等[97] | EMNLP | 引入深度学习的方法自动学习特征,从而避免了人工的特征筛选,再结合传统的CRF. |
2016 | Wang等[98] | ICIIP | 基于层次长短时记忆,在一个目标函数中同时对多个任务进行联合训练,避免了管道模型性的错误传播问题. |
2016 | Chen等[99] | arXiv | 提出一种长距依赖的深度框架,基于联合模型同时完成分词和词性标注任务. |
2017 | Chen等[100] | IJCAI | 针对中文分词和词性标注任务提出富特征的深度学习框架,也是一种联合模型.该模型也能够解决长距依赖的问题. |
中文分词、词性标注和依存句法 | 2012 | Hatori等[101] | ACL | 提出一种增量的多任务处理联合模型,首次提出能够同时处理中文分词、词性标注和依存句法的联合模型. |
2013 | Wang等[102] | ACL | 使用基于晶格的结构,首先句子被划分为词格,在此基础上进行词性标注和依存句法分析,是一种联合模型. |
2016 | Guo等[103] | IEICE Transactions | 提出基于字级别的半监督联合处理模型,能够从部分标注的语料中得到N-Gram特征和依赖子树特征. |
2016 | Shen等[104] | COLING | 提出一种新颖的标注方法,该方法能够克服传统基于词法标注的两个问题:不一致性问题和稀疏性问题. |
中文分词和依存句法分析 | 2019 | Yan等[105] | arXiv | 首次提出处理中文分词和依存句法的统一模型,该模型为基于图的深度学习模型. |
中文分词和未登录词 | 2015 | Li等[106] | TALLIP | 提出一种基于字的生成式模型,能同时进行分词和未登录词检测.未登录词主要包括:词典中不包含的词、命名实体和后缀衍生词. |
中文分词和非正式词检测 | 2017 | Zhang等[107] | IJCAI | 中文微博语料中存在非正式用词的问题,传统的分词模型不能很好地对该类语料进行分词.针对这个问题,本文提出基于深度学习的分词和非正式词检测的联合模型. |
中文分词和中文正确拼写 | 2017 | Shi等[108] | SMP | 基于注意力机制的Encoder-Decoder架构提出一种序列到序列的标注方法,能够解决中文分词和中文拼写正确性问题. |
中文分词和命名实体识别 | 2019 | Wu等[109] | WWW | 提出一种新的框架CNER,综合使用了深度学习的CNN、LSTM和CRF.该框架能够在分词的同时识别命名实体. |
联合模型能够使模型下的多个子任务间的信息交互更为便利,提升结果的准确率和效率,但会导致模型更加复杂、搜索空间增大等问题.目前的研究尚且粗浅,未来将进一步探究结合不同自然语言处理任务的联合模型. ...
A Unified Model for Solving the OOV Problem of Chinese Word Segmentation
1
2015
... Analysis of Chinese Word Segmentation Related to Multi-task Joint Model
Table 3 任务类型 | 发表年份 | 作者 | 来源 | 研究方法 |
自然语言统一处理框架 | 2008 | Collobert等[93] | ICML | 基于深度学习的CNN模型,首次提出自然语言处理统一框架.该框架同时考虑词性标注、浅层语义分析、命名实体识别、语义角色标注进行多任务学习. |
中文分词和词性标注 | 2004 | Ng等[76] | EMNLP | 定义了一种交叉标记方式,能够同时标注两个任务的结果. |
2010 | Zhang等[94] | ACL | 基于线性的单模型,通过柱搜索的方法提升解码效率. |
2013 | Zeng等[95] | ACL | 基于半监督的方法,采用基于图标签传播的技术. |
2013 | Qiu等[96] | EMNLP | 为异质标注语料构建松散的、具有不确定性的映射,在进行训练同时提高异质标注语料的分词及词性标注的准确性. |
2013 | Zheng等[97] | EMNLP | 引入深度学习的方法自动学习特征,从而避免了人工的特征筛选,再结合传统的CRF. |
2016 | Wang等[98] | ICIIP | 基于层次长短时记忆,在一个目标函数中同时对多个任务进行联合训练,避免了管道模型性的错误传播问题. |
2016 | Chen等[99] | arXiv | 提出一种长距依赖的深度框架,基于联合模型同时完成分词和词性标注任务. |
2017 | Chen等[100] | IJCAI | 针对中文分词和词性标注任务提出富特征的深度学习框架,也是一种联合模型.该模型也能够解决长距依赖的问题. |
中文分词、词性标注和依存句法 | 2012 | Hatori等[101] | ACL | 提出一种增量的多任务处理联合模型,首次提出能够同时处理中文分词、词性标注和依存句法的联合模型. |
2013 | Wang等[102] | ACL | 使用基于晶格的结构,首先句子被划分为词格,在此基础上进行词性标注和依存句法分析,是一种联合模型. |
2016 | Guo等[103] | IEICE Transactions | 提出基于字级别的半监督联合处理模型,能够从部分标注的语料中得到N-Gram特征和依赖子树特征. |
2016 | Shen等[104] | COLING | 提出一种新颖的标注方法,该方法能够克服传统基于词法标注的两个问题:不一致性问题和稀疏性问题. |
中文分词和依存句法分析 | 2019 | Yan等[105] | arXiv | 首次提出处理中文分词和依存句法的统一模型,该模型为基于图的深度学习模型. |
中文分词和未登录词 | 2015 | Li等[106] | TALLIP | 提出一种基于字的生成式模型,能同时进行分词和未登录词检测.未登录词主要包括:词典中不包含的词、命名实体和后缀衍生词. |
中文分词和非正式词检测 | 2017 | Zhang等[107] | IJCAI | 中文微博语料中存在非正式用词的问题,传统的分词模型不能很好地对该类语料进行分词.针对这个问题,本文提出基于深度学习的分词和非正式词检测的联合模型. |
中文分词和中文正确拼写 | 2017 | Shi等[108] | SMP | 基于注意力机制的Encoder-Decoder架构提出一种序列到序列的标注方法,能够解决中文分词和中文拼写正确性问题. |
中文分词和命名实体识别 | 2019 | Wu等[109] | WWW | 提出一种新的框架CNER,综合使用了深度学习的CNN、LSTM和CRF.该框架能够在分词的同时识别命名实体. |
联合模型能够使模型下的多个子任务间的信息交互更为便利,提升结果的准确率和效率,但会导致模型更加复杂、搜索空间增大等问题.目前的研究尚且粗浅,未来将进一步探究结合不同自然语言处理任务的联合模型. ...
Segmenting Chinese Microtext: Joint Informal-Word Detection and Segmentation with Neural Networks
1
2017
... Analysis of Chinese Word Segmentation Related to Multi-task Joint Model
Table 3 任务类型 | 发表年份 | 作者 | 来源 | 研究方法 |
自然语言统一处理框架 | 2008 | Collobert等[93] | ICML | 基于深度学习的CNN模型,首次提出自然语言处理统一框架.该框架同时考虑词性标注、浅层语义分析、命名实体识别、语义角色标注进行多任务学习. |
中文分词和词性标注 | 2004 | Ng等[76] | EMNLP | 定义了一种交叉标记方式,能够同时标注两个任务的结果. |
2010 | Zhang等[94] | ACL | 基于线性的单模型,通过柱搜索的方法提升解码效率. |
2013 | Zeng等[95] | ACL | 基于半监督的方法,采用基于图标签传播的技术. |
2013 | Qiu等[96] | EMNLP | 为异质标注语料构建松散的、具有不确定性的映射,在进行训练同时提高异质标注语料的分词及词性标注的准确性. |
2013 | Zheng等[97] | EMNLP | 引入深度学习的方法自动学习特征,从而避免了人工的特征筛选,再结合传统的CRF. |
2016 | Wang等[98] | ICIIP | 基于层次长短时记忆,在一个目标函数中同时对多个任务进行联合训练,避免了管道模型性的错误传播问题. |
2016 | Chen等[99] | arXiv | 提出一种长距依赖的深度框架,基于联合模型同时完成分词和词性标注任务. |
2017 | Chen等[100] | IJCAI | 针对中文分词和词性标注任务提出富特征的深度学习框架,也是一种联合模型.该模型也能够解决长距依赖的问题. |
中文分词、词性标注和依存句法 | 2012 | Hatori等[101] | ACL | 提出一种增量的多任务处理联合模型,首次提出能够同时处理中文分词、词性标注和依存句法的联合模型. |
2013 | Wang等[102] | ACL | 使用基于晶格的结构,首先句子被划分为词格,在此基础上进行词性标注和依存句法分析,是一种联合模型. |
2016 | Guo等[103] | IEICE Transactions | 提出基于字级别的半监督联合处理模型,能够从部分标注的语料中得到N-Gram特征和依赖子树特征. |
2016 | Shen等[104] | COLING | 提出一种新颖的标注方法,该方法能够克服传统基于词法标注的两个问题:不一致性问题和稀疏性问题. |
中文分词和依存句法分析 | 2019 | Yan等[105] | arXiv | 首次提出处理中文分词和依存句法的统一模型,该模型为基于图的深度学习模型. |
中文分词和未登录词 | 2015 | Li等[106] | TALLIP | 提出一种基于字的生成式模型,能同时进行分词和未登录词检测.未登录词主要包括:词典中不包含的词、命名实体和后缀衍生词. |
中文分词和非正式词检测 | 2017 | Zhang等[107] | IJCAI | 中文微博语料中存在非正式用词的问题,传统的分词模型不能很好地对该类语料进行分词.针对这个问题,本文提出基于深度学习的分词和非正式词检测的联合模型. |
中文分词和中文正确拼写 | 2017 | Shi等[108] | SMP | 基于注意力机制的Encoder-Decoder架构提出一种序列到序列的标注方法,能够解决中文分词和中文拼写正确性问题. |
中文分词和命名实体识别 | 2019 | Wu等[109] | WWW | 提出一种新的框架CNER,综合使用了深度学习的CNN、LSTM和CRF.该框架能够在分词的同时识别命名实体. |
联合模型能够使模型下的多个子任务间的信息交互更为便利,提升结果的准确率和效率,但会导致模型更加复杂、搜索空间增大等问题.目前的研究尚且粗浅,未来将进一步探究结合不同自然语言处理任务的联合模型. ...
Neural Chinese Word Segmentation as Sequence to Sequence Translation
1
2017
... Analysis of Chinese Word Segmentation Related to Multi-task Joint Model
Table 3 任务类型 | 发表年份 | 作者 | 来源 | 研究方法 |
自然语言统一处理框架 | 2008 | Collobert等[93] | ICML | 基于深度学习的CNN模型,首次提出自然语言处理统一框架.该框架同时考虑词性标注、浅层语义分析、命名实体识别、语义角色标注进行多任务学习. |
中文分词和词性标注 | 2004 | Ng等[76] | EMNLP | 定义了一种交叉标记方式,能够同时标注两个任务的结果. |
2010 | Zhang等[94] | ACL | 基于线性的单模型,通过柱搜索的方法提升解码效率. |
2013 | Zeng等[95] | ACL | 基于半监督的方法,采用基于图标签传播的技术. |
2013 | Qiu等[96] | EMNLP | 为异质标注语料构建松散的、具有不确定性的映射,在进行训练同时提高异质标注语料的分词及词性标注的准确性. |
2013 | Zheng等[97] | EMNLP | 引入深度学习的方法自动学习特征,从而避免了人工的特征筛选,再结合传统的CRF. |
2016 | Wang等[98] | ICIIP | 基于层次长短时记忆,在一个目标函数中同时对多个任务进行联合训练,避免了管道模型性的错误传播问题. |
2016 | Chen等[99] | arXiv | 提出一种长距依赖的深度框架,基于联合模型同时完成分词和词性标注任务. |
2017 | Chen等[100] | IJCAI | 针对中文分词和词性标注任务提出富特征的深度学习框架,也是一种联合模型.该模型也能够解决长距依赖的问题. |
中文分词、词性标注和依存句法 | 2012 | Hatori等[101] | ACL | 提出一种增量的多任务处理联合模型,首次提出能够同时处理中文分词、词性标注和依存句法的联合模型. |
2013 | Wang等[102] | ACL | 使用基于晶格的结构,首先句子被划分为词格,在此基础上进行词性标注和依存句法分析,是一种联合模型. |
2016 | Guo等[103] | IEICE Transactions | 提出基于字级别的半监督联合处理模型,能够从部分标注的语料中得到N-Gram特征和依赖子树特征. |
2016 | Shen等[104] | COLING | 提出一种新颖的标注方法,该方法能够克服传统基于词法标注的两个问题:不一致性问题和稀疏性问题. |
中文分词和依存句法分析 | 2019 | Yan等[105] | arXiv | 首次提出处理中文分词和依存句法的统一模型,该模型为基于图的深度学习模型. |
中文分词和未登录词 | 2015 | Li等[106] | TALLIP | 提出一种基于字的生成式模型,能同时进行分词和未登录词检测.未登录词主要包括:词典中不包含的词、命名实体和后缀衍生词. |
中文分词和非正式词检测 | 2017 | Zhang等[107] | IJCAI | 中文微博语料中存在非正式用词的问题,传统的分词模型不能很好地对该类语料进行分词.针对这个问题,本文提出基于深度学习的分词和非正式词检测的联合模型. |
中文分词和中文正确拼写 | 2017 | Shi等[108] | SMP | 基于注意力机制的Encoder-Decoder架构提出一种序列到序列的标注方法,能够解决中文分词和中文拼写正确性问题. |
中文分词和命名实体识别 | 2019 | Wu等[109] | WWW | 提出一种新的框架CNER,综合使用了深度学习的CNN、LSTM和CRF.该框架能够在分词的同时识别命名实体. |
联合模型能够使模型下的多个子任务间的信息交互更为便利,提升结果的准确率和效率,但会导致模型更加复杂、搜索空间增大等问题.目前的研究尚且粗浅,未来将进一步探究结合不同自然语言处理任务的联合模型. ...
Neural Chinese Named Entity Recognition via CNN-LSTM-CRF and Joint Training with Word Segmentation
1
2019
... Analysis of Chinese Word Segmentation Related to Multi-task Joint Model
Table 3 任务类型 | 发表年份 | 作者 | 来源 | 研究方法 |
自然语言统一处理框架 | 2008 | Collobert等[93] | ICML | 基于深度学习的CNN模型,首次提出自然语言处理统一框架.该框架同时考虑词性标注、浅层语义分析、命名实体识别、语义角色标注进行多任务学习. |
中文分词和词性标注 | 2004 | Ng等[76] | EMNLP | 定义了一种交叉标记方式,能够同时标注两个任务的结果. |
2010 | Zhang等[94] | ACL | 基于线性的单模型,通过柱搜索的方法提升解码效率. |
2013 | Zeng等[95] | ACL | 基于半监督的方法,采用基于图标签传播的技术. |
2013 | Qiu等[96] | EMNLP | 为异质标注语料构建松散的、具有不确定性的映射,在进行训练同时提高异质标注语料的分词及词性标注的准确性. |
2013 | Zheng等[97] | EMNLP | 引入深度学习的方法自动学习特征,从而避免了人工的特征筛选,再结合传统的CRF. |
2016 | Wang等[98] | ICIIP | 基于层次长短时记忆,在一个目标函数中同时对多个任务进行联合训练,避免了管道模型性的错误传播问题. |
2016 | Chen等[99] | arXiv | 提出一种长距依赖的深度框架,基于联合模型同时完成分词和词性标注任务. |
2017 | Chen等[100] | IJCAI | 针对中文分词和词性标注任务提出富特征的深度学习框架,也是一种联合模型.该模型也能够解决长距依赖的问题. |
中文分词、词性标注和依存句法 | 2012 | Hatori等[101] | ACL | 提出一种增量的多任务处理联合模型,首次提出能够同时处理中文分词、词性标注和依存句法的联合模型. |
2013 | Wang等[102] | ACL | 使用基于晶格的结构,首先句子被划分为词格,在此基础上进行词性标注和依存句法分析,是一种联合模型. |
2016 | Guo等[103] | IEICE Transactions | 提出基于字级别的半监督联合处理模型,能够从部分标注的语料中得到N-Gram特征和依赖子树特征. |
2016 | Shen等[104] | COLING | 提出一种新颖的标注方法,该方法能够克服传统基于词法标注的两个问题:不一致性问题和稀疏性问题. |
中文分词和依存句法分析 | 2019 | Yan等[105] | arXiv | 首次提出处理中文分词和依存句法的统一模型,该模型为基于图的深度学习模型. |
中文分词和未登录词 | 2015 | Li等[106] | TALLIP | 提出一种基于字的生成式模型,能同时进行分词和未登录词检测.未登录词主要包括:词典中不包含的词、命名实体和后缀衍生词. |
中文分词和非正式词检测 | 2017 | Zhang等[107] | IJCAI | 中文微博语料中存在非正式用词的问题,传统的分词模型不能很好地对该类语料进行分词.针对这个问题,本文提出基于深度学习的分词和非正式词检测的联合模型. |
中文分词和中文正确拼写 | 2017 | Shi等[108] | SMP | 基于注意力机制的Encoder-Decoder架构提出一种序列到序列的标注方法,能够解决中文分词和中文拼写正确性问题. |
中文分词和命名实体识别 | 2019 | Wu等[109] | WWW | 提出一种新的框架CNER,综合使用了深度学习的CNN、LSTM和CRF.该框架能够在分词的同时识别命名实体. |
联合模型能够使模型下的多个子任务间的信息交互更为便利,提升结果的准确率和效率,但会导致模型更加复杂、搜索空间增大等问题.目前的研究尚且粗浅,未来将进一步探究结合不同自然语言处理任务的联合模型. ...