Please wait a minute...
Advanced Search
现代图书情报技术  2013, Vol. Issue (4): 54-61     https://doi.org/10.11925/infotech.1003-3513.2013.04.09
  情报分析与研究 本期目录 | 过刊浏览 | 高级检索 |
基于N-Gram的文本语种识别研究
王昊, 李思舒, 邓三鸿
南京大学信息管理学院 南京 210093
Study on Text Language Recognition Based on N-Gram
Wang Hao, Li Sishu, Deng Sanhong
School of Information Management, Nanjing University, Nanjing 210093, China
全文: PDF (567 KB)   HTML  
输出: BibTeX | EndNote (RIS)      
摘要 基于N-Gram理论实现一个文本语种自动识别系统,对中文简体、中文繁体、英语、法语、德语、俄语和韩语等在互联网中广泛使用的语种的文本进行语种自动识别研究。研究实验分为多语种语料库训练和语种识别两个阶段,训练和测试文本均来自于开放式目录工程(ODP)。此外,将笔者开发的识别系统与另一基于N-Gram的语种识别程序TextCat进行对比分析。实验结果表明,该系统对中文简体、中文繁体、德语有较高且稳定的正确识别率,对俄语、法语、英语的正确识别率其次,对韩语识别容易受到汉语影响。
服务
把本文推荐给朋友
加入引用管理器
E-mail Alert
RSS
作者相关文章
王昊
李思舒
邓三鸿
关键词 N-Gram多语种识别语料库文本分类    
Abstract:A language recognition program which is used to auto recognize the textures of the most popular languages on Internet including Chinese-simple, Chinese-traditional, English, French, German, Russian and Korean, is realized in this paper based on the N-Gram language module. The speech recognition experiments are divided into two stages of training of multilingual corpus and testing of language recognition, the texts of training and testing come from the Open Directory Project. The program is used to participate in the language recognition test, as well as to make contrast tests to another language recognition program based on N-Gram named TextCat. The result of the language recognition experiment proves that the program has a fine performance on recognizing Chinese-simple, Chinese-traditional and German, and the accuracy of recognition on Russian, French and English in the next place, the Korean is always interfered with Chinese in these experiments.
Key wordsN-Gram    Language recognition    Corpus    Text classification
收稿日期: 2013-03-21      出版日期: 2013-06-17
:  TP391  
基金资助:本文系国家863计划项目“以科技文献服务为主的搜索引擎研制”(项目编号:2011AA01A206)和南京大学文科青年创新团队培育项目“基于语义的知识管理系统模型研究”的研究成果之一。
通讯作者: 王昊     E-mail: ywhaowang@nju.edu.cn
引用本文:   
王昊, 李思舒, 邓三鸿. 基于N-Gram的文本语种识别研究[J]. 现代图书情报技术, 2013, (4): 54-61.
Wang Hao, Li Sishu, Deng Sanhong. Study on Text Language Recognition Based on N-Gram. New Technology of Library and Information Service, 2013, (4): 54-61.
链接本文:  
https://manu44.magtech.com.cn/Jwk_infotech_wk3/CN/10.11925/infotech.1003-3513.2013.04.09      或      https://manu44.magtech.com.cn/Jwk_infotech_wk3/CN/Y2013/V/I4/54
[1] Bauer D, Segond F, Zaenen A. LOCOLEX: The Translation Rolls off Your Tongue[C]. In: Proceedings of ACH-ALLC, Santa-Barbara, California, USA. 1995.
[2] Grefenstette G. Comparing Two Language Identification Schemes[C]. In: Proceedings of the 3rd International Conference on Statistical Analysis of Textual Data, Rome, Italy. 1995.
[3] 冯冲, 黄河燕, 陈肇雄, 等. 基于字符层马尔科夫模型的多语种识别[J]. 计算机科学, 2006,33(1): 226-228. (Feng Chong, Huang Heyan, Chen Zhaoxiong, et al. Multiple Language Identification Based on Character-level Markov Models[J]. Computer Science, 2006,33(1): 226-228.)
[4] Dunning T. Statistical Identification of Language[R]. Technical Report CRL MCCS-94-273. Computing Research Laboratory, New Mexico State University, 1994.
[5] Pingali P, Varma V. Multi-lingual Indexing Support for CLIR Using Language Modeling[J]. IEEE Data Engineering Bulletin, 2007,30(1): 70-85.
[6] Makin R, Pandey N, Pingali P, et al. Experiments in Cross-lingual IR Among Indian Languages[C]. In: Proceedings of the International Workshop on Cross Language Information Processing(CLIP), Genova,Italy. 2007.
[7] Nguyen D T, Nguyen C T. Cross-lingual Information Retrieval Model for Vietnamese-English Websites[C]. In: Proceedings of the 2nd International Conference on Computer Modeling and Simulation (ICCMS ’10). 2010: 254-257.
[8] Shannon C E. Prediction and Entropy of Printed English[J]. Bell System Technical Journal, 1951,30:50-64.
[9] 李继锋, 刘群. 基于N-Gram模型的高速汉字编码识别系统[J]. 计算机工程与应用, 2004,40(3):39-41,177. (Li Jifeng, Liu Qun. N-Gram Based High Speed Chinese Encoding Recognizing System[J]. Computer Engineering and Applications, 2004,40(3): 39-41,177.)
[10] Torres-Carrasquillo P A, Reynolds D A, Jr Deller J R. Language Identification Using Gaussian Mixture Model Tokenization[C]. In: Proceedings of the IEEE International Conference on Acoustics, Speech, and Signal Processing (ICASSP). 2002: 757-760.
[11] Schmitt J C. Trigram-based Method of Language Identification: United States, US5062143 A[P]. 1991-10-29.
[12] 郑敏. 跨语言信息检索的理论与实践[J]. 情报理论与实践, 2003, 26(3):223-226. (Zheng Min. The Theory & Application of Cross-language Information Retrieval[J]. Information Studies: Theory & Application, 2003, 26(3):223-226.)
[13] Niels J, Thomas M. Different Indexing Strategies for Multilingual Web Retrieval: Experiments with the EuroGOV Corpus[C]. In: Proceedings of the 17th Conference on Hypertext and Hypermedia (ERTEXT ’06), Odense, Denmark. 2006: 169-170.
[14] 林伟, 柳荣其, 徐熙. 一种基于N-Gram的垃圾邮件过滤方法研究[J]. 计算机应用与软件, 2010,27(2):121-123.(Lin Wei, Liu Rongqi, Xu Xi. On Approach of Spam Filtering Based on N-Gram[J]. Computer Applications and Software, 2010,27(2):121-123.)
[15] 赵珀璋, 徐力. 计算机中文信息处理(下册)[M].北京: 中国宇航出版社, 1989. (Zhao Pozhang, Xu Li. Computer-based Chinese Information Processing[M]. Beijing: China Astronautic Publishing House, 1989.)
[16] ODP(Open Directory Project) [EB/OL]. [2012-05-09]. http://baike.baidu.com/view/5069.htm#1.
[17] ODP_emoz[EB/OL]. [2012-05-09]. http://www.dmoz.org/docs/en/about.htm.
[18] 开放式目录[EB/OL]. [2012-05-09]. http://zh.wikipedia.org/wiki/开放式目录. (Open Directory[EB/OL]. [2012-05-09]. http://zh.wikipedia.org/wiki/开放式目录.)
[19] 世界语系的概要[EB/OL]. [2012-05-09]. http://zh.wikipedia.org/zh-cn/语言. (The Essentials of World Language Family[EB/OL]. [2012-05-09]. http://zh.wikipedia.org/zh-cn/语言.)
[20] 芒·牧林. 古突厥文来源新探[C].见: 中国民族古文字研究会第七次学术研讨会论文集, 北京. 2004.(Mang·Mulin. A New Thought on the Origin of Ancient Turkic[C]. In: Proceedings of the 7th Seminar of Society of Ancient Chinese National Characters, Beijing, China. 2004.).
[1] 陈杰,马静,李晓峰. 融合预训练模型文本特征的短文本分类方法*[J]. 数据分析与知识发现, 2021, 5(9): 21-30.
[2] 周泽聿,王昊,赵梓博,李跃艳,张小琴. 融合关联信息的GCN文本分类模型构建及其应用研究*[J]. 数据分析与知识发现, 2021, 5(9): 31-41.
[3] 余本功,朱晓洁,张子薇. 基于多层次特征提取的胶囊网络文本分类研究*[J]. 数据分析与知识发现, 2021, 5(6): 93-102.
[4] 王艳, 王胡燕, 余本功. 基于多特征融合的中文文本分类研究*[J]. 数据分析与知识发现, 2021, 5(10): 1-14.
[5] 唐晓波,高和璇. 基于关键词词向量特征扩展的健康问句分类研究 *[J]. 数据分析与知识发现, 2020, 4(7): 66-75.
[6] 王思迪,胡广伟,杨巳煜,施云. 基于文本分类的政府网站信箱自动转递方法研究*[J]. 数据分析与知识发现, 2020, 4(6): 51-59.
[7] 徐月梅,刘韫文,蔡连侨. 基于深度融合特征的政务微博转发规模预测模型*[J]. 数据分析与知识发现, 2020, 4(2/3): 18-28.
[8] 徐彤彤,孙华志,马春梅,姜丽芬,刘逸琛. 基于双向长效注意力特征表达的少样本文本分类模型研究*[J]. 数据分析与知识发现, 2020, 4(10): 113-123.
[9] 余本功,曹雨蒙,陈杨楠,杨颖. 基于nLD-SVM-RF的短文本分类研究*[J]. 数据分析与知识发现, 2020, 4(1): 111-120.
[10] 聂维民,陈永洲,马静. 融合多粒度信息的文本向量表示模型 *[J]. 数据分析与知识发现, 2019, 3(9): 45-52.
[11] 邵云飞,刘东苏. 基于类别特征扩展的短文本分类方法研究 *[J]. 数据分析与知识发现, 2019, 3(9): 60-67.
[12] 秦贺然,刘浏,李斌,王东波. 融入实体特征的典籍自动分类研究 *[J]. 数据分析与知识发现, 2019, 3(9): 68-76.
[13] 陈果,许天祥. 基于主动学习的科技论文句子功能识别研究 *[J]. 数据分析与知识发现, 2019, 3(8): 53-61.
[14] 余本功,陈杨楠,杨颖. 基于nBD-SVM模型的投诉短文本分类*[J]. 数据分析与知识发现, 2019, 3(5): 77-85.
[15] 谭章禄,王兆刚,胡翰. 一种基于χ2统计的特征分类选择方法研究*[J]. 数据分析与知识发现, 2019, 3(2): 72-78.
Viewed
Full text


Abstract

Cited

  Shared   
  Discussed   
版权所有 © 2015 《数据分析与知识发现》编辑部
地址:北京市海淀区中关村北四环西路33号 邮编:100190
电话/传真:(010)82626611-6626,82624938
E-mail:jishu@mail.las.ac.cn