Please wait a minute...
Advanced Search
现代图书情报技术  2009, Vol. 25 Issue (12): 47-51     https://doi.org/10.11925/infotech.1003-3513.2009.12.09
  情报分析与研究 本期目录 | 过刊浏览 | 高级检索 |
英汉双语句子级平行语料库自动构建*
王东波   苏新宁
(南京大学信息管理系   南京 210093)
Automatic Building of Sentence-Level English-Chinese Parallel Corpus
Wang Dongbo   Su Xinning
(Department of Information Management, Nanjing University, Nanjing 210093, China)
全文: PDF (512 KB)  
输出: BibTeX | EndNote (RIS)      
摘要 

探讨如何基于网络自动构建大规模英汉双语句子级平行语料库的问题,即确定抓取网站和制定相应的抓取底表;利用网络抓取工具Wget自动获取含有英汉双语句子对的网页;对从网页中提取出来的英汉双语句子对进行后续加工以及基于条件随机场对汉语句子进行自动分词。最后从675 308个网页中共获取1 017 963对英汉双语句子对并把句子对导入到数据库中完成英汉双语句子级平行语料库的构建。

服务
把本文推荐给朋友
加入引用管理器
E-mail Alert
RSS
作者相关文章
王东波
苏新宁
关键词  英汉平行语料库Wget抓取底表条件随机场    
Abstract

This article gives an account of the steps of how to automatically build a large-scale sentence-level English-Chinese parallel corpus based on websites. Specifically speaking, the following questions are addressed: the criterions which are used to grab websites are set and words library is worked out; the websites are automatically grabbed by making use of the tool ‘Wget’; the English-Chinese parallel sentences extracted from websites are subsequently processed and the Chinese sentences are segmented based on Conditional Random Field. Finally, the building of English-Chinese parallel corpus is completed which includes 1 017 963 English-Chinese parallel sentences stored in database which are automatically extracted from 675 308 websites.

Key wordsEnglish-Chinese parallel corpus    Wget    Words library    Conditional random field
收稿日期: 2009-11-30      出版日期: 2009-12-25
ZTFLH: 

TP391

 
基金资助:

*本文系国家社会科学基金青年资助项目“对双语语料库介入下学生译者翻译能力的计算机辅助实验研究”(项目编号:09CYY040)的研究成果之一。

通讯作者: 王东波     E-mail: jisuanyuyan@163.com
作者简介: 王东波,苏新宁
引用本文:   
王东波,苏新宁. 英汉双语句子级平行语料库自动构建*[J]. 现代图书情报技术, 2009, 25(12): 47-51.
Wang Dongbo,Su Xinning. Automatic Building of Sentence-Level English-Chinese Parallel Corpus. New Technology of Library and Information Service, 2009, 25(12): 47-51.
链接本文:  
https://manu44.magtech.com.cn/Jwk_infotech_wk3/CN/10.11925/infotech.1003-3513.2009.12.09      或      https://manu44.magtech.com.cn/Jwk_infotech_wk3/CN/Y2009/V25/I12/47

1] 王克非.双语对应语料库研制与应用[M].北京:外语教学与研究出版社,2004:232-233.
[2] 程岚岚.基于正则表达式的大规模网页术语对抽取研究[J].情报杂志,2008,27(11):62-63.
[3] Zhang  Y, Vines  P.Using the Web for Automated Translation Extraction in Cross-language Information Retrieval[C]. In: Proceedings of SIGIR. Sheffield: University of Sheffield, 2004: l62-167.
[4] Huang F,Zhang Y,Vogel S. Mining Key Phrase Translations from Web Corpora[C]In:Proceedings of the Conference on Human Language Technology and Empirical Methods in Natural Language Processing,Vancouver, British Columbia, Canada. Morristown, NJ, USA: Association for Computational Linguistics,  2005:483 - 490.
[5] 张永臣,孙乐,李飞,等.基于Web数据的特定领域双语词典抽取[J].中文信息学报,2006,20(2):16-23.
[6] 王丽,王同顺.中国英语学习者语用标记语习得研究——一项基于SECCL和BNC的实证研究[J].现代外语,2008,31(3):294.
[7] Wget Manual[EB/OL].[2009-12-06].http://www.gnu.org/software/wget/manual/wget.html.
[8] Ma X, Liberman M. BITS:A Method for Bilingual Text Search over the Web[C]. In: Proceedings of Machine Translation Summit VII. Singapore: National University of Singapore,1999.
[9] 章成敏,许鑫,章成志.条件随机场标引模型的性能影响因素分析[J].现代图书情报技术,2008 (6):34-40.
[10] 李双龙,刘群.基于条件随机场的汉语分词系统[J].软件天地,2006(10):178-179.
[11] The Features of CRF++[EB/OL].[2009-12-06]. http://crfpp.sourceforge.net/#features.
[12] Definition of  MySQL[EB/OL].[2009-12-06]. http://en.wikipedia.org/wiki/MySQL.

[1] 王昊, 林克柔, 孟镇, 李心蕾. 文本表示及其特征生成对法律判决书中多类型实体识别的影响分析[J]. 数据分析与知识发现, 2021, 5(7): 10-25.
[2] 成彬,施水才,都云程,肖诗斌. 基于融合词性的BiLSTM-CRF的期刊关键词抽取方法[J]. 数据分析与知识发现, 2021, 5(3): 101-108.
[3] 赵平,孙连英,涂帅,卞建玲,万莹. 改进的知识迁移景点实体识别算法研究及应用*[J]. 数据分析与知识发现, 2020, 4(5): 118-126.
[4] 李成梁,赵中英,李超,亓亮,温彦. 基于依存关系嵌入与条件随机场的商品属性抽取方法*[J]. 数据分析与知识发现, 2020, 4(5): 54-65.
[5] 黄菡,王宏宇,王晓光. 结合主动学习的条件随机场模型用于法律术语的自动识别*[J]. 数据分析与知识发现, 2019, 3(6): 66-74.
[6] 肖连杰,孟涛,王伟,吴志祥. 基于深度学习的情报分析方法识别研究 * ——以安全情报领域为例[J]. 数据分析与知识发现, 2019, 3(10): 20-28.
[7] 唐慧慧, 王昊, 张紫玄, 王雪颖. 基于汉字标注的中文历史事件名抽取研究*[J]. 数据分析与知识发现, 2018, 2(7): 89-100.
[8] 王东波, 吴毅, 叶文豪, 刘睿伦. 多特征知识下的食品安全事件实体抽取研究*[J]. 数据分析与知识发现, 2017, 1(3): 54-61.
[9] 张越, 王东波, 朱丹浩. 面向食品安全突发事件汉语分词的特征选择及模型优化研究*[J]. 数据分析与知识发现, 2017, 1(2): 64-72.
[10] 张琳, 秦策, 叶文豪. 基于条件随机场的法言法语实体自动识别模型研究*[J]. 数据分析与知识发现, 2017, 1(11): 46-52.
[11] 王密平,王昊,邓三鸿,吴志祥. 基于CRFs的冶金领域中文专利术语抽取研究*[J]. 现代图书情报技术, 2016, 32(6): 28-36.
[12] 贺惠新,刘丽娟. 主动学习的科技文献研究对象标引体系研究*[J]. 现代图书情报技术, 2016, 32(3): 67-73.
[13] 隋明爽,崔雷. 结合多种特征的CRF模型用于化学物质-疾病命名实体识别[J]. 现代图书情报技术, 2016, 32(10): 91-97.
[14] 段宇锋, 朱雯晶, 陈巧, 刘伟, 刘凤红. 条件随机场与领域本体元素集相结合的未登录词识别研究[J]. 现代图书情报技术, 2015, 31(4): 41-49.
[15] 姜春涛. 自动标注中文专利的引文信息[J]. 现代图书情报技术, 2015, 31(10): 81-87.
Viewed
Full text


Abstract

Cited

  Shared   
  Discussed   
版权所有 © 2015 《数据分析与知识发现》编辑部
地址:北京市海淀区中关村北四环西路33号 邮编:100190
电话/传真:(010)82626611-6626,82624938
E-mail:jishu@mail.las.ac.cn