用于双语术语抽取的专业领域中英文可比语料库构建
康小丽1, 章成志2
1.南昌大学图书馆 南昌 330031
2.南京理工大学信息管理系 南京 210094
摘要

面向双语术语抽取这一应用目标,提出专业领域可比语料库的构建方案并进行实验论证。针对给定的主题领域分别进行中英文专业语料的采集,从中分别获取中英文关键词,根据词语共现统计获取该主题领域的其他相关关键词;以这些关键词作为查询入口,通过学术搜索引擎从网络获取候选可比语料;对可比语料进行定量评估,以剔除不符合要求的语料,最终得到特定主题领域的可比语料库。

关键词: 可比语料库; 语料库构建; 双语术语抽取
Chinese-English Comparable Corpus Construction for Bilingual Terminology Extraction
Kang Xiaoli1, Zhang Chengzhi2
1.Library of Nanchang University, Nanchang 330031, China
2.Department of Information Management, Nanjing University of Science and Technology, Nanjing 210094, China
Abstract

In this paper, the process of building comparable corpus in special domain for bilingual terminology is designed. Firstly, bilingual sample corpus in a special domain is collected, and keywords are extracted from the sample corpus based on word co-occurrence method. Then, these keywords are used to be a query to a scholar search engine, and the searched result is used to be candidate comparable corpus. Finally, the comparable corpus in the special domain is obtained after filtering noise documents by quantitative evaluation.

Keyword: Comparable corpus; Corpus construction; Bilingual terminology extraction
1 引 言

可比语料库的研究主要源于平行语料库的稀缺。平行语料库是获取翻译等价对、双语词典或双语术语词典的主要依据之一,但平行语料库翻译文本要受翻译质量以及源语文本的影响[ 1]。可比语料库能克服该限制,但与基于平行语料抽取翻译等价对相比,从可比语料库中抽取翻译等价要困难得多,准确度较低。可比语料库的建设要求对两种语言文本进行控制,只有相似度高的两种语言文本才能达到良好的应用效果,可比语料库才能作为平行语料库的一种补充得到应用。

可比语料库的构建最终都是面向应用,例如跨语言信息检索[ 2, 3]、跨语言文本分类[ 4]、机器翻译[ 5]等。双语术语抽取作为自然语言处理领域较基础的应用研究,将进一步服务于双语术语词典编撰、机器翻译、跨语言信息检索等领域。

目前针对专业领域的中英文可比语料构建的研究还比较少。本文设计了面向双语术语抽取应用的专业领域中英文可比语料库构建方案,以某一主题进行专业领域中英文可比语料的构建,并进行可比语料的评估。

2 相关研究工作概述

近年来,Talvensari等[ 2]、Sheridan等[ 6]、Braschler等[ 7]、Leturia等[ 8]从不同方面对可比语料进行过研究。Sheridan等针对跨语言信息检索构建可比语料,其生语料来源于瑞士新闻通讯社SDA,选取了1994年6月17日至1995年5月25日之间、分别用德语与意大利语报道的新闻;通过文档描述(主题内容、地点等)以及出版日期两类元素对两种语言的文档进行简单的对齐[ 6]。SDA的多语种的新闻报道不是互为翻译的,但是却极为相似,对齐相对容易。Braschler等也选取SDA的新闻报道进行文档对齐,并用于跨语言信息检索。与Sheridan等工作不同,Braschler等选择SDA的德语文档与美国联合通讯社(美联社AP)英文文档;另外他们通过更多层次的对齐技术来提高可比语料的质量,例如:对利用网络免费获取的双语词表对高频词及低频词的过滤、文档日期的规范化、设定文档相似度判断的阈值[ 7]。Talvensari等同样也选择SDA与AP的新闻报道构建可比语料库,但语料对齐不再仅停留在文档特征上,而是更深入到了词汇层面;他们的构建思路为:根据相对平均词频(RATF)[ 9]从源语言文档中抽取关键词,然后使用基于词典的查询翻译系统(UTACLIR)[ 10]将抽取的关键词翻译成目标语言形成检索词表D,再以D中词为检索词使用Lemur检索系统[ 11]在目标语言文档中进行检索,最后设定相似度阈值,选取排名前N个文档与源语言文档构成可比语料。

值得注意是,Sheridan等、Braschler等是为研究跨语言信息检索而构建可比语料库,而Talvensari等是为构建可比语料库而使用跨语言信息检索方法,如跨语言信息检索技术中的局部相关反馈法[ 12]、伪相关反馈法[ 13]

仅依赖于新闻机构获取语料[ 14]仍不能满足需求,随着网络资源的丰富,Leturia等和Talvensari等开始利用搜索引擎,从网络自动获取可比语料[ 8, 15],获取方法与BootCat[ 16]类似。这种类型方法的提出,加快了可比语料库的构建速度。

Sheridan等、Braschler等都针对跨语言信息检索构建了新闻可比语料。但是新闻语料通常是某一事件的报道,内容简短,且为大众读物,通俗易懂,一般很少包含专业术语。与新闻领域不同的是,专业领域文档包含了大量的专业术语。因此构建可比语料,可以将其用于双语术语抽取[ 1, 17, 18, 19, 20]。本文面向中英文双语术语抽取应用,提出专业领域中英文可比语料库构建方案并进行实验论证。

3 专业领域中英文可比语料库的构建

专业领域中英文可比语料库的构建包括语料的采集与加工。

3.1 可比语料采集方案设计

能够有效地应用于某一具体任务是语料采集的目标之一。本文是面向中英文双语术语抽取应用,采集中英文语料,最终目的是抽取双语术语对。因此可比语料的要求为:两种语料文本含有尽可能多的翻译等价对。主题越相似,术语对也就越准确。然而在保证术语对的准确性的同时还需兼顾语料库的规模,以期通过某一主题的样本语料获取该主题下的子主题,从而进行可比语料库获取。

本文设计的语料采集方案如图1所示:

图1 可比语料采集流程

(1)样本语料采集:根据选定主题获取样本语料,为了保证样本语料的专业性,并且能直接从样本语料中获取关键词,选择中英文期刊数据库作为检索数据源。以给定中文主题词作为查询式,从中文期刊数据库中采集论文题录信息作为中文样本语料,以给定中文主题词对应的英文词作为查询式,从英文期刊数据库采集论文题录信息作为英文样本语料。

(2)中英文关键词词典构建: 分别从中英文样本语料中获取中英文关键词,得到候选中文关键词词表、英文关键词词表。通过共现词频统计结合上下位词判定的方法,获取优化的中文关键词词表、优化的中文关键词词表。

(3)可比语料构建:为了便于进行大规模的专业语料采集,将中英文关键词表中的每个关键词作为查询式,提交学术搜索引擎Google Scholar进行检索,并使用网页抓取工具下载结果,形成中英文可比语料库。

(4)可比语料评估:通过文档特征与相似度阈值的控制,过滤不符合要求的语料,最终得到特定主题领域的可比语料库。

3.2 给定领域的中英文关键词词表确定与优化

选择“机器翻译”这一主题进行中英文可比语料库的构建。选定CNKI数据库作为中文样本语料的数据来源,ISI Web of Knowledge数据库作为英文样本语料的数据来源。中文检索词为“机器翻译”,相应的英文检索词为 “Machine Translation”。另外,对于一些主题不相关而被检索出来的文档进行了人工过滤。中英文样本语料采集结果如表1所示:

表1 样本语料

由于“机器翻译”主题下存在多个子主题,例如“统计机器翻译”、“机器翻译模型”等。仅使用关键词“机器翻译”进行检索,并不能获取“机器翻译”这一主题领域的所有文档。为了使样本语料尽可能涵盖“机器翻译”主题领域内的所有文档,需要寻找更多的“机器翻译”下的子主题词。将这些子主题词作为查询词进行检索,返回得到更多相关主题的语料。

通过CNKI、ISI Web of Knowledge数据库的检索得到中文关键词共现、英文关键词共现样例,如表2表3所示:

表2 中文关键词检索结果(样例)
表3 英文关键词检索结果(样例)

根据Sanderson等[ 21]提出的概念层次判断方法,将主题词的下位词作为子主题词。通过对样本语料的关键词进行提取,统计各关键词与关键词“机器翻译”的共现频次,即:将所有的关键词在同一数据库中进行检索,假设某一个关键词的检索结果多于“机器翻译”的检索结果,那么将这一关键词作为“机器翻译”的上位词而予以剔除;反之则为“机器翻译”的下位词,则作为“机器翻译”的子主题词。为了保证采集语料尽可能符合给定主题,选取与其共现频次排前10的关键词,作为其子主题词。

表2表3可以看到:机器翻译的检索结果为1 633条,自然语言处理的检索结果为2 287条,统计机器翻译的检索结果为117条。由于2 287>1 633,因此认为自然语言处理是机器翻译的上位词,予以剔除。由于117<1 633,则认为统计机器翻译是机器翻译的上位词。

通过优化后的中、英文关键词词表,考虑词语互译关系,选择前10对翻译等价对作为最终优化后的中英文关键词词对,然后分别提交Google Sholar进行检索,结果如表4所示:

表4 中英文关键词词对及其检索结果(单位:篇)
3.3 可比语料的加工

语料的加工包括文本整理与文本描述。文本整理是对文本进行统一的格式规范。由于语料分别在主题及子主题下收集,故应分别在相应主题下进行文档篇章的对齐。因此命名规则为:<语言种类><所在主题的序号><在该主题文档中的序号>。其中“机器翻译”“Machine Translation”所在主题的序号为0,中文用“CH”表示,英文用“EN”表示。例如:CH00001表示“机器翻译”中的第一篇文档。EN10012表示“Word Alignment”中的第12篇文档。

文本描述包括词语切分与词性标注。可比语料库构建旨在获取双语术语对,因此对文档的加工处理定位于词语层面,需要对各个文档进行词语切分标注。本实验使用中国科学技术信息研究所语言与知识技术研究室开发集成的句法分析系统开发及验证平台的预处理模块进行中文的切分词以及中英文词性标注[ 22]

4 可比语料的定量评价

从可比语料的总体特征、候选可比语料与样本语料的相似度两个方面进行可比语料的定量评估。

4.1 总体特征定量比较

可比语料是基于某些特征值(话题、语料库规模、文本类型、来源、视角、语言、作者等)[ 23]用多种语言写成的文档。在运用一些可以定性化把握的特征,如主题、时间进行语料可比程度的初步评判外,还应该结合定量化的方法全面综合考虑度量文本的可比程度,例如,文本总体特征比较的方法[ 20],这些特征包括文件的字节数、形符数(Tokens,指文本一共有多少个词)、类型数(Types,指文本一共有多少个不同的词形)、平均词长、句子数、平均句长、句长标准差、段落数、平均段落长、段落长标准差[ 24]。本文选择字节数、形符数等指标,分别计算可比语料所包含的中文与英文语料的特征值,结果如表5表6所示:

表5 中文样本语料特征值
表6 英文样本语料特征值

表5得出中文语料特征值的一个取值范围(小数部分四舍五入):字节数[291 949,367 999]、形符数[251,297]、字符数[6 253,7 715]、句子数[181,233]、句长[39,51]、段落数[22,30]、段落长[348,489]。从表6得出英文语料特征值的一个取值范围(小数部分四舍五入):字节数[432 236,514 936]、形符数[4 940,5 998]、字符数[27 281,36 007]、句子数[621,733]、句长[42,52]、段落数[38,50]、段落长[686,916]。

根据以上特征值取值范围,对不在取值范围之内的文档进行过滤,过滤后的结果如表7所示。通过语料总体特征值计算,得到浅层次上的中英可比语料。

表7 文本总体特征值过滤后的结果(单位:篇)
4.2 相似度计算

本实验采用向量空间模型表示文档,利用余弦相似度计算公式计算各个文本与样本语料的相似度[ 25],剔除相似度不在设定阈值范围内的语料。具体实验步骤如下:

(1)将样本语料进行词语切分、词性标注等加工处理;

(2)构建样本语料向量空间,计算其中心向量值;

(3)将处理好的新文档向量值与样本语料中心向量值进行余弦相似度计算;

(4)设定实验阈值,如果步骤(3)的计算结果达到这一阈值的文档将被采纳,否则被剔除;

(5)重复上述过程,直至所有文档计算完毕。

为保证可比语料内的文档具有较高的相关度,剔除与样本语料相似度值低于0.8的文档,得到最终的专业领域中英文可比语料,各主题分布如表8所示:

表8 可比语料构建的最终结果(单位:篇)

从数据结果可以看出,在通过语料总体特征值计算后,得到的中英文语料分别占初始语料总数的66.85%、57.2%,但是在通过候选可比语料与样本语料的相似度计算后,中文语料占初始语料总数的51.57%,而英文语料占初始语料总数的百分比迅速降至36.09%。从中文语料的测试结果可以看出本实验方法具有一定的可行性,可比程度达到了50%以上,但是获取的英文语料相关性却不容乐观。基于种子词方法存在一定的局限性:种子词的质量直接影响生成的可比语料的质量。一方面,目前部分期刊论文中的标引关键词尚不规范,存在漏标或错标的情况;另一方面,种子词本身的文献覆盖度有限,通过共现统计的方法可以进一步扩展种子词数量,提高种子词的文献覆盖率。

5 结 论

本文通过给定中英文主题词词对,采集期刊数据库得到样本语料,并从其中抽取子主题词,以子主题词作为查询式检索学术搜索引擎获得更大规模的可比语料。通过语料的总体特征与相似度过滤方法,最终得到专业领域的中英文可比语料。本文进一步的工作主要包括三个方面:

(1)通过跨语言文档相似度计算,得到可比语料中不同语言文档集合的总体相似度,从而直接评价可比语料的可比程度;

(2)对已构建的可比语料库进行应用评价,依据可比语料抽取双语术语,从抽取效果来间接评估可比语料的质量;

(3)提高样本语料的代表性,即扩大样本语料对主题领域的覆盖面。

参考文献
[1] 孙广范, 宋金平, 袁琦, . 中英可比语料库中翻译等价对抽取方法研究[J]. 计算机工程与应用, 2007, 43(32): 44-46.
(Sun Guangfan, Song Jinping, Yuan Qi, et a1. Research on Extraction of Translation Equivalents from Chinese-English Comparable Corpus[J]. Computer Engineering and Applications, 2007, 43(32): 44-46. ) [本文引用:2] [CJCR: 0.457]
[2] Talvensaari T, Laurikkala J, Jarvelin K, et al. Creating and Exploiting a Comparable Corpus in Cross- Language Information Retrieval[J]. ACM Transactions on Information Systems, 2007, 25(1): 322-334. [本文引用:2] [JCR: 1.07]
[3] Talvensaari T, Laurikkala J, Jarvelin K, et al. A Study on Automatic Creation of a Comparable Document Collection in Cross-Language Information Retrieval[J]. Journal of Documentation, 2006, 62(3): 372-387. [本文引用:1]
[4] Gliozzo A, Strapparava C. Exploiting Comparable Corpora and Bilingual Dictionaries for Cross-Language Text Categorization [C]. In: Proceedings of the 21st International Conference on Computational Linguistics and the 44th Annual Meeting of the Association for Computational Linguistics. Stroudsburg, PA: Association for Computational Linguistics, 2006: 553-560. [本文引用:1]
[5] Do T N D, Le V B, Bigi B, et al. Mining a Comparable Text Corpus for a Vietnamese-French Statistical Machine Translation System[C]. In: Proceedings of the 4th Workshop on Statistical Machine Translation. Stroudsburg, PA: Association for Computational Linguistics, 2009: 165-172. [本文引用:1]
[6] Sheridan P, Ballerini J P. Experiments in Multilingual Information Retrieval Using the SPIDER System [C]. In: Proceedings of the 19th Annual International ACM SIGIR Conference on Research and Development in Information Retrieval. New York : Association for Computing Machinery, 1996: 58-65. [本文引用:2]
[7] Braschler M, Schäuble P. Multilingual Information Retrieval Based on Document Alignment Techniques [C]. In: Proceedings of the 2nd European Conference on Research and Advanced Technology for Digital Libraries. London, UK: Springer-Verlag, 1998: 183-197. [本文引用:2]
[8] Leturia I, Vicente I S, Saralegi X. Search Engine Based Approaches for Collecting Domain-Specific Basque-English Comparable Corpora from the Internet [C]. In: Proceedings of the 5th Web as Corpus Workshop (WAC5). San Sebastian: Elhuyar Fundazioa, 2009: 53-61. [本文引用:2]
[9] Pirkola A, Leppanen E, Jarvelin K. The RATF Formula (Kwok’s Formula): Exploiting Average Term Frequency in Cross-Language Retrieval[J/OL]. Information Research, 2002, 7(2). [2010-01-05]. http://InformationR.net/ir/7-2/infres72.html. [本文引用:1]
[10] Keskustalo H, Hedlund T, Airio E. UTACLIR-General Query Translation Framework for Several Language Pairs[C]. In: Proceedings of the 25th Annual International ACM SIGIR Conference on Research and Development in Information Retrieval. New York : Association for Computing Machinery, 2002: 448. [本文引用:1]
[11] Lemur. The Lemur Toolkit for Language Modeling and Information Retrieval [EB/OL]. (2009-12-21). [2010-01-05]. http://www.lemurproject.org/. [本文引用:1]
[12] Collier N, Kumano A, Hirakawa H. An Application of Local Relevance Feedback for Building Comparable Corpora from News Article Matching[J]. Natl Inst Inform, 2003(5): 9-23. [本文引用:1]
[13] Rogati M, Yang Y M. CMU PRF Using a Comparable Corpus: CLEF Working Notes [C]. In: Proceedings of Working Notes for the Cross-Language Evaluation Forum(CLEF 2001) Workshop. Berlin: Springer-Verlag, 2001: 81-86. [本文引用:1]
[14] Layiosa-Braithwaits S. Ensino Das Linguas Vivas no Superior em Portugal [M]. Porto: Faculdade de Letras da Universidade do Porto, 1999: 307-317. [本文引用:1]
[15] Talvensaari T, Pirkola A, Jaervelin K, et al. Focused Web Crawling in the Acquisition of Comparable Corpora[J]. Information Retrieval, 2008, 11(5): 427-445. [本文引用:1] [JCR: 0.63]
[16] Baroni M, Bernardini S. BootCaT: Bootstrapping Corpora and Terms from the Web[C]. In: Proceedings of International Conference on Language Resources and Evaluation(LREC2004). Paris: European Language Resources Association, 2004: 1313-1316. [本文引用:1]
[17] Rapp R. Identifying Word Translations in Non-parallel Texts[C]. In: Proceedings of the 33rd Annual Meeting on Association for Computational Linguistics. Stroudsburg, PA: Association for Computational Linguistics, 1995: 320-322. [本文引用:1]
[18] Tanaka K, Iwasaki H. Extraction of Lexical Translations from Non-aligned Corpora[C]. In: Proceedings of the 16th International Conference on Computational Linguistics. Stroudsburg, PA: Association for Computational Linguistics, 1996: 580-585. [本文引用:1]
[19] Shahzad I, Ohtake K, Masuyama S, et al. Identifying Translations of Compound Nouns Using Non-aligned Corpora[C]. In: Proceedings of the Workshop on Multilingual Information Processing and Asian Language Processing. San Francisco: Morgan Kaufmann Publishers, 1999: 108-113. [本文引用:1]
[20] Fung P. A Statistical View on Bilingual Lexicon Extraction: From Parallel Corpora to Non-parallel Corpora[C]. In: Proceedings of the 3rd Conference of the Association for Machine Translation in the Americas on Machine Translation and the Information Soup. LNAI 1529, Berlin: Springer-Verlag, 1998: 1-17. [本文引用:2]
[21] Sand erson M, Croft B. Deriving Concept Hierarchies from Text [C]. In: Proceedings of the 22nd International ACM SIGIR Conference on Research and Development in Information Retrieval. New York: Association for Computing Machinery, 1999: 206-213. [本文引用:1]
[22] 祝清松, 王惠临. 中英文句法分析系统及验证平台的设计与实现[J]. 现代图书情报技术, 2010 (2): 38-43.
(Zhu Qingsong, Wang Huilin. A Syntactic Analysis System and Verification Platform for Chinese and English[J]. New Technology of Library and Information Service, 2010(2): 38-43. ) [本文引用:1] [CJCR: 1.073]
[23] Pearson J. Terms in Context[M]. Admsterdam: John Benjamins Publishing Company, 1998: 123-124. [本文引用:1]
[24] 夏云, 李德凤. 可比语料量化比较分析与应用文体翻译——一项基于自建小型语料库的研究[C]. 见: 第18届世界翻译大会论文集. 北京: 外文出版社, 2008: 561-566.
(Xia Yun, Li Defeng. Quatitative Comparative Analysis of Comparable Corpus and Translation of Practical Style-A Research Based on Self-built Small Corpus[C]. In: Proceedings of the 18 FIT World Congress Proceedings. Beijing: Foreign Languages Press, 2008: 561-566. ) [本文引用:1]
[25] Salton G, McGill M J. Introduction to Modern Information Retrieval [M]. New York: McGraw Hill Book Company, 1983: 201-203. [本文引用:1]