英汉环保领域平行语料的句对齐与再对齐
熊文新
北京外国语大学中国外语教育研究中心 北京 100089
摘要

从资源建设角度对现有基于统计的句对齐工具进行用户易用性及性能比较,认为Champollion比较适合英汉双语句对齐处理。借鉴“基于转换错误驱动”的思路,对Champollion对齐错误结果利用语言学规则实施再对齐,使句对齐效果进一步提升。以英汉环保领域专业文本为例,句对齐的准确率从最初的88.74%上升至93.91%。这种结合基于统计对齐工具和语言学知识应用的对齐和再对齐处理方法在“分步骤按领域”建设大规模双语语料库的过程中具有普适性。

关键词: 英汉平行语料库; 环保文本; 句对齐; 再对齐; 基于转换错误驱动
Sentence Alignment and Re-Alignment for Environmental Protection Texts in English-Chinese Parallel Corpus
Xiong Wenxin
National Research Centre for Foreign Language Education, Beijing Foreign Studies University, Beijing 100089, China
Abstract

Sentence alignment is a crucial step for building parallel corpus. There are plenty of such tools available for constructing a language repository for machine translation systems. Based on the evaluation regarding user-friendly design and alignment quality, the performance of Champollion is superior to other mainstream open source tools in aligning English-Chinese parallel texts. Inspired by “transformation-based error-driven” strategy, the author makes a thorough linguistic analysis on the error output produced by Champollion, and proposes an error correction strategy which improves the precision rate dramatically. The realignment approach as a module attached to Champollion’s output can reach a precision rate 93.91% from baseline 88.74%, in the case of alignment of English-Chinese texts in the area of environmental protection. This alignment and realignment strategy combined statistics-based method with linguistic insights can be applied to other domains.

Keyword: English-Chinese parallel corpus; Environmental protection text; Sentence alignment; Re-Alignment; Transformation-based error-driven
1 引 言

双语平行语料库是一种宝贵的语言资源,各类机器翻译或计算机辅助翻译系统可以把它当作训练集或翻译记忆库[ 1, 2],外语学习者和翻译从业者能从中选取合适的翻译实例[ 3]。前提是对这些语料做过对齐加工处理。双语对齐的单位通常是句子,因为句子有明确的句末标点等形式标记作为边界,单位容易确认,句子长度适中,又具有一定的复现率。伴随网络发展和电子文本的不断增加,要从网上获取篇章级对应的双语文本并非难事,但要获得句对齐的语料却并不容易,往往需要经过特别的加工处理。通常情况下,语言资源要发挥作用,必须有足够的数量作保证。这样才可能从中发现统计规律。语料库建设工程量巨大,尤其双语语料库涉及两种及以上的语言,对资源建设者的语言要求将更高。

双语语料库分为平行(Parallel)和可比(Comparable)两类语料库[ 4],分别看作是原文和翻译文本构成的语料集以及各语种原生文本集。可比语料库的各类文本都是地道的原生语言,是理想的多语资源,但因语言之间的对应关系不易界定,实现对齐有难度,因此双语语料库建设主要还是平行语料库。

选择合适的句对齐工具对提高双语平行语料库质量、加快开发建设进度等有重要意义。本文试图解决双语平行语料库建设中的两个重要问题,即选择何种句对齐工具和如何结合语言学知识提高句对齐质量。

2 双语平行语料库的句对齐

双语平行语料库的句对齐吸引了统计机器翻译及计算机辅助翻译领域的广泛关注,也涌现出很多算法和实现工具,对促进语言资源的开发建设发挥了重要作用。自然语言及翻译的复杂性,决定了句对齐不可能一蹴而就。为提高句对齐质量,相继有一些融合不同处理策略的方法提出来,但这些策略大多是同质的,例如都采用频数统计。本文试图在基于统计的全自动对齐处理基础上,加载基于规则的语言学知识指导下的再对齐模块,使得句对齐能够落到实处。

2.1 平行语料库与自动句对齐策略

当前双语句对齐的策略有基于长度、基于词汇以及结合两者的混合方法。

(1)基于长度的方法源于一个朴素的观察:源语言较长的句子译成目标语时也较长。长度可以定义为句中词语数[ 5],也可以是字节数[ 6]。基于长度的英法语句对齐取得了较好的效果,但这种译文长度的比例关系是否稳定依然存疑。

(2)基于词汇的方法使用两种语言的词语互译信息,既可以直接利用已经建好的双语词典中的词条信息,也可以利用相近语言的同源词及形态信息等,还可以采取无词典策略,使用双语语料作为训练集,计算词语的对应概率[ 7],典型的开源系统有Giza++等[ 8]。引入对译词信息能提升句对齐的精度,但有些翻译文本根据上下文语境采用意译方法,未使用对译词,这就可能降低句对齐的召回率。此外,无词典方法可能由于语料或统计偏差造成词语误对应,影响句对齐效果。

(3)混合处理方法首先采用基于长度的方法,得到若干个可能的句对齐初始候选集,再利用基于词汇的方法检验所有候选集,挑选其中得分最高者作为最优句对。Utsuro等[ 9]所做的日英句对齐证明,混合方法比单纯任何一种方法效果都要好。一些语言学或非语言学的启发式信息,例如同源词、标点数字、由大写字母构成的专名以及在原文和译文同形式出现的字符串等,都可以充当锚点信息,为句对齐提供帮助[ 10]

2.2 基于错误驱动的再对齐策略

任何一个全自动句对齐系统都不可能做到百分之百的准确,因此有必要在对齐过程中实施分步走的技术路线。“基于转换、错误驱动”的方法利用语言学知识构造错误修正的规则模板[ 11],实际处理时将模板中的规则应用于训练语料执行相应的替换操作。每次将替换后的处理结果与训练语料标注好的答案比较,判断该规则的运行使结果优化还是恶化。如果改正确的结果数比改错的要多,就判定该规则有效,并对语料运用新规则,直到规则使用的改正效果收敛为止。这种处理既利用到了语言学专家知识,又有数据评估做支撑,成为自然语言处理统计和规则相结合的典范,即使在规模较小的训练集中也取得了较好的标注结果。

落实在本文研究任务的双语句对齐上,可以设想将自动句对齐的结果作为初始对齐,加入一个再对齐的修正模块,使之对初对齐结果的错误部分做进一步修订。该模块实际上是一个判断初对齐结果中的某个实例正确与否的分类问题,即给定某个(些)特定的形式特征作为条件,判断具有该特征的句对标注正确还是错误。如果确认标注正确则跳过,以保证修正模块不会降低系统已有的正确率;如果标注错误则执行规定的修正操作。这样最坏的情况是找出了所有错误但没有修改正确,最终依然是保持系统原有的正确率。但只要有一个错误结果得到修正,就能在已有结果的基础上使句对齐效果更好。

由于不存在一些显式的形式特征,能够整齐划一地区分出正确和错误,于是只能借鉴“错误驱动”的处理策略,在判别决策时,优先选取那些能够挑出尽可能多的对齐错误、对正确率提升作用最大的语言形式特征。

2.3 语言学规则引入的可行性探索

子语言(Sublanguage)是自然语言在限定领域存在的一种特殊语言现象[ 12],与宿主语言在语言使用特点方面表现不同,如可能有简化的语法特征、更小的词汇集合等。受此语言现象启发,自然语言处理界有意识控制语言自动处理难度的处理策略称为“受限语言”。

在大规模双语语料库建设过程中,按照受限语言的思路,采用“按领域分步骤”的策略,在每一个建设阶段,集中获取并处理某一领域的同类型电子文本,使任务简化[ 13]。这是一种在了解了自然语言的不同亚类具有不同语言特点的基础上,牺牲广度换取精度的处理策略。由于语料对齐的文本来自同一领域、同一语体,主题内容相似,文字表述相通,对训练集的语言学规则总结提炼将很容易泛化推广到语料全体,语言学的指导作用就更容易体现。通过累积不同阶段不同领域的语料文本,能够实现最终的大规模“全领域”双语语料库。当然采用受限语言处理策略,还需要考虑领域迁移(Domain Transfer)的适应性问题。

3 自动句对齐工具的选型

自动句对齐工具的开发推动了双语平行语料库的建设。本文对几款容易获得、能够直接使用的句对齐工具Hunalign、Champolloin、MS Aligner进行评述,以方便用户选型。

3.1 句对齐工具的易用性比较

(1)Champollion由宾州大学语言数据联盟研制[ 14],它是一个采用基于长度和基于词汇混合策略的自动句对齐系统。实施对齐时,Champollion主要以加载的双语词典中互译词为依据,同时借鉴信息检索TF-IDF概念,计算双语词语互译的相似性权重。在对译词信息不明的情况下,使用基于长度的方法作为补充。

(2)Hunalign是在构造400万句对、1亿2千万词语的匈牙利语-英语平行语料库时,由匈牙利技术与经济大学和匈牙利科学院语言学研究所研发[ 15]。由于匈牙利语和英语缺乏同源关系,难以利用英法语之间的同源词及形态标记,其基于词汇的处理策略更多采用词典对译词的方式。

(3)MS Aligner由微软研究院设计开发[ 16]。处理策略是首先采用基于长度的改良方法对语料预处理,得到初对齐结果;对初对齐句子使用改进的IBM I型翻译模型,训练出这些结果中的词语对齐概率;最后再利用这些词语对齐信息,重新对语料做句对齐。三种双语自动句对齐工具的易用性评估如表1所示:

表1 三种双语自动句对齐工具的易用性评估
尽管三种句对齐工具有各自的授权许可方式,但都开放了源代码,可免费用于非商业目的。三种工具都能跨平台直接运行,对输入文件没有过多格式和编码要求,无需太多文本预处理。对齐工具采用命令行,赋予不同参数调用,非专业技术人员都能很快上手。

3.2 句对齐效果的指标评估

以上三种工具都兼具基于长度和基于词汇的混合处理,但MS Aligner只输出1∶1句对,而在翻译文本中源语言和目标语言之间一对多、多对一的现象很普遍,因此以下仅比较Champollion和Hunalign的对齐效果。

“中外对话”(http://www.chinadialogue.net)网站就环保问题发布经翻译、编辑与审校的新闻报道及评述文章。这些文本领域专一,经过专业编写,可以视作特定领域有代表性的语料。本文实验包含35篇双语文章,有1 723个英语句子,2 106个汉语句子,分别使用以上两种工具进行对齐,测试指标为正确率、召回率和F值,结果如表2所示:

表2 Champollion和Hunalign的对齐效果对比
Champollion确定双语词是否互译,其加权策略采用信息检索的词频(TF)和文档分布频数(IDF)来模拟。由于实验文本的主题单一,写作规范,专业术语容易凸显出来,这种启发式信息比Hunalign单纯只利用词典的效果要好。根据工具易用性和性能效果的比较,Champollion是当前实施英汉双语句对齐处理较好的选择工具,清华大学的实验也证明了这一点[ 17]

4 双语平行语料的再对齐
4.1 Champollion的初对齐

以Champollion作为环保类英汉双语句对齐工具,对135篇双语环保文本(6 646个英文句,7 031个汉语句)实施处理,最终得到6 366个双语句对,其对齐模式如表3所示。1∶1的对齐模式最多,占86.52%,1∶2或2∶1的对齐模式占10.44%和1.15%,这三类占总对齐数的98.11%,其余对齐模式的总和不到2%。

表3 句对的对齐模式
在所有对齐句对中,正确对齐数为5 724个,正确率为89.92%。在对齐错误的642句中,有521句应该是英汉1∶2模式,但被错标为1∶1模式,即应该是一句英语与两句汉语对应,然而程序却误将一句英语和一句汉语对齐,使得另外一句汉语误与另外的英语句子对应,此种类型的错误占到对齐总错误的81.15%,本文称其为1∶2英汉对齐错误。

通过对错误实例的分析,1∶2英汉对齐错误可分为三类:定语从句、标点符号以及转折并列句,如表4所示:

表4 1∶2英汉对齐错误的主要类型
这三类错误(443个)占所有1∶2对齐错误(521个)的85.03%,是1∶2对齐错误的主要类型。如果能够只修正该部分错误,而不影响其他正确对齐的1∶1模式,就能有效提升最终的句对齐质量。

4.2 语言学知识指导下的初对齐错误分析

Champollion等句对齐工具主要依靠统计算法,即使有些使用词典中的词语信息作为句对齐资源,也属于浅层语言知识的利用。对于本文实验而言,待处理语料都是领域明确、体裁一致、表述规范的环保文本,这就有可能通过总结语言学规律,进一步提升Champollion的对齐效果。

双语自动句对齐首先是识别句子。自动断句的依据主要是句末点号这样特有的形式标记,通常情况下断句标识是句号(.。)、问号(??)、感叹号(!!)等点号,分别用于陈述句、疑问句和感叹句的句尾,计算机在读到上述标识时自动切分句子。由于自然语言的形式和意义不是一一对应的关系,极有可能出现这样的一些情况:从单语角度看,一个复杂的意义表述超出了一个句子的范围,但却只有一个句末点号;从双语对应看,对目标语言的断句与原语言不一致。

对Champollion 1∶2对齐错误类型分析,不难发现:.

(1)由关系代词which,who以及关系副词where引导的定语从句,由于只有一个句末点号,这使得它们在英语原文中被当作一个句子。又由于表述了一个相对复杂的意义,在译成汉语时,从句部分往往单独成句,译成了多句汉语(至少有两个句末标点)。Champollion在判断英汉句对应关系时,由于第一句汉语词语与英语原文的部分词语有对应关系,因而容易被误判为1∶1对齐模式。

(2)一些标号,尽管不属于句末点号,但同样具有表达类似句子意义的功能,如破折号(Dash)用在一个解释性分句或句子前,或放置在句末用以补充说明;冒号(Colons)放在完整句子或独立子句后,用来引导或解释后面的内容。这些标号或者补充说明,或者引出待解释的部分,在译成汉语时都能够独立成句,形成两个或以上的汉语句子,但在英语断句时由于标号通常不作为切分句子的形式标记,因此也可能将1∶2或一对多的英汉对应模式误判为1∶1的对齐模式。

(3)一些由特定连词构成的转折并列句,如but可以连接表示转折关系的、两个表义相对完整的子句,而在译成汉语时这些子句都能够独立成句,囿于英语成句的形式判断标准,这些英语转折并列句在形式上仍然视作一个句子,这样在两种语言的句子对应关系上容易出错。

4.3 英汉1∶2对齐错误修正示例

定语从句、标点和转折并列句三类错误占句对齐错误的绝大多数。对实验语料进行穷尽性分析,找出每类错误出现的典型语境,将其归纳为条件判别式,使得修正尽可能地只针对出错的实例。这样在进行错误修正时,不至于降低系统原有正确率。以关系代词which引导的定语从句为例,根据总结的语言学规则,使用“错误驱动”的策略修正原有对齐错误。

实际语料中包含which的英语句子有466个,正确对齐数345个,正确率为74.03%;对齐错误121个,错误率为25.97%,详细数据如表5所示:

表5 由关系代词which引导的定语从句对齐结果
首先对这466个实例进行分析,总结提炼出6类区分能力较强的语言形式特征。凡是包含这些语言特征的which实例,均属正确的1∶2对齐模式。

(1)条件1:由which引导并且已经被正确标注为1∶2对齐模式的句子;

(2)条件2:句子被引号包围或英语句子出现 “ he(she)said(says, explained)”等描述性动词;

(3)条件3:which引导的限定性定语从句,which前无逗号;

(4)条件4:“,which”前不带名词及动词;

(5)条件5:句首出现“But”;

(6)条件6:which出现的语境是“,which means”。

对which引导的英语从句的错误修正描述如下:初始待修正集是由which引导的句对总集(466个),然后依次寻找满足以上6个条件的实例,如果满足条件,则表明该实例为正确对齐的实例,从待修正集中排除该实例,如此迭代处理,直至所有条件检测完毕。在这个处理过程中,待修正集的总句对数将越来越少,由于满足条件正确对齐的实例被筛选出去,该集合中错误实例的比例将越来越大。待结束收敛时,将待修正集中的所有剩余的句对统一修正为1∶2形式。因最终待修正集中的对齐错误数远大于对齐正确数,修正操作将使正确率大大提升。

以上6条规则在实施过程中,待修正集及其句对齐错误比例的动态变化数据如表6所示:

表6 由which引导的定语从句使用语言学规则
后待处理集错误数的动态变化
结合表5表6,可以看到待处理集的句对个数从466个减少到136个,对齐错误实例在待修正集的比例从初始阶段的25.97%提高到88.97%。在这个阶段,把待修正集中的剩余句对统一改为1∶2模式,其结果是把原来错误的121个实例改正确(占88.97%),代价是将15个原来正确的句对改错(占11.03%)。两者相比较,总的效果还是正面的(88.97%-11.03%=77.94%)。最后评判为对由which引导的英语从句466个实例,利用6条语言学规则能够正确识别出330个实例;对待修正集136个实例中实施集中处理,又改正了121例错误,累计正确识别的实例数达到451例(330+121),占which实例总数的96.78%,相比Champollion对which从句初始准确率的74.03%,提高了22.75%。

4.4 语言学规则的再对齐测试效果

为测试语言学规则的实际表现,笔者从“中外对话”网站另行下载20篇文章作为测试语料。新测试语料包含中英文句对1 101个。Champollion正确对齐977个,错误对齐数为121个,初对齐正确率为88.74%。使用本文总结的语言学规则对Champollion运行结果做再对齐处理,具体数据如表7所示:

表7 使用语言学规则修正Champollion对齐错误的开放测试结果
针对以上三类6种包含特定的语言形式标记的对齐实例,Champollion初始对齐正确率为74.92%。大部分错误来自原本1∶2对齐实例被错误标注为1∶1模式,利用本文总结的语言学判别规则,将其还原为正确的1∶2标注,最终对齐的平均正确率提高到93.25%。其中,针对which引导的定语从句的句对改错效果最好,将原有25个对齐错误修正了23个,正确率由初始的72.22%跃升到97.78%。由于1∶2对齐模式误标为1∶1模式的错误在所有对齐模式中占据最大份额,针对整个测试语料的实验结果表明,引入6种语言学规则使语料对齐正确数从初始的977个,变成1 034(977+57)个,正确率由88.74%上升至93.91%,由此证明语言学知识的应用确实能有效改正Champollion的识别错误。

5 结 语

本文服务英汉双语语言资源建设,从方便易用性及系统性能角度,对当前可用于英汉文本句对齐的主要开源工具进行比较,认为Champollion能够较好地胜任这一任务。并在此基础上,针对语料文本的特点,利用语言学知识,根据“基于转换、错误驱动”的处理策略,进一步提升语料对齐质量。

应该说明的是,这种语言学知识指导下的再对齐策略适合领域明确、文体一致并且语言规范的语料。本文实验语料来自“中外对话”经过专业译审编、具有同质性(Homogeneous)的环保领域专业文本,总结出来的语言规律适用于该类文本全体。根据“按领域分步骤”实施大规模双语语料库建设的思路,在每次采集双语语料对其加工处理时,面对的都是同一类别的批量文本,因此满足这一条件。本文提出在基于统计的句对齐工具初对齐输出结果的基础上,通过语言学规则的总结,提高特定领域双语文本对齐质量的做法应该具有普适性。

参考文献
[1] Koehn P. Europarl: A Parallel Corpus for Statistical Machine Translation[C]. In: Proceedings of the 10th Machine Translation Summit, Phuket Island , Thailand . 2005, 5: 79-86. [本文引用:1]
[2] Dand apat S, Morrissey S, Naskar S K, et al. Statistically Motivated Example-based Machine Translation Using Translation Memory[C]. In: Proceedings of the 8th International Conference on Natural Language Processing, Kharagpur, India. 2010: 168-177. [本文引用:1]
[3] 王克非, 熊文新. 汉英对应语料库的检索及应用[J]. 外语电化教学, 20116): 31-36. (Wang Kefei, Xiong Wenxin. Design and Application of Sentence Pair Retrieval from Parallel Corpora for Translation Studies and Translation Teaching [J]. Media in Foreign Language Instruction, 20116): 31-36. ) [本文引用:1]
[4] McEnery A, Xiao Z. Parallel and Comparable Corpora: What Are They Up To? [A]. // Anderman G M, Rogers M A. Incorporating Corpora: The Linguist and the Translator[M]. Clevedon: Multilingual Matters, 2007. [本文引用:1]
[5] Brown P F, Lai J C, Mercer R L. Aligning Sentence in Parallel Corpora[C]. In: Proceedings of the 29th Annual Meeting of the Association for Computational Linguistics (ACL’91). Stroudsburg: Association for Computational Linguistics, 1991: 169-176. [本文引用:1]
[6] Gale W A, Church K W. A Program for Aligning Sentences in Bilingual Corpora[C]. In: Proceedings of the 29th Annual Meeting of the Association for Computational Linguistics (ACL’91). Stroudsburg: Association for Computational Linguistics, 1991: 177-184. [本文引用:1]
[7] Church K W. Char_align: A Program for Aligning Parallel Texts at the Character Level[C]. In: Proceedings of the 31st Annual Meeting of the Association for Computational Linguistics (ACL’93), Coumbus, OH, USA. Stroudsburg: Association for Computational Linguistics, 1993: 1-8. [本文引用:1]
[8] Och F J, Ney H. A Systematic Comparison of Various Statistical Alignment Models[J]. Computational Linguistics, 2003, 291): 19-51. [本文引用:1] [JCR: 0.94]
[9] Utsuro T, Ikeda H, Yamane M, et al. Bilingual Text Matching Using Bilingual Dictionary and Statistics[C]. In: Proceedings of the 15th International Conference on Computational Linguistics(COLING’94), Kyoto, Japan. Stroudsburg: Association for Computational Linguistics, 1994, 2: 1076-1082. [本文引用:1]
[10] Simard M, Foster G F, Isabelle P. Using Cognates to Align Sentences in Bilingual Corpora[C]. In: Proceedings of the 1993 Conference of the Centre for Advanced Studies on Collaborative Research: Distributed Computing(CASCON’93). IBM Press, 1993, 2: 1071-1082. [本文引用:1]
[11] Brill E. Transformation-based Error-driven Learning and Natural Language Processing: A Case Study in Part-of-speech Tagging[J]. Computational Linguistics, 1995, 214): 543-565. [本文引用:1] [JCR: 0.94]
[12] Harris Z. Language and Information [M]. New York: Columbia University Press, 1988. [本文引用:1]
[13] 熊文新. Web、语料库与双语平行语料库的建设[J]. 图书情报工作, 2013, 5710): 128-135. (Xiong Wenxin. Web, Corpus and the Building of Bilingual Parallel Corpus[J]. Library and Information Service, 2013, 5710): 128-135. ) [本文引用:1] [CJCR: 1.193]
[14] Ma X. Champollion: A Robust Parallel Text Sentence Aligner[C]. In: Proceedings of the 5th International Conference on Language Resources and Evaluation, Genoa, Italy. 2006: 489-492. [本文引用:1]
[15] Varga D, Nemeth L, Halacsy P, et al. Parallel Corpora for Medium Density Languages[C]. In: Proceedings of Recent Advances in Natural Language Processing(RANLP’05), Borovets, Bulgaria. 2005: 590-596. [本文引用:1]
[16] Moore R C. Fast and Accurate Sentence Alignment of Bilingual Corpora[C]. In: Proceedings of Machine Translation: From Research to Real Users. Springer, 2002, 2499: 135-144. [本文引用:1]
[17] Li P, Sun M, Xue P. Fast-Champollion: A Fast and Robust Sentence Alignment Algorithm[C]. In: Proceedings of the 23rd International Conference on Computational Linguistics, Beijing, China. 2010: 710-718. [本文引用:1]