中心语驱动短语结构语法 (Head-driven Phrase Structure Grammar, HPSG) 是近年来非常流行的一种形式语法理论, 综合语言学、计算机科学、人工智能等多门学科的研究成果, 在语言研究的形式化方法上独具特色[ 1]。HPSG具有突出的模块性、高度的复杂性和严密的推演性, 相对于其他语法更容易被形式化处理, 非常适合计算机方面的应用。
HPSG的研究先后经历了理论思想的建立、形式化处理的完善和语言技术的实现, 理论框架日趋成熟, 应用领域广泛拓展。本文系统梳理20多年来国外HPSG的相关研究与实践工作, 希望对国内开发基于HPSG的自然语言处理技术有所裨益。
HPSG的原型最早由Pollard和Sag[ 2]于1987年提出, 其严密的逻辑结构和高度的可计算性立即引起学界的
广泛关注。两人对其修订完善后, 于1994年共同撰写了专著《Head-driven Phrase Structure Grammar》[ 3], 标志着这一理论趋于成熟。
HPSG深受Chomsky的词汇主义影响, 融入管辖与约束理论 (Government-Binding Theory, GB)[ 4]的概念。它与词汇功能语法 (Lexical Functional Grammar, LFG)[ 5]、广义短语结构语法 (Generalized Phrase Structure Grammar, GPSG)[ 6]等一样, 把主要由转换规则承担的语言描写任务转移到词汇上。由于词与规则之间的关系是词选择规则, 如果一个词的词条已经记录该词的搭配关系, 句法学的短语规则是不需要的[ 7]。这使得HPSG具有丰富的词汇信息和相对较少的短语结构规则。
HPSG把语言符号分为大小不同的类别 (Type) , 比如词位、词汇、短语等。每种类别带有不同的语法信息, 称为“特征” (Feature) 。一个语言符号所包含的全部特征是一个复杂集合, 叫做“类型特征结构” (Typed Feature Structure, TFS) 。
HPSG采用属性值矩阵 (Attribute Value Matrix, AVM) 来描述语言的类型特征结构。对一般的语言符号而言, 其类型特征结构的属性值矩阵如图1所示:
.以英语动词“laughs”为例, 其类型特征结构如图2所示:
.从图2可以看到, 词汇最重要的属性都包含在局部句法语义信息LOCAL (LOC) 里面, 分别是形态句法信息CATEGORY (CAT) 、语义信息CONTENT (CONT) 和语用信息CONTEXT (CONX, 图中略去) 。
(1) CATEGORY属性包含中心语信息HEAD和搭配信息SUBCATEGORY (SUBCAT) 这两个属性。对词汇而言, HEAD属性主要描述其词性信息 (Part of Speech) 。通过“laughs”的HEAD属性, 可以看出这是一个动词 (verb) , 并且是一个限定动词 (fin) 。
SUBCAT属性主要描述词汇的价信息 (Valence) , 即该词汇需要与其他哪些词汇搭配组合才能达到“饱和状态” (Saturated) 。因此, 词汇的SUBCAT属性值应当是该词汇所有补足语 (Complements) 的SYNSEM属性值之和。通过“laughs”的SUBCAT属性, 可以看出这个词需要一个名词短语NP来做主语 (nom) , 并且是第三人称单数形式 (3rd, sing) 。
(2) CONTENT属性主要描述语言符号的语义信息。对于不同的词汇, CONTENT属性的内部特征是不同的。比如, 不及物动词“laughs”的CONTENT属性里只有一个LAUGHER属性, 表示这个动词的主语, 也就是发出“笑”这个动作的主体;而双宾语及物动词“gives”的CONTENT属性里则需要有GIVER、GIFT和GIVEN三个属性, 依次表示做出“给”这个动作的主体、“给”的物体和接受“给”的对象。
图中带方框的数字 (如、、等) 用来标示不同的属性值。两个属性如果标号一样则属性值完全相同, 称为“同标” (Token-identical) 或“同构” (Structure-shared) 。HPSG语法利用同标, 实现句法语义信息在不同语言符号之间的映射, 奠定了合一运算的基础。
与词汇不同, 短语除了PHON和SYNSEM之外, 还有DAUGHTERS (DTRS) 属性。DTRS属性主要描述短语各个组成部分之间的相互关系, 称为“成分结构” (Constituent-structure) 特征, 用来表示短语的直接成分结构 (Immediate Constituent Structure) 。短语的组成成分按照类型不同分为中心语子女 (HEAD-DAUGHTER) 、补足语子女 (COMPLEMENT-DAUGHTER) 、修饰语子女 (ADJUNCT-DAUGHTER) 、填充语子女 (FILLER-DAUGHTER) 、标记语子女 (MARKER-DAUGHTER) 等。
HPSG规定中心语短语必须遵守两大原则:
(1) 中心语特征原则 (Head Feature Principle, HFP) .
描述:中心语短语的HEAD属性值与其下属的中心语子女的HEAD属性值始终合一。
(2) 次范畴化原则 (Subcategorization Principle, SP) .
描述:中心语短语的SUBCAT属性值等于其下属的中心语子女的SUBCAT属性值与补足语子女的SYNSEM属性值之差。
以最常见的中心语-补足语结构 (Head-complement-structure) 为例, “she drinks wine”的类型特征结构如图3所示:
.直观上看, 图3很像传统意义上的短语结构树形图, 只是把所有节点处的NP和VP换成了属性值矩阵。各层包含的语法信息如下:
(1) 最下层包含两个节点:中心语子女“drinks”和补足语子女“wine”。“drinks”的HEAD属性值用标号表示, 其内部信息表明这是一个限定动词;SUBCAT属性列表中有两项, 表明“drinks”需要两个补足语才能达到饱和, 分别用标号和表示。“wine”的SYNSEM属性值为, 与“drinks”SUBCAT属性列表中的第二个补足语同标, 表明它可以做“drinks”的补足语, 且无关度HPSG用“无关度” (Obliqueness) 来描述补足语与中心语的亲疏关系, 无关度越低则补足语对中心语越重要。动词的SUBCAT属性列表中如果有多个补足语项, 按照无关度从低到高依次排列, 顺序一般为:主语、直接宾语、间接宾语、介词短语、动词性补足语和/或表语补足语。较高 (宾语) 。
(2) 中间层也有两个节点:补足语子女“she”和中心语子女“drinks wine”。“she”的SYNSEM属性值为, 与“drinks”SUBCAT属性列表中的第一个补足语同标, 表明它可以做“drinks”的补足语, 且无关度较低 (主语) 。根据HFP原则, “drinks wine”的HEAD属性值必须与“drinks”合一, 所以用标号标示;根据SP原则, “drinks wine”的SUBCAT属性值等于“drinks”的SUBCAT属性值 (+) 减去“wine”的SYNSEM属性值 () , 所以用标号标示。
(3) 最顶层只有一个节点:父节点“she drinks wine”。根据HFP原则, 其HEAD属性值必须与“drinks wine”合一, 所以用标号标示;根据SP原则, 其SUBCAT属性值等于“drinks wine”的SUBCAT属性值 () 减去“she”的SYNSEM属性值 () , 用空集<>标示。
HPSG理论提出后, 人们最关心的是如何将其形式化处理以应用于计算机, 被计算机准确分析和理解。在这个过程中, 需要根据实际情况不断修正完善HPSG经典理论, 使之既遵循客观语言规律, 又符合计算机程序特点。比如, 在经典理论中, 特征结构模型必须能够代表全部的语言现象, 即必须是完全模型 (Total Models) 。而其他一些研究表明, 完全模型不能很好地解决诸如并列 (Coordination) 、成分省略等语言现象以及词汇规则的形式化问题[ 8, 9, 10], 这就要通过调整理论的相应部分来解决。
Levine等[ 11]总结了形式化处理HPSG需要涉及的几个方面, 可以归纳为标记系统、理论框架和总体格局。
HPSG利用标记系统 (Signature) 来描述真实存在的语言现象。标记系统由类型层级 (Type Hierarchy) 和适宜条件 (Appropriateness Conditions) 组成, 规定了每种类型具有的适宜属性, 以及每种属性具有的适宜属性值。HPSG的类型层级如图4所示:
.经典理论中, Pollard等[ 3]采用类型特征结构作为语言符号的模型, 坚持对所有语言现象进行建模, 强调模型必须是完全类型化 (Well-typed) 和完美类型化 (Sort-resolved) 的特征结构。“完全类型化”需要满足:类型决定其特征结构的适宜属性;类型节点下列出其所有适宜属性。“完美类型化”要求类型节点下所有适宜属性的属性值满足最细化分类 (Most Specific) 。
Carpenter[ 12]反对经典理论建立的完全模型, 认为语言现象纷繁复杂, 不可能完全纳入标记系统的描述, 应当允许语言有一个部分信息层面 (Partial Information) 不予定义和描述。这种部分信息模型的存在, 决定类型特征结构并非一定要满足完全类型化和完美类型化的要求。
HPSG理论框架 (Theory) 由一系列语言描述组成, 这些描述也被称为“约束条件” (Constraints) 。HPSG依据理论框架, 在标记系统中区分出符合语法的语言现象, 原则是:当且仅当语言符号及其子结构 (Substructures) 满足理论框架中所有相关语言描述时, 才能认为该语言符号与理论框架是相符的。
HPSG理论框架需要使用特定的语言进行描述, 通常选取属性值矩阵, 基本的描述内容包括:特征结构是否对应某个类型 (比如名词) ;特征结构某个属性的属性值是否符合相应描述 (比如名词是主格还是宾格) ;两个属性值是否同标 (合一) 等。描述的内容比较复杂时需要借助逻辑上的合取 (Conjunction) 、析取 (Disjunction) 、否定 (Negation) 等概念, 将基本描述组合成复杂描述。
同标 (Token Identity) 是理论框架中最重要的概念之一, 指特征结构模型中的两条路径指向同一节点。以HEAD属性的同标现象 (HFP原则) 为例, 其特征结构在理论框架中的描述如图5所示:
.与“同标”对应的概念是“同类” (Type Identity) , 在理论框架中被定义为:当且仅当两个特征结构类型相同、各自具有的属性相同、各自属性值的特征结构类型也相同时, 这两个特征结构同类。
在标记系统和理论框架的基础上, 可以建立HPSG的总体格局 (Setup) 。需要注意的是, 语言的复杂性决定了理论框架中的约束条件往往不能单个使用, 必须通过逻辑运算加以组合。这就要用到一系列涉及语言描述的逻辑运算符, 包括:合取 (∧) 、析取 (∨) 和否定 (┐) 。此外, 类型分配 (Type Assignment) 和路径合一 (Path Equality) 分别记做“~”和“=”。
Pollard等[ 3]认为理想化的HPSG应当能够概括所有的语言现象, 并据此设计了经典HPSG总体格局, 如图6所示:
.Carpenter[ 12]采用Kasper-Rounds逻辑[ 13]对这个经典格局进行改进, 将逻辑强否定运算转化为更加柔和的路径不一 (Path Inequality) 运算, 得到更加贴近语言实际的HPSG总体格局, 如图7所示:
.目前, HPSG的应用研究在全球范围内广泛开展, 其中最有影响力的为致力于深层语言处理的DELPH-IN (Deep Linguistic Processing with HPSG Initiative) 国际合作组织[ 14]。该组织将HPSG作为核心方案, 借助语言技术和统计技术实现计算机的自然语言理解, 取得计算处理效率的重大突破。
HPSG的应用大致可分为三个层面:开发HPSG资源语法;利用HPSG资源语法进行自然语言处理;将HPSG语言技术应用于实际工程领域。
DELPH-IN组织已成功开发出针对英语、德语、日语等数十种语言的HPSG资源语法, 其中, 由美国斯坦福大学语言信息研究中心LinGO实验室牵头开发的英语资源语法ERG (English Resource Grammar)[ 15]已经达到很高水平, 可以实现对大规模英语语料分析的高覆盖率和高准确率。目前ERG的词典包括1万多条手工编辑的词条, 主要开发者有Dan Flickinger、Emily Bender、Rob Malouf、Jeff Smith等[ 16]。
但是, HPSG在中文方面的研究不多, 规模也不大。Yu等[ 17]通过手工编写语法约束和标注规则, 将宾州大学中文树库 (Penn Chinese Treebank) 转录为HPSG树库, 自动从中抽取大型中文词库用于构建中文资源语法。Zhang等[ 18]借助语法开发工具Matrix[ 19]得到初始中文HPSG, 然后在语法开发平台LKB (Lexical Knowledge Builder)[ 20]上进行词汇及规则调试, 开发中文资源语法MCG (Mandarin Chinese Grammar)[ 21]。这些中文资源语法普遍显示出较高的覆盖率和准确率, 但规模都不大。即使是处于领先地位的MCG, 目前也只有500多条手工词条。
在语法分析器上运行HPSG资源语法, 可以实现自然语言的分析 (Parsing) 与生成 (Generation) 。现有大部分语法开发工具都兼容了语法分析器的功能, 既能开发资源语法, 又能加载语法进行自然语言处理。比较流行的工具和平台除了Matrix和LKB, 还有[incr tsdb () ] (Competence and Performance Laboratory) 、PET (Platform for Experimentation with Efficient HPSG Processing Techniques) 等。
当前, 语言技术面临的最大困难是难以获取文本和话语的真实内容, 缺乏实现自然语言理解的方法。解决这个难题必须要依靠深层语言处理 (Deep Linguistic Processing) 技术, 对语言进行深入到语义层面的分析。HPSG对语义的处理主要借助Copestake等[ 22]提出的最小递归语义 (Minimal Recursion Semantics, MRS) , MRS是近年来发展比较完备的一种语义表示框架, 由于允许不充分确定性 (Underspecifiability) 而具有较高的语义分析灵活度。这种语义表示框架兼顾适度表达性和可计算性, 采用扁平化表达简化不必要的嵌套处理过程, 允许在辖域信息没用时忽略它, 而在辖域信息影响句子语义的时候恢复它[ 23]。HPSG之所以在深层语言处理领域倍受青睐, 在很大程度上归功于MRS在语义分析方面的强大能力。
对HPSG资源语法进行自然语言处理的语言技术可以用于实际工程领域, 包括:
(1) 机器翻译。随着统计方法在机器翻译领域的应用逐渐走入死胡同, 基于规则的方法又开始重新焕发活力。HPSG融合了丰富的语言学知识, 利用基于约束机制的处理技术建立适于计算机算法处理的语言系统模型, 使机器翻译的质量得到大幅度提高。比如DELPH-IN组织进行的多语对话机器翻译工程Verbmobil[ 24]。
(2) 信息抽取。传统的信息抽取技术多是浅层分析技术, 采用非语义处理方式, 无法应对文本理解的复杂问题。HPSG能够对语言进行深入到语义的分析, 结合浅层分析之后可以得到更加精准的抽取结果。比如欧盟资助的大型信息抽取工程DeepThought[ 25]。
(3) 自动问答。在自动问答系统中, 涉及到自然语言处理的主要是问题分析和答案抽取, 一般的解决方案是基于关键词的句子相似度计算。这种方法的缺陷是缺乏对整句语义的理解, 问题与答案的匹配率不高。如果采用HPSG深层分析技术对文本进行精确理解, 再结合知识库技术, 答案的准确率就能大大提升。比如YY Technologies公司开发的电子邮件自动回复软件Email Specialist[ 26]。
(4) 数据挖掘。在数字网络时代, 以文本为代表的语言数据飞速增长, 给数据挖掘技术提出了挑战。HPSG可以对语言数据进行深层处理, 在网格计算技术的辅助下, 从海量数据中挖掘出有效信息, 发现新的知识和规律。比如剑桥大学在e-Science计划下进行的研究项目Sci-Borg[ 27]。
HPSG在中文方面的研究始终停滞不前, 主要是由于缺乏系统准确的中文语法设计。为了解决这个问题, Gao[ 28]从元结构入手尝试构建整个中文语法体系;Wang等[ 29]依据语言现象提出简化的中文语法框架。他们的探索性研究工作为将来开发大规模中文HPSG资源语法奠定了基础。
仿照Sag等[ 30]对英语语法的设计, 可以构建适合中文语法的HPSG符号及规则。
(1) 符 号.
符号方面, 除了有关词形变化的属性, 英语语法中的大部分TFS结构都可以移植到中文语法中。以词汇为例, 中文动词“吃”的类型特征结构如图8所示:
.(2) 规 则.
规则方面, 从英语语法中选取6条最符合中文表达习惯的规则, 分别是:限定语-中心语规则、中心语-补足语规则、修饰语-中心语规则、中心语-修饰语规则、填充语-中心语规则和并列规则。考虑到中文特有的主题句现象, 又增加一条主题语-中心语规则, 总共7条规则。
.设计的中文语法可以分析常见的中文结构, 包括常规结构和特殊结构。
(1) 常规结构.
①主-谓-宾结构:可以分解为谓-宾结构 (1a) 和主-谓结构 (1b) , 分别对应中心语-补足语规则和限定语-中心语规则。
1a. 爱 画画.
1b. 小周 (爱 画画) .
②修饰语结构:动词、形容词的修饰语包括状语、补语和句末语气词[ 31], 出现在中心谓词的左边 (2a) 或右边 (2b) , 分别对应修饰语-中心语规则和中心语-修饰语规则。名词的修饰语是定语, 一般出现在名词左边 (2c) , 对应修饰语-中心语规则。
2a. 特别 漂亮.
2b. 跑 累 了.
2c. 新 书.
③并列结构:分为并列谓语 (3a) 和并列句 (3b) 两种情况, 都可以用并列规则来分析。
3a. 你 发言, 也 记录.
3b. 你 发言, 他 记录.
④主题句:可以用主题语-中心语规则来分析。
4a. 大象 (鼻子 长) .
(2) 特殊结构.
①倒装句.
有时为了强调, 中文会把宾语提前到句首, 形成倒装。这分为宾语移动至主语位置 (5a) 和宾语移动至主题位置 (5b) 两种情况, 均可用填充语-中心语规则来分析。
5a. 地 扫 了.
5b. 地 我 扫 了.
②“把/被”字句.
按照Li等[ 32]及GaoGao Q. Chinese Ba Construction: Its Syntax and Semantics[M]. Columbus: The Ohio State University, 1992.的观点, “把/被”字可以看作格标记符号 (Case-marker) , 用来标记后续成分的格 (宾格或主格) , 对应中心语-补足语规则。“把/被”字结构位于中心谓词左侧, 适用于限定语-中心语规则。以“把”字句为例, 一个分析实例如图10所示:
.③多主题句.
在中文里, 一个句子可能同时含有多个主题。Wang等[ 29]按照类别不同将主题分为常规主题 (Ordinary Topic) 和修饰主题 (Modifier Topic) , 前者包括名词短语、动词短语和分句, 后者包括介词短语、地点短语和时间短语。一般来说, 一个中文句中允许出现多个修饰主题, 但只能有一个常规主题。对于多主题句, 可以采用主题语-中心语规则来分析常规主题, 采用修饰语-中心语规则来分析修饰主题。一个分析实例如图11所示:
.在多主题句“今天约翰他吃苹果”中, “他”是整个句子的主语。“约翰”是常规主题, 与后续分句“他吃苹果”的关系用主题语-中心语规则描述。“今天”是修饰主题, 与后续部分的关系用修饰语-中心语规则来描述。
HPSG作为当代形式语法理论研究的重大成果之一, 借助强大的词汇体系和有限的规则约束来表达复杂的语言现象, 具备配套的语法开发工具和应用平台, 可操作性很强。发展到今天, HPSG已经体现出对英语、德语、日语等多种语言的适用性, 被广泛应用于自然语言处理技术的各个领域, 如机器翻译、信息抽取、自动问答、数据挖掘等。
从近几年HPSG国际年会的热点问题来看, 当前HPSG的研究呈现两大发展趋势:
(1) 理论上朝心理认知方向发展, 形成基于符号的构式语法 (Sign-based Construction Grammar)[ 33], 在保持合一运算机制的同时更多地研究语言的认知特点。
(2) 应用上逐渐放弃对共同语法的开发, 转向解决特定语言的具体语言现象, 着眼于提高资源语法的覆盖率和准确率。
结合这两个趋势, 未来的中文HPSG研究应该吸收心理学、生理学等学科的研究成果, 全面分析中文的语言特点, 构建合理的语言模型系统, 开发优质的中文资源语法, 在实际工程领域中研发先进的中文处理技术, 争取在人工智能分析与理解领域占得先机。
[1] |
|
[2] |
|
[3] |
|
[4] |
|
[5] |
|
[6] |
|
[7] |
|
[8] |
|
[9] |
|
[10] |
|
[11] |
|
[12] |
|
[13] |
|
[14] |
|
[15] |
|
[16] |
|
[17] |
|
[18] |
|
[19] |
|
[20] |
|
[21] |
|
[22] |
|
[23] |
|
[24] |
|
[25] |
|
[26] |
|
[27] |
|
[28] |
|
[29] |
|
[30] |
|
[31] |
|
[32] |
|
[33] |
|