作者贡献声明: 毕强: 提出研究思路, 设计研究方案;
王传清: 收集资料, 整理、分析、提炼; 论文起草;
王传清, 毕强: 最终版本修订。
分析和总结国外语义标注工具特点, 构建数字图书馆资源自动化语义标注模型框架, 为中文语义标注工具的设计与应用提供参考。
【方法】通过归纳和分析语义标注的平台框架的技术方法, 结合与国外成熟工具的比较分析, 使用系统开发及模块化思想构建模型。
【结果】构建包含系统输入模块、语义处理模块、本体知识模块、语义标注模块和存储模块的自动化语义标注工具的系统模型, 分析整体算法思想以及自动本体标注算法思想。
【局限】自动语义标注系统涉及的相关算法及改进仍在不断发展, 本文仅给出主要算法思想和说明。
【结论】本研究构建的自动化语义标注模型可以为中文语义标注工具设计提供借鉴。
The authors analyze and summarize the characteristics of semantic annotation tools, construct the automatic semantic annotation model framework for digital library resources, to provide references for the design and application of Chinese semantic annotation tools.
[Methods]Conclude and analyze the technology and methods of semantic annotation platform framework, combining with the comparative analysis of foreign mature tools, and introduce the system development and the idea of modularization to construct the model.
[Results]The automatic semantic annotation system model includes system input module, semantic processing module, Ontology knowledge module, semantic tagging module and storage module. The overall algorithm thought and automatic labeling algorithm of Ontology thought are also analyzed.
[Limitations]Relevant algorithms involved in the automatic semantic annotation model are still in development, this article only analyzes the main algorithm thoughts and instructions.
[Conclusions]The automatic semantic annotation model can provide references for the design of Chinese semantic annotation tool.
数字图书馆服务正在从提供传统的文献类信息产品(Information Items)向着提供信息内容(Information Content)转变, 从传统的文献信息服务向着知识服务转变[ 1]。利用语义Web及相关技术, 通过本体揭示元数据的语义, 动态加工提取、组织信息知识, 将数字图书馆可获取的海量文献资源和普通网页转换为富含语义信息和知识的语义页面, 是数字图书馆向知识服务转变的基础。其中, 语义标注(Semantic Annota-tion)及相关工具起到了至关重要的作用[ 2, 3]。它可以利用形式化的知识本体系统, 实现对网络资源及资源的各个部分的概念类、概念属性和其他元数据进行标注, 关联数字图书馆资源中的实体及对应的本体实例, 为语义推理提供基础[ 4, 5, 6]。
语义标注工具有手工标注、半自动标注、自动化标注几种类型[ 7]。由于数字图书馆资源的几何级增长, 越来越需要大规模的自动化标注, 所以自动化语义标注工具的地位也显得越来越重要。国外关于自动化语义标注工具的开发和实践应用发展较快[ 8, 9], 已经有不少较成熟的自动化标注工具可以利用。Semanticweb.org列出了目前已有的语义标注相关工具[ 10], 较常见的有:
(1) 监督学习类自动化语义标注工具, 如KMI (Knowledge Media Institute)研发的MnM[ 11]、OntOMat[ 12]、AKT (Advanced Knowledge Technologies)[ 13]项目的Melita[ 14]等;
(2) 非监督学习类自动化语义标注工具, 如IBM研发的SemTag[ 15, 16]、Armadillo[ 17]等;
(3) 无学习类自动化语义标注工具, 如Maryland大学研发的SHOE (Simple HTML Ontology Extension) Knowledge Annotator[ 18]和SMORE[ 19]、Manchester 大学和Southampton 大学共同研发的COHSE[ 20]、OntoText实验室的KIM Semantic Annotation Platform[ 21, 22]、集成化的Word文档语义标注工具Semantic Word[ 23]等。
国内学者和机构的研究最初集中在对国外语义标注技术和工具的介绍和比较[ 24, 25, 26, 27], 这些研究成果发表年份基本在2009年以前, 近年来开始多样化探讨语义标注的技术和方法, 包括对单一文本对象、网页以及多媒体资源等。如荆涛等[ 28]探索了Web上中文语句的RDF表示方法; 李济洪等[ 29]探讨了基于自然语言的汉语框架语义角色自动标注方法; 郑莉等[ 30]提出的学习对象元数据的XML绑定规范——CELTS-3.2, 为自动标注中文语义关系提供了参考; 牟冬梅[ 31]对数字图书馆知识组织语义互联策略及其应用进行了总结和探索; 史玉翡[ 32]对用于信息抽取的自动标注技术进行了研究; 杨舟[ 33]分析和研究了基于自然语言处理的专利文档自动语义标注方法; 于晓繁[ 34]提出了一种基于本体和元数据的语义标注模型——语义标注瀑布模型(Waterfall Model)和协作式语义标注系统架构, 选择WordNet本体库实例, 利用GATE语义标注平台进行了试验; 张泓博[ 35]探讨和设计了面向领域文档的自动语义标注方法; 谢铭[ 36]探讨了异构网络中概念性内容及关系在知识表示中的语义映射、加载机理, 以及深层复杂多元关系的本体自动生成机制, 提出了一种面向海量网络资源的启发式集成学习自动语义标注策略和系统方法。
国内还有相关的持续项目研究, 例如中国科学院文献情报中心牵头的Journal 3.0研究项目[ 37], 利用具体的期刊作为语义标注和出版的初步试点, 促成了研究人员与业内企业的合作探索。这些研究和实践对推动中文自动化语义标注的发展起到了积极的作用。相比国外的大量实践和成熟模式, 中文自动化语义标注工具的设计和应用发展滞后, 相关的标注技术和方法还需要在不断的实践和应用中进一步完善, 目前鲜见比较成熟的中文自动化语义标注系统可以为国内的数字图书馆所利用。因此, 笔者在分析主流自动化语义标注工具和技术框架的基础上, 构建数字图书馆自动化语义标注工具系统模型, 并对其中的关键算法进行分析, 以期为中文自动语义标注工具系统的研究和实现提供参考。
目前, 常见的语义Web标注框架基础为W3C的Annotea[ 38]标注框架和Karlsruhe大学的CREAM[ 39]标注框架, 二者的比较如表1所示:
![]() | 表1 Annotea与 CREAM比较 |
Annotea和CREAM 这两种语义Web框架的核心点不同, Annotea重视协作共享, 基于此框架的许多自动语义标注工具都具有良好的用户使用界面, 在分布式知识标注和共享方面表现突出; 而CREAM则强调深层次Web和历史数据的标注, 基于此框架产生了许多深入应用类自动化语义标注工具。深层次Web数据标注可以使标注结果与Web页面一起自动生成, 对历史数据标注的重视也提升了对数据库资源的自动化标注水平, 这可以提高用户对标注文档的控制能力, 将标注结果与Web文档存储在一起或单独存储。并且, CREAM框架可以利用关系元数据对包含关系的实例进行标注, 这是构建知识语义关联、提供语义服务的基础。语义标注框架给语义标注工具提供了理论指导。
根据标注方法的不同, 语义标注工具可以分为基于机器学习类(Machine Learning-based)、基于模式类(Pattern-based)和综合类(Multistrategy)三种主要类型, 其方法类别、特点和代表工具比较如表2所示:
![]() | 表2 三种主要语义标注工具比较 |
(1) 基于机器学习的标注方法通过建立语义概念模型, 并利用模型将标注结果推广到整个语料库, 通过一些机器学习的方法来发现文档模式或规则。基于机器学习类的语义标注工具主要采用概率法和归纳法, 概率法采用统计方法来预测标注文档中实体的位置, 例如用隐马尔科夫模型等来寻找Web文档中实体的位置; 归纳法则采用自然语言处理以及结构分析等对Web文档进行标注。
(2) 基于模式类的语义标注工具主要采用模式发现和规则定义方法。模式发现先定义一个初始的实体集, 通过扫描语料库发现实体存在的模式, 依据模式再发现新的实体, 反复执行该过程, 直到不再发现新的实体或者用户停止整个过程。规则定义是利用人工定义的规则在标注文档中发现实体从而实现标注的方法。
(3) 综合类语义标注工具结合了基于机器学习类以及基于模式类两种方法, 可以充分利用它们的优势。目前已有本体识别系统中利用了该类方法, 如On-To-Knowledge, 但很少有语义标注工具使用这种方式进行语义标注。虽然国际上将两种方法相结合的语义标注研究很多, 但应用尚且没有非常标准的处理方式, 特别是中文自然语言处理方面有待进一步研究。只有采用可扩展架构设计的语义标注工具才可以提供基于机器学习和基于模式的系统[ 40]。
在分析和比较国外常见的自动语义标注工具的特点和不足的基础上, 结合自动化语义标注工具在数字图书馆应用中的适用性, 本研究构建了数字图书馆自动化语义标注工具的系统模型架构, 如图1所示:
从图1可以看出, 该自动化语义标注工具的系统模型架构主要包括系统输入模块、语义处理模块、本体知识模块、语义标注模块和存储模块。用户在友好的输入界面输入待标注文档, 自动标注工具系统支持如XML、HTML、PDF、TXT、RTF、Email、音频、视频文件等, 不符合自动标注条件的文档返回给用户重新输入, 符合标注条件的文档被提交给语义数据处理模块。
数据处理模块先对待标注文档进行预处理, 如去除英文单词中的助词和代词等停用词, 进行词根还原等, 提取实际需要标注的内容, 通过支持多语言的语法分析, 利用自动分词工具等, 如嵌入中国科学院计算技术研究所开发的 ICTCLAS(Institute of Computing Technology, Chinese Lexical Analysis System)软件功能模块等[ 41], 提取待标注文档的特征向量, 并利用本体对概念的一致性认识来帮助提取特征向量。相对于英文文档, 中文文档的分词难度较大, 在分词时还应借助中文词典, 特别是数字图书馆资源中包含了大量的学术文献和资料, 分词时更需要借助一些学科专业的中文词典。对待标注文档完成数据处理后, 形成含有特征向量的模型文档, 提交给本体知识模块。
本体知识模块提供两种类型的本体支持标准的术语表示和语义异质调整: 一种是对常见概念及关系等进行描述的通用本体, 如顶层本体; 另一种是对某种专业领域知识的概念及关系等进行描述的专门本体, 如领域本体。通过对经过处理的语义数据集进行测试训练, 在经过规则发现、规则生成、规则评估和规则应用4个阶段, 可以实现语义规则的制定和应用。若要自行开发自动化语义标注工具, 这一过程是必不可少的; 若是对现有标注工具进行二次开发和改进, 如利用自动化标注的开源软件工具, 用户也可以在原有的基础上, 根据语义标注的具体任务和目标进行改进, 构造新的规则知识库。
语义标注模块的功能是对待标注文档具体实施自动化语义标注, 并实现可视化发布。标注过程主要是由页面编辑工具和语义标注插件来完成, 标注的结果形成元数据知识库, 并通过语义标注模块实现语义页面的可视化呈现及文档发布。另外, 语义标注结果还能进行反馈, 进一步完善本体的概念、实例、关系等。
存储模块根据数字图书馆用户的不同需要, 提供多种语义标注结果的存储方式, 如独立存储和嵌入式存储。
(1) 独立存储支持标注结果和被标注文档分开存储为独立的文件, 便于将被标注文档和标注结果分别发送给不同的个人用户或单位用户, 方便建立公共语义标注结果数据库共享系统, 主要采用链接的方式, 将待标注文档中的实体与其语义描述元数据相连, 元数据中包括实体的类和实例信息, 存在知识库中。
(2) 嵌入式存储向待标注文档中加入标签来增加语义信息, 支持将标注结果嵌入到被标注文档中, 直观明了, 方便数字图书馆用户直接利用。
其标注结果又可以分为文档集(Document-level)标注和字符级(Character-level)标注两种形式, 如图2所示, 人工和自动代理都可以识别和处理语义标注文档。独立存储的灵活性较好, 可以随着语义环境及用户需求的变化而变化, 是用户针对性较强的动态存储; 嵌入式存储维护起来比较容易, 但存储内容的容积方面相对较差。
系统模型的输入为自定义数据, 如XML、HTML、PDF、TXT、音频、视频等数字图书馆资源文档, 系统模型的输出为实现语义标注后的知识点本体[ 36]。总体算法如下所示:
自动语义标注总体算法思想
Input:Self-Defined Documents
Self-Defined Documents→ RDF Triple Data; //将文档转换为RDF三元组数据
RDF Triple Data→Linked Data; //加工为关联数据
Linked Data→Storaged Linked Data; //存储关联数据并建立索引
Storaged Linked Data→Ontology; //创建本体
Ontology semantic annotation; //本体自动语义标注
Output: Annotated Topic Ontology
可以看出, 整体的算法思想是: 将输入的数字图书馆资源文档转换为RDF三元组数据; 加工RDF三元组数据, 形成关联数据; 存储关联数据, 编制索引; 利用经过存储和索引的关联数据, 创建本体; 对本体进行自动语义标注, 输出标注结果。
自动本体标注是整个自动语义标注系统模型的核心, 其算法思想是针对输入的XML、HTML、PDF、TXT、音频、视频等数字图书馆资源文档数据, 输出标注的概念、属性、语义关系的OWL文档数据。其中, 利用输入的数字图书馆资源文档中对应项与本体间的映射, 调用概念的层次聚类算法、概念关联算法等来识别概念、属性。依据已有的关联数据和知识表示的自动语义标注技术[ 35, 36], 本研究修改自动本体标注算法说明, 如下所示:
自动本体标注算法
Input: Self-Defined Ontology Data
Pre-Process; //对输入文档数据进行预处理, 判断其类型
Call概念的层次聚类算法; //输入为概念集合, 输出为类集合
Call类及属性获取算法; //输入为源于网络学习资源的经预处理后文本, 输出为类、属性表达
IF Propriate Item in Ontology THEN
Class Mapping;
Call概念关联度算法; //输入为上一步骤得到的所有概念的特征词模型, 输出为存在关系的概念对及其关联性的集合
Property Associate; //查询本体, 如果存在对应项, 与正确本体匹配, 输出OWL文件
OWL Generating;
END IF
Topic Relation Computing;
IF (Non-Class Hierarchy Computing) >Threhold THEN
SameAs Relation Indexing List Generation; //非类属关系计算, 超过设定阈值, 标记为SameAs关系
OWL Generating;
END IF
Class Hierarchy Computing;
Topics Positions on Time Line;
IF (Topics' Property Inheritance Computing) >Threhold THEN
Previous and Succ Relation Indexing List Generation; //概念属性继承性计算, 超过阈值, 标记为前后序关系
OWL Generating;
END IF
Including Relation Indexing List Generation; //标记为包含关系
OWL Generating;
Output: SameAs/ Previous and Succ/ Including Relation in OWL
可以看出, 自动本体标注算法计算过程中, 调用了概念的层次聚类算法、类及属性获取算法等。这些算法及其改进的相关研究很多, 如N元模型分析、分类标签匹配、隐马尔科夫模型等。需要指出的是, 数字图书馆自动化语义标注系统工具在设计实现时应考虑在系统输入模块中, 对不同类型的数字图书馆资源文档先进行预处理, 然后再进行语义数据处理和关系判断, 并针对不同类型的文档提供相应的算法和处理方法, 可供用户人工选择或系统自动识别。这样可以降低概念关联性算法的复杂度, 大大提高系统运行的效率, 提高自动化语义标注的准确度。例如对符合RDF、OWL格式要求的Web文档可直接进行本体映射, 可以减少关系判断命令的执行次数, 提升标注效率。
将标注结果存储为TXT文件可以大量节约存储空间, 以TXT文件存储方式为例对标注结果进行说明。本研究选择我国著名图书馆学家吴慰慈教授的两部著作《图书馆学概论》和《图书馆学基础》, 设计对其进行标注的结果片段, 如下所示。标注结果存储在文档中, 首先是Web文档的源代码, 接着存储标注的结果, 用“##”分隔, 属性之间用“££”分隔, 属性名称与值之间用“&&”分隔, 元组之间用“@@”分隔。
吴慰慈 -- 图
书馆学概论
(¥35.00)
##
££Trigger(Author)&&吴慰慈
££Trigger(BookTitle)&&图书馆学概论
££Trigger(Price)&&¥35.00
@@
吴慰慈 -- 图书馆
学基础
(¥35.00)
##
££Trigger(Author)&&吴慰慈
££Trigger(BookTitle)&&图书馆学基础
££Trigger(Price)&&¥35.00
@@
中文语义的复杂度较高, 使得国内自动化语义标注工具的开发和应用相对滞后。本文在总结国内外语义标注工具相关研究现状的基础上, 比较常见的语义标注框架以及语义标注工具, 分析其特点, 在此基础上构建自动化语义标注工具的系统模型, 分析整体算法思想以及自动本体标注算法思想, 并给出标注结果的片段实例, 为自动化语义标注工具的发展以及国内数字图书馆的资源描述、知识关联、智能检索和可视化呈现等方面的语义标注工具应用提供了一些参考。下一步研究方向是将本文的构建模型和算法思想细化和完善, 更进一步开发和设计自动化语义标注工具, 并将其应用于数字图书馆资源的自动化语义标注实验和实践。信息技术在飞速发展, 各种新的语义应用工具和方法不断涌现。相信随着语义标注研究和实践的不断深入, 成果会越来越丰富, 自动化语义标注工具的发展也会越来越完善。
[1] |
|
[2] |
|
[3] |
|
[4] |
|
[5] |
|
[6] |
|
[7] |
|
[8] |
|
[9] |
|
[10] |
|
[11] |
|
[12] |
|
[13] |
|
[14] |
|
[15] |
|
[16] |
|
[17] |
|
[18] |
|
[19] |
|
[20] |
|
[21] |
|
[22] |
|
[23] |
|
[24] |
|
[25] |
|
[26] |
|
[27] |
|
[28] |
|
[29] |
|
[30] |
|
[31] |
|
[32] |
|
[33] |
|
[34] |
|
[35] |
|
[36] |
|
[37] |
|
[38] |
|
[39] |
|
[40] |
|
[41] |
|