数字图书馆自动化语义标注工具系统模型研究

引用本文

王传清, 毕强. 数字图书馆自动化语义标注工具系统模型研究 . 现代图书情报技术, 2014, 30(6): 17-24
Wang Chuanqing, Bi Qiang. System Model of Digital Library Automatic Semantic Annotation Tool. New Technology of Library and Information Service, 2014, 30(6): 17-24 复制到剪切板

Permissions

This article is the open access journal literature, in the following situations are free to use: academic research and academic exchanges, scientific research and teaching, etc., but don't allow for commercial purposes.

数字图书馆自动化语义标注工具系统模型研究

王传清^1,², 毕强¹

1.吉林大学管理学院长春 130022

2.中国科学院文献情报中心北京 100190

通讯作者: 王传清 E-mail:wangcq@mail.las.ac.cn

作者贡献声明: 毕强: 提出研究思路, 设计研究方案;
王传清: 收集资料, 整理、分析、提炼; 论文起草;
王传清, 毕强: 最终版本修订。

基金:*本文系国家自然科学基金项目“语义网络环境下数字图书馆资源多维度聚合与可视化展示研究”(项目编号: 71273111)、国家社会科学基金重大项目“基于语义的馆藏资源深度聚合与可视化研究”(项目编号: 11&ZD152)和吉林大学985工程项目的研究成果之一;

摘要

【目的】

分析和总结国外语义标注工具特点, 构建数字图书馆资源自动化语义标注模型框架, 为中文语义标注工具的设计与应用提供参考。

【方法】

通过归纳和分析语义标注的平台框架的技术方法, 结合与国外成熟工具的比较分析, 使用系统开发及模块化思想构建模型。

【结果】

构建包含系统输入模块、语义处理模块、本体知识模块、语义标注模块和存储模块的自动化语义标注工具的系统模型, 分析整体算法思想以及自动本体标注算法思想。

【局限】

自动语义标注系统涉及的相关算法及改进仍在不断发展, 本文仅给出主要算法思想和说明。

【结论】

本研究构建的自动化语义标注模型可以为中文语义标注工具设计提供借鉴。

关键词: 数字图书馆; 语义标注; 知识组织; 知识服务; 系统模型

System Model of Digital Library Automatic Semantic Annotation Tool

Wang Chuanqing^1,², Bi Qiang¹

1.School of Management, Jilin University, Changchun 130022, China

2.National Science Library, Chinese Academy of Sciences, Beijing 100190, China

Abstract

[Objective]

The authors analyze and summarize the characteristics of semantic annotation tools, construct the automatic semantic annotation model framework for digital library resources, to provide references for the design and application of Chinese semantic annotation tools.

[Methods]

Conclude and analyze the technology and methods of semantic annotation platform framework, combining with the comparative analysis of foreign mature tools, and introduce the system development and the idea of modularization to construct the model.

[Results]

The automatic semantic annotation system model includes system input module, semantic processing module, Ontology knowledge module, semantic tagging module and storage module. The overall algorithm thought and automatic labeling algorithm of Ontology thought are also analyzed.

[Limitations]

Relevant algorithms involved in the automatic semantic annotation model are still in development, this article only analyzes the main algorithm thoughts and instructions.

[Conclusions]

The automatic semantic annotation model can provide references for the design of Chinese semantic annotation tool.

Keyword: Digital library; Semantic annotation; Knowledge organization; Knowledge services; System model

Show Figures

1 引言

数字图书馆服务正在从提供传统的文献类信息产品(Information Items)向着提供信息内容(Information Content)转变, 从传统的文献信息服务向着知识服务转变^{[ 1]}。利用语义Web及相关技术, 通过本体揭示元数据的语义, 动态加工提取、组织信息知识, 将数字图书馆可获取的海量文献资源和普通网页转换为富含语义信息和知识的语义页面, 是数字图书馆向知识服务转变的基础。其中, 语义标注(Semantic Annota-tion)及相关工具起到了至关重要的作用^{[ 2, 3]}。它可以利用形式化的知识本体系统, 实现对网络资源及资源的各个部分的概念类、概念属性和其他元数据进行标注, 关联数字图书馆资源中的实体及对应的本体实例, 为语义推理提供基础^{[ 4, 5, 6]}。

语义标注工具有手工标注、半自动标注、自动化标注几种类型^{[ 7]}。由于数字图书馆资源的几何级增长, 越来越需要大规模的自动化标注, 所以自动化语义标注工具的地位也显得越来越重要。国外关于自动化语义标注工具的开发和实践应用发展较快^{[ 8, 9]}, 已经有不少较成熟的自动化标注工具可以利用。Semanticweb.org列出了目前已有的语义标注相关工具^{[ 10]}, 较常见的有:

(1) 监督学习类自动化语义标注工具, 如KMI (Knowledge Media Institute)研发的MnM^{[ 11]}、OntOMat^{[ 12]}、AKT (Advanced Knowledge Technologies)^{[ 13]}项目的Melita^{[ 14]}等;

(2) 非监督学习类自动化语义标注工具, 如IBM研发的SemTag^{[ 15, 16]}、Armadillo^{[ 17]}等;

(3) 无学习类自动化语义标注工具, 如Maryland大学研发的SHOE (Simple HTML Ontology Extension) Knowledge Annotator^{[ 18]}和SMORE^{[ 19]}、Manchester 大学和Southampton 大学共同研发的COHSE^{[ 20]}、OntoText实验室的KIM Semantic Annotation Platform^{[ 21, 22]}、集成化的Word文档语义标注工具Semantic Word^{[ 23]}等。

国内学者和机构的研究最初集中在对国外语义标注技术和工具的介绍和比较^{[ 24, 25, 26, 27]}, 这些研究成果发表年份基本在2009年以前, 近年来开始多样化探讨语义标注的技术和方法, 包括对单一文本对象、网页以及多媒体资源等。如荆涛等^{[ 28]}探索了Web上中文语句的RDF表示方法; 李济洪等^{[ 29]}探讨了基于自然语言的汉语框架语义角色自动标注方法; 郑莉等^{[ 30]}提出的学习对象元数据的XML绑定规范——CELTS-3.2, 为自动标注中文语义关系提供了参考; 牟冬梅^{[ 31]}对数字图书馆知识组织语义互联策略及其应用进行了总结和探索; 史玉翡^{[ 32]}对用于信息抽取的自动标注技术进行了研究; 杨舟^{[ 33]}分析和研究了基于自然语言处理的专利文档自动语义标注方法; 于晓繁^{[ 34]}提出了一种基于本体和元数据的语义标注模型——语义标注瀑布模型(Waterfall Model)和协作式语义标注系统架构, 选择WordNet本体库实例, 利用GATE语义标注平台进行了试验; 张泓博^{[ 35]}探讨和设计了面向领域文档的自动语义标注方法; 谢铭^{[ 36]}探讨了异构网络中概念性内容及关系在知识表示中的语义映射、加载机理, 以及深层复杂多元关系的本体自动生成机制, 提出了一种面向海量网络资源的启发式集成学习自动语义标注策略和系统方法。

国内还有相关的持续项目研究, 例如中国科学院文献情报中心牵头的Journal 3.0研究项目^{[ 37]}, 利用具体的期刊作为语义标注和出版的初步试点, 促成了研究人员与业内企业的合作探索。这些研究和实践对推动中文自动化语义标注的发展起到了积极的作用。相比国外的大量实践和成熟模式, 中文自动化语义标注工具的设计和应用发展滞后, 相关的标注技术和方法还需要在不断的实践和应用中进一步完善, 目前鲜见比较成熟的中文自动化语义标注系统可以为国内的数字图书馆所利用。因此, 笔者在分析主流自动化语义标注工具和技术框架的基础上, 构建数字图书馆自动化语义标注工具系统模型, 并对其中的关键算法进行分析, 以期为中文自动语义标注工具系统的研究和实现提供参考。

2 语义标注工具及相关技术综述

2.1 标注理论框架

目前, 常见的语义Web标注框架基础为W3C的Annotea^{[ 38]}标注框架和Karlsruhe大学的CREAM^{[ 39]}标注框架, 二者的比较如表1所示:

表1 Annotea与 CREAM比较

Annotea和CREAM 这两种语义Web框架的核心点不同, Annotea重视协作共享, 基于此框架的许多自动语义标注工具都具有良好的用户使用界面, 在分布式知识标注和共享方面表现突出; 而CREAM则强调深层次Web和历史数据的标注, 基于此框架产生了许多深入应用类自动化语义标注工具。深层次Web数据标注可以使标注结果与Web页面一起自动生成, 对历史数据标注的重视也提升了对数据库资源的自动化标注水平, 这可以提高用户对标注文档的控制能力, 将标注结果与Web文档存储在一起或单独存储。并且, CREAM框架可以利用关系元数据对包含关系的实例进行标注, 这是构建知识语义关联、提供语义服务的基础。语义标注框架给语义标注工具提供了理论指导。

2.2 语义标注工具类型

根据标注方法的不同, 语义标注工具可以分为基于机器学习类(Machine Learning-based)、基于模式类(Pattern-based)和综合类(Multistrategy)三种主要类型, 其方法类别、特点和代表工具比较如表2所示:

表2 三种主要语义标注工具比较

(1) 基于机器学习的标注方法通过建立语义概念模型, 并利用模型将标注结果推广到整个语料库, 通过一些机器学习的方法来发现文档模式或规则。基于机器学习类的语义标注工具主要采用概率法和归纳法, 概率法采用统计方法来预测标注文档中实体的位置, 例如用隐马尔科夫模型等来寻找Web文档中实体的位置; 归纳法则采用自然语言处理以及结构分析等对Web文档进行标注。

(2) 基于模式类的语义标注工具主要采用模式发现和规则定义方法。模式发现先定义一个初始的实体集, 通过扫描语料库发现实体存在的模式, 依据模式再发现新的实体, 反复执行该过程, 直到不再发现新的实体或者用户停止整个过程。规则定义是利用人工定义的规则在标注文档中发现实体从而实现标注的方法。

(3) 综合类语义标注工具结合了基于机器学习类以及基于模式类两种方法, 可以充分利用它们的优势。目前已有本体识别系统中利用了该类方法, 如On-To-Knowledge, 但很少有语义标注工具使用这种方式进行语义标注。虽然国际上将两种方法相结合的语义标注研究很多, 但应用尚且没有非常标准的处理方式, 特别是中文自然语言处理方面有待进一步研究。只有采用可扩展架构设计的语义标注工具才可以提供基于机器学习和基于模式的系统^{[ 40]}。

3 自动化语义标注工具的系统模型

在分析和比较国外常见的自动语义标注工具的特点和不足的基础上, 结合自动化语义标注工具在数字图书馆应用中的适用性, 本研究构建了数字图书馆自动化语义标注工具的系统模型架构, 如图1所示:

	Figure Option View Download New Window
	图1 自动化语义标注工具的系统模型架构

从图1可以看出, 该自动化语义标注工具的系统模型架构主要包括系统输入模块、语义处理模块、本体知识模块、语义标注模块和存储模块。用户在友好的输入界面输入待标注文档, 自动标注工具系统支持如XML、HTML、PDF、TXT、RTF、Email、音频、视频文件等, 不符合自动标注条件的文档返回给用户重新输入, 符合标注条件的文档被提交给语义数据处理模块。

数据处理模块先对待标注文档进行预处理, 如去除英文单词中的助词和代词等停用词, 进行词根还原等, 提取实际需要标注的内容, 通过支持多语言的语法分析, 利用自动分词工具等, 如嵌入中国科学院计算技术研究所开发的 ICTCLAS(Institute of Computing Technology, Chinese Lexical Analysis System)软件功能模块等^{[ 41]}, 提取待标注文档的特征向量, 并利用本体对概念的一致性认识来帮助提取特征向量。相对于英文文档, 中文文档的分词难度较大, 在分词时还应借助中文词典, 特别是数字图书馆资源中包含了大量的学术文献和资料, 分词时更需要借助一些学科专业的中文词典。对待标注文档完成数据处理后, 形成含有特征向量的模型文档, 提交给本体知识模块。

本体知识模块提供两种类型的本体支持标准的术语表示和语义异质调整: 一种是对常见概念及关系等进行描述的通用本体, 如顶层本体; 另一种是对某种专业领域知识的概念及关系等进行描述的专门本体, 如领域本体。通过对经过处理的语义数据集进行测试训练, 在经过规则发现、规则生成、规则评估和规则应用4个阶段, 可以实现语义规则的制定和应用。若要自行开发自动化语义标注工具, 这一过程是必不可少的; 若是对现有标注工具进行二次开发和改进, 如利用自动化标注的开源软件工具, 用户也可以在原有的基础上, 根据语义标注的具体任务和目标进行改进, 构造新的规则知识库。

语义标注模块的功能是对待标注文档具体实施自动化语义标注, 并实现可视化发布。标注过程主要是由页面编辑工具和语义标注插件来完成, 标注的结果形成元数据知识库, 并通过语义标注模块实现语义页面的可视化呈现及文档发布。另外, 语义标注结果还能进行反馈, 进一步完善本体的概念、实例、关系等。

存储模块根据数字图书馆用户的不同需要, 提供多种语义标注结果的存储方式, 如独立存储和嵌入式存储。

(1) 独立存储支持标注结果和被标注文档分开存储为独立的文件, 便于将被标注文档和标注结果分别发送给不同的个人用户或单位用户, 方便建立公共语义标注结果数据库共享系统, 主要采用链接的方式, 将待标注文档中的实体与其语义描述元数据相连, 元数据中包括实体的类和实例信息, 存在知识库中。

(2) 嵌入式存储向待标注文档中加入标签来增加语义信息, 支持将标注结果嵌入到被标注文档中, 直观明了, 方便数字图书馆用户直接利用。

其标注结果又可以分为文档集(Document-level)标注和字符级(Character-level)标注两种形式, 如图2所示, 人工和自动代理都可以识别和处理语义标注文档。独立存储的灵活性较好, 可以随着语义环境及用户需求的变化而变化, 是用户针对性较强的动态存储; 嵌入式存储维护起来比较容易, 但存储内容的容积方面相对较差。

	Figure Option View Download New Window
	图2 两种结果存储方式比较

4 关键算法及分析

4.1 自动语义标注系统模型的总体算法

系统模型的输入为自定义数据, 如XML、HTML、PDF、TXT、音频、视频等数字图书馆资源文档, 系统模型的输出为实现语义标注后的知识点本体^{[ 36]}。总体算法如下所示:

自动语义标注总体算法思想

Input:Self-Defined Documents

Self-Defined Documents→ RDF Triple Data; //将文档转换为RDF三元组数据

RDF Triple Data→Linked Data; //加工为关联数据

Linked Data→Storaged Linked Data; //存储关联数据并建立索引

Storaged Linked Data→Ontology; //创建本体

Ontology semantic annotation; //本体自动语义标注

Output: Annotated Topic Ontology

可以看出, 整体的算法思想是: 将输入的数字图书馆资源文档转换为RDF三元组数据; 加工RDF三元组数据, 形成关联数据; 存储关联数据, 编制索引; 利用经过存储和索引的关联数据, 创建本体; 对本体进行自动语义标注, 输出标注结果。

4.2 自动本体标注算法

自动本体标注是整个自动语义标注系统模型的核心, 其算法思想是针对输入的XML、HTML、PDF、TXT、音频、视频等数字图书馆资源文档数据, 输出标注的概念、属性、语义关系的OWL文档数据。其中, 利用输入的数字图书馆资源文档中对应项与本体间的映射, 调用概念的层次聚类算法、概念关联算法等来识别概念、属性。依据已有的关联数据和知识表示的自动语义标注技术^{[ 35, 36]}, 本研究修改自动本体标注算法说明, 如下所示:

自动本体标注算法

Input: Self-Defined Ontology Data

Pre-Process; //对输入文档数据进行预处理, 判断其类型

Call概念的层次聚类算法; //输入为概念集合, 输出为类集合

Call类及属性获取算法; //输入为源于网络学习资源的经预处理后文本, 输出为类、属性表达

IF Propriate Item in Ontology THEN

Class Mapping;

Call概念关联度算法; //输入为上一步骤得到的所有概念的特征词模型, 输出为存在关系的概念对及其关联性的集合

Property Associate; //查询本体, 如果存在对应项, 与正确本体匹配, 输出OWL文件

OWL Generating;

END IF

Topic Relation Computing;

IF (Non-Class Hierarchy Computing) >Threhold THEN

SameAs Relation Indexing List Generation; //非类属关系计算, 超过设定阈值, 标记为SameAs关系

OWL Generating;

END IF

Class Hierarchy Computing;

Topics Positions on Time Line;

IF (Topics' Property Inheritance Computing) >Threhold THEN

Previous and Succ Relation Indexing List Generation; //概念属性继承性计算, 超过阈值, 标记为前后序关系

OWL Generating;

END IF

Including Relation Indexing List Generation; //标记为包含关系

OWL Generating;

Output: SameAs/ Previous and Succ/ Including Relation in OWL

可以看出, 自动本体标注算法计算过程中, 调用了概念的层次聚类算法、类及属性获取算法等。这些算法及其改进的相关研究很多, 如N元模型分析、分类标签匹配、隐马尔科夫模型等。需要指出的是, 数字图书馆自动化语义标注系统工具在设计实现时应考虑在系统输入模块中, 对不同类型的数字图书馆资源文档先进行预处理, 然后再进行语义数据处理和关系判断, 并针对不同类型的文档提供相应的算法和处理方法, 可供用户人工选择或系统自动识别。这样可以降低概念关联性算法的复杂度, 大大提高系统运行的效率, 提高自动化语义标注的准确度。例如对符合RDF、OWL格式要求的Web文档可直接进行本体映射, 可以减少关系判断命令的执行次数, 提升标注效率。

4.3 标注结果说明

将标注结果存储为TXT文件可以大量节约存储空间, 以TXT文件存储方式为例对标注结果进行说明。本研究选择我国著名图书馆学家吴慰慈教授的两部著作《图书馆学概论》和《图书馆学基础》, 设计对其进行标注的结果片段, 如下所示。标注结果存储在文档中, 首先是Web文档的源代码, 接着存储标注的结果, 用“##”分隔, 属性之间用“££”分隔, 属性名称与值之间用“&&”分隔, 元组之间用“@@”分隔。

吴慰慈 -- 图

书馆学概论

(￥35.00)

££Trigger(Author)&&吴慰慈

££Trigger(BookTitle)&&图书馆学概论

££Trigger(Price)&&￥35.00

吴慰慈 -- 图书馆

学基础

(￥35.00)

££Trigger(Author)&&吴慰慈

££Trigger(BookTitle)&&图书馆学基础

££Trigger(Price)&&￥35.00

5 结语

中文语义的复杂度较高, 使得国内自动化语义标注工具的开发和应用相对滞后。本文在总结国内外语义标注工具相关研究现状的基础上, 比较常见的语义标注框架以及语义标注工具, 分析其特点, 在此基础上构建自动化语义标注工具的系统模型, 分析整体算法思想以及自动本体标注算法思想, 并给出标注结果的片段实例, 为自动化语义标注工具的发展以及国内数字图书馆的资源描述、知识关联、智能检索和可视化呈现等方面的语义标注工具应用提供了一些参考。下一步研究方向是将本文的构建模型和算法思想细化和完善, 更进一步开发和设计自动化语义标注工具, 并将其应用于数字图书馆资源的自动化语义标注实验和实践。信息技术在飞速发展, 各种新的语义应用工具和方法不断涌现。相信随着语义标注研究和实践的不断深入, 成果会越来越丰富, 自动化语义标注工具的发展也会越来越完善。

参考文献

View Option

[1]	张晓林. 颠覆数字图书馆的大趋势[J]. 中国图书馆学报, 2011, 37(5): 4-12. (Zhang Xiaolin. The Trends That Will Disrupt Digital Libraries[J]. Journal of Library Science in China, 2011, 37(5): 4-12. ) [本文引用:1] [CJCR: 2.697]
[2]	Mcllraith S A, Son T C, Zeng H. Semantic Web Services[J]. IEEE Intelligent Systems, 2001, 16(2): 46-53. [本文引用:1] [JCR: 2.154]
[3]	戴维民等. 语义网信息组织技术与方法[M]. 上海: 学林出版社, 2008. (Dai Weimin, et al. Technologies and Methods of Semantic Web Information Organization[M]. Shanghai: Xuelin Press, 2008. ) [本文引用:1]
[4]	Euzenat J. Eight Questions about Semantic Web Annotations[J]. IEEE Intelligent Systems, 2002, 17(2): 55-62. [本文引用:1] [JCR: 2.154]
[5]	Hand schuh S, Staab S. Annotation of the Shallow and the Deep Web[A]. // Hand schuh S, Staab S. Annotation for the Semantic Web[M]. Amsterdam, The Netherland s: IOS Press, 2003: 25-45. [本文引用:1]
[6]	Hand schuh S. Creating Ontology-based Metadata by Armotation for the Semantic Web[D]. Karlsruhe: University of Karlsruhe(TH), Institut AIFB, 2005. [本文引用:1]
[7]	Reeve L, Han H. Survey of Semantic Annotation Platforms[OL]. [2014-02-06]. http://citeseerx.ist.psu.edu/viewdoc/download?doi=10.1.1.69.7546&rep=rep1&type=pdf. [本文引用:1]
[8]	Zouaq A, Gasevic D, Hatala M. Voting Theory for Concept Detection[C]. In: Proceedings of the 9th International Conference on the Semantic Web: Research and Applications (ESWC’12). Berlin, Heidelberg: Springer-Verlag, 2012: 315-329. [本文引用:1]
[9]	Magka D, Motik B, Horrocks I. Modelling Structured Domains Using Description Graphs and Logic Programming[C]. In: Proceedings of the 9th International Conference on the Semantic Web: Research and Applications (ESWC’12). Berlin, Heidelberg: Springer-Verlag, 2012: 330-344. [本文引用:1]
[10]	Semantic Web. Current Tools on Semanticweb. org [OL]. [2013-07-25]. http://semanticweb.org/wiki/Tools. [本文引用:1]
[11]	Vargas-Vera M, Motta E, Dominguc J, et al. MnM: Ontology Driven Semi-Automatic and Automatic Support for Semantic Mark-up [C]. In: Proceedings of the 13th International Conference on Knowledge Engineering and Knowledge Management (EKAW’02). London: Springer-Verlag, 2002: 379-391. [本文引用:1]
[12]	Hand schuh S, Staab S, Ciravegna F. S-CREAM-Semi- automatic CREAtion of Metadata[C]. In: Proceedings of the 13th International Conference on Knowledge Engineering and Knowledge Management (EKAW’02). London: Springer- Verlag, 2002: 358-372. [本文引用:1]
[13]	Advanced Knowledge Technologies[OL]. [2013-05-26]. http://www.aktors.org/akt/. [本文引用:1]
[14]	Ciravegna F, Dingli A, Petrelli D, et al. User-system Cooperation in Document Annotation Based on Information Extraction[C]. In: Proceedings of the 13th International Conference on Knowledge Engineering and Knowledge Management (EKAW’02). Berlin, Heidelberg: Springer- Verlag, 2002: 122-137. [本文引用:1]
[15]	Dill S, Eiron N, Gibson D, et al. A Case for Automated Large Scale Semantic Annotation[OL]. [2014-02-06]. http://www.websemanticsjournal.org/index.php/ps/article/viewFile/30/28. [本文引用:1]
[16]	Dill S, Eiron N, Gibson D, et al. SemTag and Seeker: Bootstrapping the Semantic Web via Automated Semantic Annotation[OL]. [2014-02-06]. http://what.csc.villanova.edu/~cassel/9010SemanticWeb/SemTag%20and%20Seeker%20Bootstrapping%20the%20semantic%20web%20via%20automated%20semantic%20annotation.pdf. [本文引用:1]
[17]	Ciravegna F, Chapman S, Dingli A, et al. Learning to Harvest Information for the Semantic Web[C]. In: Proceedings of the 1st European Semantic Web Symposium. Berlin, Heidelberg: Springer-Verlag, 2004: 312-326. [本文引用:1]
[18]	Heflin J D. Towards the Semantic Web: Knowledge Representation in a Dynamic, Distributed Environment [D]. Maryland : University of Maryland , 2001. [本文引用:1]
[19]	SMORE-Semantic Markup, Ontology and RDF Editor [DB/ OL]. [2013-05-06]. http://www.mindswap.org/papers/SMORE.pdf. [本文引用:1]
[20]	COHSE-Conceptual Open Hypermedia Services Environ-ment Fact-file[EB/OL]. [2013-05-06]. http://www.aktors.org/technologies/cohse/. [本文引用:1]
[21]	Popov B, Kiryakov A, Kirilov A, et al. KIM-Semantic Annotation Platform[OL]. [2014-02-06]. https://www.ontotext.com/sites/default/files/publications/KIM_SAP_ISWC168.pdf. [本文引用:1]
[22]	Popov B, Kirayakov A, Ognyanoff D, et al. KIM—A Semantic Platform for Information Extraction and Retrieval[J]. Natural Language Engineering, 2004, 10(3-4): 375-392. [本文引用:1] [JCR: 0.474]
[23]	Tallis M. Semantic Word Processing for Content Authors [OL]. [2014-02-06]. http://ftp.informatik.rwth-aachen.de/Publications/CEUR-WS/Vol-101/Marcelo_Tallis.pdf. [本文引用:1]
[24]	邹亮, 廖述梅. 基于本体的语义标注工具比较与分析[J]. 计算机应用, 2004, 24(S1): 328-330. (Zou Liang, Liao Shumei. Comparison and Analysis of Ontology-based Semantic Annotation Tools[J]. Journal of Computer Applications, 2004, 24(S1): 328-330. ) [本文引用:1] [CJCR: 0.646]
[25]	陶皖, 李平, 廖述梅. 当前基于本体的语义标注工具的分析[J]. 安徽工程科技学院学报: 自然科学版, 2005, 20(2): 52-55. (Tao Wan, Li Ping, Liao Shumei. Analysis and Summary of Current Ontology-based Semantic Annotation Tools[J]. Journal of Anhui University of Technology and Science, 2005, 20(2): 52-55. ) [本文引用:1] [CJCR: 0.3554]
[26]	廖述梅. 基于本体的语义标注原型评述[J]. 计算机工程与科学, 2006, 28(9): 123-125, 128. (Liao Shumei. Comments on Ontology-Based Semantic Annotation Prototypes[J]. Computer Engineering & Science, 2006, 28(9): 123-125, 128. ) [本文引用:1] [CJCR: 0.492]
[27]	鞠彦辉, 刘闯. 国外典型语义标注平台的比较研究[J]. 现代情报, 2009, 29(1): 215-217. (Ju Yanhui, Liu Chuang. Comparative Study on Foreign Representative Semantic Annotation Platforms[J]. Journal of Modern Information, 2009, 29(1): 215-217. ) [本文引用:1]
[28]	荆涛, 左万利, 孙吉贵, 等. 中文网页语义标注: 由句子到 RDF 表示[J]. 计算机研究与发展, 2008, 5(7): 1221-1231. (Jing Tao, Zuo Wanli, Sun Jigui, et al. Semantic Annotation of Chinese Web Pages: From Sentences to RDF Representations[J]. Journal of Computer Research and Development, 2008, 45(7): 1221-1231. ) [本文引用:1]
[29]	李济洪, 王瑞波, 王蔚林, 等. 汉语框架语义角色的自动标注[J]. 软件学报, 2010, 21(4): 597-611. (Li Jihong, Wang Ruibo, Wang Weilin, et al. Automatic Labeling of Semantic Roles on Chinese FrameNet[J]. Journal of Software, 2010, 21(4): 597-611. [本文引用:1] [CJCR: 2.181]
[30]	郑莉, 史元春. 学习对象元数据: XML绑定规范CELTS-3. 2[EB/OL]. [2014-02-02]. http://www.celtsc.edu.cn/680751c665875e93/folder.2006-04-03.8417036039/celts-3/celts-3-2-ts.pdf. (Zheng Li, Shi Yuanchun. Learning Object Metadata: Binding Stand ard for XML CELTS-3. 2[EB/OL]. [2014-02-02]. http://www.celtsc.edu.cn/680751c665875e93/folder.2006-04-03.8417036039/celts-3/celts-3-2-ts.pdf [本文引用:1]
[31]	牟冬梅. 数字图书馆知识组织语义互联策略及其应用研究[D]. 长春: 吉林大学, 2009. (Mu Dongmei. Study on Semantic Interconnection Strategy and Application of Digital Library Knowledge Organization[D]. Changchun: Jilin University, 2009. ) [本文引用:1]
[32]	史玉翡. 用于信息抽取的自动标注技术研究[D]. 大连: 大连海事大学, 2010. (Shi Yufei. Automatic Annotation Technique for Information Extraction[D]. Dalian: Dalian Maritime University, 2010. ) [本文引用:1] [CJCR: 0.3688]
[33]	杨舟. 基于自然语言处理的专利文档自动语义标注方法研究[D]. 杭州: 浙江大学, 2011. (Yang Zhou. Research on NLP-Based Automatic Semantic Annotation for Patent Document[D]. Hangzhou: Zhejiang University, 2011. ) [本文引用:1]
[34]	于晓繁. 基于本体和元数据的语义标注平台模型与系统架构研究[D]. 淄博: 山东理工大学, 2012. (Yu Xiaofan. Model and System Architecture of Semantic Annotation Platform Based on Ontology and Metadata[D]. Zibo: Shand ong University of Technology, 2012. ) [本文引用:1]
[35]	张泓博. 面向领域文档的自动语义标注方法研究[D]. 重庆: 重庆大学, 2012. (Zhang Hongbo. Research on Automatic Semantic Annotation for Domain Documents[D]. Chongqing: Chongqing University, 2012. ) [本文引用:2] [CJCR: 0.5316]
[36]	谢铭. 关联数据和知识表示的自动语义标注技术[D]. 武汉: 武汉大学, 2012. (Xie Ming. Linked Data and Knowledge Representation Automatic Semantic Annotation[D]. Wuhan: Wuhan University, 2012. ) [本文引用:3] [CJCR: 0.2893]
[37]	图书情报知识平台(Journal 3. 0)[OL]. [2013-06-26]. http://124.16.154.79/goinfotech/. [本文引用:1]
[38]	Annotea Project[EB/OL]. [2014-02-26]. http://www.w3.org/2001/Annotea/. [本文引用:1]
[39]	Hand schuh S, Staab S, Studer R. Leveraging Metadata Creation for the Semantic Web with CREAM [OL]. [2014- 02-26]. http://userpages.uni-koblenz.de/~staab/Research/Publications/ki2003.pdf. [本文引用:1]
[40]	Reeve L, Han H. Survey of Semantic Annotation Platforms [EB/OL]. [2013-12-02]. http://citeseerx.ist.psu.edu/viewdoc/download?doi=10.1.1.69.7546&rep=rep1&type=pdf. [本文引用:1]
[41]	NLPIR汉语分词系统[OL]. [2014-02-26]. http://ictclas.nlpir.org/.(ICTCLAS[OL]. [2014-02-26]. http://ictclas.nlpir.org/ [本文引用:1]

2011

0.0

2.697

... 1 引言数字图书馆服务正在从提供传统的文献类信息产品(Information Items)向着提供信息内容(Information Content)转变, 从传统的文献信息服务向着知识服务转变^[1] ...

2001

2.154

0.0

... 其中, 语义标注(Semantic Annota-tion)及相关工具起到了至关重要的作用^[2,3] ...

2008

0.0

... 其中, 语义标注(Semantic Annota-tion)及相关工具起到了至关重要的作用^[2,3] ...

2002

2.154

0.0

... 它可以利用形式化的知识本体系统, 实现对网络资源及资源的各个部分的概念类、概念属性和其他元数据进行标注, 关联数字图书馆资源中的实体及对应的本体实例, 为语义推理提供基础^[4,5,6] ...

2003

0.0

2005

0.0

2014

0.0

... 语义标注工具有手工标注、半自动标注、自动化标注几种类型^[7] ...

2012

0.0

... 国外关于自动化语义标注工具的开发和实践应用发展较快^[8,9], 已经有不少较成熟的自动化标注工具可以利用 ...

2012

0.0

... 国外关于自动化语义标注工具的开发和实践应用发展较快^[8,9], 已经有不少较成熟的自动化标注工具可以利用 ...

2013

0.0

... org列出了目前已有的语义标注相关工具^[10], 较常见的有: ...

2002

0.0

... (1) 监督学习类自动化语义标注工具, 如KMI (Knowledge Media Institute)研发的MnM^[11]、OntOMat^[12]、AKT (Advanced Knowledge Technologies)^[13]项目的Melita^[14]等 ...

2002

0.0

... (1) 监督学习类自动化语义标注工具, 如KMI (Knowledge Media Institute)研发的MnM^[11]、OntOMat^[12]、AKT (Advanced Knowledge Technologies)^[13]项目的Melita^[14]等 ...

2013

0.0

... (1) 监督学习类自动化语义标注工具, 如KMI (Knowledge Media Institute)研发的MnM^[11]、OntOMat^[12]、AKT (Advanced Knowledge Technologies)^[13]项目的Melita^[14]等 ...

2002

0.0

... (1) 监督学习类自动化语义标注工具, 如KMI (Knowledge Media Institute)研发的MnM^[11]、OntOMat^[12]、AKT (Advanced Knowledge Technologies)^[13]项目的Melita^[14]等 ...

2014

0.0

... (2) 非监督学习类自动化语义标注工具, 如IBM研发的SemTag^[15,16]、Armadillo^[17]等 ...

2014

0.0

... (2) 非监督学习类自动化语义标注工具, 如IBM研发的SemTag^[15,16]、Armadillo^[17]等 ...

2004

0.0

... (2) 非监督学习类自动化语义标注工具, 如IBM研发的SemTag^[15,16]、Armadillo^[17]等 ...

2001

0.0

... (3) 无学习类自动化语义标注工具, 如Maryland大学研发的SHOE (Simple HTML Ontology Extension) Knowledge Annotator^[18]和SMORE^[19]、Manchester 大学和Southampton 大学共同研发的COHSE^[20]、OntoText实验室的KIM Semantic Annotation Platform^[21,22]、集成化的Word文档语义标注工具Semantic Word^[23]等 ...

2013

0.0

2013

0.0

2014

0.0

2004

0.474

0.0

2014

0.0

2004

0.0

0.646

... 国内学者和机构的研究最初集中在对国外语义标注技术和工具的介绍和比较^{[24,25,26,27]}, 这些研究成果发表年份基本在2009年以前, 近年来开始多样化探讨语义标注的技术和方法, 包括对单一文本对象、网页以及多媒体资源等 ...

2005

0.0

0.3554

. 2005, 20(2):52-55

Analysis and Summary of Current Ontology-based Semantic Annotation Tools

基于本体的语义标注工具使用已有本体在Web页面中插入语义元数据信息,从而使Web页的内容机器可识别,它完成的是构建语义Web的基础性工作.本文将对当前基于本体的语义标注工具进行分析和比较,并总结和探讨基于本体的语义标注工具的发展趋势.

2006

0.0

0.492

. 2006, 28(9):123-125, 128

Comments on Ontology-Based Semantic Annotation Prototypes

实现语义Web构想的关键是利用本体词汇来标注Web资源,如Web页、服务等,基于本体的语义标注原型就是用于支持内容创建者在Web页中添加语义元数据,使其内容被人和机器所理解.本文首先简介现有基于本体的标注原型,然后从不同角度综述了各原型,并进行了对照比较,最后指出了现有原型的不足.

2009

0.0

. 2009, 29(1):215-217

Comparative Study on Foreign Representative Semantic Annotation Platforms

本文简要介绍了国外典型的语义标注平台,详细比较了它们的特点,分析了这些平台的不足,展望了语义标注的发展趋势.

2008

0.0

. 2008, 5(7):1221-1231

Semantic Annotation of Chinese Web Pages: From Sentences to RDF Representations

语义网远景的实现需要自动化的语义标注方法,提出了一种在领域本体指导下,针对中文网页的语义标注方法,运用统计学方法与自然语言处理技术,以文档中句子为处理对象,采取识别和组合两个阶段来完成句子向RDF表示的映射,它具有以下特点:以统计方法获得领域相关词汇,构造领域词汇标注列表作为外部领域知识,降低对通用语言本体的依赖;显式的属性类型标注方法识别出句子中表达关系的词汇,标注为属性类型,利于后续关系抽取;构造句子的句法依存关系树(森林),按照依存关系对词汇进行组合,形成RDF陈述.实验结果显示此方法较基于主谓宾语法关系的语义标注方法更为有效.

... 如荆涛等^[28]探索了Web上中文语句的RDF表示方法 ...

2010

0.0

2.181

. 2010, 21(4):597-611

Automatic Labeling of Semantic Roles on Chinese FrameNet

基于山西大学自主开发的汉语框架语义知识库(CFN),将语义角色标注问题通过IOB策略转化为词序列标注问题,采用条件随机场模型,研究了汉语框架语义角色的自动标注.模型以词为基本标注单元,选择词、词性、词相对于目标词的位置、目标词及其组合为特征.针对每个特征设定若干可选的窗口,组合构成模型的各种特征模板,基于统计学中的正交表,给出一种较优模板选择方法.全部实验在选出的25个框架的6 692个例句的语料上进行.对每一个框架,分别按照其例句训练一个模型,同时进行语义角色的边界识别与分类,进行2-fold交叉验证.在给定句子中的目标词以及目标词所属的框架情况下,25个框架交叉验证的实验结果的准确率、召回率、F1-值分别达到74.16%,52.70%和61.62%.

... 李济洪等^[29]探讨了基于自然语言的汉语框架语义角色自动标注方法 ...

2014

0.0

... 郑莉等^[30]提出的学习对象元数据的XML绑定规范——CELTS-3 ...

2009

0.0

... 牟冬梅^[31]对数字图书馆知识组织语义互联策略及其应用进行了总结和探索 ...

2010

0.0

0.3688

... 史玉翡^[32]对用于信息抽取的自动标注技术进行了研究 ...

2011

0.0

... 杨舟^[33]分析和研究了基于自然语言处理的专利文档自动语义标注方法 ...

2012

0.0

... 于晓繁^[34]提出了一种基于本体和元数据的语义标注模型——语义标注瀑布模型(Waterfall Model)和协作式语义标注系统架构, 选择WordNet本体库实例, 利用GATE语义标注平台进行了试验 ...

2012

0.0

0.5316

. 2012, :-

Research on Automatic Semantic Annotation for Domain Documents[D]

... 张泓博^[35]探讨和设计了面向领域文档的自动语义标注方法 ...

... 依据已有的关联数据和知识表示的自动语义标注技术^[35,36], 本研究修改自动本体标注算法说明, 如下所示: ...

2012

0.0

0.2893

... 谢铭^[36]探讨了异构网络中概念性内容及关系在知识表示中的语义映射、加载机理, 以及深层复杂多元关系的本体自动生成机制, 提出了一种面向海量网络资源的启发式集成学习自动语义标注策略和系统方法 ...

... 1 自动语义标注系统模型的总体算法系统模型的输入为自定义数据, 如XML、HTML、PDF、TXT、音频、视频等数字图书馆资源文档, 系统模型的输出为实现语义标注后的知识点本体^[36] ...

... 依据已有的关联数据和知识表示的自动语义标注技术^[35,36], 本研究修改自动本体标注算法说明, 如下所示: ...

2013

0.0

... 0研究项目^[37], 利用具体的期刊作为语义标注和出版的初步试点, 促成了研究人员与业内企业的合作探索 ...

2014

0.0

... 1 标注理论框架目前, 常见的语义Web标注框架基础为W3C的Annotea^[38]标注框架和Karlsruhe大学的CREAM^[39]标注框架, 二者的比较如表1所示: ...

2014

0.0

... 1 标注理论框架目前, 常见的语义Web标注框架基础为W3C的Annotea^[38]标注框架和Karlsruhe大学的CREAM^[39]标注框架, 二者的比较如表1所示: ...

2013

0.0

... 只有采用可扩展架构设计的语义标注工具才可以提供基于机器学习和基于模式的系统^[40] ...

0.0

... 数据处理模块先对待标注文档进行预处理, 如去除英文单词中的助词和代词等停用词, 进行词根还原等, 提取实际需要标注的内容, 通过支持多语言的语法分析, 利用自动分词工具等, 如嵌入中国科学院计算技术研究所开发的 ICTCLAS(Institute of Computing Technology, Chinese Lexical Analysis System)软件功能模块等^[41], 提取待标注文档的特征向量, 并利用本体对概念的一致性认识来帮助提取特征向量 ...