图书馆书目包含海量结构化、高质量的数据,然而这些数据通常无法应用于语义万维网。介绍使瑞典联合书目(LIBRIS)符合语义万维网和链接数据(Linked Data)协议规范的工具和技术,讨论个体资源的精确描述问题,并重点介绍资源之间的链接以及数据获取机制等方面的内容,同时还提出在同一作品的不同记录之间建立链接的方法。
论述将美国国会图书馆MARCXML格式的主题标目转换为SKOS(RDF编码格式)的技术方法。着重阐述SKOS词表的优势、可能的扩展方向以及与其他语义网词表的整合,如都柏林核心集。还介绍一个利用关联数据(Linked Data)技术在网上发布词表的Web应用。
OCLC的自动元数据映射服务(Godby, Smith and Childress, 2008)一文规范了“映射”的概念。如Gill等所定义的,隐藏起具体的技术细节,而以语义元素的对等关系作为中心内容。这样做可以让元数据专家(他们通常并不是程序员)负责建立映射所需的逻辑关系电子表格,程序据此自动将其转换成可执行的代码。论述DC-Term(限定版DC)应用纲要与MARC映射的管理及实现方法。对应用纲要进行编码时,映射方案需要在对照表的基础上增加两项内容:一是标注元素所属的命名域,二是标注“上位元素”和“下位元素”的关系,例如DC的Coverage(范围)元素和Spatial(空间)元素就存在这种关系。这些信息可以供“OCLC语义对等描述语言(Semantic Equivalence Expression Language,SEEL)”生成脚本文件,用于“元数据自动映射Web服务”进行“生产级”的元数据翻译工作。由于这样只需要关注元素,元素可以混搭、匹配、增添和再定义,因此元数据“应用纲要”(Heery and Patel,2000)非常适合采用这个翻译模型,通过成对元素之间的映射,实现元数据方案的互操作。
只要是涉及资源集合搜索,现代检索系统一般都忽略了资源集合元数据的问题。而要揭示资源集合层次的信息,一种可选的方法是通过获得资源集合级和文献单元级的元数据,从而深刻理解它们之间的关系。介绍一个对资源集合与文献单元元数据关系提供分类逻辑框架的开发项目。这个逻辑构架支持:元数据规范的开发者定义元数据元素;元数据创建者描述对象;系统设计者实现应用系统的开发,该系统能够充分利用资源集合级元数据所带来的好处。介绍资源集合与文献单元元数据之间存在的三类关系实例:“属性/值传递”、“值传递”和“值约束”,表明即便是对于这些简单的例子,一个精确的公式除了要符合一阶谓词逻辑之外,还需要引入模态概念。这些公式也属于近期信息检索和本体评价方面的研究成果。
当前,人们越来越关注协作化标签系统中标签数据的表示和共享。传统的标签(指随意标注的、没有与结构化本体相关联的标签)由于语言和语法的差异以及录入错误等,不适于做协作化处理。而且标签反映的是用户个人的观点,也不对同义词、词形变化或者其他对照映射关系做规范处理。因此笔者认为,标签的常规处理方法对语义协作的贡献非常有限,即便是有,要让计算机实现自动共享也是极其困难的。在语义层面上讨论数种协作标签标注的方法,提出一个标签协作标注和设计民俗分类法的概念模型,同时比较已有的标签本体,提出一个评价标准,并参照该标准讨论这些标签本体的优缺点。
标签形式的社会性语义越来越占据主导地位,使元数据界在这种新形式的信息内容表达和检索方面面临机遇和挑战。其中,主要的挑战是与标签相关的语境信息的缺失。以Flickr标签为例,对如何利用社会性语义资源来丰富主题元数据进行了实验。实验过程包含4个步骤:收集Flickr标签样本;通过共有信息计算标签间的同现情况;通过Google检索结果来追踪标签对的语境信息;用自然语言处理和机器学习技术来抽取标签间的语义关系。本实验能够利用Google搜索结果构建语境库,并且以自然语言处理和机器学习算法对这些语句进行处理。这种新方法对于赋予标签对以一定语义关系有相当高的准确率。也探讨该方法在利用社会性语义丰富的主题元数据方面的意义。
词性标注是语料库建设中的重要环节,同时也是自然语言处理领域的基础研究课题。针对词性标注任务中统计处理和规则处理两种方法各自的特点和局限,提出融合条件随机场模型和基于转换学习的方法来进行自动词性标注的方案。实验结果表明,该方案能够有效地提高词性标注的正确率。
针对信息检索角度的XML的结构化检索问题,利用基于倒排文件的方法,使用NEXI作为检索语言,在基于XML的数字图书馆检索实验系统WHU-XML上对其进行实现,并具体分析查询语言的解析方法以及所采用的结构化检索算法。
针对网页文本结构信息少、噪声大的特点,将句子看作点,将句子间的相似性看作边,用句子关系图描述文本中句子间的关系。抽取文本主题句的任务转化为搜索图中边最多的点。利用语义词典,将句子相似度定义为句子语义相似度,解决短文本词频相似度低的问题。选用互联网公开语料进行测试,抽取的主题句达到平均80.6%的可接受性。
明确网络信息链的5步骤分析流程,介绍信息链重构多途径多级利用、生产力、激励相容三原则,借鉴生态学的食物链设计方法,阐述增益环、减耗环、回收利用环、功能复合环4种信息链的重构方法。
首先阐述网络广告的交互性特征、人机交互界面评价理论以及将人机交互理论引入到网络广告界面评价中的可行性;其次,讨论如何利用广告效果理论对传统可用性工程方法进行改造,并提出网络广告交互界面与广告效果关系模型;基于上述讨论,设计一组实验以验证该模型的有关假设。
根据对网络舆情分析的需求,构建出基于聚类的网络舆情热点发现及分析系统。通过对样本网页文本的特征提取,构建向量空间模型,使用OPTICS算法获取网页热点簇,根据热点簇特征向量对网页进行二次聚类,从而获取关于舆情的时间演变模式,为相关领域研究提供决策支持。通过二次聚类,提高舆情网页相关度的质量,使网络舆情分析更为准确可靠。
为实现学科信息门户的资源整合,提出利用OAI-PMH作为中间元数据实现数据交换的思路。首先对OAI及OAI-PMH进行介绍,其次对OAI_DC和Mediawiki元数据进行对比,最后对元数据的转换进行分析并对其结果进行展示。
基于Library2.0研究热情高涨但实物匮乏的现状,对Library2.0产品定义概念,并以此入手,设计以用户为中心的新型OPAC系统。对该系统设计中的集成性、人性化、个性化和开放性4大特征,分别分析其设计理念和模块架构,并提出实用解决方法和相关算法实例。
介绍清华图书馆英文网站的系统架构设计和实现。选用清华同方知网网站内容管理系统进行图书馆英文网站的后台管理,通过FTP和反向代理实现网站的静态和动态内容的异地跨平台发布。在保证系统稳定、安全、可靠运行的同时,实现系统的冗余备份。