分析当前基于GATE等开源工具进行关系识别的研究,提出利用GATE和Stanford Parser构建开放式实体间语义关系识别的Rela Pair模型。实验表明,该模型可以有效识别出由动词或介词所引导的命名实体关系三元组,为后续的情报分析工作提供重要支撑。
基于Ajax技术特点,设计一个表现层与语义检索引擎的异步通信模型,解决语义检索中复杂对象的传递,通过“本体导航”实例验证该模型的可行性,从用户体验和冗余处理角度论证Ajax技术对改善语义检索性能的作用。
探讨Web Archive领域广泛使用开源软件的原因,介绍常用的开源软件,总结Web Archive开源软件的使用现状及未来发展趋势,并就开源软件在Web Archive领域应用所面临的问题进行初步分析。
通过对相关研究项目和应用的调研,对基于知识库软件和基于期刊出版软件构建Overlay期刊系统的两种主要模式的技术特点和应用趋势进行简要分析和说明,并提出一种基于OJS和OAI收割服务相结合以构建Overlay期刊系统的基本框架。
特征表示是数据聚类的关键问题之一。当前对科学数据特征表示的深度不够,从而在一定程度上影响科学数据聚类的效果。针对这一问题,提出复合文本描述的概念以及一种基于复合文本描述的科学数据特征表示方法,该方法的主要特点是运用不同的特征权重计算法分别对基于两种文本数据源的候选特征加以表示,并将两种特征集合并,最终实现强化特征集的目的。实验表明,该方法优于传统方法,使科学数据聚类的效果有明显提高。
在基于服务域划分的层次型数字图书馆网格服务发布结构基础上,提出面向用户的多阶段数字图书馆网格服务发现机制,利用“我的服务”阶段、主服务域→子服务域阶段、主服务域间转发阶段和根域→主服务域阶段完成服务发现。
Mashup作为Web2.0的特性,能够对数据资源进行整合与利用,提升数据价值。本文在论述Mashup技术特点的基础上,对Mashup应用系统开发方法进行研究,结合结构化系统开发方法,指出基于Mashup的系统开发流程。最后,在中国远洋项目中运用此方法构建了一个基于Mashup的数据融合与展示系统,为今后Mashup深层次应用提供了指导。
研究关键词提取算法,在分析可能影响关键词提取词语的各种属性并将其量化的基础上,提出并实现一种将分词与词性标注、文本预处理、线性加权算法、组合词生成与过滤、合并候选关键词等集成到一个完整框架中的模型算法。
针对基于Web页面信息本体的信息抽取不能准确划定抽取区域的缺点,设计基于本体和DOM相结合的Web信息抽取器。利用DOM树设计对样本页面信息项路径进行归纳学习的算法,该算法能准确划定信息抽取区域,降低页面噪声,实现对Web页面的预处理。实验表明,改进后的抽取方法提高了Web信息的抽准率。
《汉语主题词表》XML文档的实现对于提高词表的利用效率具有重要意义。在详细分析《汉语主题词表》各数据表之间逻辑关系基础上,利用JDOM技术实现《汉语主题词表》XML文档的自动生成。
设计并实现一个专利信息获取分析的原型系统。通过概念检索的方式扩展某一领域专利检索词,提高检索性能,同时利用XML解析技术,准确高效地抽取出检索结果页面中的专利文本信息,并将社会网络分析方法应用于专利引文分析之中。
在分析现有产品属性识别方法不足的基础上,提出一种利用自组织映射(SOM)进行属性识别的新方法,定义一种新的名为“属性叠加矩阵”的SOM显示方式。为验证该方法的有效性,以餐馆评论为样本,从中抽取饮食行业的产品属性。实验证明提出的方法识别产品属性的效果较好。
介绍构建联合网站的整体思路;联合网站的建设环境及资源组织,基于OAI收割元数据的方法和开发,并对联合网站建设过程中的关键问题进行分析。最后,介绍建立联合网站的效果和需要进一步改进的工作。
为了持续跟踪某网页的变更情况,搜索引擎需要保存多个快照版本,这会大大增加服务器的存储空间。通过增量的方法,保存快照版本间的差异可减小磁盘空间占用。采用可视化方法,使用户能从全局了解各个版本间的修订情况、从细节上了解快照任意两个版本间的差异。
从读者特征、服务质量和读者行为意愿相关性、服务质量维度对读者行为意愿影响等角度扩展服务质量评价系统的分析功能,并对系统实现的相关分析、回归分析等算法进行研究,为图书馆拓展服务质量评价系统功能提供一定的参考依据。
介绍一种新的站内搜索引擎实现,它是基于Google、Baidu等大型通用搜索引擎实现站内搜索的二次开发。与其他类似应用相比其优点是:搜索结果页面干净、无其他广告、推广信息等附加内容;能同时指定多个域名,达到在主网站、子网站及类网站间同时搜索的目的。
介绍一个以“数字资源集合”为操作对象的资源集合管理系统。对系统的总体设计进行详细介绍,包括资源集合的粒度表示、资源集合描述元数据、资源集合的功能操作,并对系统相关实现进行描述。
介绍Ezproxy系统HTTP自定义认证脚本的原理和通过HTTP协议编程实现ILASII Web认证的流程。在此基础上提出在门户网站中集成ILASII读者认证与Ezproxy校外访问系统的体系结构,并给出读者状态检测、安全密码机制及分组认证的具体实现方法。