知识组织与服务是数字图书馆发展中面临的国际性难题,对数字图书馆知识组织的产生背景、地位、作用、基础理论以及知识组织系统等方面的研究进行详细讨论,分析当前研究的不足,并指出基于本体和以用户为中心的数字图书馆的知识组织是将来的研究重点。
首先讨论CALIS分布式合作虚拟参考咨询服务系统的知识库元数据规范,介绍元数据著录单位,著录对象以及它们之间关系等有关元数据标准确立的基本性问题,然后介绍知识库元数据标准的结构、内容与应用,最后给出知识库元数据相关的问题。
介绍国家科学图书馆选择SRU作为集成服务平台协议规范的原因、背景,分析基于SRU协议的集成服务平台体系结构、实现方案,并以国家科学图书馆的用户桌面工具、新门户网站系统为例,介绍SRU平台对面向用户环境的嵌入式服务支撑作用,以此说明,其他图书馆采用相同的协议规范同样可以建设自己的SRU服务器,同样可以通过因特网为科研用户提供主动的嵌入式服务。
结合中国教育科研网格的特点,提出基于CGSP的数字图书馆资源检索模型,试图利用该网格中间件整合现有的信息资源和其它硬件、软件资源,实现对信息、硬件、软件、存储等资源的检索。最后对网格服务描述和典型作业描述等关键技术作相关叙述。
针对数字图书馆协同过滤推荐系统所面临的用户评分数据稀疏性问题,提出群体兴趣偏向度的计算方法,对用户-项目评分矩阵空缺值进行预测。实验结果表明,该算法能有效提高推荐质量。
首先从信息服务平台可适应性与系统生命周期的关系入手,阐述系统可适应性对于延长系统生命周期有着重要的影响;然后从系统架构的角度分析系统可适应性的关键架构属性;最后采用面向对象技术,以面向服务的架构为例构建一个信息服务原型,此原型相比传统面向过程、面向功能架构的信息服务改善了系统的可伸缩性、可修改性、可移植性,使信息服务平台能够更加灵活地应对信息需求的变化。
首先给出网络数字信息搜寻行为研究的内容框架,然后将计算机/网络信息检索、网络信息搜寻、消费者网络信息搜寻3类研究统一到该内容框架之下,对内容框架进行细化拓展,系统介绍各个部分的具体研究内容及其进展,并指明需进一步研究的问题。
根据Web Services管理者的不同,提出Web Services的3种可能运作机制:大企业主导的Web Services特色机制、行业类型主导的Web Services门户机制以及统一的Web Services联盟(WSUA)机制。并通过对这3种机制进行比较,得出理想的运作机制是组建统一的Web Services联盟的结论,为合法合理地得到Web Services提供方法。
在参考自然语言处理平台及知识抽取系统的系统结构的基础上,提出一个基于NLP的知识抽取系统的详细设计方案。自然语言处理过程包括分词、词性标注、句法分析、语义分析等8大模块;知识抽取过程包括论文类型分析、篇章结构分析、知识抽取、知识表示4大模块。通过对基于NLP的知识抽取系统架构的研究,明确自然语言处理与知识抽取的关系,分析出知识抽取的系统流程及关键技术。
在阐释图像语义检索中相关反馈的反馈噪声的基础上,分析反馈噪声对语义网络方法的不利影响;提出一种对反馈噪声具有鲁棒性的算法——基于投票思想的相关反馈,并对其性能进行分析;最后指出需进一步研究的问题。
为了将关联规则挖掘技术更好地应用于信息检索查询扩展,通过对基于关联规则挖掘的查询扩展模型的深入研究,归纳出4类共13种查询扩展模型,理论分析和实验比较各个查询扩展模型的检索性能,试图发现一些优秀的扩展模型。
通过对电子资源用户满意度问卷调查数据的多元线性回归分析,考查用户总体满意度与影响因子之间的相互依赖关系。通过检验回归方程的显著性,进行相关系数分析和多重共线性诊断,考查影响因子对用户总体满意程度的影响力大小,建立用户总体满意度与影响因子的回归方程式,获得策略矩阵。
研究利用数据挖掘中的关联规则挖掘分析及论文数据库,进行相关文献推荐,提出适用于进行相关文献推荐的改进的混合加权关联规则挖掘算法,并通过用户行为分析确定相关文献集和垂直权重,采用Google搜索引擎的PageRank算法确定水平权重,获得一些有意义的分析结果。
针对电子商务环境下对数据挖掘的需求,使用新一代的数据挖掘工具Clementine对具体实例进行处理,给出了数据流形式的挖掘流程,包括应用理解、数据理解、数据准备、应用模型。指出Clementine对电子商务环境下的信息发现具有巨大的发展前景。
探讨XML检索与传统信息检索的区别、XML检索的目标与任务以及XML检索系统研究的核心问题,并对现有的几个XML检索系统进行介绍和比较研究。
在分析经管类实验室信息管理特点与需求的基础上,提出一种基于元数据的实验室信息管理系统的体系结构,采用扩充的Web服务机制有效集成复杂业务处理实验功能和应用。在实现方面,利用模型管理算子讨论元数据进化过程,通过业务处理实验实例说明Web服务组合的实现。系统可满足经管类实验室的信息管理集成需求。
针对典型的分布式UDDI网络模型中语义Web服务匹配策略存在的问题,通过对经典的弹性匹配算法进行扩展,提出使用GCSM语义距离算法、类别系数和级别系数来量化Web服务的匹配程度即相似度,使得匹配结果更接近请求者的请求。
分析潜在语义索引的基本原理及其特点。针对LSI的3个因素,从特征词的选取,维数约简,特征词权重3个方面进行约定和改进。并以计算机类的科技文献作为测试文档,对改进的权重算法和改进前后LSI系统的检索结果进行分析。结果显示,特征词的选择结果及检索效果都得到较大的提高,性能稳定。
通过对比当前ISO2709格式MARC数据的常规处理方法,提出一种使用嵌套哈希表及动态数组来存储MARC数据的数据结构,并根据此数据结构进行排序及去空字段等操作,简化程序复杂度。