在对目前具有代表性的开源网络抓取软件Nutch、Heritrix、WCT、Web-Harvest进行比较分析的基础上,提出基于Nutch的Web网站定向采集系统,并对种子站点的选取、抓取过程管理、网页去噪、新种子站点的发现等关键问题进行重点探讨。
分析数字图书馆知识组织体系构建的层次与结构,围绕知识组织系统的构建与管理、知识组织系统的互操作、知识组织系统的存储与管理、语义元数据的生成系统4个组成部分,选取相关的开源软件,对每一结构在数字图书馆知识组织过程中的功能和作用进行说明,并对数字图书馆的知识组织体系的构建提出最佳实践和应用说明。
通过分析目前使用Wayback作为访问工具的Web Archive项目,总结出资源索引工作采用的几个典型索引策略,并对其适用范围及优缺点进行初步分析和探讨,以期为界内同行提供参考。
对开源全文检索引擎Lucene的系统架构、索引与检索过程、语言分析器进行分析的基础上,针对其对中文只能进行单字切分、双字切分的不足,二次开发基于Lucene中英文语言分析器ZH_CNAnalyzer,并给出一个调用此分析器建立索引与检索的实例。
海量数据的处理分析是当前信息处理技术的热点之一,介绍开源并行系统Hadoop的体系结构以及基于Hadoop的MapReduce编程框架,并在Hadoop基础上提出一种通过多重MapReduce操作,实现海量共现矩阵的生成方法。
将数字图书馆网格中的服务特征进行分类,基于这些特征分类进行多属性的数字图书馆网格服务描述,就数字图书馆网格中服务的语义描述层次问题进行探讨,提出基于本体的数字图书馆网格服务语义描述模型。
介绍复合数字对象相关的几个标准:METS、MPEG-21 DIDL和OAI-ORE,分析它们的基本数据模型、应用情况及特点,并重点对它们对数字处理方式进行对比。
为找出图书馆网站影响用户满意的微观因素,在提出弹性化微观自主评价的思想上,设计一套自主评价软件,供各个图书馆网站机构根据自身需要,自主选择适合自己的微观评价方案,对用户满意的底层影响因素进行自行诊断。该软件是一个高度可自定义的系统,图书馆管理员可以使用系统提供的指标体系模板创建专家权重调查问卷,也可以对创建的问卷自定义,得出各级指标题的权重,同时根据该指标体系自动创建带有问题项的普通用户满意因素调查问卷。最后对用户的调查数据进行各类统计和分析,通过三维可视化图形的方式呈现给图书馆管理员,得出今后图书馆网站需要改进的各微观因素。
以国内著名的技术网络论坛CSDN为研究实例,从中抽取出知识交流网络,采用复杂网络的分析方法进行分析,试图定量化地揭示虚拟社区中知识交流的特点。论文一方面分析知识交流网络的基本统计量,指出它具备无标度性质和小世界效应,并对其成因进行分析;另一方面通过分析知识交流网络中的“用户三角形”,揭示了虚拟社区中知识传播的两种基本图式。
利用搜狗(Sogou)2007年3月的查询日志,使用词性标注方法,得出高频词性标注结果的分布特征。发现用户在查询中以使用名词为主,动词为辅,鲜有其它词类出现在高频词性标注结果中。以“的”为代表的虚词较少地出现在高频词性标注结果中。网络搜索的查询式与自然语言在句法上存在一定差异,但也有相通之处。用户主要使用名词进行概念性检索,关键词仍为用户进行检索的主要手段。高频词性标注结果部分符合Zipf定律。
主体间知识交互的过程是一个复杂的过程,需要一个会话策略来规范主体间的交互行为,保证交互的成功。提出一种基于扩充的KQML模拟TCP协议中的握手机制的会话策略实现方法,该方法能够较好地解决主体交互中会话连接、消息的有序可靠传输等问题。
提出一种基于加权XML数据结构的用户兴趣模型构建方法,对于其中的每个XML节点都增加了表达用户个性化信息的权值,并据此设计一种对加权XML模型进行相似度比较的算法。最后,详述基于此用户兴趣模式的个性化产品推荐系统的实现方法。
使用Visual Studio.NET开发平台,C#程序设计语言,采用XML网页元数据描述框架,对网络专题知识库系统进行设计开发。对该系统的HTML网页元数据采集与XML文件生成、知识点挖掘、网络专题知识XML文件与关系型数据库快速转换等关键技术进行研究与实现。
结合图书馆的实际应用需要,对CALIS教参本地系统从实体服务器向虚拟机迁移的解决方案进行比较和选择,应用备份和虚拟机的组合技术,快速、可靠地完成CALIS教参本地系统的迁移、更新和升级,为今后基于虚拟机技术构建图书馆服务平台提供可参考的实践依据。
提出一种基于多尺度条件随机场(简称mCRF)的图像二值化算法。该算法将对图像的二值化看作一个标注过程,利用mCRF模型对图像中每个像素点进行标记,从而实现对整幅图像的二值化。mCRF模型属于判别式模型,可以容纳任意的非独立特征,从而充分利用图像本身信息。实验结果表明,本算法比常用的阈值法效果有很大提高。
课题选取四川省阿坝州旅游文献信息资源作为研究个案,按照主题图(Topic Maps)的标准,分析旅游文献组织过程中主题及类型选取原则,定义旅游文献各种主题类型之间的关联关系,结合主题图工具软件提出旅游文献主题图构建方法,并展示旅游文献主题图的组织效果。
提出一种体验评价性文章判定、抽取模型,并构造原型系统完成博客体验评价文章抽取的评价实验。该模型基于文章的基本表现特征和简单的规则,不需要进行详细的语法语义分析,只需以文章中出现的体验对象、体验行为、体验评价描述短语三者搭配强度和距离来计算、判定文章是否为体验评价性文章。评价实验结果表明基于该模型的系统具有较高的抽取精度。
系统利用GIS空间查询和空间分析功能,建立馆藏空间基础地理信息模型,将馆藏资源的属性数据与空间数据相关联,实现GIS在馆藏信息资源空间管理上的应用。系统支持具有不同使用权限的使用者在虚拟环境中实现馆藏资源的管理、检索、查询、分析和应用功能,读者可以方便地进行空间数据和属性数据的双向查询。