自主、异类、异构和分布的海量数据间的语义关联一直是知识组织和知识发现的核心问题,关联数据(Linked Data)技术的出现为此提供一种轻型、渐增化、可伸缩和可扩展的动态机制。基于对大量文献的梳理和分析,描述Linked Data的原则与技术体系,介绍Linked Data发布、Link浏览器、Linked Data搜索引擎、Link更新维护等核心技术,简要介绍若干典型应用,提出在具体领域实施Linked Data应用的关键挑战。
实践“用户驱动服务”的信息服务系统,包括三个部分:用户模型、信息技术和服务设计。通过梳理个性化交互设计,探讨以人物角色和生活实验室来实现用户驱动个性化数字图书馆系统的设计。
通过对最近10余年国外形式概念分析与概念格理论应用研究的相关成果进行归纳和梳理,重点对最有代表性和影响力的本体研究、软件工程、知识发现、Web语义检索4个领域的发展前沿和研究热点进行分析和阐述,并在此基础上对未来做出展望。
针对科研人员对于跨界信息检索数据融汇的具体需求和当前数据融汇模型研究中存在的不足,论述跨界信息检索数据融汇模型的设计,并通过一个具体的应用实例说明如何利用数据融汇模型支持跨界检索系统的设计与开发。
获取多来源、多类型表示层服务资源,形成科研领域服务资源库以及服务生产与消费的动态机制,通过构建上网起始页与门户系统进行服务呈现,并提供完善的社区与服务资源管理机制。介绍国家科学图书馆面向科研人员与科研团体的表示层集成融汇服务平台iLibrary的应用模式、设计思路与实现方法。
在介绍传统协同过滤算法的基础上,将协同过滤可扩展性改善技术归纳为6类,包括聚类、概率方法、降维、基于项目、数据集缩减以及线性模 型,重点评述各类算法的研究情况,并将其基本思路总结为两点:在尽量不影响推荐质量的前提下,缩小最近邻查询空间;定期离线进行用户相似性度量和最近邻搜寻,减小在线推荐计算量。最后探讨该领域未来的两个研究方向,即基于分布式结构的协同过滤算法、基于形式概念分析的最近邻搜寻。
从跟踪词能量演化线索的角度分析潜在爆发词探测的可行性,提出一种基于词的能量和能量增长趋势的潜在爆发词探测方法。首先对词的生命周期及其演化现象进行阐述,在方法分析和词的能量积累与衰减、能量趋势变化分析的基础上,提出建模依据,设计EneTr模型,并分别针对EneTr模型中的关键问题提出相应的解决方案,实现具体的算法,最后分别针对网络新闻和科学文献两种类型的文档流进行分析和实验,验证本方法的效果。
目前多数匿名化隐私保护技术由于其严重依赖于预先定义的泛化层或属性域上的全序关系,导致匿名结果产生很高的信息损失,数据的可用性降低。通过定义距离和代价度量函数,提出基于聚类算法构造l-多样性匿名隐私保护模型。实验结果表明,该方法可减少信息损失,提高发布数据的可用性。
基于共词分析技术,结合《中文医学主题词表》(CMeSH)和中国生物医学文献数据库(CBM)自身特点,提出基于主题词共现构建全新中文医学概念空间, 重点探讨共现主题词相关度计算算法,测试结果较佳,在一定程度上可降低CBM非专业用户对CMeSH的认知负担。
利用层次聚类算法针对多文档中文人名消歧工作进行研究,通过实验提出能够较好区分人名的特征。在特征权重的计算中,使用TF的计算方法,并通过构造识别人名的规则,提高实验效果。在191个待消歧人名的测试中,最终取得平均F值88.15%的较好实验效果。
介绍OAI-ORE协议及其数据模型在国内外的应用情况,分析OAI-ORE对于机构知识库平台建设的意义,实现其在DSpace系统平台中ORE资源图及数字资源的发布和收割,在此基础上,对OAI-ORE的进一步应用及其对机构知识库的影响进行展望。
介绍北京师范大学图书馆通过对自建资源发布系统集成接口进行开发,实现自建资源全文与OPAC书目数据整合的成功经验。资源的整合,也使得为读者提供“一站式”检索与全文获取服务得以实现。
通过文献调研对比分析国内主要查新机构的查新管理系统,介绍自主开发的中国科学院科技查新检索服务平台的设计理念、主要架构和功能,突出展示该平台的集成服务性、工作流程设计合理性和用户使用便捷性等特点,并对该平台的进一步改进提出建议。
针对文档管理中的全文检索功能的开发,综合运用Lucene.net、ICTCLAS等系列开源类库,建立文档解析器,将解析文档内容存储于数据库中;建立中文分析器,对文档记录进行索引。通过索引检索结果,并结合文档控制信息,实现具有权限控制的文档全文检索。
将Web2.0的关键技术之一的社会化标签应用到图书馆中,针对高校学科建设问题,提出基于社会化标签的学科导航系统,从设计思路、系统功能、技术实现等方面展开介绍。该系统可以实现学科资源的共建与共享,扩充社会化标签在图书馆的应用范围。