介绍图像资源数字加工标准的内容及其特色,探讨图书馆图像数字资源加工标准的应用,并主要就加工流程中的关联环节,例如元数据加工标准与元数据规范、文件命名规则与数字对象唯一标识符规范的关系等问题进行深入研究,以期为图书馆的图像数字资源加工工作提供理论和实践参考。
根据人机交互设计中人物角色的用户建模思想,在机构仓储系统的应用环境下,通过对用户行为日志的分析,采用K-means聚类方法识别用户行为模式,并据此划分主要用户群体类型,创建机构仓储系统的人物角色-行为特征矩阵量化模型。
以中国科学院国家科学图书馆开展专业领域知识应用环境建设为背景,通过对Vitro组成结构和功能特征的分析,提出基于Vitro的专业领域知识应用环境平台的设计方案,并介绍平台系统实现中对Vitro本地化应用开发的主要方法。
介绍术语的基本特征,探讨科技术语的自动识别方法,并结合文本特征对TF-IDF和C-value两种主流统计指标进行改进。为了区分词汇位置对文档内容的影响,分别对不同位置的候选词设置不同的权重。最后设计并实现一个统计与规则相结合的科技术语自动抽取系统,通过位置权重、C-value、TF-IDF指标的联合计算来识别术语,提高抽取的准确率。
针对主题句抽取时完整性差的问题,在对文本进行主题分割的基础上,为每个主题包构建句子关系图,并采用基于图的PageRank算法对关系图中的句子排序,选取权重大的句子作为每个主题包的主题句。实验表明,该算法抽取的主题句对全文有很好的覆盖率。
鉴于国内图像检索行为研究的缺乏,借助用户实验和行为观察技术采集用户的网络图像检索过程中的关键行为,从行为分布、浏览与检索、翻页、相关性判断等多个角度分析获得关于网络图像检索的行为策略、特征和心理的一些规律,并对网络图像检索系统的优化设计提出一些建议。
面向专利数据领域,从专利文献自身的特点及专利分析需求出发,基于RFMA算法和PCM算法提出一种改进的专利数据相似重复属性及记录检测方法,即IRPU算法。将该算法应用到专利数据中,对发明人属性和整体记录进行检测。实验结果表明,该方法适用于专利数据领域,具有较高的识别精度。
根据非相关文献知识发现的原理和思想,尝试将离散数学中传递闭包的知识运用到知识发现中,以寻找药物靶点之间的潜在关联为例,证明运用传递闭包的方法进行非相关文献知识发现的合理性和有效性,并将原有的三步知识发现模式发展为多步传递知识发现模式,得到更多的潜在关联,并保证较高的查准率和查全率。
在基于搜索日志的基础上,根据语料本身具有的特点,对“N1+N2”型结构的名词短语进行全面的描述,其中包括各组成要素的特点和句法功能,并给出该结构类型名词短语挖掘与校对的基本方法。通过对实验结果的分析,进一步说明短语的研究在搜索引擎中的重要作用。
分析万方数据2003-2007年间期刊论文数据,在原有关键词基础上构建主题词表,通过实体识别,对作者、机构、文档进行关联分析,发现作者、机构、文档间的潜在联系,为进一步语义检索研究做基础性探讨。
为了让读者能够充分利用馆藏资源,清华大学图书馆借助自身在电子资源整合检索方面的工作基础,将手机作为服务的新途径,基于MetaLib系统及其X-Server接口实现异构电子资源移动检索服务。该服务由资源检索定制、电子资源检索和资源状态监测三个主要环节组成,为手机用户提供持续可用的异构电子资源检索获取功能。
介绍一种从网络文献数据库中自动采集机构学术成果并存储到DSpace平台的实验系统(DAAS),并实现信息过滤、元数据提取、版权验证、元数据映射和数据存储的半自动化流程。详细描述基于Nutch核心组件,DAAS针对不同的期刊数据库,采用基于规则的方法设置过滤器来提取非结构化网页上书目信息,并指出计算机学习算法是下一步研究重点。
简要讨论身份认证技术的研究现状,针对传统智能卡识读存在效率较低以及丢失后容易被他人盗用的情况,设计基于图像识别的卡证身份认证系统,其在没有人工干预的情况下利用高速CCD摄像机拍摄卡证图像,通过有效的图像处理和模式识别方法予以识别,获取持卡人的身份信息,并与数据库进行比对,以达到身份认证的目的。
结合山东师范大学图书馆工作实际,开展使用易语言编制ILAS辅助程序的研究。实现自动关闭ILAS欠款提示,使ILAS“文献当前借阅查询”模块实现自动化、连续性作业,提高图书馆员工作效率。