介绍云存储的技术架构和应用原理,分析传统的几种存储技术在数字资源长期保存应用中面临的挑战及云存储所采取的应对策略,并以长期保存领域中两个云存储研究项目为例,进一步探讨云存储在数字资源保存领域中的应用。
调研SKOS及其应用案例,论述《科图法》SKOS化描述的技术方法,探索《科图法》中复分表SKOS化的实现思路,为其他中文知识组织体系实现SKOS描述提供借鉴。
借鉴Rodriguez和Egenhofer提出的语义相似度计算模型,结合医学领域主题词表MeSH的特点,提出MeSH主题词表中的语义相似度计算方法,实验结果证明该方法是有效的。
讨论计算机辅助标引文献加工系统中自然语言词表系统的建立过程。基于海量文献人工标引,运用计量分析法对多年来积累的人工标引词从词频、词长、词类型、词共现等多方面进行分析,重点阐述运用字面相似度计算词间关系来建立适用于机标和后控词表的自然语言词表的过程。
从国际科学引文数据库(DISC)面临的负载压力和扩容需求出发,通过对相关技术进行调研分析,选择当前常用的开源集群和负载均衡技术构建DISC服务系统;对采用的Web服务器负载均衡技术、MySQL Cluster技术及基于Solr的分布式索引技术进行介绍,并对其性能进行理论分析和实验验证;测试结果证明DISC的系统架构方案具有良好的可扩展性、可用性和可靠性,能够较好地满足当前的应用需求。
对多语言信息处理中的文本表示问题进行阐述。在分析单语言文本表示的模型和过程的基础上,说明多语言文本表示的过程,详细分类并阐述其中的各种方法,对其进行比较分析。概括多语言文本表示的特点,指出尚存在的问题,并对多语言文本表示的发展趋势进行探讨。
介绍命名实体识别的研究背景和意义,总结国内外命名实体识别研究历史,详细介绍目前主流的技术方法和评估方法,讨论命名实体识别技术的发展趋势。
在CRF模型下,进行单字标注和单元词标注的识别效果和识别效率的比较;实验结果表明,单字标注在付出更长运行时间的代价下,较单元词标注识别效果更佳;此外,还研究特征数量对实验效果的影响。
提出一种通过本体模块的裂变、重组、重用实现模块化本体的构建方法,详细分析该方法实现的流程、模块裂变和模块集成的规则,最后讨论该方法在水资源本体构建中的应用及其构建过程中存在的问题。该方法能够实现模块化本体的细粒度、协作构建,从而提高本体的构建效率和重用能力。
介绍一个基于链接分析的可视化分析框架NeSVA。科技信息分析人员运用该框架可以方便地观察科技实体网络的拓扑信息,同时通过对大规模动态链接数据的分析,为网络的动态分析提供基于时间的、合理的且易于理解的评估与解释。
针对标准更新定量研究问题,以中国稀土标准体系为例,基于现行的稀土标准体系,通过检索CSSN等标准数据库,对标准更新信息进行系统分析和判断,提出把标准更新分为“一对一”和“多对一”两类,并建立标准更新的数值模型,分别对稀土国家标准、行业标准更新情况进行定量描述。通过对稀土标准体系更新方式和历年更新情况的定量研究,在一定程度上反映出稀土行业技术进步及应用规律。该方法可用于其他类似标准体系的更新定量研究。
针对传统信息检索方法在当今网络信息环境下所面临的问题,提出基于领域本体的专利信息检索模型,从用户检索请求处理、本体构建、本体可视化与语义扩展、检索及存储的过程和技术实现进行研究,并开发一个基于服装领域本体的专利信息检索原型系统。比较测试表明,该模型在确保信息检索准确性的同时能够极大地提高其全面性。
针对当前自建特色数据库检索系统存在的检索效率低、检索途径单一等问题,提出基于开源全文检索引擎Sphinx对特色数据库进行全文检索的方法,详细介绍系统实现的关键技术。通过对比测试,该系统能够提高检索速度和检索质量,满足用户的检索需求。
针对传统的三大索引收录论文查证方式被动、实时性差以及效率低的现状,提出建立三大索引收录文献邮件推送服务系统。对系统设计思路和实现进行详细的介绍,包括如何导入原始记录数据文件、如何逐条读取记录将英文姓名翻译为中文姓名、记录数据格式的统一以及如何进行邮件推送。
针对农产品市场行情信息的精确采集,综合运用WebClient类和开源类库HtmlParser.NET,自动生成行情信息动态网页的分页下载链接,将每个分页下载转换为静态网页。建立基于HTML结构特征的网页数据精确提取通用方法,实现循环提取所有行情信息数据。
针对本馆Unicorn当前版本不支持SIP2协议的问题,通过对Unicorn系统的分析,设计开发一套与Unicorn系统进行通信的接口,利用中间驻留程序结合自助借还机实现实时的自助借还服务,避免直接操作数据库带来的风险;同时,总结在应用过程中遇到的问题,并提出相应的解决方案和改进措施。