根据“用户需求驱动”原则,分析传统图书馆网站在定位、结构、组织、关联、术语等方面存在的问题,提出“用户、简约、便捷、集成、模块”网站的原则,设计以用户信息流程为主的服务层和以服务知识库、SUR封装为核心的支撑层的网站结构,构建集成化的资源揭示、用户任务下的流程组合、流程驱动的服务导航、情景敏感的帮助体系等。
在用户操作现场感知用户需求,采用情景驱动,将科技文献服务即时嵌入到用户的工作流程之中。介绍了这种嵌入式桌面信息服务的基本思想及系统设计、实现方法。
采用调查问卷方式,对中国科学院科研院所内科研人员对机构知识仓储的“认知情况和对IR系统所提供服务的需求”进行调查,对回收的数据作统计分析和归纳总结。指出此次调查存在的不足,部署下一步工作。
介绍ACE测评会议的概况及其发展轨迹。在此基础上,结合ACE测评会议的测评任务、参加队伍、测评语料、测评结果等变化,分析信息抽取的发展现状,并对信息抽取的发展趋势进行探讨。
介绍Web表格的特点与结构、Web表格信息抽取及其过程,分析Web表格信息抽取的4个关键技术:Web表格定位、Web表格结构识别、Web表格内容整合和抽取结果表示,以及Web表格信息抽取的应用。最后指出目前国内外该项研究的不足之处及未来发展方向。
在前人研究的基础上提出了适合网络环境下的实体间信任度计算方法,并设计了一套信任传递协议,该协议用XML标记语言来表示消息,并应用了基于XML的加密协议。
引入有限状态转录机技术,参考Penn树库发展的思想,通过规则分析的方法综合利用词性标注结果、识别关联词、标点、词表映射及进行组块分析的方法将英语复句进行切分简化处理,最终结果以关联词及其论元的形式表示。
针对大规模信息采集,运用Bloom Filter及其改进算法,在误差允许的条件下,通过URL散列运算可以有效地对同源网页进行去重。实践证明,通过对其参数进行合理的调整,可以达到满意的结果。
提出一种基于内容规则的网页净化算法。包含两部分,先提出一种同层表间的比较迭代算法,通过迭代的方式对于网页中的噪声内容进行层层剥离。为进一步判断网页中锚文本与网页主题的相关性,又提出一种基于修正的编辑距离的计算锚文本的主题相似性的算法,在一定程度上考虑了网页的语义因素。该算法具有更高的准确度,同时具有很低的时间复杂度。实验结果表明,在对海量网页进行净化处理时,算法具有良好的效果。
针对识别中文新闻重复网页传统方法的不足,提出以后缀树作为基本数据结构,依据新闻网页的标题性和时间性,构建中文新闻重复网页识别算法。该算法以Ukkonen算法和Matching Statistics算法为基础,并对其具体实现进行优化。实验结果表明,该算法不仅具有有效性,而且对计算字符串相似度也有启发意义。
采用先进的Visual studio.NET 开发平台,使用C#程序设计语言,以及XML知识描述和数据存储,对网络专题知识组织知识元自动抽取系统进行了开发设计。对该系统的文本信息预处理、快速汉字结合自增长分词、词频全文精确统计等重要功能的设计与实现进行了深入地研究。
针对在Web环境下处理图书馆文献信息中大量的非平直文本信息相对困难的现状,以MathML语言为基础,解决数学公式等特殊数据信息的输入与显示问题,实现信息的检索和利用,为数学公式等非平直文本信息在Web上的应用提供一种全新的解决方案。
参考国内外本体开发利用的现状,在综合电子政务主题词表的研究基础上,提出基于电子政务主题词表的政务本体构建方法,并开发相应的演示实例。
通过对已有算法的分析,提出一种新的词典结构,并根据词典给出分词算法。理论和实验证明,算法在速度和效率上有很大的提高。
讨论传统的MARC编目方式在向B/S模式迁移过程中存在的困难,分析造成这种困难的原因,提出利用最新的Ajax技术对此问题的解决方案,给出实现思路以及方法。
目的:提高数字仓储对作者名字的识别。
方法:分析在数字资源,特别是在数字仓储中现有的姓名授权及现有仓储应用的一些特性。
成果:本文发现作者姓名的变异会对数字仓储的检索带来负面影响,并提出了两种解决途径:一是采用融合了作者姓 名、出版日期及作者所属机构的复合标识符;二是要求作者在把论文存放到仓储的同时,输入姓名的各种变异形式
意义:首次提出了作者自行存放其姓名变异形式的方法,这将有助于减少姓名识别中存在的模糊性。
目的——旨在概述机构仓储库的认证技术以支持德国开放存取活动,同时还描述了德国网络信息初始化计划(DINI)开展的“DINI认证2006”活动。
设计方法——DINI对文献和出版物仓库的认证向潜在用户表明,该仓储的运行质量是有所保证的,同时使其区别于一般机构的网络服务。本认证也能够被用作支持开放获取的一个工具。
结果—— 仓储库认证技术虽然不会成为全球性学术信息实现开放获取的主要影响因素,但它能够促进机构仓储库的推广,并提高机构仓储库服务的知名度。
研究局限性/意义——DINI认证作为一种“软性”认证,关注的是数字仓储库的互操作性,这是一种正在流行的有指导意义的观点。但是它并不能为可信赖的数字资源长期保存系统提供详尽的审计工具。
实践意义——依据特定的组织及技术标准,“DINI针对文档及出版物仓储的认证”推进了德国机构仓储库的发展,同时也为世界范围内数字仓储库的互操作性做出了贡献。
原创性/价值——本文描述了德国采用的一个独特方法,同时也适用于其他国家及组织。