数据分析与知识发现

Select

白海燕, 梁冰

现代图书情报技术. 2011, 27(7/8): 1-7. https://doi.org/10.11925/infotech.1003-3513.2011.07-08.01

摘要 ( ) PDF全文 ( ) HTML ( )

可视化

关系型数据库和关联数据的概念模型都基于现实世界的实体、属性及其关系而构建,具备建立映射和实现转换的可能性。两者语义模式映射的重点是关联关系的构建与表达。开源软件D2R的映射语言,通过核心要素ClassMap、PropertyBridge及其属性,支持关系数据库的SQL实现,支持将关系数据库不同实体之间、同一实体内部及与外部数据的关联关系构建为RDF链接。

Select

Fedora CMA解析

师洪波, 吴振新

现代图书情报技术. 2011, 27(7/8): 8-13. https://doi.org/10.11925/infotech.1003-3513.2011.07-08.02

摘要 ( ) PDF全文 ( ) HTML ( )

可视化

深入研究Fedora仓储软件的内容模型框架的构成和使用原理,以及所带来的灵活性、可扩展性和可继承性等特点,并结合实际案例初步探讨利用内容模型框架对复杂数字对象进行保存管理。

Select

分布式环境下的文档相似度研究与实现

赵华茗

现代图书情报技术. 2011, 27(7/8): 14-20. https://doi.org/10.11925/infotech.1003-3513.2011.07-08.03

摘要 ( ) PDF全文 ( ) HTML ( )

可视化

针对传统的相似度计算方法在海量信息处理过程中暴露出的数据处理规模限制和性能不足等方面的瓶颈问题,以非结构化文档为研究对象,提出一种基于Hadoop分布式环境,结合Hive数据处理平台和PostgreSQL关系型数据库的文档相似度计算方法,并给出关键技术思路、具体实现步骤和实证研究,通过研究证明Hive SQL语言可有效简化分布式数据处理的复杂性,但实时性有待改进。

Select

Web系统多级分布式缓存机制设计与实现

王科, 周强, 李春旺

现代图书情报技术. 2011, 27(7/8): 21-25. https://doi.org/10.11925/infotech.1003-3513.2011.07-08.04

摘要 ( ) PDF全文 ( ) HTML ( )

可视化

提出一种Web系统多级分布式缓存机制的设计方案,以及基于主流开源软件的实现方法。本方案包含多粒度组织、多物理层级存储的缓存数据管理方法,以及键名生成机制等关键技术。随后介绍缓存效率评价模型,包括单机与分布式缓存的提速原理,并基于真实的应用场景进行效率测试实验,证明本方案的有效性。

Select

面向网络科技监测的分布式定向资源精确采集研究和应用

谢靖, 曲云鹏, 刘建华

现代图书情报技术. 2011, 27(7/8): 26-31. https://doi.org/10.11925/infotech.1003-3513.2011.07-08.05

摘要 ( ) PDF全文 ( ) HTML ( )

可视化

在分析研究现有开源信息采集系统的基础上,综合应用开源框架,以开源爬虫Crawler4j为基础,设计开发基于开源框架的分布式定向资源采集系统,实现对网络信息实时精确的采集,以满足网络监测系统的及时性和准确性的要求。主要介绍系统的结构设计和功能实现,并详细阐述精确采集的方法和技术路线。

Select

利用MegaZine 3构建虚拟书平台

韦成府, 聂华

现代图书情报技术. 2011, 27(7/8): 32-36. https://doi.org/10.11925/infotech.1003-3513.2011.07-08.06

摘要 ( ) PDF全文 ( ) HTML ( )

可视化

特藏资源是每个图书馆区别于其他图书馆并能独立存在的基础。虚拟书可以相对简单、直观而真实地在线展示图书馆的特藏资源,是对传统文件浏览方式的有效补充。为了让读者能够在线欣赏图书馆的特藏资源,北京大学图书馆借助MegaZine 3设计开发虚拟书平台。通过测试,证实MegaZine 3是特藏资源在线展示的一个有效工具。

Select

基于分面搜索引擎Solr的机构知识库访问统计

姚晓娜, 祝忠明

现代图书情报技术. 2011, 27(7/8): 37-40. https://doi.org/10.11925/infotech.1003-3513.2011.07-08.07

摘要 ( ) PDF全文 ( ) HTML ( )

可视化

采用Solr对中国科学院机构知识库CAS-IR的访问统计部分进行改进,结果表明改进后的系统即使在海量数据的环境下也能达到很快的响应速度。

Select

搜索引擎的灵敏度和特异度研究

张李义, 陈明英

现代图书情报技术. 2011, 27(7/8): 41-46. https://doi.org/10.11925/infotech.1003-3513.2011.07-08.08

摘要 ( ) PDF全文 ( ) HTML ( )

可视化

利用流行病学中无金标准的筛检理论构建搜索引擎的评价指标,将用户体验得分和用户判断作为贝叶斯估计的先验信息,通过MCMC技术估算出Google简体中文和百度的灵敏度、特异度和检出率。

Select

基于PostgreSQL的TMX数据存储研究与语料检索平台实现

董桂

现代图书情报技术. 2011, 27(7/8): 47-55. https://doi.org/10.11925/infotech.1003-3513.2011.07-08.09

摘要 ( ) PDF全文 ( ) HTML ( )

可视化

分析语料存储系统的架构和不足,研究语料存储结构以及相应的检索匹配算法,对系统实现的功能进行描述。旨在探索语料检索系统在更深层次进行语料处理的途径以及证明其可行性。

Select

一种基于P2P的云存储模型研究

王亚民, 刘晓伟, 韩学铃

现代图书情报技术. 2011, 27(7/8): 56-61. https://doi.org/10.11925/infotech.1003-3513.2011.07-08.10

摘要 ( ) PDF全文 ( ) HTML ( )

可视化

在分析当前云存储系统所面临的问题的基础上,提出一种基于P2P技术的云存储模型。此模型应用Chord算法来组织节点并分发用户的请求,解决集中式云存储系统的中心节点瓶颈问题,实现系统的负载均衡;使用存储簇来完成数据的存储和管理,简化系统管理的难度;并提出模型的副本管理策略,使云存储系统具有良好的可扩展性、容错性和高性能。

Select

可视化的共词聚类系统分析及实现

邢美凤, 许德山

现代图书情报技术. 2011, 27(7/8): 62-67. https://doi.org/10.11925/infotech.1003-3513.2011.07-08.11

摘要 ( ) PDF全文 ( ) HTML ( )

可视化

在分析现有文献计量软件的优缺点及利用文献计量方法进行科学研究的目的与工作流程的基础上,建立多种文献数据库题录字典,有效进行关键词的合并和修正,集成文献计量中统计、共词和聚类过程,设计和实现一种可视化的共词聚类分析系统。

Select

基于N元语法的英文学术文献聚类标签抽取算法

吴夙慧, 成颖, 郑彦宁, 潘云涛

现代图书情报技术. 2011, 27(7/8): 68-75. https://doi.org/10.11925/infotech.1003-3513.2011.07-08.12

摘要 ( ) PDF全文 ( ) HTML ( )

可视化

提出一种基于N元语法的英文学术文献聚类标签抽取算法,该算法利用N元语法在大规模语料库上进行先期学习生成领域短语词表,再通过K-means算法进行聚类,从聚簇中抽取N元语法项计算TFIDF值,对出现在词表中的特征项赋以更高的权值,以得分最高的特征项作为聚类标签。实验结果表明,该算法能获得更好的实验效果。同时,在抽取聚类标签时提出一种改进的TFIDF权重计算,在评价标签质量时提出一种新的标签评价方法R@N方法。

Select

基于粒子群优化的文本特征选择方法

路永和, 曹利朝

现代图书情报技术. 2011, 27(7/8): 76-81. https://doi.org/10.11925/infotech.1003-3513.2011.07-08.13

摘要 ( ) PDF全文 ( ) HTML ( )

可视化

从文本特征对文本分类结果的整体影响的角度出发,提出一种基于粒子群优化的文本特征选择方法(PSOTFS),使用粒子群算法来挖掘文本特征选择规则。PSOTFS首先使用开方检验对文本特征进行预选择,然后使用粒子群算法对预选择得到的文本特征进行精选。PSOTFS以一个粒子表示一条特征选择规则,特征选择规则集对应某个粒子群,采用分类准确率作为适应度函数,采用分组的方式对粒子的维度进行降维。实验结果表明,PSOTFS比开方检验、信息增益、文档频率和互信息方法能得到更好的分类效果。

Select

基于改进编辑距离的相似重复记录清理算法

叶焕倬, 吴迪

现代图书情报技术. 2011, 27(7/8): 82-90. https://doi.org/10.11925/infotech.1003-3513.2011.07-08.14

摘要 ( ) PDF全文 ( ) HTML ( )

可视化

相似度计算是相似重复记录清理过程中的一个关键问题,编辑距离算法在其中具有广泛应用。在传统编辑距离算法的基础上,通过分析影响相似度计算结果的序列长度、同义词等因素,得到一种同时引入同义词词库和归一化处理思想的改进的基于语义编辑距离的相似重复记录清理算法,适用于相似记录的识别过程。实验分析表明,改进算法计算结果更符合句子的语义信息,绝大部分结果符合人们的认知经验,从而可以有效地提高相似重复记录识别的准确率和精确度。

Select

基于负关联规则与频繁项集挖掘的信息检索系统

黄名选, 余如

现代图书情报技术. 2011, 27(7/8): 91-96. https://doi.org/10.11925/infotech.1003-3513.2011.07-08.15

摘要 ( ) PDF全文 ( ) HTML ( )

可视化

提出一种新的基于负关联规则与频繁项集挖掘的信息检索系统模型,详细阐述系统模型的设计思想、各模块的功能,以及检索系统实现的三种关键技术(即频繁项集挖掘技术、负关联规则挖掘技术和查询优化扩充技术)及其检索算法。实验结果表明,该检索系统能有效提高和改善信息检索性能。

Select

基于语义的情感挖掘系统的设计与实现

李纲, 王忠义

现代图书情报技术. 2011, 27(7/8): 97-103. https://doi.org/10.11925/infotech.1003-3513.2011.07-08.16

摘要 ( ) PDF全文 ( ) HTML ( )

可视化

由于自然语言的复杂性,使得情感挖掘仍存在一些问题需要解决,如情感词的领域依赖性、隐式特征识别、同指特征处理和特征极性计算等。为解决这些问题,提出一种基于语义的情感挖掘方法,该方法以主题图为指导进行特征及情感词的识别和情感极性强度计算,充分利用特征之间及其特征与情感词之间的语义关系,可以在一定程度上提高意见挖掘的准确性。

Select

基于种子文档LDA话题的演化研究

单斌, 李芳

现代图书情报技术. 2011, 27(7/8): 104-109. https://doi.org/10.11925/infotech.1003-3513.2011.07-08.17

摘要 ( ) PDF全文 ( ) HTML ( )

可视化

提出一种基于种子文档的LDA话题演化方法。首先选取种子文档,利用种子文档指导后一时间段文档的建模,然后根据种子文档的语义分布信息对连续时间上的LDA话题进行关联,保证话题的同一性。实验结果证明,在NIPS论文语料集和全国两会新闻报道集中,该方法可以推导特定话题的演化结果,避免关联话题之间存在的演化结果。

Select

学术期刊非线性评价方法的检验与修正研究

俞立平, 潘云涛, 武夷山

现代图书情报技术. 2011, 27(7/8): 110-115. https://doi.org/10.11925/infotech.1003-3513.2011.07-08.18

摘要 ( ) PDF全文 ( ) HTML ( )

可视化

讨论采用非线性评价方法评价可能出现指标值增加、评价值反而下降的异常问题,提出一种新的检验与修正方法——回归调整法,试图从指标选取与非线性评价方法的选择两个方面进行改进。

Select

文献跨库检索中去重方法研究与应用

郝丹, 周津慧, 关贝, 王衍喜, 韩继欣

现代图书情报技术. 2011, 27(7/8): 116-120. https://doi.org/10.11925/infotech.1003-3513.2011.07-08.19

摘要 ( ) PDF全文 ( ) HTML ( )

可视化

以作者和单位发文的统计需求为背景,分析作者和单位发文在跨库检索中产生数据冗余的特殊成因,在借鉴网页去重的基础上,设计中文跨库ID、英文跨库ID、DOI以及“标题+类型”4种文献跨库去重方法,解决中文库之间、英文库之间以及中英文库之间的冗余问题,并有效应用于专家发文和单位发文信息获取与统计工作中。

Select

基于Virtools的3D虚拟浏览技术在数字图书馆建设中的应用——以首都师范大学图书馆3D图书导航系统为例

王硕

现代图书情报技术. 2011, 27(7/8): 121-126. https://doi.org/10.11925/infotech.1003-3513.2011.07-08.20

摘要 ( ) PDF全文 ( ) HTML ( )

可视化

以首都师范大学图书馆3D虚拟图书导航系统为例,详细介绍基于3DsMax和Virtools技术所开发的图书馆实景虚拟图书路径导航应用案例。重点介绍3D建模和Virtools交互功能的实现,使用户可以通过OPAC书目查询和URL网址两种方式进入虚拟图书馆导航系统,实现馆内图书的虚拟检索和路径导航,并实现多人实时信息交互和多媒体共享,为用户提供一个真实的虚拟图书馆漫游场景。

Select

馆藏书目信息自助短信推送服务的设计与实现

周虹, 张蓓, 姜爱蓉, 张成昱

现代图书情报技术. 2011, 27(7/8): 127-131. https://doi.org/10.11925/infotech.1003-3513.2011.07-08.21

摘要 ( ) PDF全文 ( ) HTML ( )

可视化

清华大学图书馆为了更好地利用新技术服务读者,推出馆藏书目信息自助短信推送服务。该服务通过在OPAC网页上进行信息抽取,自建网页采集读者手机号码,建立结构化数据库,利用“企信通”短信平台的数据库同步功能,实现将读者需要的书目信息发送到指定的手机终端的功能。

Select

MELINETSⅡ采访批验收的设计和实现——以广西大学图书馆为例

唐小新

现代图书情报技术. 2011, 27(7/8): 132-136. https://doi.org/10.11925/infotech.1003-3513.2011.07-08.22

摘要 ( ) PDF全文 ( ) HTML ( )

可视化

提出在采访系统中通过新增一个批验收的功能模块来省去现有烦琐的计算机验收环节,以提高验收效率,并适应业务外包服务,重点阐述批验收功能的实现流程和思路,并实现关键技术和解决方法。

选择文件类型/文献管理软件名称

选择包含的内容

2011年, 第27卷, 第7期　
刊出日期：2011-08-25

模态框（Modal）标题

选择文件类型/文献管理软件名称

选择包含的内容

检索词推荐：

2011年, 第27卷, 第7期 刊出日期：2011-08-25

2011年, 第27卷, 第7期　
刊出日期：2011-08-25