数据分析与知识发现

Select

高丽, 周津慧, 刘雅静

现代图书情报技术. 2013, 29(7/8): 1-12. https://doi.org/10.11925/infotech.1003-3513.2013.07-08.01

摘要 ( ) PDF全文 ( ) HTML ( )

可视化

以发表于《现代图书情报技术》2013年第2期中"开放获取、开放知识、开放创新推动开放知识服务模式——3O会聚与研究图书馆范式再转变"一文为背景,在对具有3O会聚特征的国内外网站进行调查、整理、分析的基础上,总结3O资源的覆盖性、开放程度、可计算性及再利用等特性,为读者了解和使用3O会聚平台特性提供参考。

Select

基础设施、情报、创新：启动数据科学的研究历程——IDCC2013会议综述

吴振新, 齐燕, 付鸿鹄, 刘超, 李文燕, 刘晓敏, 王玉菊

现代图书情报技术. 2013, 29(7/8): 13-21. https://doi.org/10.11925/infotech.1003-3513.2013.07-08.02

摘要 ( ) PDF全文 ( ) HTML ( )

可视化

系统而全面地回顾第8届数字保管国际会议(IDCC2103),围绕"基础设施、情报、创新:启动数据科学的研究历程"的主题,与会者对机构和国家层面的研究数据管理、知识库/数据存档库、云服务、教育和培训、机密性/开放性研究数据、格式/标识符、交叉学科数据、艺术与人文科学数据、格式/元数据、数据出版等主题进行详细、深入而广泛的介绍、分析和讨论,呈现该领域的一系列理论与实践方面的研究成果、现状及挑战等。

Select

利用转化SKOS和关联规则挖掘创建本体及其检索应用

刘巍, 祝忠明, 张旺强, 王思丽, 姚晓娜, 卢利农

现代图书情报技术. 2013, 29(7/8): 22-27. https://doi.org/10.11925/infotech.1003-3513.2013.07-08.03

摘要 ( ) PDF全文 ( ) HTML ( )

可视化

提出一种结合转化SKOS和关联规则挖掘创建本体并实现面向知识资源集合的语义化检索应用方法。该方法首先通过转化SKOS构建本体,再对知识资源集合进行关联规则挖掘,并将挖掘结果作为概念间的关联属性补充进本体。最后,通过基于本体的应用技术实现语义化检索推荐功能。

Select

一种基于改进BFS算法的主题搜索技术研究

乔建忠

现代图书情报技术. 2013, 29(7/8): 28-35. https://doi.org/10.11925/infotech.1003-3513.2013.07-08.04

摘要 ( ) PDF全文 ( ) HTML ( )

可视化

通过对Web主题爬行器在预测链接优先级时所用到的特征因子的细化和重新分类,引入收割率和媒体类型两个新特征作为相关性判断依据,提出一种改进的最好优先搜索算法。该算法采用"细粒度"策略过滤不相关网页,选取多个角度有代表性的特征因子构造链接优先级计算公式,以达到全面揭示和预测链接主题的目的。通过与其他三类主题搜索算法的小规模实验比较,证明改进算法在收割率和平均提交链接数上效果较好。

Select

国外Folksonomy应用研究的前沿进展及热点分析

毕强, 王雨

现代图书情报技术. 2013, 29(7/8): 36-42. https://doi.org/10.11925/infotech.1003-3513.2013.07-08.05

摘要 ( ) PDF全文 ( ) HTML ( )

可视化

通过对2003年-2012年国外Folksonomy应用研究的相关成果进行归纳和梳理,重点对具有代表性和影响力的Ontology、Library2.0、Web语义检索、学科信息导航这4个领域的发展前沿和研究热点进行分析和阐述,并在此基础上展望Folksonomy与Ontology的融合、Folksonomy "用户参与的理念"运用到Library2.0、Web语义检索的分析加工、根据标签分类引导学科信息导航的未来发展,以期为国内Folksonomy的相关研究提供借鉴。

Select

互联网用户偏好本体实例的学习方法研究

朱恒民, 贾丹华, 黄震奇, 王春晖

现代图书情报技术. 2013, 29(7/8): 43-48. https://doi.org/10.11925/infotech.1003-3513.2013.07-08.06

摘要 ( ) PDF全文 ( ) HTML ( )

可视化

互联网用户偏好本体可以全面、准确地描述出互联网用户的兴趣和多维偏好。针对偏好本体中主题类的实例对象数量众多、不断扩展变化、手工搜集工作量大这一问题,重点研究用户偏好本体中主题专业网站、品牌和体育赛事三类具有代表性的实例学习方法,以期实现互联网用户偏好本体的半自动构建,并设计实验验证这三类实例学习方法的有效性。

Select

基于社会标签的文本聚类研究

何文静, 何琳

现代图书情报技术. 2013, 29(7/8): 49-54. https://doi.org/10.11925/infotech.1003-3513.2013.07-08.07

摘要 ( ) PDF全文 ( ) HTML ( )

可视化

以社会标签在网络资源聚类中的作用为研究目标,筛选标注资源的社会标签作为特征项,采用K-means聚类算法对文本资源进行聚类,并在小规模测试集上得到较好效果。详细讨论基于社会标签的文本聚类中标签筛选、聚类方法等关键技术的实现过程。通过实验证明:基于社会标签的文本聚类是一种较传统关键词进行聚类更为有效的一种聚类方法,能够提高文本聚类的效果。

Select

面向中文图书的自动标引模型构建及实验分析

王昊, 邹杰利, 邓三鸿

现代图书情报技术. 2013, 29(7/8): 55-62. https://doi.org/10.11925/infotech.1003-3513.2013.07-08.08

摘要 ( ) PDF全文 ( ) HTML ( )

可视化

针对中文图书关键词自动标引问题,引入条件随机场机器学习算法,通过对大量已有的中文图书手工关键词标引数据进行训练和学习,生成包含序列实体之间语义关系和规则特征的标注模型,并利用该标注模型进行机器预测,自动抽取出图书关键词。主要解决两个问题:鉴于条件随机场模型的参数选择会影响到系统的标注性能,从多个角度进行对比实验,确定针对中文图书关键词标引这一特定问题的条件随机场模型的最佳参数集合;探讨不同的观察特征对关键词标引的影响,通过实验论证4个能够有效提高标引性能的观察特征。最终建立起面向中文图书的最佳关键词标引模型。

Select

先秦古汉语典籍中的人名自动识别研究

汤亚芬

现代图书情报技术. 2013, 29(7/8): 63-68. https://doi.org/10.11925/infotech.1003-3513.2013.07-08.09

摘要 ( ) PDF全文 ( ) HTML ( )

可视化

以数字人文的文本挖掘和分析这一研究内容为切入点,通过条件随机场这一机器学习模型,在先秦语料库的基础上自动识别古汉语人名。在规模为187 901个词汇的先秦语料上,把调和平均值为91.52%的交叉验证语料所训练的模型确定为古汉语人名自动识别的最优模型,并进行实验验证。本研究不仅有助于先秦古文献命名实体的抽取,而且也有益于其他人文学科对先秦人物关系和背景的探究。

Select

文献数据库中作者名消歧算法研究

郭舒

现代图书情报技术. 2013, 29(7/8): 69-74. https://doi.org/10.11925/infotech.1003-3513.2013.07-08.10

摘要 ( ) PDF全文 ( ) HTML ( )

可视化

在深入分析基于图的人名识别框架GHOST的基础上, 针对其存在的局限性,结合对文献信息的文本挖掘提出一种更适用于文献数据库的作者名消歧算法, 并从中选取标题以及出版物名称这两个特征进行实证研究, 该算法在准确率、召回率等指标方面都有良好的表现, F1平均值达到84%, 具备较好的消歧效果。

Select

专利引文分析方法研究进展

陈亮, 张志强, 尚玮姣

现代图书情报技术. 2013, 29(7/8): 75-81. https://doi.org/10.11925/infotech.1003-3513.2013.07-08.11

摘要 ( ) PDF全文 ( ) HTML ( )

可视化

作为战略情报研究的重要数据来源,专利引文不仅反映技术发展中的知识流动,还可用于技术热点的跟踪以及国家、机构的技术地位识别。首先概述专利引文的定义和来源,根据专利引文类型不同,分别梳理专利-专利引文分析方法和专利-论文引文分析方法的发展脉络及代表性的研究成果,最后总结专利引文研究方法目前存在的问题,并给出应对建议。

Select

基于百分位数的文献计量指标研究综述

周群, 左文革, 陈仕吉

现代图书情报技术. 2013, 29(7/8): 82-88. https://doi.org/10.11925/infotech.1003-3513.2013.07-08.12

摘要 ( ) PDF全文 ( ) HTML ( )

可视化

基于百分位数的文献计量指标是在关于相对引用指标的讨论中提出,随后被逐渐应用于研究绩效评价。在说明百分位数指标提出背景的基础上,对其概念和类型进行简要总结和比较。详细阐述百分位数指标在计算过程中论文百分位等级确定和论文百分数归类的问题,并进一步分析百分位数指标的应用现状和存在的问题。

Select

共词分析中的词语贡献度特征选择研究

胡昌平, 陈果

现代图书情报技术. 2013, 29(7/8): 89-93. https://doi.org/10.11925/infotech.1003-3513.2013.07-08.13

摘要 ( ) PDF全文 ( ) HTML ( )

可视化

从数据降维的角度来看,传统共词分析中以高频词构建共词矩阵的方法有较大的改进空间。将共词分析与文本分类、聚类、检索等方法进行对比归一,引入词语贡献度作为新的特征词选择方法, 并给出算法描述。从聚类效果层面将新方法与传统方法进行对比,通过实证验证基于词语贡献度的特征选择方法对共词分析有改进作用。

Select

微博用户行为统计特性及其动力学分析

何静, 郭进利, 徐雪娟

现代图书情报技术. 2013, 29(7/8): 94-100. https://doi.org/10.11925/infotech.1003-3513.2013.07-08.14

摘要 ( ) PDF全文 ( ) HTML ( )

可视化

以新浪微博为研究对象,运用复杂网络和统计学的方法从个体和群体层面对微博的网络拓扑结构和用户的行为特性进行统计分析。结果表明,微博用户的行为表现出多重的标度特性,其中节点的度分布和微博发布行为近似服从幂律分布,而转发和评论行为表现为指数截断的幂律分布。在此基础上,运用兴趣驱动机制和重尾特性对其进行分析,得到微博用户行为的一些共性。这可以为微博信息的传播动力学研究提供有益的帮助。

Select

基于统计分布的中文专利自动分类方法研究

胡冰, 张建立

现代图书情报技术. 2013, 29(7/8): 101-106. https://doi.org/10.11925/infotech.1003-3513.2013.07-08.15

摘要 ( ) PDF全文 ( ) HTML ( )

可视化

传统的基于向量空间模型的文本自动分类算法没有考虑到特征词的类间分布情况及特征词在文本内部的位置分布情况,导致该算法用于专利分类时效果不佳。提出一种基于统计分布的中文专利自动分类方法。首先,统计出特征词的类间分布信息,引入类间分散度加权因子,突出分布类别少、出现频率高的特征词的权重;其次,结合专利文本的结构特点,引入位置权重因子,突出专利的法律特性和技术特性以及组成专利各元素内容的差异性。最后通过对比实验证明,该方法能够有效提高中文专利自动分类的效果。

Select

关键词-分类号关联词表构建

杨贺, 杨奕虹, 李宁

现代图书情报技术. 2013, 29(7/8): 107-113. https://doi.org/10.11925/infotech.1003-3513.2013.07-08.16

摘要 ( ) PDF全文 ( ) HTML ( )

可视化

在多年海量文献人工标引的数据基础上,采用互信息法(MI)、卡方检验法(Chi-Square)、最大似然估计法(MLE)等概率与数理统计方法计量分析关键词与《中国图书资料分类法》分类号的关联关系,构建适用于科技文献自动标引的关键词-分类号关联词表,并通过实际标引文献数据的封闭与开放测试分析其应用效果。

Select

分布式专利信息抽取系统设计与构建

翟东升, 张欣琦, 张杰, 康宁

现代图书情报技术. 2013, 29(7/8): 114-121. https://doi.org/10.11925/infotech.1003-3513.2013.07-08.17

摘要 ( ) PDF全文 ( ) HTML ( )

可视化

作为重要专利信息源,德温特数据库可以为研究者提供丰富的资源,但其数据导出格式局限性较大且只包含摘要等信息,不利于进一步深入分析。设计并实现基于多Agent平台的分布式德温特专利信息抽取系统,将专利信息导入到本地数据库中;并针对USPTO库提供专利详细信息自动获取。该系统抽取效率较高,为专利研究提供较好的信息获取途径。

Select

通过防火墙日志挖掘构建电子期刊数据库统计分析系统

王孝亮, 王威

现代图书情报技术. 2013, 29(7/8): 122-126. https://doi.org/10.11925/infotech.1003-3513.2013.07-08.18

摘要 ( ) PDF全文 ( ) HTML ( )

可视化

针对电子期刊数据库访问量统计的需求,构建一种基于防火墙日志的电子期刊数据库使用情况的统计分析系统,从防火墙日志文件中识别和提取所需要的字段信息,并将提取的信息存储到关系数据库中,以供检索和相关分析。以中国药科大学图书馆为例,对部分中外文电子期刊数据库进行实验, 结果表明基于防火墙日志的提取方法能够很好地统计出目标数据库的访问情况,有助于图书馆决策层从宏观层面了解所订购数据库的使用情况。

Select

使用D3.js的知识组织系统Web动态交互可视化功能实现

张运良, 张兆锋, 张晓丹, 许德山

现代图书情报技术. 2013, 29(7/8): 127-131. https://doi.org/10.11925/infotech.1003-3513.2013.07-08.19

摘要 ( ) PDF全文 ( ) HTML ( )

可视化

从知识组织系统节点、边及相关知识展示的可视化需求出发,结合国内外技术进展和国内知识组织系统服务现状,以D3.js类库为基础进行知识组织系统Web动态交互可视化实现。在实现过程中重点解决动态交互方面的关键问题,并用具体的知识组织系统数据验证D3.js应用于知识组织系统Web动态交互可视化的可行性和简便性。

Select

清华大学图书馆读者违规辅助管理系统的设计与实现

庄玫, 王平, 杨杰, 陈虹, 王义飞

现代图书情报技术. 2013, 29(7/8): 132-136. https://doi.org/10.11925/infotech.1003-3513.2013.07-08.20

摘要 ( ) PDF全文 ( ) HTML ( )

可视化

从图书馆读者违规行为管理的现状出发,阐述在宣传教育基础上系统化进行读者违规行为辅助管理的现实要求;详细介绍清华大学图书馆读者违规辅助管理系统的设计思路与功能实现;对违规行为辅助管理系统的应用效果进行分析,并提出系统的完善计划。

Select

图书馆数据中心虚拟化网络设计研究

许卓斌, 林俊伟

现代图书情报技术. 2013, 29(7/8): 137-142. https://doi.org/10.11925/infotech.1003-3513.2013.07-08.21

摘要 ( ) PDF全文 ( ) HTML ( )

可视化

针对厦门大学图书馆虚拟数据中心的网络设计问题,对底层虚拟网络进行分析和调优,提出数据隔离、链路冗余、带宽共用的虚拟网络设计原则,以期实现一个兼顾性能和可靠性的虚拟化数据中心网络设计方案。

选择文件类型/文献管理软件名称

选择包含的内容

2013年, 第29卷, 第7期　
刊出日期：2013-08-25

模态框（Modal）标题

选择文件类型/文献管理软件名称

选择包含的内容

检索词推荐：

2013年, 第29卷, 第7期 刊出日期：2013-08-25

2013年, 第29卷, 第7期　
刊出日期：2013-08-25