Please wait a minute...
Advanced Search
  • 数据分析与知识发现
      2015年, 第31卷, 第1期 刊出日期:2015-01-25   
    选择: 合并摘要
    综述评介
    移动图书馆:从设备到人——2014年第5届国际移动图书馆会议综述
    姚飞, 姜爱蓉
    现代图书情报技术. 2015, 31 (1): 1-8.   DOI: 10.11925/infotech.1003-3513.2015.01.01
    摘要   HTML ( 20 PDF(481KB) ( 355 )  

    [目的] 回顾第5届国际移动图书馆会议, 介绍并探讨移动图书馆发展现状和趋势。[文献范围] 以40个会议报告为主要研究对象。[方法] 围绕"移动图书馆: 从设备到人"的主题, 从图书馆面临的移动挑战和策略、移动技术在图书馆中的实践、可穿戴设备和增强现实、移动技术与教学科研紧密结合、移动技术在中国图书馆的发展、移动技术提升全民信息服务等议题进行深入分析和讨论。[结果] 强调移动策略的重要性、对移动图书馆态度的差异性、发展的不均衡性, 概括主要进展和存在的问题。[局限] 以会议报告为基础, 未能涵盖更广泛的实践案例和研究成果。[结论] 图书馆需要积极面对和投身于以用户为中心的移动图书馆建设中, 提供无处不在的泛在图书馆服务。

    参考文献 | 相关文章 | 多维度评价
    普渡大学研究仓储及其支持的科学数据管理服务
    王辉, Michael Witt, 窦天芳
    现代图书情报技术. 2015, 31 (1): 9-16.   DOI: 10.11925/infotech.1003-3513.2015.01.02
    摘要   HTML ( 27 PDF(575KB) ( 430 )  

    [目的] 对普渡大学研究知识库案例进行全面剖析。[方法] 分别从PURR平台的建设背景、保存政策、保存策略、工作流、参考标准、开发平台、元数据、数据引用、数据备份、工作机制以及PURR支持的大学科学数据管理服务等方面进行分析。[结果] PURR参考多个标准进行建设, 支持数据服务, 但在用户体验及元数据支持等方面仍需完善。[结论] PURR作为先驱性的数据管理工具, 其在开发及推广过程中积累的经验可以为我国开展数据管理实践提供参考。

    参考文献 | 相关文章 | 多维度评价
    WoS数据库中专利分析论文的主题动态演进研究
    张云, 华薇娜, 袁顺波, 苏保朵
    现代图书情报技术. 2015, 31 (1): 17-23.   DOI: 10.11925/infotech.1003-3513.2015.01.03
    摘要   HTML ( 11 PDF(712KB) ( 291 )  

    [目的] 利用SciMAT确定特定领域主题动态演进情况。[方法] 以SciMAT为图谱绘制工具, 以WoS数据库中专利分析的研究论文为研究对象, 进行可视化图谱的制作和分析, 探讨WoS数据库中专利分析领域的主题演进状况。[结果] WoS中专利分析研究的重要主题包括知识管理、专利分析技术、专利对企业和产业发展的促进作用等, 知识产权保护、知识转移、确定演进趋势是近年来新的研究热点。[结论] SciMAT能结合反映质量特性的计量指标、多种图谱从不同角度有效揭示主题演进情况。

    参考文献 | 相关文章 | 多维度评价
    研究论文
    专利术语抽取的层次过滤方法
    侯婷, 吕学强, 李卓
    现代图书情报技术. 2015, 31 (1): 24-30.   DOI: 10.11925/infotech.1003-3513.2015.01.04
    摘要   HTML ( 18 PDF(453KB) ( 336 )  

    [目的] 专利术语作为专利文献的核心内容和重要组成部分, 其抽取任务是专利研究的基础工作。[方法] 提出一种基于层次过滤的方法抽取专利术语。基于后缀数组获取重复字串作为候选词, 根据候选词集合中无效字串的特点将其分为破碎字串、冗余字串和通用词, 通过识别和过滤三类无效字串获得专利术语。分别提出计算独立性算法过滤破碎字串, 相对活跃度计算方法和分词纠错法过滤冗余字串。[结果] 实验结果表明, 该方法对中文专利术语抽取有较好的效果, 平均正确率为90.54%, 平均召回率为87.33%。[局限] 只针对重复字串, 无法识别文献中出现频次为1的专利术语。[结论] 该方法用于专利术语抽取是有效的。

    参考文献 | 相关文章 | 多维度评价
    典籍英译作者身份识别研究
    祁瑞华, 霍跃红, 郭旭, 刘彩虹
    现代图书情报技术. 2015, 31 (1): 31-37.   DOI: 10.11925/infotech.1003-3513.2015.01.05
    摘要   HTML ( 10 PDF(582KB) ( 278 )  

    [目的] 分析典籍英译作者身份识别的关键问题, 提出不完整数据作者身份识别的有效方法。[方法] 针对诗词典籍篇幅短小和语料不平衡的特点, 建立基于词汇、句子和语篇层面的文体特征向量空间模型, 提出用于不完整数据作者身份识别的加权朴素信念分类算法。[结果] 加权朴素信念分类算法可以有效改善朴素信念分类算法性能, 与目前主流分类算法对比实验表明其在不完整数据集上具有很好的综合性能。[局限] 需进一步扩展数据集的样本数量和作者数量, 在大数据集上提高文体特征提取效率和作者身份识别的准确性。[结论] 提出的多层面文体特征模型和加权朴素信念分类算法在诗词典籍英译作品集上具有较好的准确性和应用性。

    参考文献 | 相关文章 | 多维度评价
    一种主动学习和协同训练相结合的半监督微博情感分类方法
    毕秋敏, 李明, 曾志勇
    现代图书情报技术. 2015, 31 (1): 38-44.   DOI: 10.11925/infotech.1003-3513.2015.01.06
    摘要   HTML ( 17 PDF(527KB) ( 360 )  

    [目的] 针对微博情感分类时未标注样本多和已标注集少的问题, 提出一种新的方法。[方法] 在协同训练算法的基础上引入主动学习思想, 从低置信度样本中选取最有价值的、信息含量大的, 提交标注, 标注完后添加到训练集中, 重新训练分类器进行情感分类。[结果] 使用不同的数据集进行实验, 实验结果表明该方法所构建的分类器性能优于其他方法, 分类准确率明显提高。特别是在已标注样本占40%的情况下, 提升5%左右。[局限] 在协同训练过程中使用随机特征子空间生成方法不能保证每次构建的两个分类器都是强分类器, 因此未能充分地满足协同训练的假设条件。[结论] 引入主动学习思想后, 能够解决协同训练对低置信度样本处理的不足, 进而增强分类器性能, 提高分类准确率。

    参考文献 | 相关文章 | 多维度评价
    基于粗糙用户聚类的协同过滤推荐模型
    王晓耘, 钱璐, 黄时友
    现代图书情报技术. 2015, 31 (1): 45-51.   DOI: 10.11925/infotech.1003-3513.2015.01.07
    摘要   HTML ( 23 PDF(487KB) ( 325 )  

    [目的] 将粗糙集引入到基于用户聚类的协同过滤中, 提高推荐质量。[方法] 提出一种基于粗糙用户聚类的协同过滤推荐模型: 离线时采用粗糙K-means用户聚类算法, 根据用户与聚类中心的相似度将其分配到K个类的上、下近似中, 形成用户的初始近邻集; 在线时从目标用户的初始近邻集中搜索其最近邻, 预测项目评分并向其产生推荐。[结果] 通过实验对比发现,该模型比传统的和基于项目的协同过滤推荐算法降低约14%的平均绝对误差, 比基于用户聚类的协同过滤推荐算法降低约10%的平均误差。[局限] 在考虑上、下近似对聚类中心调整的重要程度时, 忽略了用户聚类数目和最近邻集用户数阈值的变化所产生的影响。[结论] 该模型能有效提高推荐精度, 具有较强的可行性和现实意义。

    参考文献 | 相关文章 | 多维度评价
    微博用户兴趣发现研究
    石伟杰, 徐雅斌
    现代图书情报技术. 2015, 31 (1): 52-58.   DOI: 10.11925/infotech.1003-3513.2015.01.08
    摘要   HTML ( 20 PDF(677KB) ( 386 )  

    [目的] 微博用户兴趣发现对微博社交网络的个性化推荐和提升用户满意度具有重要的意义和价值。[方法] 不仅通过挖掘用户自身微博数据识别出用户兴趣, 而且进一步挖掘其关注用户的微博数据以及他们之间的社交联系, 并通过计算用户微博与其关注用户兴趣的相似度以及用户与其关注用户间的亲密度, 进一步发现用户兴趣。最后将从两方面发现的兴趣进行合并, 得出用户的兴趣。[结果] 基于爬取的新浪微博数据集进行实验, 准确率和召回率较传统的方法提升15%以上。[局限] 数据预处理中, 停用词表不充分, 没有实现停用词表的自动学习; 需人工标注用户兴趣集计算准确率和召回率。[结论] 实验结果表明, 该方法明显优于传统方法, 能够更加有效和准确地发现用户兴趣。

    参考文献 | 相关文章 | 多维度评价
    社交网络中的好友推荐方法研究
    吴昊, 刘东苏
    现代图书情报技术. 2015, 31 (1): 59-65.   DOI: 10.11925/infotech.1003-3513.2015.01.09
    摘要   HTML ( 20 PDF(627KB) ( 384 )  

    [目的] 利用社交网络中用户的好友和历史行为, 为用户推荐潜在的好友。[方法] 通过共同好友比例和互动比例两个指标衡量社交网络图中好友关系亲密程度, 综合社交兴趣度和兴趣相似度进行评分, 选取分数最高的Top-k用户推荐给目标用户。[结果] 实验结果表明, 相比传统方法, 本文方法在准确率和召回率上均有显著提升。[局限] 互动行为中的非正常情况未识别和处理, 可能影响推荐结果准确率。[结论] 考虑互动比例等多因素的好友推荐方法较传统单一角度方法有更好的效果。

    参考文献 | 相关文章 | 多维度评价
    面向TRIZ的专利自动分类研究
    胡正银, 方曙, 文奕, 张娴, 梁田
    现代图书情报技术. 2015, 31 (1): 66-74.   DOI: 10.11925/infotech.1003-3513.2015.01.10
    摘要   HTML ( 19 PDF(639KB) ( 449 )  

    [目的] 通过构建个性化分类体系, 研究面向TRIZ应用的专利自动分类方法。[方法] 基于主题模型, 从宏观、中观、微观三个层面构建面向TRIZ个性化分类体系; 通过对不同分类特征项与算法进行组合, 挑选分类准确率最高的组合构建初始分类器; 采用平滑非平衡数据与特征项降维方式对分类器进行优化, 完成对专利的自动分类。[结果] 实现半自动构建面向TRIZ的个性化分类体系及基于该分类体系的专利自动分类。在中等数据量级场景下(千条), 实现专利自动分类, 分类效果综合评价指标高达90.2%。[局限] 该方法不适用于数据量较小(百条)时的专利分类; 在较大数据量(万条)场景下, 该方法的有效性尚未得到验证。[结论] 对中等规模专利数据, 能快速构建面向TRIZ的分类体系, 并实现自动分类。

    参考文献 | 相关文章 | 多维度评价
    应用论文
    DROID开源工具在长期保存系统格式识别中的应用
    王玉菊, 吴振新, 孔贝贝, 付鸿鹄
    现代图书情报技术. 2015, 31 (1): 75-81.   DOI: 10.11925/infotech.1003-3513.2015.01.11
    摘要   HTML ( 12 PDF(1000KB) ( 206 )  

    [目的] 在数字资源长期保存系统(DPS)中应用开源格式识别工具获取复杂对象的格式信息。[应用背景] 在现有开源工具的基础上, 为满足DPS的实际需求、保障效率和执行效果, 需选择合适的工具进行二次开发和集成应用。[方法] 分析比较现有两种常用工具, 选取DROID作为DPS的格式识别工具, 同时针对DPS效率要求, 提出选用DROID批量格式识别的处理思路, 并对其进行有效封装。[结果] 将DROID封装为"DPS的批量格式处理模块"并在DPS格式识别及技术元数据抽取中得到实际应用。[结论] DROID是一个优秀的开源工具, 其自动批处理特性基本满足DPS格式处理需求。

    参考文献 | 相关文章 | 多维度评价
    分布式环境下的文本聚类研究与实现
    赵华茗
    现代图书情报技术. 2015, 31 (1): 82-88.   DOI: 10.11925/infotech.1003-3513.2015.01.12
    摘要   HTML ( 14 PDF(615KB) ( 329 )  

    [目的] 通过开源工具, 构建一种分布式环境下的文本聚类与分类应用平台。[方法] 以海量文本的词收敛性为基础, 通过词聚类指导文本聚类和分类。过程包括: 使用开源分词器等工具进行训练集的文本预处理, 结合Mahout数据挖掘平台对处理后的词集进行聚类分析, 最后通过相似度算法计算测试文本与词类簇的相似度并分类。[结果] 分布式环境下的基于词聚类的文本聚类分类计算方法, 可有效解决海量文本的词聚类瓶颈问题。经测试, 当训练文本集增加到100, 迭代收敛阈值为0.01时, 词聚类结果较理想。[局限] 测试数据规模有限, 仅限于新闻数据, 基于其他领域的词聚类效果需要进一步测试、优化、调整。[结论] 详细描述基于词聚类的文本聚类分类算法的开发环境构架和关键步骤, 有助于研究者对相关开源工具使用及分布式并行环境部署的深入理解。

    参考文献 | 相关文章 | 多维度评价
    一种基于科技查新的跨库检索去重算法
    郝慧
    现代图书情报技术. 2015, 31 (1): 89-95.   DOI: 10.11925/infotech.1003-3513.2015.01.13
    摘要   HTML ( 16 PDF(3202KB) ( 317 )  

    [目的] 通过对科技查新中的跨库检索结果进行去重, 提高查新检索效率。[方法] 选取不同数据库检索记录中唯一性的特征四元组{论文名称, 期刊名, 发表时间, 第一作者}信息, 用改进的I-Match中的对比算法构建检索记录特征字串作为去重的计算依据。[结果] 跨库检索去重算法对数据库检索结果进行初步分析和去重, 提高查新检索效率。通过测试, 算法去重准确率较高, 而召回率受数据库收录信息完善度的影响, 还有提高的空间。[局限] 算法处理效果依赖于从数据库检索记录中提取特征四元组, 由于不同数据库的检索返回结果存在差异, 需要针对不同论文数据库定制检索记录特征抽取模板。[结论] 通过实验测试, 算法具有较高的去重准确率和处理效率, 符合预定科技查新需求。

    参考文献 | 相关文章 | 多维度评价
    图书馆微信公众平台的建设与研究
    罗涛
    现代图书情报技术. 2015, 31 (1): 96-100.   DOI: 10.11925/infotech.1003-3513.2015.01.14
    摘要   HTML ( 23 PDF(545KB) ( 317 )  

    [目的] 通过微信公众平台的建设, 使读者能够便捷地获取图书馆的信息和服务, 提高图书馆的受关注度。[应用背景] 随着微信公众平台影响力的不断扩大, 图书馆利用其开展移动服务成为一种趋势。[方法] 图书馆本地服务器利用微信公众平台提供的消息交互接口获取读者发送的消息, 对消息验证后进行分类处理并将结果返回给读者。[结果] 读者通过微信向图书馆公众号发送特定格式的消息就能进行本馆资讯、个人借阅信息、FAQ、书目以及文献等内容的查询。[结论] 本应用作为图书馆移动服务的新模式, 既可以吸引读者的关注也可以加强读者与图书馆之间的互动交流。

    参考文献 | 相关文章 | 多维度评价
版权所有 © 2015 《数据分析与知识发现》编辑部
地址:北京市海淀区中关村北四环西路33号 邮编:100190
电话/传真:(010)82626611-6626,82624938
E-mail:jishu@mail.las.ac.cn