Please wait a minute...
Advanced Search
  • 数据分析与知识发现
      2015年, 第31卷, 第3期 刊出日期:2015-03-25   
    选择: 合并摘要
    综述评介
    构建可信赖的数字资源长期保存系统摄入工作流
    吴振新, 王玉菊, 付鸿鹄, 李春旺, 刘建华
    现代图书情报技术. 2015, 31 (3): 1-7.   DOI: 10.11925/infotech.1003-3513.2015.03.01
    摘要   HTML   PDF (1362KB)

    [目的]在数字资源长期保存实践中, 基于可信赖仓储认证标准的要求, 探索可信赖数字资源保存系统的摄入处理流程。[方法]中国科学院文献情报中心的数字资源长期保存系统需要接收、处理、存档来自多个出版商的数据, 摄入工作流是该系统的一个重要组成部分。基于可信赖仓储认证标准, 在摄入流程设计与开发中, 采用工作流程管理理论以及信任链机制与可信赖工作流的管理模型。[结果]初步完成数字资源长期保存系统摄入工作流程设计和开发。[结论]基本满足数字资源保存系统摄入工作流程的灵活、可定制、个性化、可扩展、可复用等要求。

    参考文献 | 相关文章 | 多维度评价
    ORCID在机构知识库中的整合介绍
    白海燕
    现代图书情报技术. 2015, 31 (3): 8-17.   DOI: 10.11925/infotech.1003-3513.2015.03.02
    摘要   HTML   PDF (3178KB)

    [目的]了解ORCID在IR中的整合现状、整合实践以及实现的技术方法。[方法]对IR整合ORCID的实践进行文献追踪和案例分析; 对IR通用平台开源软件的整合功能进行技术分析。[结果]得到IR整合ORCID的发展策略和推进机制、整合实现的技术框架以及应用场景、嵌入流程、技术开发等多方面的示范和最佳实践。[结论]国内IR应参照先进经验和自身需求, 按规范控制、业务流嵌入以及数据的简单复用等不同方向设计与实现ORCID整合应用。

    参考文献 | 相关文章 | 多维度评价
    研究论文
    基于LDA主题关联过滤的领域主题演化研究
    秦晓慧, 乐小虬
    现代图书情报技术. 2015, 31 (3): 18-25.   DOI: 10.11925/infotech.1003-3513.2015.03.03
    摘要   HTML   PDF (558KB)

    [目的]发现领域文献中主题的新生、消亡、继承、分裂和合并的演化轨迹。[方法]根据文献出版时间划分多个时间窗口, 通过LDA主题模型识别各个时间窗口中的主题; 利用主题关联(Topic Association)过滤规则确定相邻时间窗口主题间的演化关系; 形成连续时间段内主题新生、消亡、继承、分裂和合并的演化轨迹。[结果]在保证主题延续性的条件下, 更准确地识别主题的新生、消亡、继承、分裂和合并的演化类型。[局限]固定的时间窗口, 未考虑主题演化周期的多样性。[结论]该方法可以有效降低LDA主题模型中相似度较小主题的干扰, 提升主题演化关系识别的准确性。

    参考文献 | 相关文章 | 多维度评价
    带权复杂图模型的专利关键词标引研究
    李军锋, 吕学强, 周绍钧
    现代图书情报技术. 2015, 31 (3): 26-32.   DOI: 10.11925/infotech.1003-3513.2015.03.04
    摘要   HTML   PDF (477KB)

    [目的]专利关键词标引是中文信息处理领域较为基础的环节, 在专利检索、专利翻译以及专利自动摘要中具有较高的应用价值。[方法]采用K-最邻近耦合图将专利文献映射成复杂网络图模型, 结合平均路径变化量、平均聚类系数变化量以及当前节点对整个复杂图模型流动性的影响, 提出平均连通权重评价指标。分析关键词位置信息、关键词跨度信息以及关键词逆文档频率信息, 提出专利综合相关特征衡量关键词的重要性。[结果]在传感器领域专利文献的实验结果中, Top-8级别上准确率达到60.9%, Top-10级别上召回率达到73.4%。[局限]对低频关键词的处理效果不够理想, 影响了标引效果。[结论]实验结果表明该方法的有效性, 对专利标引具有积极意义。

    参考文献 | 相关文章 | 多维度评价
    基于结构和编辑历史的Wikipedia信任模型
    李慧, 相华婷, 汤强
    现代图书情报技术. 2015, 31 (3): 33-38.   DOI: 10.11925/infotech.1003-3513.2015.03.05
    摘要   HTML   PDF (532KB)

    [目的]准确计算Wikipedia中词条的可信度。[方法]采用文本分析法将词条当前版本与其历史版本进行比较, 获取各版本作者的有效编辑内容, 并结合词条当前版本包含的参考文献数和图片数等结构信息, 构建一个动态的词条信任评价模型。[结果]通过仿真实验表明该模型能够很好地区分Wikipedia中高信任词条和低信任词条。[局限]通过该算法得出的词条等级划分阈值对处于信任等级中间的B和C两类词条区分不明显。[结论]该算法简单有效, 能够从微观层面了解词条的变化过程, 动态计算其信任值。

    参考文献 | 相关文章 | 多维度评价
    一种基于类别描述的TF-IDF特征选择方法的改进
    徐冬冬, 吴韶波
    现代图书情报技术. 2015, 31 (3): 39-48.   DOI: 10.11925/infotech.1003-3513.2015.03.06
    摘要   HTML   PDF (1168KB)

    [目的]对特征权重公式进行改进, 提高文本分类精度。[方法]引入类内、类间信息并修正TF-IDF权重因子, 得到基于类别描述的TF-IDF-CD方法。将其在偏斜文本集和均衡文本集下分别与NB、KNN等分类方法结合进行文本分类实验, 比较其与TF-IDF、CTD等方法的分类精确度。[结果]TF-IDF-CD方法在特征项较少时已有很好分类效果。相比TF-IDF, 在不同文本集以及不同分类方法下, 其平均分类精度均有大幅提高, 最低为14%, 最高可达30%。与CTD相比, TF-IDF-CD与NB、SVM及DT结合后的平均分类精度均有1%-13%的提高。而在非均衡文本集下, TF-IDF-CD与KNN结合时其性能比CTD与KNN结合时低2%。[局限]TF-IDF-CD与对文本集不均衡性较敏感的KNN结合时, 其抗数据偏斜能力仍需改善。[结论]实验结果表明, TF-IDF-CD特征选择方法有效, 对TF-IDF的改进具有一定借鉴意义。

    参考文献 | 相关文章 | 多维度评价
    基于动态标签-资源网络图的信息资源推荐
    王忠群, 蒋胜, 修宇, 皇苏斌, 汪千松
    现代图书情报技术. 2015, 31 (3): 49-57.   DOI: 10.11925/infotech.1003-3513.2015.03.07
    摘要   HTML   PDF (727KB)

    [目的]解决推荐系统向目标用户推荐过时信息资源的问题。[方法]提出一种基于动态标签-资源网络图的个性化信息资源推荐方法。以资源拥有的共同标签作为连边, 建立资源网络图以形成资源语义链, 再由资源网络图的连边投影构建具有时间属性的标签网络图以刻画用户兴趣漂移, 继而在标签网络图中匹配目标用户兴趣的动态标签, 实现为用户推荐精准信息资源。[结果]在数据集MovieLens上验证本方法能够跟踪、预测用户兴趣漂移, 实施资源精准推荐, 且平均绝对误差(MAE)较传统方法降低近15%。[局限]诸如信息检索中用户兴趣频繁变化的实时动态环境下的推荐暂未考虑。[结论]该方法可实现为兴趣动态变化的用户推荐更为精准的信息资源。

    参考文献 | 相关文章 | 多维度评价
    一种基于本体和位置感知的图书馆书籍推荐模型
    李胜, 王叶茂
    现代图书情报技术. 2015, 31 (3): 58-66.   DOI: 10.11925/infotech.1003-3513.2015.03.08
    摘要   HTML   PDF (752KB)

    [目的]改善图书馆的推荐服务, 帮助用户选择感兴趣的书籍资源。[方法]结合Wi-Fi室内定位技术, 提出一种基于本体和具有位置感知的图书馆书籍推荐模型。通过构建书籍分类本体, 结合用户偏好和区域组偏好, 在考虑推荐处理触发机制问题下进行推荐。[结果]与现有综合本体和协同过滤方法相比, 提出的模型在推荐精度和相关度上分别提高13.56%和21.79%, 相比单纯基于内容过滤的方法, 推荐结果的集合多样性提高48.03%。[局限]未讨论推荐模型中个人书籍偏好和区域组偏好的权重。[结论]本研究有利于改善图书馆的推荐服务, 提供位置相关的个性化书籍推荐。

    参考文献 | 相关文章 | 多维度评价
    电商用户需求状态的聚类分析——以淘宝网女装为例
    张文君, 王军, 徐山川
    现代图书情报技术. 2015, 31 (3): 67-74.   DOI: 10.11925/infotech.1003-3513.2015.03.09
    摘要   HTML   PDF (1139KB)

    [目的]通过浏览器日志挖掘探测消费者在电商平台下网购的需求状态, 以实现有效的购物引导。[方法]获取淘宝网女装购物会话, 对会话中的页面类型进行标记, 对标记后的会话数据基于访问的页面特征(包括页面类型和页面复杂度)进行聚类分析, 从而揭示电商用户的需求状态。[结果]基于页面类型聚类得出4种典型的电商用户需求状态类型, 包括后台管理型、持续搜索型、商品浏览型以及信息搜寻型。再基于所访问页面的复杂度, 进一步将这4种状态细分为9种。[局限]仅分析电商用户需求状态, 进一步的研究应基于9种状态构建电商导购机制。[结论]对购物会话进行基于页面类型和页面复杂度的聚类, 得到区分度明显、易于解释的会话类型。这表明通过页面类型来判定网购用户动态变化的需求状态是行之有效的方法。

    参考文献 | 相关文章 | 多维度评价
    行业网站搜索引擎优化指标及实证研究——基于信息生态视角的分析
    王晰巍, 赵丹, 杨梦晴, 魏俊巍
    现代图书情报技术. 2015, 31 (3): 75-83.   DOI: 10.11925/infotech.1003-3513.2015.03.10
    摘要   HTML   PDF (431KB)

    [目的]构建基于信息生态视角的行业网站搜索引擎优化指标, 以指导行业网站建设和提升网站核心竞争力。[方法]从信息生态视角出发, 构建"生态-搜索引擎优化"指标体系, 利用层次分析法对国内外10个具有代表性的云存储网站进行实证分析。[结果]实证结果表明软硬件技术的成熟为行业网站发展创造了良好的产业环境, 国外行业网站搜索引擎优化较国内网站更为重视生态性建设。[局限]仅选择云存储网站进行样本分析, 所选择的有代表性的行业网站数量相对较少。[结论]在理论层面为行业网站建设提供新的研究视角, 在实践应用层面能指导行业网站进行搜索引擎优化效果评价。

    参考文献 | 相关文章 | 多维度评价
    应用论文
    中国ORCID注册平台iAuthor的设计与实现
    张建勇, 黄永文, 于倩倩, 董智鹏, 郭舒
    现代图书情报技术. 2015, 31 (3): 84-91.   DOI: 10.11925/infotech.1003-3513.2015.03.11
    摘要   HTML   PDF (1623KB)

    [目的]为中国科研人员提供ORCID注册, 并建立个人科研成果管理空间。[应用背景]ORCID致力于解决学术研究中的科研人员姓名歧义问题, 而这一问题也长期困扰中国学术界, 通过与ORCID合作, 满足中国科研人员身份唯一识别需求。[方法]通过ORCID提供的API帮助科研人员注册或关联ORCID, 以CAS IR、CSCD、Web of Science等作为基础数据源, 快速形成科研人员成果信息, 并自动建立个人学术主页。[结果]实现为科研人员获取ORCID的功能, 科研人员可以对其个人信息和科研产出进行管理, 并实现这些信息与ORCID系统的交互。[结论]中国ORCID注册平台iAuthor引起了国内科研机构和高校的广泛关注, 并吸引了大量用户, 为促进科研人员姓名歧义问题的解决奠定良好基础。

    参考文献 | 相关文章 | 多维度评价
    科技知识组织体系(STKOS)相关工具集成服务系统的设计与实现
    方安, 吴思竹, 洪娜, 钱力, 王颖, 胡佳慧
    现代图书情报技术. 2015, 31 (3): 92-100.   DOI: 10.11925/infotech.1003-3513.2015.03.12
    摘要   HTML   PDF (1681KB)

    [目的]科技知识组织体系课题产出了大量知识组织相关工具, 为避免工具重复建设, 实现对这些工具的复用和共享。[应用背景]"面向外文科技文献信息的知识组织体系建设和应用示范"项目是国家"十二五"科技支撑计划项目, 构建了包含超级科技叙词表、本体、范畴在内的, 覆盖理、工、农、医的多层次知识组织体系。在科技知识组织体系建设过程中, 各课题组开发了大量知识组织相关工具。[方法]基于OSGi的Equinox实现框架搭建插件型知识组织工具集成服务系统。设计并实现插件自动封装流程, 利用文件和数据库相结合的方式存储工具和插件, 并提出基于jBPM工作流的插件组配机制。[结果]完成STKOS相关工具的仓储及对外发布系统建设, 基于插件的知识组织工具集成框架和组件建设以及基于工作流的知识组织工具集成三方面的建设内容。[结论]实现对STKOS相关工具的集成、规范化管理和共享共用。

    参考文献 | 相关文章 | 多维度评价
    基于GimbalTM的轻量级高校图书馆情景感知推送服务平台开发及试验
    鲁晓明
    现代图书情报技术. 2015, 31 (3): 101-107.   DOI: 10.11925/infotech.1003-3513.2015.03.13
    摘要   HTML   PDF (1026KB)

    [目的]利用高通公司推出的GimbalTM建设轻量级的图书馆情景感知推送服务平台。[应用背景]通过用户的智能移动终端设备获取其地理位置和兴趣偏好等信息, 并以此为依据提供情景感知的个性化服务, 是提升用户体验的重要途径。[方法]选择Android环境下的Gimbal SDK开发图书馆情景感知推送服务客户端应用程序, 在服务器Gimbal Manager端设置地理围栏信息以及通信服务触发条件和消息内容, Gimbal Manager主动感知用户情景和兴趣信息, 向用户推送满足触发条件的通信服务消息内容。[结果]Android手机用户安装客户端应用程序后, 当进入不同的地理围栏时, 会接收到由Gimbal Manager推送的与个人兴趣相符的信息。[结论]本平台能够向用户提供情景感知的个性化推送服务, 提高图书馆服务质量。

    参考文献 | 相关文章 | 多维度评价
版权所有 © 2015 《数据分析与知识发现》编辑部
地址:北京市海淀区中关村北四环西路33号 邮编:100190
电话/传真:(010)82626611-6626,82624938
E-mail:jishu@mail.las.ac.cn