Please wait a minute...
Advanced Search
  • 数据分析与知识发现
      2015年, 第31卷, 第12期 刊出日期:2015-12-25   
    选择: 合并摘要
    编者按
    让预防利益冲突成为保障学术诚信的重要措施
    《现代图书情报技术》编辑部
    现代图书情报技术. 2015, 31 (12): 1-2.   DOI: 10.11925/infotech.1003-3513.2015.12.01
    摘要   HTML ( 11 PDF(313KB) ( 221 )  
    参考文献 | 相关文章 | 多维度评价
    研究论文
    科学数据元数据标准述评及其通用化设计研究
    刘峰, 张晓林
    现代图书情报技术. 2015, 31 (12): 3-12.   DOI: 10.11925/infotech.1003-3513.2015.12.02
    摘要   HTML ( 13 PDF(1474KB) ( 463 )  

    [目的]对科学数据的元数据标准进行全面梳理, 并构建科学数据元数据标准通用数据项设计模型。[方法]对当前科研领域6种典型的元数据标准进行概述与分析, 在统计的基础上设计科学数据通用元数据规范。[结果]各个学科领域元数据标准在格式、组织、表达方面差异性明显; 但同时它们的构成要素也存在相似性, 可以依此构建通用元数据规范。[结论]面向学科领域的科学数据元数据标准促进了科研的发展, 但也为科学数据的统一管理与服务提出挑战。基于各类元数据标准构成要素的统计而构建通用元数据规范是解决这个问题的一种思路。

    参考文献 | 相关文章 | 多维度评价
    学科数据知识库的政策调研与分析——以生命科学领域为例
    孙轶楠, 顾立平, 宋秀芳, 刘晶晶, 江娴
    现代图书情报技术. 2015, 31 (12): 13-20.   DOI: 10.11925/infotech.1003-3513.2015.12.03
    摘要   HTML ( 13 PDF(440KB) ( 194 )  

    [目的]聚焦生命科学数据知识库政策, 为政策实施提供建议。[方法]通过人工阅读、筛选的方法对有明确政策声明的38个生命科学领域的数据知识库进行调研, 主要针对数据知识库在数据提交、数据管理和数据使用等方面的政策声明。[结果]学科数据知识库的利益相关群体(数据提交者、数据管理者、数据使用者)各自的数据权益管理规范不同。[局限]仅调研38个生命科学领域的案例, 没有对政策要素的时序变化进行分析, 对政策执行细节探讨还有所欠缺。[结论]良好的学科数据知识库政策体系应当包括: 数据提交政策(内容界定、格式规范、来源要求、归属说明)、数据管理声明(数据公开、数据注册、免责声明、数据版本管理)以及数据使用规范(数据访问、数据推荐引用、数据授权许可)。

    参考文献 | 相关文章 | 多维度评价
    数字文献资源内容服务推荐方法研究
    毕强, 刘健
    现代图书情报技术. 2015, 31 (12): 21-27.   DOI: 10.11925/infotech.1003-3513.2015.12.04
    摘要   HTML ( 14 PDF(2670KB) ( 247 )  

    [目的]解决传统数字文献资源内容服务推荐中, 无法充分挖掘用户潜在信息需求以及评分矩阵稀疏问题。[方法]利用关联语义链和协同过滤算法提出数字文献资源内容服务推荐算法。[结果]实验结果证明, 该算法可以克服单一推荐算法中存在的无法挖掘用户潜在信息需求以及评分矩阵稀疏问题。[局限]缺少对数字资源的大规模采集, 实验案例较少。[结论]该算法充分挖掘用户信息需求并产生数字资源推荐信息, 为数字资源服务提供商提高用户感知的能力, 增强资源服务推荐的准确性和针对性提供了一种新途径。

    参考文献 | 相关文章 | 多维度评价
    面向协同过滤推荐的多粒度用户偏好挖掘研究
    宋梅青
    现代图书情报技术. 2015, 31 (12): 28-33.   DOI: 10.11925/infotech.1003-3513.2015.12.05
    摘要   HTML ( 11 PDF(427KB) ( 222 )  

    [目的]针对协同过滤中用户偏好挖掘粒度与挖掘效率之间的关系展开研究, 以期找出效率最高的挖掘粒度。[方法]结合实际应用情况将用户偏好挖掘粒度从粗到细划分为三种, 并对三种粒度下相应的偏好挖掘算法进行详细设计, 通过实验对比不同粒度下用户偏好挖掘的效率。[结果]实验结果表明, 当用户偏好挖掘粒度从粗到细变化时, 偏好挖掘效率也会逐渐降低。[局限]以用户消费及评分数据为挖掘用户偏好的数据来源, 对于其他类型数据源暂未涉及。[结论]粗粒度的偏好挖掘能更好地发现用户偏好。

    参考文献 | 相关文章 | 多维度评价
    基于微博用户行为的观点传播模型
    杨宁, 黄飞虎, 文奕, 陈云伟
    现代图书情报技术. 2015, 31 (12): 34-41.   DOI: 10.11925/infotech.1003-3513.2015.12.06
    摘要   HTML ( 9 PDF(2270KB) ( 218 )  

    [目的]探讨微博网络中基于用户行为的信息传播模型。[方法]对微博网络中用户的三种行为(发布、评论、转发)进行分析, 并用敏感度和活跃度对用户获取信息和参与讨论的积极程度进行刻画。在此基础上, 提出一个新的观点传播模型。在NetLogo平台上进行计算机模拟, 讨论模型参数对观点传播和演化的影响。[结果]信任阈值对用户的观点趋向具有影响。敏感度对网络中信息的传播具有促进作用。活跃度可以加快信息的传播, 也对观点达到稳定的时间具有促进作用。[局限]目前观点动力学研究主要以理论分析和实验为主, 因此本模型还需要扩大数据规模以验证理论模型的适应性。[结论]模型以微博用户行为为基础, 能够描述微博网络中复杂的信息传播及观点更新现象。

    参考文献 | 相关文章 | 多维度评价
    产品评论中的隐式属性抽取研究
    张莉, 许鑫
    现代图书情报技术. 2015, 31 (12): 42-47.   DOI: 10.11925/infotech.1003-3513.2015.12.07
    摘要   HTML ( 10 PDF(503KB) ( 249 )  

    [目的]产品领域的意见挖掘是近年来的一个非常热门的话题, 意见挖掘结果可以帮助过滤有害信息、进行社会舆情分析、指导用户消费和帮助商家改善产品性能等, 而隐式产品属性在网络评论句中十分常见且挖掘难度大, 因此对其进行研究有重要的意义。[方法]利用仅包含显式属性的某品牌汽车评论句确定多词性精简意见词, 并利用同义词词林进行扩展形成意见簇, 同时基于领域常用语确定属性词, 并通过搭配关系计算权重, 生成记录形如“{属性, 意见, 权重}”的字典, 利用多策略隐式属性抽取算法以字典为基础抽取隐式属性, 同时考虑待匹配意见词与字典中的意见词之间的相似度。[结果]可以行之有效地抽取出评论句中的隐式属性, F值达到75.55%, 属于隐式产品属性抽取现有研究的较好结果。[局限]前期数据标注工作主要靠人工, 较为费时费力。[结论]实验结果表明本文算法效果较好, 具有一定的实用价值。

    参考文献 | 相关文章 | 多维度评价
    基于比较句的网络用户评论情感分析
    彭浩, 徐健, 肖卓
    现代图书情报技术. 2015, 31 (12): 48-56.   DOI: 10.11925/infotech.1003-3513.2015.12.08
    摘要   HTML ( 8 PDF(544KB) ( 262 )  

    [目的]为帮助企业识别竞争产品, 挖掘有价值的信息, 提出基于比较句的情感分析模型。[方法]利用基于比较句数目的热门指数和差距指数筛选热门对比产品, 从比较句中抽取特征并根据情感词典计算竞争产品的特征得分。为验证模型的效果, 以手机产品为实验对象, 以百度搜索引擎为数据来源展开实验。[结果]实验从28对手机产品中筛选出9对热门对比产品, 并可视化分析产品的特征差异。相对于以往基于文本的情感分析方法, 该模型能够更好地识别竞争产品以及判断竞争产品的用户情感取向。[局限]特征抽取准确性有待进一步提高, 比较句识别率存在一定的提升空间。[结论]实验结果与实际情况相符合, 模型具有有效性, 该方法对企业有较高的利用价值。

    参考文献 | 相关文章 | 多维度评价
    基于医学本体的术语相似度算法研究
    范雪雪, 王志荣, 徐晤, 梁银, 马小虎
    现代图书情报技术. 2015, 31 (12): 57-64.   DOI: 10.11925/infotech.1003-3513.2015.12.09
    摘要   HTML ( 12 PDF(462KB) ( 498 )  

    [目的]借助大型的医学本体, 提升医学术语相似度计算精度。[方法]依据SNOMED CT和MeSH两个医学本体的层级结构和语义关系, 提取概念术语的深度、距离等语义参数, 并用概念密度对其加权得到深度系数和距离系数, 构造相似度函数进行术语相似度计算。[结果]该算法能在两个医学本体中进行术语相似度计算, 较传统算法更加接近人工评分标准。[局限]该方法较为依赖本体结构。[结论]该方法能够提高以医学本体为基础的术语相似度计算精确度。

    参考文献 | 相关文章 | 多维度评价
    应用论文
    本体上下位关系在招生问答机器人中的应用研究
    余昕聪, 李红莲, 吕学强
    现代图书情报技术. 2015, 31 (12): 65-71.   DOI: 10.11925/infotech.1003-3513.2015.12.10
    摘要   HTML ( 11 PDF(980KB) ( 157 )  

    [目的]提高问答系统准确率, 提升目前问答系统的满意度。[应用背景]在自然语言处理领域, 问答系统已成为一个重要研究热点, 但现阶段问答系统的准确率较低。[方法]对智能聊天机器人ALICE源码进行分析研究, 并对其进行二次开发, 加入中文分词, 在其内部推理分析的基础上, 提出一种利用本体上下位关系对用户查询问题的推荐方法。[结果]将领域本体库融入到ALICE机器人中, 对用户问题进行分析, 并从中提取关键词, 从本体库中查询所提取的相关关键词, 得出与用户提问相匹配的答案并推荐给用户。[结论]实验结果证明, 加入本体的推荐结果后, 用户满意度有较大提升。

    参考文献 | 相关文章 | 多维度评价
    基于BFO构建中文植物物种多样性领域本体的研究
    段宇锋, 黄思思
    现代图书情报技术. 2015, 31 (12): 72-79.   DOI: 10.11925/infotech.1003-3513.2015.12.11
    摘要   HTML ( 11 PDF(539KB) ( 442 )  

    [目的]建立中文植物物种多样性本体。[方法]以BFO作为上层本体, 参考KACTUS法, 通过复用PO构建中文植物物种多样性本体。具体过程包括对PO裁剪与合并、增加实体、添加关系、汉化术语以及填充实例等环节。[结果]建立涵括720条实体和4 000多个实例的中文植物物种多样性本体。并依据该本体, 使用OWL语言实现《中国植物志》中“象橘”描述知识片段的形式化表示。[局限]由于该领域缺乏完善的词典, 因而本体未能穷举实例。[结论]建立的本体能够较好地支持植物物种多样性知识的形式化表示。

    参考文献 | 相关文章 | 多维度评价
    跨领域数据审编(Curation)流程研究——以环境健康数据为例
    杨林, 李姣, 侯丽, 钱庆
    现代图书情报技术. 2015, 31 (12): 80-88.   DOI: 10.11925/infotech.1003-3513.2015.12.12
    摘要   HTML ( 11 PDF(2153KB) ( 201 )  

    [目的]顺应环境健康跨领域科学数据管理需求, 探索跨领域数据的审编工作流程, 为推进相关领域数据管理工作提供可行性方案。[方法]基于环境健康领域研究, 在DCC审编生命周期模型指导下, 构建环境健康数据审编工作流程, 明确各审编模块的内容以及人工审编、自动化审编的边界。[结果]应用构建的工作流审编气象环境数据与医院就诊数据, 可支撑医药卫生知识服务系统中环境健康数据部分的审编工作, 结果显示环境健康数据审编工作流程具有一定的可操作性。[局限]由于需求的多样性, 流程在实际操作时需要在数据模型、数据规范化等方面进一步细化。[结论]环境健康数据审编流程能够有效地组织不同专业背景的审编人员, 兼顾数据质量和数据规模两方面的考量, 在解决跨领域数据审编方面具有一定的可操作性。

    参考文献 | 相关文章 | 多维度评价
    基于零水印的图博档彩色图像资源版权保护策略研究
    朱光
    现代图书情报技术. 2015, 31 (12): 89-94.   DOI: 10.11925/infotech.1003-3513.2015.12.13
    摘要   HTML ( 12 PDF(2949KB) ( 281 )  

    [目的]设计一种透明性和实时性更优越的零水印算法, 保护彩色图像信息资源的版权。[应用背景]提高图像视觉质量, 满足网络环境下图博档彩色图像资源版权保护的实时性需求。[方法]提取彩色图像亮度分量的surf特征, 通过比较特征向量与参考向量余弦夹角的大小构造零水印序列, 并对其进行Arnold变换得到版权标识。[结果]基于surf特征的零水印算法可以对彩色图像进行实时的版权保护和鉴别, 对于常规图像攻击具有较强的鲁棒性, BCR系数保持在0.7以上。[结论]有助于网络环境下图博档彩色图像资源的版权保护, 促进图书馆、博物馆、档案馆数字信息资源的共享。

    参考文献 | 相关文章 | 多维度评价
    利用旁路监听技术约束数字资源过量下载
    王政军, 俞小怡, 金玉玲
    现代图书情报技术. 2015, 31 (12): 95-100.   DOI: 10.11925/infotech.1003-3513.2015.12.14
    摘要   HTML ( 7 PDF(1964KB) ( 211 )  

    [目的]为解决高校图书馆存在的数字资源过量下载问题, 设计基于网络旁路监听技术的数字资源监控管理系统。[应用背景]现有过量下载问题的解决方案中存在一定的缺陷, 为弥补这些缺陷, 提出基于旁路监听技术的优化解决方案。[方法]引入旁路监听技术方式探讨图书馆约束数字资源过量下载的设计思路, 以大连理工大学图书馆数字资源监控系统为例, 阐述系统的技术支撑原理、设计思路及功能模块解决方案。[结果]在不影响原有的网络拓扑和使用习惯的前提下, 准确识别并记录读者对数字资源的访问下载情况, 对过量下载的可疑用户进行警告提醒乃至屏蔽阻断。[结论]基于旁路监听方式的数字资源监控系统可以对数字资源实施准确监控, 有效防止过量下载事件的发生。

    参考文献 | 相关文章 | 多维度评价
版权所有 © 2015 《数据分析与知识发现》编辑部
地址:北京市海淀区中关村北四环西路33号 邮编:100190
电话/传真:(010)82626611-6626,82624938
E-mail:jishu@mail.las.ac.cn