Please wait a minute...
Advanced Search
  • 数据分析与知识发现
      2015年, 第31卷, 第11期 刊出日期:2015-11-25   
    选择: 合并摘要
    编者按
    公开研究数据,保障学术研究的可检验性和可重复性
    《现代图书情报技术》编辑部
    现代图书情报技术. 2015, 31 (11): 1-3.   DOI: 10.11925/infotech.1003-3513.2015.11.01
    摘要   HTML ( 13 PDF(340KB) ( 261 )  
    参考文献 | 相关文章 | 多维度评价
    研究论文
    国外通用型数据知识库的政策调研与分析
    刘晶晶, 顾立平, 范少萍
    现代图书情报技术. 2015, 31 (11): 4-11.   DOI: 10.11925/infotech.1003-3513.2015.11.02
    摘要   HTML ( 15 PDF(1480KB) ( 239 )  

    [目的]为机构知识库与数据知识库建立政策规范进行政策调研, 为图书馆员推荐数据知识库进行权益分析。[方法]以文献综述方法, 进行政策调研与分析, 梳理政策要素及其内容。[结果]研究得到管理者的权益与义务(建立审核机制、制定数据识别标准、颁布传播使用规定); 提交者的权益(免费存储、更新元数据、设置时滞期)与义务(保证数据来源可靠、遵守知识库政策、避免知识产权争议); 使用者的权益与义务(免费使用、遵循引用规定)。[局限]缺乏专业型数据知识库政策调研, 未来可以建立完整的政策框架。[结论]建立完善的数据知识库政策, 在平衡各方利益关系的基础上, 有利于推进科研数据开放共享。

    参考文献 | 相关文章 | 多维度评价
    基于用户兴趣模糊聚类的协同过滤算法
    刘占兵, 肖诗斌
    现代图书情报技术. 2015, 31 (11): 12-17.   DOI: 10.11925/infotech.1003-3513.2015.11.03
    摘要   HTML ( 5 PDF(708KB) ( 314 )  

    [目的]解决传统协同过滤推荐算法存在的数据稀疏性、用户不同时间的兴趣被等同考虑的问题。[方法]提出一种基于用户兴趣模糊聚类的协同过滤算法。将用户兴趣模型分为稳定兴趣和当前兴趣, 利用用户稳定兴趣对用户进行模糊聚类, 确定用户最近邻, 形成初始推荐集; 计算推荐列表中各个项目和用户当前兴趣的相似度, 然后按照相似度大小排序, 生成最终推荐列表。[结果]在数据集MovieLens上验证本方法的推荐准确率, 其平均绝对误差(MAE)较传统方法降低近10%。[局限]该算法中, 在对用户稳定兴趣建模时考虑所有的项目类别, 没有对项目类别进行处理(如合并和删除等)。[结论]与传统的推荐算法相比, 该方法的推荐准确度有明显提高。

    参考文献 | 相关文章 | 多维度评价
    一种基于维基百科的多策略词义消歧方法
    任海英, 于立婷
    现代图书情报技术. 2015, 31 (11): 18-25.   DOI: 10.11925/infotech.1003-3513.2015.11.04
    摘要   HTML ( 11 PDF(476KB) ( 420 )  

    [目的]提出一种基于维基百科的多策略词义消歧方法, 充分利用维基百科中的潜在知识进行消歧。[方法]设计类别一致性、内容相关性以及词义重要程度三个指标, 并通过动态熵权线性融合各指标值以及二次消歧的方法来确定歧义词在特定语境的最佳词义。[结果]通过实验, 该方法取得了74.82%的准确率, 可以验证其有效性。[局限]候选词义粒度较细, 且主要针对英文进行消歧, 对其他语言缺少一定的普适性。[结论]维基百科为消歧提供更多的语义知识和背景信息, 能够提高消歧准确率。

    参考文献 | 相关文章 | 多维度评价
    结合复杂网络的特征权重改进算法研究
    杜坤, 刘怀亮, 郭路杰
    现代图书情报技术. 2015, 31 (11): 26-32.   DOI: 10.11925/infotech.1003-3513.2015.11.05
    摘要   HTML ( 7 PDF(552KB) ( 250 )  

    [目的]为了更准确计算特征权重, 以提高文本相似度计算的准确性。[方法]考虑特征项间的语义关联构造文本复杂网络并进行特征选择, 定义类别相关系数并结合特征选择结果, 提出一种改进的特征权重计算方法, 并进行中文文本分类实验。[结果]对比实验结果表明, 本文提出的特征权重改进算法较之TFIDF算法能够取得较好的分类效果。[局限]特征选择评估函数中的参数需要人工给定。[结论]相较于传统的TFIDF算法, 该算法能够更加准确地计算特征权重。

    参考文献 | 相关文章 | 多维度评价
    基于EM-LDA综合模型的电商微博热点话题发现
    伍万坤, 吴清烈, 顾锦江
    现代图书情报技术. 2015, 31 (11): 33-40.   DOI: 10.11925/infotech.1003-3513.2015.11.06
    摘要   HTML ( 8 PDF(620KB) ( 441 )  

    [目的]在社交营销环境下, 准确且有效地挖掘电商微博中的热点话题。[方法]提出一种综合模型EM-LDA对电商微博文本数据进行主题挖掘。EM-LDA综合模型包含两个子模型: ET-LDA模型和IT-LDA模型, 前者对含有哈希标签的微博进行主题挖掘, 后者对不含有哈希标签的微博进行主题挖掘。[结果]在确定合适的主题个数之后, 标准LDA模型和EM-LDA综合模型均被用来挖掘电商微博文本数据的热点话题, 与标准LDA模型相比, EM-LDA综合模型的热词挖掘准确率和有效性均较高, 且能提高主题可解释性。[局限]在ET-LDA模型中, 未考虑微博联系人之间的关联关系, 即模型中未引入用户特征; 在IT-LDA模型中没有考虑如何处理那些既是转发式又是对话式的电商微博。[结论]EM-LDA综合模型根据数据的特点, 改进了标准LDA模型, 能够提升电商微博热点话题识别的准确性。

    参考文献 | 相关文章 | 多维度评价
    基于模板用户信息搜索行为和统计分析的共谋销量欺诈识别
    王忠群, 乐元, 修宇, 皇苏斌, 汪千松
    现代图书情报技术. 2015, 31 (11): 41-50.   DOI: 10.11925/infotech.1003-3513.2015.11.07
    摘要   HTML ( 12 PDF(791KB) ( 466 )  

    [目的]针对电子商务推广中出现的共谋虚增销量的欺诈问题, 提出一种基于模板用户信息搜索行为和统计分析的共谋销量识别方法。[方法]为了刻画用户在C2C网站购物时的信息搜索行为, 提出一种带关键字的用户信息搜索行为模型以及信息搜索行为的相似度计算方法; 依据共谋用户信息搜索行为的相似性, 提出一种基于层次聚类的欺诈嫌疑挖掘算法; 给出基于统计分析的欺诈识别方法从欺诈嫌疑中识别共谋买家, 以实现对卖家销售记录中虚增销量的识别。[结果]在改进的数据集上验证该方法的召回率和准确率分别为88.6%和90.1%。[局限]不能动态调整用于识别欺诈嫌疑行为是否为“刷单”的阈值。[结论]该方法可有效识别基于模板用户信息搜索行为的共谋虚增销量。

    参考文献 | 相关文章 | 多维度评价
    多媒体微博评论信息的主题发现算法研究
    叶川, 马静
    现代图书情报技术. 2015, 31 (11): 51-59.   DOI: 10.11925/infotech.1003-3513.2015.11.08
    摘要   HTML ( 13 PDF(1386KB) ( 283 )  

    [目的]发现微博中图片或视频等多媒体内容的主题特征。[应用背景]多媒体微博的文本内容普遍简短且主题通常蕴含在图片或视频等多媒体内容中, 传统的文本挖掘方法不适用于这种多媒体类微博。[方法]通过热点评论扩充该多媒体微博的文本空间, 并使用LDA主题模型进行分类推断与主题特征挖掘, 使用“主题标签–特征词”的形式表达微博多媒体内容的主题特征。[结果]使用爬虫工具采集的99 823条新浪微博构建训练集, 151条热门多媒体微博及其所有评论构建测试集进行实验, 构建的分类目录中标签完善, 主题标签推断准确率达到88.6%, 相关特征词挖掘准确率为76.0%。[结论]实验结果表明本文的算法可以有效且显著地发现多媒体微博的主题特征。

    参考文献 | 相关文章 | 多维度评价
    媒体干预下带有讨论机制的网络舆情传播模型研究
    张立凡, 赵凯
    现代图书情报技术. 2015, 31 (11): 60-67.   DOI: 10.11925/infotech.1003-3513.2015.11.09
    摘要   HTML ( 8 PDF(1148KB) ( 581 )  

    [目的]通过构建带有讨论机制的舆情传播模型, 研究媒体作用下网络舆情演变的内在规律。[方法]把媒体对舆情传播的干预作用抽象为强化度及分歧度, 构建新的SIaIbR模型。根据舆情传播动力学方程, 求解系统传播阈值, 证明传播平衡点的稳定性。[结果]仿真结果显示, 分歧度对于传播的影响要远大于强化度, 当分歧度低于0.5时候, 政府介入有助于网络舆情更快平息。[局限]仿真所用均为模拟数据, 未能结合真实传播事例进行分析。[结论]研究成果为政府利用媒体干预舆情传播提供支持, 也为进一步研究媒体干预下舆情传播问题提供参考。

    参考文献 | 相关文章 | 多维度评价
    地域性差异视角下的网站分类用户心智模型空间性研究
    强韶华, 吴鹏
    现代图书情报技术. 2015, 31 (11): 68-74.   DOI: 10.11925/infotech.1003-3513.2015.11.10
    摘要   HTML ( 10 PDF(569KB) ( 192 )  

    [目的]根据地域差异, 发现和验证网站分类目录的组织结构与用户主观认知的相似性特征, 支持网站个性化设置。[方法]结合心智模型理论和日志挖掘方法, 利用网站日志数据获取用户认知, 利用多维尺度法分析不同地域用户期望的网站分类目录心智模型差异。[结果]结合案例网站提供的数据进行实证研究, 验证结果显示不同地域用户的心智模型存在差异。[局限]试验数据较少, 需要更多同类数据的验证。[结论]不同地域的用户对网站的分类目录具有不同的心智模型, 可以进行个性化的目录体系设置, 以更符合用户的使用习惯, 提高用户满意度。

    参考文献 | 相关文章 | 多维度评价
    用户在社会化引文软件中的阅读数据积累程度与有效性分析——以Altmetrics指标为例
    金玮, 赵蓉英, 殷鸽
    现代图书情报技术. 2015, 31 (11): 75-81.   DOI: 10.11925/infotech.1003-3513.2015.11.11
    摘要   HTML ( 8 PDF(356KB) ( 215 )  

    [目的]研究目前Mendeley中文献用户阅读数据是否得到充分积累, 及其能否揭示优质文献, 对Altmetrics中用户阅读数据指标在科学评估中的价值进行评价。[方法]选定文献集合, 对Web of Science、Google Scholar上被引数目与Mendeley上用户阅读数目进行统计和相关性分析。[结果]在研究集合中, 用户阅读数据相比原先得到良好的积累, 且和文献被引数据保持良好的相关度, 但高被引文献的被引数据与用户阅读数据的相关度相比总体相关度较低。[局限]文献样本集合仅针对所选定的特定学科和期刊, 在数据的代表性和全面性上存在不足, 是否能推广至其他领域有待进一步研究。[结论]在Altmetrics各类指标中, 以Mendeley的用户阅读数据代表的用户阅读数据是评价文献质量的良好指标, 可对引文分析进行补充。

    参考文献 | 相关文章 | 多维度评价
    应用论文
    情感分析及可视化方法在网络视频弹幕数据分析中的应用
    郑飏飏, 徐健, 肖卓
    现代图书情报技术. 2015, 31 (11): 82-90.   DOI: 10.11925/infotech.1003-3513.2015.11.12
    摘要   HTML ( 13 PDF(1992KB) ( 1466 )  

    [目的]利用情感分析技术提取弹幕评论中包含的情感数据并对其进行可视化, 获取网络视频的情感特征及走势。[应用背景]网络视频弹幕中的评论信息经情感分析及可视化处理后可作为视频的情感标签, 在此基础上建立基于评论情感的视频检索模式。[方法]利用句子级别的情感分析方法, 建立基于情感词典的弹幕情感分析模型, 对评论文本进行情感词抽取及情感值计算, 并结合时间序列进行分析。[结果]获取弹幕中的情感数据, 绘制弹幕评论的多维情感类别雷达图、情感词标签云和情感趋势曲线等。[结论]利用情感分析及可视化方法, 可以帮助用户获取网络视频弹幕数据中包含的情感信息, 进而提供一种新的视频检索途径。

    参考文献 | 相关文章 | 多维度评价
    基于Drupal的KVM私有云管理系统解决方案
    秦学东
    现代图书情报技术. 2015, 31 (11): 91-95.   DOI: 10.11925/infotech.1003-3513.2015.11.13
    摘要   HTML ( 12 PDF(875KB) ( 208 )  

    [目的]借鉴主流私有云管理软件, 基于Drupal实现开源虚拟化KVM虚拟机云计算化管理。[应用背景]深圳大学图书馆目前部署的KVM虚拟化应用是通过系统自带的管理工具进行管理, 不仅管理效率低, 而且数据安全性也不高。[方法]通过在Drupal平台下开发自定义模块, 并结合PHP扩展SSH2, 调用KVM管理程序Libvirt API, 构建KVM虚拟机管理系统。[结果]实现KVM虚拟机系统化管理, 可弥补主流私有云软件对服务器性能要求过高, 及无法管理现有服务器的局限性。[结论]本系统不仅实现了虚拟机的系统化管理, 而且具备管理现有环境中虚拟机的能力, 具有良好的扩展性和独立性。

    参考文献 | 相关文章 | 多维度评价
    “经典阅读”网络平台可视化技术应用及实现
    颉夏青, 吴旭
    现代图书情报技术. 2015, 31 (11): 96-103.   DOI: 10.11925/infotech.1003-3513.2015.11.14
    摘要   HTML ( 11 PDF(3243KB) ( 365 )  

    [目的]利用多维信息可视化技术优化“经典阅读”网络平台信息揭示方式。[应用背景]“经典阅读”教学质量的提升要求“经典阅读”网络平台不断应用新技术改善用户体验, 提高读者参与度。[方法]将基于图标和基于动画等多维可视化技术相结合, 对棋盘式显示、旋转书架、瀑布流等显示方式进行组合。[结果]图书详情页面访问量下降而读书报告月平均访问量增长65%, 读者对图书的关注深化为对读书报告的关注。[结论]读者对读书报告关注度提升, 可视化技术应用改善了“经典阅读”教学效果。

    参考文献 | 相关文章 | 多维度评价
    微信公众号互动功能新开发
    刘悦如, 郭利敏
    现代图书情报技术. 2015, 31 (11): 104-109.   DOI: 10.11925/infotech.1003-3513.2015.11.15
    摘要   HTML ( 13 PDF(1998KB) ( 407 )  

    [目的]开发图书馆微信平台新功能, 增加读者与图书馆的互动, 提高图书馆信息化服务水平。[应用背景]随着微信公众号的普及, 多家图书馆推出相关服务, 但多局限于传统的线下服务。[方法]基于Apache+ PHP+MySQL架构, 结合微信平台新开放的接口, 通过微信与读者进行线上互动。[结果]实现“趣味问答”、“闭馆音乐在线欣赏”、“照片墙”三个互动功能。[结论]微信公众号可以不局限已有的功能, 增加更多互动服务。

    参考文献 | 相关文章 | 多维度评价
版权所有 © 2015 《数据分析与知识发现》编辑部
地址:北京市海淀区中关村北四环西路33号 邮编:100190
电话/传真:(010)82626611-6626,82624938
E-mail:jishu@mail.las.ac.cn