数据分析与知识发现

Select

师洪波, 钱力, 张晓林, 梁娜

现代图书情报技术. 2015, 31(6): 1-6. https://doi.org/10.11925/infotech.1003-3513.2015.06.01

摘要 ( ) PDF全文 ( ) HTML ( )

可视化

【目的】对开放获取论文推送转发服务系统iSwitch的接收与解析等模块进行介绍。【方法】根据系统前期技术和标准等调研、需求分析及关键问题解决方案, 设计实现系统的论文接收及解析模块。【结果】实现iSwitch系统论文接收及解析模块, 并对Web of Science中34 332条文章数据进行测试接收及解析。【局限】主要针对实验数据进行测试, 对于系统实际运行可能遇到的更多问题考虑不够全面。【结论】论文作者机构的解析是很多研究中面临的共同问题, 本文的解决方案对相似系统功能的设计开发有借鉴参考价值。

Select

开放获取论文推送转发服务系统iSwitch: 论文分发推送

钱力, 师洪波, 张晓林, 梁娜

现代图书情报技术. 2015, 31(6): 7-12. https://doi.org/10.11925/infotech.1003-3513.2015.06.02

摘要 ( ) PDF全文 ( ) HTML ( )

可视化

【目的】将接收与解析成功的开放获取论文分发推送到作者机构和资助机构知识库。【方法】分析iSwitch系统技术框架, 设计论文分发推送服务功能模块, 利用任务调度代理与FTP协议实现论文的分发推送。【结果】iSwitch系统可以实现论文分发推送服务, 并完成来自Web of Science的34 332条文章数据的分发推送。【局限】目前仅基于一种数据源完成论文分发推送, 对基于多个数据推送方的更大体量数据的分发推送服务中可能遇到的问题考虑不够。【结论】实验结果表明, 分发推送服务的工作流程机制是正确的, 分发效率满足未来服务需求。

Select

基于用户分类的协同过滤个性化推荐方法研究

祝婷, 秦春秀, 李祖海

现代图书情报技术. 2015, 31(6): 13-19. https://doi.org/10.11925/infotech.1003-3513.2015.06.03

摘要 ( ) PDF全文 ( ) HTML ( )

可视化

【目的】解决随着用户数目剧增而造成的协同过滤算法效率过低的问题。【方法】提出一种基于用户分类的协同过滤方法。该方法引入基于规则的分类方法对庞大的用户群分类, 在保证一定的推荐准确度前提下, 为用户寻找局部近邻用户, 并以局部近邻用户基准完成个性化推荐。【结果】分别通过F₁与平均绝对误差两个指标进行用户分类与推荐精度评估, 在用户分类准确及推荐精度良好的前提下, 用时间复杂度衡量算法效率。实验结果表明, 引入用户分类的协同过滤推荐效率明显提高。【局限】牺牲一定程度的推荐精度; 仅在MovieLens公开数据集上进行实验测试, 还需在其他数据集上进一步检验。【结论】本文方法可以减少近邻用户识别的计算量, 同时提高算法效率。

Select

一种融合协同过滤和内容过滤的混合推荐方法

高虎明, 赵凤跃

现代图书情报技术. 2015, 31(6): 20-26. https://doi.org/10.11925/infotech.1003-3513.2015.06.04

摘要 ( ) PDF全文 ( ) HTML ( )

可视化

【目的】探索协同过滤与内容过滤新的融合方法, 提高个性化推荐方法的推荐准确度。【方法】提出项目热度计算方法并对Pearson相关系数算法进行改进, 建立当前用户与其邻居的兴趣模型, 对邻居用户进行过滤, 由最终得到的可信邻居对当前用户进行推荐。【结果】在MovieLens 1M电影评分数据集上的实验结果表明, 提出的混合推荐方法推荐效度要好于现存的两种混合方法。【局限】在为用户建立兴趣模型时, 项目的不同标志性特征需要人为抽取, 且对于项目的标志性特征个数及其在用户的兴趣中所占的权重分配问题, 不同的研究者可能会有不同的见解。【结论】本文提出的混合推荐方法可有效提高个性化推荐的准确度。

Select

基于项目评分预测的混合式协同过滤推荐

盈艳, 曹妍, 牟向伟

现代图书情报技术. 2015, 31(6): 27-32. https://doi.org/10.11925/infotech.1003-3513.2015.06.05

摘要 ( ) PDF全文 ( ) HTML ( )

可视化

【目的】改进传统协同过滤推荐算法以缓解其存在的数据稀疏性问题, 进而提高评分预测的精度。【方法】提出整合K-means聚类和Slope One算法的混合式协同过滤推荐框架和KSUBCF算法。利用基于K-means聚类的Slope One算法预测填充矩阵中必要的未评分项, 利用基于用户的协同过滤推荐算法实现推荐。【结果】实验结果表明, 随着邻居数目的增加, 该算法比原Slope One算法在MAE(平均绝对误差)值上有8.8%-21%的下降, RMSE(均方根误差)值有17%-28.1%的下降。【局限】该算法仍然依赖用户-项目评分数据矩阵。【结论】该算法与其他传统协同过滤算法相比, MAE值分别有10%和43.8%的下降, RMSE值也有20.1%和37.4%的下降, 说明本文方法可以提高预测精度。

Select

面向关联数据集的本体匹配方法研究

高劲松, 程娅, 梁艳琪

现代图书情报技术. 2015, 31(6): 33-40. https://doi.org/10.11925/infotech.1003-3513.2015.06.06

摘要 ( ) PDF全文 ( ) HTML ( )

可视化

【目的】通过分析关联数据集的特点, 对传统本体匹配方法进行改进。【方法】从数据转换方式、名称相似度和描述信息相似度三方面将本体匹配方法合并为匹配规则, 引入遗传算法提取最佳匹配规则, 结合Jena进行实验验证。【结果】构建面向关联数据集的本体匹配框架, 实现关联数据集本体间的互联。【局限】本体匹配过程中主要考虑解决本体异构问题, 未能全面涉及多领域及跨语言的本体匹配。【结论】该匹配方法能实现数据集之间的关联, 进一步提高关联数据集的链接水平。

Select

一种应用多储备池回声状态网络的图像语义映射研究

王华秋, 王斌, 聂珍

现代图书情报技术. 2015, 31(6): 41-48. https://doi.org/10.11925/infotech.1003-3513.2015.06.07

摘要 ( ) PDF全文 ( ) HTML ( )

可视化

【目的】建立图像低层特征到高层语义的映射, 填补图像检索中的“语义鸿沟”, 以提高检索准确率。【方法】借鉴集成学习思想, 将多储备池回声状态网络(MESN)应用于图像语义映射模型中。图像低层特征按照类型划分后, 通过不同的储备池训练, 并对训练结果进行线性融合。【结果】该模型相对于BP神经网络和传统ESN, 平均映射错误率分别下降31.64%和19.28%, 查准率分别提高4.56%和1.86%。【局限】储备池参数通过人工设定, 未构造参数优化算法。【结论】实验结果证明, 将多储备池回声状态网络应用于图像语义映射中是有效的。

Select

搜索日志中命名实体识别

任育伟, 吕学强, 李卓, 徐丽萍

现代图书情报技术. 2015, 31(6): 49-56. https://doi.org/10.11925/infotech.1003-3513.2015.06.08

摘要 ( ) PDF全文 ( ) HTML ( )

可视化

【目的】搜索日志中命名实体识别对于优化搜索意图, 提高搜索引擎服务质量存在重要意义。【方法】利用种子命名实体和模板匹配原则抽取候选命名实体并聚类, 聚类后进行候选命名实体识别特征抽取, 包括频次、不同模板数、模板权重特征。融合这些特征构造命名实体识别权重计算公式, 并合理调整特征影响参数。【结果】对根据权重提取的命名实体进行标注和统计, 发现P@500值平均达到75%左右, 比Pa?ca方法高出7%。【局限】对模板敏感性弱的命名实体不能精确抽取。【结论】通过计算该方法抽取结果指标P@N值, 并和其他方法抽取结果指标进行比较, 证明该方法的有效性。

Select

基于规则的机构名规范化研究

杨波, 杨军威, 阎素兰

现代图书情报技术. 2015, 31(6): 57-63. https://doi.org/10.11925/infotech.1003-3513.2015.06.09

摘要 ( ) PDF全文 ( ) HTML ( )

可视化

【目的】改善基于海量数据的科技评价中的数据可靠性问题, 克服相似度匹配或者频率统计方法在机构名称规范化方面存在的缺陷。【方法】提出基于低词面相似度的机构名称映射算法, 该算法采用规则和统计相结合的策略实现多个机构名称到一个机构实体的映射, 从而达到机构名规范化的目的。【结果】实验结果表明, 基于规则的算法的F值平均为55.50%, 高于其他两种技术策略。【局限】对低词面相似度机构名识别存在不足。【结论】在机构名规范方面的综合表现要优于其他两种技术策略, 但在检全率方面还需要改进。

Select

同义词抽取结果的噪音清洗方法研究

刘伟, 王星, 宋培彦

现代图书情报技术. 2015, 31(6): 64-70. https://doi.org/10.11925/infotech.1003-3513.2015.06.10

摘要 ( ) PDF全文 ( ) HTML ( )

可视化

【目的】同义词抽取结果中的噪音会严重影响结果的可应用性, 需要预先进行清洗。【方法】提出一种基于同义关系网络的噪音清洗方法, 将同义词抽取结果转化为无向结构的同义关系网络, 在该网络中自动识别出同义词抽取结果中部分噪音, 并结合语义的分布相似性对方法进行改进, 以提高噪音的识别比例。【结果】通过在工程技术领域随机选取的术语上进行实验, 表明该方法可以过滤同义词抽取结果中32.6% -73.0%的噪音。【局限】只能清除部分噪音, 还需要改进方法以提高噪音识别的准确性。【结论】通过构建同义关系网络能够清洗同义词抽取结果中的噪音, 该问题值得进一步深入研究。

Select

“小众专家”特征识别——基于MetaFilter的实证分析

李纲, 叶光辉, 张岩

现代图书情报技术. 2015, 31(6): 71-77. https://doi.org/10.11925/infotech.1003-3513.2015.06.11

摘要 ( ) PDF全文 ( ) HTML ( )

可视化

【目的】为全面获取专家资源, 探究“小众专家”特征识别方法。【方法】以知名社交博客MetaFilter为例, 利用用户社交活动数据, 构建用户关系网络, 统计节点网络结构指标: 中介中心度和聚集系数。结合聚类分析和时序分析, 判别不同时期节点特征及角色。【结果】综合类群网络特征, 获取“小众专家”集合, 依据集合时序变动情况细化“小众专家”分类。【局限】只对music版块评论关系进行角色判别及迁移分析, 未来工作将扩展至更多版块, 对比分析不同语义环境下“小众专家”类群“稳定-变化”特点。【结论】“小众专家”是对现有专家集合的有效补充, 其识别研究可用于专家团队构建、专家推荐、专家检索等方面。

Select

基于决策树的网络伪舆情识别研究

赵静娴

现代图书情报技术. 2015, 31(6): 78-84. https://doi.org/10.11925/infotech.1003-3513.2015.06.12

摘要 ( ) PDF全文 ( ) HTML ( )

可视化

【目的】针对舆情的识别问题, 提出一种基于组合优化决策树的伪舆情识别方法。【方法】在特征分析的基础上, 给出A、B、C三类伪舆情的定义。构建伪舆情评价指标体系, 并通过对评价指标离散化, 以归一输入输出关联值为属性选择标准建立决策树。【结果】基于Matlab实现, 通过实验证明利用组合优化决策树所构建的伪舆情识别模型能够达到较高的预测准确率。【局限】模型和数据偏重固定网络媒介, 移动社交软件等新兴网络媒介的兴起可能改变伪舆情特征, 从而需要对方法做进一步改进。【结论】提供一种对多分类伪舆情进行智能识别的新方法。

Select

智能多Agent网络的微信信息传播仿真研究

王小立

现代图书情报技术. 2015, 31(6): 85-92. https://doi.org/10.11925/infotech.1003-3513.2015.06.13

摘要 ( ) PDF全文 ( ) HTML ( )

可视化

【目的】在分析微信区别于社交媒体平台新特点的基础上, 通过仿真研究微信信息传播机理。【方法】分析微信信息的交互规律并构建复杂网络, 在对相关影响变量进行探究的基础之上建立多Agent模型, 并提出三种基于各变量的Agent间演化规则。【结果】仿真实验结果表明, 该模型模拟结果与微信信息传播的宏观特征相吻合, 提出的主要影响变量对更好地管控和利用微信信息传播具有重要的启示意义。【局限】影响微信信息传播的相关变量未能全面涉及, 并且因缺乏微信用户数据, 所构建的微信信息传播网络与真实情况有差异。【结论】有利于揭示微信信息传播的关键机理, 并有助于对微信平台进行有效利用和管控。

Select

电商用户“状态-行为”建模及其在商品信息搜索行为分析的应用

袁兴福, 张鹏翼, 王军

现代图书情报技术. 2015, 31(6): 93-100. https://doi.org/10.11925/infotech.1003-3513.2015.06.14

摘要 ( ) PDF全文 ( ) HTML ( )

可视化

【目的】对用户在电商网站进行信息查询、商品比较、购物决策过程中产生的多种类型的信息行为进行系统性描述和精确建模。【方法】提出一种描述用户信息行为的序列特征、时间特征、内容特征的“状态-行为”模型。实验数据来自4 710位用户在2013年5月访问淘宝网的浏览器日志, 在用户访问页面类型切换与用户行为类型之间建立映射, 得到用户的行为序列, 进一步抽象用户会话的“状态-行为”, 在会话层面上表示、汇集用户行为特征。【结果】应用上述建模方法对用户行为序列、时间特征和内容复杂度进行建模、聚类, 得到8类具有显著特征的用户: 行动迅捷的搜索者、信息浏览漫步者、营销信息依赖者、个人资料管理者、工作日会话产生者、休息日会话产生者、晚间会话产生者、非常规时间访问者。【局限】在日志与行为之间建立会话层进行建模, 可能导致会话层抽取的误差叠加而降低精度, 因此需要特别控制会话层的误差。【结论】该方法可以描述更丰富的电商用户信息行为特征, 用户聚类的结果可用于指导网站推荐与营销方案的制定, 对于研究电商网站用户与实现个性化推荐具有参考价值。

选择文件类型/文献管理软件名称

选择包含的内容

2015年, 第31卷, 第6期　
刊出日期：2015-06-25

模态框（Modal）标题

选择文件类型/文献管理软件名称

选择包含的内容

检索词推荐：

2015年, 第31卷, 第6期 刊出日期：2015-06-25

2015年, 第31卷, 第6期　
刊出日期：2015-06-25