数据分析与知识发现

Select

王颖, 吴振新, 谢靖

现代图书情报技术. 2015, 31(5): 1-7. https://doi.org/10.11925/infotech.1003-3513.2015.05.01

摘要 ( ) PDF全文 ( ) HTML ( )

可视化

[目的]对典型科技文献语义检索系统进行调研和总结。[文献范围]利用Web of Knowledge和Google Scholar检索Semantic Search相关文献以及语义检索系统的参考文献和研究报告。[方法]根据文本语义处理程度, 将这些系统归纳为语义查询扩展的检索系统、以概念或实体为中心的检索系统、以关系为中心的检索系统和面向知识发现的检索系统。[结果]提出科技文献语义检索系统的基本框架, 总结科技文献语义检索系统功能特点。[局限]缺少对语义检索系统的性能评测。[结论]为构建面向科技文献的语义检索系统提供良好借鉴。

Select

新型责任者标识系统ORCID的构建机制介绍

白海燕, 刘耀, 郭晓峰

现代图书情报技术. 2015, 31(5): 8-14. https://doi.org/10.11925/infotech.1003-3513.2015.05.02

摘要 ( ) PDF全文 ( ) HTML ( )

可视化

[目的]从ORCID构建机制的角度, 为责任者名称标识系统的选择与应用提供依据。[方法]基于文献追踪与实例调研, 从构建模式、声明与验证机制、元数据规范三个层面进行分析, 并与其他责任者名称标识系统进行比较。[结果]得到ORCID的构建机制及特点。[结论]ORCID的构建模式是自下而上的、用户主导的联合构建; ORCID的混合式声明与验证机制, 基于记录的权威度和信任值建模实现消歧; ORCID元数据控制通过链接和解析提高规范程度。

Select

领域科技文献创新点句中主题属性实例识别方法研究

张帆, 乐小虬

现代图书情报技术. 2015, 31(5): 15-23. https://doi.org/10.11925/infotech.1003-3513.2015.05.03

摘要 ( ) PDF全文 ( ) HTML ( )

可视化

[目的]识别创新点句中主题属性实例, 进一步挖掘创新点句中的知识关系。[方法]采用语义角色标注以及依存句法分析方法, 借助领域本体中属性类目下主题词, 从依存树中识别创新点句中的核心主题词以及属性实例; 针对依存句法分析的特征, 设计组合术语识别模块以及连接词关系识别模块以改善识别效果。[结果]创新点句中核心主题词识别的F值达到77.94%; 创新点句中属性实例识别的平均F值在90%左右。[局限]使用Stanford依存句法分析工具对肿瘤领域进行句法分析造成的偏差影响识别效果; 使用NCIt本体属性类别时, 有待进一步过滤与规范。[结论]实验结果表明, 该方法对领域创新点句中的主题属性实例具有较好的识别效果。

Select

大数据背景下微博舆情信息交互模型研究

兰月新, 董希琳, 苏国强, 瞿志凯

现代图书情报技术. 2015, 31(5): 24-33. https://doi.org/10.11925/infotech.1003-3513.2015.05.04

摘要 ( ) PDF全文 ( ) HTML ( )

可视化

[目的]通过构建数学模型, 研究大数据背景下微博与其他网络媒体的信息交互问题。[方法]分析大数据背景下的微博舆情信息交互特征, 定义信息交互系数, 建立微博信息交互的微分方程模型。[结果]应用Matlab数值仿真以及6个网络舆情实例分析模型特征, 并验证模型, 得出构建良性信息交互机制是大数据背景下政府应对网络舆情的关键。[局限]仅从常规情形构建微博信息交互模型, 尚未考虑网络谣言等负面舆情全面爆发时的信息交互问题。[结论]研究成果有利于政府面对复杂微博舆情时做到“心中有数”, 也为进一步研究大数据背景下舆情信息交互问题提供参考。

Select

一种基于项目聚类的自主推荐多样性优化算法

姜书浩, 潘旭华, 薛福亮

现代图书情报技术. 2015, 31(5): 34-41. https://doi.org/10.11925/infotech.1003-3513.2015.05.05

摘要 ( ) PDF全文 ( ) HTML ( )

可视化

[目的]通过聚类权重再分配算法优化推荐列表的多样性。[方法]提出一种提高推荐多样性的方法, 依据项目评分进行聚类, 参照阈值采用聚类权重再分配算法重新分配各聚类集的权重, 根据权重大小从各聚类集中筛选项目生成最终推荐列表。[结果]实验结果表明, 调整阈值由20缩小到1, 本文方法将三种算法在MovieLens数据集上生成的推荐列表的z-多样性值分别提高0.46、0.65和1.88, Book-Crossing数据集对应的z-多样性值分别提高0.38、0.49和0.76。[局限]仅适用于提高推荐列表的多样性, 对于总体多样性并没有涉及。[结论]有效提高推荐的多样性, 同时保证推荐的准确率和较低的时间复杂性。

Select

一种基于加权LDA模型和多粒度的文本特征选择方法

李湘东, 巴志超, 黄莉

现代图书情报技术. 2015, 31(5): 42-49. https://doi.org/10.11925/infotech.1003-3513.2015.05.06

摘要 ( ) PDF全文 ( ) HTML ( )

可视化

[目的]为改善图书和期刊书目信息的分类性能, 结合书目文本的体例结构特点, 提出一种基于加权LDA模型和多粒度的文本特征选择方法。[方法]在点互信息(PMI)模型的基础上, 结合词性、位置等要素修正特征词的权重并扩展至LDA的生成模型中, 以抽取表意性较强的粗粒度特征; 结合TF-IDF计算模型采用一定策略获取细粒度特征, 基于多粒度特征作为核心特征词集表征书目文本; 采用KNN、SVM等算法实现书目文本的分类。[结果]在自建图书、期刊材料上进行分类实验, 与LDA方法以及传统特征选择方法相比, 该方法分类准确率分别平均提高3.60%和4.79%。[局限]实验材料的数量以及丰富度有待进一步扩展; 需探索更多的加权策略模型进行实验, 以提高书目文本的分类效果。[结论]实验结果表明, 该方法是有效的、可行的, 能够提高特征选择后的特征词集对文本的表示能力, 从而提高文本分类的准确率。

Select

面向论文相似性检测的数据预处理研究

刘伙玉, 王东波

现代图书情报技术. 2015, 31(5): 50-56. https://doi.org/10.11925/infotech.1003-3513.2015.05.07

摘要 ( ) PDF全文 ( ) HTML ( )

可视化

[目的]探究论文相似性检测中数据预处理的数据问题及相关方法。[方法]对数据进行细致的分析, 采用基于规则的方法、基于统计的方法、基于语义的方法进行预处理。[结果]揭示论文相似性检测中原始数据存在的数据质量问题, 并在此基础上给出数据预处理模型。[局限]语料规模有限, 且暂未考虑对语料中图表内容的预处理。[结论]数据预处理有助于提高论文相似性检测结果的准确性; 有效结合基于规则、统计、语义的三种方法有助于提高数据预处理效果。

Select

基于语义分析和相似强度的微博热点发现方法

吴妮, 赵捧未, 秦春秀

现代图书情报技术. 2015, 31(5): 57-64. https://doi.org/10.11925/infotech.1003-3513.2015.05.08

摘要 ( ) PDF全文 ( ) HTML ( )

可视化

[目的]通过改进热点发现方法, 解决传统方法存在的语义理解不足和聚类算法局限性的问题。[方法]从语义分析角度表示文本, 使用信息增益和潜在语义分析方法构建词–文档矩阵; 提出二次聚类算法方案, 实现热点发现与更新, 并使用相似强度的大小选取最优热点。[结果]该热点发现方法的查全率为91.3%, 查准率为92.9%, 较前人方法的聚类效果有所提高; 该热点发现方法也可以更新数据, 降低实验复杂度。[局限]实验数据的时间跨度较小, 使得更新热点方法的效果不太显著。[结论]本文提出的热点发现方法具有良好的准确性。

Select

社交网络话题信息传播影响簇发现谱系挖掘方法

何建民, 王哲

现代图书情报技术. 2015, 31(5): 65-72. https://doi.org/10.11925/infotech.1003-3513.2015.05.09

摘要 ( ) PDF全文 ( ) HTML ( )

可视化

[目的]利用互联网传播媒介, 在社交网络中寻找对特定话题信息有影响的人群(影响簇), 以此作为传播中介, 为企业营销决策提供理论和方法支持。[方法]通过新浪微博API收集数据, 采用谱系挖掘方法挖掘对信息传播有影响的人群, 分析个体信息传播及其之间的交互关系来发现影响簇。[结果]获得对信息传播有高影响力的人群, 利用该人群推广企业的营销信息, 可显著提高产品引导购买率。[局限]仅考虑个体自身传播影响力的因素, 未考虑微博非常规用户行为。[结论]为企业实施网络精准营销决策支持提供理论基础和实用方法。

Select

利用Hadoop/HBase的药物基因组数据云存储实践研究

范云满, 洪娜, 钱庆, 方安

现代图书情报技术. 2015, 31(5): 73-79. https://doi.org/10.11925/infotech.1003-3513.2015.05.10

摘要 ( ) PDF全文 ( ) HTML ( )

可视化

[目的]探索在导入、保存、检索、批量导出生物医学大数据方面的新思路和新方法, 积累第一手经验。[方法]分析生物医学大数据的特点, 从理论方面和数据查询对比实验两个方面, 对比分析以Oracle为代表的传统关系数据库和以HBase为代表的NoSQL数据库在解决大数据问题时各自采用的技术以及各自的优势与不足。以一个药物基因组数据存储系统为例, 进行云存储实践和初步的对比实验。[结果]HBase在处理大量数据的实际应用中, 比Oracle更具优势。[局限]没有对药物基因组学数据进行深入挖掘分析, 同时需要对Hadoop/HBase做深入的技术优化。[结论]HBase在本文实验的应用场景中能够满足生物医学大数据存储的要求。

Select

利用通信数据的移动用户行为分析

黄文彬, 徐山川, 马龙, 王军

现代图书情报技术. 2015, 31(5): 80-87. https://doi.org/10.11925/infotech.1003-3513.2015.05.11

摘要 ( ) PDF全文 ( ) HTML ( )

可视化

[目的]了解移动用户的行为模式并建立用户模型。[方法]基于国内电信运营商随机抽取某市一万个移动用户一周的日志记录, 包含4万余条通话记录和200余万条网络请求, 每条请求包含对应的基站标号以及基站地理位置。从消费能力、通话量、网络请求量、位移量4个维度在这批数据中提取14种基本特征指标, 并利用K-means方法聚类。[结果]将移动用户区分成规律通话型、随机上网型、居家节约型和随机高消费型4类用户模型。[局限]用户量与数据量有限, 没有采用更复杂的机器学习算法构建用户模型。[结论]研究结果对移动应用个性化服务的改进具有重要的参考价值。

Select

运用开源软件Logstash和ElasticSearch实现DSpace日志实时统计分析

陈和

现代图书情报技术. 2015, 31(5): 88-93. https://doi.org/10.11925/infotech.1003-3513.2015.05.12

摘要 ( ) PDF全文 ( ) HTML ( )

可视化

[目的]设计并实现DSpace日志实时统计分析系统, 满足用户各种实时统计需求, 弥补DSpace自带统计功能的不足。[应用背景]受DSpace系统自身设计的限制, 其自带的日志统计功能单一, 表现形式僵化, 不能实现交互式统计分析。[方法]运用Logstash实时收集并分析DSpace日志, 运用ElasticSearch对分析后的日志进行索引, 构建QueryDSL查询调用ElasticSearch的Java API实现不同的统计功能, 并采用ECharts组件图形化展示结果。[结果]DSpace日志实时统计分析系统能够实现用户自定义时间区间统计条目、合集和社群的浏览排行, 条目对象下载排行以及访问地区排行等。统计的结果可以以不同图表形式展现。[结论]运用Logstash和ElasticSearch实现DSpace日志统计, 不需要修改DSpace源代码, 组件安装部署简单, 实现人机互动式查询统计, 统计结果快速且实时, 结果展现形式多样。

Select

查收查引服务支撑需求驱动下的高校机构知识库建设

严潮斌, 陈嘉勇, 侯瑞芳, 李玲, 周婕

现代图书情报技术. 2015, 31(5): 94-100. https://doi.org/10.11925/infotech.1003-3513.2015.05.13

摘要 ( ) PDF全文 ( ) HTML ( )

可视化

[目的]以查收查引为灵感, 通过其与机构知识库的关联性, 推动机构知识库的建设。[方法]自主研发机构知识库, 设计数据模型, 提出作者认领模式, 并通过学科馆员的批量认领和对作者进行邮件营销等方式来实践认领。[结果]实现文献与作者实体之间可持续的间接精准关联机制, 精准关联出作者被收录和引用的文献列表。[局限]查收查引工作可能会因为数据问题而不准确, 需要到数据库中实际验证。[结论]本研究有利于降低机构知识库管理和运营的难度, 并为查收查引服务提供支撑。

选择文件类型/文献管理软件名称

选择包含的内容

2015年, 第31卷, 第5期　
刊出日期：2015-05-25

模态框（Modal）标题

选择文件类型/文献管理软件名称

选择包含的内容

检索词推荐：

2015年, 第31卷, 第5期 刊出日期：2015-05-25

2015年, 第31卷, 第5期　
刊出日期：2015-05-25