数据分析与知识发现

Select

让技术冲破藩篱、引领创新

张晓林

现代图书情报技术. 2016, 32(1): 1-2. https://doi.org/10.11925/infotech.1003-3513.2016.01.01

摘要 ( ) PDF全文 ( ) HTML ( )

可视化

Select

数据监管的政策研究综述^*

张梦霞,顾立平

现代图书情报技术. 2016, 32(1): 3-10. https://doi.org/10.11925/infotech.1003-3513.2016.01.02

摘要 ( ) PDF全文 ( ) HTML ( )

可视化

【目的】探索数据监管政策的实施细节, 促进数据监管政策的建立。【方法】通过梳理国内外数据监管的相关理论成果, 并分别从科学数据的遴选标准、存储规范和传播交流机制三方面进行归纳和总结。【结果】数据监管的政策要素主要包括: 数据遴选标准(符合数据提交流程要求、优先遴选原则、数据真实可用的声明、数据来源不具争议性); 数据存储规范(遵循相关政策、保障数据完整、满足通用技术标准、保证长期可持续发展); 传播交流机制(遵循法律法规和行业指南、开放获取传播许可协议、传播行为的免责声明、数据重用的说明文件)等。【局限】 需要结合我国的实际, 进一步完善政策框架中的细节。【结论】科研组织、协会、资助机构等应该积极推进和制定数据监管政策。

Select

数据管理计划构成规范及其可操作数据监护模型研究

刘峰, 张晓林

现代图书情报技术. 2016, 32(1): 11-16. https://doi.org/10.11925/infotech.1003-3513.2016.01.03

摘要 ( ) PDF全文 ( ) HTML ( )

可视化

【目的】提出一套科学数据管理计划的细化构成规范; 并依此从可操作角度构建数据监护模型。【方法】对国际上主要科研管理机构的数据管理计划规范进行调研和统计; 并结合当前科研数据管理的需求与特点进行补充。【结果】形成8大基本构成要素和39个子要素的数据管理计划细化构成规范, 并构建出一种以数据管理计划为核心驱动的数据监护模型。【结论】数据管理计划细化构成规范可以完整、准确规范和指导科研数据的管理活动, 在操作层面上也可以有效地控制和约束科研全生命周期的数据监护过程。

Select

基于相关性的跨模态信息检索研究

丁恒, 陆伟

现代图书情报技术. 2016, 32(1): 17-23. https://doi.org/10.11925/infotech.1003-3513.2016.01.04

摘要 ( ) PDF全文 ( ) HTML ( )

可视化

【目的】梳理基于相关性的跨模态信息检索中的基本策略和核心问题, 从提升检索效果的角度探讨偏最小二乘法用于特征子空间投影的优劣。【方法】在Wikipedia跨模态信息检索数据集上, 分别采用LDA和BOW模型作为文本和图像资源的特征表达方式, 以余弦距离作为相似度度量方法, 利用最小二乘法替代典型相关性分析法学习特征子空间投影函数。【结果】从P@K、MAP和NDCG三个检索评价指标上, 对比分析典型相关性分析、偏最小二乘回归、偏最小二乘相关三种特征子空间投影法对跨模态信息检索结果的影响, 结果表明偏最小二乘相关法具有最佳效果。【局限】 偏最小二乘法在处理数据时假设数据之间的关系是线性的, 数据基向量之间是正交关系, 因而无法解决非线性、非正交问题。【结论】使用偏最小二乘相关法学习的特征子空间投影与原始空间信息的一致性更强, 跨模态信息检索结果更稳定。

Select

采用URL特征的Hub网页识别方法研究^*

张策,都云程,梁然

现代图书情报技术. 2016, 32(1): 24-31. https://doi.org/10.11925/infotech.1003-3513.2016.01.05

摘要 ( ) PDF全文 ( ) HTML ( )

可视化

【目的】通过构建简单数据样本, 解决传统网页类型识别方法效率低的难题。【方法】采用URL特征作为识别依据, 抽取URL信息构建训练集与测试集, 使用支持向量机(SVM)建立机器学习模型以提高识别效率。【结果】在同样的数据集上,该方法的准确率为91.2%, 优于其他识别方法。在效率性能方面, 该方法提升近60%。【局限】 当遇到URL特征不明显甚至完全相背的网站时, 识别准确率会大幅度降低。【结论】该方法在效率方面存在很大优势, 应用到采集系统中可提高采集效率。

Select

结合深度置信网络和模糊集的虚假交易识别研究

张李义,刘畅

现代图书情报技术. 2016, 32(1): 32-39. https://doi.org/10.11925/infotech.1003-3513.2016.01.06

摘要 ( ) PDF全文 ( ) HTML ( )

可视化

【目的】解决电子商务平台中存在的虚假交易问题。【方法】依据消费者历史购买和评论行为数据, 提出一种结合深度置信网络和模糊集的虚假交易识别方法, 通过识别虚假交易的用户(刷客)进行虚假交易的识别。【结果】识别准确率达到89%, 与浅层机器学习模型试验结果进行对比, 其综合性能有明显提升。【局限】相对于淘宝存在的海量刷客, 实验数据较少。仅以淘宝数据作为验证数据, 未涉及其他电子商务平台。【结论】本方法能够较好地识别刷客, 减少电子商务中的虚假交易问题。

Select

基于蚁群相似权算法的网络团购信用评价模型研究^*

张亚明,李娜,赵培卿

现代图书情报技术. 2016, 32(1): 40-47. https://doi.org/10.11925/infotech.1003-3513.2016.01.07

摘要 ( ) PDF全文 ( ) HTML ( )

可视化

【目的】帮助网络团购消费者快速找到优质商家, 商家可以有效地提高自身信用水平。【方法】利用相似权测度法对指标体系分配权重, 得出的综合指标变量作为蚁群算法参数, 建立基于蚁群相似权的信用评价模型。【结果】实证研究表明, 该模型能够快速有效地求出节约时间成本和货币成本的最短路径, 找出优质商家。【局限】 未考虑退款和刷单等特殊交易对网络团购信用评价的影响; 对蚁群算法的其他参数未进行具体研究, 直接采用前人研究结论。【结论】有助于商家提高信用、提升团体满意度, 为进一步研究网络团购问题提供参考。

Select

一种融合外部特征的改进主题模型^*

杨如意,刘东苏,李慧

现代图书情报技术. 2016, 32(1): 48-54. https://doi.org/10.11925/infotech.1003-3513.2016.01.08

摘要 ( ) PDF全文 ( ) HTML ( )

可视化

【目的】在LDA模型基础上融合时间和作者特征, 提出动态作者主题(DAT)模型, 更好地揭示文本内容、主题和作者之间的关系。【应用背景】从海量文本中实现特征抽取和语义挖掘已经成为情报研究人员的重要工作。【方法】获取NIPS会议论文作为数据集并进行预处理, 按发表年份划分到每个时间片形成一阶马尔科夫链, 使用困惑度确定最优主题数, 并在每个时间片内通过吉布斯采样估算作者主题概率分布和主题词项概率分布。【结果】实验结果表明, 该模型将文档表示为作者主题概率分布和主题词项概率分布, 时间维度上可观测主题强度变化和作者兴趣变化。【结论】DAT模型能够有效地融合文档内容与外部特征, 实现文本挖掘。

Select

个体视角下的网络舆情传递链路预测分析^*

魏静,朱恒民,宋瑞晓,蒋世兵

现代图书情报技术. 2016, 32(1): 55-64. https://doi.org/10.11925/infotech.1003-3513.2016.01.09

摘要 ( ) PDF全文 ( ) HTML ( )

可视化

【目的】通过网络舆情传播中网民个体的“从众效应”和“阈值效应”的传递特点分析, 对舆情传递的链路结构进行预测。【方法】采集真实网络舆情传递在线数据, 利用舆情传递个体的节点属性及舆情传递网络结构的已知信息, 使用链路预测方法, 分别针对网络舆情无标度(BA)网络模拟数据和真实舆情传递网络数据, 预测已有节点间即将产生的舆情传递连接。【结果】通过网络数据仿真和BBS真实数据链路预测分析发现, 在众多的链路预测相似性指标中, 局部路径指标(LP)算法得出的链路预测结论正确率最高, 说明LP算法适合此类舆情传递网络的链路预测分析。【局限】 仅限于对已有链路预测相似性指标的应用, 没有对传统链路预测相似性指标进行相应的改进。【结论】从数据角度提供一个有效的预测舆情发展趋势的分析方法, 以期为网络舆情控制提供相关理论支持。

Select

LOD的网络结构分析与可视化^*

夏立新,谭荧

现代图书情报技术. 2016, 32(1): 65-72. https://doi.org/10.11925/infotech.1003-3513.2016.01.10

摘要 ( ) PDF全文 ( ) HTML ( )

可视化

【目的】对关联开放数据(LOD)进行结构特征分析, 利用分析结果指导关联数据的组织实践。【方法】通过度分布、平均路径长度、聚类系数等指标描述LOD网络结构, 对比复杂网络理论中的两个基本性质: 无标度特性和小世界效应。【结果】LOD整体网络结构具有近似无标度网络的幂率分布特征, 图书馆学、情报学领域子网具有相对均匀的指数分布特征, 两网同时具有短平均路径长度和高聚类系数的小世界效应。 【局限】 缺乏对关键节点的多权重赋值。【结论】LOD的小世界特性能优化检索效率, 而无标度特性会降低整个网络的稳定性。

Select

中文领域专业术语层次关系构建研究^*

朱惠,杨建林,王昊

现代图书情报技术. 2016, 32(1): 73-80. https://doi.org/10.11925/infotech.1003-3513.2016.01.11

摘要 ( ) PDF全文 ( ) HTML ( )

可视化

【目的】对如何从中文非结构化文本获取术语的层次关系进行探讨。【方法】从CNKI获取数字图书馆学科领域文献, 通过术语抽取、术语向量空间模型构建、BIRCH算法聚类和聚类标签确定构建术语的语义层次结构。【结果】构建数字图书馆领域术语的层次结构, 并对构建结果进行验证, 聚类正确率达到80.88%, 类标签抽取正确率达到89.71%。【局限】 对构建效果的验证是通过随机抽样进行的, 且仅与一种其他构建方法进行实证比较。【结论】应用BIRCH算法聚类构建术语层次结构, 该方法与K-means聚类方法相比具有明显优势, 具备较高的执行效率和聚类有效性。

Select

基于Drupal的项目网站建设——以“开放资源建设”网站为例

董智鹏,刘静羽

现代图书情报技术. 2016, 32(1): 81-86. https://doi.org/10.11925/infotech.1003-3513.2016.01.12

摘要 ( ) PDF全文 ( ) HTML ( )

可视化

【目的】利用Drupal快速搭建“开放资源建设”项目的成果管理和发布网站。【应用背景】“开放资源建设”项目需要在有限时间和技术条件下建立成果发布平台, Drupal因其灵活简易、具备强大模块支持等特点能够满足该需求。【方法】采用Drupal基本模块和扩展模块完成内容建设和页面布局, 并对主题定制、网站升级中的难点问题进行处理。【结果】利用Drupal短时间、低成本完成“开放资源建设”网站搭建和内容建设。【结论】Drupal能够很好满足图书馆快速搭建中小型项目网站或专题服务平台的需要。

Select

中文植物物种多样性描述文本的信息抽取研究^*

段宇锋,黄思思

现代图书情报技术. 2016, 32(1): 87-96. https://doi.org/10.11925/infotech.1003-3513.2016.01.13

摘要 ( ) PDF全文 ( ) HTML ( )

可视化

【目的】实现中文植物物种多样性描述文本中信息的抽取。【方法】以中文植物物种多样性本体为支撑, 采取语段、语句、概念逐级筛选和标注的策略, 依据规则抽取描述文本中的信息。【结果】以包含4 734个信息点的样本测试, 信息抽取的准确率、召回率、F值分别为0.86、0.85、0.85。【局限】 针对目前未能准确抽取的表述, 进一步完善规则集。【结论】研究方案能有效地实现中文植物物种多样性描述文本的信息抽取。

Select

NSTL集成利用第三方来源元数据的实践与探索^*

于倩倩,张建勇

现代图书情报技术. 2016, 32(1): 97-102. https://doi.org/10.11925/infotech.1003-3513.2016.01.14

摘要 ( ) PDF全文 ( ) HTML ( )

可视化

【目的】将WOS、Scopus等第三方来源元数据应用到NSTL加工系统中。【应用背景】根据NSTL发展规划, 需要从单纯自加工扩展到加工以及协商获取、购买第三方元数据等多渠道建设元数据方式。【方法】以NSTL加工规范为基础, 实现与WOS、Scopus元数据的映射, 分析第三方元数据特点对NSTL加工规范进行局部修订并映射, 根据映射结果, 将第三方元数据以NSTL加工规范格式输出并集成到NSTL加工系统中。【结果】实现第三方来源元数据快速、高效、低成本地集成整合到NSTL加工系统。【结论】WOS元数据在NSTL加工系统中的应用, 可以提高NSTL文献数据加工速度。有针对性地对现有元数据加工规范进行修订, 为后续增加其他第三方资源构建了拓展框架。

选择文件类型/文献管理软件名称

选择包含的内容

2016年, 第32卷, 第1期　
刊出日期：2016-01-25

模态框（Modal）标题

选择文件类型/文献管理软件名称

选择包含的内容

检索词推荐：

2016年, 第32卷, 第1期 刊出日期：2016-01-25

2016年, 第32卷, 第1期　
刊出日期：2016-01-25