期刊首页 当期目录

2017年, 第1卷, 第8期 
刊出日期:2017-08-25
  

  • 全选
    |
    首届"数据分析与知识发现"学术研讨会专辑(II)
  • 吴江, 贺超城, 马磐昊
    数据分析与知识发现. 2017, 1(8): 1-8. https://doi.org/10.11925/infotech.2096-3467.2017.08.01
    摘要 ( ) PDF全文 ( ) HTML ( )   可视化   收藏

    目的】更好地反映MOOC论坛参与者的活跃水平以及论坛主题的质量, 以提高学员的论坛参与度, 发挥MOOC社会效应。【方法】提出超网络下“迭代超中心度”概念和算法, 通过多次迭代, 直至收敛, 将整个网络的节点考虑在内, 以更全面地反映出不同节点的重要性与影响力。【结果】传统网络指标揭示的信息有限, 点度小的节点, 其重要性与影响力可能大; 点度相同的节点, 重要性与影响力也会不同。迭代超中心度全面衡量节点的重要性, 在MOOC中更能反映出节点推动知识流动的能力。【局限】数据量比较少, 只对一门课程进行分析, 没有从更多的超网络指标进行分析。【结论】“迭代超中心度”可以揭示出论坛参与者的活跃水平以及论坛主题的质量, 可以作为一种改进论坛设置的评价指标。

  • 侯银秀, 李伟卿, 王伟军, 张婷婷
    数据分析与知识发现. 2017, 1(8): 9-17. https://doi.org/10.11925/infotech.2096-3467.2017.08.02
    摘要 ( ) PDF全文 ( ) HTML ( )   可视化   收藏

    目的】识别并获取细粒度的用户偏好信息, 优化图书个性化推荐的效果。【方法】使用情感分析方法对用户图书评论进行属性层文本挖掘, 通过用户本身的图书评论获取用户对图书属性的偏好; 基于每本图书的所有评论的情感计算获得其属性评分; 将用户偏好矩阵、图书属性得分矩阵进行匹配, 从而实现用户对图书属性情感偏好的个性化推荐。【结果】利用亚马逊图书评论数据作为数据来源分别对传统的协同过滤方法与本文提出的推荐方法进行实验对比。结果表明, 本文提出的方法在准确性、召回率、覆盖率上分别提高了0.030、0.097、0.2812。【局限】未考虑时间因素对用户偏好的影响, 并且属性类型的全面程度受亚马逊图书评论数量和质量的限制。【结论】本文计算用户对图书属性的情感得分, 得到细粒度的用户偏好信息, 并通过与图书属性的得分进行匹配, 提升了图书个性化推荐的效果。

  • 李真, 丁晟春, 王楠
    数据分析与知识发现. 2017, 1(8): 18-30. https://doi.org/10.11925/infotech.2096-3467.2017.08.03
    摘要 ( ) PDF全文 ( ) HTML ( )   可视化   收藏

    目的】识别网络舆情中的观点主题。【方法】通过舆情信息内容、用户关系、用户行为三个方面的4个维度(时间维、用户维、内容维、观点维)的关联, 构建微博舆情观点主题识别模型。【结果】提出包括舆情网络构建、观点主题抽取及聚类、“用户-所属观点主题” 2-模网络构建、观点主题演化分析4部分的网络舆情观点主题识别方法体系, 实验结果证明该方法体系可有效识别网络舆情中的观点主题。【局限】用户属性对观点主题识别的影响有待进一步考虑。【结论】基于社会网络视角, 利用LDA主题模型, 可多方面、多维度地识别网络舆情观点主题。

  • 陈润文, 邱勇, 黄文彬, 王军
    数据分析与知识发现. 2017, 1(8): 31-38. https://doi.org/10.11925/infotech.2096-3467.2017.0511
    摘要 ( ) PDF全文 ( ) HTML ( )   可视化   收藏

    目的】研究基于民办高校大学生的导航页面使用情况, 揭示民办高校大学生典型的网络生活类型及特点。【方法】通过对导航页面设置数据采集点, 获得民办高校大学生的点击行为和搜索行为数据, 进行统一建模和特征提取后, 利用聚类算法将其细分为几个有代表性的群体。【结果】将民办高校大学生划分为6个典型群体, 分别为重度视频型、昼学夜玩型、搜索追剧型、沉迷直播型、劳逸结合型、勤奋学习型; 民办高校大学生主要用网络看视频与直播, 仅有小部分学生利用互联网进行学习。【局限】PC端导航页面行为仅能反映大学生网络生活的一部分, 且数据的时间跨度为两个月, 不能反映学生在期初和期末的行为差异。【结论】本研究实现了民办高校大学生群体中典型网络生活类型的识别, 这将有助于民办高校大学生特点和行为规律的发现和总结, 为提升高校服务管理水平提供参考建议。

  • 余传明, 龚雨田, 赵晓莉, 安璐
    数据分析与知识发现. 2017, 1(8): 39-47. https://doi.org/10.11925/infotech.2096-3467.2017.08.05
    摘要 ( ) PDF全文 ( ) HTML ( )   可视化   收藏

    目的】科研合作关系是一种重要的社会网络。为了促进科研合作, 提高科研生产率, 对金融领域的科研合作推荐模型进行研究。【方法】建立金融领域个人、机构和区域三个层面的科研合作网络, 提出一种新的融合基于邻居节点和基于路径的网络特征的科研合作推荐模型, 并从个人、机构和区域三个层面进行实证检验。【结果】通过对2000年到2014年刊载的68 905篇金融领域的文章进行分析并构建科研合作网络, 在个人、机构和区域三个层面上, 基于特征融合的链接预测方法的AUC值分别为84.25%、87.34%和91.84%, 均高于基于邻居节点的算法和基于路径的算法的AUC值。【局限】在进行训练集和测试集选取的时候只按时间进行切分, 有待使用更多的切分方式对实验结果进行优化。【结论】本文有助于金融科研领域的个人、机构和区域寻求合作对象, 为进行科研网络的研究以及科研合作推荐的学者提供新的研究方法和思路。

  • 张红丽, 刘济郢, 杨斯楠, 徐健
    数据分析与知识发现. 2017, 1(8): 48-58. https://doi.org/10.11925/infotech.2096-3467.2017.08.06
    摘要 ( ) PDF全文 ( ) HTML ( )   可视化   收藏

    目的】通过网络用户评论, 为评论网站构建有效的评分预测机制。【方法】提出基于网络用户评论的评分预测模型, 该模型包括4个模块: 网络用户评论获取模块、预测变量获取模块、预测分析模块以及预测结果评价模块。抓取30部不同类型的电影评论数据, 27部用于构建模型, 3部用于检验模型。【结果】使用逐步回归方法筛选出变量: 参与评分人数、参与评论人数、想要观看人数和电影正向评论情感均值, 构建评分预测模型。使用3部电影验证, 预测评分与IMDb评分相差最大值为0.0644, 最小值为0.0227。【局限】在数据样本量、情感特征提取精度、模型普适性验证等方面有待进一步提升。【结论】该模型能够依据用户评论对评分进行有效预测, 在网络水军探测方面也能发挥一定的作用。

  • 王宇, 李秀秀
    数据分析与知识发现. 2017, 1(8): 59-67. https://doi.org/10.11925/infotech.2096-3467.2017.08.07
    摘要 ( ) PDF全文 ( ) HTML ( )   可视化   收藏

    目的】通过对电子商务评论文本的分析和处理, 获取有效的商家信誉信息, 从客观角度建立商家信誉维度体系。【方法】基于HNC理论的同行优先原理和文本挖掘方法提出改进的评论文本主题词抽取方法和主题词聚类算法, 并进行类簇标签抽取及各类簇权重计算。【结果】生成商家信誉维度体系及各维度权重, 以京东平台手机评论文本为实例, 构建商家信誉维度体系, 并对其进行评价, 证明方法的可行性与有效性。【局限】受HNC词库不全的影响需手工生成一部分字词符号, 在应用到更大规模的评论文本处理时可能会存在限制。【结论】利用本文提出的方法建立的商家信誉维度体系能够客观地反映出用户真正关心的商品指标。

  • 陈晓威, 史昱天
    数据分析与知识发现. 2017, 1(8): 68-75. https://doi.org/10.11925/infotech.2096-3467.2017.08.08
    摘要 ( ) PDF全文 ( ) HTML ( )   可视化   收藏

    目的】针对PageRank算法在符号网络中的局限性, 提出其改进算法, 以识别社会网络中的关键节点。【方法】基于符号网络的相关理论, 将PageRank算法与点度中心性相结合, 提出KeyRank算法, 并对Slashdot网站的用户数据进行分析, 以获取用户的KeyRank算法排名。【结果】PageRank算法排名、入度排名、M-PR算法排名与KeyRank算法排名在统计学意义上呈中度正相关。【局限】KeyRank算法忽略了每次迭代时正、负链接的相互作用。【结论】传统算法与KeyRank算法在节点排序上存在差异, 说明链接的符号属性对排序结果产生了重要影响, 改进算法具有一定的理论和实践意义。

  • 贾杉杉, 刘畅, 孙连英, 刘小安, 彭涛
    数据分析与知识发现. 2017, 1(8): 76-84. https://doi.org/10.11925/infotech.2096-3467.2017.08.09
    摘要 ( ) PDF全文 ( ) HTML ( )   可视化   收藏

    目的】为了准确地给专利申请书分配IPC分类号, 本文提出一种基于多特征多分类器集成的专利自动分类方法。【方法】使用从专利申请书中提取的全词典TFIDF特征、信息增益词典TFIDF特征、段落向量特征、主题模型向量特征, 分别训练朴素贝叶斯、支持向量机、AdaBoost分类器, 以此构建特征-类别矩阵, 并结合F1权重矩阵集成, 获得最终IPC预测分类号。【结果】对2014年-2016年“发动机或泵”领域的10个小类进行分类, 使用Top Prediction、All Categories和Two Guesses三种评估方法得到准确率分别为: 78.9%、80.1%、91.2%。【局限】训练仅仅使用了2014年-2016年共三年的专利数据, 数据规模有限。【结论】在“发动机或泵”领域, 本文方法能够有效地提高专利文本分类的准确率。

  • 高歌, 罗珺玫, 王宇
    数据分析与知识发现. 2017, 1(8): 85-91. https://doi.org/10.11925/infotech.2096-3467.2017.08.10
    摘要 ( ) PDF全文 ( ) HTML ( )   可视化   收藏

    目的】构建一种更加科学、准确的评论文本情感倾向性分析方法, 解决网络新词难于计算的问题。【方法】利用概念层次网络(HNC)理论的符号对偶性计算情感值, 根据建立的规则为新词确定符号, 利用符号重用降低工作量, 实现对新词的处理。【结果】通过对已有成果的分析和改进, 最终得到一套较为完善的情感倾向性分析方法, 并使用真实数据进行实验, 验证了该方法的可行性, 同时也发现了待改进之处。【局限】目前仅能对网络短文本进行分析, 且新词的加入需采用人工标注的方式。【结论】本文方法可行有效, 为文本情感分析提供了新思路。

  • 翁丹玉, 翟军, 袁长峰, 林岩
    数据分析与知识发现. 2017, 1(8): 92-99. https://doi.org/10.11925/infotech.2096-3467.2017.0492
    摘要 ( ) PDF全文 ( ) HTML ( )   可视化   收藏

    目的】分析我国地方政府各开放数据平台接口服务同国际发展趋势的差距, 探讨提升互操作性的途径。【应用背景】“十三五”期间, 我国将建设国家政府数据统一开放平台, 推动各级政府数据的开放共享与深度利用, 对开放数据接口服务有着广泛的需求。【方法】在介绍国际上主要的开放数据平台和W3C API最佳实践基础上, 分析我国开放数据平台接口服务的主要不足。引进开放数据协议OData, 给出开放标准化API服务的关键步骤。【结果】通过搭建OData服务、发布说明文档和附加机器可读的元数据, 为遵循国际通用的最佳实践打下基础。【结论】我国在提供接口服务时, 需要借鉴先进经验, 采纳国际标准是提升互操作水平的关键。