期刊首页 当期目录

2017年, 第1卷, 第7期 
刊出日期:2017-07-25
  

  • 全选
    |
    首届"数据分析与知识发现"学术研讨会专辑(I)
  • 《数据分析与知识发现》编辑部
    数据分析与知识发现. 2017, 1(7): 1-1. https://doi.org/10.11925/infotech.2096-3467.2017.07.01
    摘要 ( ) PDF全文 ( ) HTML ( )   可视化   收藏
  • 李姝影, 方曙
    数据分析与知识发现. 2017, 1(7): 2-12. https://doi.org/10.11925/infotech.2096-3467.2017.0546
    摘要 ( ) PDF全文 ( ) HTML ( )   可视化   收藏

    目的】对技术会聚/融合相关研究进行较系统的梳理, 期望能够展示该领域的研究进展, 为后续研究提供参考。【文献范围】从Web of Science(WOS)、CNKI等数据库中分别以“技术会聚(Technology Convergence)”、“技术融合(Technology Fusion)”等检索词搜集获得中英文相关文献73篇。【方法】针对技术融合相关概念及内涵、测度技术融合程度与趋势的数据分析方法进行较系统的文献提炼与评析。【结果】近年来有关技术融合的研究越来越丰富; 基于专利数据的技术融合分析方法主要包括评估技术融合度的指标、专利引文网络分析方法探索技术融合演化路径、专利共类识别技术融合轨道等。【局限】混合方法的横向对比研究较少。【结论】已有分析方法尚不完善, 测度技术融合的数据分析方法优化拓展的潜力巨大, 未来具有较大的研究发展空间。

  • 王雪颖, 张紫玄, 王昊, 邓三鸿
    数据分析与知识发现. 2017, 1(7): 13-21. https://doi.org/10.11925/infotech.2096-3467.2017.0431
    摘要 ( ) PDF全文 ( ) HTML ( )   可视化   收藏

    目的】通过分析中国农产品品牌评价领域的文献题名总结该领域的研究现状。【方法】对该领域的文献题名进行K-means聚类, 分析每簇研究的重点内容, 分别使用因子分析、多维尺度分析和层次聚类分析进一步解析聚类得到的每簇文献的特点。【结果】文献数量总体呈现“M”型趋势, 文献多采用模糊综合法, 从多个评价角度集中探讨评价指标体系、评价模型、影响因素等方面。【局限】仅针对题名进行分析, 未涉及关键词与摘要文本。【结论】聚类结果较好地揭示了中国该领域的研究现状, 但没有反映出种类农产品、Interband品牌评估法相关内容。

  • 张轩慧, 赵宇翔
    数据分析与知识发现. 2017, 1(7): 22-34. https://doi.org/10.11925/infotech.2096-3467.2017.07.04
    摘要 ( ) PDF全文 ( ) HTML ( )   可视化   收藏

    目的】通过厘清国际公众科学领域的源流与研究现状, 为今后该领域的探索提供参考与借鉴。【文献范围】选取Web of Science (WOS)核心数据集作为文献数据来源, 以公众科学(Citizen Science)、群智科学(Crowd Science)等关键词以及项目名称进行主题检索, 共得到相关文献1 796篇。【方法】借助文献计量、社会网络、内容分析等方法, 结合可视化工具, 对公众科学研究的演化路径、研究热点及国际图书情报学科中公众科学主题的研究现状进行深入分析。【结果】结果表明, 随着互联网的发展和各类智能移动终端的普及, 群体智慧和开放科学范式受到高度关注, 基于群体参与及协作的公众科学研究正处于快速发展阶段。目前的研究热点可以归纳为三个层面, 即项目视角、理论方法视角以及参与者视角。此外, 尽管以往公众科学的研究主力集中在自然科学领域, 但在国际上图书情报学科对于公众科学方向的探索具有起点高、发力强等特点, 蕴含很大的发展潜力。【局限】仅使用WOS核心数据集作为数据来源, 没有包含领域会议论文, 故而数据存在偏差; 仅根据关键词进行主题演化分析, 没有以全文数据为分析样本。【结论】图书情报领域作为兼具资源管理优势与数据管理优势的传统学科, 势必将对公众科学的研究发挥重要作用。

  • 杨超凡, 邓仲华, 彭鑫, 刘斌
    数据分析与知识发现. 2017, 1(7): 35-43. https://doi.org/10.11925/infotech.2096-3467.2017.07.05
    摘要 ( ) PDF全文 ( ) HTML ( )   可视化   收藏

    目的】统计近5年相关会议集收录的论文, 分析信息检索的研究热点与发展趋势。【文献范围】检索2012年-2016年ACL、ACMMM、ICML、KDD、SIGIR等5个信息检索领域的相关会议集收录的论文。【方法】使用爬虫软件获取5个相关会议收录的论文的摘要和关键词, 并利用分词工具对其处理, 进行统计分析和文献研究。【结果】发现目前信息检索中移动搜索是主流; 检索模型不断优化; 注重过滤和推荐; 与人工智能关系密切, 用户隐私以及医疗健康也是信息检索重点关注的内容。【局限】仅采集论文的摘要和关键词数据, 未进行全文内容以及引文的分析。【结论】反映目前信息检索的大致发展状况, 为其他学者开展新的研究提供借鉴和参考。

  • 首欢容, 邓淑卿, 徐健
    数据分析与知识发现. 2017, 1(7): 44-51. https://doi.org/10.11925/infotech.2096-3467.2017.0479
    摘要 ( ) PDF全文 ( ) HTML ( )   可视化   收藏

    目的】提出一种基于情感分析技术自动识别特定领域谣言的方法。【方法】界定高、低质量信息源, 在假设高质量信息源信息更可靠的情况下, 通过基于情感词典的情感分析方法, 量化高质量信息源与低质量信息源对特定对象的情感差异, 判定低质量信息源提供的信息是否属于谣言。【结果】将该方法应用于“食品养生”、“医学健康”两个领域进行谣言识别。在30个疑似谣言案例中准确识别出23个谣言案例, 准确率为76.67%。本文提出的谣言识别方法在谣言预测方面的F值为83.34%, 查全率为71.42%, 查准率为100%; 在非谣言文本预测上的F值为72.73%, 查全率为100%, 查准率为57.14%。【局限】未实现不同信息源数据自动抽取, 每个谣言案例下的人工收集的谣言数量有限。【结论】本文基于情感分析的谣言识别方法对特定类型的谣言是有效的。

  • 邓三鸿, 傅余洋子, 王昊
    数据分析与知识发现. 2017, 1(7): 52-60. https://doi.org/10.11925/infotech.2096-3467.2017.0484
    摘要 ( ) PDF全文 ( ) HTML ( )   可视化   收藏

    目的】利用LSTM模型和字嵌入的方法构建分类系统, 提出一种中文图书分类中多标签分类的解决方案。【方法】引入深度学习算法, 利用字嵌入方法和LSTM模型构建分类系统, 对题名、主题词等字段组成的字符串进行学习以训练模型, 并采用构建多个二元分类器的方法解决多标签分类问题, 选择3所高校5个类别的书目数据进行实验。【结果】从整体准确率、各类别精度、召回率、F1值多个指标进行分析, 本文提出的模型均有良好表现, 有较强的实际应用价值。【局限】数据仅涉及中图分类法5个类别, 考虑的分类粒度较粗等。【结论】基于LSTM模型的中文图书分类系统具有预处理简单、增量学习、可迁移性高等优点, 具备可行性和实用性。

  • 敦欣卉, 张云秋, 杨铠西
    数据分析与知识发现. 2017, 1(7): 61-72. https://doi.org/10.11925/infotech.2096-3467.2017.0516
    摘要 ( ) PDF全文 ( ) HTML ( )   可视化   收藏

    目的】对微博进行细粒度情感分析, 将情感分为8类, 并计算其情感强度值, 从而尽可能还原微博用户情感。【方法】通过微博语料分析构建疑问词词表, 在大连理工大学情感词汇本体DUTIR的7类情感基础上, 丰富一类情感“疑”, 并利用点互信息法构建表情符号词典, 还综合考虑否定词和程度副词对情感表达的影响, 利用Python从新浪微博上获取数据, 并用R语言的jiebaR包进行分词, 对情感进行分类并计算其强度。【结果】得到微博用户对于糖尿病7类常用药物的8类情感占比及情感强度, 并通过正确率、召回率、F值对结果进行验证, 其中“怒”和“哀”的正确率最高, 分别为85.73%和83.05%, 而“乐”和“好”的召回率与F值均最高, 为81%以上。本文新增情感“疑”的正确率、召回率、F值分别为77.33%、78.58%、77.95%, 均值在8类情感中排名前列, 说明其情感识别较好。【局限】由于本文依赖于情感词典进行情感分析, 因此为了更好的分析结果, 情感词典仍需进一步完善。【结论】本方法具有较高的识别率和可靠性, 能够更好地对微博上的情感分类进行细粒度分析。

  • 余传明, 冯博琳, 安璐
    数据分析与知识发现. 2017, 1(7): 73-81. https://doi.org/10.11925/infotech.2096-3467.2017.0506
    摘要 ( ) PDF全文 ( ) HTML ( )   可视化   收藏

    目的】通过在标注资源丰富的源领域中学习, 并将目标领域的文档投影到与源领域相同的特征空间中去, 从而解决目标领域因数据量较小难以获得好的分类模型的问题。【方法】选择亚马逊在线购物网站在书籍、DVD和音乐类目下的中文、英文和日文评论作为实验数据, 在卷积神经网络和结构对应学习的基础上提出跨领域深度表示模型(CDDRM), 以实现不同领域环境下的知识迁移, 并将其应用到跨领域情感分析任务之中。【结果】实验结果表明, CDDRM在跨领域环境下最优的F值达到0.7368, 证明了该模型的有效性。【局限】CDDRM针对长文本的跨领域情感分类F值仍然有待提升。【结论】知识迁移能够解决监督学习在小数据集上难以获得好的分类效果的问题, 与传统监督学习的基本假设相比, 它并不要求训练集和测试集服从相同或相似的数据分布。

  • 李志鹏, 李卫忠
    数据分析与知识发现. 2017, 1(7): 82-89. https://doi.org/10.11925/infotech.2096-3467.2017.07.10
    摘要 ( ) PDF全文 ( ) HTML ( )   可视化   收藏

    目的】对适用于特征选择的算法进行研究, 有效提高文本分类精度和效率。【方法】结合特征选择特点, 以可拓理论为基础构造小生境量子粒子群算法, 通过改进增强算法搜索能力, 将不同的特征选择方法用于文本分类并进行比较。【结果】实验结果表明, 与IG、MI等方法相比, 基于可拓小生境量子粒子群算法的特征选择在文本分类中取得了较好效果, 算法的求解精度得到明显提升。【局限】所提出的特征选择方法在时间效率上有待改善。【结论】对量子粒子群算法的改进措施有效提高了算法的搜索能力, 在特征选择的应用中达到较好的效果。

  • 薛福亮, 刘君玲
    数据分析与知识发现. 2017, 1(7): 90-99. https://doi.org/10.11925/infotech.2096-3467.2017.07.11
    摘要 ( ) PDF全文 ( ) HTML ( )   可视化   收藏

    目的】利用用户间信任关系改进协同过滤推荐中用户相似性计算精度, 即在目标用户没有相似用户的前提下, 从其信任用户中选择信任值高的作为相似用户, 进而提高相似用户聚类效果, 提高推荐质量, 并有效缓解协同过滤推荐稀疏性和冷启动问题。【方法】筛选信任用户作为相似用户; 根据选择的信任用户和目标用户形成一个项目的评分集, 并对目标用户未评价过的项目进行评分估算(根据信任用户评分进行简单的评分计算); 将用户间的信任关系依据方差大小进行量化, 形成一个调节因子。本文的创新点就在于调节因子的计算, 并将调节因子纳入用户相似性计算, 形成相似性用户聚类簇, 在此基础上在相似用户之间进行交叉推荐。【结果】通过平均绝对误差指标进行实验评价, 结果表明基于信任关系的协同过滤推荐方法相比传统协同过滤, 在推荐精度上更加准确, 并同时有效缓解了冷启动和稀疏性问题。【局限】本文提出的方法仅在具有信任关系的一个算例上进行实验测试, 需在其他数据集和真实应用场景下进一步检验。【结论】用户间信任关系蕴涵非常有价值的信息, 对用户信任关系进行量化, 并纳入用户相似性计算, 在此基础上实施协同过滤推荐, 对缓解冷启动与稀疏性问题具有较好的理论和实践意义。