期刊首页 当期目录

2017年, 第1卷, 第3期 
刊出日期:2017-03-25
  

  • 全选
    |
    研究论文
  • 朱鹏, 赵笑笑, 伍薇
    数据分析与知识发现. 2017, 1(3): 1-9. https://doi.org/10.11925/infotech.2096-3467.2017.03.01
    摘要 ( ) PDF全文 ( ) HTML ( )   可视化   收藏

    目的】探究消费者动机风格、产品类型以及营销策略类型三个因素以及因素之间的交互作用对移动电子商务消费者购买决策偏好的影响。【方法】采用情景设计与问卷采集相结合的实验方法开展相关实证研究。【结果】产品类型与营销策略的交互作用对不同动机风格的移动电子商务消费者决策偏好存在显著差异性影响。【局限】未能引入其他影响因素(如产品卷入度、个体认知需求、感知风险等)进行研究。【结论】从移动电子商务消费者类型区分、产品类型及营销策略的选择三方面对移动产品供应商提出相关的对策建议。

  • 翟东升, 郭程, 张杰, 夏军
    数据分析与知识发现. 2017, 1(3): 10-20. https://doi.org/10.11925/infotech.2096-3467.2017.03.02
    摘要 ( ) PDF全文 ( ) HTML ( )   可视化   收藏

    目的】针对如何准确识别潜在研发伙伴, 提出一种基于专利的企业潜在研发伙伴的推荐方法。【方法】以TRIZ理论为基础, 对相关专利的功能、科学效应、功效等语义特征进行抽取, 构建出领域专利技术树, 将企业技术需求中的关键信息进行抽取并匹配到技术树中, 根据专利权人得出潜在研发伙伴并使用层次分析法对其进行评估。【结果】研究获取热水器防水垢技术领域的德温特专利数据, 对潜在研发伙伴进行识别与评估, 证明该方法的可行性。【局限】对于语义特征的抽取, 由于中文语法结构存在较大的灵活性, 抽取的准确率有待提高。【结论】该方法可以发现并评估潜在研发伙伴, 为企业推荐可以解决其技术需求的研发伙伴。

  • 申雪锋, 柯永振, 姚楠
    数据分析与知识发现. 2017, 1(3): 21-28. https://doi.org/10.11925/infotech.2096-3467.2017.03.03
    摘要 ( ) PDF全文 ( ) HTML ( )   可视化   收藏

    目的】针对当前联盟数据在进行知识发现过程中存在的问题, 设计联盟数据可视分析系统模型, 实现对历史信息的采集、挖掘和可视化分析。【方法】构建联盟数据可视分析系统模型, 搭建大数据平台, 验证模型的可用性。【结果】实验结果表明, 系统能够很好地对海量历史数据进行可视化分析, 并支持决策分析。【局限】目前的可视分析结果视图还可以进一步丰富。【结论】该系统可以对联盟的历史数据进行可视化分析, 为决策者提供科学化的数据支持。

  • 姜赢, 张婧, 朱玲萱
    数据分析与知识发现. 2017, 1(3): 29-37. https://doi.org/10.11925/infotech.2096-3467.2017.03.04
    摘要 ( ) PDF全文 ( ) HTML ( )   可视化   收藏

    目的】为更方便地查询和利用各个领域的海量关联数据, 提出一种关联数据知识图谱概览的生成方法, 使得用户在查询前就能了解关联数据访问点的内部数据结构。【方法】通过SPARQL查询关联数据所包含的领域知识关系, 针对每一个知识关系构建知识图谱概览三元组并形成初步的知识图谱概览, 再抽取每个知识分类的知识图谱概览三元组并合并到前者形成完整的知识图谱概览。【结果】研发Cytoscape插件实现此方法, 并进一步提供知识图谱概览可视化功能。【局限】不能处理匿名节点等复杂知识分类抽取。【结论】在生物医学领域分别进行单点抽取、关联“桥”和关联“包含”三项测试, 测试结果表明该方法抽取速度快而稳定, 抽取结果的查全率高, 且不需要网络爬虫或额外的索引工作。

  • 陈梅梅, 薛康杰
    数据分析与知识发现. 2017, 1(3): 38-45. https://doi.org/10.11925/infotech.2096-3467.2017.03.05
    摘要 ( ) PDF全文 ( ) HTML ( )   可视化   收藏

    目的】在基于张量分解的个性化推荐中, 解决因UGC标签冗余、热门标签和资源影响用户个性化兴趣所导致的推荐准确性降低问题。【方法】提出一种改进的基于张量分解模型的个性化推荐算法, 引入标签综合共现结合谱聚类的方法, 借鉴TF-IDF中IDF的思想提出一种基于共现标签和资源的热门惩罚机制, 对基于<用户, 标签簇, 资源>三元关系的初始张量进行重新定义。【结果】基于Last.fm数据集的仿真实验结果表明, 从准确率、召回率和F1值各项指标上, 本文提出的算法均有良好表现, 综合共现谱聚类的引入使得推荐算法在F1值上平均提升5.91%, 基于IDF改进初始张量后的推荐算法在F1值上平均提升1.29%。【局限】未针对其他领域的数据集进行验证, 如微博、Delicious等。【结论】基于改进的张量分解模型的个性化推荐算法能够显著提高准确性, 有利于社交网络环境下提供更令用户满意的资源。

  • 何跃, 肖敏, 张月
    数据分析与知识发现. 2017, 1(3): 46-53. https://doi.org/10.11925/infotech.2096-3467.2017.03.06
    摘要 ( ) PDF全文 ( ) HTML ( )   可视化   收藏

    目的】热点话题具有很大的影响力,针对热点话题及其情感对象的情感倾向进行相关研究。【方法】提出一个结合话题相关性的主客观分类模型, 帮助抽取与热点话题相关的主观微博; 利用基于机器学习改进的情感分类方法对抽取博文的情感极性进行分析; 通过召回率、准确率、F值对情感分类效果进行详细评估。【结果】实证分析结果表明, 结合话题相关性有效提升了热点话题微博主客观分类和情感极性分类效果, 其中F值分别提升7.4%和2.2%。【局限】待需深入考虑数据的分布状态、情感分类粒度细化、情感对象的情感趋势变化等。【结论】考虑话题相关性, 提升微博情感分类的效果, 并通过抽取热点话题中关键情感对象的情感倾向, 为微博精准营销提供相关情报信息。

  • 王东波, 吴毅, 叶文豪, 刘睿伦
    数据分析与知识发现. 2017, 1(3): 54-61. https://doi.org/10.11925/infotech.2096-3467.2017.03.07
    摘要 ( ) PDF全文 ( ) HTML ( )   可视化   收藏

    目的】从大规模食品安全事件当中抽取食品安全事件实体。【方法】基于已发生的食品安全事件, 结合情报学数据获取、标注和组织的方法, 融合食品安全事件实体的多种分布特征知识, 通过条件随机场模型, 构建食品安全事件语料并从中抽取相应的实体。【局限】在食品安全事件实体抽取过程中所制定的特征模板在领域化迁移上具有一定的局限性。【结果】在已有1 500万字经过标注的食品安全事件语料的规模上, 通过统计食品安全事件实体的内部和外部特征, 基于条件随机场机器学习模型, 构建了食品安全实体的抽取模型, 该模型最高的F值达到91.94%。【结论】通过对食品安全事件实体抽取结果的分析, 在食品这一领域化的语料上, 基于条件随机场进行实体抽取是可行的。

  • 吴维芳, 高宝俊, 杨海霞, 孙含琳
    数据分析与知识发现. 2017, 1(3): 62-71. https://doi.org/10.11925/infotech.2096-3467.2017.03.08
    摘要 ( ) PDF全文 ( ) HTML ( )   可视化   收藏

    目的】通过对评论文本进行文本分析, 研究影响酒店用户满意度的因素, 为酒店管理者提供建议。【方法】利用Word2Vec对Tripadvisor.com酒店评论进行特征抽取和降维, 结合情感分析技术, 提取每类特征对应的情感, 构建计量经济模型分析酒店特征评价与用户满意度的关系。【结果】研究结果表明: (1)评论文本的情感表达越积极满意度越高, 但这种影响并非线性的, 而是呈现“U”形的; (2)用户评论文本中提到的特征类别数越多, 该用户越有可能倾向不满意; (3)消费者对豪华型酒店和经济型酒店特征类别的关注存在显著差异, 消费者对前者更关注员工服务, 对后者更注重清洁度; (4)对豪华型酒店, 消费者满意度受到网络(Internet)这个特征维度的显著影响, 而对于经济型酒店该维度的影响则不显著。【局限】样本的选择不够全面, 未来可爬取多个城市数据进行更全面分析。【结论】从评论文本角度建立了酒店特征与消费者满意度的联系, 为酒店在线口碑研究提供了理论依据。

  • 官琴, 邓三鸿, 王昊
    数据分析与知识发现. 2017, 1(3): 72-80. https://doi.org/10.11925/infotech.2096-3467.2017.03.09
    摘要 ( ) PDF全文 ( ) HTML ( )   可视化   收藏

    目的】通过实验对比分析, 比较不同停用词表对于不同类型的文本数据的作用效果, 对停用词表的构建与使用提供参考意见。【方法】选取百度停用词表、哈尔滨工业大学停用词表以及四川大学机器智能实验室停用词表, 基于三个不同语料库运用汉语分词技术、TF-IDF特征评估函数以及VSM模型进行文本处理, 并且采用Java编写的K-means算法进行聚类实验, 通过准确率P、召回率R和F1三个评价指标对不同聚类结果进行效果评估。【结果】不同停用词表对于不同类型的文本数据作用效果差异明显, 词表的长度、内容结构是影响作用效果的直接因素, 其中两字停用词作用效果最为明显。【局限】实验文本类型及数量有限, 同时对于不同停用词表仅在词语数量及内容上做了简单的分析比较, 未对停用词按照类别分类进行实验分析。【结论】停用词表对于文本聚类准确度有很大的影响, 构建或选取适宜的中文停用词表极为重要。同时, 过度增加停用词的数量并不会一直改善聚类结果。

  • 高长元, 于建萍, 何晓燕
    数据分析与知识发现. 2017, 1(3): 81-89. https://doi.org/10.11925/infotech.2096-3467.2017.03.10
    摘要 ( ) PDF全文 ( ) HTML ( )   可视化   收藏

    目的】利用改进的粒子群算法进行云计算产业联盟知识搜索, 提高搜索的准确率和效率。【方法】首先利用MapReduce中Map函数对粒子分组实现并行化处理, 再运用Reduce函数对粒子搜索的结果进行归约, 缩短搜索的时间。在粒子搜索过程中, 根据小组内最优位置的平均值进行小组内粒子的信息交互, 避免算法早熟收敛于一个局部最优值。【结果】通过三组仿真实验对改进的粒子群算法和标准粒子群算法进行对比分析, 结果表明改进的粒子群算法在效率与准确率方面均具有明显的优越性。【局限】样本数据存在干扰数据, 有待改进。【结论】该方法能提高云计算产业联盟知识搜索的准确性, 并提升搜索效率。

  • 尹相权, 李书宁
    数据分析与知识发现. 2017, 1(3): 90-95. https://doi.org/10.11925/infotech.2096-3467.2017.03.11
    摘要 ( ) PDF全文 ( ) HTML ( )   可视化   收藏

    目的】通过分析美国一流大学图书馆网站导航文本的特点, 为国内大学图书馆导航建设提供建议。【方法】结合一流大学应具有一流学科、一流教师和一流学生的思路选取选取15所美国一流大学图书馆, 基于标签云和文本挖掘模型VSM, 分析导航文本词维度上的共性和特异性, 并结合《2016年美国图书馆状况报告》进行数据验证。【结果】与人工调研相比, 基于VSM模型的统计方法可以更直观、快速地给出基础调研结果, 调研结果可供进一步深度文本分析参考。【局限】仅选取一级导航、二级导航和首页标题板块概况导航文本。【结论】基于文本数据挖掘模型的统计方法可以更直观、快速地给出基础调研结果, 为高校图书馆网站导航建设提供参考。