期刊首页 当期目录

2018年, 第2卷, 第4期 
刊出日期:2018-04-25
  

  • 全选
    |
    研究论文
  • 周翔, 张鹏翼, 王军
    数据分析与知识发现. 2018, 2(4): 1-9. https://doi.org/10.11925/infotech.2096-3467.2017.1118
    摘要 ( ) PDF全文 ( ) HTML ( )   可视化   收藏

    目的】针对移动购物用户在进行商品信息浏览时的特征对购买的影响进行研究。【方法】采用日志分析方法, 对某移动电商APP的2 752名用户在2015年3月的44 932 715条日志进行分析。【结果】会话内浏览复杂度越高、浏览广度越广、浏览深度越深, 会话内用户越有可能产生购买行为; 单会话购物过程中浏览复杂度高于多会话购物过程; 多任务购物过程中浏览复杂度高于单任务购物过程。【局限】基于某一移动电商APP的研究结论普适性有待检验。【结论】移动购物中用户商品信息浏览特征及对购买的影响研究有助于理解移动购物用户的信息浏览行为及其与购买行为之间的关系。

  • 郭崇慧, 李敏谦
    数据分析与知识发现. 2018, 2(4): 10-19. https://doi.org/10.11925/infotech.2096-3467.2017.1095
    摘要 ( ) PDF全文 ( ) HTML ( )   可视化   收藏

    目的】探究如何利用排名聚合方法科学评价古村落网络信息资源。【方法】提出评价流程框架和评价方法: 选取6个考察维度, 构建古村落网络信息资源评价指标体系; 结合指标的主观权重和客观权重, 采用一种排名聚合方法BILPS将多种单一评价方法进行聚合, 对古村落网络信息资源进行综合评价。【结果】对广东省64个古村落的网络信息资源进行评价, 分析发现排名前10的古村落多位于广州市。【局限】仅应用于广东省古村落网络信息资源评价, 未扩展至中国传统村落网络信息资源评价。【结论】科学地评价古村落网络信息资源能够辅助决策者、管理者和古村落居民在正确认识古村落网络传播现状和影响力状况的前提下做出决策, 推动古村落的发展。

  • 岑咏华, 张灿, 吴承尧
    数据分析与知识发现. 2018, 2(4): 20-28. https://doi.org/10.11925/infotech.2096-3467.2017.1172
    摘要 ( ) PDF全文 ( ) HTML ( )   可视化   收藏

    目的】考察在不同类型媒介信息影响下股票投资者过度交易现象是否更加显著。【方法】采用事件分析法考察微博舆论、行业新闻、公司公告信息涉及的公司股票在信息发布前后各时间窗口内异常换手率的差异, 检验媒介信息类型的影响差异和信息传播效应。【结果】媒介信息披露后, 股票过度交易现象显著; 媒介信息传播过程中存在显著内幕效应、信息披露效应以及持续性影响; 相比利好信息, 投资者更容易受到利空信息的影响而过度交易; 投资者过度交易背后体现了其有限关注、选择性关注以及情绪波动等有限理性特征。【局限】样本规模可以进一步扩大, 数据依据财经媒介所提供的概念股体系构建信息与股票的关联, 但这种关联可能并不完全为投资者所意识, 可能会对实证结果产生干扰。【结论】媒介信息对于市场过度交易具有催化作用。该研究在一定意义上可为理解媒介信息、投资者有限理性及其决策偏差等提供证据和视角。

  • 甘春梅, 黄凯, 许嘉仪, 林恬恬
    数据分析与知识发现. 2018, 2(4): 29-37. https://doi.org/10.11925/infotech.2096-3467.2017.1250
    摘要 ( ) PDF全文 ( ) HTML ( )   可视化   收藏

    目的】本研究旨在深入揭示社会化商务持续意愿的影响因素。【方法】基于S-O-R模型, 结合技术性因素与感知价值, 构建社会化商务持续意愿理论模型。通过在线问卷搜集数据, 获得330份有效样本; 进一步运用PLS进行数据分析。【结果】结果显示, 交互性显著影响感知享乐性价值, 个性化显著影响感知功利性价值, 社交性显著影响感知价值, 而推荐性显著影响感知功利性价值和感知享乐性价值。与此同时, 感知功利性价值和感知享乐性价值显著影响社会化商务持续意愿。【局限】第一, 主要关注收益性价值的作用, 未考虑风险性价值的影响。第二, 主要针对年轻用户搜集数据, 未考虑不同年龄层用户可能的行为差异。第三, 未考虑不同类型社会化商务平台的差异可能造成的用户行为差异。【结论】本研究关注技术性要素与感知价值对社会化商务持续意愿的作用机理, 可以为相关服务提供商提供参考和建议。

  • 王婷婷, 王凯平, 戚桂杰
    数据分析与知识发现. 2018, 2(4): 38-47. https://doi.org/10.11925/infotech.2096-3467.2017.1257
    摘要 ( ) PDF全文 ( ) HTML ( )   可视化   收藏

    目的】实证检验创意及用户评论的情感特征对开放式创新平台创意采纳是否具有显著影响以及如何影响。【方法】选择典型开放式创新平台为研究对象, 基于社会影响理论将平台信息分为规范型和信息型两类, 通过文本分析获得创意标题、文本以及评论的情感变量, 研究情感对创意采纳是否具有影响。【结果】研究结果表明, 创意标题以及文本长度、创意标题情感以及创意得分对创意采纳都具有显著影响; 同时, 评论数量对评论情感具有调节作用。【局限】仅对单一平台进行研究。【结论】研究成果对企业评估创意、快速筛选有价值的创意, 以及如何指导用户提交创意、提高创意被采纳概率等都具有很好的指导意义。

  • 郭博, 赵隽瑞, 孙宇
    数据分析与知识发现. 2018, 2(4): 48-58. https://doi.org/10.11925/infotech.2096-3467.2017.0904
    摘要 ( ) PDF全文 ( ) HTML ( )   可视化   收藏

    目的】通过对社会化问答社区海量的用户信息和动态进行综合分析, 探索社会化问答社区用户关系网络和用户访问行为的规律。【方法】以知乎网为例, 抓取知乎用户和问答情况的公开信息, 基于复杂网络和人类行为动力学, 对社交网络本身的结构特性、用户群体特性及用户行为的时间统计特征进行分析。【结果】研究结果表明: 在个体和群体层面, 知乎用户行为在时间上具有相似的统计规律, 事件时间间隔服从幂指数为0.68的幂律分布, 等待时间间隔服从幂指数为1.51的幂律分布。关系网络的度分布和用户回答量、赞同量、评论量等服从指数截断的幂律分布, 整体表现出明显的异质性和多重标度特性。【局限】采集样本的数量有限; 没有将知乎网与其他社会化问答社区的用户行为进行对比。【结论】本研究揭示了知乎网用户行为与信息传播之间的关系, 对研究社会化问答社区的网络结构和信息的传播控制等有一定的借鉴意义。

  • 刘俊婉, 杨波, 王菲菲
    数据分析与知识发现. 2018, 2(4): 59-70. https://doi.org/10.11925/infotech.2096-3467.2017.1162
    摘要 ( ) PDF全文 ( ) HTML ( )   可视化   收藏

    目的】针对多样化评价指标导致评价体系庞大、计算繁琐、结论模糊等问题, 研究一套公正、有效、快速的学术影响力排名机制。【方法】结合Word2Vec算法、TF-IDF算法和PageRank算法, 提出一种基于引证行为与学术相似度的学者影响力领域排名方法。【结果】改进后的排序算法综合了学者学术关系层面与学者学术产出层面的学术影响力, 在有效性维度表现优异: PR值与特征向量中心度、H指数的相关性分别为0.872、0.617, 对传统评价指标具有优秀的替代作用; 同时, 在固定排名区间内学者的平均H指数与平均被引频次均有所提高, 前百名学者的平均H指数提高1.087, 平均被引频次提高2.080, 排名效果优于原始PageRank算法。【局限】算法时间复杂度与空间复杂度虽然在可接受范围之内, 但相对原始PageRank算法效率有所降低。【结论】改进算法适用于具有大量节点的学者学术网络, 节点PR值随着网络质量扩大而更趋于准确, 因此在多学科、大量学者等场景下的学术影响力评价中, 改进排名算法对原有评价指标具有一定的替代性, 且效果表现较改进前表现优异。

  • 陈远, 王超群, 胡忠义, 吴江
    数据分析与知识发现. 2018, 2(4): 71-80. https://doi.org/10.11925/infotech.2096-3467.2017.1188
    摘要 ( ) PDF全文 ( ) HTML ( )   可视化   收藏

    目的】充分利用网站多源评测指标, 研究恶意网站的评估和识别问题。【方法】在广泛收集网站多源评测指标的基础上, 采用主成分分析法对恶意网站进行多维度评估, 并在此基础上利用随机森林分类算法构建恶意网站识别模型。【结果】所构建方法可以有效提取权威、引用、访问量、排名、链接5个评估维度; 同时, 基于主成分分析法和随机森林的恶意网站识别模型具有较高的准确率和识别效率。【局限】受数据获取的限制, 本研究样本大多属于国外网站, 所提取的维度可能与国内恶意网站有一定差异; 同时没有考虑恶意网站与正常网站的数量存在不均衡问题。【结论】所构建的基于主成分分析和随机森林的模型既可以提取具有较好解释性的网站评价维度, 又具有较高的识别准确率和效率, 对后续恶意网站的评估与识别研究具有借鉴意义。

  • 俞琰, 赵乃瑄
    数据分析与知识发现. 2018, 2(4): 81-89. https://doi.org/10.11925/infotech.2096-3467.2017.1068
    摘要 ( ) PDF全文 ( ) HTML ( )   可视化   收藏

    目的】解决专利文本分析中主题模型向高频词倾斜、区分度低的问题。【方法】提出基于词权重方法, 形成加权专利文本主题模型, 给不同的词分配不同的权重, 改变生成模型生成词的概率。【结果】相较于传统的专利文本主题模型, 本文提出的加权专利主题模型能够增加主题间的区分度。【局限】加权算法需要更多数据集验证, 并不断优化。【结论】通过专利文本数据验证了该方法的可行性与有效性。

  • 周立欣, 林杰
    数据分析与知识发现. 2018, 2(4): 90-98. https://doi.org/10.11925/infotech.2096-3467.2017.1252
    摘要 ( ) PDF全文 ( ) HTML ( )   可视化   收藏

    目的】基于自然语言处理技术和复杂网络相关理论, 提出新的产品特征识别方法, 提高产品特征的抽取效果。【方法】构建产品特征-情感词对的二分加权网络, 从网络视角更加清晰、直观地描述产品特征词和情感词之间的关系。然后提出NodeRank算法对产品特征词进行重要性排序, 提高特征词提取的准确率。【结果】通过对京东商城中真实评论数据的仿真实验, 结果表明NodeRank算法产品特征提取的准确率、召回率和F-score都高于HAC、TF-IDF和TextRank等基准算法。【局限】NodeRank算法的计算复杂度偏高, 需要进一步优化。【结论】NodeRank算法是一种准确有效的特征提取方法, 能够为产品特征提取、产品营销等商业活动提供支持。

  • 王飞飞, 张生太
    数据分析与知识发现. 2018, 2(4): 99-109. https://doi.org/10.11925/infotech.2096-3467.2017.1256
    摘要 ( ) PDF全文 ( ) HTML ( )   可视化   收藏

    目的】探究移动社交网络微信用户信息发布行为统计特征。【方法】以“微信”为研究对象, 通过爬取微信用户5年内的朋友圈信息, 从微信用户特征、微信信息内容、微信信息发布时间、微信点赞数与评论数对用户信息发布行为统计特征进行分析。【结果】用户信息发布内容受用户特征的影响; 不同内容下的信息点赞与评论数也会有显著差异; 同时, 微信用户的信息发布时间间隔分布显示大多数用户的发布行为会在较短时间内密集发生。【局限】受收集范围和技术的限制, 实验样本数量有待扩充,得出的结论有待进一步推广。【结论】研究用户信息发布行为统计特征, 为探究社交网络用户信息发布行为提供了理论支撑。