期刊首页 当期目录

2017年, 第1卷, 第12期 
刊出日期:2017-12-25
  

  • 全选
    |
    研究论文
  • 郭博, 李守光, 王昊, 张晓军, 龚伟, 于昭君, 孙宇
    数据分析与知识发现. 2017, 1(12): 1-9. https://doi.org/10.11925/infotech.2096-3467.2017.0618
    摘要 ( ) PDF全文 ( ) HTML ( )   可视化   收藏

    目的】通过对电商网站产生的海量用户评论数据进行综合分析, 及时获取与产品口碑相关的用户反馈信息, 以便快速有效地反馈企业的市场营销活动效果。【方法】运用词袋模型、依存句法分析和机器学习等新兴技术, 对来自京东和天猫两个主要电商网站的真实数据集进行分析, 实现了电商用户评论的自动情感分析和观点标签提取。【结果】评论情感分析获得约90%的准确率, 利用改进双向传播算法成功实现了一个自动化的词库构建系统, 摆脱对词典的依赖, 该系统的F值达到约71%。【局限】观点标签提取的召回率需要进一步提高。【结论】通过实时获取海量电商评论数据并进行有效分析, 成功实现对用户口碑的快速分析与准确把控, 具有较高的商业化推广前景。

  • 吴江, 靳萌萌
    数据分析与知识发现. 2017, 1(12): 10-20. https://doi.org/10.11925/infotech.2096-3467.2017.0789
    摘要 ( ) PDF全文 ( ) HTML ( )   可视化   收藏

    目的】针对在线短租行业, 研究在线短租平台中房源图片对消费者行为意愿的影响。【方法】基于SOR模型和线索利用理论, 从任务相关线索和情感相关线索角度构建房源图片对消费者行为意愿的影响模型, 通过问卷调查收集数据, 利用SmartPLS3.2进行分析。【结果】房源图片的任务相关线索和情感相关线索均正向地影响消费者的感知诊断性和心理意象, 进而促进消费者对在线短租平台的未来参与意愿。产品涉入度在任务相关线索与心理意象的关系中具有显著的正向调节作用。【局限】模型中未考虑房源图片对消费者行为意愿的其他影响因素, 未来研究可采用图像识别的方法进一步分析。【结论】本文通过问卷调查, 验证了在线短租平台中房源图片的线索对消费者行为意愿的影响和产品涉入度的调节作用。

  • 胡晓雪
    数据分析与知识发现. 2017, 1(12): 21-31. https://doi.org/10.11925/infotech.2096-3467.2017.0588
    摘要 ( ) PDF全文 ( ) HTML ( )   可视化   收藏

    目的】针对多时段动态客户细分问题, 提出一种面向契约型客户的类结构变动自适应进化聚类框架。【方法】通过构建一个动态更新相似矩阵和聚类参数的聚类环, 实现对客户细分结果的跟踪。在每个聚类时段, 首先, 以前一相邻时段的聚类结果为基础, 依据客户契约的失效信息制定类消亡的判定准则; 其次, 计算原客户在该时段的估计相似矩阵, 根据新客户数据判断类结构的变动情况并制定创建新类的准则; 最后, 在更新的相似矩阵和聚类参数上运行静态聚类算法得到该时段的聚类结果。【结果】采用某电力企业客户数据进行实验, 结果表明, 该框架在保证聚类质量的基础上通过取消聚类数目判定和聚类结果匹配两个环节, 能显著提高聚类效率。【局限】由于数据的可获得性, 尚未在其他领域或高维数据集上对算法效率进行验证。【结论】考虑类结构变动的自适应进化聚类框架不仅能有效追踪客户群的进化轨迹, 而且可以避免传统方法对聚类数目的重复判定和聚类结果的匹配问题, 适用于契约型客户的多时段动态细分。

  • 刘睿伦, 叶文豪, 高瑞卿, 唐梦嘉, 王东波
    数据分析与知识发现. 2017, 1(12): 32-40. https://doi.org/10.11925/infotech.2096-3467.2017.0817
    摘要 ( ) PDF全文 ( ) HTML ( )   可视化   收藏

    目的】对大数据工作岗位需求文本进行挖掘, 帮助大数据企业更精准地定位所需人才。【方法】抽取招聘网站上2017年第一季度关于“大数据”的工作岗位信息, 使用TF-IDF并结合Word2Vec和K-means实现基于语义的聚类, 并利用轮廓系数方法获取最佳聚类效果。【结果】利用抽取获得的实体对文本向量进行表达能够达到良好的聚类效果, 最终将岗位需求文本分为工作能力要求、学历要求以及工作经验要求三类。【局限】各网站信息发布的格式不统一, 数据清洗不够全面, 对聚类效果产生影响; 挖掘获取的招聘信息数据量不充足, 使Word2Vec模型训练集较小, 训练结果还有提升空间。【结论】根据聚类结果发现大数据岗位对学历要求不高、企业偏好有经验的但也不排除无经验的求职者、企业对职位素养要求要高于计算机技术要求等特点。

  • 贺婉莹, 杨建林
    数据分析与知识发现. 2017, 1(12): 41-48. https://doi.org/10.11925/infotech.2096-3467.2017.0625
    摘要 ( ) PDF全文 ( ) HTML ( )   可视化   收藏

    目的】通过引入随机游走模型, 解决有监督排序学习中训练数据的标记信息难以获取的问题。【方法】提出一种基于重启随机游走模型的排序学习方法, 通过游走模型完成训练数据的自动标注, 降低排序学习对标记数据的依赖性, 并在OHSUMED数据集上进行实验。【结果】当已标注样本在数据集中占比50%时, 该方法能有效完成排序学习任务, 与标注样本占比100%的排序学习算法相比, 其排序效果明显优于RankNet算法, 略低于ListNet算法。【局限】本文方法要求对每个查询单独进行随机游走, 这对实际应用中多样查询下的文档标注工作来说仍然需要花费较多精力来完成。【结论】本文方法有很好的排序学习效果, 能有效解决排序学习中训练数据的标注难题。

  • 闫晶, 毕强, 李洁, 王福
    数据分析与知识发现. 2017, 1(12): 49-62. https://doi.org/10.11925/infotech.2096-3467.2017.0786
    摘要 ( ) PDF全文 ( ) HTML ( )   可视化   收藏

    目的】针对图书馆数字资源聚合质量评价要求, 基于遗传算法对BP神经网络进行改进, 进而构建更为优化的图书馆数字资源聚合质量预测模型。【方法】利用遗传算法计算简单、对待求解问题依赖小、并发线程计算速度快等优点, 通过广义海明距离定义种群提高种群多样性, 进行种群选择、交叉、变异操作, 求解初始权重和阈值; 将改进的遗传算法引入BP神经网络, 通过权重和阈值的不断调整, 快速收敛至适应度设定值, 最终实现预测结果的进一步优化。【结果】采用MATLAB R2014a平台进行仿真实验, 预测结果平均误差2.74E-04, 同实际数据误差小, 模型精度较高。程序运行总时长18.56秒, 且三步就收敛到误差目标, 模型收敛速度快, 相较单一的遗传算法和BP算法具有更高的预测精度和效率。【局限】样本数据质量有待提高; 实验中未采用Train的其他快速训练函数进行训练时间和预测精度对比; 种群数量因计算复杂性而受限。【结论】模型能够对图书馆数字资源聚合质量做出高效、客观预测, 应用前景和延展性较好, 能有效运用于图书馆数字资源聚合质量评价结果检验、大样本评价以及大样本预测领域。

  • 翟东升, 胡等金, 张杰, 何喜军, 刘鹤
    数据分析与知识发现. 2017, 1(12): 63-73. https://doi.org/10.11925/infotech.2096-3467.2017.0820
    摘要 ( ) PDF全文 ( ) HTML ( )   可视化   收藏

    目的】针对如何确定专利发明等级, 提出一种基于机器学习分类算法的专利发明等级分类模型。【方法】从专利文本中提取技术特征词, 利用Word2Vec训练的词向量模型构建专利技术特征向量, 计算专利文本指标和后向引用指标, 构造模型训练数据集, 采用机器学习分类算法构建分类模型。【结果】获取语音识别技术领域相关专利, 对领域专利数据分类, 高等级与低等级发明专利占比约为1︰4, 符合实际情况, 证明了该模型可行性。【局限】由于使用了WordNet 词典, 对于技术特征词汇的抽取会受到词典收录局限的影响。【结论】该模型可以对专利进行发明等级分类, 从而为企业推荐高发明等级的专利。

  • 张艳丰, 李贺, 彭丽徽, 侯力铁
    数据分析与知识发现. 2017, 1(12): 74-83. https://doi.org/10.11925/infotech.2096-3467.2017.0866
    摘要 ( ) PDF全文 ( ) HTML ( )   可视化   收藏

    目的】针对中文网络平台在线评论, 提出一种用于过滤用户评论的有用性排序和分类模型, 辅助消费者做出购买决策。【方法】从在线评论情感语义的形式特征和内容特征两个方面, 提取影响在线评论有用性的6个指标属性进行量化计算, 采用灰色加权关联度分析方法构建在线评论有用性评价体系, 通过K-means聚类方法, 构建过滤用户在线评论的有用性分类模型。【结果】以亚马逊电子商务平台的手机在线评论为例, 通过计算召回率、准确率与F值, 验证了本文在线评论有用性分类算法的有效性。实验结果表明本方法能够有效辨别在线评论有用性, 尤其对极性评论具有很好的分类效果。【局限】样本、指标和电商平台的选择存在可扩展性。【结论】本方法具有较高的准确性和可靠性, 能够较好地对在线评论有用性进行排序和分类。

  • 罗彦福, 钱晓东
    数据分析与知识发现. 2017, 1(12): 84-91. https://doi.org/10.11925/infotech.2096-3467.2017.0724
    摘要 ( ) PDF全文 ( ) HTML ( )   可视化   收藏

    目的】为解决由经典聚类算法改进而来的不确定数据聚类算法往往存在原有算法本身的缺点问题, 提出一种新的不确定数据聚类方法。【方法】改进不确定距离的度量方法, 确保两个不确定对象在以一定概率存在的前提下, 再进行二者概率差异的比较; 确定聚类中心后, 依据局部密度定义最大支持点、密度链域等概念, 据此提出一种将数据对象归入相应聚类中心所在簇的新算法。【结果】利用UCI机器学习库中的数据集验证本文聚类算法, 实验结果表明, F值较传统不确定数据聚类算法(UK-Means和FDBSCAN)在两组数据集上分别最高提升13.23%和23.44%, 算法主要在计算距离矩阵的过程中用时较多, 整体聚类时间相较于传统算法略有优势, 但不明显。【局限】本文唯一需要设定的参数的选取尚无准确的指导方法; 未采用并行计算, 使得算法时间复杂度较高。【结论】若直接以数据集的距离矩阵作为输入, 本文算法能快速确定聚类中心并完成聚类, 而且具有良好的聚类准确率; 唯一的参数t值对聚类结果影响较大。

  • 江思伟, 谢振平, 陈梅婕, 蔡明
    数据分析与知识发现. 2017, 1(12): 92-100. https://doi.org/10.11925/infotech.2096-3467.2017.0955
    摘要 ( ) PDF全文 ( ) HTML ( )   可视化   收藏

    目的】解决混合含有连续数值与标签特征量数据集的规则挖掘问题。【方法】提出数据集中特征维度间的互解释表示方法——自解释归约模型, 模型通过最大化新设计的自解释归约目标实现对连续数值数据的自适应划分建模。【结果】针对标准数据集、模拟规则挖掘问题、以及实际问题的实验分析表明, 本文方法具有显见的可行性及可用性, 是对现有数据建模与关联规则挖掘方法的有效扩展。【局限】计算效率一般, 还不能适应较大规模数据集的高速处理要求。【结论】技术方法上弥补了现有相关方法在解决混合特征数据建模问题时的局限性, 通过理论与实验分析证明新方法具有较强的创新性及实用性。