期刊首页 当期目录

2019年, 第3卷, 第9期 
刊出日期:2019-09-25
  

  • 全选
    |
    综述评介
  • 吴佳芬,马费成
    数据分析与知识发现. 2019, 3(9): 1-15. https://doi.org/10.11925/infotech.2096-3467.2018.0959
    摘要 ( ) PDF全文 ( ) HTML ( )   可视化   收藏

    【目的】对产品虚假评论文本识别方法研究现状进行述评。【文献范围】以“Review Spam”、“虚假评论”等为主题词在WoS、CNKI、EI等8个数据库中进行文献检索, 经过文献主题筛选、质量评估和参考文献追溯等步骤获得代表性文献90篇。【方法】采用系统性文献综述过程对虚假评论文本识别方法研究的关键内容进行提取、归纳和分类, 总结并对比分析各类虚假特征的表征力和识别方法性能。【结果】虚假特征设计和识别方法设计是虚假评论文本识别的关键步骤, 大规模标注评论数据的获取是当前研究的难点。【局限】仅以虚假评论文本识别方法作为探讨核心, 未探讨虚假评论者及虚假评论者群体识别方法。【结论】分析并指出现有研究在数据集获取、虚假特征设计和识别方法设计三个方面存在的问题, 并对虚假评论文本识别未来研究提出建议。

  • 凌洪飞,欧石燕
    数据分析与知识发现. 2019, 3(9): 16-26. https://doi.org/10.11925/infotech.2096-3467.2018.1127
    摘要 ( ) PDF全文 ( ) HTML ( )   可视化   收藏

    【目的】对面向主题模型的主题自动语义标注方法进行总结与评述, 以促进主题模型的发展与应用。 【文献范围】在Web of Science和CNKI 数据库中分别以“Topic Labeling OR Topic Labelling OR Topic Tagging OR Topic Indexing”和“主题模型 AND (标注 OR 标签)”等检索式进行检索, 通过手工筛选获得代表性文献 57篇。【方法】对相关论文进行深入阅读与分析, 以主题标注过程中主题标签的生成来源为线索, 对已有方法进行分 类与比较分析。【结果】面向主题模型的主题自动语义标注包括候选标签生成与排序两个主要步骤, 根据候选标签的生成来源可分为依靠自身语料库和依靠外部语料库两类方法。【局限】目前该领域的研究还不是很丰富, 分析与评述不够系统和全面。【结论】该领域的研究仍具有较大探索空间, 面向社交媒体内容的主题语义标注是未来研究方向, 可结合更丰富的知识库并采用深度学习技术进行改进提升。

  • 研究论文
  • 赵华茗,余丽,周强
    数据分析与知识发现. 2019, 3(9): 27-35. https://doi.org/10.11925/infotech.2096-3467.2018.1259
    摘要 ( ) PDF全文 ( ) HTML ( )   可视化   收藏

    【目的】探索最佳文本聚类数目的优化方法, 为提升文本聚类算法的有效性和质量提供参考。【方法】结合TF-IDF和Word2Vec算法, 提取Top N关键词向量作为语料库文本特征表达; 结合均值漂移算法、聚类有效性指标(Silhouette)和均方误差(MSE)指标, 确定最佳文本聚类数目。【结果】Top 4 500关键词向量规模能较好呈现文本特征; 基于均值漂移算法确定的最佳文本聚类数与人工研判优化的聚类数相符。【局限】选取的实验数据集合不够充足, 缺少在其他领域的应用对比。【结论】本文方法可以在无监督方式下高质量完成文本聚类个数的确定。

  • 刘菲,成晓强,吴华意
    数据分析与知识发现. 2019, 3(9): 36-44. https://doi.org/10.11925/infotech.2096-3467.2018.1473
    摘要 ( ) PDF全文 ( ) HTML ( )   可视化   收藏

    【目的】解决OpenStreetMap (OSM)数据完整性评价中参考数据集难获取、更新慢等问题。【方法】引入夜光遥感影像作为新的参考数据集, 以综合竞争力较强的城市作为样本, 研究夜间灯光亮度与OSM数据完整性之间的相关关系, 探究中国OSM数据的质量分布规律。【结果】建立OSM建筑物密度和夜间灯光亮度的回归模型, 相关系数为0.8522。中国约84.2%的城市OSM建筑物密度实际值与预测值相近, 差异小于0.5%; 东莞、厦门 等城市的实际值偏低, 差异百分比分布在2%~7%范围内, 数据完整性差。【局限】该模型的可扩展性有待提升。【结论】两个数据集的融合实现了低成本、大规模、多尺度的OSM数据完整性评估, 反映了中国部分“空城”、“鬼城”的分布。

  • 聂维民,陈永洲,马静
    数据分析与知识发现. 2019, 3(9): 45-52. https://doi.org/10.11925/infotech.2096-3467.2018.1161
    摘要 ( ) PDF全文 ( ) HTML ( )   可视化   收藏

    【目的】更加全面地提取文本语义特征, 提高文本向量对文本语义的表示能力。【方法】通过卷积神经网络提取词粒度、主题粒度和字粒度文本特征向量, 通过“融合门”机制将三种特征向量融合得到最终的文本向量, 并进行文本分类实验。【结果】该模型在搜狗语料库文本分类实验上的准确率为92.56%, 查准率为92.33%, 查全率为92.07%, F1值为92.20%, 较基准模型Text-CNN分别提高2.40%, 2.05%, 1.77%, 1.91%。【局限】词序关系范围较小, 语料库规模较小。【结论】该模型可以更加全面地提取文本语义特征, 得到的文本向量对文本语义表示能力更强。

  • 俞琰,陈磊,姜金德,赵乃瑄
    数据分析与知识发现. 2019, 3(9): 53-59. https://doi.org/10.11925/infotech.2096-3467.2018.1317
    摘要 ( ) PDF全文 ( ) HTML ( )   可视化   收藏

    【目的】针对传统专利相似度测量忽略词语语义关系的问题, 提出一种新的专利相似度测量方法, 以提高专利相似度测量的准确度。【方法】引入基于神经网络的词向量模型, 获得专利文本中词的语义信息; 计算词统计特征信息, 度量不同词在专利文本中的重要程度; 最后结合词向量和统计特征, 形成专利文本表示, 测量专利相似度。【结果】本文所提结合词向量和统计特征的专利相似度测量方法比传统的空间向量方法表示专利文本相似度方法准确率提高了13.92%。【局限】辅助专利文本集的选取策略有待进一步研究。【结论】使用空间向量方法表示专利文本结合词向量和统计特征能够显著提高专利相似度测量的准确度。

  • 邵云飞,刘东苏
    数据分析与知识发现. 2019, 3(9): 60-67. https://doi.org/10.11925/infotech.2096-3467.2018.1423
    摘要 ( ) PDF全文 ( ) HTML ( )   可视化   收藏

    【目的】针对短文本分类中的内容稀疏问题, 提出一种基于类别特征扩展的短文本分类方法。【方法】使用改进后的TF-IDF模型以及LDA主题模型构建基于类别特征的关键词集与主题分布集, 完成对短文本内容及词汇向量表征上的扩充, 并在此基础上通过卷积神经网络对短文本分类。【结果】实验结果表明, 基于类别特征扩展后的短文本在分类的准确率上提升3%, 在召回率上提升4.1%。【局限】仅使用卷积神经网络进行验证。【结论】基于类别特征扩展的短文本分类方法能够克服短文本分类中的内容稀疏问题, 提高短文本分类的性能。

  • 秦贺然,刘浏,李斌,王东波
    数据分析与知识发现. 2019, 3(9): 68-76. https://doi.org/10.11925/infotech.2096-3467.2019.0135
    摘要 ( ) PDF全文 ( ) HTML ( )   可视化   收藏

    【目的】在传统统计特征词算法的基础上, 添加实体特征对10本古代典籍进行分类研究。【方法】基于支持向量机模型, 分别采用传统的TF-IDF、信息增益、卡方检验、互信息4种统计量计算特征词, 再加入命名实体这一特征, 验证分类器的分类效果。【结果】加入实体特征之后分类器的最高精度达98.7%。在传统的信息增益、TF-IDF、互信息和卡方检验特征计算下的分类精度分别提高12.4%、12.4%、12.3%、22.8%。【局限】将实体特征迁移到其他文本有一定的局限性, 需要重新标注识别实体。【结论】实体可以作为一类特征应用到文本分类模型中, 具有实际的应用推广价值。

  • 黄名选,卢守东,徐辉
    数据分析与知识发现. 2019, 3(9): 77-87. https://doi.org/10.11925/infotech.2096-3467.2019.0301
    摘要 ( ) PDF全文 ( ) HTML ( )   可视化   收藏

    【目的】针对自然语言处理中查询主题漂移和词不匹配问题, 提出一种基于加权关联模式挖掘和规则后件扩展的跨语言信息检索模型及其算法。【方法】该模型采用新的加权关联模式支持度和基于最大项目权值的项集剪枝策略挖掘频繁项集, 利用置信度和相关度评价加权关联规则, 根据扩展模型从规则中提取优质扩展词实现规则后件扩展, 扩展词与原查询词项组合为新查询再次检索文档得到最终检索结果。【结果】实验结果表明, 与单语言检索基准比较, 本文检索模型的R-prec和P@10平均增幅分别为42.49%和25.53%; 与跨语言检索基准比较, 其平均增幅分别为91.87%和64.61%; 与现有基于加权关联规则挖掘的跨语言检索方法比较, R-prec和P@10最高平均增幅分别可达93.20%和34.60%。【局限】只进行实验性研究, 需要探讨在实际跨语言搜索引擎中的具体应用。【结论】本文检索模型能有效地减少查询主题漂移和词不匹配问题, 改善和提高检索性能。

  • 王若佳,张璐,王继民
    数据分析与知识发现. 2019, 3(9): 88-97. https://doi.org/10.11925/infotech.2096-3467.2019.0147
    摘要 ( ) PDF全文 ( ) HTML ( )   可视化   收藏

    【目的】比较不同机器学习算法在智能分诊任务中的准确率, 针对性地分析在线问诊平台的类目设置问题, 尝试从数据中提取新特征提升分类器效果。【方法】基于“春雨医生”13个科室33 073条实际问诊数据, 比较两种文本向量化方式在支持向量机、多项式贝叶斯、Logistic回归、随机森林、k近邻以及集成分类模型这6种分类器上实现智能分诊的准确率; 通过高频词分析及词语共现对不同科室的错分数据进一步分析。【结果】文本向量化方法为TF-IDF、分类算法为支持向量机的分类器在智能分诊中的总体效果最优, 增加年龄和性别特征后分类准确率可达76.3%。该分类器对外科数据分诊准确率仅为40.9%, 原因在于问诊平台类目设置的混淆。【局限】假设现有数据中患者选择的科室是正确的。【结论】机器学习可用于在线问诊平台的智能分诊任务, 根据医疗数据特点增加输入特征是分类器提高准确率的一个方向。部分疾病及症状的跨科室性影响了分类器的效果, 在线问诊平台可通过推荐多个科室的方式来提升患者问诊体验。

  • 岑咏华,谭志浩,吴承尧
    数据分析与知识发现. 2019, 3(9): 98-114. https://doi.org/10.11925/infotech.2096-3467.2018.1223
    摘要 ( ) PDF全文 ( ) HTML ( )   可视化   收藏

    【目的】考察媒介信息所蕴含的情感信号对于股票市场的影响效应。【方法】利用LSTM深度神经网络方法对主流财经网站的新闻、股吧、博客文本的情感信息进行识别和提取, 构建自回归分布滞后模型和面板回归模型, 从宏观市场以及微观股票资产两个层面实证揭示财经媒介信息所蕴含的情感对股票市场表现的关联影响。【结果】(1) 媒介信息情感的倾向性变化在短期内导致价格的显著同向变化, 同时受投资者追涨杀跌驱动, 市场成交量显著提升。更长时间上, 市场对于媒介信息情感的过度反应将反转, 价格回归。(2) 媒介信息情感波动和分歧程度与价格负相关, 与成交量呈现非线性的U形关系。(3) 投资者对于积极情感的反应更及时更强烈, 理性调整更缓慢, 而对于消极情感呈现出显著的处置效应。(4) 相较于单一的利好或利空情绪, 投资者对于市场意见高分歧、利空与利好同在的反应更强烈, 股价在投资者过度交易中持续下落。【局限】针对有着不同语法和语义表达特征的不同媒介信息类型, 未选择不同的模型和参数进行词向量编码, 情感分析的准确度可能受到影响。【结论】本研究可为媒介信息效应以及投资者情绪影响相关研究提供新的视角和洞见, 对金融监管具有理论、方法和实践指导意义。

  • 李博诚,张云秋,杨铠西
    数据分析与知识发现. 2019, 3(9): 115-123. https://doi.org/10.11925/infotech.2096-3467.2018.1429
    摘要 ( ) PDF全文 ( ) HTML ( )   可视化   收藏

    【目的】提出新的情感标签抽取方法, 以提高微博商品评论的特征级情感标签抽取效果。【方法】基于依存句法分析并结合制定的抽取规则进行评价单元划分和显式标签抽取, 通过NodeRank算法揭示评论中的隐式表达关系, 进而抽取隐式标签, 提高情感标签抽取的正确率。【结果】通过真实的网络评论数据集进行模拟和对比实验, 本文方法的总体准确率、召回率、F值达到83.6%、87.1%和85.3%, 优于已有的抽取方法。【局限】在隐式标签的抽取中未能充分考虑用户较为通用的情感表达。【结论】本文所提基于依存句法分析和NodeRank算法的方法可以有效地对情感标签进行抽取。

  • 黄漫宇,云琪,彭虎锋,窦雪萌
    数据分析与知识发现. 2019, 3(9): 124-134. https://doi.org/10.11925/infotech.2096-3467.2018.1332
    摘要 ( ) PDF全文 ( ) HTML ( )   可视化   收藏

    【目的】揭示超额募资的农产品众筹项目的文本特征以及典型主题的时间演化规律。【方法】运用TOT主题分析模型, 从众筹网提取2013年9月-2018年4月获得超额募资的1 137项农产品众筹项目的推介文本, 得到各个主题下各词项的概率分布, 并对各个主题的时间演变趋势进行分析。【结果】超额募资的农产品众筹项目集中于茶、酒和蜂蜜等品类, 在文本特征方面聚焦于消费者价值、农产品属性与社会效应, 2014年-2017年关于消费者价值与农产品属性的主题强度呈U型分布。【局限】农产品众筹领域可以获取的高质量数据有限。【结论】众筹发起方在撰写推介文本时应当强调农产品的高品质和参与的独特体验以提升文本吸引力, 从而获得更多资金支持。