期刊首页 当期目录

2019年, 第3卷, 第2期 
刊出日期:2019-02-25
  

  • 全选
    |
    研究论文
  • 薛翔,赵宇翔
    数据分析与知识发现. 2019, 3(2): 1-12. https://doi.org/10.11925/infotech.2096-3467.2018.0747
    摘要 ( ) PDF全文 ( ) HTML ( )   可视化   收藏

    【目的】从用户体验角度探索音乐平台中的音乐分类体系, 为音乐平台中音乐分类体系的优化和相应检索模式的设计提出建议。【方法】借鉴心理学领域的心智模型理论, 以网易云音乐为实验平台对高校学生群体开展两轮实验, 探究用户在实际音乐信息交互行为中关于音乐分类体系的心智模型静态结构。【结果】对实验结果进行聚类分析后, 得到多层次型、单层次型和混合型三种用户心智模型。【局限】由于样本数量的限制和被试年龄层次较为集中, 因此在全体音乐用户的代表性方面仍有欠缺。此外, 尚未考虑不同地域及文化水平对用户心智模型的影响。【结论】本文总结的三种用户心智模型能够为音乐平台检索模式的优化和交互体验的提升提供理论依据及行动参考。

  • 席林娜,窦永香
    数据分析与知识发现. 2019, 3(2): 13-20. https://doi.org/10.11925/infotech.2096-3467.2018.0424
    摘要 ( ) PDF全文 ( ) HTML ( )   可视化   收藏

    【目的】探究微博用户转发行为的影响因素。【方法】基于计划行为理论, 考虑微博所传达情感及微博平台的时间线机制对于用户转发行为的影响, 提出研究假设并对其进行验证。【结果】用户情感与微博情感相似度、粉丝量均对微博用户转发行为具有显著影响, 微博时间线机制对于用户转发行为几乎没有影响。【局限】对于用 户的登录时间采用统一时间节点。【结论】本研究结果对于网络舆情控制、个性化推荐、微博广告营销具有借鉴意义。

  • 叶佳鑫,熊回香
    数据分析与知识发现. 2019, 3(2): 21-32. https://doi.org/10.11925/infotech.2096-3467.2018.0497
    摘要 ( ) PDF全文 ( ) HTML ( )   可视化   收藏

    【目的】利用标签间的关系实现跨领域资源推荐。【方法】构建跨领域资源推荐模型, 分析标签特性并选择可用于跨领域推荐的标签。以DBSCAN算法结合标签向量实现初步的基于资源类型的跨领域资源推荐, 将TF-IDF算法与个性化标签相结合改进初步结果, 实现个性化更强的二次推荐。【结果】基于资源推荐的召回率、准确率、F值分别为0.82、0.75、0.78, 基于用户标签推荐的召回率、准确率、F值分别为0.80、0.74、0.77, 基于资源与用户推荐的结果与用户兴趣具有强关联性。【局限】用于初次推荐的标签数量较少, 难以全面反映资源特征。用于二次推荐的标签需根据用户进行选择, 采集较为困难。【结论】当不同领域中的标签具有一定关联性时, 可以通过标签实现跨领域的资源推荐。

  • 汪鸿沁泠,巴志超,李纲
    数据分析与知识发现. 2019, 3(2): 33-42. https://doi.org/10.11925/infotech.2096-3467.2018.0552
    摘要 ( ) PDF全文 ( ) HTML ( )   可视化   收藏

    【目的】通过探究实际微信群内部的话题结构及演化特征, 对微信用户交互行为特点及信息传播规律进行探讨。【方法】以三个典型性微信群对话样本作为研究对象, 引入语言学中的会话分析理论, 分析微信群会话语言现象及特点, 设计基于成员活跃度、交流强度及话轮密度的话题强度计算模型, 并进一步探究不同类型的微信群中会话的话题结构特征及演化规律。【结果】微信群会话与日常会话的语言现象具有同一性及差异性, 将话轮纳入话题强度计算模型较消息条数有明显优势, 不同类型的微信群享有各自的话题演化规律。【局限】微信群类型丰富性可以进一步增加。【结论】本研究有利于把握话题在微信群中的发展规律, 对网络舆情监控及灾害防治有重要意义。

  • 赵明清,武圣强
    数据分析与知识发现. 2019, 3(2): 43-51. https://doi.org/10.11925/infotech.2096-3467.2018.0546
    摘要 ( ) PDF全文 ( ) HTML ( )   可视化   收藏

    【目的】构建基于微博情感分析的股市加权预测模型。【方法】结合百度指数, 利用时差相关系数和随机森林选取微博搜索初始关键词, 通过爬虫技术获取微博文本, 利用文本挖掘技术对微博文本作分词处理, 判断分词后的微博情感倾向, 分析影响微博影响力的相关因素, 以信息增益确定微博权重。【结果】微博情感综合倾向与股票价格变化情形几乎一致且预测准确率较高。【局限】词汇频数调整函数有待优化; 选取特征时未考虑各特征之间的关系。【结论】实证结果表明所建模型具有良好的预测效果。

  • 张杰,赵君博,翟东升,孙宁宁
    数据分析与知识发现. 2019, 3(2): 52-64. https://doi.org/10.11925/infotech.2096-3467.2017.1319
    摘要 ( ) PDF全文 ( ) HTML ( )   可视化   收藏

    【目的】基于主题模型挖掘微藻生物燃料产业链技术及技术继承关系。【方法】构建产业链模型, 基于改进的LDA方法实现产业链环节-技术主题-专利映射; 统计研发主体, 分析技术发展趋势; 构建基于语义相似度的专利加权引文网络, 绘制产业链专利发展地图。【结果】在算法方面, 基于短语抽取规则的LDA方法能够实现更精确的技术主题识别; 在分析结果方面, 得出微藻生物燃料产业链技术发展趋势, 揭示产业链环节技术继承关系。【局限】主要针对微藻生物燃料产业链进行研究, 建模方法若推广应用于其他产业, 需要具有一定的目标产业背景知识。【结论】有效识别了微藻生物燃料产业链重点及热点环节, 该产业链技术创新需多环节协同。

  • 梅妍霜,朱恒民,魏静
    数据分析与知识发现. 2019, 3(2): 65-71. https://doi.org/10.11925/infotech.2096-3467.2018.0613
    摘要 ( ) PDF全文 ( ) HTML ( )   可视化   收藏

    【目的】研究媒体协同在话题传播中的作用机制, 及其在引导和控制舆情话题传播方面的应用。【方法】采用模拟仿真方法, 构建媒体协同作用下的舆情话题传播模型, 分析发挥协同作用的媒体, 及其作用时间点和作用时长对舆情话题传播的影响机制。【结果】仿真结果表明, 相对于单个媒体, 多个媒体构建的协作网络对话题传播有更强的促进作用, 并且受媒体介入时间和媒体作用时长影响。【局限】仿真实验中, 网民传播舆情的载体网络虽是现实网络, 但是媒体协作网络和话题传播数据均来自于模拟仿真。【结论】媒体之间的协作关系是话题传播中媒体的重要表现形式, 合理利用其协同作用有利于科学、高效地控制和引导舆情话题的传播。

  • 谭章禄,王兆刚,胡翰
    数据分析与知识发现. 2019, 3(2): 72-78. https://doi.org/10.11925/infotech.2096-3467.2018.0509
    摘要 ( ) PDF全文 ( ) HTML ( )   可视化   收藏

    【目的】针对传统χ2统计无法保证各类别之间信息的均衡性从而影响分类效果的问题, 改进χ2统计以提高其应用效果。【方法】通过分析传统χ2统计的特征选择过程及其局限, 提出一种基于χ2统计的特征分类选择方法, 根据特征词与每一类的关联度分类别选取特征词。【结果】以SVM为分类模型, 通过实验对比改进前后的方法对文本分类效果的影响, 结果表明基于χ2统计的特征分类选择方法在准确率、平均分类准确率、最低分类准确率、稳定性和系统运行时间等方面得到显著改善。【局限】特征词选取数量较少时, 改进前后差异不明显。【结论】基于χ2统计的特征分类选择方法, 有效改善了分类模型的稳定性与泛化性能, 使分类准确率的波动幅度减小, 分类过程的效率显著提高。

  • 桂思思,张晓娟,王鑫
    数据分析与知识发现. 2019, 3(2): 79-89. https://doi.org/10.11925/infotech.2096-3467.2018.0449
    摘要 ( ) PDF全文 ( ) HTML ( )   可视化   收藏

    【目的】针对查询歧义性程度的标注问题, 通过分析自动标注指标间的相关性及自动标注指标与人工标注指标的一致性, 以期获得在一定程度上能替代其他自动标注指标和人工标注的自动标注指标。【方法】分别选取基于文档、用户以及查询词项特征的自动标注指标, 依据查询词项对应类目的频率改进一种基于查询词项特征的自动标注指标; 利用皮尔逊相关系数与对称AP相关系数分析自动标注结果之间的相关性, 利用宏平均F1与宏平均准确率分析自动标注指标与人工标注结果的一致性。【结果】自动标注指标之间相关性较弱; 本文改进的自动标注指标与人工标注指标之间一致性最高: 宏平均F1值与宏平均准确率分别为0.623与0.707。【局限】限于目录型网站的查询词项覆盖率, 部分自动标注指标无法用于所有歧义性查询, 导致用于检验替代性的歧义查询数量较少。【结论】自动标注指标之间的替代性较弱; 查询词项对应类目的频率能提高基于查询词项特征的自动标注指标间一致性; 与已有自动标注指标相比, 本文改进的自动标注指标与人工标注结果一致性最高, 在一定程度上可替代人工标注。

  • 朱笑笑,杨尊琦,刘婧
    数据分析与知识发现. 2019, 3(2): 90-97. https://doi.org/10.11925/infotech.2096-3467.2018.0617
    摘要 ( ) PDF全文 ( ) HTML ( )   可视化   收藏

    【目的】提出处理社会媒体上不规范文本的方法, 以提高社会媒体中药品不良反应抽取效果。【方法】基于TensorFlow深度学习框架, 将LSTM和CRF结合, 借助LSTM能利用上下文信息的特性, 通过CRF层考虑输出标记的依赖关系, 构建基于Bi-LSTM和CRF的药品不良反应抽取模型。【结果】在Twitter数据集上开展系列实验, 结果表明与传统CRF、前向LSTM、后向LSTM和Bi-LSTM相比, Bi-LSTM-CRF可以取得最高的F-measure值(0.7963)。【局限】实验数据源相对单一, 未来可以在多个数据源上验证Bi-LSTM-CRF方法的有效性。【结论】结合LSTM和CRF能够有效处理社会媒体上不规范文本, 所构建的模型可较好识别不良反应实体, 辅助相关部门进行决策。

  • 蒋翠清,郭轶博,刘尧
    数据分析与知识发现. 2019, 3(2): 98-107. https://doi.org/10.11925/infotech.2096-3467.2018.0578
    摘要 ( ) PDF全文 ( ) HTML ( )   可视化   收藏

    【目的】从社交媒体用户生成内容中发现未知情感词, 构造领域情感词典, 应用于汽车评论的情感分析。【方法】选取HowNet情感词典作为种子, 以实际汽车评论作为语料, 分别利用PMI和Word2Vec算法识别新词情感极性, 根据集成规则对二者识别结果综合判定, 通过情感分类实验对比显示本文算法的有效性。【结果】按照该方法构造的情感词典准确率比HowNet情感词典提高21.6%, 较分别使用PMI和Word2Vec算法构建的词典分别提升3.7%和2.1%, 同时正面、负面情感词数量均有大幅增加。【局限】语料来源单一, 应用于其他领域具有一定局限性。【结论】该方法构造的情感词典可有效应用于社交媒体文本情感分析。

  • 吴菊华,王煜,黎明,蔡少云
    数据分析与知识发现. 2019, 3(2): 108-117. https://doi.org/10.11925/infotech.2096-3467.2018.0619
    摘要 ( ) PDF全文 ( ) HTML ( )   可视化   收藏

    【目的】通过信息抽取和热点主题分析, 整合在线健康社区用户交流的碎片化潜在知识, 分析用户核心需求。【方法】基于具有词频和关注度两类节点属性的加权知识网络模型, 利用八爪鱼采集器获取“39健康网”乙肝论坛的帖子数据, 采用ICTCLAS 2013、BibExcel和Ucinet三款软件进行分词、词频统计、筛选、绘图和分析。【结果】构建用户知识网络以及用户知识交流、关注和核心热点子网络, 研究结果表明同时考虑词频和关注度更有助于发现核心热点话题以及分析其关联性。【局限】未考虑不同类型的在线健康社区、用户帖子回复内容和不同时间段的主题变化。【结论】本研究克服了知识点零散不易理解的问题, 有利于挖掘用户信息需求, 辅助网站建设者和医生进行知识管理与诊疗判断。

  • 李健,王明月,许路明,田英春
    数据分析与知识发现. 2019, 3(2): 118-126. https://doi.org/10.11925/infotech.2096-3467.2018.0488
    摘要 ( ) PDF全文 ( ) HTML ( )   可视化   收藏

    【目的】以用户感知价值视角, 构建一套集“用户、信息技术、医院服务人员”于一体的交互影响式医疗信息服务评价体系。【方法】提出基于主成分分析法统计指标成分占比和实现指标筛选, 灰色聚类方法确定指标关联矩阵和临界值且实现指标优化, 组合方法的搭建可测评医疗信息服务评价体系质量。【结果】评价指标体系共有9类58项指标为, 且服务价值维度权重比例最大为0.2059, 风险成本维度权重比例最小为0.0405。【局限】量表问卷数据样本范围较小, 指标分值由少数专家打分确定, 具有一定程度上的主观性。【结论】贯穿“用户、信息技术、医护人员”三元一体的评价体系能够在理论上为医院医疗信息服务建设、规划与管理提供决策依据, 在实践应用上提高医院医疗信息服务的水平和用户的体验满意度。