期刊首页 当期目录

2020年, 第4卷, 第12期 
刊出日期:2020-12-25
  

  • 全选
    |
    专题
  • 钱庆
    数据分析与知识发现. 2020, 4(12): 1-1.
    摘要 ( ) PDF全文 ( ) HTML ( )   可视化   收藏
  • 吴思竹, 钱庆, 周伟, 钟明, 王安然, 修晓蕾, 苟欢, 李赞梅, 李姣, 方安
    数据分析与知识发现. 2020, 4(12): 2-13. https://doi.org/10.11925/infotech.2096-3467.2020.0954
    摘要 ( ) PDF全文 ( ) HTML ( )   可视化   收藏

    【目的】 为国家财政支持的人口健康领域科研项目数据汇交和管理提供重要基础支撑,重点介绍国家人口健康科学数据中心数据仓储 (Population Health Data Archive,PHDA)在科研项目数据汇交方面的功能设计和实施方法。【方法】 分析人口健康领域科研项目数据汇交流程特点,构建满足国家财政预算支持的科研项目数据汇交和管理迫切需求的数据仓储,设计形成灵活、可扩展的总体框架和友好易用的功能模块。【结果】 PHDA实现项目信息注册、项目数据汇交、大数据高速传输、安全保藏、数据唯一标识分配、分级分类存储、访问控制和凭证发放等功能,已有效支撑国家科技基础性工作专项14个项目,292个数据集的汇交工作。【局限】 还需运用数据语义化和深度学习等技术实现增强数据管理、数据语义融合和智能化数据分析服务,优化仓储功能。【结论】 PHDA实现人口健康领域科研项目数据汇交管理与共享利用,对国家人口健康领域科学数据的汇聚、积累和安全保障具有重要意义。

  • 陈先来, 罗霄, 刘莉, 李忠民, 安莹
    数据分析与知识发现. 2020, 4(12): 14-25. https://doi.org/10.11925/infotech.2096-3467.2020.0952
    摘要 ( ) PDF全文 ( ) HTML ( )   可视化   收藏

    【目的】 提高k-匿名算法的效率和发布数据的质量,减小数据由匿名化带来的信息损失。【方法】 基于识别率和多叉树森林,设计一种k-匿名算法(MFBRR),利用泛化树的性质对数据进行自底向上的遍历,计算出识别率,选择目标叶节点对树进行剪枝,以减少匿名化数据的信息损失。在此基础上,采用并行式计算和多线程处理,提出其改进算法MFBRR-γ,进一步提高了算法的效率。通过实验,使用层级准确率和运算时间对所提出的算法进行评价。【结果】 使用Adult数据进行测试,MFBRR的层级准确率为0.97,MFBRR-γγ=30)的层级准确率为0.88。数据集规模为30 000条,MFBRR耗时1 457 min,MFBRR-γ耗时12.08 min(γ=100)。应用于健康医疗数据,取得了良好效果,MFBRR的层级准确率达到0.93。【局限】 仅采用两种数据集进行研究,数据类型可能不全面。【结论】 MFBRR及其改进算法MFBRR-γ,可以实现数据的k-匿名要求,同时减少匿名化带来的信息损失,可以提高数据发布的质量。

  • 朱超宇, 刘雷
    数据分析与知识发现. 2020, 4(12): 26-32. https://doi.org/10.11925/infotech.2096-3467.2020.0953
    摘要 ( ) PDF全文 ( ) HTML ( )   可视化   收藏

    【目的】 对知识图谱推理在医学决策支持中的应用进行系统综述,为类似跨领域研究提供思路。【文献范围】 总计纳入参考文献39篇,其中知识图谱推理文献多来源于计算机会议,其他文献多以“知识图谱推理”和“医学决策支持”为关键字从Web of Science数据库筛选得到。【方法】 回顾医学决策支持发展历程,从传统医学到循证医学,再到计算机和医学知识图谱辅助的临床决策支持系统,其中医学知识图谱和知识图谱推理是实现以上发展转变的关键工具。【结果】 医学知识图谱与先进的知识图谱推理方法的结合可以极大地减轻临床医生的诊断压力,提高诊断效率,甚至减少误诊率。【局限】 以综述为主,没有对模型进行深入解析。【结论】 医学知识图谱就像是临床决策支持系统的大脑,而知识图谱推理则教会大脑如何运用这些知识。需要更为完整和准确的全科医学知识图谱,并不断改进知识图谱推理算法。

  • 杨林, 黄晓硕, 王嘉阳, 李姣
    数据分析与知识发现. 2020, 4(12): 33-44. https://doi.org/10.11925/infotech.2096-3467.2020.0951
    摘要 ( ) PDF全文 ( ) HTML ( )   可视化   收藏

    【目的】 面向真实世界数据驱动的临床研究需求,提出一种基于语义对齐的临床量表信息提取方法,辅助识别潜在受试人群。【方法】 选取卒中量表NIHSS,分析量表信息在临床试验和真实世界电子病历中的特征,构建基于语义对齐的量表信息提取方法,应用临床试验数据集(ClinicalTrials.gov)和开放电子病历数据集MIMIC-III开展实验验证。【结果】 从患者出院小结中抽取NIHSS总评分、检查项评分的F1值分别为0.953 5和0.926 7;围绕两项匹配NIHSS纳排标准的测试任务,可以有效地识别出潜在受试人群。【局限】 缺乏在其他量表上的可行性研究,以及在真实临床试验环境中的有效性和可靠性验证。【结论】 本方法可以有效地解决临床量表信息在临床研究与电子病历数据的语义一致性问题。

  • 张翼鹏,马敬东
    数据分析与知识发现. 2020, 4(12): 45-54. https://doi.org/10.11925/infotech.2096-3467.2020.0959
    摘要 ( ) PDF全文 ( ) HTML ( )   可视化   收藏

    【目的】 以新冠肺炎流行期间新浪微博数据为基础,通过文本挖掘的方式获取突发公共卫生事件中的误导信息,揭示误导信息的受众情感特征及其对信息传播的影响。【方法】 使用机器学习的方法对相关微博进行分类判别,使用LDA主题模型获取微博相应主题信息,使用词典法对微博相应的评论进行情感极性判别,使用t检验分别对受众情感不同的误导信息微博的评论数、转发数和点赞数进行比较。【结果】 样本数据中,误导信息占比为46.28%,误导信息和非误导信息相应微博的评论为负面情感的占比分别为59.32%和54.49%;误导信息中,评论为负面情感的微博的评论数、转发数和点赞数分别比评论为正面情感的微博平均多2.26、2.68和3.29次。【局限】 未对非误导信息的传播特征进行研究分析,不排除其与误导信息特征相似的可能;仅选取“新冠肺炎疫情”一个案例,未来需要对更多案例进行横向比较。【结论】 突发公共卫生事件中,网络社交媒体中存在相当比重的误导信息。相较于非误导信息,误导信息受众的负向情感比重高。在误导信息中,负面情感的信息相较正面情感的信息转发传播次数多,受众参与程度高。

  • 研究论文
  • 李贺,刘嘉宇,沈旺,刘锐,金帅岐
    数据分析与知识发现. 2020, 4(12): 55-67. https://doi.org/10.11925/infotech.2096-3467.2020.0175
    摘要 ( ) PDF全文 ( ) HTML ( )   可视化   收藏

    【目的】 构建在线健康社区模糊认知图模型,依据其推理机制实现由患者疾病病情进行情景驱动的在线健康社区疾病相关知识推荐。【方法】 从在线健康社区的用户评论中提取关键词作为模型概念节点;基于关键词共现相似度绝对值反映各概念节点间权重;通过文献调研和专家协作,确定模型节点间的语义关系,从而构建基于在线健康社区的模糊认知图;最后根据模糊认知图的分析预测功能,利用其推理过程中各个时刻各节点间状态值的数值变化幅度,进行相关疾病知识的推荐。【结果】 与标签关联关系推荐算法和基于超图随机游走标签扩充的微博推荐方法进行对比,结果表明:本文所提在线健康社区模糊认知图推荐模型的准确率、召回率和F值分别达到0.286、0.667和0.400。【局限】 实证分析中选取的用户评论数据规模有限,对模型推荐结果的精度可能有一定影响。【结论】 本研究为推动在线健康社区相关推荐机制的优化以及对用户依据具体病情进行精准知识搜索具有积极意义。

  • 刘浏,秦天允,王东波
    数据分析与知识发现. 2020, 4(12): 68-75. https://doi.org/10.11925/infotech.2096-3467.2020.0400
    摘要 ( ) PDF全文 ( ) HTML ( )   可视化   收藏

    【目的】 围绕实体识别任务实现以传统音乐为对象的非物质文化遗产术语抽取。【方法】 构建基于中国非物质文化遗产网的国家级非物质文化遗产代表性项目的术语标注语料库,并基于CRF模型、LSTM模型、LSTM-CRF模型、BERT模型构建实体识别框架。【结果】 通过性能对比得知,采用BERT模型进行术语抽取取得了最好的效果,平均F1值达91.77%。【局限】 仅对独有术语进行抽取,且训练集偏小。【结论】 基于BERT的实体识别模型能够较好地完成传统音乐术语的自动抽取任务,为非物质文化遗产相关研究提供可靠借鉴。

  • 王根生,潘方正
    数据分析与知识发现. 2020, 4(12): 76-84. https://doi.org/10.11925/infotech.2096-3467.2020.0327
    摘要 ( ) PDF全文 ( ) HTML ( )   可视化   收藏

    【目的】 在矩阵分解推荐算法中融入加权异构信息网络中的知识,提高推荐质量。【方法】 构造推荐主体的异构信息网络,通过改进的tanh函数计算相关连接权重;在网络中挑选相关元路径,通过信息增益计算不同元路径的权重;计算不同元路径下的用户兴趣相似度,再结合元路径权重得出用户相似度矩阵;将用户相似度矩阵融合到矩阵分解推荐算法的目标函数中。【结果】 在Hetrec2011-MovieLens-2k数据集上的实验结果表明,本文算法相比于传统矩阵分解推荐算法(FunkSVD)在准确率、召回率、覆盖率指标上分别提高了4.4%、5.4%、4.6%,均方根误差下降了0.06。【局限】 面对海量数据,矩阵分解的效率低下,并且没有考虑用户兴趣漂移问题。【结论】 本文算法提高了矩阵分解推荐算法的推荐质量。

  • 祁瑞华,简悦,郭旭,关菁华,杨明昕
    数据分析与知识发现. 2020, 4(12): 85-94. https://doi.org/10.11925/infotech.2096-3467.2020.0535
    摘要 ( ) PDF全文 ( ) HTML ( )   可视化   收藏

    【目的】 研究针对跨领域情感分类任务中标注数据资源相对匮乏以及从源领域到目标领域情感分类特征重要性区分问题。【方法】 提出基于特征融合表示方法与注意力机制的跨领域双向长短时记忆产品评论情感分类模型,融合Bert词向量和跨领域词向量生成跨领域统一特征空间,通过双向长短时记忆网络结合注意力机制提取全局特征和局部特征的重要性权重。【结果】 在亚马逊产品公开评论数据集上的对照实验结果表明,该模型跨领域评论情感分类平均准确率达到对照模型的最高值95.93%,比文献中对照模型最高准确率高出9.33%。【局限】 需在多领域大规模数据集上进一步检验模型的泛化性,探究源领域知识对目标领域评论情感分类贡献规律。【结论】 通过双向长短时记忆网络层学习融合特征能够有效获取情感语义信息,对照实验中对目标领域最有帮助的源领域基本一致。

  • 韩康康,徐建民,张彬
    数据分析与知识发现. 2020, 4(12): 95-104. https://doi.org/10.11925/infotech.2096-3467.2020.0049
    摘要 ( ) PDF全文 ( ) HTML ( )   可视化   收藏

    【目的】 利用微博发布者和目标用户的多维信任关系对传统的微博推荐方法进行改进,以获得更好的推荐效果。【方法】 通过将微博发布者和目标用户的相似信任度、熟悉信任度和影响力信任度线性调和,得到二者间的综合信任度,将其作为调整因子对基于内容的微博推荐方法进行改进。【结果】 在真实数据上的实验结果表明,与传统的微博推荐方法相比,改进方法在F值和DCG值上均有一定程度提高。【局限】 仅考虑相邻用户间的直接关系,未考虑不相邻用户间的间接关系。【结论】 利用多维信任度改进传统微博推荐方法,可以提高推荐效果。

  • 冯文刚,姜兆菲璠
    数据分析与知识发现. 2020, 4(12): 105-119. https://doi.org/10.11925/infotech.2096-3467.2020.0655
    摘要 ( ) PDF全文 ( ) HTML ( )   可视化   收藏

    【目的】 提高民航安检服务效能和乘客满意度,基于民航旅客分级分类模型输出结果进行差异化安检,并进行民航旅客风险演化系统动力学分析研究。【方法】 构建民航旅客分级指标体系,通过定量分析确定各项指标权重,并提出基于深度神经网络的民航旅客分类模型,进而使用系统动力学模拟仿真安全管理措施对民航旅客风险的影响作用。【结果】 通过将分级分类模型与差异化安检相结合,实现基于风险的民航旅客精准分流,缓解安保压力,进而基于风险演化推演,在社会安全管控、安保措施以及响应系数三个变量增加30%后,能分别降低民航旅客风险61.65%、29.87%和29.87%,改善旅客乘机体验。【局限】 由于个别特殊民航安保事件保密级别较高,无法将其纳入分析范畴。【结论】 本文构建了民航旅客分级分类模型以提供民航差异化安检对策,并基于风险系统动力学分析阐释安保措施对于民航旅客风险演化的影响。

  • 张纯金,郭盛辉,纪淑娟,杨伟,伊磊
    数据分析与知识发现. 2020, 4(12): 120-135. https://doi.org/10.11925/infotech.2096-3467.2020.0264
    摘要 ( ) PDF全文 ( ) HTML ( )   可视化   收藏

    【目的】 克服个体用户表征学习受个体用户评分稀疏性影响严重的问题,提高推荐算法的准确率和反应速度。【方法】 提出一种基于神经网络的多属性评分隐表征学习方法,并应用该方法从用户群组和项目两个维度学习多属性评分的隐表征,最后分别通过用户群组偏好匹配和项目吸引力计算实现两个群组推荐。【结果】 基于TripAdvisor数据集的实验结果表明:本文算法的准确率、时间性能优于典型的多属性推荐算法和群组推荐算法;准确率略差于个体推荐算法,但在线和离线运行时间较个性化推荐算法分别至少降低30%和50%;用户群组的隐表征学习相比项目的隐表征学习对推荐性能的提高作用更明显。【局限】 由于真实群组数据难以获取,仅基于某种聚类算法生成虚拟群组,因此群组较理想化。虚拟群组的偏好比真实群组的偏好可能更易聚合。【结论】 基于神经网络学习群组用户的隐表征(即聚合群组用户的偏好)和项目的隐表征,可以有效提高群组推荐算法和多属性推荐算法的准确率和召回率,效果非常接近最新的个性化推荐算法。

  • 孙鑫瑞,孟雨,王文乐
    数据分析与知识发现. 2020, 4(12): 136-147. https://doi.org/10.11925/infotech.2096-3467.2020.0596
    摘要 ( ) PDF全文 ( ) HTML ( )   可视化   收藏

    【目的】 利用交通知识图谱和目标检测的方法实现微博中交通事件的识别,辅助解决交通问题。【方法】 基于开源数据构建交通知识图谱和事理图谱,针对微博文本部分使用交通知识图谱进行交通事件的识别;针对微博中的图片使用目标检测进一步提升三类事件的识别准确率。【结果】 以2018年青岛市区的交通微博数据为例进行方法验证,基于文本的交通事件识别准确率为94.55%,基于图片的交通事件识别准确率为95.53%。【局限】 交通知识图谱构建人工参与度较高,目标检测算法可进一步优化。【结论】 相关交通事件识别方法可以在实际应用中帮助城市交通管理部门进行交通事件的预警与交通问题的发现并辅助决策。