数据分析与知识发现

Select

胡正银,刘蕾蕾,代冰,覃筱楚

数据分析与知识发现. 2020, 4(11): 1-14. https://doi.org/10.11925/infotech.2096-3467.2020.0681

摘要 ( ) PDF全文 ( ) HTML ( )

可视化

【目的】 探讨融合多源数据,开展深层次学科知识发现研究与服务的方法。【方法】 通过构建科技文献SPO语义网络形成领域知识图谱的核心;通过“实体对齐、概念层次融合与关系融合”实现多源异构数据融合,生成完整领域知识图谱;基于领域知识图谱开展深层次学科知识发现;选择造血干细胞癌症治疗进行实证研究。【结果】 提出一套基于知识图谱的学科知识发现方法框架KGSKD,可多维度、细粒度融合多源异构数据,定义数据间复杂语义关系,原生支持知识推理、路径发现、链路预测等知识发现应用。【局限】 KGSKD存在容易出现数据过饱和、知识发现过程可解释性较差、与领域专家沟通难度较高等局限。【结论】 KGSKD具有数据类型更丰富、知识关联更全面、挖掘方法更先进、发现结果更深入等优势,可更有效地支持生命医学学科深层次知识发现研究与服务。

Select

基于模式和投影学习的领域概念上下位关系自动识别研究

王思丽,祝忠明,杨恒,刘巍

数据分析与知识发现. 2020, 4(11): 15-25. https://doi.org/10.11925/infotech.2096-3467.2020.0299

摘要 ( ) PDF全文 ( ) HTML ( )

可视化

【目的】 实现对领域概念上下位关系的自动识别,以解决领域本体自动化构建中领域概念间语义关系的自动获取和确立问题。【方法】 将传统无监督的基于模式的方法和当前先进的有监督的基于投影学习的方法有机结合起来,应用于领域概念上下位关系自动识别,并进行了实验研究。【结果】 能识别出领域概念的上位词集合,在医学领域的识别精度为0.88,通用领域的识别精度为0.83,在评估基准集BLESS上的平均精度为0.85。【局限】 受句法歧义、语料集质量等影响,模型精度尚未达到峰值,存在错误识别的情况。【结论】 可发现同一概念词的不同意义的上位词,对低频词和命名实体也具有较好识别效果。未来可考虑从对高频顶层上位词进行适当减权、提升有监督语料集的质量等方面进行优化。

Select

基于层次注意力网络模型的学术文本结构功能识别

秦成磊,章成志

数据分析与知识发现. 2020, 4(11): 26-42. https://doi.org/10.11925/infotech.2096-3467.2020.0364

摘要 ( ) PDF全文 ( ) HTML ( )

可视化

【目的】 针对当前学术文本章节功能识别存在诸多不足的现状,提出使用层次注意力网络模型提升学术文本章节功能识别的效果。【方法】 首先,构建能够捕获章节结构信息的不同粒度的层次注意力网络模型,对比分析使用不同文本特征向量的传统机器学习模型、Bert模型与层次注意力网络模型在PLoS的4种期刊规范数据集上的学术文本结构功能的识别结果以获取最佳模型;随后,使用最佳模型识别Atmospheric Chemistry and Physics（ACP,IF 5.6）期刊中章节标题命名缺乏规范且人工标注结构功能一致性较低的章节的结构功能,并提出使用参考文献分布相似、动词线索词分布相似评估识别结果;最后,对所构建的层次注意力网络模型的领域适应性进行分析。【结果】 以Bi-LSTM+Attention为编码器的句子级层次注意力网络模型识别效果优于其他模型,Macro-F1值为0.866 1;存在领域适应问题,在差异较大的领域中模型识别性能下降明显,Macro-F1值最低为0.455 4。【局限】 不能识别具有混合结构的章节的功能;模型中未考虑文章结构之间的逻辑关系。【结论】 句子级层次注意力网络模型能够较好地识别章节的结构功能,引入学术文本结构信息能够丰富和拓展基于学术论文全文本相关研究的研究内容与范围。

Select

基于多因子算法的自动分类研究

李娇,黄永文,罗婷婷,赵瑞雪,鲜国建

数据分析与知识发现. 2020, 4(11): 43-51. https://doi.org/10.11925/infotech.2096-3467.2020.0238

摘要 ( ) PDF全文 ( ) HTML ( )

可视化

【目的】 从实用角度出发,研制领域适用性广、人力投入少的分类标引方法,支撑海量信息资源分类管理与学科领域地图揭示。【方法】 基于文献中代表主题概念的术语、概念等关键词和分类号的兼容关系,研究设计多因子加权分类算法,在此基础上提出全流程自动分类标引方案。【结果】 以权威的多领域标注语料库和标准集为数据来源进行分类标引实验,单类号文献标引准确率84.1%,召回率79.8%,F值81.9%;双类号文献标引准确率83.4%,召回率78.8%,F值81.0%。【局限】 学科分类标引的准确率及完整性依赖高质量标注语料库,且在多类号资源的标引上有待提升。【结论】 本文提出的多因子算法自动分类标引具有较高的可操作性和实践应用价值。

Select

一种融合网络表示学习与XGBoost的评分预测模型

丁勇,陈夕,蒋翠清,王钊

数据分析与知识发现. 2020, 4(11): 52-62. https://doi.org/10.11925/infotech.2096-3467.2020.0482

摘要 ( ) PDF全文 ( ) HTML ( )

可视化

【目的】 基于丰富的元数据和评分数据,提出一种融合网络表示学习与XGBoost的评分预测模型——N2V_XGB。【方法】 提取并融合元数据和评分数据的相似性权重,构建同质关系网络;利用网络表示学习自动提取用户和项目特征,再将提取的特征作为XGBoost的输入,迭代训练获得最佳的评分预测模型。【结果】 实验表明,N2V_XGB模型的MAE和RMSE分别为0.686 7、0.873 7,低于4种主要的对比模型。【局限】 N2V_XGB模型未能很好地利用时间特征信息,评分结果没有反映时序变化。【结论】 N2V_XGB模型将网络表示学习与XGBoost算法进行有效融合,能够缓解数据稀疏,提高用户评分的预测精度。

Select

基于深度学习的重复住院预测模型研究——以心脏病为例

达婧玮,颜嘉麒,邓三鸿,王忠民

数据分析与知识发现. 2020, 4(11): 63-73. https://doi.org/10.11925/infotech.2096-3467.2020.0469

摘要 ( ) PDF全文 ( ) HTML ( )

可视化

【目的】 基于电子病历,运用深度学习方法提高重复住院预测准确率,为医院管理提供参考。【方法】 提出一种融合结构化和非结构化数据的模型。该模型基于字符级卷积神经网络对非结构化文本数据进行学习,并结合结构化数据（人口统计学数据、临床数据和行政数据）对重复住院进行预测。【结果】 融合结构化和非结构化数据的深度学习模型表现最好,F1值为0.735,超出单独使用结构化数据的模型12.9%,超出单独使用非结构化数据的模型约2.1%,预测性能有较大提升。【局限】 实验数据集仅包括来自一家医院患者的部分病历数据,对模型预测结果有一定影响。【结论】 本文模型实现了较好的预测效果,可为相关研究者和医院管理者提供参考。

Select

线索一致性对共享住宿平台用户购买决策的影响研究：房客文本信息和房源图片信息的交互效应

池毛毛,潘美钰,王伟军

数据分析与知识发现. 2020, 4(11): 74-83. https://doi.org/10.11925/infotech.2096-3467.2020.0161

摘要 ( ) PDF全文 ( ) HTML ( )

可视化

【目的】 探索共享平台中不同主体的信息线索及其线索一致性对用户购买决策的影响机制。【方法】 以线索一致性理论为基础,从房客文本线索（UGC）和房东图片线索（MGC）角度构建模型,利用爬虫技术在共享住宿平台网站上获取相应房源数据,研究信息线索一致性对消费者购买决策的影响。【结果】 UGC的文本线索和MGC的暖色调图片显著正向影响用户购买决策,UGC与MGC的信息线索一致性程度对用户购买决策具有显著正向影响。【局限】 图片参数的提取还有待扩展,未来可以进一步对识别房源基础设施展开研究。【结论】 本研究关注平台双边的信息线索,为共享住宿平台和房东如何有效建立和利用信息线索提供参考和建议。

Select

基于LSTM网络的盗窃犯罪时间序列预测研究

颜靖华,侯苗苗

数据分析与知识发现. 2020, 4(11): 84-91. https://doi.org/10.11925/infotech.2096-3467.2020.0536

摘要 ( ) PDF全文 ( ) HTML ( )

可视化

【目的】 研究日盗窃犯罪数量的预测问题。【方法】 基于LSTM网络,利用中国北方某大型城市2005年1月1日至2007年2月24日以及2009年1月1日至2011年1月7日的每日实际盗窃犯罪数据,设置三个算例分别进行时间序列预测研究及验证,并与ARIMA、支持向量回归、随机森林以及XGBoost方法的预测结果进行对比。【结果】 LSTM网络模型能够较好地预测日盗窃犯罪数量的变化趋势,三个算例中的百分比均方根误差分别为18.4%、11.7%、41.9%,性能均优于ARIMA、支持向量回归、随机森林以及XGBoost模型。【局限】 对日盗窃犯罪数量波动较大时段的预测需要开展进一步研究。【结论】 本文的研究结果预期可以为社区安全防范措施的调整、巡逻警力测算与部署等具体业务工作提供决策支持。

Select

网络热点事件话题漂移指数构建与实证研究

黄微,赵江元,闫璐

数据分析与知识发现. 2020, 4(11): 92-101. https://doi.org/10.11925/infotech.2096-3467.2020.0230

摘要 ( ) PDF全文 ( ) HTML ( )

可视化

【目的】 提出并构建网络热点事件话题漂移指数,体现网络热点事件话题变动幅度。【方法】 利用LDA主题模型对网络热点事件进行话题抽取并结合词权重分析话题漂移情况,提出网络热点事件话题漂移指数构建过程,以“高以翔去世”事件为样本进行实证分析。【结果】 在“高以翔去世”网络热点事件爆发初期,话题数量由11增加至18,话题漂移指数变动41%,舆情危机产生;在蔓延期的二次爆发中,话题漂移指数变动22%,舆情危机复发;在消散期某时间节点,话题数量由10减至5,话题漂移指数负向变动41%,发生群体性失范行为。【局限】 对网络热点事件蔓延期小幅话题变动预警效力不足;对网络热点事件舆情数据中多媒体内容缺乏预警能力;不能体现话题的实质性语义变化。【结论】 网络热点事件话题漂移指数作为网络热点事件舆情预警测度与监管触发指标,能够较为精准地提供网络舆情爆发时间节点以及蔓延期的舆情危机复发时间节点。

Select

基于深度学习的众测报告有用性预测研究

蔡婧璇,吴江,王诚坤

数据分析与知识发现. 2020, 4(11): 102-111. https://doi.org/10.11925/infotech.2096-3467.2020.0059

摘要 ( ) PDF全文 ( ) HTML ( )

可视化

【目的】 以众测报告为研究对象,探索众测报告作者属性、产品属性、文本、图片对预测众测报告有用性的作用。【方法】 基于深度学习提取众测报告的文本特征和图片特征,使用全连接神经网络构建众测报告有用性预测模型,使用80%随机样本对不同输入组合下的模型进行训练学习,再以剩余样本作为测试集评估模型的预测效果。【结果】 单独加入文本特征后,模型的预测效果提升4.24%;单独加入图片特征后,模型的预测效果提升5.21%;同时加入文本特征和图片特征后,模型的预测效果提升6.96%。【局限】 深度学习提取的文本特征和图片特征可理解性与可解释性较差,因此,即使最终模型的预测结果比较准确,仍难以得知模型中每一层神经网络所代表的具体特征并总结归纳出模型做出最终决策所依赖的预测规则。【结论】 众测报告中文字描述的特征和图片特征都能有效预测众测报告对消费者的有用性,且两者对于预测众测报告对消费者的有用性具有相互验证和相互替代的作用。

Select

基于CNN的消费品缺陷领域词典构建方法研究

彭郴,吕学强,孙宁,张乐,姜肇财,宋黎

数据分析与知识发现. 2020, 4(11): 112-120. https://doi.org/10.11925/infotech.2096-3467.2020.0214

摘要 ( ) PDF全文 ( ) HTML ( )

可视化

【目的】 有效地构建消费品缺陷领域词典,有助于了解专业领域动态与领域关键信息。【方法】 首先,通过语料中的词频特征挖掘领域相关短语词;其次,使用TF-IDF算法构建领域词库以减少人工标注成本;最后,基于卷积神经网络（CNN）模型融入语义、位置信息进一步生成领域词典,提升领域词典的健壮性与泛化能力。【结果】 实验结果表明,本文方法与统计学习方法相比,在准确率、召回率和F1值上提升了6%~9%。【局限】 仅在消费品缺陷领域文本上构建词典,在其他领域的效果有待验证。【结论】 基于CNN的消费品缺陷领域词典构建方法可以提升消费品缺陷领域词典的构建效果。

Select

基于多维度特征与LDA模型的城市旅游画像演化分析

叶光辉,徐彤,毕崇武,李心悦

数据分析与知识发现. 2020, 4(11): 121-130. https://doi.org/10.11925/infotech.2096-3467.2020.0606

摘要 ( ) PDF全文 ( ) HTML ( )

可视化

【目的】 以具有时间属性的公众城市认知数据为研究样本,探寻城市画像主题变化特征与规律。【方法】 选择城市旅游业为研究分面,利用LDA主题模型与多维度城市画像主题描述框架,从主题发展历程、一级与二级特征维度下的主题演化趋势这三个角度共同刻画城市画像在时间轴线上的变迁。【结果】 就中国香港而言,城市旅游画像在主题演化过程中并未出现周期性波动规律,但在主题感知维度的表现却有着明显的主次之分;旅游游览、旅游交通以及旅游娱乐是构成公众对于中国香港城市形象认知体系的主要属性;其中,旅游游览往往总领主题演化的发展方向,旅游娱乐则主要分布于演化轴线的前期与末期,而旅游交通处于演化中期;除此以外,演化路径中各主题在各主导维度下又分别有着稳定的标志性意象载体。【局限】 研究结论有待综合多样化的城市数据以及分析方式实现进一步深化与拓展。【结论】 本文提出的基于旅游特征维度的主题演化研究思路,实现了城市旅游画像的演化轨迹描绘,同时研究结论能够为政府及行业相关举措的规划与实施提供参考。

选择文件类型/文献管理软件名称

选择包含的内容

2020年, 第4卷, 第11期　
刊出日期：2020-11-25

模态框（Modal）标题

选择文件类型/文献管理软件名称

选择包含的内容

检索词推荐：

2020年, 第4卷, 第11期 刊出日期：2020-11-25

2020年, 第4卷, 第11期　
刊出日期：2020-11-25