数据分析与知识发现

Select

刘倩, 李晨亮

数据分析与知识发现. 2020, 4(8): 1-14. https://doi.org/10.11925/infotech.2096-3467.2020.0454

摘要 ( ) PDF全文 ( ) HTML ( )

可视化

【目的】对近年来基于社交媒体的话题演变研究进行分析和总结,介绍相关分析技术。【文献范围】使用关键词"Social"和"Topic Evolution"在DBLP和Semantic Scholar搜集相关文献,并使用关键词"话题演变"在CNKI 数据库进行搜集,最后利用引用网络进行补充,经过筛选一共引用83篇文献。【方法】根据研究对象以及话题提取的方法对话题演变技术进行分析评述。【结果】将话题演变技术分为两个大类,6个小类,并对话题未来演变趋势进行预测分析。【局限】未对算法引入时间的方式进行详细对比分析。【结论】本文对社交媒体中的话题演变的技术进行分析总结,并发现该研究面临的挑战和未来的方向。

Select

面向学术文献的作者名消歧方法研究综述

沈喆, 王毅, 姚毅凡, 成颖

数据分析与知识发现. 2020, 4(8): 15-27. https://doi.org/10.11925/infotech.2096-3467.2020.0384

摘要 ( ) PDF全文 ( ) HTML ( )

可视化

【目的】 分析并评述面向学术文献的作者名消歧的相关工作,为该领域的后续研究提供借鉴。【文献范围】 在Web of Science、谷歌学术、中国知网和万方数据库中检索2016年1月1日至2020年3月28日的相关研究,共选择51篇文献进行综述。【方法】 以作者名消歧的流程为主线系统梳理各项研究成果,分类总结特征提取、特征表示以及模型训练与预测等主题的研究,并针对研究中的共性问题进行多维度的讨论。【结果】在特征表示方面,相较于2016年之前的研究,基于图、概率和混合模型的方法优化了复杂特征的相似度计算。在模型训练与预测方面,基于机器学习的算法仍需要提高效率与泛化能力,使其能够满足大型数据库和增量消歧的需求。多数研究尚未解决数据中存在的诸如训练数据不均、特征数据缺失、一人多名等问题。【局限】由于各项研究的实证数据差异较大,未能对不同方法进行量化比较。【结论】提出从多源数据融合、用户干预以及预训练模型的引入等视角开展后续研究的思路。

Select

基于深度学习的词汇表示模型对比研究

余传明, 王曼怡, 林虹君, 朱星宇, 黄婷婷, 安璐

数据分析与知识发现. 2020, 4(8): 28-40. https://doi.org/10.11925/infotech.2096-3467.2019.1222

摘要 ( ) PDF全文 ( ) HTML ( )

可视化

【目的】系统揭示传统深度表示模型与最新预训练模型的原理,探究其在文本挖掘任务中的效果差异。【方法】采用对比研究法,从模型侧和实验侧分别比较传统模型与最新模型在CR、MR、MPQA、Subj、SST-2和TREC六个数据集上的效果差异。【结果】在六个任务中,XLNet模型取得了最高的平均F1值（0.918 6）,优于ELMo（0.809 0）、BERT（0.898 3）、Word2Vec（0.769 2）、GloVe（0.757 6）和FastText（0.750 6）。【局限】 由于篇幅限制,实证研究以文本挖掘中的分类任务为主,尚未比较词汇表示学习方法在机器翻译、问答等其他任务中的效果。【结论】传统深度表示学习模型与最新预训练模型在文本挖掘任务中的表现存在较大差异。

Select

基于BERT模型的中文医学文献分类研究

赵旸, 张智雄, 刘欢, 丁良萍

数据分析与知识发现. 2020, 4(8): 41-49. https://doi.org/10.11925/infotech.2096-3467.2019.1238

摘要 ( ) PDF全文 ( ) HTML ( )

可视化

【目的】探究BERT中文基础模型（BERT-Base-Chinese）和BERT中文医学预训练模型（BERT-Re-Pretraining-Med-Chi）在中文医学文献分类上的分类效果及差异原因。【方法】以34万篇中文医学文献摘要为医学文本预训练语料,分别以16 000和32 000条中文医学文献摘要为分类的训练样本,并以另外的3 200条摘要作为测试样本,利用BERT的两个模型进行中文医学文献分类研究,以SVM模型作为对比基准。【结果】BERT的两种模型在分类效果上均优于SVM模型,两种模型的F1值均比SVM模型高出0.05左右;BERT-Re-Pretraining-Med-Chi模型在两种样本量下的F1值分别达到0.839 0和0.860 7,均为三者中最好的分类效果。【局限】仅对中图分类号R下的16个类别进行分类研究,其余4个类别因数据量过少等原因而未纳入分类体系中。【结论】BERT-Re-Pretraining-Med-Chi模型能够显著提升医学文献的分类效果;基于BERT的深度学习方法在多类别大规模训练集下更能体现其分类的优越性。

Select

基于层级注意力多通道卷积双向GRU的问题分类研究

余本功, 朱梦迪

数据分析与知识发现. 2020, 4(8): 50-62. https://doi.org/10.11925/infotech.2096-3467.2019.1292

摘要 ( ) PDF全文 ( ) HTML ( )

可视化

【目的】针对对话问句长度较短、特征稀疏等特点,多方面分层级地提取问题文本的特征,更好地理解问句含义,提升分类效果。【方法】为丰富问题文本的语义表示,充分考虑问句中的疑问词、词性、词语位置特征,在词语级基于多特征注意力机制得到多通道特征矩阵;然后利用卷积神经网络对多通道特征矩阵进行深层次短语级特征提取,并将短语级特征融合后输入双向门控循环单元（GRU）获得前后向的上下文信息;最后,为强化前后向上下文特征中的主题信息,使用潜在主题注意力得到双向文本特征,并将双向特征融合得到最终的文本向量,输入Softmax得到分类结果。【结果】本文提出的层级注意力多通道卷积双向GRU模型在三个中文问题数据集上准确率分别达到93.89%、94.47%、94.23%,比LSTM模型、CNN模型分别最高提升5.82%和4.50%。【局限】仅使用三个中文问题语料进行验证。【结论】 本文模型能够更加全面深层次地挖掘问题文本语义特征,弥补问句意图理解不准确的不足,提高了问题分类性能。

Select

学术论文的社交媒体可见性预测研究

李纲, 管为栋, 马亚雪, 毛进

数据分析与知识发现. 2020, 4(8): 63-74. https://doi.org/10.11925/infotech.2096-3467.2020.0124

摘要 ( ) PDF全文 ( ) HTML ( )

可视化

【目的】基于学术论文的多维特征,对其在社交媒体推特上的可见性进行预测,分析影响论文社交媒体可见性的重要因素。【方法】将论文的推特总提及量作为其社交媒体可见性类别标签,从论文、作者和期刊三个方面构建学术论文特征框架,构建基于分类的论文社交媒体可见性预测模型。在糖尿病论文数据集上进行实验,对比算法性能并识别特征的重要性。【结果】LightGBM算法的性能最佳,准确率达到0.70,能够有效预测论文的社交媒体可见性。学术论文的三类特征均对其社交媒体可见性产生影响,其中期刊相关的三种特征影响较为显著,期刊年均影响因子的重要性位列第一。【局限】仅针对糖尿病相关论文在推特中的可见性进行预测,未探究其他学科领域的论文在多个社交媒体平台的可见性。【结论】集成学习的方法预测论文的社交媒体可见性是最有效的,期刊相关特征对学术论文社交媒体可见性的影响最为显著。

Select

融合主题相似度与合著网络的学者标签扩展方法研究

盛嘉祺, 许鑫

数据分析与知识发现. 2020, 4(8): 75-85. https://doi.org/10.11925/infotech.2096-3467.2020.0002

摘要 ( ) PDF全文 ( ) HTML ( )

可视化

【目的】对学者未来的研究方向和研究兴趣进行预测,设计从文献摘要中抽取并扩展学者学术标签的方法。【方法】通过TF-IDF方法从摘要中抽取基础学术标签,结合学者间主题相似度与学者间的合作关系,使用相似学者和团队内其他学者的标签对基础学术标签进行扩展。【结果】与直接使用学者当前学术标签预测学者未来学术标签相比,融合主题相似度与合著网络对学术标签进行扩展后预测召回率平均提高8.33%。【局限】实证样本小,方法只针对单一语种论文,没有涵盖学者发表的其他语种论文,方法普适性仍需要进一步确认。【结论】本文提出的方法对学者未来研究方向和研究兴趣有一定的预测能力。

Select

基于深度学习的方志物产资料实体自动识别模型构建研究

徐晨飞, 叶海影, 包平

数据分析与知识发现. 2020, 4(8): 86-97. https://doi.org/10.11925/infotech.2096-3467.2020.0032

摘要 ( ) PDF全文 ( ) HTML ( )

可视化

【目的】探究古籍方志物产资料中物产别名、人物、产地及引书等4种实体的自动识别,用于方志物产知识库的构建。【方法】 以机构特藏《方志物产》云南卷为基础语料,在文本预处理与语料标注基础上,采用4种深度学习模型Bi-RNN、Bi-LSTM、Bi-LSTM-CRF、BERT进行实验,并对实验结果进行对比分析。【结果】Bi-LSTM-CRF模型与Bi-LSTM模型相比,P值提高5.54%,F值提高3.51%;BERT模型的R值达到了83.36%,优于其他模型;Bi-LSTM-CRF模型对引书实体识别效果最好,F值为89.71%;BERT模型对人物实体识别效果最好,F值为87.90%。【局限】由于古籍方志文本语料特性,以及相关实体的认定需掌握领域知识,在人工标注过程中或存在一些漏标与错标的情况,导致模型未能最优化。【结论】研究表明深度学习方法对古籍方志文本实体识别任务的可行性与优越性。

Select

基于情感膨胀门控CNN的情感-原因对提取

代建华, 邓育彬

数据分析与知识发现. 2020, 4(8): 98-106. https://doi.org/10.11925/infotech.2096-3467.2019.1243

摘要 ( ) PDF全文 ( ) HTML ( )

可视化

【目的】 针对情感-原因对抽取这一情感分析任务,提出情感膨胀门控CNN（EDGCNN）模型。【方法】首先使用情感判别模型CNN找出情感句,然后将情感句编码输入到融入情感特征的EDGCNN模型,找出相应的情感原因,得到情感-原因对,并在实验数据集进行情感原因关键字标注。【结果】召回率和F1值分别达到了63.52%和60.45%,召回率优于已有方法最好结果,F1值与已有方法最优性能相当,而且能从更细粒度实现情感-原因对抽取。【局限】情感-原因对语料规模较小,有待进一步扩充完善。【结论】EDGCNN模型能够从文本中更好地抽取情感-原因对。

Select

基于超网络的企业微博用户聚类研究及特征分析

席运江, 杜蝶蝶, 廖晓, 仉学红

数据分析与知识发现. 2020, 4(8): 107-118. https://doi.org/10.11925/infotech.2096-3467.2020.0091

摘要 ( ) PDF全文 ( ) HTML ( )

可视化

【目的】提出一种对多维用户兴趣数据的集成建模方法,并在此基础上研究用户兴趣的谱聚类方法。【方法】以"三只松鼠"微博数据为实例,采用超网络模型对微博内容及用户互动数据进行整合建模,构建互动兴趣度指数,并结合谱聚类算法划分用户群。通过Silhouette Coefficient及Davies-Bouldin方法对实验结果进行评估。【结果】对比三类用户特征向量的最优聚类效果,发现当k取15时,基于话题互动超网络特征向量的聚类DB值达到0.57,效果优于基于互动数据或博文内容的特征向量,类群之间分布更均匀,类群内部也更紧致。【局限】用户特征数据的选取未能全面涵盖。此外,不同维度数据对用户兴趣的影响程度或可进一步探索。【结论】通过对企业微博用户群体分布情况和兴趣特征的分析,提出对应的维护和营销建议,有助于指导企业更好地发现用户兴趣,提升微博营销效果。

Select

线上知识付费用户继续付费意向影响因素研究

魏武, 谢兴政

数据分析与知识发现. 2020, 4(8): 119-129. https://doi.org/10.11925/infotech.2096-3467.2020.0271

摘要 ( ) PDF全文 ( ) HTML ( )

可视化

【目的】探究线上知识付费产品特征、用户需求和继续付费意向之间的影响关系,为行业发展提供理论依据和意见参考。【方法】基于精细加工可能性模型和使用与满足理论,本研究构建了用户继续付费意向影响因素模型。运用结构方程模型和模糊集定性比较分析对所收集的样本进行分析。【结果】根据结构方程模型,产品内容质量对付费用户需求的满足具有显著的正向影响;付费用户的社交性需求显著地正向影响其继续付费意向。模糊集定性比较分析则发现了三种能够触发继续付费意向的前因构型。【局限】研究样本类型有限,主要为音频型知识内容用户,且未纳入使用场景等因素的调节作用。【结论】当前的线上知识付费产品并未完全契合知识付费用户的需求,对知识内容的把控和用户社交性需求的重视,是提升其继续付费意向的关键所在。

Select

在线问诊平台中基于组合条件的医生推荐研究

李跃艳,熊回香,李晓敏

数据分析与知识发现. 2020, 4(8): 130-142. https://doi.org/10.11925/infotech.2096-3467.2019.1038

摘要 ( ) PDF全文 ( ) HTML ( )

可视化

【目的】针对在线问诊平台医生推荐结果不精确的问题,通过融合多种推荐策略发现优质的医生资源。【方法】通过构建一种基于组合条件的医生推荐模型,其中包括基于相似患者、基于相似领域和基于医生绩效,最后采用线性加权的混合策略整合三种推荐结果,得到最终医生推荐集。同时,为了验证模型的可行性和准确性,采集"好大夫在线"真实数据进行分析。【结果】实验结果表明,经过三种推荐策略的组合,患者当时实际就诊的医生被成功返回的准确率高达86%,说明该模型具有良好的应用可行性和较好的推荐效果。【局限】目标用户的选择容易受随机结果影响;在医生混合推荐结果分析中,每种推荐策略的权重设置比较粗略。【结论】基于组合条件的医生推荐模型,从不同角度挖掘医生特征,有利于帮助患者快速识别并选择优质的医生资源。

选择文件类型/文献管理软件名称

选择包含的内容

2020年, 第4卷, 第8期　
刊出日期：2020-08-25

模态框（Modal）标题

选择文件类型/文献管理软件名称

选择包含的内容

检索词推荐：

2020年, 第4卷, 第8期 刊出日期：2020-08-25

2020年, 第4卷, 第8期　
刊出日期：2020-08-25