期刊首页 当期目录

2021年, 第5卷, 第11期 
刊出日期:2021-11-25
  

  • 全选
    |
    综述评介
  • 李晓, 曲建升
    数据分析与知识发现. 2021, 5(11): 1-12. https://doi.org/10.11925/infotech.2096-3467.2021.0515
    摘要 ( ) PDF全文 ( ) HTML ( )   可视化   收藏

    【目的】 对社会科学领域的元分析最新应用与进展进行研究。【方法】 对社会科学领域元分析的主要特征进行归纳和总结,剖析目前社会科学元分析应用中的关键问题,对社会科学领域的两个元分析数据库MetaBUS和CoDa进行案例分析,并从不同视角对社会科学元分析进行讨论与展望。【结果】 社会科学元分析主要为汇总数据元分析,所使用的效应值主要为r值和标准均值差,应用传统元分析方法较多。目前存在的关键问题有效应值偏差、缺乏透明度、耗费时间与人力、缺乏质量评估等。元分析数据库和元分析研究可以起到相互促进的作用,数据仓储、开放科学运动、人工智能技术等对元分析研究皆有不同程度的影响。【局限】 主要基于抽样样本进行内容分析,对元分析特征及问题的全面揭示会有潜在的限制性。【结论】 社会科学领域元分析尚存许多问题亟待解决,需要各方共同努力提高其质量,增强其结论的有效性。

  • 研究论文
  • 盛姝, 黄奇, 杨洋, 解绮雯, 秦新国
    数据分析与知识发现. 2021, 5(11): 13-28. https://doi.org/10.11925/infotech.2096-3467.2021.0260
    摘要 ( ) PDF全文 ( ) HTML ( )   可视化   收藏

    【目的】 将国际主流的信息交换标准HL7 FHIR核心框架引入医疗领域,使医疗数据类型和疾病术语表达标准化。【方法】 提出FHIR框架下医疗领域信息交换方法,阐述FHIR 在医疗领域层面的含义和应用,通过本体构建、本体映射与迁移予以实现,并结合疾病本体(Disease Ontology,DO)规范疾病术语的表达。【结果】 利用Python爬虫挖掘“医享网”发布的真实电子病历,在本体映射与迁移后,176份患者病例记录实现了FHIR数据格式的标准化转换以及标准疾病术语编码。【局限】 未能实现异源多类型术语的语义标准化。【结论】 研究成果为我国医疗领域标准体系的构建和技术手段的开发提供了一种新思路。

  • 余传明, 张贞港, 孔令格
    数据分析与知识发现. 2021, 5(11): 29-44. https://doi.org/10.11925/infotech.2096-3467.2021.0491
    摘要 ( ) PDF全文 ( ) HTML ( )   可视化   收藏

    【目的】 系统揭示知识图谱表示模型的内在原理和影响因素,探究其在特定任务上的效果差异。【方法】 面向链接预测任务,采用对比研究方法,比较基于翻译的知识图谱表示模型和基于语义匹配的知识图谱表示模型在FB15K、WN18、FB15K-237和WN18RR这4个数据集上的效果差异。【结果】 在Hits@1指标上,TuckER模型在WN18、FB15K-237、WN18RR数据集上取得最优值(分别为0.946 0、0.263 3和0.443 0);ComplEx模型在FB15K数据集上取得了最优值(0.731 4)。【局限】 由于篇幅限制,实证研究仅比较了知识图谱表示模型在链接预测任务和知识库问答上的效果,尚未比较在信息检索、推荐系统等任务上的差异。【结论】 基于翻译的知识图谱表示模型和基于语义匹配的知识图谱表示模型存在显著差异,知识图谱表示模型的得分函数、负采样和优化方法等模型结构,以及训练数据比例等因素对其在链接预测任务上的效果存在显著影响。

  • 丁浩, 艾文华, 胡广伟, 李树青, 索炜
    数据分析与知识发现. 2021, 5(11): 45-58. https://doi.org/10.11925/infotech.2096-3467.2021.0292
    摘要 ( ) PDF全文 ( ) HTML ( )   可视化   收藏

    【目的】 构建基于项目类别的神经网络与模糊聚类混合时序预测模型,结合用户兴趣波动幅度的趋势以提升推荐准确度。【方法】 对不同幅度的兴趣波动分别采用神经网络和模糊聚类的方法构建趋势预测模型。本文采用神经网络对小幅波动序列数据进行滑动特征提取并预测,而大幅波动序列数据则通过模糊聚类的隶属度划分模糊关系。【结果】 通过4组数据的仿真实验,结果表明针对不同幅度兴趣波动的数据特征提取可以获得更准确的预测效果,较其他时序推荐对比算法,RMSE最大降低了19.18%,Hit Ratio最大提高了45.78%。【局限】 由于兴趣波动的趋势分析依赖用户历史数据,当历史数据量过于稀疏时需采用额外的冷启动算法对数据进行预处理。【结论】 本文方法对兴趣波动特征的泛化能力更强、运行速度快、波动分析和推荐预测更准确,有助于优化个性化信息服务。

  • 程铁军, 王曼, 黄宝凤, 冯兰萍
    数据分析与知识发现. 2021, 5(11): 59-67. https://doi.org/10.11925/infotech.2096-3467.2021.0525
    摘要 ( ) PDF全文 ( ) HTML ( )   可视化   收藏

    【目的】 研究突发事件网络舆情发展趋势的预测问题。【方法】 综合考虑多重不确定因素对网络舆情演化的影响,本文基于数据分解的研究思路,利用自适应噪声完备集成经验模态分解、BP神经网络以及相空间重构理论构建基于CEEMDAN-BP的舆情预测方法,并结合多起突发事件案例进行实证研究。【结果】 研究结果表明,CEEMDAN-BP模型能够较好地预测突发事件网络舆情的发展趋势,三个案例事件舆情预测的平均绝对误差分别为8.60%、17.98%、11.97%,其模型的预测性能优于CEEMDAN-SVM、EMD-BP、EMD-SVM、BP神经网络模型以及SVM模型。【局限】 实验数据是以天为单位进行统计,未能全面反映出舆情演变的变化趋势。【结论】 基于数据分解构建的CEEMDAN-BP模型能够有效预测突发事件网络舆情的发展趋势,可为相关部门做好突发事件网络舆情的管控和预警提供理论支持。

  • 韩普, 张伟, 张展鹏, 王宇欣, 方浩宇
    数据分析与知识发现. 2021, 5(11): 68-79. https://doi.org/10.11925/infotech.2096-3467.2021.0339
    摘要 ( ) PDF全文 ( ) HTML ( )   可视化   收藏

    【目的】 为进一步挖掘突发公共卫生事件微博文本深层语义信息,提出一种基于特征融合和注意力机制的多通道微博情感分析模型。【方法】 首先,在特征向量嵌入层利用Word2Vec和FastText生成词向量,并与词性特征向量和位置特征向量进行融合;其次,基于CNN和BiLSTM构建多通道层以提取微博文本局部和全局特征;接着,通过构建注意力机制层以提取微博文本重要语义特征;最后,在融合层合并多通道输出结果,并在输出层采用Softmax函数进行情感分类。【结果】 在42 384条突发公共卫生事件新冠疫情微博数据上进行对照实验,结果表明所提情感分析模型F1值达到90.21%,较基准模型CNN和BiLSTM分别提升9.71个百分点和9.14个百分点。【局限】 所构建的数据集规模较小,并且尚未考虑图片和语音等多模态信息。【结论】 所提模型在深度学习和多通道基础上,通过引入注意力机制并融合CNN和BiLSTM捕获的微博文本局部和全局语义特征达到了最优效果,进一步推动了微博情感分析研究进展。

  • 王鸿, 舒展, 高印权, 田文洪
    数据分析与知识发现. 2021, 5(11): 80-88. https://doi.org/10.11925/infotech.2096-3467.2021.0347
    摘要 ( ) PDF全文 ( ) HTML ( )   可视化   收藏

    【目的】 提出一种单分类器联合多任务网络的隐式句间关系分析方法,即基于单分类器的多任务学习模型进行中文隐式句间关系识别。【方法】 多任务学习方法通过对隐式句间关系和显式句间关系进行联合建模而获得更好的结果;而单分类器是通过将四分类问题转换为二分类问题进行训练而获取结果。【结果】 基于哈尔滨工业大学的中文篇章级语义关系语料库,在扩展关系和并列关系的语料中F1值分别达到0.94和0.81,在4种句间关系的F1值上均取得显著提升。【局限】 模型效果还可进一步提升,数据集分布不够均衡且有待扩充。【结论】 在哈尔滨工业大学的中文篇章级语义关系语料库上,所提方法取得了超过业界已知最佳结果的性能,同时也验证了删除连接词会给训练集增加噪声并影响性能。

  • 王松, 杨洋, 刘新民
    数据分析与知识发现. 2021, 5(11): 89-101. https://doi.org/10.11925/infotech.2096-3467.2021.0544
    摘要 ( ) PDF全文 ( ) HTML ( )   可视化   收藏

    【目的】 为解决开放式创新社区中因信息过载导致用户创意价值未能及时发现的问题,探索用户创意潜在价值早期发现方法,提高社区创新资源的利用效果。【方法】 设计用户创意的双重网络结构,构建基于图注意力网络的用户创意潜在价值发现模型,学习表达双重网络的节点特征及网络间映射关系,实现用户创意潜在价值早期发现。【结果】 应用典型开放式创新社区数据进行实证研究,结果表明,基于图注意力网络、使用双重网络结构特征的用户创意潜在价值发现模型的准确率为90.49%,高于其他相关基线模型。【局限】 仅在魅族社区数据集上验证模型,未来可拓展到其他领域开放式创新社区。【结论】 双重网络结构与图注意力网络相结合,有效提升了社区用户创意潜在价值发现模型的准确性,为社区针对性引导用户参与,充分挖掘社区创新资源提供技术支持。

  • 吴胜男, 蒲虹君, 田若楠, 梁雯琪, 于琦
    数据分析与知识发现. 2021, 5(11): 102-113. https://doi.org/10.11925/infotech.2096-3467.2021.0323
    摘要 ( ) PDF全文 ( ) HTML ( )   可视化   收藏

    【目的】 在不同结构的网络中,各链路预测算法的预测效果存在不同程度的差异,通过对多项研究的数据进行统计分析,可以系统挖掘网络结构特征中影响链路预测结果的主要参数。【方法】 选取国内外关于链路预测的相关实证研究,最终纳入5篇文献、22个网络、26种算法和278项研究,利用三水平元分析和贝叶斯网络元分析方法探讨网络结构中影响链路预测结果的主要因素及其对各算法预测结果的影响。【结果】 纳入研究的算法总体预测的效应量MD=1.183 2(95%CI:(1.000 5,1.365 9)),网络密度、平均度和聚集系数是影响各算法预测效果的主要因素(Pval<0.05)。亚组分析结果表明:Katz、LHN-II、MFI、LRW、SRW等基于全局信息和准局部信息的链路预测算法在稀疏网络性能更佳,SUCRA值均大于0.5,在稠密网络中网络密度、网络平均度和聚集系数对各类算法的影响差异较大。【局限】 仅从统计学的角度进行分析,并未纳入大规模的文献数据进行进一步的实证分析,结果还较为粗糙。【结论】 本研究将元分析的概念引入复杂网络领域中,丰富了对网络结构与链路预测算法关系探讨的方法与视角,为未来网络结构对链路预测算法影响的相关研究提供新的思路。

  • 吴彦文, 蔡秋亭, 刘智, 邓云泽
    数据分析与知识发现. 2021, 5(11): 114-123. https://doi.org/10.11925/infotech.2096-3467.2021.0548
    摘要 ( ) PDF全文 ( ) HTML ( )   可视化   收藏

    【目的】 探索融合多源数据和场景相似度计算的方法,为用户精准匹配相应的数字资源。【方法】 本文提出一种融合多源数据和场景相似度计算的数字资源推荐方法(CF-SSC),通过构建融合多源数据的场景模型得到场景数据的抽象表示,基于细化的相似度指标计算场景相似度,最后根据相似度等级预测得到场景列表及相应资源,以此优化推荐结果。【结果】 相比于CF-Pearson、CF-Cosine、IOS和User-MRDC,本文所提CF-SSC算法在指标MAE(0.688)上表现最优,在指标RMSE(0.936)上仅略次于User-MRDC,达到MAE和RMSE最优值时所需邻居的数量(20)最少。【局限】 仅在少量有限的数据集上进行重复测试。【结论】 所提相似度算法提高了推荐系统的预测精度,有效提升资源推荐的效率和准确性。

  • 李振宇, 李树青
    数据分析与知识发现. 2021, 5(11): 124-134. https://doi.org/10.11925/infotech.2096-3467.2021.0136
    摘要 ( ) PDF全文 ( ) HTML ( )   可视化   收藏

    【目的】 构建能捕获局部关联和表达用户显隐式偏好的深度协同过滤模型。【方法】 在显式推荐任务中嵌入利用隐式反馈查找的相似群,通过多层感知机分别同时对用户-项目、用户-相似项目群、项目-相似用户群进行建模。【结果】 在MovieLens两个数据集上的实验表明,该模型较各类协同过滤推荐算法的MAE和RMSE降低幅度分别最高达10.94%和11.79%。【局限】 使模型达到最佳性能的近邻数在不同数据集存在差异,最佳近邻数的确认问题有待探索。【结论】 该模型通过嵌入隐式相似群能有效弥补局限,使推荐结果更准确。

  • 纪有书, 王东波, 黄水清
    数据分析与知识发现. 2021, 5(11): 135-144. https://doi.org/10.11925/infotech.2096-3467.2021.0311
    摘要 ( ) PDF全文 ( ) HTML ( )   可视化   收藏

    【目的】 针对古汉语领域同义词自动抽取研究较少以及现代汉语同义词抽取方法在古汉语不适用的问题,提出一种无监督抽取古汉语同义词的方法。【方法】 构建句子级别古白对齐语料,利用词对齐算法实现典籍语料的词对齐,根据词对齐结果设计规则抽取同义词。【结果】 词对齐方法可以用来解决古汉语同义词自动抽取问题,该方法在前四史语料上实现了16 272组同义词的抽取,抽样评估结果显示第一次序结果词抽取准确率达到40.12%。【局限】 该方法难以适用于没有古白句子级别对齐语料的典籍;同时,抽取结果依赖分词算法和词对齐算法的效果,抽取效果仍有提升空间。【结论】 本研究基于词对齐构建一个古汉语词典,有较好的应用性,可以对依赖手工编纂的同义词词典进行扩充,为人文计算研究向语义层面的挖掘提供基础。

  • 董淼, 苏中琪, 周晓北, 兰雪, 崔志刚, 崔雷
    数据分析与知识发现. 2021, 5(11): 145-152. https://doi.org/10.11925/infotech.2096-3467.2021.0671
    摘要 ( ) PDF全文 ( ) HTML ( )   可视化   收藏

    【目的】 改进PubMedBERT在化学诱导性疾病(CID)实体关系分类的效果。【方法】 提出一种基于PubMedBERT并结合Text-CNN的实体关系分类方法。该方法以实体对和文本组成句子对进行输入,利用PubMedBERT预训练模型对化学诱导性疾病相关文本进行编码获取全局特征,通过Text-CNN捕捉文本局部重要信息,判断实体对是否具有CID关系。【结果】 在BioCreative V CDR数据集中,该方法的精确率、召回率和F1值分别达到78.3%、73.5%和75.8%,较其他方法最少提升了3.1%、1.5%和3.3%。【局限】 仅考虑了化学诱导性疾病文本语料,在临床等其他语料上的效果有待检验。【结论】 该方法能够捕捉化学诱导性疾病文本特征,提升实体关系分类的效果。