数据分析与知识发现

Select

马江微, 吕学强, 游新冬, 肖刚, 韩君妹

数据分析与知识发现. 2021, 5(8): 1-12. https://doi.org/10.11925/infotech.2096-3467.2021.0181

摘要 ( ) PDF全文 ( ) HTML ( )

可视化

【目的】 解决军事文本中实体关系重叠引起的关系抽取困难问题,改善军事文本关系抽取效果。【方法】 使用BERT模型作为输入文本的编码器,采用分层强化学习方法分别进行关系与其对应实体的解码,并在实体解码过程中融合关系位置特征,构建军事领域关系抽取模型。【结果】 在军事武器装备数据集上F₁值达到82.2%,相较其他方法提升约8个百分点。在公开的NYT10、NYT10-sub数据集上F₁值分别达到71.8%和69.0%,相较其他方法提升约7个百分点与9个百分点。【局限】 在人工标注数据集上抽取效果较好,在存在噪声的远程监督数据集上效果有待提升。【结论】 所提方法较目前主流方法在军事领域的关系抽取中效果更好,同时具有一定的泛化能力。

Select

基于异质信息嵌入与RNN聚类参数预测的作者姓名消歧方法

王若琳, 牛振东, 蔺奇卡, 朱一凡, 邱萍, 陆浩, 刘东磊

数据分析与知识发现. 2021, 5(8): 13-24. https://doi.org/10.11925/infotech.2096-3467.2021.0253

摘要 ( ) PDF全文 ( ) HTML ( )

可视化

【目的】 针对传统方法利用文本特征提取或文章与合著者之间的关系信息,导致高阶特征缺失的问题,提出学术文献领域下的姓名消歧方法,用于区分拥有相同姓名的多个学者。【方法】 提出一种名为论文嵌入网络（PaperEmbNet）的统一特征提取框架,为每个作者姓名构建学术异质信息网络,并融合内容信息和关系信息。在此基础上,设计一种基于注意力机制的循环神经网络聚类参数预测算法（AR4CPM）,进行同名作者聚类个数的预测,并基于该参数,使用层次凝聚聚类算法实现消歧。【结果】 在AMiner-AND数据集上的实验结果表明,所提方法在Macro-F1评分上相比次优模型最大提升4.75百分点,平均训练时间较对比方法短5~10 min。【局限】 需在多语种环境下进一步验证。【结论】 基于异质信息嵌入与RNN聚类参数预测的消歧方法,借助构建的学术异质信息网络充分捕获论文的内容和关系特征,在作者姓名消歧任务上验证了其有效性。

Select

基于指代消解的引文内容抽取研究

谭荧, 唐亦非

数据分析与知识发现. 2021, 5(8): 25-33. https://doi.org/10.11925/infotech.2096-3467.2021.0226

摘要 ( ) PDF全文 ( ) HTML ( )

可视化

【目的】 为改善手动或简单的引文提取方法,提高引文内容分析效果,应精确抽取引文内容。【方法】 将引文内容抽取任务具体分为引文句、引文上下文、引文元数据三部分,基于指代消解理论,利用机器学习和层次过滤法对引文上下文进行抽取。【结果】 实验数据收集了顺序编码制的中文期刊文献,结果证实该方法抽取引文句并解析参考文献结果正确无误,识别引文上下文的F1值为0.780~0.849。【局限】 缺乏中文科学引文语料资源,实验数据选择人工标注小规模数据集,跨域能力有限,不可避免存在文本领域依赖的缺陷。【结论】 本研究能够优化和扩大引文内容分析的步骤和范围,为使用引文内容分析法的相关研究者提供参考。

Select

基于词向量的PDF表格抽取研究

张建东, 陈仕吉, 徐小婷, 左文革

数据分析与知识发现. 2021, 5(8): 34-44. https://doi.org/10.11925/infotech.2096-3467.2021.0164

摘要 ( ) PDF全文 ( ) HTML ( )

可视化

【目的】 解决PDF表格抽取中复杂表头的表格需要依靠大量人工标注的问题。【方法】 利用框线信息进行表格检测与结构构建识别文档中表格结构信息后,使用词向量表示其中的内容文本,并计算表格行间内容余弦相似度,最后利用该值判断表格中表头与内容分界行。【结果】 在自建PDF表格数据集上进行信息抽取实验,表格信息抽取结果F₁值为98.07%,表格内容划分结果F₁值超过99%,效果接近需要大量标注语料的深度学习文本分类模型。【局限】 所提方法只能抽取关系型表格,且不适用于扫描型PDF文档。【结论】 所提方法能够在一定程度上解决PDF文件复杂表头表格的自动抽取问题。

Select

一对多实体关系少样本持续学习方法研究

江雅仁, 乐小虬

数据分析与知识发现. 2021, 5(8): 45-53. https://doi.org/10.11925/infotech.2096-3467.2020.1302

摘要 ( ) PDF全文 ( ) HTML ( )

可视化

【目的】 在少量样本情况下识别句中一对多实体关系（如包含关系、并列关系等）实例,在新增类别后保持识别效果,实现持续学习。【方法】 以LaserTagger模型为基础,利用文本生成的方法识别句子中包含、并列关系实体,并通过位置特征编码、加权Loss计算的方式增强模型在少样本情况下的特征学习能力,通过模型的压缩、扩展实现多个类别的持续学习。【结果】 在少量训练样本的情况下,本文方法在5个类别上的SARI值均比基线模型提高1%以上;多类别依次学习的情况下,通过模型的压缩、扩展能够较好地保留模型已学习到的知识,SARI值最高能提升16.92%。【局限】 仅选取包含关系、并列关系中的5种句式类别进行实验,数据类别较少,句式结构比较简单,暂未考虑模型在更多类别、更复杂句式情况下的性能。【结论】 所提方法在一定程度上能满足少样本、多类别依次学习的应用场景,具有一定优越性。

Select

基于作者偏好和异构信息网络的科技文献推荐方法研究

王勤洁, 秦春秀, 马续补, 刘怀亮, 徐存真

数据分析与知识发现. 2021, 5(8): 54-64. https://doi.org/10.11925/infotech.2096-3467.2021.0102

摘要 ( ) PDF全文 ( ) HTML ( )

可视化

【目的】 采用异构信息网络理论和作者偏好,提高科技文献推荐质量。【方法】 基于异构信息网络理论,提出一种可以融合多语义信息的科技文献推荐方法。首先,结合作者偏好信息为科技文献异构信息网络中的元路径加权;其次,采用DPRel算法计算作者与文献之间的相关度。在此基础上,构建加权作者-文献矩阵,按相关度降序排列得到推荐列表。【结果】 从Web of Science中收集实验数据集,实验结果表明,在三个数据集中所提方法相较于基于单条元路径计算作者-文献相关度的推荐方法在平均成功推荐率上分别提高了6%、8%、6%,并且文献成功推荐提高率分别为14.8%、27.6%、13.0%。【局限】 在数据预处理阶段由人工进行关键词统一,对于海量数据,人工处理关键词不现实。【结论】 所提推荐方法提高了异构信息网络中科技文献推荐的质量。

Select

基于机器学习组合优化方法的术后感染预测模型研究

苏强, 侯校理, 邹妮

数据分析与知识发现. 2021, 5(8): 65-75. https://doi.org/10.11925/infotech.2096-3467.2021.0188

摘要 ( ) PDF全文 ( ) HTML ( )

可视化

【目的】 提高患者术后感染风险预测的准确性和有效性,探索基于机器学习组合预测方法建立术后感染预测模型。【方法】 首先选择SMOTE、ADASYN和随机过采样三种采样技术以平衡数据集,然后结合5种常用机器学习模型生成多种预测组合,提出基于改进人工蜂群算法的采样技术与预测模型的混合预测方法,最后验证并比较多种组合预测方法的有效性。【结果】 实证分析显示,采用人工蜂群算法组合策略方法下的混合模型的GM值和F1值分别达到0.791 2和0.669 3,相较于单一预测模型分别提升了15.15%和23.62%。【局限】 模型需要在更大的SSI数据集层面进一步验证。【结论】 基于人工蜂群组合优化方法的混合预测模型能够有效提高术后感染预测能力,尤其是对阳性患者的预测,为实际临床应用提供参考。

Select

基于图注意力网络的药物ADMET分类预测模型构建方法

顾耀文, 张博文, 郑思, 杨丰春, 李姣

数据分析与知识发现. 2021, 5(8): 76-85. https://doi.org/10.11925/infotech.2096-3467.2021.0233

摘要 ( ) PDF全文 ( ) HTML ( )

可视化

【目的】 对药物的吸收、分布、代谢、排泄、毒性（Absorption,Distribution,Metabolism,Excretion,Toxicity,ADMET）中的代谢、毒性属性进行建模,用于虚拟筛选中的药物性质评价。【方法】 提出一种图注意力网络构建药物ADMET预测模型,基于开放数据库和科学文献的药物ADMET数据构造分子图作为分子结构特征,进一步将提出的模型与三种机器学习模型和两种传统的图神经网络模型进行性能比较。【结果】 收集整合得到9个ADMET数据集共计149 457条数据。基于图注意力网络的ADMET预测模型在9个数据集中的平均准确率为0.825、平均F1分数为0.672。与机器学习和图神经网络基线模型相比,所提方法在平均准确率和平均F1分数指标上最大提升幅度达6.4%和26.0%。【局限】 数据清洗步骤可以精细化处理,模型预测性能可以通过改进预训练策略进一步提升。【结论】 所提图注意力网络模型在药物ADMET分类预测上取得良好性能,可将其应用于虚拟药物筛选流程,为计算机辅助药物设计和药物发现提供参考。

Select

基于集成学习的胃癌生存预测模型研究

徐良辰, 郭崇慧

数据分析与知识发现. 2021, 5(8): 86-99. https://doi.org/10.11925/infotech.2096-3467.2021.0045

摘要 ( ) PDF全文 ( ) HTML ( )

可视化

【目的】 基于SEER数据库,构建胃癌5年生存预测模型,提升模型的判别性能,特别是对生存患者的判别能力,并分析胃癌5年生存影响因素,为胃癌预后评价提供支持。【方法】 基于集成学习算法,借鉴EasyEnsemble思想,通过数据层与模型层结合方式处理数据不平衡,基于Bagging方式集成多个Gradient Boosting分类器,据此构建基于不平衡胃癌生存数据的预测模型,并基于SHAP值对胃癌5年生存影响因素进行解释分析。【结果】 本文模型准确率达0.808,AUC为0.883,对小类类别的生存患者预测准确率为0.835,与其他模型相比具有更好的胃癌患者5年生存状况预测性能。此外,计算得出阳性淋巴结数量、肿瘤分期分级以及年龄具有较高的SHAP值。【局限】 SEER数据库统计的相关预后因素有限,一定程度限制了模型的性能,影响预测结果。【结论】 本文模型具有较好的性能,对小类类别的生存患者也具有很好的判别能力。归纳得出阳性淋巴结数量、肿瘤分期分级以及年龄对胃癌患者5年生存概率具有重要影响,符合临床经验。

Select

在线音乐歌单播放量预测及影响因素分析

刘渊晨, 王昊, 高亚琪

数据分析与知识发现. 2021, 5(8): 100-112. https://doi.org/10.11925/infotech.2096-3467.2020.1013

摘要 ( ) PDF全文 ( ) HTML ( )

可视化

【目的】 通过预测歌单播放量并探究影响播放量的因素,帮助甄别歌单的优劣,方便在线音乐平台对歌单质量进行把关。【方法】 利用爬虫获取网易云音乐歌单的数值特征和文本特征,采用Word2Vec和BERT对文本进行预训练,然后分别建立RF、XGBoost、DNN模型对歌单播放量进行多组预测对照实验。【结果】 DNN模型的预测准确率要高于RF和XGBoost模型,歌单的初始播放量、评论、收藏、转发数对播放量的影响最为显著,而文本特征会使预测准确率下降。【局限】 受到网易云音乐歌单推荐每日更新这一不可控因素的影响,只获取了歌单12h后的播放量数据。【结论】 通过构建播放量预测模型,可以帮助在线音乐网站对歌单优劣进行初步判断。

Select

海事适任评估中主观题自动评分技术研究

韩辉, 刘秀文

数据分析与知识发现. 2021, 5(8): 113-121. https://doi.org/10.11925/infotech.2096-3467.2020.1193

摘要 ( ) PDF全文 ( ) HTML ( )

可视化

【目的】 针对海事领域适任评估中主观题评分工作量大,易受阅卷人主观意向影响导致评分不客观的问题,构建一套针对海事领域的主观题自动评分系统。【方法】 首先,采用依存句法分析加权TextRank算法提取关键词;其次,融合句向量、核心词、句法成分及依存结构判断学生答案和标准答案的相似度;然后,建立海事专用否定词集判断学生答案与标准答案的语义对立关系;最后,给出较为客观的评分。【结果】 通过多组不同主观题进行测试,实验结果表明系统评分与人工阅卷的平均分差为0.21,偏差率为4.20%。【局限】 对较长且结构复杂的语句处理效果不够理想。【结论】 提出的主观题自动评分算法在海事适任评估主观题阅卷中总体效果较好。

Select

人才多元评价模型设计方法研究

徐曾旭林, 谢靖, 于倩倩

数据分析与知识发现. 2021, 5(8): 122-131. https://doi.org/10.11925/infotech.2096-3467.2020.1122

摘要 ( ) PDF全文 ( ) HTML ( )

可视化

【目的】 构建多维化指标、多样化标准和多元化主体的人才评价模型。【方法】 围绕学术成果、科研项目、合作交流及产出应用,从学术贡献与科研潜力两方面设计量化指标。【结果】 本研究提出指标可组合、权重可调整的分类人才评价模型,并设计数据驱动下多主体参与的模型应用流程。【局限】 研究尚处于理论研究阶段,还未结合大规模数据开展完整的验证实验。【结论】 所提模型提供人才的多维画像与多元评价方法,有助于完善人才评审机制,营造激发创新的科研生态。

Select

基于人工特征和机器特征融合的科技文献知识元抽取

柴庆凤, 史霖炎, 梅珊, 熊海涛, 贺惠新

数据分析与知识发现. 2021, 5(8): 132-144. https://doi.org/10.11925/infotech.2096-3467.2020.1221

摘要 ( ) PDF全文 ( ) HTML ( )

可视化

【目的】 基于深度学习的方法将科技文献的人工特征和机器特征进行融合,有效提升知识元抽取的效率。【方法】 基于科技文献特征,构建26个人工特征指标,主要包括三个层面,即篇章、句子、字词,并将其与Word2Vec和one-hot等机器特征基于LSTM、CNN、BERT模型从横向、纵向进行特征融合,完成知识元抽取。【结果】 特征纵向融合对知识元的抽取准确率最高约为0.91,与当时最传统方法效果相比提升约6个百分点。【局限】 当数据量过大时,深度学习模型运行占用内存过大,需要后续进行优化。【结论】 人工特征和机器特征纵向融合方式可以有效提升知识元抽取效果。

选择文件类型/文献管理软件名称

选择包含的内容

2021年, 第5卷, 第8期　
刊出日期：2021-08-25

模态框（Modal）标题

选择文件类型/文献管理软件名称

选择包含的内容

检索词推荐：

2021年, 第5卷, 第8期 刊出日期：2021-08-25

2021年, 第5卷, 第8期　
刊出日期：2021-08-25