期刊首页 当期目录

2021年, 第5卷, 第7期 
刊出日期:2021-07-25
  

  • 全选
    |
    研究论文
  • 李文娜, 张智雄
    数据分析与知识发现. 2021, 5(7): 1-9. https://doi.org/10.11925/infotech.2096-3467.2021.0143
    摘要 ( ) PDF全文 ( ) HTML ( )   可视化   收藏

    【目的】 解决不同知识库中的实体对齐问题,探索如何有效地同时利用知识库结构信息和语义信息的实体对齐方法。【方法】 利用TransE模型表示实体的结构信息,利用BERT模型表示实体的语义信息,并设计基于知识库实体的结构信息和语义信息的联合语义表示模型(BTJE),通过孪生网络实现实体对齐。【结果】 本文方法在DBP-WD和DBP-YG数据集上最优MRR值分别达到0.521和0.413,Hits@1达到0.542和0.478,优于其他传统方法。【局限】 实验数据集规模有限,在更大规模知识库上的通用性有待考证。【结论】 探索了一种基于联合语义表示的不同知识库中的实体对齐方法,通过在模型中同时引入实体的结构信息和语义信息,有效提高了模型对实体的表示能力,从而在不同知识库中的实体对齐任务中有较好的性能。

  • 王昊, 林克柔, 孟镇, 李心蕾
    数据分析与知识发现. 2021, 5(7): 10-25. https://doi.org/10.11925/infotech.2096-3467.2020.1230
    摘要 ( ) PDF全文 ( ) HTML ( )   可视化   收藏

    【目的】 探索法律判决书中不同模型的实体识别效果,为法律知识库的构建奠定基础。【方法】 提取刑事判决书中的庭审过程和法院意见构造数据集,比较人工构造特征的CRFs模型和加入预训练词向量做文本表示的自动生成特征的IDCNN-CRFs模型与BiLSTM-CRFs模型的实体识别效果,并在少量其他类型法律判决书文本上比较模型的迁移能力。【结果】 ALBERT-BiLSTM-CRFs模型实体识别效果最好,F1微平均值达95.28%;IDCNN-CRFs模型的识别效果低于前者,但训练时间是前者的1/6,两个模型均具有较好的迁移能力。【局限】 识别的实体多为通用实体,后续考虑标注更多领域特有实体,增强研究对实际应用的参考价值。【结论】 法律判决书的实体识别中,ALBERT-BiLSTM-CRFs和IDCNN-CRFs模型比CRFs模型效果更好,且迁移能力更强。

  • 喻雪寒, 何琳, 徐健
    数据分析与知识发现. 2021, 5(7): 26-35. https://doi.org/10.11925/infotech.2096-3467.2021.0094
    摘要 ( ) PDF全文 ( ) HTML ( )   可视化   收藏

    【目的】 为有效抽取典籍中蕴含的事件信息,构建面向典籍的事件抽取框架,并采用RoBERTa-CRF模型实现事件类型、论元角色和论元的抽取。【方法】 选择《左传》的战争句作为实验数据,建立事件类型和论元角色的分类模板。基于RoBERTa-CRF模型,先用多层Transformer提取语料特征,再结合前后文序列标签学习相关性约束,由输出的标记序列识别论元并对其进行抽取。【结果】 对比GuwenBERT-LSTM、BERT-LSTM、RoBERTa-LSTM、BERT-CRF、RoBERTa-CRF等5种模型在数据集上的事件抽取实验结果,RoBERTa-CRF的精确度为87.6%、召回率为77.2%、F1值达到82.1%,验证了该模型的有效性和可操作性。【局限】 使用的数据集规模较小,无法使主题类别更均衡化。【结论】 本文构建的RoBERTa-CRF模型提升了面向《左传》战争句的事件抽取效果。

  • 陈星月, 倪丽萍, 倪志伟
    数据分析与知识发现. 2021, 5(7): 36-47. https://doi.org/10.11925/infotech.2096-3467.2020.1296
    摘要 ( ) PDF全文 ( ) HTML ( )   可视化   收藏

    【目的】 针对金融事件抽取中金融事件实体边界模糊、抽取不准确的问题,提出基于预训练模型ELECTRA和词性特征的金融事件抽取方法。【方法】 为增强模型对金融关键实体的感知力,充分考虑语料原始的语义信息以及词性特征信息,将语料分别通过两个ELECTRA预训练模型后进行融合操作,达到增强语义的效果;将学习到的信息传入BiGRU中,获取上下文长距离的语义依赖,输出原始的序列标签;利用CRF克服标签偏差问题,通过上述步骤完成金融事件抽取。【结果】 基于预训练模型ELECTRA和词性特征的金融事件抽取方法在金融事件数据集上F1值达到70.96%,比经典的抽取模型BiLSTM-CRF性能提升20.74个百分点。【局限】 数据集中事件数较少,预训练模型体积较大,会受到GPU/TPU内存的限制。【结论】 本文模型能够更加全面地捕捉金融事件元素之间的联系,提升金融事件抽取的效果。

  • 刘文斌, 何彦青, 吴振峰, 董诚
    数据分析与知识发现. 2021, 5(7): 48-58. https://doi.org/10.11925/infotech.2096-3467.2021.0033
    摘要 ( ) PDF全文 ( ) HTML ( )   可视化   收藏

    【目的】 实现双语句子的自动对齐,为构建双语平行语料库、跨语言信息检索等自然语言处理任务提供技术支持。【方法】 将BERT预训练引入句子对齐方法中,通过双向Transformer提取特征,每一个词汇由位置嵌入向量、单词嵌入向量、句子切分嵌入向量三种向量叠加表征词汇的语义信息,进而对源语言与译文、目标语言与译文实施双向度量,融合BLEU得分、余弦相似度和曼哈顿距离三种相似度进行句子对齐。【结果】 通过两种任务验证方法的有效性。在平行语料库过滤任务中,召回率为97.84%;在可比语料过滤任务中,当噪声比率分别为20%、50%、90%时,精确率依次为99.47%、98.31%、95.00%。【局限】 文本向量化与相似度计算方法可以采用更具有语义表征的方式进行改进。【结论】 本方法在平行语料过滤和可比语料过滤两个任务中均优于基线系统,能够获得大规模、高质量的平行语料。

  • 张乐, 冷基栋, 吕学强, 崔卓, 王磊, 游新冬
    数据分析与知识发现. 2021, 5(7): 59-69. https://doi.org/10.11925/infotech.2096-3467.2021.0089
    摘要 ( ) PDF全文 ( ) HTML ( )   可视化   收藏

    【目的】 提出一种基于强化学习的中文专利摘要改写模型(RLCPAR),以解决现有的自动摘要方法在处理多句子摘要改写时存在的句子冗余和准确率低的问题。【方法】 引入专利术语词典,运用基于强化学习的句子抽取方法,对专利说明书文本的关键句进行抽取,利用Transformer深度神经网络文本生成方法生成候选摘要,最终融合专利原始摘要信息,经过语义去重和排序得到改写的摘要。【结果】 RLCPAR模型实现端到端的专利摘要改写,并且在ROUGE-1、ROUGE-2和ROUGE-L评价标准上分别达到56.95%、37.21%和51.24%。【局限】 数据主要来源于中药材领域,在其他领域中的效果有待验证。【结论】 RLCPAR模型明显优于其他序列生成方法,改善了中文专利摘要改写的效果。

  • 赵丹宁,牟冬梅,白森
    数据分析与知识发现. 2021, 5(7): 70-80. https://doi.org/10.11925/infotech.2096-3467.2020.1139
    摘要 ( ) PDF全文 ( ) HTML ( )   可视化   收藏

    【目的】 构建基于深度学习的科技文献非结构式摘要结构要素自动抽取方法。【方法】 以结构式摘要为训练样本,采用LSTM、Attention机制等深度学习方法训练模型,自动抽取非结构式摘要中的“目的”“方法”“结果”三种结构要素,并对摘要进行结构化。【结果】 该方法对非结构式摘要中的“目的”“方法”“结果”三种结构要素抽取的F值分别为0.951、0.916、0.960。【局限】 深度学习可解释性相对较弱。【结论】 该方法在非结构式摘要的结构要素自动抽取和摘要结构化方面具有良好的准确性。

  • 沈科杰, 黄焕婷, 化柏林
    数据分析与知识发现. 2021, 5(7): 81-90. https://doi.org/10.11925/infotech.2096-3467.2021.0145
    摘要 ( ) PDF全文 ( ) HTML ( )   可视化   收藏

    【目的】 基于公开履历信息,结合自然语言处理技术与知识图谱构建技术,自动化建立履历知识图谱,为传统研究提供新的视角和工具。【应用背景】 自动抽取履历数据中的人物背景、职衔信息并构建任职经历和机构同事等关系,通过可视化呈现的方式为企事业单位的人才选拔、人事任免任务提供决策支持。【方法】 爬虫获取履历数据后,使用BERT-BiLSTM-CRF模型进行实体识别,通过定义规则与融合外部领域知识构建实体间关系,并使用Neo4j图数据库实现实体及关系的存储与图谱可视化。【结果】 BERT-BiLSTM-CRF模型在实体识别任务测试集上的准确率为84.85%。图谱囊括561位干部履历信息,包含3类共8 174个实体和5类共20 162条关系,能够支持多角度的查询与分析挖掘。【结论】 构建的知识图谱发掘了履历文本间的内在关联,为基于履历数据的研究应用提供了一种新颖易用的方案,但暂缺乏精细化的实体对齐处理和机构实体之间统属关系的构建。

  • 陆泉, 何超, 陈静, 田敏, 刘婷
    数据分析与知识发现. 2021, 5(7): 91-100. https://doi.org/10.11925/infotech.2096-3467.2020.1173
    摘要 ( ) PDF全文 ( ) HTML ( )   可视化   收藏

    【目的】 构建一个基于两阶段迁移学习的多标签分类模型,以解决现有模型中多标签数据采样困难与跨领域迁移学习共性特征较少的问题。【方法】 提出“通用领域-目标领域单标签数据-多标签数据”的两阶段迁移学习模型,首先在通用领域上训练,之后迁移到使用上采样方法均衡后的目标领域单标签数据进行微调,最后迁移到多标签数据,实现多标签分类。【结果】 以医学文献图像标注为例,实证结果表明:所提模型对于图像多标签分类和文本多标签分类任务均有较好效果,F1值在一阶段迁移学习模型的基础上提升超过50%。【局限】 如何根据不同任务优选基础模型和采样方法还有待研究。【结论】 本研究可供存在数据集受限的领域大数据标注、检索与利用等研究借鉴。

  • 杨晗迅, 周德群, 马静, 罗永聪
    数据分析与知识发现. 2021, 5(7): 101-110. https://doi.org/10.11925/infotech.2096-3467.2020.1216
    摘要 ( ) PDF全文 ( ) HTML ( )   可视化   收藏

    【目的】 通过引入不确定性损失函数和层级注意力机制,解决多任务谣言检测研究中主观设定主任务和辅助任务问题。【方法】 融合谣言勘探、立场检测和谣言检测任务的领域信息,构建改进的任务层级注意力机制模型。同时,首次在多任务谣言检测研究中,引入同方差不确定性损失函数,替代传统损失函数。最后使用PHEME数据集,将改进模型与传统多分类模型进行对比。【结果】 所提模型相比于目前最优模型,在Pheme4数据集中,Macro-F值提升4.2个百分点;在Pheme5数据集中,Macro-F值提升7.6个百分点。【局限】 只在Pheme数据集进行实验测试,对于其他谣言检测数据集未测试。【结论】 该模型在不划分主任务和辅助任务的情况下,仍可得到理想解。

  • 朱侯,方清燕
    数据分析与知识发现. 2021, 5(7): 111-125. https://doi.org/10.11925/infotech.2096-3467.2021.0140
    摘要 ( ) PDF全文 ( ) HTML ( )   可视化   收藏

    【目的】 基于传统隐私计算提出可量化模型,对社会化媒体平台用户的隐私悖论行为进行更客观的量化研究。【方法】 采用IRT模型和灰色关联分析法对用户信息进行量化,并从效用最大化的角度——感知效益和感知风险的角度构建模型,计算和分析社交平台上的均衡解。利用部分用户信息代入模型进行验证。【结果】 通过量化计算,得到平台风险量为0.479,小于0.508的效益量,从而求得均衡系数为1.063。结果验证了隐私悖论的存在,并且利用数据检验模型,符合现实情况。【局限】 对感知效益量化框架缺乏检验,并且无法获得用户更全面的数据。两部分量化模型的融合缺少已经证实的统一标准。【结论】 提出新的可量化的模型,为隐私悖论提供了客观的痕迹数据的支撑,同时也为社会化平台用户隐私行为建模奠定了基础。

  • 徐月梅, 王子厚, 吴子歆
    数据分析与知识发现. 2021, 5(7): 126-138. https://doi.org/10.11925/infotech.2096-3467.2020.0907
    摘要 ( ) PDF全文 ( ) HTML ( )   可视化   收藏

    【目的】 在传统基于股市数值分析的基础上,研究新闻对股票市场的影响,提高股票走势预测的准确率。【方法】 引入卷积神经网络和双向长短时记忆模型挖掘财经新闻中的新闻事件类型和新闻情感倾向,提出一种深度融合股市财务数据、新闻事件特征及新闻情感特征的股票预测模型。为了验证所提模型对不同行业个股走势的可行性,分别选取家用电器行业和通信行业的两只股票作为实验对象。【结果】 引入新闻事件和情感特征后,模型的预测准确率进一步提升,家用电器行业准确率提高了11.6%,通信行业准确率提高了25.6%。【局限】 模型未考虑不同预测周期对股票预测的影响。【结论】 引入新闻事件类型和情感倾向能够提高股票走势预测的性能。本文评估影响股票走势的因素,并对影响股票走势预测的特征重要性进行排序。