期刊首页 当期目录

2023年, 第7卷, 第2期 
刊出日期:2023-02-25
  

  • 全选
    |
    专题
  • 叶许婕, 赵宇翔, 张轩慧
    数据分析与知识发现. 2023, 7(2): 1-14. https://doi.org/10.11925/infotech.2096-3467.2022.0968
    摘要 ( ) PDF全文 ( ) HTML ( )   可视化   收藏

    目的】 探索Reaction视频(简称反应视频)用户的弹幕评论行为生成原因,并为弹幕视频内容创作中的价值共创提供理论支撑。【方法】 以哔哩哔哩视频网站的反应视频为例,选取不同分区的11个热门视频的弹幕信息资源作为分析样本,利用扎根理论开展编码研究。同时,结合认知情感系统理论(CAPS)框架,构建反应视频弹幕评论行为生成机制理论模型。【结果】 基于CAPS理论视角的反应视频用户弹幕评论行为总体遵循“情境-认知情感单元-行为”的路径。同时,用户的知识积累也会直接影响弹幕评论行为。【局限】 基于扎根理论构建的模型可能存在一定主观性偏差,仍需进一步对大样本反应视频进行分析以检验模型的普适性。【结论】 该模型为促进新兴数字内容的传播与弹幕视频内容创作中的价值增值、转化和共创提供了参考。

  • 张贞港, 余传明
    数据分析与知识发现. 2023, 7(2): 15-25. https://doi.org/10.11925/infotech.2096-3467.2022.1027
    摘要 ( ) PDF全文 ( ) HTML ( )   可视化   收藏

    目的】 将实体与关系融合,通过加权图卷积神经网络和关系归纳机制,聚合知识图谱的全局信息,增强知识图谱表示质量,提升其在知识图谱补全任务的效果。【方法】 提出一种新的用于知识图谱补全任务的端到端学习模型,该模型由邻居信息聚合模块、实体关系融合模块、交互模块和预测模块组成。邻居信息聚合模块聚合实体的邻居信息以丰富实体表示;实体关系融合模块利用实体之间的关系融合实体表示与关系表示;交互模块通过构建核心张量增强与实体和关系表示的交互;预测模块获取最终的预测结果。将所提模型应用到FB15K237、WN18RR、Kinship和UMLS4个数据集上,开展实证研究。【结果】 与传统的知识图谱补全模型相比,所提模型的Hits@1指标在FB15K237、WN18RR、Kinship和UMLS这4个数据集上分别提升4.1、3.9、17.8和5.3个百分点。【局限】 尚未探究知识图谱补全模型迁移到信息检索、推荐系统等任务上的效果。【结论】 通过加权图卷积网络,关系归纳机制以及对比学习损失能够显著提升知识图谱补全任务的效果。本研究对于补全知识图谱中的缺失信息,提升知识图谱在信息检索、自动问答等领域的应用效果具有重要参考意义。

  • 段宇锋, 贺国秀
    数据分析与知识发现. 2023, 7(2): 26-37. https://doi.org/10.11925/infotech.2096-3467.2022.0908
    摘要 ( ) PDF全文 ( ) HTML ( )   可视化   收藏

    目的】 对基于神经网络的中文医学文本命名实体识别模型进行分解,研究符号表示层和上下文编码层中基础神经网络模块功能以及多神经网络模块协同组合对实体识别性能的影响。【方法】 基于CCKS2017、CCKS2019和IMCS-NER等中文医学文本命名实体识别任务发布的基准语料,对比分析神经网络模型的符号表示层和上下文编码层采用不同神经网络模块时的性能差异。以此为基础,分别构建将多神经网络模块集成、并联、串联的实体识别模型,比较并分析其性能差异。【结果】 符号表示层使用hfl/chinese-macbert-base、hfl/chinese-roberta-wwm-ext、hfl/chinese-bert-wwm-ext等预训练语言模型能显著提高识别性能,平均F1值分别达到0.881 6、0.881 6、0.881 2;在上下文编码层融合神经网络模块能够提高识别性能。其中,基于集成的神经网络性能最优,F1值分别达到0.933 0、0.821 1、0.918 1。【局限】 实验仅基于中文医学文本语料,所得结论有待在其他语种的语料上进行验证。【结论】 基础神经网络模块的类型和多神经网络模块的协同方式显著影响神经网络在中文医学文本命名实体识别任务上的表现。

  • 赵一鸣, 潘沛, 毛进
    数据分析与知识发现. 2023, 7(2): 38-47. https://doi.org/10.11925/infotech.2096-3467.2022.0919
    摘要 ( ) PDF全文 ( ) HTML ( )   可视化   收藏

    目的】 为提高医学信息查询意图强度识别的精度并解决查询式词向量表征困难、标注数据集少等问题,设计一种基于任务知识融合与文本数据增强的医学信息查询意图强度识别方法。【方法】 在文本数据增强方面,选取SimBERT模型,实现小样本数据集的文本数据增强;在文本表示方面,利用医学信息查询式文本语料对BERT模型进行增量预训练,获得融合任务知识的MQ-BERT模型;在文本分类方面,在MQ-BERT后引入Bi-LSTM等模型进行分类任务,并对比文本数据增强前后的分类效果。【结果】 融合任务知识的MQ-BERT的分类结果F-Score达到92.22%,超越了阿里巴巴团队提出的MC-BERT在同一任务数据集上的最佳结果(F-Score=87.5%);文本数据增强后,模型分类效果进一步提升,其中基于MQ-BERT和Bi-LSTM的模型获得最佳分类结果,F-Score为95.34%,相比MC-BERT提升了7.84个百分点。【局限】 增量预训练过程的数据选择方法在未来可以进一步优化。【结论】 任务知识融合与文本数据增强能有效提高医学信息查询意图强度识别精度,针对不同强度的查询意图,应该对其查询结果采用不同的呈现方式,以提升医学信息检索系统的查询准确度,更好地满足用户的医学信息需求。

  • 王昊, 龚丽娟, 周泽聿, 范涛, 王永生
    数据分析与知识发现. 2023, 7(2): 48-60. https://doi.org/10.11925/infotech.2096-3467.2022.0923
    摘要 ( ) PDF全文 ( ) HTML ( )   可视化   收藏

    目的】 通过构建自动化检测模型有效识别社交媒体中的虚假信息,探讨如何解决人工识别、单特征机器学习等现存方法难以兼顾海量数据处理的速度与准确性的问题。【方法】 本文以新浪微博社交平台为研究对象,以单一文本特征BFID模型作为实验基准模型,提出两种融合语义增强的虚假信息检测方法。【结果】 以单一文本特征BFID模型的结果为基线,本文提出的融合情感特征的BFID-SEN模型在虚假信息识别的部分准确率上提升约1.59个百分点;融合图片特征的BFID-IMG模型通过结合深度残差网络ResNet,在虚假信息识别的部分准确率上稳定提升约0.78个百分点。【局限】 由于融合情感特征的语料数量、情感类别与多模态虚假信息数据集有限,模型训练不充分,因此语义增强的融合效果有限。【结论】 本文提出的两种融合语义增强方法均能在一定程度上更好地识别虚假信息。

  • 王宇飞, 张智雄, 赵旸, 张梦婷, 李雪思
    数据分析与知识发现. 2023, 7(2): 61-71. https://doi.org/10.11925/infotech.2096-3467.2022.0933
    摘要 ( ) PDF全文 ( ) HTML ( )   可视化   收藏

    目的】 设计中文科技论文标题自动生成系统,根据科技论文摘要自动生成论文标题,辅助研究人员进行科技论文标题的写作。【方法】 重点解决系统构建过程中涉及的三个关键问题:基于中国科学引文数据库构建大规模训练数据集,为系统提供数据支撑;基于BERT-UniLM构建标题生成模型,以取得较好的生成效果;基于HTTP设计应用程序接口,以实现系统的开放调用。【结果】 初步实现了中文科技论文标题自动生成系统,能够生成较为恰当地反映论文内容的标题。【局限】 BERT模型具有最大输入长度限制,对于输入超过长度限制的摘要会自动截断,因此较长摘要的标题生成效果可能会受到影响。【结论】 重点从数据、模型、开放调用三个方面设计和实现了中文科技论文标题自动生成系统,为科研人员及文献服务机构提供便捷易用工具,并为其他科技文本进行标题自动生成提供了一种实践路径。

  • 研究论文
  • 沈丽宁, 杨佳艺, 裴家旋, 曹广, 陈功正
    数据分析与知识发现. 2023, 7(2): 72-85. https://doi.org/10.11925/infotech.2096-3467.2022.0957
    摘要 ( ) PDF全文 ( ) HTML ( )   可视化   收藏

    目的】 从情绪诱因事件角度丰富传统细颗粒度情绪分析中的事件逻辑。【方法】 分析OCC模型中的情绪生成规则和条件,利用事件抽取和文本分类方法生成<事件,情绪>二元组。【结果】 研究构建了情绪生成规则,情绪类别划分具有理论基础。模型能够有效识别情绪诱因事件(F1=0.933 8)及情绪(F1=0.963 7),生成<事件,情绪>二元组(F1=0.889 2),实现事件级细颗粒度情绪分析。【局限】 情绪生成规则结构简单,难以体现网民情绪的多样性。现阶段构建的语料集存在领域局限性,每条语料只包含一种类型情绪诱因事件。【结论】 借助OCC模型将事件评价和情绪相关联,让情绪识别更接近人类思维方式。模型的理解性和迁移性较强,提升了现有研究中情绪对象的粒度层次,为文本情绪分析领域研究提供新思路。

  • 张思阳, 魏苏波, 孙争艳, 张顺香, 朱广丽, 吴厚月
    数据分析与知识发现. 2023, 7(2): 86-96. https://doi.org/10.11925/infotech.2096-3467.2022.0985
    摘要 ( ) PDF全文 ( ) HTML ( )   可视化   收藏

    目的】 提出基于多标签Seq2Seq模型的情绪-原因对提取方法,提高情绪-原因对抽取效果。【方法】 使用BERT预训练得到语义丰富的词向量,通过Bi-GRU和LSTM进行编码分别得到文本的全局特征和局部特征,引入混合注意力机制实现二者的融合,提高文本语义特征捕获的完整度。【结果】 相较于FSS-GCN模型,本文模型对情绪-原因对的联合抽取F1值在两个数据集上分别提升0.98个百分点和11.60个百分点,情绪抽取子任务分别提升0.87个百分点和1.10个百分点,原因抽取子任务分别提升0.79个百分点和2.31个百分点。【局限】 模型主要考虑显式情绪-原因对,未针对隐式情绪-原因对进行探讨。【结论】 本文提出的模型能提高情绪-原因对抽取效果。

  • 刘赏, 沈逸凡
    数据分析与知识发现. 2023, 7(2): 97-107. https://doi.org/10.11925/infotech.2096-3467.2022.0293
    摘要 ( ) PDF全文 ( ) HTML ( )   可视化   收藏

    目的】 为解决在虚假新闻检测中新闻评论难以收集、新闻文本简短难以提取有效信息的问题,本文给出一种基于新闻标题和正文差异性的虚假新闻检测方法。【方法】 首先,设计Cos-Gap差异性计算方法以获取新闻标题-正文在文本和情感上的差异性特征;然后,根据获得的差异性特征,以异构图注意网络为基础,构建新闻差异性异构图网络NDHN。该网络既包含基于差异性特征构造的边,也包含基于语义特征和情感特征构建的标题、正文和情感三种类型节点。【结果】 在GossipCop开放数据集上的实验结果显示,本文提出的检测方法在分类准确率上提升约2.7个百分点,F1指标提升约3.2个百分点。【局限】 本文方法适用于带有标题的新闻,对于微博、Twitter等无标题文本存在局限。【结论】 融合新闻差异性特征可以有效提升虚假新闻检测准确率,为社交媒体快速检测出虚假新闻提供有力支持。

  • 苏明星, 吴厚月, 李健, 黄菊, 张顺香
    数据分析与知识发现. 2023, 7(2): 108-118. https://doi.org/10.11925/infotech.2096.3467.2022.1083
    摘要 ( ) PDF全文 ( ) HTML ( )   可视化   收藏

    目的】 提升模型对文本结构特征和文本特征间关联性的感知,充分挖掘文本内在语义,深层次指导抽取任务。【方法】 对文本、句法和词性进行特征抽取,得到各自的特征;将不同的特征进行融合,获得完备的文本结构特征;再设计一个多层交互注意力机制,该机制聚焦于文本结构特征和文本特征之间的深层关联,并采用双线性融合策略,以保证信息的完整性;最后,通过常用的分类器进行属性抽取。【结果】 在公开的数据集上,所提模型的属性抽取准确率相比于已有模型至少提高了1.2个百分点。【局限】 所提模型对隐式属性词感知迟钝,句子中出现三个以上隐式属性词,模型的性能将大幅度降低。【结论】 在显式的商品属性词抽取任务中,建模文本结构特征与文本特征间关联性的方法可以有效提高属性抽取的准确率。

  • 刘向, 刘香, 余博文
    数据分析与知识发现. 2023, 7(2): 119-128. https://doi.org/10.11925/infotech.2096-3467.2022.0330
    摘要 ( ) PDF全文 ( ) HTML ( )   可视化   收藏

    目的】 通过专利数量和专利引用识别明星发明人类型的方法存在明显时滞效应,本文结合专利文本和发明者合作关系构建了图卷积神经网络,该模型可以用于明星发明人的早期识别。【方法】 从“延续性创新”、“突破性创新”两个维度将明星发明人的创新类型分为“复合型”、“巩固型”、“突破型”和“发展型”4类,结合专利标题信息和明星发明人的合作关系,构建基于图卷积神经网络的明星发明人类型的早期识别模型。【结果】 以分子生物学与微生物学领域内专利数据进行了验证,实验表明本模型识别明星发明人创新类型的整体准确率为79.4%,相较于只使用词向量的方法准确率提高了约15个百分点。【局限】 本文模型对于“突破型明星发明人”早期识别效果不理想,还需进一步寻找突破型发明人的特征,以提高模型的有效性。【结论】 本文模型可以克服基于专利数量和引证的识别方法的时滞效应,能尽早地识别明星发明人的创新类型。

  • 谢珍, 马建霞, 胡文静
    数据分析与知识发现. 2023, 7(2): 129-140. https://doi.org/10.11925/infotech.2096-3467.2022.0329
    摘要 ( ) PDF全文 ( ) HTML ( )   可视化   收藏

    目的】 提出一种多维度个人学术轨迹绘制框架,探索个人学术轨迹绘制和可视化呈现方法。【方法】 以时间序列为引线,从研究产出、研究主题、研究脉络、内容演进4个维度,综合运用统计分析、语义技术和可视化分析工具,多维度呈现学者的学术轨迹。【结果】 以冰冻圈科学领域两位学者为例,绘制个人学术轨迹。与现有工具相比,本文方法能拓展数据分析维度,丰富可视化呈现形式。【局限】 数据源主要是论文数据,还需进一步整合专利、项目等其他形式的学术成果数据;绘制过程需要分别使用多个工具软件,还需要更多的工作实现这些工具的集成和平台化整合。【结论】 本文方法可用于学术画像、学者评价、代表作遴选等工作实践中,也能为个人学术成果集成和分析平台提供借鉴。

  • 杜悦, 常志军, 董美, 钱力, 王颖
    数据分析与知识发现. 2023, 7(2): 141-150. https://doi.org/10.11925/infotech.2096-3467.2022.0328
    摘要 ( ) PDF全文 ( ) HTML ( )   可视化   收藏

    目的】 解决传统三元组式知识图谱表示方法面对科技文献数据变动导致的数据一致性问题,构建满足科技信息服务需求的大规模科研知识图谱。【方法】 提出隐式知识图谱构建方法,通过实体特征字段和隐式关系概念配合实体特征字段的识别工具和隐式关系的发现工具,实现对实体的持续更新和对实体关系的自动关联发现。【结果】 本文方法已在PB级科技文献大数据平台实践应用,处理由于实体数据变化引起的修改时,隐式知识图谱只需更改实体数据而无需对关系数据进行修改;检索性能优越,通过预定义的接口检索机构所有学者的平均耗时缩减至三元组式知识图谱的百分之一。【局限】 对于不符合隐式关系数据结构的情况很难固化,实体数据必须存储在具有搜索引擎的技术集群中。【结论】 本文提出的隐式知识图谱构建方法很好地解决了由于实体信息变动引发的数据一致性问题,适用于大规模科研知识图谱的构建,有助于科技知识的高效管理和传播利用。