期刊首页 在线期刊 当期目录

2024年, 第8卷, 第11期 
刊出日期:2024-11-25
  

  • 全选
    |
    研究论文
  • 李嘉伟, 张顺香, 李书羽, 段文杰, 汪雨晴, 邓金科
    数据分析与知识发现. 2024, 8(11): 1-10. https://doi.org/10.11925/infotech.2096-3467.2023.1005
    摘要 ( ) PDF全文 ( ) HTML ( )   可视化   收藏

    【目的】 为充分利用外部知识和上下文增强隐式情感文本,实现词级别的语义交互,本文提出一种基于文本图表征的中文隐式情感分析模型。【方法】 首先,将目标句和上下文建模为以词为节点的文本图;然后,针对图中的词节点,通过外部知识链接得到语义拓展的文本图;最后,将所得文本图通过图注意力网络在节点间传递语义信息,再由Readout操作得到文本图表征。【结果】 在公开的隐式情感分析数据集SMP2019-ECISA上进行模型评估,该模型F1值达到78.8%,较已有模型至少提高1.2个百分点。【局限】 生成的文本图大小与文本长度相关,处理长文本时会导致较大的内存和计算开销。【结论】 本文模型利用图结构从词级别建模外部知识、上下文和目标句的关联,可以有效地表征文本语义,提高隐式情感分析的准确率。

  • 李慧, 庞经纬
    数据分析与知识发现. 2024, 8(11): 11-21. https://doi.org/10.11925/infotech.2096-3467.2023.0744
    摘要 ( ) PDF全文 ( ) HTML ( )   可视化   收藏

    【目的】 为有效利用含音视频的信息,充分捕捉文本、图像、音频之间的交互作用,提出基于STFT-CNN的音频特征提取方法与融合文图音的多模态网民情感识别模型TIsA。【方法】 首先,将视频数据拆分为音频数据和图像数据;其次,利用BERT和BiLSTM获取文本特征表示,通过STFT将音频时域信号频域化并采用CNN提取音频特征和图像特征;最后,将三种模态特征进行融合。【结果】 采集新浪微博平台“9·5四川泸定地震”舆情数据进行实证,本文提出的TIsA模型的准确率、宏平均召回率和宏平均F1值分别达到96.10%、96.20%和96.10%,较相关基线模型效果更优。【局限】 未探究不同融合策略对情感识别结果的深层影响。【结论】 本文提出的网民情感识别模型在处理含音频视频的多模态信息时表现出较高准确率,能够更好地判断网民情感,为网络舆情分析提供有效支撑。

  • 余本功, 邢钰, 张书文
    数据分析与知识发现. 2024, 8(11): 22-32. https://doi.org/10.11925/infotech.2096-3467.2023.0746
    摘要 ( ) PDF全文 ( ) HTML ( )   可视化   收藏

    【目的】 为充分提取各模态特征,实现多模态特征的对齐与融合以及下游任务的设计,提出一种多模态协同对比学习的方面级情感分析模型MCCL-ABSA。【方法】 在文本侧利用方面词与句子中方面词编码的相似性,在图像侧利用图像经过随机裁剪后在不同顺序下编码的相似性,分别构造对比学习所需的正负样本;设计对比学习任务的损失函数,学习到更具区分度的特征表示;最后充分融合文本特征和图像特征,进行多模态方面级情感分析,同时联合对比学习任务,动态微调编码器。【结果】 在数据集TWITTER-2015上,较基线模型的最高准确率和F1值分别提高0.82和2.56个百分点;在数据集TWITTER-2017上,较基线模型的最高准确率和F1值分别提高0.82和0.25个百分点。【局限】 未验证模型在其他数据集上的泛化性。【结论】 本文模型能够有效改善特征提取的质量,以简洁高效的下游结构实现特征融合,提升多模态情感分类的效果。

  • 滕飞, 张奇, 曲建升, 李海英, 刘江枫, 刘伯瑜
    数据分析与知识发现. 2024, 8(11): 33-46. https://doi.org/10.11925/infotech.2096-3467.2023.0767
    摘要 ( ) PDF全文 ( ) HTML ( )   可视化   收藏

    【目的】 运用大数据分析方法识别关键核心技术,提高识别结果的准确性,为未来技术创新和大规模应用提供精准的数据支持。【方法】 在界定关键核心技术概念的基础上,提出一种基于专利竞争力指数和Doc-LDA主题模型的关键核心技术识别方法,使用主题强度、主题共现强度和有效凝聚约束系数判别关键核心技术主题。【结果】 以新能源汽车为例进行实证研究,共识别出燃料电池、固态动力电池、高效高密度电机驱动系统、塑料及复合材料轻量化、蜂窝通信、机电耦合一体化、变速器多档化、车用操作、智能控制、自动驾驶10项关键核心技术,并进一步进行趋势分析。【局限】 由于主题粒度的细化程度有限,一些潜在的微观机制尚未被充分揭示。【结论】 通过运用专利竞争力指数和Doc-LDA主题模型,全面评估技术的市场价值和竞争优势,从而提升了对技术发展趋势的预测精度。

  • 谢珺, 高婧, 续欣莹, 郝戍峰, 刘雨欣
    数据分析与知识发现. 2024, 8(11): 47-58. https://doi.org/10.11925/infotech.2096-3467.2023.0793
    摘要 ( ) PDF全文 ( ) HTML ( )   可视化   收藏

    【目的】 为解决方面级情感分析中大多数图卷积神经网络模型构建句法依赖图时忽略情感知识和句法依赖图中依赖关系过多产生噪声、对长距离或不连贯单词建模时性能降低等问题,提出一种基于知识增强的双Transformer网络的方面级情感分析模型DTNKE。【方法】 利用情感常识知识库SenticNet7中的情感得分改进句法依赖图并考虑对多种句法依赖关系类型分类降噪,使用双Transformer网络增强处理长距离词,同时改进句法依赖图增强语义特征的表示学习。【结果】 在5个公开数据集上,DTNKE模型的F1值分别达到74.97%、76.13%、74.83%、68.01%、74.54%,与多种基准模型平均的F1值相比,分别提高了3.85、5.22、3.48、6.80和7.49个百分点。【局限】 由于数据集中存在一定比例的隐式情感句,本文模型无法学习到更准确的隐式情感特征,因此分析结果受限。【结论】 本文模型融合情感常识知识和降噪后句法关系重构双Transformer网络,改善了方面级情感分析的效果。

  • 杜佳璘, 王西子, 胡广伟
    数据分析与知识发现. 2024, 8(11): 59-71. https://doi.org/10.11925/infotech.2096-3467.2023.0778
    摘要 ( ) PDF全文 ( ) HTML ( )   可视化   收藏

    【目的】 为探究政民互动平台公众满意度的影响因素,本文构建公众满意度影响因素分析模型。【方法】 利用领导信箱语料信息提取微观变量,结合宏观经济变量采用梯度提升决策树方法建立公众满意度分析模型,最后基于SHAP分析剔除影响较小的变量以进一步优化模型。【结果】 本文构建的公众满意度分析模型在准确率、召回率、查全率、F1值4项性能指标上均优于对比模型;GDP增长率、PCDI增长率、CPI增长率、来信主题、来信类型和回应模式是影响领导信箱的公众满意度的重要特征。【局限】 未探索更多影响因素及更广泛的“政府-公民”互动视角场景。【结论】 本文模型优化了变量筛选过程,并对各特征变量如何影响公众对政府回应效果满意的程度、方向和方式进行可视化,为数据驱动行政决策提供了分析工具。

  • 杨宁, 黄飞虎, 赵爽, 李杉, 胡威
    数据分析与知识发现. 2024, 8(11): 72-82. https://doi.org/10.11925/infotech.2096-3467.2024.0750
    摘要 ( ) PDF全文 ( ) HTML ( )   可视化   收藏

    【目的】 解决现有睡美人文献识别方法需要依赖长期引文曲线的问题,探索基于早期引文曲线的睡美人系数预测方法。【方法】 本文提出基于ts2net模型的预测方法,将文献的引文曲线转化为NVG、HVG和QG三种复杂网络,提取每个网络平均度、平均路径长度、聚集系数、社团数量和模块度等5个特征,并基于机器学习模型构建预测方法。【结果】 在Web of Science平台收集计算机领域89 681篇文献作为实验数据,结果表明,B系数与Bcp系数均与复杂网络特征具有相关性,结合机器学习模型构建的预测方法中,MLP与GBRT效果最好。MLP在Bcp系数预测上最优,误差为5.90%;GBRT在B系数预测上最优,误差为31.18%。【局限】 对于引文频率波动较大、睡眠周期较长的文献,本文方法的预测准确性会下降。此外,预测得到睡美人系数仅是睡美人文献的可能性指标,需结合下游睡美人文献识别模型或任务做进一步判别。【结论】 本文验证了将引文曲线转化为复杂网络,进而利用网络特征构建睡美人系数预测具有可行性。

  • 胡忠义, 秦维, 吴江
    数据分析与知识发现. 2024, 8(11): 83-90. https://doi.org/10.11925/infotech.2096-3467.2023.0838
    摘要 ( ) PDF全文 ( ) HTML ( )   可视化   收藏

    【目的】 拓展扩散模型在文本生成领域的应用,解决生成文本信息单一、存在冗余的问题。【方法】 采用TextRank算法提取原文本中的关键词信息,并将其融入序列扩散模型DiffuSeq,构建融合关键词信息的序列扩散模型K-DiffuSeq。【结果】 相较于基准模型,K-DiffuSeq模型生成的文本在困惑度指标上至少提升4.140%,ROUGE指标上至少提升32.692%,文本多样性指标上至少提升1.566%。【局限】 仅考虑商品有关的文本语料,忽略了图片、视频等更丰富的多模态商品信息。【结论】 融合关键词信息能够有效提升营销文本生成模型的性能,本研究验证了扩散模型在文本生成领域的应用潜力。

  • 胡懋地, 于倩倩, 钱力, 常志军, 张智雄
    数据分析与知识发现. 2024, 8(11): 91-101. https://doi.org/10.11925/infotech.2096-3467.2023.0828
    摘要 ( ) PDF全文 ( ) HTML ( )   可视化   收藏

    【目的】 为充分挖掘综述论文的语义情报内容,提出相关情报要素体系及其挖掘任务的形式化定义,构建相应的信息抽取技术框架。【方法】 针对综述论文专业性强、术语分布稀疏、标注难度大等问题,通过多任务学习实现跨任务标注数据的信息互补,并引入自监督学习实现未标注数据中潜在信息的挖掘利用。【结果】 本文所提技术框架显著增强了各项任务的性能表现,尤其是在要素间关系识别任务中,准确率提高8.32个百分点。此外,通过自监督学习,整体F1值进一步提升约2个百分点。【局限】 在信息抽取过程中,未考虑图片、表格等文本之外的数据。【结论】 提出了综述论文语义情报内容挖掘的方法流程,并引入多任务学习和自监督学习技术,利用跨任务标注数据及未标注数据提升挖掘效果。

  • 常博林, 袁义国, 李斌, 许智星, 冯敏萱, 王东波
    数据分析与知识发现. 2024, 8(11): 102-113. https://doi.org/10.11925/infotech.2096-3467.2023.0834
    摘要 ( ) PDF全文 ( ) HTML ( )   可视化   收藏

    【目的】 针对现有古汉语自动分词与词性标注技术存在的准确度不高、效率不高等问题,提出一种融合部首信息的古汉语自动分词与词性标注一体化模型。【方法】 基于7万余条汉字及其部首的数据,构建部首向量表示模型Radical2Vector。并将Radical2Vector模型与古汉语文本表示模型SikuRoBERTa相结合,共同拼接BiLSTM-CRF模型作为实验的主体模型结构。同时,设计分词与词性双层标注方案,在《左传》数据集上进行自动分词与词性标注一体化实验。【结果】 模型分词任务的F1值达到95.75%,词性标注任务的F1值达91.65%,相比基线模型分别提高8.71和13.88个百分点。【局限】 仅融合了每个汉字的单个部首信息,未利用汉字的其他部件信息。【结论】 本文成功融入汉字部首信息,有效提升了古汉语文本的表示效果。通过分词与词性标注的一体化方案,本文构建的模型在分词与词性标注任务上表现出色。

  • 叶乃夫, 袁得嵛, 张郅, 侯晓龙
    数据分析与知识发现. 2024, 8(11): 114-125. https://doi.org/10.11925/infotech.2096-3467.2023.0841
    摘要 ( ) PDF全文 ( ) HTML ( )   可视化   收藏

    【目的】 针对现有文本关系抽取模型只能获得部分文本特征的问题,构建基于交叉注意力的双通道文本关系抽取模型,提升文本关系抽取的全面性和准确性,实现领域数据集高性能关系抽取。【方法】 本文提出基于交叉注意力的双通道文本关系抽取模型DCCAM (Dual Channel Cross Attention Model),设计融合序列通道和图通道的双通道结构,构建自注意力和门控注意力的交叉注意力机制,促进文本特征高度融合,更深入地挖掘文本潜在的关联信息。在公开数据集和构建的两类警务领域数据集中进行实验。【结果】 在公开数据集NYT和WebNLG上的实验结果表明,DCCAM模型F1值与SAPCNN、GraphRel 2p模型相比分别提升3个百分点和4个百分点。此外,消融实验结果证明了各模块提升文本抽取能力的有效性。在警务领域的电信诈骗类数据集和帮助信息网络犯罪类数据集上的实验结果表明,DCCAM模型能够提高警务领域文本关系抽取效果,与GraphRel模型相比F1值分别提高8.8和11.8个百分点。【局限】 未从大语言模型的角度进行文本关系抽取技术的探索。【结论】 DCCAM模型可以显著提升文本关系抽取的能力,是警务工作中文本关联分析的解决方案。

  • 朱西平, 肖丽娟, 高昂, 郭露, 杨欢
    数据分析与知识发现. 2024, 8(11): 126-135. https://doi.org/10.11925/infotech.2096-3467.2023.0765
    摘要 ( ) PDF全文 ( ) HTML ( )   可视化   收藏

    【目的】 为实现碳中和数据间的语义关联性挖掘、提升整体三元组抽取准确性,提出一种基于MacBERT的实体关系联合抽取HmBER模型。【方法】 在HmBER模型中,通过相似度度量、实体边界辅助训练以及在关系抽取中引入实体类别特征,提升碳中和实体关系联合抽取的性能。【结果】 与Multi-head、CasRel、SpERT和STER模型结果对比表明,HmBER模型的F1值在碳中和数据集上分别平均提升2.39%、13.84%。【局限】 本方法处理的数据需要通过句子的意义推测实体关系联合抽取结果,没有做更深潜在语义的挖掘。【结论】 HmBER模型有效地解决数据漏标与实体边界错误问题,为实体关系联合抽取提供了高准确抽取思路。

  • 王煜栋, 白宇, 叶娜, 陈建军
    数据分析与知识发现. 2024, 8(11): 136-145. https://doi.org/10.11925/infotech.2096-3467.2023.0968
    摘要 ( ) PDF全文 ( ) HTML ( )   可视化   收藏

    【目的】 解决交互式检索场景中下位词扩展存在的主题漂移问题通过。【方法】 利用图注意力网络编码概念链与文本关系图节点,其中,概念链通过词交互过程建模获得,关系图通过字共现关系获得。通过引入注意力机制,克服传统文本编码过程中丢失查询场景信息的问题。【结果】 实验结果表明,本文方法比最好方法PRGC的F1值提升2.0%。【局限】 本文方法针对交互式场景进行设计,对交互数据的质量存在一定依赖性。【结论】 本文模型将概念链的结构特征和语义特征有效融合到文本特征中,同时对概念链和候选文本进行注意力计算,减少了在编码过程中造成的场景主题信息损失,缓解了主题漂移问题。