Please wait a minute...
Advanced Search
  • 数据分析与知识发现
      2023年, 第7卷, 第4期 刊出日期:2023-04-25   
    选择: 合并摘要
    综述评介
    学科交叉主题识别方法研究综述*
    李佳蕾, 安培浚, 肖仙桃
    数据分析与知识发现. 2023, 7 (4): 1-15.   DOI: 10.11925/infotech.2096-3467.2022.0687
    摘要   HTML ( 29 PDF(1013KB) ( 426 )  

    【目的】 通过文献调研梳理总结学科交叉主题识别的各种方法,总结不足与改进方向。【文献范围】 以CNKI和Web of Science核心数据库为数据源,针对学科交叉主题识别的相关概念与方法构造检索式,最终确定74篇文献进行综述。【方法】 在厘清“学科交叉”内涵及相近概念的基础上,从基于外部特征的识别、基于内部特征的识别及二者结合的识别三种角度出发,对学科交叉主题识别方法进行梳理评述。【结果】 现有方法还存在一些不足,如数据源和识别语料单一、识别方法语义性不足、识别粒度较粗、缺少主题级学科交叉测度指标、识别结果缺少前瞻性与动态探索性。【局限】 主要选取代表性文献进行综述;未深入阐述交叉主题识别的技术细节;未重点综述学科交叉文献发现的研究;对学科交叉趋势跟踪、学科分类聚类等研究在学科交叉主题识别中的应用覆盖不够。【结论】 未来研究应扩展基于多源数据或全文本识别方法,提高识别方法的语义挖掘能力,进行细粒度交叉主题识别,构建多维学科交叉主题测度指标,加强对潜在交叉主题和学科交叉动态趋势的研究。

    图表 | 参考文献 | 相关文章 | 多维度评价
    研究论文
    面向网络舆情事件的多层次情感分歧度分析方法*
    华玮, 吴思洋, 俞超, 吴婕洵, 徐健
    数据分析与知识发现. 2023, 7 (4): 16-31.   DOI: 10.11925/infotech.2096-3467.2022.0370
    摘要   HTML ( 25 PDF(2395KB) ( 339 )  

    【目的】 面对网络舆情事件,从情感分歧角度出发,为舆情分析提供新的分析角度。【方法】 引入情感分歧度概念,创建多层次情感分歧度算法,构建网络舆情事件多层次情感分歧度分析模型,对网络舆情事件层、评论对象层、用户层进行情感值及情感分歧度的计算,并将三个层次进行关联分析。【结果】 实验结果表明,引入情感分歧度可以弥补原有情感分析研究中对网民意见分歧角度的缺失,本模型可以实现舆情事件关键节点及争议较大的评论对象的识别、判断舆论引导效果,并对舆情争议产生的原因实现精准定位。【局限】 仅选取微博作为数据源,未从豆瓣、知乎等其他平台获取数据。【结论】 本文模型可应用于监控舆情事件关键节点、根据争议原因选择不同的舆论引导方式以及判断舆论引导效果。

    图表 | 参考文献 | 相关文章 | 多维度评价
    基于多头自注意力池化与多粒度特征交互融合的微博情感分析*
    闫尚义, 王靖亚, 刘晓文, 崔雨萌, 陶知众, 张晓帆
    数据分析与知识发现. 2023, 7 (4): 32-45.   DOI: 10.11925/infotech.2096-3467.2022.0412
    摘要   HTML ( 15 PDF(1164KB) ( 365 )  

    【目的】 高效、准确地挖掘微博文本中所蕴含的情感信息,提升情感分析效果。【方法】 采用WoBERT Plus与ALBERT分别对词级文本与字级文本进行动态编码,接着利用卷积操作提取局部关键特征,然后利用跨通道特征融合与多头自注意力池化操作提取全局语义信息并筛选出关键数据,最后利用多粒度特征交互融合操作将字级与词级语义信息进行有效融合,利用Softmax函数输出分类结果。【结果】 本文模型在weibo_senti_100k数据集上的准确率与F1值分别为98.51%、98.53%,在 SMP2020-EWECT数据集上的准确率与F1值分别为80.11%、75.62%,其表现均优于各数据集上先进的情感分析模型。【局限】 在进行情感分析时,未考虑视频、图片、语音等多模态信息。【结论】 所提模型提升了微博文本情感分析的效果,可以有效地完成微博文本情感分析任务。

    图表 | 参考文献 | 相关文章 | 多维度评价
    基于双向掩码注意力机制的多模态情感分析*
    张昱, 张海军, 刘雅情, 梁科晋, 王月阳
    数据分析与知识发现. 2023, 7 (4): 46-55.   DOI: 10.11925/infotech.2096-3467.2022.0151
    摘要   HTML ( 24 PDF(1172KB) ( 456 )  

    【目的】 为充分利用多模态信息,实现更有效的模态间交互,本文提出一种基于双向掩码注意力机制的多模态情感分析模型BMAM。【方法】 该模型同时建模文本和语音两个模态,对于每个模态,掩码注意力通过引入另一个模态的信息来动态调整当前模态的注意力权值,从而获取更精准的模态表示。这些模态表示既保留了模态固有的独特性,又减少了与另一个模态的差异性,帮助模型实现最佳的情感决策。【结果】 在通用的多模态情感分析数据集IEMOCAP上对模型进行评估验证,模型的情感分析加权准确率达到74.1%,相较于现有主流方法有明显提升。【局限】 模型对数据集中占比较大的Neutral、Anger这两个情感类别有较高的识别效果,而对数据集中占比较小的Happy、Sad情感类别的识别性能较差。【结论】 本文模型能有效利用多模态间的相互作用以合理调整模态自身情感元素间的注意力权重,实现更有效的情感决策。

    图表 | 参考文献 | 相关文章 | 多维度评价
    基于文本内容自动分类的跨学科测度研究*
    吕琦, 上官燕红, 张琳, 黄颖
    数据分析与知识发现. 2023, 7 (4): 56-67.   DOI: 10.11925/infotech.2096-3467.2022.0676
    摘要   HTML ( 18 PDF(1198KB) ( 357 )  

    【目的】 根据文献内容划分学科属性以满足基于单篇文献学科分类的跨学科测度需求。【方法】 基于鲁汶-布达佩斯(Leuven-Budapest)学科分类体系,根据15个一级学科的期刊文献摘要信息,选取机器学习、深度学习、预训练语言模型等自动分类领域中使用较广泛的三类方法对期刊文献进行分类,并根据改进后的SCIBERT模型的学科分类结果对15个一级学科进行跨学科测度分析。【结果】 改进后的SCIBERT模型自动分类效果最好,平均F1值为81.45%,个别类别的分类效果达到90%以上;15个一级学科中生物医学研究跨学科程度最高为0.38,物理学跨学科程度最低为0.08。【局限】 从文本内容视角考量跨学科测度,未结合其他视角引入多维跨学科测度指标进行全面测量,未引入多种方法进行跨学科性测度。【结论】 预训练模型在期刊文献的自动分类领域效果最优,深度学习模型次之,机器学习模型的期刊文献自动分类效果最差;利用自动分类的方法面向文献内容进行跨学科测度,拓宽了当前跨学科测度的研究体系,有助于多角度、深层次的理解跨学科研究。

    图表 | 参考文献 | 相关文章 | 多维度评价
    基于超图的科研合作推荐研究*
    陈文杰
    数据分析与知识发现. 2023, 7 (4): 68-76.   DOI: 10.11925/infotech.2096-3467.2022.0430
    摘要   HTML ( 14 PDF(979KB) ( 301 )  

    【目的】 为促进科研人员间的合作交流与学术团体的构建,提出基于超图的推荐算法SCRH,用于干细胞领域的科研合作推荐研究。【方法】 构建基于超图结构的科研合作超网络,然后基于共同邻居和资源分配构建超图的结构相似性指标,利用作者主题模型和深度自编码器构建超图的属性相似指标,最后将两种度量指标线性融合以实现科研合作推荐。【结果】 SCRH在合作推荐任务上AUC和MR指标值为0.88和2.35,相较于对比算法最优指标度量分别提升0.11和0.79。【局限】 SCRH在节点属性相似性度量中仅考虑作者的文本属性,没有充分利用作者的引用信息、机构信息和发文等级等属性信息。【结论】 SCRH同时考虑了超图的结构特征与属性特征,能够有效完成干细胞领域的科研合作推荐任务。

    图表 | 参考文献 | 相关文章 | 多维度评价
    基于Conv-BiLSTM模型的虚拟社区用户生成内容创新价值识别问题研究:交互协同的视角*
    王松, 徐雅静, 刘新民
    数据分析与知识发现. 2023, 7 (4): 77-88.   DOI: 10.11925/infotech.2096-3467.2022.0403
    摘要   HTML ( 11 PDF(1035KB) ( 339 )  

    【目的】 缓解虚拟社区开放式创新用户生成内容信息过载、处理效率低等问题,优化用户生成内容质量,有效识别并分析用户创新内容,提高虚拟社区协同创新绩效。【方法】 基于交互协同视角提出一种用户生成内容创新价值识别方法:一是在创新要素特征方面,在用户属性和内容属性的基础上,引入创新要素异质性属性;二是在创新过程特征方面,关注交互内容的时序性和协同性。建立融合要素特征和过程特征的卷积-双向长短时记忆网络(Conv-BiLSTM)模型进行用户生成内容的价值识别。【结果】 选取典型虚拟社区数据进行实证研究,结果表明:融合要素特征和过程特征模型的准确率为88.65% ,过程特征的引入使模型准确率提升14.22个百分点,协同要素异质性属性的引入使模型准确率提升6.48个百分点,较其他基准模型与组合模型均有不同程度提升。【局限】 仅针对虚拟社区创新内容识别取得较好的结果,需要提高模型的泛化能力,进而应用于其他类型协同创新识别方面。【结论】 将创新交互的过程特征和协同创新要素异质性属性引入虚拟社区用户生成内容识别模型中,有效提升了识别的准确率,可以为社区开放式创新管理提供技术参考。

    图表 | 参考文献 | 相关文章 | 多维度评价
    面向重复消费场景的会话推荐算法研究
    田甜俊子, 朱学芳
    数据分析与知识发现. 2023, 7 (4): 89-100.   DOI: 10.11925/infotech.2096-3467.2022.0378
    摘要   HTML ( 13 PDF(1853KB) ( 410 )  

    【目的】 提升会话推荐模型在重复消费场景中的性能,减轻信息过载带来的负面影响。【方法】 对适用于重复消费场景的重复-探索机制进行改进,并基于自注意力机制,采取非侵入性方式融合位置信息,优化边信息利用效果。新模型性能在公共数据集上得到了验证。【结果】 相较于次优值,新模型在Yoochoose 1/64数据集上的召回率、平均排序倒数分别提升0.71%、1.69%;在Diginetica数据集上的召回率、平均排序倒数分别提升3.08%、5.72%。【局限】 实验仅使用位置信息作为边信息进行验证,且用于验证的数据集有限。【结论】 实验结果验证了所提模型对重复-探索机制的改进、对非侵入性边信息的利用具备有效性,能为推荐系统提供新的优化思路,进而提高个性化信息服务水平。

    图表 | 参考文献 | 相关文章 | 多维度评价
    网评贴文自动生成方法研究*
    刘欣然, 徐雅斌, 李继先
    数据分析与知识发现. 2023, 7 (4): 101-113.   DOI: 10.11925/infotech.2096-3467.2022.0379
    摘要   HTML ( 18 PDF(1288KB) ( 102 )  

    【目的】 为反制社交网络中的恶意信息、引导正确的舆论走向,提出一种时序序列生成式对抗网络(T-SeqGAN),实现网评贴文自动生成。【方法】 通过将序列生成式对抗网络(SeqGAN)的生成器修改为Seq2Seq结构,分别以双向门控循环单元和时序卷积神经网络(TCN)作为其编码器与解码器的骨架网络的方式,提高生成贴文与真实网评贴文的语序结构及语义特征的相似性;通过将SeqGAN的判别器修改为TCN与注意力机制层相结合的模型的方式,提高生成贴文的语句通顺度。【结果】 与基线模型相比,利用T-SeqGAN生成的网评贴文BLEU-2(0.799 35)、BLEU-3(0.603 96)、BLEU-4(0.476 42)、KenLM(-27.670 29)指标值更高,PPL(0.752 47)指标值更低。【局限】 生成贴文的词汇量及语言风格受制于已有的真实贴文,网评贴文自动生成方法的适用情景受限。【结论】 本文模型生成的网评贴文具有更高的语序正确性和语法正确性,与真实贴文的内容相似性也更高,能够在社交网络中引导正确的舆论走向。

    图表 | 参考文献 | 相关文章 | 多维度评价
    融合多模态特征的深度强化学习推荐模型*
    潘华莉, 谢珺, 高婧, 续欣莹, 王长征
    数据分析与知识发现. 2023, 7 (4): 114-128.   DOI: 10.11925/infotech.2096-3467.2022.0479
    摘要   HTML ( 26 PDF(1821KB) ( 431 )  

    【目的】 利用多模态特征融合和深度强化学习缓解数据稀疏性和用户兴趣偏好动态变化问题。【方法】 使用预训练模型和注意力机制分别实现模态内表征和三模态间融合,同时建模用户-项目交互,并利用深度强化学习算法实时捕捉用户兴趣漂移和长短期奖励实现个性化推荐。【结果】 较对比模型中最高值,所提模型在MovieLens-1M、MovieLens-100K和Douban数据集上的Precision@5分别提高11.8%、16.5%和11.4%,NDCG@5分别提高5.3%、8.0%和6.4%。【局限】 Douban数据集的用户交互历史较少,所提模型在训练过程中无法学习到更准确的用户偏好,与在MovieLens数据集上的实验相比,推荐结果受限。【结论】 所提模型融合项目多模态信息重构深度强化学习的状态表示网络,改善了推荐效果。

    图表 | 参考文献 | 相关文章 | 多维度评价
    大群体应急决策中基于价值测度的模糊本体知识融合方法及应用*
    徐选华, 代笑含, 陈晓红
    数据分析与知识发现. 2023, 7 (4): 129-144.   DOI: 10.11925/infotech.2096-3467.2022.0347
    摘要   HTML ( 11 PDF(1217KB) ( 249 )  

    【目的】 针对大群体应急决策中大量不确定和不准确的信息难以表示和存储的问题,提出一种基于模糊本体的知识融合方法。【方法】 使用多粒度犹豫模糊语言构建模糊本体,基于K-Means实现专家聚类,定义价值测度以求解聚集权重和实现知识融合,从而构建大群体应急知识库以确定最优方案。【结果】 实现对专家知识的表示和存储以及在大群体应急决策中的应用。案例分析表明本方法能够实现应急知识库的构建、提高知识融合效率、处理多阶段应急决策问题。【局限】 未考虑专家间的复杂关系;专家聚类只考虑了意见相似度;属性信息还可以从其他维度进行确定。【结论】 本研究丰富了决策知识融合的方法,为处理多阶段大群体应急决策提供了新思路。

    图表 | 参考文献 | 相关文章 | 多维度评价
    MPMFC:一种融合网络邻里结构特征和专利语义特征的中药专利分类模型*
    邓娜, 何昕洋, 陈伟杰, 陈旭
    数据分析与知识发现. 2023, 7 (4): 145-158.   DOI: 10.11925/infotech.2096-3467.2022.0429
    摘要   HTML ( 16 PDF(1139KB) ( 230 )  

    【目的】 解决因中药自身的复杂性以及现有专利分类模型无法提取到充分的中药专利特征信息而导致的分类准确率不理想问题。【方法】 提出中药专利多特征融合分类模型MPMFC:基于专利核心字段的相似度信息构建中药专利相似度网络;利用Node2Vec算法从中药专利相似度网络的全局结构中捕获潜在专利间的邻里结构信息,使其映射为低维向量作为补充特征;使用注意力机制将经过RoBERTa-Tiny预训练的专利语义特征与其对应的补充特征进行特征融合,进而实现中药专利的自动化分类。【结果】 在真实的7 000条中药专利语料上,MPMFC模型的准确率、召回率和F1值分别达到0.843 6、0.801 7、0.822 1,相较于基线分类模型分别提升1.58、2.59和2.11个百分点。【局限】 构建中药专利相似度网络时分配权重具有一定的主观性,非中药科研人员在进行专利标注时会存在部分分类错误。【结论】 MPMFC模型在中药专利分类过程中能从多角度获取并学习更丰富的特征表示,从而提高分类准确性。

    图表 | 参考文献 | 相关文章 | 多维度评价
版权所有 © 2015 《数据分析与知识发现》编辑部
地址:北京市海淀区中关村北四环西路33号 邮编:100190
电话/传真:(010)82626611-6626,82624938
E-mail:jishu@mail.las.ac.cn