期刊首页 当期目录

2024年, 第8卷, 第5期 
刊出日期:2024-05-25
  

  • 全选
    |
    研究论文
  • 韩牧哲, 高劲松, 方晓印, 李帅珂, 孙艳玲, 李钰
    数据分析与知识发现. 2024, 8(5): 1-17. https://doi.org/10.11925/infotech.2096-3467.2023.0409
    摘要 ( ) PDF全文 ( ) HTML ( )   可视化   收藏

    【目的】 为保证考古发掘登记资料知识的可共享性,促进人文学科的知识融通,以多维度语义分解的叙事逻辑分析为基础,通过构建本体模型,实现考古发掘登记资料知识的多元关联组合和多维叙事展示,促进数字人文方法在考古发掘成果整理中的应用。【方法】 对考古发掘登记资料中的知识结构与叙事逻辑进行详细梳理和分析,确定本体构建方案;调研文化遗产领域中流行的CIDOC CRM本体模型及其扩展的CRM本体族,确定相关本体的可复用性;然后,从考古学遗址、遗迹、遗物三个子域对相关知识进行语义对应,确定实体类;最后,以考古发掘登记资料中的叙事逻辑表示为目标,确定各实体类的对象属性和数据属性,实现本体模型构建。【结果】 结合新疆哈密焉不拉克墓地的考古发掘登记资料,实现遗址与考古发掘活动的语义关联,探索了具有知识挖掘价值的墓葬遗迹、出土遗物的拓展性语义关联方法,形成一系列叙事展示。【局限】 焉不拉克墓地的资料虽具代表性,但遗址规模较小,实际应用场景的复杂性可能更高。【结论】 本文构建的语义关联模型可从知识单元层面实现符合考古学学科知识结构和叙事逻辑的知识表示。

  • 李霏, 邓凯方, 范茂慧, 滕冲, 姬东鸿
    数据分析与知识发现. 2024, 8(5): 18-28. https://doi.org/10.11925/infotech.2096-3467.2023.0431
    摘要 ( ) PDF全文 ( ) HTML ( )   可视化   收藏

    【目的】 通过融合包含共指链以及抽象语义表示等语义信息的对话篇章级语义图,提高对话一致性检测的准确性。【方法】 首先,利用预训练语言模型BERT编码对话上下文和知识库;其次,构建包含共指链和抽象语义表示等语义信息的对话篇章级语义图,利用多关系图卷积神经网络捕获语义图中的语义信息;最后,构建多个分类器预测多种对话不一致现象。【结果】 基于CI-ToD基准数据集,与现有对话不一致检测模型进行实验对比,本文模型在F1值或准确率指标上较之前的最优模型取得0.01以上的提升。【局限】 所提模型不能很好地处理对话中存在的共指实体省略问题。【结论】 融合共指链以及抽象语义表示等多种类别的语义信息能够有效提升对话一致性检测的效果。

  • 范云满, 陈颖, 唐小利
    数据分析与知识发现. 2024, 8(5): 29-37. https://doi.org/10.11925/infotech.2096-3467.2023.0475
    摘要 ( ) PDF全文 ( ) HTML ( )   可视化   收藏

    【目的】 有效利用现有机构规范文档,解决多来源机构规范文档的遴选、评价以及文档间缺少映射、关系冗余等问题。【方法】 以调研、梳理已有机构规范文档及相关研究为基础,构建包含元数据收集及分析、元数据框架融合、关系融合、别名融合、构建机构规范文档数据模型、融合结果验证6个步骤的融合模型,对多来源机构规范文档实现融合,并利用Dimensions、Scopus、Web of Science的部分机构数据进行验证。【结果】 利用多种指标评估模型的融合效果,在一、二、三级机构中F1值达到0.97以上且Dimensions的融合贡献度最大;构建了包含5 128个机构的规范文档。【局限】 机构关系只考虑上下级关系,关系之间循环引用以及机构规范名如何选取等问题尚未深入研究;只选取三个来源的部分机构进行验证,在更大数据集上的泛化性能有待进一步验证。【结论】 本模型对多来源数据库的机构规范文档的融合是有效的。

  • 徐国兰, 白如江
    数据分析与知识发现. 2024, 8(5): 38-45. https://doi.org/10.11925/infotech.2096-3467.2023.0099
    摘要 ( ) PDF全文 ( ) HTML ( )   可视化   收藏

    【目的】 充分利用概念在学习资源中的提及等细粒度信息,更有效地进行先序关系挖掘。【方法】 利用双图神经网络进行先序关系挖掘。根据概念与学习资源之间的联系以及概念之间的先序关系分别建立概念语义图和概念先序图。使用图神经网络对其学习,得到概念的表示并用于未知先序关系预测。【结果】 通过在4个经典先序关系挖掘数据集上进行大量的实验,本文方法取得了较好的结果,并超过了现有的方法,在F1指标上分别超过次优方法0.059、0.037、0.073、0.042。【局限】 本文方法对在学习资源中有明确提及的概念有较强的先序关系挖掘能力,而对未在学习资源中出现过的概念预测能力较弱。【结论】 双图神经网络方法能够充分利用学习资源中的语义信息,提升先序关系挖掘能力。

  • 朱侯, 罗颖嘉, 陈梦蕾, 欧阳佳祥, 肖颖, 蔡伊南
    数据分析与知识发现. 2024, 8(5): 46-58. https://doi.org/10.11925/infotech.2096-3467.2023.0446
    摘要 ( ) PDF全文 ( ) HTML ( )   可视化   收藏

    【目的】 通过融合法律法规知识,在语义层面对隐私政策的合规性进行智能检测。【方法】 依据《信息安全技术 个人信息安全规范》(GB/T 35273-2020)从完整性和语义冲突角度构建合规性评价指标体系,标注语料。基于嵌入知识图谱的K-BERT模型构建完整性评价模型,并构建用于检测语义冲突的一致性评价模型。最后运用完整性评价模型和一致性评价模型分析15个领域的APP隐私政策合规性。【结果】 构建通过肯德尔W检验的中文隐私政策语料库,完整性和一致性评价模型的F1值分别达到0.92和0.87。分析1 762篇APP隐私政策发现,影音娱乐、购买比价、金融理财、运动健康和汽车领域的APP隐私政策完整性表现较好,社交通讯和购买比价领域的APP隐私政策在语义层面较符合法律法规的要求。【局限】 忽略了少数隐私政策中可能出现的超链接所包含的内容,导致对部分隐私政策合规性的检验可能存在偏差。【结论】 本文模型实现了自动化分析各领域隐私政策合规性的目标,对于提升国家对移动APP平台处理用户隐私数据的监管能力具有重要意义。

  • 李嘉俊, 明灿, 郭志浩, 钱铁云, 彭智勇, 王晓光, 李旭晖, 李静
    数据分析与知识发现. 2024, 8(5): 59-67. https://doi.org/10.11925/infotech.2096-3467.2023.0163
    摘要 ( ) PDF全文 ( ) HTML ( )   可视化   收藏

    【目的】 为古籍补全任务提供一种基于预训练语言模型的新方法,利用不同语义层次和简繁体预训练语言模型获得的表示,构建混合专家系统和简繁融合模型实现古籍补全。【方法】 针对传世文献和出土文献分别设计基于混合专家系统的模型和简繁融合模型,在不同场景下充分融合与挖掘模型能力,进一步提升模型古籍补全的能力。【结果】 使用自行构建的传世文献数据集以及出土文献数据集,补全任务的准确率分别达到70.14%和57.13%。【局限】 只从自然语言处理角度出发,未来可以利用多模态技术,计算机视觉与自然语言处理相结合,整合图像信息和语义信息两个维度,可能会有更好的效果。【结论】 在构建的传世文献和出土文献数据集上进行验证,达到较高的准确率,为古籍补全任务提供了一种具有竞争力的解决思路。

  • 李明珠, 米传民, 苟小义, 肖琳
    数据分析与知识发现. 2024, 8(5): 68-79. https://doi.org/10.11925/infotech.2096-3467.2023.0433
    摘要 ( ) PDF全文 ( ) HTML ( )   可视化   收藏

    【目的】 对用户历史问答文本实现考虑上下文语义信息的主题识别,进而提升问答社区专家推荐的准确度。【方法】 通过构建BERT-LLDA模型,将BERT模型与Labeled-LDA主题模型相结合,充分利用标签信息对用户历史问答文本进行向量化,通过降维和主题聚类实现考虑上下文语义信息的主题识别,获得用户的主题兴趣概率分布;根据主题兴趣挖掘结果构建主题敏感PageRank算法(TSPR),并加入用户质量权重迭代计算用户的领域权威;基于此得到考虑主题兴趣和领域权威的问答社区专家推荐算法TIDARank,为新问题推荐潜在回答专家。【结果】 基于Stack Exchange公开数据集,BERT-LLDA模型经过主题聚类后相比TF-IDF、BERT、BERT-LDA等对比模型具有更高的轮廓系数(0.575 6)和主题连贯性(0.476 6);TIDARank算法的最佳回答者命中率ACC@20和平均倒数排名MRR@20分别为0.580 7和 0.243 0,相比于表现最优的对比模型Bi-LSTM+TSPR分别提升0.145和0.081。【局限】 在链接分析中未考虑用户的活跃情况。【结论】 BERT-LLDA模型不仅可以优化主题聚类的效果,且有助于提升问答社区专家推荐的性能。

  • 张大勇, 门浩, 苏展
    数据分析与知识发现. 2024, 8(5): 80-90. https://doi.org/10.11925/infotech.2096-3467.2023.0485
    摘要 ( ) PDF全文 ( ) HTML ( )   可视化   收藏

    【目的】 针对关键节点集识别算法中广泛存在的退化性问题,提出一种以半局域中心性为基础的改进型K-shell分解算法。【方法】 算法根据节点一阶邻居信息构建半局域中心性指标,在考虑剩余节点的半局域信息和已移除节点的半局域信息基础上,通过递归移除方式确定最终的关键节点集。【结果】 6组实际合作网络数据实验表明,改进的K-shell分解算法能够有效消除原有算法中的退化性问题,具有较高的计算准确性和较低的计算复杂度,适用于大规模合作网络中关键节点集的识别。【局限】 受网络结构属性的影响,在部分样本网络中计算准确性低于介数中心性方法。【结论】 通过对改进的K-shell分解算法计算所得的核心节点集的有效保护,能够提升合作网络的稳定性,有利于合作网络目标的实现。

  • 吕学强, 田驰, 张乐, 杜一凡, 张旭, 才藏太
    数据分析与知识发现. 2024, 8(5): 91-101. https://doi.org/10.11925/infotech.2096-3467.2023.0026
    摘要 ( ) PDF全文 ( ) HTML ( )   可视化   收藏

    【目的】 针对当前多模态情感分析中多模态特征提取不充分,模态内部信息和模态间交互信息结合不充分的问题,提出一种融合多特征和注意力机制的多模态情感分析模型。【方法】 在多模态特征提取方面,增加视频模态中人物的肢体动作、性别和年龄特征;对于文本模态,融合基于BERT的字粒度语义向量和融合义原信息的词粒度语义向量,丰富了多模态数据的低层特征。利用自注意力机制和跨模态注意力机制以实现模态内部信息和模态间信息的充分结合。将各模态特征进行拼接,通过软注意力机制为各模态特征分配注意力权重,通过全连接层输出最终的情感分类结果。【结果】 在公开数据集CH-SIMS和本文构建的热点舆情评论视频数据集HPOC上与Self-MM模型对比,实验结果表明,本文模型在CH-SIMS数据集上的二分类准确率、三分类准确率和F1值分别提升1.83、1.74和0.69个百分点,在HPOC数据集上分别提升1.03、0.94和0.79个百分点。【局限】 视频中人物所处的场景可能不断变化,不同的场景可能蕴含不同的情感信息,模型未考虑融合人物所处的场景信息。【结论】 本文模型丰富了多模态数据的低层特征,充分结合模态内部信息和模态间信息,能够有效提升情感分析的效果。

  • 江亿平, 张婷, 夏争鸣, 李玉花, 张兆同
    数据分析与知识发现. 2024, 8(5): 102-112. https://doi.org/10.11925/infotech.2096-3467.2023.0519
    摘要 ( ) PDF全文 ( ) HTML ( )   可视化   收藏

    【目的】 针对用户评论数据量大、情感倾向模糊、内容短小等特点,提出融合边缘采样和Tri-training的用户评论情感分析方法。【方法】 通过构建基于一对多拆解策略的多分类支持向量机,并融合考虑余弦相似度的边缘采样策略构造初始集,提出结合软投票机制的Tri-training算法。【结果】 本文算法对Tri-training算法投票机制的改进,进一步减小了多个分类器对于样本分类投票判断失误的概率,使所有类别精确率均在79%以上。【局限】 未考虑多媒体数据的信息提取。【结论】 与传统及近年改进的半监督学习算法相比,本文提出的融合边缘采样和Tri-training的算法在分类准确率和效率上具有一定的优越性。

  • 魏宏程, 朱恒民, 魏静, 叶东宇
    数据分析与知识发现. 2024, 8(5): 113-126. https://doi.org/10.11925/infotech.2096-3467.2023.0506
    摘要 ( ) PDF全文 ( ) HTML ( )   可视化   收藏

    【目的】 短视频已成为互联网舆情传播的新途径。为揭示短视频舆情的演化特征,本文提出基于短视频网络的舆情演化分析方法。【方法】 分别计算短视频标题、封面和视频内容间相似度,构建短视频网络;基于层次聚类法从网络中识别视频主题,计量视频中音频与标题的情感;将视频发布账号划分为不同类别的利益相关者;最后,从主题、情感和利益相关者三个维度分析短视频舆情演化。【结果】 研究结果表明,利用视频的多模态特征和视频间关系,可以有效地描述短视频舆情演化态势,且“标题+封面+视频内容”模态组合的SSE为6.708,优于其他单模态或多模态组合。【局限】 本文使用的抖音平台短视频的音频数据包含纯背景音乐,使得音频模态的分析存在一定偏差。【结论】 本研究有利于掌握短视频舆情中主题与群体情绪的演化,发掘不同视频账号的关注点与情感变化,及时对短视频舆情进行监管与引导。

  • 汪雪锋, 于慧妍, 郑思佳, 雷鸣
    数据分析与知识发现. 2024, 8(5): 127-138. https://doi.org/10.11925/infotech.2096-3467.2023.0242
    摘要 ( ) PDF全文 ( ) HTML ( )   可视化   收藏

    【目的】 通过构建学术论文创新质量评价模型,探讨基于定量与定性相结合的科技评价方法,促进科学研究的渐进性创新。【方法】 兼顾创新新颖性和影响性特征,采用Doc2Vec算法将非结构化文本内容转化为向量空间模型,继而运用余弦相似度测度文本内容相似度,同时应用待评价论文局部引文网络构建创新影响指数计算方法,并将新颖性和影响性测度结果映射到二维散点图中,基于区域划分构建学术论文创新质量评价模型。【结果】 多能干细胞技术实证结果显示:本文方法与F1000推荐结果基本一致,能够在一定程度上弥补当前学术论文创新质量评价的不足。【局限】 仅讨论了学术论文新颖性、学术论文创新影响两个因素,存在一定的片面性。【结论】 本文构建的评价模型能够为定性的同行评议提供定量数据支撑,是对学术论文创新质量定量评价的有益探索。

  • 曾燕, 昝婷婷, 杨晓, 屈明剑
    数据分析与知识发现. 2024, 8(5): 139-150. https://doi.org/10.11925/infotech.2096-3467.2023.0272
    摘要 ( ) PDF全文 ( ) HTML ( )   可视化   收藏

    【目的】 分析国外科技成果的文化影响案例,为我国科技成果的文化价值评估提供参考。【方法】 建立16个文化影响类别和4类研究成果概念框架并借助Notion AI工具,完成英国REF2021影响评估案例中科技医药领域的29个文化影响案例的影响类别和成果类别标引,对案例文本进行结构化分析。【结果】 分析结果揭示了科技医药领域文化影响类别的丰富多样性,最突出的类别为“参与或被应用到各类传媒或文化载体中”,不同学科与不同类型的研究成果的文化影响表现具有差异性。【局限】 案例数量偏少,所建立的文化影响概念框架有待进一步完善,未包含对文化意识形态方面的影响分析等。【结论】 本文所提文化影响的概念框架有助于解释案例文本;不同学科和不同类型研究成果的文化影响差异揭示了分类评价的必要性和意义;文化影响的概念框架还有待进一步扩展才能更好地为评估决策提供支持。

  • 王翼虎, 白海燕
    数据分析与知识发现. 2024, 8(5): 151-162. https://doi.org/10.11925/infotech.2096-3467.2023.0324
    摘要 ( ) PDF全文 ( ) HTML ( )   可视化   收藏

    【目的】 改善现有智能咨询系统不足,解决系统难以回答学术问题的局限。【方法】 利用深度学习、机器阅读理解、数据增强、信息检索和语义相似度等技术,自建数据集并构建学术知识问答系统,同时针对学术文献特点设计多元段落召回指标,以多维特征提升召回准确度。【结果】 通过双模型联合构建学术知识问答系统,ROUGE-L得分达到0.733 8,解决问题正确率达到88.65%,多元段落召回指标准确率也达到88.38%。【局限】 仅使用单一领域内容进行实验,在处理复杂的、涉及多个领域的问题时,存在一定的局限性。【结论】 将机器阅读理解技术与参考咨询服务深度融合,可以提高学术资源的利用效率和共享效率,为科研人员提供更加全面和准确的信息支持。