期刊首页 当期目录

2023年, 第7卷, 第1期 
刊出日期:2023-01-25
  

  • 全选
    |
    综述评介
  • 徐月梅, 曹晗, 王文清, 杜宛泽, 徐承炀
    数据分析与知识发现. 2023, 7(1): 1-21. https://doi.org/10.11925/infotech.2096-3467.2022.0472
    摘要 ( ) PDF全文 ( ) HTML ( )   可视化   收藏

    【目的】 对跨语言情感分析的研究脉络进行梳理总结。【文献范围】 以Web of Science数据库为检索平台,以TS=cross lingual sentiment OR cross lingual word embedding为检索式,筛选90篇文献进行述评。【方法】 根据跨语言情感分析所采用的技术进行分类概述,包括基于机器翻译及其改进、基于平行语料库、基于双语情感词典三种早期的主要方法,再到引入Word2Vec和GolVe等词向量模型后,基于跨语言词向量模型的方法,最后到2019年以来基于Multi-BERT等预训练模型的方法。【结果】 总结跨语言情感分析相关研究的主要思路、方法模型、不足之处等,分析现有研究覆盖的语言、数据集及其性能。发现虽然Multi-BERT等预训练模型在零样本的跨语言情感分析上取得较好性能,但是仍然存在语言敏感性问题。早期的跨语言情感分析方法对现有研究仍有一定指导和参考价值。【局限】 部分跨语言情感分析模型属于混合模型,分类时仅按照主要方法进行归纳。【结论】 展望跨语言情感分析的未来发展和亟待解决的问题。随着预训练模型对多语言语义的深层次挖掘,适用于更多更广泛语种的跨语言情感分析模型将是未来发展方向。

  • 杨德芳, 唐莉
    数据分析与知识发现. 2023, 7(1): 22-34. https://doi.org/10.11925/infotech.2096-3467.2022.0428
    摘要 ( ) PDF全文 ( ) HTML ( )   可视化   收藏

    【目的】 从国际文献出发,对负责任研究与创新(RRI)领域知识基础与研究热点的现状及演进进行分析。【文献范围】 以Web of Science三大核心数据库收录的657篇文献作为分析样本。【方法】 运用文献计量和可视化分析方法,对该领域的知识基础和研究热点进行分析。【结果】 荷兰和英国学者占据引领地位,而中国在该领域目前发文较少,影响力有待提高。该领域的推进建立在技术评估与预期治理、欧盟背景下的RRI概念与分析框架、全球视野下的RRI研究推进这三大知识基础之上。该议题研究热点主要聚焦在科学社会与治理、分析框架与治理实践、技术发展的伦理与价值、可持续性发展与影响力研究4个方面。【局限】 数据范围有待进一步扩充,热点演化的时空趋势可进一步展开。【结论】 自负责任研究与创新提出以来,不同领域和国别的学者围绕RRI的概念、分析框架与治理实践已展开了大量研究。未来该议题还需增加研究方法的多样性,拓展RRI在不同制度和社会情境下的应用分析。

  • 研究论文
  • 袁钺, 庞娜, 李广建
    数据分析与知识发现. 2023, 7(1): 35-48. https://doi.org/10.11925/infotech.2096-3467.2022.0571
    摘要 ( ) PDF全文 ( ) HTML ( )   可视化   收藏

    【目的】 了解管制产品的技术性能和深入解读美国出口管制政策,提出一个自动抽取《商业管制清单》技术指标的方法。【方法】 将技术指标表示为指标对象、指标名称、指标关系和指标数值组成的四要素,结合各要素在《商业管制清单》中的表现形式,构建了一种自动化的技术指标抽取方法,该方法能够自动抽取指标并将指标组织成结构化的四要素形式。【结果】 实验结果表明,所提技术指标抽取方法可以在无监督的情况下有效地抽取《商业管制清单》中的技术指标,精确率和F1值分别达到87.34%和86.52%。【局限】 指标抽取方法主要是针对《商业管制清单》文本提出的,还需要用更多类型的语料加以验证,以便将其泛化并扩展成通用的指标抽取方法。【结论】 构建的技术指标抽取方法,可以抽取《商业管制清单》中的技术指标四要素。

  • 曹喆, 郭慧兰, 吴江, 胡忠义
    数据分析与知识发现. 2023, 7(1): 49-62. https://doi.org/10.11925/infotech.2096-3467.2022.0371
    摘要 ( ) PDF全文 ( ) HTML ( )   可视化   收藏

    【目的】 从技术-用户的互动视角,揭示用户的技术感知与元宇宙技术需求的差距,为元宇宙技术优化提供参考借鉴。【方法】 基于京东平台上64件VR产品的36 720条评论信息,运用LDA主题建模与BERT情感分类的混合方法,构建关注度和喜爱度指标,定量分析用户对VR技术的感知程度,并结合产品客观属性和元宇宙技术需求展开对比分析。【结果】 从用户评论中提炼出VR产品的功能、品控、使用感受、营销和视听体验5个感知属性,用户在视听体验和营销两个属性上的感知程度分别为最高和最低;功能、使用感受、视听体验三个属性在元宇宙的沉浸体验、易接入性、互操作性和可扩展性等4个技术需求维度上具有高沉浸度、感官失调、多样连接、时空限制、多人互动、移动障碍、多功能设计、设备问题等8种优劣表现。【局限】 样本的多元性与均衡性有待提升;未对其它类型的元宇宙技术设备进行拓展研究。【结论】 通过感知属性提炼、感知偏好识别和感知程度分析,发现当前VR产品能够满足元宇宙在沉浸体验方面的技术需求,但在易接入性、互操作性和可扩展性方面尚存提升空间;结合产品客观属性,本研究能够为元宇宙相关技术的优化提供参考。

  • 肖宇晗, 林慧苹
    数据分析与知识发现. 2023, 7(1): 63-75. https://doi.org/10.11925/infotech.2096-3467.2022.0207
    摘要 ( ) PDF全文 ( ) HTML ( )   可视化   收藏

    【目的】 提出一种基于深度学习的方面词提取方法,实现差异化与精细化的挖掘分析。【方法】 设计语境窗口自注意力(Context Window Self-Attention,CWSA)模型进行方面词提取,在把握文本整体信息的基础上,聚焦语境窗口内以及邻近文本的语义,从评论中挖掘细粒度的产品特征。在此基础上,采用方面级情感分析方法分析用户需求。【结果】 根据京东手机评论构造了方面词提取和方面级情感分析中文数据集,CWSA模型在该数据集上F1分数达到89.65%,效果优于基线方面词提取模型。【局限】 公开的中文领域方面词数据集较为匮乏,未来将构建多个产品的中文数据集以获得更丰富的实验分析,并在英文数据集上拓展模型的跨语言适应能力。【结论】 在近90万条京东手机评论上进行模型的应用验证,表明所提模型能为企业提供差异化与精细化的挖掘分析。

  • 刘思源, 冯蕾霖, 朱章黔, 贾韬
    数据分析与知识发现. 2023, 7(1): 76-88. https://doi.org/10.11925/infotech.2096-3467.2022.0490
    摘要 ( ) PDF全文 ( ) HTML ( )   可视化   收藏

    【目的】 分析中美高校在课程考核设置上的不同,为新工科背景下的工程教育改革提供实证支撑。【方法】 通过自动化数据爬取方式收集超过47 000份有效的计算机相关课程教学大纲数据;通过主题词方式提取教学大纲中的课程考核相关信息,对中美高校课程考核的内容和方式进行定量的比较和分析。【结果】 对中美高校课程考核中的组成部分进行了统计分析。相较于中国高校课程,美国高校课程的考核类别更多,考核的内容更加多元化;美国高校的考试考核注重分阶段进行,而中国高校则过度依赖于期末考试。【局限】 公开的中国高校计算机教学大纲数据有限,存在样本不平衡问题;挖掘非结构化的教学大纲文本数据时可能存在不可避免的误差。【结论】 区别于已有的基于案例分析的工作,本文采用大规模教学大纲数据,分析比较了中美两国高校计算机课程考核中的组成部分,为课程考核优化提供了基于统计数据的实证支撑。

  • 江布拉提·吾喜洪, 王小梅, 陈挺
    数据分析与知识发现. 2023, 7(1): 89-101. https://doi.org/10.11925/infotech.2096-3467.2022.0111
    摘要 ( ) PDF全文 ( ) HTML ( )   可视化   收藏

    【目的】 设计基于社交媒体Twitter的学科领域研究前沿识别方法,用于前瞻挖掘、识别学科即时动态。【方法】 通过分析Twitter识别学科领域研究前沿的原理,提出基于学者影响力及内容影响力的学科研究前沿监测指标体系并开展学科领域研究前沿探测,最后基于自然语言处理领域进行实证分析。【结果】 通过对比自然语言处理领域顶尖专家的分析报告,探测模型能够及时识别出自然语言处理领域13个研究前沿中的8个研究前沿。【局限】 由于社交媒体的开放性特征,构建数据集时难以完全避免与学科领域无关的噪音内容。【结论】 本文提出的方法基于Twitter学者用户生成内容,能够及时、前瞻识别学科领域前沿动态,是一种可行且有效的探测学科领域研究前沿的方法。

  • 王卫军, 宁致远, 杜一, 周园春
    数据分析与知识发现. 2023, 7(1): 102-112. https://doi.org/10.11925/infotech.2096-3467.2022.0358
    摘要 ( ) PDF全文 ( ) HTML ( )   可视化   收藏

    【目的】 识别科技文献的学科交叉研究性质,为挖掘学科交叉前沿问题提供支撑。【方法】 将学科领域专家提供的科技文献已有学科标签,与文本分类算法预测的科技文献学科标签相结合,共同识别学科交叉科技文献。【结果】 相较于直接基于模型预测,本文提出的识别学科交叉科技文献的方法F1指标从0.23提升到0.45。【局限】 模型识别学科交叉研究性质科技文献的召回率指标较低。【结论】 通过关注不同学科间科技文献被分类错误的数据,判断科技文献的学科交叉研究性质,是值得进一步关注的研究方向。

  • 聂维民, 欧石燕
    数据分析与知识发现. 2023, 7(1): 113-127. https://doi.org/10.11925/infotech.2096-3467.2022.0402
    摘要 ( ) PDF全文 ( ) HTML ( )   可视化   收藏

    【目的】 “无监督排序+分类”模式的两阶段混合方法存在无监督排序可靠性较低、分类得到的被引句数量不稳定问题,并且被引片段的识别粒度仅限于单句。本研究对混合方法中的上述问题予以改进以提高其性能,同时解决不同粒度被引片段的识别问题。【方法】 提出一种面向被引片段识别的改进混合方法,在第一阶段采用有监督排序从所有被引文献句中筛选出候选被引句,在第二阶段通过回归方法确定最终被引片段。此外,引入包含不同数量连续句子的n元句输入方式以及组内标准化方法以识别不同粒度的被引片段。【结果】 在CL-SciSumm 2019和2020竞赛语料测试集上进行测评,本研究所提改进混合方法的句子重合度F1值为0.167;以3元句为输入,采用组内Z值标准化,其句子重合度F1值由0.083提高到0.158。【局限】 未使用被引文献句的位置特征;在下游任务中的应用尚待探索。【结论】 本研究所提改进混合方法在被引片段识别粒度为单句和多个连续单句时均取得良好效果。

  • 王金政, 杨颖, 余本功
    数据分析与知识发现. 2023, 7(1): 128-137. https://doi.org/10.11925/infotech.2096-3467.2022.0258
    摘要 ( ) PDF全文 ( ) HTML ( )   可视化   收藏

    【目的】 解决客户投诉文本处理中的传统多通道文本分类模型对特征间关系学习不足的问题。【方法】 构建一个基于多头协同注意力机制的客户投诉文本分类模型。首先利用BERT预训练模型实现文本向量化表示,然后构建Text-CNN和BiLSTM多通道特征提取网络,分别提取投诉文本局部特征与全局特征,最后提出一种协同注意力机制学习局部特征与全局特征间关系,实现客户投诉文本的准确分类。【结果】 该方法在THUCNews上的准确率达到97.25%,在电信客户投诉数据集上的准确率达到86.20%。相比于表现最好的单通道基线模型和未进行特征间交互的多通道模型,本文所提模型在电信客户投诉数据集上的准确率分别提升了0.54和0.35个百分点。【局限】 仅考虑了两个特征间的交互关系,而且在小规模电信客户投诉文本数据集上,部分投诉类别分类效果较一般。【结论】 多通道特征提取网络能够丰富文本信息,充分提取文本特征;协同注意力机制能够有效学习文本特征间关系,提升模型分类效果,更精准地实现客户投诉文本分类。

  • 彭成, 张春霞, 张鑫, 郭倞涛, 牛振东
    数据分析与知识发现. 2023, 7(1): 138-149. https://doi.org/10.11925/infotech.2096-3467.2022.0225
    摘要 ( ) PDF全文 ( ) HTML ( )   可视化   收藏

    【目的】 解决时序知识图谱推理方法存在的实体信息获取片面和缺乏不同时间戳对于待推理事件重要性度量的问题。【方法】 提出一种基于实体多元编码的时序知识图谱推理模型。实体多元编码旨在引入三种实体特征编码,包括当前时间戳的实体切片特征编码、融合时间戳嵌入和实体静态特征的实体动态特征编码以及历史时间步上相对稳定的实体片段特征编码。同时,设计时序注意力机制来学习不同时间戳内的局部结构信息对推理目标的重要性权重。【结果】 该时序知识图推理模型在数据集ICEWS14上的实验结果为MRR:0.470 4, Hits@1:40.31%, Hits@3:50.02%, Hits@10:59.98%; 在ICEWS18上的实验结果为MRR:0.438 5, Hits@1:37.55%, Hits@3:46.92%, Hits@10:56.85%; 在YAGO上的实验结果为MRR:0.656 4, Hits@1:63.07%, Hits@3:65.87%, Hits@10:68.37%, 评估指标优于基线方法。【局限】 在大规模数据集上运行速度较慢。【结论】 本文方法捕获了时序知识图谱中包括实体切片特征、动态特征和片段特征的实体多元特征,所设计的时序注意力机制能够度量历史局部结构信息对推理的重要性,有效提升了时序知识图谱推理的性能。