数据分析与知识发现

数据分析与知识发现

2024年, 第8卷, 第1期　刊出日期：2024-01-25

选择:

合并摘要

导出引用管理器
EndNote Reference Manager ProCite BibTeX RefWorks

综述评介

Select

领域知识演化分析方法综述^*

李雪思, 张智雄, 王宇飞, 刘熠

数据分析与知识发现. 2024, 8 (1): 1-15. DOI: 10.11925/infotech.2096-3467.2023.1280

摘要

HTML ( 34 )

PDF(717KB) ( 274 )

【目的】 领域知识演化分析是图书情报学界长期关注的一个重要研究问题。本文对国内外有关领域知识演化分析方法的研究进行总结梳理，为后续的相关研究提供参考。【文献范围】 利用领域知识演化的关键词在CNKI和Web of Science中检索，并对检索结果进行人工判读和分析，选取与领域知识演化分析方法密切相关的84篇重点文献进行综述。【方法】 通过回顾研究文献，对领域知识演化的相关概念进行辨析，在此基础上将现有的领域知识演化分析方法分为基于引用、基于结构和基于内容的三类。在对每类分析方法梳理过程中，首先辨析该类方法的理论依据，然后阐述该类方法的基本分析思路并介绍相关进展，最后对现有的领域知识演化分析方法进行总结和展望。【结果】 现有的三类领域知识演化分析方法依托于各自的科学理论，借助技术的进步和数据资源的完善，不断深化改进演化分析的思路框架；虽然取得了丰富的研究成果，但并没有在知识演化分析的研究角度上产生突破，无法根本性地解决当前研究视角下的局限性。【局限】 基于筛选后的文献进行综述分析，可能未全面覆盖相关的研究工作。【结论】 领域知识演化分析的未来研究中有以下两个方向值得重点关注：一是尝试拓展新的领域知识演化分析切入点，二是尝试交叉融合已有的研究方法以改善现有分析方法下的局限。

图表 | 参考文献 | 相关文章 | 多维度评价

Select

可解释机器学习在信息资源管理领域的应用研究综述^*

刘智锋, 王继民

数据分析与知识发现. 2024, 8 (1): 16-29. DOI: 10.11925/infotech.2096-3467.2023.0244

摘要

HTML ( 24 )

PDF(1085KB) ( 335 )

【目的】 对可解释机器学习方法及其在信息资源管理领域的应用研究进行梳理和总结，发现不足并做出展望。【文献范围】 使用可解释机器学习的相关关键词构建检索式，在中国知网和Web of Science等平台中检索，根据纳入排除标准，共获取44篇相关文献进行评述。【方法】 从机器学习流程出发，构建一般性的可解释机器学习框架，重点梳理可解释机器学习方法分类，然后对可解释机器学习在信息资源管理领域的应用现状进行归纳总结。【结果】 一般性的可解释机器学习框架包含事前解释、可解释模型以及事后解释三个不同的模块；事后可解释方法在健康信息学、网络舆情、科学计量学以及社交网络用户行为等领域具有广泛的应用，其中常用的方法为SHAP和特征重要性分析；现有研究存在应用方法单一和融合不足、因果关系探究不够、针对多源异构数据的解释不足以及领域应用有待拓宽等问题。【局限】 本文重点关注可解释机器学习的应用及存在的不足，未对算法原理进行深入阐述。【结论】 未来研究应加强可解释机器学习方法的融合使用，探究基于因果机器学习的可解释机器学习，引入面向多源异构数据的可解释机器学习方法，拓宽在信息推荐、信息检索和信息计量等多个领域的应用。

图表 | 参考文献 | 相关文章 | 多维度评价

研究论文

Select

ULEO：表示合成实验规程的实验操作统一语言^*

付芸, 朱丽雅, 李丹, 孙蒙鸽, 张建锋, 刘细文

数据分析与知识发现. 2024, 8 (1): 30-39. DOI: 10.11925/infotech.2096-3467.2023.0867

摘要

HTML ( 25 )

PDF(1769KB) ( 211 )

【目的】 面对智能科研与科学机器人对高质量实验规程数据的需求，解决合成实验规程中的实验操作词统一表示问题。【方法】 综合利用数据和专家知识协同驱动的方式，从合成相关的论文与专利文本中识别并标准化实验操作词。实验操作词识别主要选用较为先进的开源大模型ChatGLM2-6B，实验操作词标准化则混合应用Wu-Palmer和余弦相似度，辅以专家经验知识判别分类的准确性。【结果】 分别获取149个无机合成实验操作词和141个有机合成实验操作词，两者交集124个词。经判定在两类合成实验中分别出现的操作词中多数并不具备鲜明的类别特色，因此可取两类合成实验操作词的并集，共计166个，用于统一表示有机、无机及其杂化合成实验操作。【局限】 仅使用基础的提示工程来激发大模型识别实验操作词，准确率有待提升；所用的数据主要源于当前免费公开的数据集，不够全面、丰富；仅关注合成、工程和基础步骤中涉及的操作词，未涉及动态、分析与命名反应中的操作词。【结论】 本文构建一套表示合成实验操作的统一语言，用于表示有机、无机及其杂化合成反应中的实验操作，不同类型的合成实验操作词在表示上差异不大，在使用频次和倾向上确有不同，今后可据此优先选择研制科学机器人相应的实验操作功能。

图表 | 参考文献 | 相关文章 | 多维度评价

Select

基于SHAP解释方法的智慧居家养老服务平台用户流失预测研究^*

刘天畅, 王雷, 朱庆华

数据分析与知识发现. 2024, 8 (1): 40-54. DOI: 10.11925/infotech.2096-3467.2022.1168

摘要

HTML ( 19 )

PDF(1914KB) ( 224 )

【目的】 构建智慧居家养老服务平台用户流失预测模型，并使用SHAP解释方法分析不同特征的影响。【方法】 基于智慧居家养老服务平台用户在2019年至2021年三年间产生的超过30万条社区居家养老服务订单数据，通过改进的RFM模型（RFM-MLP）、马斯洛需求层次理论、安德森模型并结合Boruta算法确定用户价值特征、服务选择特征、个人特征三类共11个特征。建立5种机器学习模型，从中选择效果最好的XGBoost模型预测用户流失，运用SHAP解释方法完成特征影响全局解释、特征依赖分析、单样本解释分析。【结果】 模型预测结果准确率和F1值均达到87%左右，家政服务服务购买次数、留存天数、年龄等是预测养老服务平台用户流失的重要特征。【局限】 仅选取一个地区的数据进行分析，数据量和算法复杂度方面还有提升空间。【结论】 SHAP解释方法可以兼顾机器学习预测模型的精度和解释性，能够为智慧居家养老服务平台在运营策略和内容设计方面的优化提供依据。

图表 | 参考文献 | 相关文章 | 多维度评价

Select

融合抽象语义表示和依存语法的方面级情感分析^*

李雪莲, 王碧, 李立鑫, 韩迪轩

数据分析与知识发现. 2024, 8 (1): 55-68. DOI: 10.11925/infotech.2096-3467.2022.1259

摘要

HTML ( 16 )

PDF(959KB) ( 215 )

【目的】 充分融合自然语言句子的深层语义表示和表层语法结构，实现语义和语法的互补。【方法】 提出基于规则串联的抽象语义表示和依存语法集成策略，并进行方面级情感分析。该策略利用回答集编程语言（ASP）将抽象语义表示、依存语法、词性分别表示为ASP事实，并基于抽象语义规则，通过规则体扩展的方式集成依存语法和词性，即将一个句子中的多种语言特征依次在规则体中进行串联来使用。该策略实现了两种方法：集成语义、语法和词性信息的AMR-DEP-POS-C方法；忽略词性信息的AMR-DEP-C方法。【结果】 在8个公开评论数据集上的实验表明，AMR-DEP-POS-C方法能够实现语义和语法间的互补，比语义规则方法、语法规则方法以及基于深度学习的方法具有更好性能。【局限】 该方法依赖于现有抽象语义表示和依存语法分析工具的准确性。【结论】 AMR-DEP-POS-C方法具有可解释性，不需要大规模数据集，能够有效融合不同的语言特征，可为方面级情感分析任务带来新的研究视角和工具。

图表 | 参考文献 | 相关文章 | 多维度评价

Select

考虑评论情感表达力及其重要性的个性化推荐算法^*

李慧, 胡耀华, 徐存真

数据分析与知识发现. 2024, 8 (1): 69-79. DOI: 10.11925/infotech.2096-3467.2022.1270

摘要

HTML ( 18 )

PDF(946KB) ( 314 )

【目的】 针对数据稀疏性问题，为探索情感表达对用户特征表示的影响，提出一种考虑评论情感表达力及其重要性的个性化推荐算法。【方法】 使用BERT预训练语言模型获取评论文本的向量表示，通过Bi-GRU网络学习其中的语义特征，分别采用情感权重和注意力机制为评论向量分配权重，最后利用DeepFM算法对用户特征和产品特征进行深度交互，预测用户对产品的评分值。【结果】 在Amazon Product Data数据集上的实验结果表明，所提算法比基线算法在RMSE和MAE指标上最多可降低24.43%和31.44%；使用情感权重为用户评论加权的方法相比于注意力机制，在RMSE与MAE指标上最多可降低2.59%和3.89%。【局限】 所用情感分析方法无法表现用户对产品不同属性的情感倾向。【结论】 所提算法考虑了情感对用户特征表达的影响，能够提高推荐准确性。

图表 | 参考文献 | 相关文章 | 多维度评价

Select

考虑长短期兴趣及其演化的电影个性化动态推荐研究^*

刘瑞, 陈烨

数据分析与知识发现. 2024, 8 (1): 80-89. DOI: 10.11925/infotech.2096-3467.2022.1162

摘要

HTML ( 10 )

PDF(919KB) ( 174 )

【目的】 提出一种考虑长短期兴趣及其演化的电影个性化动态推荐方法，捕捉用户兴趣动态变化以提高推荐准确度。【方法】 首先，基于观影心理动机将用户兴趣分为长期兴趣和短期兴趣，利用兴趣评分与关注频率计算长短期兴趣值；其次，利用时间窗口与遗忘曲线函数获取时间权重，结合短期兴趣值与时间权重拟合短期兴趣的演化规律；最后，将电影评分与长短期兴趣值相融合，构建用户-项目评分矩阵，预测目标用户评分。【结果】 以豆瓣网数据集为例，所提方法的评分预测误差与其他推荐方法相比整体偏小，在评估指标MAE（1.003 1）和RMSE（1.216 0）上表现最优，达到MAE和RMSE最优值时所需邻居数（20）最少。【局限】 由于要结合显式反馈信息与隐式反馈信息共同计算长短期兴趣值，因此所提方法的计算复杂度较高。【结论】 所提方法能够准确捕捉用户兴趣的动态变化，有效降低评分预测误差，提高推荐准确度。

图表 | 参考文献 | 相关文章 | 多维度评价

Select

探寻式搜索中用户满意度状态识别与演化规律研究^*

赵一鸣, 陈湛, 张帆

数据分析与知识发现. 2024, 8 (1): 90-103. DOI: 10.11925/infotech.2096-3467.2022.1281

摘要

HTML ( 10 )

PDF(920KB) ( 162 )

【目的】 识别探寻式搜索中的用户满意度状态，揭示用户满意度与用户查询式重构模式之间的相互作用关系和动态演化规律。【方法】 利用用户查询、时序等特征，基于4种有监督学习算法进行用户满意度预测；通过挖掘用户满意度与查询式重构模式之间的相互影响规律，指导探寻式搜索智能辅助中的查询式重构推荐策略。【结果】 在开放基准数据集上，所构建的满意度预测模型的预测准确率最高达到74%，优于已有基线模型；同时，相关性分析的结果表明用户满意度与查询式重构模式之间的关联关系显著。【局限】 用户满意度仅代表搜索状态的一种视角，未来需要针对探寻式搜索中的用户状态构建完善统一的描述和分类体系。【结论】 利用探寻式搜索中的用户搜索行为，优化了模型特征，进一步提升用户满意度预测模型的性能，并结合用户满意度演化规律，为探寻式搜索中的智能搜索辅助策略提供了有效的理论支撑。

图表 | 参考文献 | 相关文章 | 多维度评价

Select

一种全面的少标签样本情形下的知识蒸馏方法^*

刘彤, 任欣儒, 尹金辉, 倪维健

数据分析与知识发现. 2024, 8 (1): 104-113. DOI: 10.11925/infotech.2096-3467.2022.1155

摘要

HTML ( 10 )

PDF(2371KB) ( 102 )

【目的】 针对在自然语言处理中有标签样本稀缺和高性能的大规模参数量模型训练成本高的问题，本文在有标签样本不足情况下，通过知识蒸馏方法，提升在高性能大参数量模型指导下的小参数量模型性能。【方法】 通过噪声提纯方法，从无标签数据中获取有价值的数据并赋予其伪标签，增加有标签样本数量；并在传统蒸馏模型基础上增加知识回顾机制和助教模型，实现从大参数量模型到小参数量模型的全面的知识迁移。【结果】 在IMDB、AG_NEWS、Yahoo！Answers数据集的文本分类和情感分析任务上，使用原数据集规模的5%作为有标签数据，准确率表现与使用全部数据训练的传统蒸馏模型分别仅相差1.45%、2.75%、7.28%。【局限】 仅针对自然语言处理中的文本分类以及情感分析任务进行实验研究，后续可进一步扩大任务覆盖面。【结论】 本文所提方法在少量有标签样本的情形下，实现了较好的蒸馏效果，使得小参数量模型的性能得到显著提升。

图表 | 参考文献 | 相关文章 | 多维度评价

Select

融合实体信息的古汉语关系分类研究^*

唐雪梅, 苏祺, 王军

数据分析与知识发现. 2024, 8 (1): 114-124. DOI: 10.11925/infotech.2096-3467.2022.1367

摘要

HTML ( 13 )

PDF(1329KB) ( 156 )

【目的】 将实体信息与预训练语言模型结合应用到古汉语关系分类任务中，构建古汉语关系分类模型。【方法】 首先，在预训练模型输入层中使用特殊标记标出实体对的位置，同时在原关系句之后拼接实体类型描述句；其次，在预练语言模型的输出中进一步提取实体语义信息；然后，通过CNN将每个字符相对于首尾实体的位置信息融入模型中；最后，将句表示、实体语义表示以及CNN输出拼接经过分类器得到关系标签。【结果】 相较于仅使用预训练语言模型，本文模型在Macro F1指标上平均有3.5个百分点的提升。【局限】 通过分析混淆矩阵发现本文模型在有相同实体类型组合的关系上容易出现预测错误。【结论】 在预训练语言模型中结合实体信息能够提高古汉语关系分类的效果，且实验结果证明本文融合实体信息的方法是有效的。

图表 | 参考文献 | 相关文章 | 多维度评价

Select

基于ERNIE和DPCNN的科技文献摘要结构要素识别^*

胡忠义, 税典程, 吴江

数据分析与知识发现. 2024, 8 (1): 125-144. DOI: 10.11925/infotech.2096-3467.2022.1359

摘要

HTML ( 20 )

PDF(943KB) ( 357 )

【目的】 构建一种高效的科技文献摘要结构要素识别模型，实现对一段式摘要的结构要素识别。【方法】 以知识增强语义表示模型（ERNIE）对科技文献的摘要文本进行表征，通过深度金字塔卷积神经网络（DPCNN）进行文本特征抽取，构建科技文献摘要结构要素识别模型。【结果】 所构建的模型在图书情报领域数据集上识别文献摘要结构要素的精确率、召回率、 $F 1$ 宏平均值均高于0.95，比基准模型具有更好的识别性能。【局限】 使用的语料具有一定的领域倾向，模型的领域通用性还有待验证。【结论】 构建的模型可以更好地对文本特征进行抽取，有效提升了科技文献摘要结构要素的识别性能。

图表 | 参考文献 | 相关文章 | 多维度评价

Select

稀疏样本下长术语的抽取方法^*

吕学强, 杨雨婷, 肖刚, 李育贤, 游新冬

数据分析与知识发现. 2024, 8 (1): 135-145. DOI: 10.11925/infotech.2096-3467.2022.1231

摘要

HTML ( 13 )

PDF(1047KB) ( 144 )

【目的】 为解决武器装备领域样本稀疏和长术语难以识别的问题，提出头尾指针和主动学习相结合的方法。【方法】 首先，使用BERT预训练语言模型得到词向量表示，利用头尾指针网络对长术语进行抽取；然后提出新的主动学习采样策略，在未标注样本上筛选高质量样本不断迭代训练模型，降低模型对数据规模的依赖。【结果】 模型针对长术语的抽取效果在F1值上有0.50个百分点的提升，通过引入主动学习后采样，仅大约50%高质量数据即可达到训练100%训练数据相同的F1值。【局限】 限于计算能力，本文数据集规模较小；在文本处理阶段新增主动学习采样策略，进行大规模数据计算的时间成本较高。【结论】 利用头尾指针和主动学习方法能够有效抽取长术语，同时降低数据标注的成本。

图表 | 参考文献 | 相关文章 | 多维度评价

Select

基于SpERT-Aggcn模型的专利知识图谱构建研究^*

何玉, 张晓冬, 郑鑫

数据分析与知识发现. 2024, 8 (1): 146-156. DOI: 10.11925/infotech.2096-3467.2022.1142

摘要

HTML ( 18 )

PDF(1502KB) ( 215 )

【目的】 针对知识图谱构建中识别嵌套实体以及提升关系抽取精度的问题，提出信息抽取模型SpERT-Aggcn，并构建绿色合作专利知识图谱。【方法】 基于SpERT-Aggcn模型抽取专利摘要文本中的嵌套实体和关系，采用Protégé构建本体并根据所构建本体实现三元组的映射。【结果】 在关系抽取任务上，SpERT-Aggcn比SpERT模型的F1值高2.61个百分点，其中长距离关系抽取F1值高4.42个百分点；构建的绿色合作专利知识图谱包含699 517个实体、3 241 805条关系。【局限】 SpERT-Aggcn模型的短距离关系F1值低于SpERT模型，说明本文模型对于短距离关系的识别能力较差。【结论】 通过基于跨度的实体识别模型以及引入依存文法信息的关系抽取模型，构建的知识图谱完整度更高。

图表 | 参考文献 | 相关文章 | 多维度评价