数据分析与知识发现

Select

陈仕吉, 崔腾腾, 邱均平

数据分析与知识发现. 2022, 6(5): 1-9. https://doi.org/10.11925/infotech.2096-3467.2021.0976

摘要 ( ) PDF全文 ( ) HTML ( )

可视化

【目的】 通过文献调研梳理并综述学科交叉动力学分析的发展态势,总结学科交叉动力学分析研究框架、内容和进展。【文献范围】 以Web of Science核心数据库和CNKI为检索来源,以学科交叉动力学以及学科间知识转移、扩散、整合和主题演化等相关研究内容为检索词进行文献检索,并延伸阅读相关文献,共筛选46篇代表性文献进行述评。【方法】 从学科交叉动力学内涵及理论研究的角度归纳学科交叉动力学的分析框架,然后针对学科交叉动力学分析框架的研究内容阐述所涉及的方法和技术,从形成机制和形成过程两个方面总结学科交叉动力学分析的进展和发展趋势。【结果】 学科交叉动力学包括学科交叉发展动力、形成机制和形成过程三个方面的研究,文献计量学和科学计量学的发展为揭示学科交叉形成机制和形成过程的定量测度和实证研究提供了方法和技术。【局限】 学科交叉动力学分析中关于移植和主题演化方面的研究虽然较多,出于学科交叉动力学角度的考虑,只选择一些具有代表性的文献进行分析。【结论】 目前学科交叉动力学研究主要集中在理论和机制研究,从定量角度系统地分析学科交叉形成机制和过程的研究相对较少。随着数据科学和文献计量学的发展,学科交叉动力学研究将更趋向从定量的角度揭示学科交叉领域发展及演化过程。

Select

作者名称增量消歧研究综述

曹思萌, 李春旺

数据分析与知识发现. 2022, 6(5): 10-19. https://doi.org/10.11925/infotech.2096-3467.2021.0189

摘要 ( ) PDF全文 ( ) HTML ( )

可视化

【目的】 总结分析作者名称增量消歧研究进展,为相关研究提供参考。【文献范围】 以（“作者” and “名称消歧”）、（“author” and “name disambiguation”）为关键词分别检索谷歌学术、ACM、IEEE、Elsevier、Springer以及知网、维普数据库,经人工筛选、基于种子文献的引文扩展搜索,获取相关文献58篇,其中直接讨论增量消歧的文献30篇、其他相关文献28篇。【方法】 梳理增量消歧研究发展过程、技术框架与基本原则,围绕相似度比较策略、作者分配判断方法、需要关注的问题等分析增量消歧研究发展情况。【结果】 重视特征选择与表示、相似度计算与作者分配方法的研究,需要加强碎片合并、同一作者多主题识别、错误记录纠正等问题研究。【局限】 直接以作者名称增量消歧为研究主题文献数量较少,在支撑综述结果方面存在局限性。【结论】 应加强增量消歧研究,将传统特征工程法与深度学习、人工智能技术相结合,注重解决增量消歧实践中的具体问题。

Select

融合句法结构和词义信息的政策文本关联挖掘方法研究

武楷彪, 郎宇翔, 董瑜

数据分析与知识发现. 2022, 6(5): 20-33. https://doi.org/10.11925/infotech.2096-3467.2021.0606

摘要 ( ) PDF全文 ( ) HTML ( )

可视化

【目的】 进一步提高政策文本语义关联挖掘的深度,探索政策文本关联挖掘方法。【方法】 融合依存句法分析和词嵌入模型,分别从句子信息和词义信息角度挖掘政策文本内容深层次语义关联,且在设置依存句法抽取规则时充分考虑政策文本的用语特征。【结果】 在方法效果上,在政策文本关联程度区分相对较低的测试数据集中,所提方法F1值达到0.857,相较于融合TF-IDF和余弦相似度的算法,提升了22.78%;在方法功能上,可从文本用词的细微差异刻画政策文本关联。【局限】 在语义信息挖掘上,方法目前采用开源模型,后续可自主训练特定政策领域词向量模型以进一步提高准确度;在句子信息挖掘上,方法依赖于现有依存句法分析工具的准确性。【结论】 所提方法效果较好,功能较强,能有效揭示政策文本内容关联程度,可为政策文本量化研究提供新的研究视角和工具方法。

Select

基于改进文本表示的商品文本分类算法研究

屠振超, 马静

数据分析与知识发现. 2022, 6(5): 34-43. https://doi.org/10.11925/infotech.2096-3467.2021.0958

摘要 ( ) PDF全文 ( ) HTML ( )

可视化

【目的】 解决传统文本分类中分类器容易将属于不同标签但拥有许多相似修饰词的商品标题文本错误分类的问题,提高分类器的表现。【方法】 本文设计了文本判别器作为辅助任务,其损失函数为不同标签文本向量的归一化欧氏距离,并结合传统文本分类主任务的交叉熵损失函数,推动文本编码器为不同类别的商品文本生成有足够区分度的文本表示,构建了ITR-BiLSTM-Attention模型。【结果】 对比没有使用文本判别器的BiLSTM-Attention基础模型,ITR-BiLSTM-Attention模型在准确率、精确率、召回率和F1值4个指标上分别提高1.84百分点、2.31百分点、2.88百分点、2.82百分点;对比文本判别器使用余弦相似度损失函数的Cos-BiLSTM-Attention模型,ITR-BiLSTM-Attention模型在4个指标上分别提高0.53百分点、0.54百分点、1.21百分点、1.01百分点。【局限】 未测试不同采样方式对模型的影响,未在更广泛的数据集上进行实验。【结论】 本文设计的文本判别器辅助任务确实能够改进文本编码器生成的文本表示;构建的基于改进文本表示的商品文本分类模型相比于传统的商品文本分类算法具有更好的表现。

Select

基于义原知识和双向注意力流的问题生成模型

段建勇, 徐丽闪, 刘杰, 李欣, 张家铭, 王昊

数据分析与知识发现. 2022, 6(5): 44-53. https://doi.org/10.11925/infotech.2096-3467.2021.0857

摘要 ( ) PDF全文 ( ) HTML ( )

可视化

【目的】 为解决现有模型存在的生成问题语义偏离于给定上下文文本和答案的问题,提出一种基于义原知识和双向注意力流的问题生成模型。【方法】 提出两种语义增强策略：（1）通过在嵌入层融入义原外部知识的方法来捕捉比词向量更小粒度的语义知识,进而增强文本自身的语义特征。此外,通过余弦相似度算法得到更符合上下文文本语义的扩充义原知识库,这样做不仅可以筛除原有义原知识库中可能会导致语义嘈杂的义原,而且可以为词表中无义原标注的单词推荐符合语义的义原集合。（2）通过在编码层后融入双向注意力流的方法,增强文本与答案之间的语义表征。【结果】 本模型在SQuAD1.1数据集上的Bleu_1、Bleu_2、Bleu_3、Blue_4评价指标分别达到46.70%、31.07%、22.90%、17.48%。实验证明,本文所提改进模型性能优于基线模型。【局限】 当融入双向注意力流时,由于模型需要分别对段落文本及问题进行特征提取,因此训练模型时需要消耗成倍的内存和时间。【结论】 义原知识和双向注意力流这两种语义增强策略可以增强问题生成模型的效果,并且使模型生成更符合人类语言习惯的更高质量的问题。

Select

基于多特征融合的政府工作报告关键词提取研究

潘慧萍, 李宝安, 张乐, 吕学强

数据分析与知识发现. 2022, 6(5): 54-63. https://doi.org/10.11925/infotech.2096-3467.2021.0700

摘要 ( ) PDF全文 ( ) HTML ( )

可视化

【目的】 通过融合BERT词向量、五笔特征、领域同义词表信息以及字频特征于BiLSTM-CRF模型,实现对政府工作报告语料集的关键词自动提取。【方法】 利用BERT向量和五笔向量捕捉输入序列的语义特征和字形特征,通过融合针对政府工作报告所构建的领域同义词表,捕捉输入序列的类别特征,并进一步将字频特征作为权重值赋值于词向量捕捉输入序列上下文特征,使BiLSTM-CRF模型捕捉到更多的语义信息,实现对政府工作报告的关键词自动提取。【结果】 基于多特征融合的关键词提取方法,在自建的政府工作报告语料库上,准确率、召回率和F1值分别达到86.14%、91.56%以及88.42%。此外,通过消融实验评估了方法中各特征的有效性。【局限】 模型针对政府工作报告领域取得了较好的结果,在之后的工作中需要提高模型的泛化能力。【结论】 基于多特征融合的关键词提取方法与其他关键词提取基线方法相比,具有更好的提取效果。

Select

基于用户时点可见性的无趣项挖掘及协同过滤推荐方法

石磊, 李树青

数据分析与知识发现. 2022, 6(5): 64-76. https://doi.org/10.11925/infotech.2096-3467.2021.0842

摘要 ( ) PDF全文 ( ) HTML ( )

可视化

【目的】 解决基于显式反馈信息的协同过滤算法无法处理数据稀疏性和用户选择偏差影响的问题。【方法】 根据看见但未交互的项目表现用户的负面偏好,结合用户活跃度、项目流行度和时间因素综合衡量用户对项目的可见性。引入使用前偏好的概念,构建基于用户时点可见性的加权矩阵分解模型以识别缺失数据中用户不感兴趣的项目,并将其填充为低值。【结果】 通过在MovieLens两个数据集的实验表明,经过基于无趣项挖掘与低值填充的数据填充算法（UIMLF）填充后,ItemCF和BiasSVD的推荐精度平均提升2~2.5倍。【局限】 仅依据“看见未交互”的项目表现用户负面偏好的经验对使用前偏好建模,可能存在经验偏差。【结论】 所提方法能有效缓解数据稀疏性和用户选择偏差的影响,使推荐结果更准确。

Select

融合谱聚类和多因素影响的兴趣点推荐方法

郭蕾, 刘文菊, 王赜, 任悦强

数据分析与知识发现. 2022, 6(5): 77-88. https://doi.org/10.11925/infotech.2096-3467.2021.1047

摘要 ( ) PDF全文 ( ) HTML ( )

可视化

【目的】 提高基于位置的社交网络的推荐算法的运行效率并降低稀疏数据对推荐效果的影响,提高兴趣点推荐准确率指标等。【方法】 使用自适应谱聚类方法对用户进行分组,将组内用户访问过的兴趣点组成待推荐集合,综合考虑4个方面的影响,计算待推荐集合中兴趣点的吸引力评分,向用户推荐评分较高的兴趣点。【结果】 在两种真实的基于位置的社交网络数据集Gowalla、Foursquare中进行实验。实验结果表明,推荐兴趣点个数为2时,推荐准确率分别为11.4%、7.4%,与对比方法Lore相比准确率分别提高3.2%、1.1%;运行时间为50 644.5 s、406 224.7 s,分别缩短16 961.5 s、227 248.6 s。【局限】 聚类效果的好坏对兴趣点的筛选结果有较大影响,因此所提算法对用户聚类分组效果有一定依赖性。【结论】 该算法易于执行,执行效率较高,并且可以融合各种方法充分利用LBSN这种异质网络中的丰富语义信息来提升准确率。

Select

电商异构网络中基于多层信息融合的用户社区划分算法

冯勇, 徐文韬, 王嵘冰, 徐红艳, 张永刚

数据分析与知识发现. 2022, 6(5): 89-98. https://doi.org/10.11925/infotech.2096-3467.2021.1068

摘要 ( ) PDF全文 ( ) HTML ( )

可视化

【目的】 当前用户社区划分算法大多因缺乏对电商网络异构性的考量,导致社区划分准确度不高。为此,本文提出一种电商异构网络中基于多层信息融合的用户社区划分算法。【方法】 根据不同关系类型对电商异构网络进行分层处理,构造基于不同关系类型的用户节点嵌入;通过表征融合将不同层的用户嵌入合并,获得电商异构网络中的用户融合嵌入表征;使用目标函数优化用户节点的相关参数;最后,通过改进的K-means算法形成用户聚类,得到合理的用户社区划分结果。【结果】 本文所提算法与基于DeepWalk、Node2Vec、GCN等主流用户社区划分算法中的次优算法相比,在NMI和Sim@5指标上分别提升6.4%和1.7%,在有效表征用户节点及精确划分用户社区方面都有良好的表现。【局限】 未考虑电商异构网络中所包含的时间信息,同时忽略了网络中噪声点所产生的影响。【结论】 本文算法切实有效,在电商领域有助于提升好友预测、群组推荐等核心应用的性能。

Select

基于专利合作网络的研发团队识别及创新产出影响研究

关鹏,王曰芬,傅柱,靳嘉林

数据分析与知识发现. 2022, 6(5): 99-111. https://doi.org/10.11925/infotech.2096-3467.2021.0772

摘要 ( ) PDF全文 ( ) HTML ( )

可视化

【目的】 利用专利发明人合作网络识别技术研发团队,并对团队创新产出的影响因素进行统计分析。【方法】 设计核心研发人员检测算法,提出基于核心研发人员的研发团队识别算法。以专利产出数量作为研发团队创新产出的数量指标,以专利被引数和专利权要求数作为研发团队创新产出的质量指标,利用负二项回归模型分析研发团队特征对团队创新产出的影响。【结果】 在语音识别技术领域的实证研究表明,所提研发团队识别算法可有效识别出研发团队演化序列566个,包含各时间片段的研发团队共1 827个,研发团队平均规模为16.670;研发团队作为子网络,平均聚类系数为0.856,平均最短路径长度为1.646,表现出明显的小世界特性。【局限】 研发团队识别算法对于一些规模较小且缺少技术领域知名发明人的研发团队识别效果不佳;还需进一步扩大实证研究样本,以验证研究结果的普适性。【结论】 基于语音识别技术领域样本数据分析了研发团队特征对创新产出的影响,负二项回归模型结果表明：团队规模、团队网络平均最短路径长度对创新产出数量和质量均有显著正向影响;团队持续时间、团队稳定性、团队网络密度对创新产出数量和质量均有显著负向影响;团队聚类系数对创新产出数量有显著负向影响,对创新产出质量无显著性影响。

Select

基于机器学习的医疗健康APP隐私政策合规性研究

赵杨, 严周周, 沈棋琦, 李钟航

数据分析与知识发现. 2022, 6(5): 112-126. https://doi.org/10.11925/infotech.2096-3467.2021.0897

摘要 ( ) PDF全文 ( ) HTML ( )

可视化

【目的】 采用机器学习集成方法对我国医疗健康APP隐私政策的合规性进行测评,提高隐私政策合规性测评的效率与精准性。【方法】 依据国家相关政策法规构建医疗健康APP隐私政策合规性测评指标体系,基于硬投票分类器,综合应用卷积神经网络、循环神经网络、长短期记忆人工神经网络三种机器学习算法建立合规性检测模型,通过采集安卓手机应用市场中1 210款医疗健康APP数据,验证模型的有效性并进行隐私政策合规性测评。【结果】 我国医疗健康APP隐私政策整体合规性较差,在6项测评维度上均存在较多违规问题,在线医疗、医药服务、健康管理、医学资讯4类细分领域APP的隐私政策合规性得分分别为0.63、0.59、0.61、0.66。【局限】 由于标注的隐私政策数据量有限,合规性检测模型无法充分学习测评指标特征。【结论】 基于机器学习集成方法的检测模型能够对APP隐私政策的合规性进行大规模、细粒度自动测评,为政府部门科学监管和APP运营商自检自查提供了新的思路与方法。

Select

基于自适应k均值聚类的距离加权欠采样算法

周倩, 姚震, 孙博

数据分析与知识发现. 2022, 6(5): 127-136. https://doi.org/10.11925/infotech.2096-3467.2021.0847

摘要 ( ) PDF全文 ( ) HTML ( )

可视化

【目的】 消除分类问题中类不平衡数据对分类精度的影响。【方法】 首先,使用自适应k均值聚类算法对多数类数据集进行聚类,找到并删除离群点;其次,计算数据与聚类中心加权距离并排序,根据簇密度对多数类数据顺序采样;最后,将采样得到的数据与少数类数据集合并,输入分类算法进行训练。【结果】 实验结果表明,在25组不平衡数据集上算法最大AUC平均值达到0.912,相比较于其他方法最少提升了0.014,平均运行时间仅为1.377 s;应用在两组不平衡大数据集上,算法也有很好的表现。【局限】 不适合多分类问题,仅适合解决二分类问题。【结论】 算法能够找到最适k值,检测并删除离群点,解决类不平衡问题,提高分类精度。算法速度快,开销小,适合不平衡大数据集的应用。

选择文件类型/文献管理软件名称

选择包含的内容

2022年, 第6卷, 第5期　
刊出日期：2022-05-25

模态框（Modal）标题

选择文件类型/文献管理软件名称

选择包含的内容

检索词推荐：

2022年, 第6卷, 第5期 刊出日期：2022-05-25

2022年, 第6卷, 第5期　
刊出日期：2022-05-25