数据分析与知识发现

Select

邓露,胡珀,李炫宏

数据分析与知识发现. 2022, 6(11): 1-12. https://doi.org/10.11925/infotech.2096-3467.2022.0034

摘要 ( ) PDF全文 ( ) HTML ( )

可视化

【目的】 将生物医学文本映射到生物医学领域超级叙词表以获得文本中包含的生物医学术语及其对应概念，并将术语和概念作为背景知识融入文本摘要模型中，提高文本摘要模型在生物医学文本上的摘要生成质量。【方法】 通过抽取式摘要技术获取文本的重要内容，然后结合生物医学领域知识库将文本重要内容中包含的术语与其对应的知识库概念一并抽取出来，作为背景知识融入神经网络生成式摘要模型的注意力机制中，使模型在领域知识引导下既可聚焦文本内部的重要信息，又可抑制因外部信息引入而可能产生的噪音问题，显著改善摘要的生成质量。【结果】 在三个生物医学领域数据集上的实验结果验证了本文方法的有效性，本文所提模型PG-meta在三个数据集上的ROUGE均值达到31.06，比原PG模型ROUGE均值高1.51。【局限】 未探索不同的生物医学领域背景知识获取方式对于模型增强效果的影响。【结论】 本文方法可帮助模型更好地学习生物医学文本深层含义，提高摘要生成质量。

Select

基于超图注意力网络的生物医学文本分类方法

白思萌,牛振东,何慧,时恺泽,易坤,马原驰

数据分析与知识发现. 2022, 6(11): 13-24. https://doi.org/10.11925/infotech.2096-3467.2022.0145

摘要 ( ) PDF全文 ( ) HTML ( )

可视化

【目的】 融合标签语义信息，采用文本级超图和交叉注意力机制捕捉文献文本的组织结构及语义语法信息，提高生物医学领域的文本分类效果。【方法】 使用经微调的BioBERT模型从生物医学领域文本中获取向量特征，构建文本级超图捕获文本的语序、语义及语法信息，通过提出的交叉注意力机制网络将文本级超图和标签语义信息进行特征融合实现文本分类任务。【结果】 在数据集PM-Sentence数据集上的实验结果表明，所提模型相较于基线模型在综合评价F1指标上最大提高2.34个百分点。【局限】 构建的数据集有待扩充，对所提模型用于该领域其他任务的适用性有待进一步研究。【结论】 所提模型提升了生物医学文本的分类效果，为知识检索、知识挖掘等知识服务应用提供了有效支持。

Select

融合句法信息的文本语料库检索方法研究

张永伟,刘婷,刘畅,吴冰欣,俞敬松

数据分析与知识发现. 2022, 6(11): 25-37. https://doi.org/10.11925/infotech.2096-3467.2022.0093

摘要 ( ) PDF全文 ( ) HTML ( )

可视化

【目的】 探究高效的大规模文本语料库句法信息检索方法。【方法】 依据句法信息特点，将句法信息进行线性化索引，直接提供检索时条件匹配所需的各种信息，从而提升检索速度。【结果】 使用《人民日报》语料2 851万句进行实验，26个检索条件平均用时约802.6毫秒，达到大规模语料库检索系统对检索效率的要求。【局限】 实验使用的检索条件数量较少，未使用更多的检索条件进行验证。【结论】 本文方法有助于在大规模文本语料库中快速地检索词法信息、依存句法信息和成分句法信息。

Select

基于改进图卷积神经网络的评论有用性识别

李雪梅,蒋建洪

数据分析与知识发现. 2022, 6(11): 38-51. https://doi.org/10.11925/infotech.2096-3467.2022.0129

摘要 ( ) PDF全文 ( ) HTML ( )

可视化

【目的】 充分建模评论中的特征观点语义偏差，提升评论有用性识别的性能。【方法】 构建一种融合组块分析和特征隶属关系的FFGCN模型进行评论有用性识别。通过组块分析获得特征和观点词块作为图上节点，同时借助多粒度特征词库融入特征词间隶属关系构图，经过图上卷积进行评论二分类。【结果】 FFGCN模型在两个数据集上的识别准确率分别为93.4%和93.9%，比基线模型最优结果分别提升0.9和1.0个百分点。【局限】 选取手机评论数据进行实验，未将模型拓展到其他产品类型验证其识别性能。【结论】 所提模型能够有效对评论文本进行建模，大大提高评论有用性识别的性能。

Select

基于属性融合的多真值发现方法

杨昊霖,董永权,陈华凤,张国玺

数据分析与知识发现. 2022, 6(11): 52-60. https://doi.org/10.11925/infotech.2096-3467.2022.0286

摘要 ( ) PDF全文 ( ) HTML ( )

可视化

【目的】 解决现有方法多数只侧重于多真值属性自身，缺少考虑辅助属性影响的问题，提高多真值发现的效果。【方法】 利用辅助属性计算数据源专业度和共识度，结合多真值属性值的活跃度得到数据源对冲突数据的支持度。通过调用已有真值发现方法获取真值伪标签，使用神经网络捕获数据源和冲突数据的复杂关系，最终推理出全部真值。【结果】 实验结果表明，与次优方法相比，在图书数据集上F1值提升2.25%，在电影数据集上F1值提升5.42%。【局限】 所提方法融合了反映对象特征的辅助属性，尚未探索其余辅助属性对多真值发现的影响。【结论】 基于多真值属性与辅助属性融合的方法提高了多真值发现的准确性。

Select

专业技术领域核心专利组合识别方法构建及其应用比较

曾闻,王曰芬

数据分析与知识发现. 2022, 6(11): 61-71. https://doi.org/10.11925/infotech.2096-3467.2022.0161

摘要 ( ) PDF全文 ( ) HTML ( )

可视化

【目的】 从识别指标信息的多元与不同赋权及排序算法组配的综合视角，结合大规模数据集的特点，研究核心专利组合识别方法的构建及其应用对比。【方法】 通过交叉组配构建5种组合识别方法，选取6项专利特征信息，以人工智能领域为例，从整体与局部层次对比各方法的特征和应用情境。【结果】 不同组合识别方法在不同的数据集与时间段有较高的一致性。同时，不同方法识别的结果随着被识别的核心专利数量增加而两两间重合率逐渐减少，例如方法①与方法④的核心专利重合率由80%降至47%。【局限】 仅考虑现实研究中较普遍的核心识别需求，可进一步研究针对特定的、个性化的核心识别需求的专利组合识别方法。【结论】 所构建的5种组合识别方法，基于专利数据集的规模、分散程度、时间跨度和特征值表现及技术领域发展的差异，可分别应用到核心专利识别不同应用需求场景中。针对快速发展的人工智能领域，熵权法赋权结合灰色关联分析和熵权法赋权结合TOPSIS这两种方法识别效果更优。

Select

新闻话题识别中LDA最优主题数选取研究

杨洋,江开忠,原明君,惠岚昕

数据分析与知识发现. 2022, 6(11): 72-78. https://doi.org/10.11925/infotech.2096-3467.2022.0115

摘要 ( ) PDF全文 ( ) HTML ( )

可视化

【目的】 针对LDA模型中主题数目需指定的问题，提出一种面向新闻话题识别领域的融合语义与时序的自适应主题数目确定方法。【方法】 将语义和时序作为两个视图对新闻数据进行提取，得到对应的特征向量；再利用Co-DPSC算法对两个视图进行协同训练，得到包含时序影响的语义特征矩阵；最后对矩阵降维处理后按行进行密度峰值聚类，其结果作为最优主题的个数。【结果】 实验结果表明：考虑语义和时间因素确定最优主题数，查准率和F值分别提高了35.09个百分点和15.39个百分点。【局限】 对关键词集进行聚类，关键词的获取方法一定程度上影响了聚类的效果和运行时间。本文算法仅针对新闻数据，在其他类型数据上具有一定局限性。【结论】 实验证明，本文方法将新闻数据的时效性和内容结合起来考量新闻的类别，能够在一定程度上提升最优主题数目选取的准确性。

Select

政策文本的知识建模与关联问答研究

华斌,康月,范林昊

数据分析与知识发现. 2022, 6(11): 79-92. https://doi.org/10.11925/infotech.2096-3467.2022.0185

摘要 ( ) PDF全文 ( ) HTML ( )

可视化

【目的】 实现一种以认知层语义知识理解为主导的关联政策智能问答方法，提升政府的社会综合服务效率与能力。【方法】 基于政策文本内涵建立知识模型表达政策知识；引入疑问词注意力机制，结合改进的ERNIE+CNN模型完成政策问题分类；利用融合句法分析的语义角色标注IDCNN+CRF模型与认知计算方法进行问题语义、语用层面知识获取；在知识融合与语义检索的基础上，利用知识聚合技术实现关联答案的生成，并采用BERT语义相似度计算与知识单元计量方法对答案进行双重质量评价。【结果】 问题分类准确率达到90.76%，分别高出原始BERT、ERNIE模型18.81、5.05个百分点；问题知识获取精确率达到95.88%，答案质量检验的正确率达到93.75%，答案的语义相似度结果为0.88，知识一致性结果为0.96。【局限】 问题知识获取方法性能受限于领域知识体系完整性，关联答案效果取决于政策知识抽取的准确性。【结论】 在对政策文本内容解构并进行知识表示的基础上，所提方法可以综合不同政策内容的问题答案，并具有较好的知识检验结果。

Select

基于图神经网络的抗结核杆菌药物虚拟筛选模型的建立及应用

顾耀文,郑思,杨丰春,李姣

数据分析与知识发现. 2022, 6(11): 93-102. https://doi.org/10.11925/infotech.2096-3467.2022.0196

摘要 ( ) PDF全文 ( ) HTML ( )

可视化

【目的】 构建和比较抗结核杆菌药物虚拟筛选模型，助力抗结核药物的研发。【方法】 提出一种基于课程式学习优化的图神经网络模型GNN-MTB，用于抗结核杆菌抑制剂的虚拟筛选。进一步，从开放数据库中收集整理抗结核杆菌药物筛选相关基准数据集，将GNN-MTB模型与4种常规机器学习模型和两种图神经网络模型在基准数据集上进行性能比较。【结果】 对10 789条抗结核杆菌药物虚拟筛选实验数据的分析结果显示，GNN-MTB模型的预测性能（AUC为0.912，AUPR为0.679）优于传统的机器学习模型和图神经网络模型的性能表现（平均AUC为0.878~0.900，平均AUPR为0.600~0.673），平均AUC和AUPR的最大提升幅度达3.872%和13.167%。同时，开源GNN-MTB模型并构建抗结核杆菌药物虚拟筛选预测工具以供广大抗结核杆菌药物研究者使用。【局限】 未纳入药物敏感性和菌株耐药性相关分析。【结论】 GNN-MTB模型取得良好性能，可探索将其应用于抗结核病药物研发。同时，研究框架也可为其他疾病药物的虚拟筛选提供参考。

Select

基于URL多粒度特征融合的钓鱼网站识别

胡忠义,张硕果,吴江

数据分析与知识发现. 2022, 6(11): 103-110. https://doi.org/10.11925/infotech.2096-3467.2022.0141

摘要 ( ) PDF全文 ( ) HTML ( )

可视化

【目的】 缓解钓鱼网站识别中URL表征不充分的问题，构建一种基于URL多粒度特征融合的识别模型。【方法】 分别基于独热编码和BERT深度表征URL的字符级和单词级特征，进而通过融合两种粒度的深度特征构建钓鱼网站识别模型。【结果】 所构建的融合多粒度URL特征的识别模型在实验数据集上的准确率、召回率、F1值以及AUC值分别达到0.96、0.98、0.97、0.97，比单一粒度的表征模型、基准分类器和以往模型具有更好的识别性能。【局限】 除了URL特征表征，有待进一步融合包括URL页面内容在内的更多源特征。【结论】 构建的模型可以更全面地深度表征URL特征，有效提升了钓鱼网站的识别准确性。

Select

基于因果分析图的城市交通流短时预测研究

王洁,高原,张蕾,马力文,冯筠

数据分析与知识发现. 2022, 6(11): 111-125. https://doi.org/10.11925/infotech.2096-3467.2022.0090

摘要 ( ) PDF全文 ( ) HTML ( )

可视化

【目的】 有效地挖掘区域之间复杂的空间作用关系机制，提高短时交通流预测精度。【方法】 提出一种新的图神经网络模型，该模型融合区域功能相似性矩阵与因果关系矩阵，按照“交通时序因果关系挖掘→时空特征提取→未来状态预测”的逻辑进行预测建模，训练图神经网络捕获区域内流量的时空依赖性特征，从而实现交通流量预测。【结果】 在成都市滴滴出行数据集上进行实验分析，结果表明所提模型较其他8种基线模型效果均有一定的提升，相较于最优基线模型，在RMSE及MAE值上分别降低了3.098%和4.783%。【结论】 交通时序因果图可以同时融合传统方法中通常需要考虑的空间距离关系特征、道路连通性特征、功能相似性特征等，且因果关系的引入能在一定程度上提升区域交通流的预测性能。

Select

基于深度学习的中小微企业综合质量画像构建研究

曹丽娜,张健,陈进东,樊辉

数据分析与知识发现. 2022, 6(11): 126-138. https://doi.org/10.11925/infotech.2096-3467.2022.0078

摘要 ( ) PDF全文 ( ) HTML ( )

可视化

【目的】 针对中小微企业质量难以精准刻画的问题，开展基于深度学习的中小微企业综合质量画像技术研究。【方法】 设计涵盖质量创新能力、过程质量控制、产品质量水平、经营质量与风险、财务质量等5个维度的中小微企业综合质量画像体系，构建多元化的综合质量画像技术，并重点针对质量抽检报告、用户评论等网络文本数据，提出基于深度学习方法的中小微企业综合质量画像构建技术。【结果】 实证结果表明，基于BERT预训练的模型对三类质量实体识别的F值较基准模型分别提高了4.66、1.99、4.25个百分点，基于Word2Vec预训练的评论分类模型的F值较传统TF-IDF模型提高了6.03个百分点。【局限】 限于数据的可获得性，更多企业质量相关维度的画像有待进一步优化和完善。【结论】 深度学习技术扩大了企业质量画像的维度，提升了企业质量画像的准度，为企业质量服务机构的服务模式创新提供了技术支撑。

Select

数字人文视域下中国行政区划地名演化知识库构建及分析研究

李晓敏,王昊,李跃艳,赵萌

数据分析与知识发现. 2022, 6(11): 139-153. https://doi.org/10.11925/infotech.2096-3467.2022.0183

摘要 ( ) PDF全文 ( ) HTML ( )

可视化

【目的】 利用关联数据技术对地名沿革的演变过程进行研究，更好地发挥地名的文化传承作用。【方法】 构建中国地名演化知识库CGNE_Onto，制定演变类型强弱标志词识别历史沿革数据中的演变类型句，再利用BERT-BiLSTM-CRF深度学习模型识别演变类型句中的时间和地名实体，将识别出的时间和地名实体作为本体中的类构建本体知识库，同时从直接路径关系和间接路径关系角度对构建好的行政区划地名演化本体知识库进行可视化展示。并对各朝代不同演变类型的数量以及形成原因进行统计分析。【结果】 实验结果表明，所提模型能够多角度、直观地展示地名演变情况，为地名数据的分析挖掘提供了一种新的思路。【局限】 数据集规模较小，造成演变特征词也有一定的局限。【结论】 构建的地名演化知识库能够直观、清晰地展现地名从古至今的演变情况，以及各朝代演变类型的情况。

选择文件类型/文献管理软件名称

选择包含的内容

2022年, 第6卷, 第11期　
刊出日期：2022-11-25

模态框（Modal）标题

选择文件类型/文献管理软件名称

选择包含的内容

检索词推荐：

2022年, 第6卷, 第11期 刊出日期：2022-11-25

2022年, 第6卷, 第11期　
刊出日期：2022-11-25