数据分析与知识发现

Select

崔骥, 张金鹏, 包舟, 丁晟春

数据分析与知识发现. 2022, 6(9): 1-13. https://doi.org/10.11925/infotech.2096-3467.2021.1451

摘要 ( ) PDF全文 ( ) HTML ( )

可视化

【目的】 生成基于趋势度的预测模型,对领域文献进行分析,从而预测领域核心主题的发展。【方法】 分析科技文献表征其研究主题的特征项,进行主题识别,构建战略坐标识别领域核心主题及时间序列,利用ARIMA模型和指数平滑法预测主题的趋势度。【结果】 指数平滑法预测结果的平均绝对误差与平均均方根误差均小于ARIMA模型。【局限】 模型中的初始参数选取、系数分布以及文献发文量的分布会对预测效果造成影响。【结论】 两种模型对于增长型主题和新兴型主题有较好的预测效果,指数平滑法的预测精准度优于ARIMA模型。

Select

融合细分学科与文本内容的中美英ESI学科布局特征探析

张宛姝, 姚海涛, 汪雪锋

数据分析与知识发现. 2022, 6(9): 14-26. https://doi.org/10.11925/infotech.2096-3467.2021.1439

摘要 ( ) PDF全文 ( ) HTML ( )

可视化

【目的】 以ESI高被引论文为研究对象,挖掘中国、美国、英国的学科布局特征。【方法】 借鉴生物多样性的一般框架,融合细分学科与文本内容,构建学科多样性、学科均衡性、学科差异性指标,并以5年为时间窗口分析指标变化趋势,综合地对比学科布局特征。【结果】 中国在社会科学、生物医学的学科多样性方面,在工程学、数学、环境与生态学等的学科均衡性方面,在计算机、地球科学、动植物学等的学科差异性方面仍与美国、英国存在差距,部分指标呈现上升趋势。【局限】 学科覆盖阈值有待探讨,未考虑作者国别位序对论文贡献度的差异。【结论】 研究系统展现了中国与美国、英国在学科覆盖程度、科研产出均衡性以及文本主题差异程度上的异同,有助于为改进学科评价和完善学科布局提供参考。

Select

数字人文视域下诗人的时空情感轨迹研究——以李白为例

高劲松, 张强, 李帅珂, 孙艳玲, 周树斌

数据分析与知识发现. 2022, 6(9): 27-39. https://doi.org/10.11925/infotech.2096-3467.2021.1413

摘要 ( ) PDF全文 ( ) HTML ( )

可视化

【目的】 探究诗人在时空轨迹和情感维度的变化情况,为人文领域的知识发现提供新的研究视角。【应用背景】为提升当前数字人文研究过程的可视化效果及研究结果的可读性,应用本体技术和GIS技术表达诗人的时空情感轨迹,为相关领域的学者提供新的研究思路和可视化的研究方法。【方法】 以李白为例,构建诗人本体模型,对诗人的相关概念和关系进行知识建模,再利用GIS技术展示李白的时空情感轨迹变化,挖掘背后的隐性知识。【结果】 李白的人生轨迹跨越了大半个中国,其中以到今南京轨迹次数为最。从空间角度看,当涂为李白“悲喜交加”地,南京为李白的“悲”地;从时间角度看,李白青年时期“喜”多于“悲”,中年时期“悲”多于“喜”,晚年时期“悲喜交加”。【结论】 本文为研究诗人的时空情感轨迹提供了实践经验,为人文领域相关问题提供了新思路和新方法。

Select

基于SC-Attention机制的多模态讽刺检测研究

陈圆圆, 马静

数据分析与知识发现. 2022, 6(9): 40-51. https://doi.org/10.11925/infotech.2096-3467.2021.1362

摘要 ( ) PDF全文 ( ) HTML ( )

可视化

【目的】 针对现有多模态讽刺检测模型中存在预测准确率不高、多模态特征难以融合等问题,设计一种SC-Attention融合机制。【方法】 采用CLIP和RoBERTa模型分别提取图像、图像属性和文本三种模态特征,经由SENet的注意力机制和Co-Attention机制结合构成的SC-Attention机制将多模态特征进行融合,以原始模态特征为引导,合理分配特征权重,最后输入全连接层进行讽刺检测。【结果】 实验结果表明,基于SC-Attention机制的多模态讽刺检测的准确率为93.71%,F1值为 91.68%,与基准模型相比,准确率提升10.27个百分点,F1值提升11.50个百分点。【局限】 模型的泛化性需要在更多数据集上体现出来。【结论】 SC-Attention机制减少信息冗余和特征损失,有效提高多模态讽刺检测的准确率。

Select

基于潜在主题分布和长、短期用户表示的新闻推荐模型

唐娇, 张力生, 桑春艳

数据分析与知识发现. 2022, 6(9): 52-64. https://doi.org/10.11925/infotech.2096-3467.2021.1376

摘要 ( ) PDF全文 ( ) HTML ( )

可视化

【目的】 在充分利用新闻文本内容、附加信息的基础上,探究用户的当前关注和稳定偏好,弥补现有新闻推荐方法在利用新闻内容信息和探索用户长、短期混合兴趣等方面的不足。【方法】 构建了一种融合不同类型新闻信息的新闻表示模型,对新闻的标题、摘要、正文等文本内容,以及显式主题、潜在主题等附加信息进行有效利用;在此基础上,构建一种可以刻画用户长、短期兴趣用户表示模型,探究用户的当前关注和稳定偏好。【结果】 所提模型在两个大规模新闻推荐数据集上的性能分别达到了69.51%（AUC）、34.09%（MRR）、37.25%（nDCG@5）、43.01%（nDCG@10）以及66.05%（AUC）、30.93%（MRR）、34.30%（nDCG@5）、40.46%（nDCG@10）,稳定超越7个基准模型。【局限】 对历史行为稀疏的用户考虑不足,后续可针对用户冷启动场景作出适当推荐。【结论】 所提模型利用先进的自然语言处理技术学习了信息量比较丰富的新闻和用户表示向量,其设计思路能有效提高新闻推荐的性能。

Select

基于领域ERNIE和BiLSTM模型的酒店评论观点原因分类研究

张治鹏, 毛煜升, 张李义

数据分析与知识发现. 2022, 6(9): 65-76. https://doi.org/10.11925/infotech.2096-3467.2021.1303

摘要 ( ) PDF全文 ( ) HTML ( )

可视化

【目的】 挖掘在线预订平台评论中的观点原因,提出一个观点原因句分类模型（DERNIE-BiLSTM）。【方法】 构建一个数据量百万级别的酒店领域评论语料库并人工标注一个数据集ORSC,将语料库额外加入ERNIE自有的预训练集中并通过预训练提取ORSC数据集的文本特征,利用BiLSTM模型融合特征并识别包含观点原因的评论。【结果】 在ORSC数据集上,DERNIE短分类准确率为0.913 3, F1值为0.912 0;经过BiLSTM融合特征后的准确率提升到0.945 7,F1值提升到0.946 2。【局限】 预训练语言模型需要大量的训练语料,对计算速度和效率会产生一定影响。【结论】 DERNIE-BiLSTM预训练模型的特征提取和融合方法,能更精准地挖掘评论中的观点原因句。

Select

CNN-SM：基于义原与多特征融合的消费品领域缺陷词识别模型

游新冬, 袁梦龙, 张乐, 吕学强

数据分析与知识发现. 2022, 6(9): 77-85. https://doi.org/10.11925/infotech.2096-3467.2021.1369

摘要 ( ) PDF全文 ( ) HTML ( )

可视化

【目的】 针对消费品领域中缺陷词识别任务精度不足的问题,提出基于义原与多特征融合的消费品领域缺陷词识别模型。【方法】 模型输入为融合义原信息的分布式词向量,在此基础上添加词性特征和经过随机嵌入的词位置向量,以增添词向量所包含的信息;在卷积神经网络上去除了最大池化,增加卷积核输出的深度向量所包含的信息,为单词分类提供更充分的信息。【结果】 实验结果表明,所提模型相较于仅添加词位置向量的卷积神经网络模型,在精确率、召回率和F1值上分别有0.021、0.002和0.012的提升。【局限】 不同场景下的相同表述的极性识别不足。【结论】 通过消融实验证明,义原、词性以及去除池化层有助于领域词识别模型性能的提升。

Select

基于笔画ELMo嵌入IDCNN-CRF模型的企业风险领域实体抽取研究

杨美芳, 杨波

数据分析与知识发现. 2022, 6(9): 86-99. https://doi.org/10.11925/infotech.2096-3467.2021.1308

摘要 ( ) PDF全文 ( ) HTML ( )

可视化

【目的】 有效学习风险领域文本特征和上下文语义关联性,提升企业风险领域实体抽取的性能。【方法】 提出基于笔画ELMo嵌入IDCNN-CRF的企业风险领域实体抽取模型。使用双向语言模型预训练大规模非结构化的企业风险领域数据得到的笔画ELMo向量作为输入特征;将其送入IDCNN网络进行训练,运用CRF对IDCNN的输出层进行处理,获得全局最优的企业风险领域实体序列标注。【结果】 模型对企业风险领域实体抽取的F值为91.9%,相对于BiLSTM-CRF模型的抽取性能提升了2.0%,且测试速度快2.36倍。【局限】 未考虑本模型扩展于更多领域实体抽取任务的普适性。【结论】 本文模型能够为企业风险领域实体语料库构建提供参考借鉴。

Select

基于神经网络的医药科技论文实体识别与标注研究

赵蕊洁, 佟昕瑀, 刘小桦, 路永和

数据分析与知识发现. 2022, 6(9): 100-112. https://doi.org/10.11925/infotech.2096-3467.2021.1414

摘要 ( ) PDF全文 ( ) HTML ( )

可视化

【目的】 为提高医药实体识别的效果、实现医药新知识的挖掘和提高医药科技论文的利用率,提出一种新的实体识别模型。【方法】 构建基于Attention-BiLSTM-CRF的医药实体识别模型,在公开数据集GENIA Term Annotation Task和BioCreative II Gene Mention Tagging上分别对模型进行测试,进而使用该模型对生物医药论文的摘要进行实体标注。【结果】 本文提出的模型优于其他基准模型,在两个数据集上的F1值分别为81.57%和84.23%、准确率分别为92.51%和97.85%,并且在数据不平衡的情况下更有优势。【局限】 实体标注实验数据量和应用范围较为单一。【结论】 基于Attention-BiLSTM-CRF的医药实体识别模型可以提高实体识别效果并实现医药新知识的挖掘。

Select

融合患者体征与用药数据的图神经网络药物推荐方法研究

成全, 佘德昕

数据分析与知识发现. 2022, 6(9): 113-124. https://doi.org/10.11925/infotech.2096-3467.2021.1452

摘要 ( ) PDF全文 ( ) HTML ( )

可视化

【目的】 通过融合病患体征信息与用药数据,利用图神经网络技术进行药物精准推荐,以增强疾病诊疗过程中药物推荐的科学性与合理性。【方法】 建立基于图神经网络（GNN）的“异常体征”与“药品”传递关系模型,设计了具有体征感知功能的药物精准推荐方案。构建“异常体征-病患-药品”异构图,采用关系图卷积神经网络（R-GCN）编码器学习具有体征感知的节点表示,通过设计基于体征感知交互的解码器,融合异常体征信息,实现对药物的精准推荐。【结果】 以MIMIC-Ⅲ数据集中的三类疾病诊疗数据为对象开展实证研究。本文设计的药物推荐方案较SVD、NeuMF、NGCF模型在Recall@20指标上分别提高5.76、5.33、0.91个百分点;在NDCG@20指标上分别提高了5.03、4.25、2.67个百分点。【局限】 该药物推荐方案未考虑病患药物使用随疾病发展时间的动态变化情况。【结论】 融合病患体征信息与用药数据的图神经网络药物推荐方法具有有效性和可行性,能够感知病患体征对用药的影响,为融合多维度信息开展药物精准推荐研究提供了基础。

Select

基于复杂网络的医学语义关联研究

张军亮, 方雪梅, 张帆, 刘喜文, 朱鹏

数据分析与知识发现. 2022, 6(9): 125-137. https://doi.org/10.11925/infotech.2096-3467.2021.1178

摘要 ( ) PDF全文 ( ) HTML ( )

可视化

【目的】 运用复杂网络理论和技术构建语义关联网络,研究医学语义关联。【方法】 以医学语义概念为复杂网络节点,语义关联为边,构建医学语义关联网络,并分析其网络特征和语义社区,同时运用深度学习进行语义概念向量化和语义聚类分析。【结果】 将PubMed中MEDLINE的Coronavirus文献作为数据集,构建包含43个节点和877条边的医学语义关联网络,对网络特征、语义社区和语义聚类进行验证和可视化展示。【局限】 实验数据较少。【结论】 语义关联网络可以有效表达医学概念间的语义关联,为医学知识发现服务提供参考。

Select

基于图书目录注意力机制的读者偏好分析与推荐模型研究

王代琳, 刘丽娜, 刘美玲, 刘亚秋

数据分析与知识发现. 2022, 6(9): 138-152. https://doi.org/10.11925/infotech.2096-3467.2021.1317

摘要 ( ) PDF全文 ( ) HTML ( )

可视化

【目的】 为解决现有推荐算法因忽略读者对于图书目录的关注而导致推荐准确度不高的问题,本文提出一种基于图书目录注意力机制的读者偏好分析方法及其个性化推荐模型IABiLSTM。【方法】 根据图书标题和目录内容提取图书的语义特征：利用BiLSTM网络捕获文本的长距离依赖和语序上下文信息,使用双层Self-Attention机制增强图书目录特征更深层次的语义表达;分析读者历史浏览行为,使用兴趣函数拟合量化读者兴趣度;将图书的语义特征和读者兴趣度相结合生成读者偏好向量,计算候选图书语义特征向量和读者偏好向量的相似度预测评分并完成个性化图书推荐。【结果】 使用MSE、Precision、Recall三项指标对模型进行考察,当N=50时,豆瓣数据集上结果分别为1.1%、89.1%、85.2%,Amazon数据集上结果分别为1.2%、75.2%、72.8%,优于对比模型。【局限】 仅在豆瓣读书和Amazon两个数据集上进行了模型验证,在其他数据集上的泛化性能有待进一步验证。【结论】 本文通过提高对图书目录的注意力关注度和对读者历史浏览交互行为的分析,有效表达读者的兴趣偏好,对图书推荐准确度的提升起到了重要作用。所提模型不仅适用于基于图书内容和读者浏览行为的推荐任务,在其他常见的自然语言处理任务中也有借鉴意义。

选择文件类型/文献管理软件名称

选择包含的内容

2022年, 第6卷, 第9期　
刊出日期：2022-09-25

模态框（Modal）标题

选择文件类型/文献管理软件名称

选择包含的内容

检索词推荐：

2022年, 第6卷, 第9期 刊出日期：2022-09-25

2022年, 第6卷, 第9期　
刊出日期：2022-09-25