数据分析与知识发现

数据分析与知识发现

2022年, 第6卷, 第10期　刊出日期：2022-10-25

选择:

合并摘要

导出引用管理器
EndNote Reference Manager ProCite BibTeX RefWorks

研究论文

Select

基于时序漂移的潜在因子模型推荐方法^*

丁浩, 胡广伟, 王婷, 索炜

数据分析与知识发现. 2022, 6 (10): 1-8. DOI: 10.11925/infotech.2096-3467.2021.1464

摘要

HTML ( 54 )

PDF(1361KB) ( 245 )

【目的】 提出一种基于时序漂移的潜在因子分解模型，捕捉用户兴趣趋势特征以提升推荐准确度。【方法】 结合用户偏好的时序动态演化以及用户过去行为对当前行为的影响关系进行建模，通过构建辅助矩阵捕捉用户两个时期之间演变关系，引入时间影响因子平衡当前和过去行为的影响。【结果】 在三个实验数据集中和基线方法对比测试，精确度最大提高40.02个百分点，最少提高3.75个百分点，平均提高19.81个百分点，证明了本算法的有效性。【局限】 由于兴趣漂移演变分析依赖用户历史数据，当历史数据量过于稀疏时需采用用户其他信息进行冷启动。【结论】 本文模型对兴趣波动特征的泛化能力更强、用户兴趣演变趋势分析和推荐更准确，能够有效提升企业推荐性能。

图表 | 参考文献 | 相关文章 | 多维度评价

Select

基于异构图神经网络的社交媒体文本主题聚类^*

冯小东, 惠康欣

数据分析与知识发现. 2022, 6 (10): 9-19. DOI: 10.11925/infotech.2096-3467.2022.0038

摘要

HTML ( 40 )

PDF(2101KB) ( 527 )

【目的】 针对社交媒体文本数据存在的语义稀疏及多元主体交互问题，探索有效的主题聚类方法。【方法】 利用异构信息网络对社交媒体的用户和信息多元交互关系进行建模，使用词嵌入方法学习文本的向量表示作为初始输入特征，基于异构图神经网络实现信息的传播及融合，学习文本表示向量并利用无监督聚类算法进行主题聚类。【结果】 在基准社交媒体数据集上，帖子和评论的聚类指标（NMI）分别达到0.837 2和0.868 9，优于传统的LDA主题模型或基于Word2Vec、Doc2Vec、GolVe等词或文本嵌入向量直接聚类的方法。【局限】 由于数据的限制，模型并未对用户间社交关系及信息的多媒体内容进行建模。【结论】 本文方法通过对社交媒体多元交互关系进行建模，能有效提高文本主题聚类的效果。

图表 | 参考文献 | 相关文章 | 多维度评价

Select

基于学者画像的科研合作者推荐研究^*

董文慧, 熊回香, 杜瑾, 王妞妞

数据分析与知识发现. 2022, 6 (10): 20-34. DOI: 10.11925/infotech.2096-3467.2021.1457

摘要

HTML ( 30 )

PDF(2802KB) ( 197 )

【目的】 帮助学者快速地找到合适的科研合作者，促进科研产出，增进学术交流。【方法】 采用LDA主题模型、PageRank算法、社会网络分析等方法，全面深入挖掘学者的自然属性、兴趣属性、能力属性、社交属性4个维度特征以构建学者画像，并基于学者偏好开展科研合作者推荐。【结果】 从CNKI和CSSCI获取图书情报领域14 007篇文献、13 292条引文数据及11 869位作者验证所提模型，最终向目标学者推荐了20名研究兴趣相似及互补的潜在科研合作者。【局限】 未能很好地解决冷启动问题，且在学者能力表征方面忽略了不同署名顺序的作者对论文的贡献度，在实证环节数据量选择有限。【结论】 所提模型可以有效地向目标学者推荐高权威度、高相关度，且科研生产力和社交关系等多方面特征均高度匹配的潜在科研合作者，具有较好的应用价值。

图表 | 参考文献 | 相关文章 | 多维度评价

Select

基于计量指标多变量LSTM模型的新兴主题热度预测研究^*

陈稳, 陈伟

数据分析与知识发现. 2022, 6 (10): 35-45. DOI: 10.11925/infotech.2096-3467.2022.0075

摘要

HTML ( 24 )

PDF(1366KB) ( 456 )

【目的】 识别出多源数据中蕴含的新兴主题，建立融合计量指标多变量的LSTM模型以实现新兴主题热度的预测。【方法】 首先，挖掘出基金项目、期刊论文、专利文献中的研究主题;其次，根据主题新颖性、成长性和持续性筛选出研究主题中的新兴主题;最后，设计主题热度指标，并融合基金金额、基金数量、论文篇均被引、专利IPC小类数量4个计量指标，基于LSTM模型实现对新兴主题研究热度的预测。【结果】 以固体氧化物燃料电池领域为例，融合计量指标的多变量LSTM预测效果优于BP、KNN、SVM、单变量LSTM模型，其MAE（16.534）、RMSE（23.494）最小， R²（0.642）最高。【局限】 在输入计量指标选择中，专利被引数量等指标由于很难获取每个时间窗口下具体数据而未被纳入。【结论】 计量指标多变量的纳入优化了新兴主题热度预测模型的预测效果。

图表 | 参考文献 | 相关文章 | 多维度评价

Select

医学影像诊断报告的结构化研究^*

盛羽, 胡慧荣, 王聪聪, 杨晟艺

数据分析与知识发现. 2022, 6 (10): 46-56. DOI: 10.11925/infotech.2096-3467.2022.0085

摘要

HTML ( 11 )

PDF(1029KB) ( 435 )

【目的】 研究医学影像诊断报告的结构化方法，实现从医学影像诊断报告中准确高效地提取信息。【方法】 分析医学影像诊断报告的文本特征，提出基于实体识别和规则抽取相结合的结构化方法，标注800份医学影像诊断报告构建数据集实验评估。【结果】 所提方法对医学影像诊断报告各类实体的识别精确率均达到了0.87，相较于BERT-BiLSTM-CRF在识别精确率上提升了4.03个百分点，召回率提升了2.81个百分点。该医学影像诊断报告结构化方法比基于依存分析的结构化方法对检查项和检查结果的识别精确率分别提升5.62个百分点和2.31个百分点。【局限】 研究基于某医院PET-CT影像诊断报告，数据来源单一。【结论】 实现医学影像诊断报告从自由文本到结构化数据的转换，不仅优化医学影像诊断报告的分类、检索与存储，还为医学影像领域后续研究提供数据支持。

图表 | 参考文献 | 相关文章 | 多维度评价

Select

融入限定关系的专利关键词抽取方法^*

俞琰, 朱晟忱

数据分析与知识发现. 2022, 6 (10): 57-67. DOI: 10.11925/infotech.2096-3467.2021.1458

摘要

HTML ( 19 )

PDF(1127KB) ( 286 )

【目的】 通过考虑专利权利要求特征，提高专利关键词抽取准确性。【方法】 挖掘出专利权利要求中技术特征间的限定关系，将限定关系融入基于图的专利关键词抽取方法中，以抽取专利关键词。【结果】 在USPTO专利数据集和Baiten专利数据集上进行实验，实验结果表明所提方法的MRR指标较传统的TextRank方法分别相对提升了31.79%（USPTO）和33.81%（Baiten）。【局限】 实验分析的数据需要进一步扩大。【结论】 融入专利权利要求的限定关系信息能够显著提高专利关键词抽取的准确性。

图表 | 参考文献 | 相关文章 | 多维度评价

Select

基于BERT和互信息的金融风险逻辑关系量化方法

贾明华, 王秀利

数据分析与知识发现. 2022, 6 (10): 68-78. DOI: 10.11925/infotech.2096-3467.2022.0009

摘要

HTML ( 23 )

PDF(1229KB) ( 313 )

【目的】 通过量化金融风险逻辑关系防控金融风险，同时处理金融事件词频量化不可靠问题。【方法】 提出一种结合领域知识的基于BERT和互信息的金融风险逻辑关系量化分析方法，并在通用数据集COPA和金融领域数据集上进行关系量化。【结果】 基于BERT和互信息能够有效解决词频量化不可靠问题，该方法在金融风险逻辑关系量化的准确率达到80.1%，较对比方法提升了3.1%~37.4%。【局限】 仅考虑了金融领域的语料，在非金融等其他语料上的效果有待检验。【结论】 所提方法能够揭示金融风险事件的演化路径，改善金融风险逻辑关系量化的效果。

图表 | 参考文献 | 相关文章 | 多维度评价

Select

基于机器学习的环境监测数据对循环系统疾病死亡影响及预测预警模型构建^*

王琰, 胥美美, 童俞嘉, 苟欢, 蔡荣, 单治易, 安新颖

数据分析与知识发现. 2022, 6 (10): 79-92. DOI: 10.11925/infotech.2096-3467.2022.0012

摘要

HTML ( 23 )

PDF(4902KB) ( 165 )

【目的】 利用机器学习对循环系统疾病死亡构建预测预警模型及评价，为疾病的预防提供参考。【方法】 使用中国某地区2014-2018年循环系统疾病死亡数据进行分析，采用GAM、RF、XGBoost构建预测模型。分布滞后非线性模型计算累积滞后效应结果构建预警模型，进行模型评价。 【结果】 累积滞后效应发现持续低温高温、高日照时数、高环境污染物浓度会增加循环系统疾病死亡风险，累计7天的相对危险度分别为1.236、1.130、1.560、1.062、1.218、1.153、1.796。RF、XGBoost模型RMSE为4.979、5.341，性能较好。年龄、性别、气温、日照时数、SO₂、NO₂、CO、O₃、PM₁₀、PM_2.5浓度为筛选出的特征变量，将累积滞后效应筛选后的数据确定预警值的预警效果较好。XGBoost预测结果的灵敏度、特异度、曲线下面积分别为0.948、0.939、0.941。【局限】 缺乏伴随疾病独立数据和疾病发展进程数据。【结论】 该地区死亡数增加与高年龄、男性、温度、日照时数、污染物浓度的升高有关。利用XGBoost模型构建的预测预警模型性能好，可为相关部门疾病的预防和干预提供参考价值。

图表 | 参考文献 | 相关文章 | 多维度评价

Select

基于改进型图神经网络的学术论文分类模型^*

黄学坚, 刘雨飏, 马廷淮

数据分析与知识发现. 2022, 6 (10): 93-102. DOI: 10.11925/infotech.2096-3467.2022.0071

摘要

HTML ( 30 )

PDF(1593KB) ( 518 )

【目的】 解决传统图神经网络的过平滑问题，实现图神经网络不同深度和不同邻居的权重自适应分配，提高学术论文分类的性能。【方法】 提出一种基于多头注意力机制和残差网络结构的改进型图神经网络学术论文分类模型。首先，基于多头注意力机制学习文献间多种关联特征，实现不同邻居节点权重的自适应分配;然后，基于残差网络结构聚合模型每层节点的输出，为模型提供自适应性聚合半径的学习机制;最后，基于改进型图神经网络学习论文引用关系图中每个节点的特征表示，将该特征输入多层全连接网络中得到最终分类结果。【结果】 在大规模真实数据集上的实验结果表明，该模型准确率达到0.61，比图卷积神经网络和Transformer模型的准确率分别高出0.04和0.14。【局限】 对小类别样本和难于区分的样本分类准确率不高。【结论】 改进的图神经网络能够有效避免过平滑问题，实现不同权重的自适应分配。

图表 | 参考文献 | 相关文章 | 多维度评价

Select

基于共享最近邻和马尔科夫聚类的网络新闻话题检测方法^*

吴振峰, 兰天, 王猛猛, 浦墨, 张昱, 刘志辉, 何彦青

数据分析与知识发现. 2022, 6 (10): 103-113. DOI: 10.11925/infotech.2096-3467.2021.1170

摘要

HTML ( 18 )

PDF(2015KB) ( 246 )

【目的】 针对现有话题检测方法对数据内在结构信息利用不够充分的问题，提出基于共享最近邻和马尔科夫聚类的网络新闻话题检测方法，实现网络新闻话题的有效检测。【方法】 通过综合考虑网络新闻间的共享最近邻个数、秩次等信息刻画新闻间的关联强度、构建共享最近邻图，并解决数据内在结构信息利用不充分的问题;利用降维、最优话题个数的决策、马尔科夫聚类、基于紧密中心度的自动话题描述等技术提升网络新闻话题检测效果。【结果】 在两个网络新闻数据集上的实验结果表明，所提方法得到的ARI值更高，分别达到0.86和0.97。参与比较的LDA、K-Means、GMM等话题检测方法在两个网络新闻数据集上的ARI值均分别低于0.75和0.90。【局限】 未在其他领域数据集以及多语言数据集上进一步验证。【结论】 所提方法可以有效提升网络新闻话题检测性能，为话题检测关键技术研究提供有价值的参考。

图表 | 参考文献 | 相关文章 | 多维度评价

Select

基于实时事件侦测的兴趣点推荐系统研究^*

李治, 孙锐, 姚羽轩, 李小欢

数据分析与知识发现. 2022, 6 (10): 114-127. DOI: 10.11925/infotech.2096-3467.2021.1461

摘要

HTML ( 20 )

PDF(1129KB) ( 155 )

【目的】 结合实时事件、合适时机与兴趣点特性三个要素，建立一个基于实时事件侦测的兴趣点推荐系统。【方法】 从大量具有地理标记的推文中侦测出实时事件，通过树状卷积神经网络来学习实时事件与时间感知信息的嵌入特征表示;从标注在兴趣点的文字评论与照片中抓取兴趣点的图文内容感知特征，并通过卷积神经网络学习兴趣点的图文特征向量;使用前K处召回率与排名倒数平均值两种度量指标，通过实验数据比较和评估不同推荐系统的效能。【结果】 所提模型在排名倒数平均值（MRR）评估项目的推荐效能上比MP推荐模型提升8.9%，比NMF推荐模型提升57.1%。【局限】 兴趣点固有特征仅考虑文字和图像特征，未考虑其他信息。【结论】 所提基于实时事件侦测的兴趣点推荐模型比其他推荐方法具有更好的效果，在搜寻、运输和环境监控等基于位置的推荐服务中具有广阔的应用前景。

图表 | 参考文献 | 相关文章 | 多维度评价

Select

面向小样本命名实体识别的数据增强算法改进策略研究^*

刘兴丽, 范俊杰, 马海群

数据分析与知识发现. 2022, 6 (10): 128-141. DOI: 10.11925/infotech.2096-3467.2022.0261

摘要

HTML ( 20 )

PDF(1778KB) ( 423 )

【目的】 提出适用于小样本命名实体识别的数据增强改进算法策略。【方法】 以领域命名实体识别任务为例，基于简单数据增强（EDA）算法提出多维度的改进策略：多种领域词典混合的实体替换、领域语义分类词典的词性替换、语义保护机制的随机删除、词性保护的随机插入策略以及4种方法改进的组合策略，并分别进行命名实体识别模型训练。【结果】 领域小样本数据增强改进策略的命名实体识别实验结果显示：单策略简单数据增强改进前后效果有所提升，F值分别提升3.2、4.6、4.5和2.5个百分点;相比之下，两种以上的混合策略F值提升效果欠佳。在应用人民日报及微博小样本数据集的扩展实验中，单策略简单数据增强改进的提升效果显著：基于多种领域词典混合的实体替换改进策略在两份数据集上F值最高提升6.7个百分点。【局限】 在多种策略组合实验中，增强参数 $α$ 、N调控难度加大，组合策略命名实体识别效果受到影响。【结论】 本研究的简单数据增强算法改进策略有效改善了小样本命名实体识别模型效果。

图表 | 参考文献 | 相关文章 | 多维度评价

Select

基于SVM和CRF的三孩政策舆情省份差异分析^*

孟凡思,钟寒,施水才,谢泽坤

数据分析与知识发现. 2022, 6 (10): 142-150. DOI: 10.11925/infotech.2096-3467.2022.0067

摘要

HTML ( 19 )

PDF(1364KB) ( 308 )

【目的】 对三孩政策相关舆情在不同省份的区别进行分析研究。【应用背景】三孩政策舆情的分析往往将全网的三孩舆情视为一个整体，忽视了不同省份群体对三孩政策的诉求、关注点的不同;对三孩政策舆情的文本研究存在方法简单、数据来源单一的问题。【方法】 首先从统计学角度基于时间序列分析三孩舆情热度，然后基于支持向量机方法对三孩舆情进行情感分析，发现负面舆情，进而基于CRF方法进行关键词提取并形成词云。对不同省份的三孩舆情文本展开研究，得到不同省份的三孩负面舆情词云。对比不同省份负面舆情关键词与不同省份的政治、经济统计数据，分析其中的联系。【结果】 三孩政策舆情热度高于同期政策类舆情。舆情以中性情感为主，占60.56%;积极情感为辅，占35.15%;存在少量负面舆情，占4.29%。不同省份的舆情关注点不同，这些差别与各省的政治经济生态差异是有关联性的。【结论】 三孩政策的舆情工作应当考虑不同省份的实际情况，针对人民关切的问题做出回应，及时跟进相关的配套措施。

图表 | 参考文献 | 相关文章 | 多维度评价