Please wait a minute...
Advanced Search
  • 数据分析与知识发现
      2021年, 第5卷, 第2期 刊出日期:2021-02-25   
    选择: 合并摘要
    专题
    基于Biterm主题模型的新闻线索生成方法 *
    赵天资, 段亮, 岳昆, 乔少杰, 马子娟
    数据分析与知识发现. 2021, 5 (2): 1-13.   DOI: 10.11925/infotech.2096-3467.2020.1025
    摘要   HTML ( 52 PDF(2125KB) ( 552 )  

    【目的】 为解决生成新闻线索时抽取新闻主题及度量子事件相关性困难的问题,通过动态滑动窗口的方法改进主题模型,提高长文本和短文本新闻主题抽取的质量,并基于抽取出的新闻主题,提出面向新闻事件的新闻线索生成方法。【方法】 在主题模型IBTM(Incremental Biterm Topic Model)的基础上,通过动态滑动窗口减小二元词组的提取范围,提出既适合在长文本新闻也适合在短文本新闻上抽取主题的News-IBTM模型,进而基于该模型从新闻数据中抽取主题分布和主题-词分布、推断文档-主题分布,再利用JS散度来度量文档-主题分布的差异,从而生成新闻线索。【结果】 在人民网新闻和微博新闻数据上的实验结果表明,无论是长文本新闻还是短文本新闻,News-IBTM在困惑度、准确率及效率上都优于现有的经典主题模型。【局限】 News-IBTM以及其他新闻线索生成方法的准确率都不高,还可以进一步提升。【结论】 本文方法适合应对长文本和短文本新闻主题抽取的质量问题,并能从新闻事件中获取新闻线索。

    图表 | 参考文献 | 相关文章 | 多维度评价
    基于空间序偶模式挖掘污染源与癌症病例的关系 *
    谢旺, 王丽珍, 陈红梅, 曾兰清
    数据分析与知识发现. 2021, 5 (2): 14-31.   DOI: 10.11925/infotech.2096-3467.2020.1026
    摘要   HTML ( 19 PDF(1577KB) ( 182 )  

    【目的】 解决传统的空间co-location模式挖掘方法在研究类似污染源与癌症病例这两大类特征之间的关系时,会挖掘出大量用户不感兴趣的模式且只考虑模式的频繁性等问题。【方法】 首先,利用Voronoi图的性质结合星型实例模型,定义空间实例之间的邻近关系和空间序偶模式的概念;其次,考虑距离衰减效应和影响叠加效应,定义空间序偶模式的频繁度与影响度;最后提出了一个挖掘相应序偶模式的基本算法和一个优化算法。【结果】 所提挖掘算法均能挖掘出传统算法挖掘不到的用户感兴趣的结果,且结果数量比传统算法少很多,相比于基本算法,优化算法的剪枝率达到80%以上,数据集越大,效果越好。【局限】 默认数据都是点空间对象,扩展空间对象有待进一步研究。【结论】 空间序偶模式可以更好地研究类似污染源与癌症病例这两大类特征之间的关系。

    图表 | 参考文献 | 相关文章 | 多维度评价
    特定舆情的意见领袖挖掘和关键传播路径预测
    徐雅斌, 孙秋天
    数据分析与知识发现. 2021, 5 (2): 32-42.   DOI: 10.11925/infotech.2096-3467.2020.1027
    摘要   HTML ( 34 PDF(1281KB) ( 349 )  

    【目的】 对社交网络进行有效的监管,在一定程度上把控和干预舆情的传播和发展变化。【方法】 提出一种综合拓扑势网红度、传播力和关注度的意见领袖挖掘模型OLMT,由此可以从更多的角度、更加客观地进行意见领袖挖掘。此外,对Transformer模型进行改造,构建社交网络传播行为预测模型MF-Transformer,利用其高度并行性和注意力机制,可以更加高效、准确地预测意见领袖的转发行为。【结果】 结合意见领袖挖掘结果以及传播行为预测结果,有效预测舆情传播过程中由意见领袖构成的关键传播路径。预测结果的查全率和查准率分别达92.17%和99.07%,明显高于其他方法。【局限】 实验主要面向特定舆情事件的新浪微博数据集,没有面向推特等数据集。【结论】 本文提出的意见领袖挖掘模型和传播行为预测模型不仅可以更加准确地挖掘出意见领袖,而且可以有效预测舆情传播过程中的关键路径。

    图表 | 参考文献 | 相关文章 | 多维度评价
    基于情感分析的微博热点话题用户群体划分模型 *
    张梦瑶, 朱广丽, 张顺香, 张标
    数据分析与知识发现. 2021, 5 (2): 43-49.   DOI: 10.11925/infotech.2096-3467.2020.1059
    摘要   HTML ( 34 PDF(722KB) ( 611 )  

    【目的】 提出一种划分模型解决微博热点话题下用户群体分类问题。【方法】 从情感分析的角度入手,采用情感词典的方法计算用户文本情感值,并将文本情感值与用户文本向量表达相结合构建用户观点情感特征,利用K-means方法划分用户群体。【结果】 本文提出的话题下用户群体划分模型将用户分为三类,评价指标CA的值为78.2%。【局限】 该模型在划分用户群体时需要首先确定类别数。【结论】 根据研究结果可知本文构建模型和选取特征的有效性;同时,使用该模型划分的用户群体精度较高,能很好地将有相同情感观点的用户聚为一类。

    图表 | 参考文献 | 相关文章 | 多维度评价
    研究论文
    基于短语表示学习的主题识别及其表征词抽取方法研究
    张金柱, 于文倩
    数据分析与知识发现. 2021, 5 (2): 50-60.   DOI: 10.11925/infotech.2096-3467.2020.0060
    摘要   HTML ( 30 PDF(1743KB) ( 465 )  

    【目的】 从更具专指性和表征能力的短语语义表示角度,设计基于短语表示学习的主题识别及其表征词抽取方法。【方法】 基于依存句法分析抽取短语构建短语序列,并将短语序列视作词序列,将用于词表示的表示学习模型扩展形成短语表示学习模型,得到短语的语义向量表示,并结合向量聚类方法形成短语语义表示视角下的主题识别方法;将短语以及根据聚类得到的对应主题类别号作为一个整体构建短语主题序列,设计形成主题短语向量表示模型,实现主题和短语在同一向量空间的语义表示并计算相似度,从短语语义角度抽取与主题内容相关的短语作为主题表征词。【结果】 与LDA模型相比,主题间平均相似度最多降低了0.27,主题识别结果区分度更高;抽取的表征词与主题语义相关,具有专指性和辨识度,结果可读性和解释性更强。【局限】 需要在不同领域及不同数据集上进一步验证该方法的有效性。【结论】 所提方法在研究主题识别及其表征词抽取方面具有更好的效果,并可扩展应用到其他领域。

    图表 | 参考文献 | 相关文章 | 多维度评价
    国家自然科学基金资助论文的高被引率变化研究 *
    禾雪瑶, 马廷灿, 岳名亮, 欧桂燕
    数据分析与知识发现. 2021, 5 (2): 61-69.   DOI: 10.11925/infotech.2096-3467.2020.0691
    摘要   HTML ( 27 PDF(5075KB) ( 185 )  

    【目的】 以基本科学指标(ESI)Top1%高被引论文为对象,研究中国国家自然科学基金资助论文的高被引率变化情况。【方法】 对比分析中国国家自然科学基金与美国主要基金、国内其他基金及国内无基金资助的高被引论文在数量、引用等方面的表现。【结果】 国家自然科学基金资助的高被引论文在2009-2018年间数量上有大幅提升,引用影响力也在不断扩大,但相比美国主要基金仍有一定差距;国家自然科学基金资助的高被引论文在我国高被引论文中占比高达80%。【局限】 本文以英文高被引论文为研究对象,暂未考虑中文文献和其他类型的科研产出。【结论】 研究表明国家自然科学基金对我国高被引论文的产出及科研影响力的提升起到了重要推进作用。

    图表 | 参考文献 | 相关文章 | 多维度评价
    健康信息可读性对用户认知负荷和信息加工绩效影响眼动实验研究 *
    柯青, 丁松云, 秦琴
    数据分析与知识发现. 2021, 5 (2): 70-82.   DOI: 10.11925/infotech.2096-3467.2020.0666
    摘要   HTML ( 14 PDF(843KB) ( 460 )  

    【目的】 基于眼动实验分析在线健康信息可读性对用户认知负荷和信息加工绩效的影响。【方法】 构建具有高/低可读性的两组健康信息网页作为实验刺激材料,检验在线健康信息可读性对信息加工绩效的影响效应,认知负荷的中介效应及性别和任务复杂性的调节效应。【结果】 可读性通过影响总注视时间、注视点个数显著影响眼跳距离;通过影响总注视时间、注视点个数以及首次进入时间显著影响任务总时长;通过影响首次进入时间显著影响搜寻结果的准确性。任务复杂性显著调节可读性与首次进入时间之间的关系。【局限】 可读性的计算未考虑用户主观因素;研究样本以高校学生为主;需进一步结合用户自我报告方法来补充论证。【结论】 推动用户信息行为研究深入到信息加工层次,从视觉角度提高可读性以减轻用户认知负荷,促进健康信息利用效率,优化用户健康信息搜寻体验。

    图表 | 参考文献 | 相关文章 | 多维度评价
    问答社区回答质量评价体系优化方法研究 *
    沈旺, 李世钰, 刘嘉宇, 李贺
    数据分析与知识发现. 2021, 5 (2): 83-93.   DOI: 10.11925/infotech.2096-3467.2020.0626
    摘要   HTML ( 16 PDF(1193KB) ( 652 )  

    【目的】 构建新的问答社区回答质量评价体系,对问答社区的回答质量进行更精准的评价。【方法】 构建融合用户评价标准和数据特征的回答质量评价指标体系,依据回答评论对文本进行向量化表示。利用支持向量机模型对文本进行标签表示学习,利用所得到的文本分类准确率进行对比实验。【结果】 实验证明融合用户评价标准和数据特征的回答质量评价指标体系可以获得85.32%的较高分类准确率,高于仅使用用户评价标准指标的61.44%和仅使用数据特征指标的79.10%。【局限】 存在主观标注过程带来的误差。【结论】 融合用户评价标准和数据特征的问答社区回答质量评价方法具有较好的准确性与优越性。

    图表 | 参考文献 | 相关文章 | 多维度评价
    基于多源信息融合的音乐推荐方法 *
    李丹阳, 甘明鑫
    数据分析与知识发现. 2021, 5 (2): 94-105.   DOI: 10.11925/infotech.2096-3467.2020.0521
    摘要   HTML ( 23 PDF(1639KB) ( 535 )  

    【目的】 利用多源信息融合构建音乐特征体系,解决音乐推荐冷启动问题,为用户提供个性化音乐推荐。【方法】 采用基于多源信息融合的两段式推荐模型。通过神经网络融合多源信息,构建音乐特征体系,预测音乐的潜在因子向量,从而解决音乐冷启动问题,实现TopN推荐。【结果】 在百万歌曲数据集上开展实验,所提出的方法与CNN模型相比,在F1值上的提升幅度达到9.13%,在RMSE、MAE上的降低幅度分别达到8.08%和3.91%。【局限】 两段式推荐方法较端到端的训练有更大的局限性;此外,使用梅尔频谱训练占用内存资源较高。【结论】 所提方法构建音乐特征体系,解决了音乐推荐冷启动问题,提高了音乐推荐性能。

    图表 | 参考文献 | 相关文章 | 多维度评价
    基于TF-PIDF的网络问答社区中的知识供需研究 *
    李明, 李莹, 周庆, 王君
    数据分析与知识发现. 2021, 5 (2): 106-115.   DOI: 10.11925/infotech.2096-3467.2020.0395
    摘要   HTML ( 17 PDF(998KB) ( 365 )  

    【目的】 为掌握民众的知识需求以及社区知识供给情况,进而有针对性地干预,构建网络问答社区中的知识需求和知识供应分析方法。【方法】 针对问答对中的问题和答案均是多部分组成特点,构造了新的词权重计算方法TF-PIDF,分别对问题和答案建模。通过对问题和答案分别聚类获得知识需求和知识供给的主要类别,获得各类别的主题以及热度。针对各知识需求类别,发现相应知识供给的主要方面。提出了知识需求覆盖度算法,计算知识需求被知识供给覆盖程度,在此基础上提出对知识需求从热度和覆盖度进行交叉分析。【结果】 以知乎社区中的流感话题为实际案例进行应用研究,分别获得知识需求和知识供应的6个主题类别,其中热点主题均为“疫情”,但其知识供应覆盖度较低,是突发流感事件下的热门实时知识需求。实验结果表明该方法合理可行。【局限】 提出的分析框架和方法尽管能够有效地挖掘网络问答社区中知识需求和知识供应的主题,但识别出的主题主要是在特征词聚类所表达的主题含义层面上。【结论】 本方法不仅能够获得民众的知识需求和社区的知识供给的情况,还能为知识补给以及社区运营提供重要依据。

    图表 | 参考文献 | 相关文章 | 多维度评价
    面向非均衡数据的糖尿病并发症预测
    邱云飞, 郭蕾
    数据分析与知识发现. 2021, 5 (2): 116-128.   DOI: 10.11925/infotech.2096-3467.2020.0353
    摘要   HTML ( 16 PDF(1334KB) ( 572 )  

    【目的】 针对糖尿病并发症数据样本不均衡带来的分类器刻画能力不足和决策边界偏移问题,探索合适的分类器模型,提高糖尿病并发症预测的效果。【方法】 在数据层面,使用改进的SMOTE算法(F_SMOTE)改变不均衡数据的类分布;在算法层面,用平衡准确率、ROC和PR曲线下AUC值共同作为评价指标,对比分析4种单分类器学习模型和4种集成学习模型。【结果】 在准确率、ROC、PR指标上,采用F_SMOTE算法比SMOTE算法的预测结果分别提升了1.49%、3.43%和8.05%;采用集成学习模型比单分类器学习模型的预测结果分别提升了9.73%、14.07%和46.79%,其中结合F_SMOTE算法和随机森林模型在面向非均衡数据时的预测结果分别可达到97.64%、98.91%和96.64%。【局限】 未能覆盖全部的糖尿病并发症,模型训练的时间效率有待进一步提升。【结论】 该方法在为数据挖掘人员提供多角度分析预测框架的同时,也可辅助医生进行疾病诊断和预防。

    图表 | 参考文献 | 相关文章 | 多维度评价
    特征选择下融合图像和文本分析的在线短租平台信任计算框架 *
    梁家铭, 赵洁, 郑鹏, 黄流深, 叶敏祺, 董振宁
    数据分析与知识发现. 2021, 5 (2): 129-140.   DOI: 10.11925/infotech.2096-3467.2020.0690
    摘要   HTML ( 18 PDF(1072KB) ( 305 )  

    【目的】 提出新的在线短租平台信任计算框架,提供多组低维信任特征供用户选择展示个人信息,缓解隐私保护造成数据缺失导致无法评估信任的问题。【方法】 融合图像和文本数据分析,使用进化算法结合粗糙集特征选择算法获得多组信任特征。【结果】 新信任计算框架在保持信任预测精度不变情况下,信任特征降维后,维度约为原特征集的5%。【局限】 仅对国内代表性平台进行数据分析,可扩展到国外平台数据。【结论】 图像和文本分析为在线短租平台信任计算引入新视觉,所提出的信任计算框架可提供多组低维信任特征,可有效缓解信任计算中数据缺失和隐私受侵犯等问题。

    图表 | 参考文献 | 相关文章 | 多维度评价
版权所有 © 2015 《数据分析与知识发现》编辑部
地址:北京市海淀区中关村北四环西路33号 邮编:100190
电话/传真:(010)82626611-6626,82624938
E-mail:jishu@mail.las.ac.cn