Please wait a minute...
Advanced Search
  • 数据分析与知识发现
      2022年, 第6卷, 第7期 刊出日期:2022-07-25   
    选择: 合并摘要
    研究论文
    图数据库在复杂网络分析中的研究与应用进展*
    刘春江, 李姝影, 胡汗林, 方曙
    数据分析与知识发现. 2022, 6 (7): 1-11.   DOI: 10.11925/infotech.2096-3467.2021.1168
    摘要   HTML ( 30 PDF(837KB) ( 181 )  

    目的】作为存储网络数据的主流工具,图数据库在复杂网络分析中的研究与应用不断丰富,本文系统梳理了图数据库在复杂网络领域的应用进展和研究趋势。【文献范围】 以Web of Science核心数据库、Scopus、CNKI数据库为检索中英文文献的来源,调研了相关文献中涉及的15个图数据库及开源网站,详细整理了21个应用案例,精读综述了14篇研究论文。【方法】对比分析国内外主流图数据库,尝试探讨最新的图数据库解决方案在复杂网络分析中的应用,包括中心性、路径查找、链路预测、社区检测和图可视化等。【结果】图数据库已经成为复杂网络分析与大数据挖掘的重要分析工具与研究手段,不仅是复杂网络分析的一站式解决方案,还与图计算引擎等工具结合使用。【局限】 图数据库应用场景非常多,本文未能完整覆盖,仅选取2~3个有代表性的案例进行阐述。【结论】图数据库对于查询、表示和挖掘网络数据效果显著,能较为直观地分析和发现图结构中有意义的模式或结构,其对数据密集型的多维特征的呈现更接近现实,是未来挖掘隐含关系的重要工具。

    图表 | 参考文献 | 相关文章 | 多维度评价
    颠覆性技术识别研究进展综述*
    张金柱, 王秋月, 仇蒙蒙
    数据分析与知识发现. 2022, 6 (7): 12-31.   DOI: 10.11925/infotech.2096-3467.2022.0142
    摘要   HTML ( 16 PDF(5497KB) ( 107 )  

    目的】对颠覆性技术识别相关文献进行综述,发现研究主题,总结研究重点和发展方向,形成研究框架并展望。【文献范围】 利用颠覆性技术的相关关键词在CNKI和Web of Science中检索,获取2011-2020年间的1 974篇论文进行定量分析,对2001-2020年间的61篇相关论文进行定性解读。【方法】首先,通过定量分析得到研究主题和研究方向;其次,选取有代表性的高被引论文和最新论文进行研读,对研究方法进行总结和述评;最后,根据分析结果梳理研究框架,预测未来发展趋势。【结果】颠覆性技术识别在信息技术、医疗、化工、高端制造等领域应用较多,形成基于技术本身、市场产品、科技信息挖掘、外部环境等视角下的多种识别指标和方法;构建含理论基础、识别方法、结果评判三部分内容的识别框架,并展望未来发展趋势。【局限】 数据范围还不够广,社会、经济等宏观指标综述不够全面。【结论】颠覆性技术识别的多学科交叉性日益明显,定量研究已成为主流,部分指标定量计算方式尚需明确,基于深度学习的指标非线性组合正成为趋势。

    图表 | 参考文献 | 相关文章 | 多维度评价
    基于随机森林和关键词查询扩展的医学文献推荐方法*
    丁浩, 胡广伟, 齐江蕾, 庄光光
    数据分析与知识发现. 2022, 6 (7): 32-43.   DOI: 10.11925/infotech.2096-3467.2021.1148
    摘要   HTML ( 26 PDF(2024KB) ( 88 )  

    目的】从大量医学文献中发现有价值的内容以帮助临床医生做出诊断,提高医学文献推荐效果。【方法】基于随机森林模型与关键词查询扩展相结合的新方法,利用MeSH词典和自动构建的首字母缩略词词典,在句子、段落、文档三个层次上建立关键词与相应文章的完整关系,计算主题与文章之间的多重相似度,对于每篇文章通过文献集合中的引文网络计算HITS的PageRank权重和Authority权重。【结果】与TREC临床决策支持跟踪评价结果中NDCG@100最高的10个值的平均值相比,本文方法NDCG@100的总体平均值差距在0.9%以内,差距极小。【局限】 由于某些新文献或“睡美人”文献前期引用较低,可能会出现检索排名靠后,在此类情况下,本文方法无法进行精准推荐。【结论】通过计算主题与文章之间相似点和引文关系的权重,利用随机森林方法对查询扩展结果进行重新排序,可以有效提高医学文献推荐的效果。

    图表 | 参考文献 | 相关文章 | 多维度评价
    面向多源数据的学科主题挖掘与演化分析*
    李慧, 胡吉霞, 佟志颖
    数据分析与知识发现. 2022, 6 (7): 44-55.   DOI: 10.11925/infotech.2096-3467.2021.1296
    摘要   HTML ( 20 PDF(4549KB) ( 116 )  

    目的】挖掘学科领域研究主题随时间的演变情况,帮助学者快速了解领域现状与研究趋势。【方法】融合多源数据后,根据时间段划分领域研究主题,运用主题热度、密度和紧密中心度计算主题重要性,利用语义相似度挖掘相邻时间段的关联主题,结合主题重要性波动与相似度判定话题演化类型,识别主题演化路径。【结果】选取人工智能领域,分析近20年研究主题的变化情况,得到4个时间段的热点研究主题和主要演化路径,各时间段间有明显的主题融合与分裂发展。【局限】 主题命名规则设定不够科学化;人工智能产业蓬勃发展,所用数据演化分析未能展示整个生命周期发展全貌。【结论】对多源数据的主题演化分析,能够有效揭示学科发展特征,主题越重要,其进化能力越强。

    图表 | 参考文献 | 相关文章 | 多维度评价
    在线社区用户画像及自我呈现主题挖掘——以网易云音乐社区为例*
    吴江, 刘涛, 刘洋
    数据分析与知识发现. 2022, 6 (7): 56-69.   DOI: 10.11925/infotech.2096-3467.2021.1449
    摘要   HTML ( 28 PDF(1742KB) ( 140 )  

    目的】以网易云音乐社区为研究对象,分析在线社区中用户自我呈现的内容特征、演化规律、群体差异及自我呈现对社区认可的影响等问题。【方法】从资历和参与度两个维度构建用户画像,通过BERT方法进行短文本评论聚类,挖掘自我呈现的内容主题,利用余弦相似度等方法分析用户自我呈现内容主题的演化规律和群体差异,采用协方差分析用户自我呈现内容主题对社区认可度的影响。【结果】用户自我呈现的内容主题分为8类;“听后感”主题占比逐年降低,“回忆往事”等主题呈上升趋势;“寻求互动”等主题在“放松”等曲风下占比要高于其他曲风;除“寻求互动”主题外,各主题在不同时间点上占比一致;“回忆往事”等主题下高资历用户的余弦相似度高于低资历用户;持续参与用户的余弦相似度高于边缘参与者;用户自我呈现内容主题对其社区认可度的影响在10%的置信度水平下显著。【局限】 未针对其他类型的在线社区进行更深入的研究。【结论】用户自我呈现的内容主题以“回忆往事”为主,会受到曲风等因素的影响,内容主题随社区发展呈现泛化趋势且不同用户群体之间有明显差异,在线社区中用户对自我呈现内容主题有一定的偏好。

    图表 | 参考文献 | 相关文章 | 多维度评价
    基于在线健康社区的药物不良反应信号识别方法研究*
    郭进京, 夏光辉, 黄奇, 何丽云, 张化冰
    数据分析与知识发现. 2022, 6 (7): 70-86.   DOI: 10.11925/infotech.2096-3467.2021.1263
    摘要   HTML ( 14 PDF(981KB) ( 54 )  

    目的】在线健康社区为药物不良反应信号监测提供了新的信息源,从患者对不良反应的评论数据中识别药物不良反应信号有助于为抗糖尿病类药物不良反应的监测预警提供参考。【方法】以Ask a Patient网站中患者的抗糖尿病药物不良反应评论为数据源,结合自然语言处理技术和UMLS、MedDRA等词表对患者评论数据进行规范化处理和映射,构建药物-不良反应共现矩阵,采用PRR法识别符合信号监测阈值的药物-不良反应对并对抽取结果进行专家判读,最后以Drugs.com作为金标准对方法的有效性进行评估。【结果】共计识别出539组药物-不良反应对,整体识别准确率达85%,金标准整体吻合率达82%,说明该方法具有一定的有效性。【局限】 因MedDRA中纳入了部分检查、手术操作、社会环境等类型的与ADR无关的术语,对ADR术语的识别准确率产生一定影响。【结论】本研究采用的药物不良反应信号识别思路,丰富了药物不良反应信号监测渠道和方法,为药物不良反应信号监测提供了参考。

    图表 | 参考文献 | 相关文章 | 多维度评价
    基于多源语义知识图谱的药物知识发现:以药物重定位为实证*
    张晗, 安欣宇, 刘春鹤
    数据分析与知识发现. 2022, 6 (7): 87-98.   DOI: 10.11925/infotech.2096-3467.2021.1364
    摘要   HTML ( 15 PDF(2000KB) ( 74 )  

    目的】探讨全数据集、跨数据平台的语义知识图谱构建方法,开展基于知识图谱的药物知识发现研究。【方法】获取PubMed、DrugBank、CTD等数据库的知识关联,通过知识融合、属性定义构建语义知识图谱,以药物重定位为实证,采用路径搜索和链路预测两种方法推理药物在肿瘤治疗中的新用途。【结果】利用知识图谱能有效地进行药物发现,两种方法的总体预测效果相近,路径发现预测F值为0.57, 略高于链路预测(0.56)。此外,药物与适应症之间存在的路径数越多,预测阳性的可能性越大。【局限】 实证研究知识推理机制建立在已有知识关联基础上,难以对无靶点信息的新药进行挖掘;同时庞大的数据体量难以实现知识图谱的动态更新。【结论】融合多源数据集构建的知识图谱能有效地发现药物新适应症,提升药物研发效率,为药物知识发现提供新思路。

    图表 | 参考文献 | 相关文章 | 多维度评价
    一种融合法律知识的相似案例匹配模型*
    郑洁, 黄辉, 秦永彬
    数据分析与知识发现. 2022, 6 (7): 99-106.   DOI: 10.11925/infotech.2096-3467.2022.0040
    摘要   HTML ( 14 PDF(999KB) ( 137 )  

    目的】构建融合法律知识的相似案例匹配模型,提升相似案例匹配任务准确率。【方法】首先将法律知识与案情文本拼接,让模型同时学习法律知识和文本信息的特征;其次,使用LSTM网络对文本进行分段建模,增强模型所能容纳的文本长度;最后,结合三元组损失和基于对抗的对比损失共同训练模型,增强模型的鲁棒性。【结果】本文模型能够极大地提升相似案例匹配任务的准确率,相比BERT基线模型提升7.07个百分点。【局限】 模型使用更长的文本序列进行匹配,相比其他模型更加耗时。【结论】本文模型融合法律先验知识,具有更强的匹配效果和泛化能力,有助于辅助法律专业人员进行相似案例检索。

    图表 | 参考文献 | 相关文章 | 多维度评价
    STNLTP:一种基于集成策略的中文专利摘要生成模型*
    张乐, 杜一凡, 吕学强, 董志安
    数据分析与知识发现. 2022, 6 (7): 107-117.   DOI: 10.11925/infotech.2096-3467.2021.1307
    摘要   HTML ( 48 PDF(1037KB) ( 55 )  

    目的】提出一种基于集成策略的中文专利摘要生成模型(STNLTP),以改善现有的自动文本摘要技术在处理长文档摘要生成时存在的生成重复问题和长程依赖问题。【方法】引入专利术语词典,运用基于SAT模型的义原词向量对“中药材”专利文本进行表示。基于集成策略,运用TextRank、Lead4和NMF三种抽取方法抽取专利说明书文本的关键句,经过聚类并去重,选出最优关键句。最后最优关键句通过基于Transformer字向量的指针生成网络得到最终的生成摘要。【结果】STNLTP模型实现了抽取式和生成式方法的结合,相较于对比模型RLCPAR,在ROUGE-1、ROUGE-2和ROUGE-L评价指标上分别提升2.00、9.73和2.35个百分点。【局限】 生成摘要的部分结果存在一些常识性错误。【结论】STNLTP模型优于对比模型,可以改善中文专利摘要生成的效果。

    图表 | 参考文献 | 相关文章 | 多维度评价
    基于Bi-LSTM与双路CNN的金融领域文本因果关系识别*
    张顺香, 张镇江, 朱广丽, 赵彤, 黄菊
    数据分析与知识发现. 2022, 6 (7): 118-127.   DOI: 10.11925/infotech.2096-3467.2021.1344
    摘要   HTML ( 14 PDF(1487KB) ( 79 )  

    目的】提出一种结合Bi-LSTM与双路CNN的网络模型BTCNN(Bi-LSTM and Two-way CNN),用于解决金融领域因果关系识别过程中特征信息缺失的问题,从而提高因果关系识别的准确率。【方法】利用Bi-LSTM将金融文本生成文本特征矩阵,使用卷积核不同的双路CNN对文本特征矩阵中的因果特征进一步提取,对采用两种不同池化方式(最大池化和平均池化)得到的特征向量进行拼接,最终将拼接后的特征向量输入全连接层进行输出。 【结果】BTCNN模型准确率达到82.3%,相较于其他消融实验准确率至少提升3个百分点。【局限】 未针对金融领域设置特定的功能模块。【结论】实验结果表明BTCNN模型提高了因果关系识别的准确率。

    图表 | 参考文献 | 相关文章 | 多维度评价
    重大突发公共卫生事件下的公众情感演进分析:基于新冠肺炎疫情的考察*
    边晓慧, 徐童
    数据分析与知识发现. 2022, 6 (7): 128-140.   DOI: 10.11925/infotech.2096-3467.2021.0711
    摘要   HTML ( 27 PDF(4275KB) ( 107 )  

    目的】对重大突发公共卫生事件背景下公众在社交媒体中的情感表达进行分析,揭示疫情期间公众情感的时空差异、不同主题下的情感演化以及情感的跨地域扩散。【方法】利用主题模型提炼潜在话题与关键词群,从全局视角和主题视角探究公众情感演进趋势,并使用社交传播模型描述公众情感的跨地域扩散。 【结果】疫情期间公众以积极情感为主,消极情感呈现“恶”的情感主导、“惧”的情感先发、“哀”的情感反复等特征;疫区距离与经济水平导致公众情感存在空间差异。同时,情感表达及演化趋势因受时空变化、主题/事件区别等影响而具有一定规律的差异。此外,公众情感的地域扩散强度受空间关系和疫情严重性的双重影响。【局限】 面向纯文本信息,无法对多模态信息如视频、图片等进行综合性分析。【结论】重大突发公共卫生事件下,公众在社交媒体上的情感表达及演化趋势受时空差异、主题差异等影响,并存在一定的地域扩散规律。这提示疫情防控要结合特定时期、特定地域采取差异化策略,关注不同主题类型对情感的关联性影响,同时注重疫情防控与舆情监控的区域统筹与合作,以实现对舆情的积极引导和公众情感的有效疏解。

    图表 | 参考文献 | 相关文章 | 多维度评价
    基于对抗网络的文本对齐跨语言情感分类方法*
    杨文丽, 李娜娜
    数据分析与知识发现. 2022, 6 (7): 141-151.   DOI: 10.11925/infotech.2096-3467.2021.1462
    摘要   HTML ( 9 PDF(1854KB) ( 61 )  

    目的】通过拉近共享空间中双语文本对的分布以提高跨语言情感分类的准确率。【方法】在情感知识迁移过程中,通过调整平衡系数同时对齐词对和文本对,并联合语言判别器生成对抗网络优化转换矩阵。此外,采用一种多特征融合的分层神经网络方法表示文本,同时兼顾单词和句子的上下文主题关联性,能够有效解决文本长距离特征依赖问题。【结果】在NLP&CC 2013标准数据集上的实验结果证明,所提方法的平均跨语言情感分类准确率达到83.66%,比基准模型平均提高2.30个百分点。【局限】 只在中英文数据集上进行实验,在其他语言组合中的有效性需要进一步验证。【结论】通过提高双语文本相似度的方式能够有效提高跨语言情感分类的准确率。

    图表 | 参考文献 | 相关文章 | 多维度评价
版权所有 © 2015 《数据分析与知识发现》编辑部
地址:北京市海淀区中关村北四环西路33号 邮编:100190
电话/传真:(010)82626611-6626,82624938
E-mail:jishu@mail.las.ac.cn