期刊首页 当期目录

2020年, 第4卷, 第4期 
刊出日期:2020-04-25
  

  • 全选
    |
    研究论文
  • 余传明,原赛,朱星宇,林虹君,张普亮,安璐
    数据分析与知识发现. 2020, 4(4): 1-14. https://doi.org/10.11925/infotech.2096-3467.2019.0511
    摘要 ( ) PDF全文 ( ) HTML ( )   可视化   收藏

    【目的】 探究如何针对热点事件进行主题表示学习,检验主题表示模型在主题分类和主题相关度等任务上的效果。【方法】 融合LDA2Vec方法构建主题表示学习模型W-LDA2Vec,通过联合训练初始化后的文档向量和词向量以预测中枢词的上下文向量,获得含有主题信息的词表示和包含上下文信息的主题表示。【结果】 在热点事件主题分类任务上,本文模型取得了最高的F1值(0.893),较4种基线模型LDA、Word2Vec、TEWV和Doc2Vec分别提升0.314、0.057、0.022和0.013 ;在热点事件主题相关度任务上,当主题数为10时,本文模型取得了较高的相关性分数(0.462 5),较LDA模型提高0.067 8。【局限】 实验语料库仅限于中英文两种语言。【结论】 本文方法通过将主题信息嵌入到词表示、文档表示中,能够有效提升在热点事件主题分类和主题相关度等任务上的效果。

  • 叶光辉,曾杰妍,胡婧岚,毕崇武
    数据分析与知识发现. 2020, 4(4): 15-26. https://doi.org/10.11925/infotech.2096-3467.2019.0500
    摘要 ( ) PDF全文 ( ) HTML ( )   可视化   收藏

    【目的】 为及时掌握城市动态、引导公众舆论、识别与预测城市潜在问题,构建城市画像视角下的公众情感演化模型。【方法】 通过LDA2Vec提取时间窗口下的城市主题;采用基于词典的情感分析方法细粒度划分城市主题的情感类别,并计算各个城市主题的情感强度;最后利用TF-IDF算法追踪时间序列下引起公众情感演化的城市事件,并构建ARMA模型预测公众情感趋势。【结果】 本文模型中“好”的情感强度预测准确率达97%,“恶”的情感强度预测准确率达90%,证明了模型的可行性。【局限】 未将突发事件作为影响因素加入公众情感演化模型。【结论】 本文方法能够有效识别和判断引起公众情感极性发生变化的城市事件,并具有较高的情感强度预测准确性。

  • 李铁军,颜端武,杨雄飞
    数据分析与知识发现. 2020, 4(4): 27-33. https://doi.org/10.11925/infotech.2096-3467.2019.0765
    摘要 ( ) PDF全文 ( ) HTML ( )   可视化   收藏

    【目的】 结合用户访问历史数据,向用户推荐其感兴趣的微博,进一步提高用户体验和服务效果。【方法】 对用户的微博评论历史行为进行关联规则挖掘,得到所有被评论微博的频繁1-项集;运用情感词典计算微博评论文本的情感强度,将情感强度超过阈值的微博生成新的频繁1-项集,继续进行关联规则挖掘,将强关联规则用于微博推荐。【结果】 相较于单纯关联规则推荐、基于内容相似推荐的基准推荐算法,本文方法在准确率、覆盖率和F值评价指标上均有10%左右提升。【局限】 实验中对于参数的取值较为粗略,可能导致无法得到最优参数。【结论】 基于情感加权关联规则的微博推荐方法可以更好地进行微博推荐。

  • 潘有能,倪秀丽
    数据分析与知识发现. 2020, 4(4): 34-43. https://doi.org/10.11925/infotech.2096-3467.2019.0815
    摘要 ( ) PDF全文 ( ) HTML ( )   可视化   收藏

    【目的】 改进现有在线医疗专家推荐模型,提高医生回答健康问题的效率和质量。【方法】 基于Labeled-LDA模型挖掘健康问题潜在主题,明确医生专长,以提高“问题-医生”匹配度,并使用39健康网的数据进行实验验证。【结果】 本文方法的准确率、召回率和回答采纳比分别为40.4%、44.0%和22.9%,而网站现有指标分别为20.4%、29.7%和6.8%。【局限】 未考虑医生回答问题的速度和医生的简历等相关信息;不能很好地识别出回答问题过于稀疏的新加入医生的专长。【结论】 本研究所提专家推荐方法在评价指标上均超过网站现有指标,具有良好的推荐效果。

  • 张润彤,陈东华,赵红梅,朱晓敏
    数据分析与知识发现. 2020, 4(4): 44-55. https://doi.org/10.11925/infotech.2096-3467.2019.0530
    摘要 ( ) PDF全文 ( ) HTML ( )   可视化   收藏

    【目的】 结合中文语义分析,提出一种计算机辅助ICD-11编码方法,提高编码工作效率。【方法】 基于图模型对ICD实体关系和编码规则进行建模,并提出改进的语义相似度计算方法,实现ICD-11候选编码置信度计算,产生候选编码供编码员选择。【结果】 以某医院已编码数据集进行实验分析,结果表明本文方法优于已有的ICD编码方法。该方法编码成功率在辅助模式下达到0.42,在精准模式下则达到0.73。【局限】 ICD-11中文版有限的翻译信息使得无法利用更多语义信息改善编码准确度。【结论】 本文研究成果能提高编码员工作效率、改善病案质量,有利于促进中国医疗信息化发展。

  • 郭旭,祁瑞华
    数据分析与知识发现. 2020, 4(4): 56-62. https://doi.org/10.11925/infotech.2096-3467.2019.0343
    摘要 ( ) PDF全文 ( ) HTML ( )   可视化   收藏

    【目的】 实现作者身份识别研究领域的新奇检测。【方法】 采用单分类支持向量机或多元高斯算法结合多层面文体特征模型的方法,并提出一种基于宽容度的阈值选择方法。【结果】 当样本字符数大于500时,准确率、召回率和F1值均可达到0.9以上,其中样本字符数达到2 000时,准确率、召回率和F1值分别为0.978、0.984和0.979。【局限】 对于短文本的检测效果有待提高,需进一步优化特征模型。【结论】 本文提出的方法可以有效解决作者身份识别中长文本的新奇检测问题。

  • 沈卓,李艳
    数据分析与知识发现. 2020, 4(4): 63-71. https://doi.org/10.11925/infotech.2096-3467.2019.0146
    摘要 ( ) PDF全文 ( ) HTML ( )   可视化   收藏

    【目的】 从大量用户评论中分析用户偏好,发现产品或服务的不足并提供改进依据。【方法】 选取大众点评网有关餐饮业的用户评论数据,对大量无监督语料进行预训练;用少量的标签数据微调预训练语言模型;对产品评论中各属性进行情感得分量化,并结合KANO模型分析用户对产品或服务的偏好。【结果】 将餐饮业用户的产品评论数据转化为用户对产品或服务的偏好。【局限】 运用KANO模型时,默认将所有用户对产品某属性的偏好视为一致,导致整体偏好分析不准确。【结论】 采用PreLM-FT细粒度情感分析,能够在仅有少量标签数据的情境下,将用户评论数据转化为用户偏好得分。

  • 李文政,顾益军,闫红丽
    数据分析与知识发现. 2020, 4(4): 72-82. https://doi.org/10.11925/infotech.2096-3467.2019.0561
    摘要 ( ) PDF全文 ( ) HTML ( )   可视化   收藏

    【目的】 针对部分社区发现算法需提前指定社区数量这一问题提出社区数量预测算法。【方法】 基于贝叶斯信息准则,结合重叠社区发现算法与非重叠社区发现算法各自特征,提出网络贝叶斯信息准则算法用于社区数量预测。【结果】 将本文提出的社区数量预测方法运用到重叠社区发现与非重叠社区发现算法时,预测算法准确程度与稳定程度比Silhouette算法、模块度算法都有所提升。在重叠与非重叠两种情况下,算法准确程度相比Silhouette算法、模块度算法均提高18%以上。【局限】 社区数量预测算法只考虑网络结构,未考虑其他属性。【结论】 基于贝叶斯信息准则的社区数量预测算法可以有效实现网络中社区数量预测。

  • 闫春,刘璐
    数据分析与知识发现. 2020, 4(4): 83-90. https://doi.org/10.11925/infotech.2096-3467.2019.0715
    摘要 ( ) PDF全文 ( ) HTML ( )   可视化   收藏

    【目的】 结合神经网络,解决非寿险客户细分问题,达到精准营销等目的。【方法】 同时从宏观与微观角度改进RFM模型并引入客户理赔金额指标,建立RFMC模型。动态设置SOM神经网络模型的训练速度与权重向量,提高模型收敛速度并实现客户细分。【结果】 采用某保险公司非寿险客户信息进行实验,结果表明改进的SOM神经网络模型在保证模型稳定性的同时,模型自组织速度提高21.6%。【局限】 仅采用一家保险公司的非寿险客户数据进行细分。【结论】 本文方法将非寿险客户分为7类,并对不同类别客户提出营销策略,能有效提高营销决策质量。

  • 苏传东,黄孝喜,王荣波,谌志群,毛君钰,朱嘉莹,潘宇豪
    数据分析与知识发现. 2020, 4(4): 91-99. https://doi.org/10.11925/infotech.2096-3467.2019.0828
    摘要 ( ) PDF全文 ( ) HTML ( )   可视化   收藏

    【目的】 针对自然语言中普遍存在的隐喻现象,提出一种基于词向量融合和循环神经网络(RNN)的中英文隐喻识别方法。【方法】 通过本文提出的词嵌入融合算法将文本映射到词向量空间作为神经网络的输入,以RNN作为编码器,注意力机制和池化技术作为特征提取器,最后利用Softmax计算文本为隐喻的概率。【结果】 基于词嵌入融合的隐喻识别方法的准确率和F1值比基于普通词嵌入的方法在英文隐喻识别任务上可以提高11.8%和6.3%,在中文隐喻识别任务上可以提高8.9%和7.8%。【局限】 由于长距离依存问题,本文方法在句式复杂的长文本上隐喻识别效果不稳定。【结论】 基于词嵌入融合和RNN的模型在隐喻识别问题上表现非常好,说明词嵌入融合可以提高神经网络对隐喻的识别能力。

  • 张冬瑜,崔紫娟,李映夏,张伟,林鸿飞
    数据分析与知识发现. 2020, 4(4): 100-108. https://doi.org/10.11925/infotech.2096-3467.2019.0896
    摘要 ( ) PDF全文 ( ) HTML ( )   可视化   收藏

    【目的】 解决名词隐喻识别研究中语义信息利用不足和关系表征的问题,提高识别效果。【方法】 使用BERT模型替代词向量,在语义表示中同时包含词与词之间的位置关系等信息,利用Transformer模型进行特征提取并通过神经网络分类器进行识别。【结果】 本文模型在准确率(0.900 0)、精确率(0.896 4)、召回率(0.885 8)和F1值(0.891 0)4个指标上均表现最好,可以注意到多个关键点信息,提高名词隐喻的分类效果。【局限】 对于中文文本中的冷僻词汇、成语古语以及干扰词汇等的判断比较困难。【结论】 本文所提隐喻识别方法优于现有基于人工特征的分类模型及主流深度学习模型。

  • 陶兴,张向先,郭顺利,张莉曼
    数据分析与知识发现. 2020, 4(4): 109-118. https://doi.org/10.11925/infotech.2096-3467.2019.0533
    摘要 ( ) PDF全文 ( ) HTML ( )   可视化   收藏

    【目的】 针对当前学术问答社区内用户生成内容的自动摘要生成问题,提出改进的自动摘要聚合方法,为社区内的学术用户提供高效、准确的知识聚合服务。【方法】 提出改进的W2V-MMR自动摘要生成算法,在词句得分和相似度计算的过程中,利用基于深度学习的Word2Vec词向量生成模型,优化摘要句信息质量;引入最大边界相关(MMR)的思想,对学术问答社区内的用户生成问答文本进行自动摘要。【结果】 本文方法在4组实验数据中获取的信息质量评分分别为:1.422 8、1.447 6、1.592 1、3.416 8,均高于对比实验的MMR、TextRank摘要生成方法。【局限】 未考虑摘要句数对结果的影响,未对比不同摘要句数下的摘要生成质量。【结论】 本文方法可以有效地应用在学术问答社区的知识聚合服务中,为社区内学术用户提供快速获取知识的新途径。

  • 杨旭,钱晓东
    数据分析与知识发现. 2020, 4(4): 119-128. https://doi.org/10.11925/infotech.2096-3467.2019.0674
    摘要 ( ) PDF全文 ( ) HTML ( )   可视化   收藏

    【目的】 设计基于改进的Vicsek模型的同步聚类算法,研究社会网络的同步演化过程与簇结构。【方法】 针对原始Vicsek模型的个体运动速率恒定问题,引入速率自我调节规则调整个体演化速率;针对原始Vicsek模型的个体重要性相同问题,引入个体重要性控制个体演化方向。【结果】 利用金融网络数据集验证本文算法,F1-Score高于Sync算法和基于Vicsek模型的聚类算法。【局限】 算法时间复杂度与数据集规模成正相关关系,使得算法时间复杂度较高。【结论】 基于改进的Vicsek模型的同步聚类算法能较好地刻画复杂社会网络的演化与同步过程,准确发现社会网络中的簇结构。