期刊首页 当期目录

2019年, 第3卷, 第8期 
刊出日期:2019-08-25
  

  • 全选
    |
    研究论文
  • 李纲,周华阳,毛进,陈思菁
    数据分析与知识发现. 2019, 3(8): 1-9. https://doi.org/10.11925/infotech.2096-3467.2018.1207
    摘要 ( ) PDF全文 ( ) HTML ( )   可视化   收藏

    【目的】充分利用社交媒体用户的个人多维度信息, 研究用户自动分类问题。【方法】将社交媒体用户定义为个体民众、媒体、政府和组织4种类型, 从用户多维度信息中提取人口统计学、命名和自我描述三组特征, 构建基于机器学习算法的用户自动分类模型, 在Twitter真实数据集上通过实验对比各分类算法性能, 并分析各组特征的贡献度。【结果】支持向量机和随机梯度下降分类模型的准确率和召回率均在83%以上, 命名、人口统计学和自我描述特征对于分类性能的影响依次递增。【局限】由于标注的用户数量有限, 可能无法让模型充分学习用户特征, 而且没有考虑不同类型用户数量的不均衡问题。【结论】基于支持向量机和随机梯度下降的分类模型能够较准确地识别出4种类型用户, 对后续社交媒体用户划分研究具有借鉴意义。

  • 卢伟聪,徐健
    数据分析与知识发现. 2019, 3(8): 10-20. https://doi.org/10.11925/infotech.2096-3467.2018.1030
    摘要 ( ) PDF全文 ( ) HTML ( )   可视化   收藏

    【目的】通过投影双因素边权重的单顶点网络, 反映节点间的间接联系。【方法】构建“用户-产品-情感标签”三分网络, 拆分为三个二分网络进行网络结构分析, 并基于三分网络投影方法, 得到用户和产品两个情感单顶点网络。【结果】在用户与情感、产品与情感的双因素影响下, 得到网易云音乐数据集中高权重相关节点的关联, 以及曲风分类、热评歌曲、粉丝群体划分等信息。【局限】用户节点数较多, 可视化技术有待提升。【结论】基于情感三分网络的形成、拆分与投影, 本文对节点间的间接联系进行构建、梳理与呈现, 提出一种新的网络情感分析视角。

  • 侯剑华,刘盼
    数据分析与知识发现. 2019, 3(8): 21-29. https://doi.org/10.11925/infotech.2096-3467.2018.0904
    摘要 ( ) PDF全文 ( ) HTML ( )   可视化   收藏

    【目的】利用改进后的技术熵方法, 对技术系统生命周期演化的发展阶段进行测度分析, 为企业技术发展预测与政府进一步决策提供理论依据。【方法】在专利技术系统中, 构建以信息熵为基础, 综合多变量指标的技术熵测度模型。【结果】对中国碳捕集技术进行实证分析, 其经历了技术引入、缓慢成长、快速成长等阶段, 目前处于技术生命周期的快速成长阶段。【局限】样本数据的选择有待改进, 存在干扰数据。【结论】改进后的技术熵方法是一种对专利技术系统中技术领域演化趋势分析的科学有效方法, 为专利技术生命周期演化的识别与预测等问题提供了一种可行的分析手段。

  • 温彦,马立健,曾庆田,郭文艳
    数据分析与知识发现. 2019, 3(8): 30-39. https://doi.org/10.11925/infotech.2096-3467.2018.0764
    摘要 ( ) PDF全文 ( ) HTML ( )   可视化   收藏

    【目的】利用用户签到记录的地理位置信息和用户社交关系开展对兴趣点(POI)推荐问题的研究。【方法】基于签到地理位置所隐含的用户偏好及用户社交关系的偏好特征两方面提高兴趣点推荐质量, 提出一种推荐模型MFDR, 对已有工作进行如下改进: 采用距离熵描述不同签到地理位置所反映的用户偏好并用于修正用户兴趣矩阵; 引入用户关系兴趣矩阵用于细化社交关系的兴趣偏好, 基于正则矩阵分解法求解用户兴趣矩阵和用户关系兴趣矩阵, 并采用联合分解方式保障结果的一致性。【结果】在Gowalla和Brightkite签到数据集上进行实验, 结果优于已有的POI推荐工作。当隐语义数为10、推荐数为10时, 该模型在Gowalla上推荐的准确率为4.47%, 召回率为9.95%, 分别比其他兴趣点推荐模型高至少30.71%和28.93%。【局限】受朋友关系及其共同签到数据的稀疏性影响, 实验样本数量有待扩充, 所得结论有待进一步推广。【结论】基于地理信息偏好修正和社交关系隐式分析的POI推荐方法具有较好的推荐效果。

  • 洪闯,李贺,彭丽徽,许一明
    数据分析与知识发现. 2019, 3(8): 41-52. https://doi.org/10.11925/infotech.2096-3467.2018.1482
    摘要 ( ) PDF全文 ( ) HTML ( )   可视化   收藏

    【目的】探究全面评估在线健康咨询平台的信息服务质量方法, 促进平台的可持续发展。【方法】在总结国内外相关研究的基础上引入SERVQUAL服务质量评价框架, 构建在线健康咨询平台信息服务质量的科学评价指标体系与可拓评价模型。【结果】以丁香医生健康咨询平台为例, 使用物元可拓法对其进行评价, 信息服务质量评价等级为3, 级别变量特征值为2.955。表明丁香医生的信息服务等级为较好, 但服务的可靠性、保证性和移情性有待完善。【局限】实证研究的调查样本量较少, 采用专家打分方式获取评价数据具有一定的主观性。【结论】本文方法能够为在线健康咨询平台信息服务的科学评价和质量优化提供理论依据和实践指导。

  • 陈果,许天祥
    数据分析与知识发现. 2019, 3(8): 53-61. https://doi.org/10.11925/infotech.2096-3467.2018.1198
    摘要 ( ) PDF全文 ( ) HTML ( )   可视化   收藏

    【目的】为降低对人工标注语料的依赖, 探索利用主动学习方法, 充分结合现成的结构化摘要和有针对性的少量人工标注, 以获得具有更好泛化能力的句子功能分类模型, 识别文献句子功能类型(如表述研究的目的、方法、结论等)。【方法】以结构化摘要功能句为初始语料训练SVM、CNN、Bi-LSTM三种初始分类器, 再展开主动学习: 对大量无标签普通摘要句子进行功能预测, 自动筛选不确定性高的样例提请人工标注, 标注结果用于优化初始分类器, 迭代进行主动学习, 以提高分类器在新任务场景下的泛化性能。【结果】在图书情报学科文献集上实验表明, 开展主动学习可取得较好的句子功能分类效果, 准确率、召回率、F1值达84.65%、84.49%、84.57%, 较主动学习前分别提升3.25%、3.24%、3.25%。【局限】为避免大量的人工语料标注工作, 仅做了5次迭代。【结论】主动学习方法善于发现新任务场景下未标注语料与已有现成训练语料的差异, 有针对性地降低人工标注成本, 以提升基本模型的泛化能力。后续可进一步扩展应用于其他场景下(如引文、全文)的句子功能识别。

  • 焦富森,李树青
    数据分析与知识发现. 2019, 3(8): 62-67. https://doi.org/10.11925/infotech.2096-3467.2018.1000
    摘要 ( ) PDF全文 ( ) HTML ( )   可视化   收藏

    【目的】在个性化推荐中, 考虑物品质量和用户评分倾向性对用户打分的影响, 提高推荐效果。【方法】提出一种改进的协同过滤推荐算法: 利用物品质量评估算法实现了用户评分修正, 可以改进查找与用户兴趣相似的最近邻过程, 并在此基础上进行推荐。【结果】利用MovieLens数据集进行测试, 与传统协同过滤算法相比, 改进算法的MAE提高4.7%; 与其他几种改进算法相比, 精确度均有不同程度的提高。【局限】只关注现有的评分修正, 并没有考虑用户的兴趣漂移, 在一定程度上影响推荐效果。【结论】本文提出的算法推荐结果更加精确, 有效地减少了物品质量和用户评分倾向性对推荐结果的影响, 提高了推荐质量。

  • 孙明珠,马静,钱玲飞
    数据分析与知识发现. 2019, 3(8): 68-76. https://doi.org/10.11925/infotech.2096-3467.2018.0765
    摘要 ( ) PDF全文 ( ) HTML ( )   可视化   收藏

    【目的】利用主题模型得到文本主题信息, 将主题信息融入TextRank模型对其进行改进, 提升文本关键词自动抽取的准确率和召回率。【方法】利用LDA对文档集进行主题建模, 得到候选关键词的主题词分布和文档主题分布; 结合候选关键词主题分布特征计算节点权重, 加权文档-主题概率分布和主题-词概率分布特征作为节点的随机跳转概率; 构建新的转移矩阵进行词图迭代, 得到改进后的TextRank模型。【结果】采集南方周末网站1 559篇新闻文章进行实验。结果表明, 本文模型的关键词抽取效果明显优于原始TextRank和TF-IDF模型; 当抽取关键词个数为3时, 本模型准确率比原始TextRank模型的准确率提升4.7%, 比TF-IDF提升6.5%。【局限】融合算法的计算复杂度增加。【结论】融合主题信息的TextRank算法能够使关键词自动抽取效果更加显著。

  • 李珊,姚叶慧,厉浩,刘洁,嘎玛白姆
    数据分析与知识发现. 2019, 3(8): 77-87. https://doi.org/10.11925/infotech.2096-3467.2018.1015
    摘要 ( ) PDF全文 ( ) HTML ( )   可视化   收藏

    【目的】避免在组推荐群组划分阶段对群组个数k值的经验依赖, 提高推荐算法的准确率及扩展性。【方法】应用ISA联合聚类算法, 从用户、项目两个维度同时聚类, 获取精准的重叠兴趣群组; 在各群组内结合用户专业度构建出代表群组共同偏好的虚拟用户; 最后基于虚拟用户进行协同过滤推荐。【结果】通过ISA联合聚类摆脱了k值依赖, 基于ISA联合聚类的组推荐算法在FilmTrust数据集200和500群组规模的MAE值分别为0.697和0.693, MovieLens数据集上RMSE值为1.022, 与其他算法相比准确率有所提升。【局限】基于ISA的群组划分算法具有一定的随机性, 需多次重复实验。【结论】本文算法能够摆脱传统聚类算法对k值的经验依赖, 有效提高协同过滤推荐算法的准确率及扩展性。

  • 齐惠颖,江雨荷
    数据分析与知识发现. 2019, 3(8): 88-93. https://doi.org/10.11925/infotech.2096-3467.2019.0021
    摘要 ( ) PDF全文 ( ) HTML ( )   可视化   收藏

    【目的】更好地预测乳腺癌生存期, 探索融合多种组学数据利用机器学习方法构建乳腺癌生存预测模型。【方法】通过对TCGA数据库中乳腺癌的基因表达、拷贝数变异、DNA甲基化和蛋白质表达4种组学数据的融合, 使用随机森林算法建立预测模型。【结果】在测试数据集上该模型对乳腺癌分类预测的精确率为97.22%,召回率为98.13%。通过AUC值对比不同类型组合组学数据的预测性能, 融合多组学数据的AUC值为0.8393, 性能最好。【局限】由于样本数量的限制, 模型普适性还有待进一步验证。【结论】融合多种组学数据构建乳腺癌预测模型是一种有效提高预测性能的方法。

  • 强韶华,罗云鹿,李玉鹏,吴鹏
    数据分析与知识发现. 2019, 3(8): 94-104. https://doi.org/10.11925/infotech.2096-3467.2018.1137
    摘要 ( ) PDF全文 ( ) HTML ( )   可视化   收藏

    【目的】综合企业财务、非财务和舆情等因素预测金融事件对企业股价的影响, 支持基于特定行业、特定金融事件主题之间的推理。【方法】基于本体的规则推理技术和案例推理技术, 构建金融事件本体, 设计基于本体的SWRL推理规则, 采用Dloors引擎进行规则推理(RBR)。然后利用本体表示案例结构, 建立基于本体的主题事件案例库, 设计案例推理(CBR)表示、检索、重用、修正与保存模型。【结果】基于具体企业实例对规则推理和案例推理的结果进行验证, 证明了本文所提推理模型的可靠性。【局限】本文重点在于金融本体及其推理模型的构建, 股价预测是一种推理结果, 故没有和其他股价预测方法进行定量比较。【结论】融合企业的舆情、财务和非财务指标, 基于金融事件主题的案例推理和基于关联规则的规则推理模型, 可以对大数据环境下企业股价进行预测。

  • 陈先来,韩超鹏,安莹,刘莉,李忠民,杨荣
    数据分析与知识发现. 2019, 3(8): 105-113. https://doi.org/10.11925/infotech.2096-3467.2018.1445
    摘要 ( ) PDF全文 ( ) HTML ( )   可视化   收藏

    【目的】改进新词提取方法, 将提取的新词加入现有分词模型, 提高医学文本分词准确率。【方法】在传统互信息模型基础上, 得到字、字串的统计量, 连同字串是否成词, 一起作为特征, 建立逻辑回归分类模型, 设计了一种新词识别算法。【结果】在湘雅医院皮肤科电子病历文本数据上进行系列实验, 与PMI、PMI 2和PMI 3相比, 融入逻辑回归的PMI模型可以取得最高的新词提取准确率(0.803)。【局限】建立逻辑回归分类模型时, 需要对训练集字串是否成词进行人工判断。【结论】融入逻辑回归的互信息分词模型可以更好地识别新词, 降低词语误判, 对于医学文本词的切分具有良好的应用价值。

  • 刘博文,白如江,周彦廷,王效岳
    数据分析与知识发现. 2019, 3(8): 114-122. https://doi.org/10.11925/infotech.2096-3467.2018.1297
    摘要 ( ) PDF全文 ( ) HTML ( )   可视化   收藏

    【目的】对比分析基金项目数据和论文数据的细粒度特征, 识别科学研究前沿主题。【方法】以碳纳米管领域的美国国家科学基金会(NSF)基金项目和WOS论文为数据源, 进行LDA主题识别, 提出并利用主题强度、主题新颖度和主题相似度三个研究指标进行对比分析。【结果】共识别出该领域2个热点研究前沿主题、5个新兴研究前沿主题、4个消亡研究前沿主题以及2个潜在研究前沿主题。【局限】本文以英文文本为例进行研究, 对中文文本的研究需在主题识别和相似度计算上做出调整。【结论】本文方法与单数据源、单维度识别方法相比, 能更有效识别科学研究前沿主题。