Please wait a minute...
Advanced Search
  • 数据分析与知识发现
      2017年, 第1卷, 第4期 刊出日期:2017-04-25   
    选择: 合并摘要
    研究论文
    基于WMD语义相似度的TextRank改进算法识别论文核心主题句研究
    王子璇, 乐小虬, 何远标
    数据分析与知识发现. 2017, 1 (4): 1-8.   DOI: 10.11925/infotech.2096-3467.2017.04.01
    摘要   HTML ( 6 PDF(611KB) ( 228 )  

    目的】自动甄别科技论文中描述研究主题的关键语句。【方法】以论文小节为单位组织句子集, 通过训练领域词向量计算句子间WMD距离得到相应语义相似度, 优化TextRank算法迭代过程, 利用外部特征对所得权值进行调整, 按句子权值降序选取关键主题句。【结果】以气候变化领域科技论文作为实验数据, 以人工标注的结果为基准对本文的算法和传统的TextRank算法进行对比实验, 初步结果表明该方法的识别效果(F值)比传统TextRank算法提升约5%。【局限】句子特征提取有待提高, 词向量训练及方法中的相关参数需要做进一步优化。【结论】基于领域词向量, 融合WMD语义相似度的TextRank改进算法, 能够较好地甄别科技论文小节内部中心句, 辅以外部特征的权值调整后可以较好地识别出一篇论文的核心主题句。

    图表 | 参考文献 | 相关文章 | 多维度评价
    信息类、导航类与事务类查询的网络动态性分析*
    张晓娟
    数据分析与知识发现. 2017, 1 (4): 9-19.   DOI: 10.11925/infotech.2096-3467.2017.04.02
    摘要   HTML ( 7 PDF(2609KB) ( 158 )  

    目的】分析信息类、导航类与事务类查询随时间的网络动态性特征, 以期为搜索引擎性能优化提供相关依据。【方法】利用相关评测指标分别从查询动态﹑文档内容动态和信息需求动态三个角度出发, 分析不同意图类别查询随时间变化所呈现的特征; 针对不同意图类别查询, 分析在不同查询流行度特征中, 其文档内容以及信息需求的变化情况。【结果】在查询流行度分布方面, 信息类查询通常包含波峰, 事务类查询更可能包含多个波峰且具有周期性, 导航类查询通常保持平滑趋势; 信息类查询随网页内容与信息需求变化幅度均比其他两类查询的要大。【局限】观察时间段只有29天; 未对不包含波峰与包含多个波峰的查询流行度分布图中波峰进行归类与自动识别。【结论】对于信息类查询来说, 搜索引擎尽可能地对其查询结果进行多样化展示; 对于导航类查询来说, 搜索引擎需要保证与之相关权威网页在查询结果中的靠前性; 对于与用户交互行为相关的事务类查询, 应长时间保持相关网页排序不变; 对于一些与娱乐相关事务类查询, 在网页排序中需考虑网页的新颖性。

    图表 | 参考文献 | 相关文章 | 多维度评价
    基于论文合著网络的学术社区分析方法研究* ——以《美国地理学家联合会会刊》为例
    卿雅娴, 李锐, 吴华意
    数据分析与知识发现. 2017, 1 (4): 20-29.   DOI: 10.11925/infotech.2096-3467.2017.04.03
    摘要   HTML ( 1 PDF(4014KB) ( 342 )  

    目的】对论文合著网络进行分析, 划分并分析学术社区, 发现领域发展与变化规律。【方法】利用社区快速发现算法识别合著网络中的学术社区, 建立学者论文影响力与合作影响力的综合指标, 评价学术社区中学者的学术影响力, 并以学术影响力最大的三个社区为例, 从生命周期的角度分析和讨论学术社区的发展和演化。【结果】基于《美国地理学家联合会会刊》的数据分析表明: 本文提出的综合指标能够有效地挖掘学术社区中的杰出学者; 基于生命周期的合著网络中学术社区分析方法可以发现不同学术社区的研究趋势和热点变化。【局限】以单一期刊为例, 可能导致学术社区的组成相对单薄, 增加不同来源的期刊数据能够进一步提升研究结果的可信性。【结论】本文提出的学术社区分析方法, 可以从不同角度发现与解释领域的发展方向和规律, 为相关领域学者的研究工作提供更加科学的指导和认识。

    图表 | 参考文献 | 相关文章 | 多维度评价
    基于合作网络的学者动态学术影响力模式识别研究
    范如霞, 曾建勋, 高亚瑞玺
    数据分析与知识发现. 2017, 1 (4): 30-37.   DOI: 10.11925/infotech.2096-3467.2017.04.04
    摘要   HTML ( 2 PDF(1316KB) ( 341 )  

    目的】利用高合作学者识别算法和学者影响力模式识别算法识别出团队的高合作学者以及其动态学术影响力模式, 为团队中人才成长提供参考。【方法】根据学者的合作人数情况, 区分出团队中的高合作学者; 利用高合作学者的发文量和度数中心度指标测度学者的个人影响力和在团队的影响力, 识别学者的动态学术影响力模式。【结果】不同团队中的高合作学者数量不一, 为零至多个。高合作学者的动态学术影响力模式不同, 识别为稳步增长或成熟波动模式。【局限】仅利用两个指标来测度学者影响力, 对于较复杂情况的学者需引入更多的指标识别其动态学术影响力模式。【结论】高合作学者识别算法和学者影响力模式识别算法能够较合理地识别出团队中的高合作学者及其动态学术影响力模式。

    图表 | 参考文献 | 相关文章 | 多维度评价
    结合链路预测和ET机器学习的科研合作推荐方法研究*
    吕伟民, 王小梅, 韩涛
    数据分析与知识发现. 2017, 1 (4): 38-45.   DOI: 10.11925/infotech.2096-3467.2017.04.05
    摘要   HTML ( 2 PDF(525KB) ( 224 )  

    目的】结合链路预测与机器学习, 提出推荐未来科研合作的新方法, 以提高单独基于链路预测方法的推荐精确度。【方法】构建加权作者合作网, 以不同的链路预测指标作为特征输入, 运用极端随机树(Extremely Randomized Trees, ET)机器学习算法训练分类, 并利用遍历算法求取分类结果的最优权重组合, 选取TOP准确度的预测作为合作推荐结果。【结果】选取纳米科技领域2008年-2010年SCI论文数据进行实证。在城市合作推荐中, 改进的ET方法优于已有方法, 有良好的推荐成功率; 预测方法受网络结构等因素影响较小, 适用范围更广泛。【局限】科研合作受合作动机、地域、语言等诸多因素影响, 加权作者合作网没有反映在一篇论文中同城市、同机构的多个作者, 也没有反映上述因素。【结论】改进算法能够比单个预测指标产生更准确的合作推荐建议, 也为推广到大学等机构、个人等更微观的应用层面提供参考。

    图表 | 参考文献 | 相关文章 | 多维度评价
    信息生态视域下移动医疗APP用户持续使用意愿分析*
    张敏, 罗梅芬, 聂瑞, 张艳
    数据分析与知识发现. 2017, 1 (4): 46-56.   DOI: 10.11925/infotech.2096-3467.2017.04.06
    摘要   HTML ( 5 PDF(777KB) ( 228 )  

    目的】探究影响移动医疗APP持续使用意愿的因素及其内在作用机理。【方法】从信息生态的研究视角出发, 分析信息、信息人、信息技术和信息环境4类影响因素, 并基于期望确认模型提出研究假设构建研究模型。【结果】选取多个移动医疗APP用户为实验者, 采用“日志追踪实验+调查问卷”的方式收集288份有效数据并利用SmartPLS2.0对模型进行检验。结果表明, 期望确认模型中的关系在移动医疗情境下均成立; 信息准确性和一致性、信息人的感知健康威胁、信息技术的易用性和响应性、信息环境的直接和间接网络外部性均会正向促进移动医疗APP的期望确认和感知有用性; 而信息人的电子健康素养则会正向促进期望确认, 负向抑制感知有用性。【局限】实验样本数量有待扩充, 得出的结论有待进一步推广。【结论】用户的移动医疗APP持续使用行为是信息、信息人、信息技术和信息环境共同作用的结果。

    图表 | 参考文献 | 相关文章 | 多维度评价
    基于关联数据的类簇语义揭示模型研究
    崔家旺, 李春旺
    数据分析与知识发现. 2017, 1 (4): 57-66.   DOI: 10.11925/infotech.2096-3467.2017.04.07
    摘要   HTML ( 3 PDF(859KB) ( 244 )  

    目的】调研基于关联数据揭示类簇内主题词间语义关系的模型和技术方法。【方法】利用Google Scholar、Springer、CNKI等检索与研究主题相关的文献, 调研分析并梳理当前类簇分析和语义关系揭示相关研究, 构建基于关联数据的类簇语义关系揭示模型, 通过实验验证模型的有效性。【结果】实验结果表明, 利用关联数据可以有效揭示主题词间语义关系, 弥补传统共词聚类分析在语义方面的不足。【局限】受实验数据限制, 目前揭示出的语义关系局限于上下位类关系、类与实例关系和相关关系等类型, 未考虑关联数据质量问题对语义揭示结果造成的影响。【结论】提出的基于关联数据的类簇语义关系揭示模型可以有效揭示主题词间语义关系, 为共词聚类结果的理解和分析提供一种新的方式。

    图表 | 参考文献 | 相关文章 | 多维度评价
    一种基于滑动窗口模型的MOOCs辍学率预测方法*
    卢晓航, 王胜清, 黄俊杰, 陈文广, 闫增旺
    数据分析与知识发现. 2017, 1 (4): 67-75.   DOI: 10.11925/infotech.2096-3467.2017.04.08
    摘要   HTML ( 2 PDF(3345KB) ( 421 )  

    目的】通过北京大学在Coursera平台上运行的课程数据, 对学生的辍学行为进行研究, 以期预测学生的辍学点和辍学行为, 改建教学慕课质量和方法。【方法】在课程数据基础上, 提取19个特征, 使用机器学习算法构建滑动窗口模型, 动态预测学习者辍学率。【结果】模型预测准确率高, 普遍在90%以上, 效果稳定, 支持向量机(SVM)和长短记忆网络(LSTM)方法建模效果更好。【局限】课程数据选课人数偏多, 没有考虑其他课程数据稀疏问题, 模型的可移植性仍需要进一步考虑。【结论】使用滑动窗口模型建模, 能够帮助MOOC课程教师和设计者动态地追踪课程学习者辍学行为, 准确率高, 可以帮助教师通过快速的反馈来调整课程, 降低辍学率。

    图表 | 参考文献 | 相关文章 | 多维度评价
    基于图像语义的用户兴趣建模*
    曾金, 陆伟, 丁恒, 陈海华
    数据分析与知识发现. 2017, 1 (4): 76-83.   DOI: 10.11925/infotech.2096-3467.2017.04.09
    摘要   HTML ( 1 PDF(2294KB) ( 147 )  

    目的】社交网络环境下的用户兴趣建模是好友推荐、精准营销的关键, 利用微博用户分享的图像, 提出一种基于图像语义的用户兴趣建模方法, 旨在更加准确地预测用户的真实兴趣。【方法】在获取新浪微博用户图像数据的基础上, 使用图像的高层语义表达用户兴趣特征, 基于这些特征使用SVM训练得到图像语义分类器进行预测。【结果】实验结果表明, 本文建立的模型能够较为准确地预测用户真实兴趣, 169位用户分类的准确率达到97.38%, 召回率为98.92%, F值为98.14%。【局限】由于实验图像数据集有限, 未能完整地覆盖用户所有的兴趣类别。【结论】该模型能够基于用户分享的图像较为准确地预测用户兴趣, 表明了图像高层语义的有效性, 同时为图像高层语义应用研究提供了一定的理论和技术基础。

    图表 | 参考文献 | 支撑数据 | 相关文章 | 多维度评价
    应用论文
    科技文献检索系统语义丰富化框架的设计与实践*
    谢靖, 王敬东, 吴振新, 张智雄, 王颖, 叶志飞
    数据分析与知识发现. 2017, 1 (4): 84-93.   DOI: 10.11925/infotech.2096-3467.2017.04.10
    摘要   HTML ( 4 PDF(6590KB) ( 323 )  

    目的】通过采用语义识别、知识关系计算等方法提升科技文献检索系统的服务功能和效果, 使之能够呈现更加丰富的知识化语义信息, 将更多的知识点和知识关系展现给用户。【方法】应用数据挖掘和关系计算工具, 深度识别和抽取科技文献中的语义知识, 分析、计算、构建语义关系, 并将得到的语义知识和语义关系建立多维语义索引树, 设计新的数据组织呈现模型。【结果】研发语义丰富化检索示范系统, 在科技文献检索应用过程中充分揭示语义信息, 丰富检索体验。【局限】选取的试验数据集合不够充足, 缺少其他领域应用对比。【结论】本文模型设计给用户带来更多的知识层面的关联、揭示和导航, 提升了检索系统体验。同时分析了设计模型的不足之处, 探索改进方法。

    图表 | 参考文献 | 相关文章 | 多维度评价
    基于改进CFSFDP算法的文本聚类方法及其应用*
    詹春霞, 王荣波, 黄孝喜, 谌志群
    数据分析与知识发现. 2017, 1 (4): 94-99.   DOI: 10.11925/infotech.2096-3467.2017.04.11
    摘要   HTML ( 3 PDF(651KB) ( 212 )  

    目的】针对CFSFDP(Clustering by Fast Search and Find of Density Peaks)算法利用局部密度和距离的乘积选择聚类中心而导致聚类结果不理想的问题进行改进。【方法】提出一种基于粒子群算法的CFSFDP算法, 通过粒子群算法寻找CFSFDP算法中的最佳局部密度和距离阈值, 得到相对较高的局部密度和距离的聚类中心, 减少离散点对数据中心选取的影响, 并在某高考咨询平台提供的考生问题库中随机选取数据集进行试验。【结果】实验结果表明, 在不同的数据集中, 本文算法相对于基本的CFSFDP算法在准确率、召回率、F值上均有明显提高。【局限】文本处理时没有考虑语义关系。【结论】本文方法有很好的聚类效果, 应用在高考咨询库中能够有效地减轻被咨询方的工作量并且帮助快速回答考生的问题。

    图表 | 参考文献 | 相关文章 | 多维度评价
版权所有 © 2015 《数据分析与知识发现》编辑部
地址:北京市海淀区中关村北四环西路33号 邮编:100190
电话/传真:(010)82626611-6626,82624938
E-mail:jishu@mail.las.ac.cn