数据分析与知识发现

Select

李东, 童寿传, 李江

数据分析与知识发现. 2018, 2(12): 1-11. https://doi.org/10.11925/infotech.2096-3467.2018.0452

摘要 ( ) PDF全文 ( ) HTML ( )

可视化

【目的】从跨学科合作与跨学科引用两个角度, 研究学科交叉与科学家学术影响力之间的关系。【方法】以200位国家自然科学基金杰出青年基金入选者收录在 Web of Science 数据库中的论文为例, 视不同学科作者的合著关系为跨学科合作, 视不同学科的引用关系为跨学科引用, 采用布里渊指数测度跨学科程度, 采用H指数、H5指数测度科学家学术影响力, 用相关分析判断学科交叉与科学家学术影响力之间的关系。【结果】在样本集范围内, 仅在生物学部中发现跨学科合作与学术影响力之间存在相关关系; 仅在生物学部和医学学部中发现跨学科引用与学术影响力之间存在相关关系。【局限】以作者机构判断所属学科的方法较粗糙; 学科分类标准对结果有一定影响。【结论】科学家的跨学科合作和跨学科引用偏好与其学术影响力之间并不存在必然的关联。

Select

开放式创新社区用户信息有用性识别研究

李贺, 祝琳琳, 闫敏, 刘金承, 洪闯

数据分析与知识发现. 2018, 2(12): 12-22. https://doi.org/10.11925/infotech.2096-3467.2018.0393

摘要 ( ) PDF全文 ( ) HTML ( )

可视化

【目的】探究如何从信息数量庞杂冗余、内容质量参差不齐的开放式创新社区中识别出高度有用的用户反馈信息。【方法】以信息采纳模型为理论基础, 抓取小米MIUI社区官方论坛23 137条Bug反馈信息作为研究对象, 利用二元逻辑回归, 从信息质量和信息源可信性两个维度探讨影响开放式创新社区信息有用性的因素。【结果】在信息质量方面, 信息及时性对信息有用性有正向影响, 信息完整性对信息有用性有影响, 信息语义性对信息有用性有负向影响; 在信息源可信性方面, 用户先前经验不会影响信息有用程度, 但用户主动贡献程度对信息有用性有正向影响。【局限】仅研究一个社区的一个版块, 结果欠缺普适性。【结论】本研究提取的信息有用性关键影响因素能够有效提升开放式创新社区中用户信息有用性识别的效率与准确度。

Select

基于层级交互网络的文本阅读理解与问答方法研究

程勇, 徐德宽, 吕学强

数据分析与知识发现. 2018, 2(12): 23-32. https://doi.org/10.11925/infotech.2096-3467.2018.0583

摘要 ( ) PDF全文 ( ) HTML ( )

可视化

【目的】实现基于文本阅读理解的精确问答。【方法】提出一种基于层级交互机制的神经网络模型。该模型借鉴人类在阅读理解过程中的思维习惯, 将分层处理机制、内容过滤机制、多维注意力机制等人类在阅读时的特性融合到神经网络构建中, 提升机器对文本信息的分析和理解能力。【结果】在中文阅读理解评测CMRC 2017发布的数据上验证本文模型, 测试集上的准确率达到0.78, 性能优于目前的主流模型以及评测比赛上发布的最好成绩。【局限】未对候选答案做进一步优化和排序, 性能距离人类阅读理解水平还有一定差距。【结论】本文构建的层级交互网络显著提升了对文本的自动分析与理解能力, 使机器能够在理解文本内容的基础上回答相关问题。

Select

基于文本价格融合模型的股票趋势预测

余传明, 龚雨田, 王峰, 安璐

数据分析与知识发现. 2018, 2(12): 33-42. https://doi.org/10.11925/infotech.2096-3467.2018.0420

摘要 ( ) PDF全文 ( ) HTML ( )

可视化

【目的】在传统股票预测模型的基础上, 提高股票价格预测准确率, 降低股票交易风险, 研究大数据环境下的股票价格变化趋势。【方法】提出一种新的文本价格融合模型。该模型对股票论坛上的评论文本预处理后, 通过深度表示学习生成评论文本的特征矩阵, 使用K均值聚类方法生成文本类别; 结合开盘价、收盘价等15个原始价格指标, 使用多层感知机算法预测股票价格趋势。【结果】使用该模型进行预测, 所得精度为65.91%, 超出单独使用价格特征的模型7.76%, 超出单独使用文本特征的模型11.37%, 预测性能具有较大提升。【局限】只对个股进行预测研究。【结论】本文模型从文本和价格结合的角度出发提高股票预测精度, 为股价趋势预测相关研究者和从业者提供新的研究方法和研究视角。

Select

面向学术搜索的交互式知识地图建构研究

刘萍, 李亚楠, 郁聪

数据分析与知识发现. 2018, 2(12): 43-51. https://doi.org/10.11925/infotech.2096-3467.2018.0419

摘要 ( ) PDF全文 ( ) HTML ( )

可视化

【目的】针对传统学术搜索中分类浏览和关键词搜索分离的局限性, 提出一种融合浏览和搜索的交互式知识地图建构方法。【方法】对学术资源进行数学建模, 挖掘出文献集合隐含的知识节点及复杂关联关系。在此基础上构建基于用户查询的交互式知识地图, 展示核心关联词汇并以概念格的形式展现检索结果。【结果】以2006年-2016年国际SIGIR会议收录的学术文献为例进行应用分析, 结果表明利用本文方法能揭示文档空间隐含的知识结构, 帮助用户快速聚焦核心知识节点、提高搜索效率。【局限】在概念的智能推荐方面还有待提高。【结论】所构建的交互式知识地图能满足用户对信息空间认知和探索的需求。

Select

基于CART决策树的网络问答社区新兴话题识别研究

程秀峰, 张心怡, 王宁

数据分析与知识发现. 2018, 2(12): 52-59. https://doi.org/10.11925/infotech.2096-3467.2018.0415

摘要 ( ) PDF全文 ( ) HTML ( )

可视化

【目的】协助相关决策部门监督和管理网络舆情, 探测可能成为舆情关注焦点的新兴话题。【方法】提出网络问答社区中新兴话题的识别标准和依据, 并基于知乎问答社区, 利用CART决策树对识别过程进行实证研究。【结果】对于网络问答社区, CART决策树在新兴话题的识别与预测方面具有较好的准确性和适用性。【局限】实验数据只占知乎所有话题板块的一小部分, 为验证该方法的有效性, 需要进一步扩展数据集。【结论】基于CART决策树的网络问答社区新兴话题识别方法能够有效预测新兴话题, 可为网络问答社区的热点话题筛选机制提供参考。

Select

融合社会网络分析与影响力扩散模型的微博意见领袖发现研究

陈芬, 付希, 何源, 薛春香

数据分析与知识发现. 2018, 2(12): 60-67. https://doi.org/10.11925/infotech.2096-3467.2018.0200

摘要 ( ) PDF全文 ( ) HTML ( )

可视化

【目的】融合社会网络分析与影响力扩散模型, 提出一种识别网络意见领袖的改进方法, 以更好地引导网络舆情发展。【方法】从社会网络分析出发, 在分析网络意见领袖重要指标的基础上, 引入用户影响力扩散模型, 从意见领袖影响范围和影响深度两方面提出优化的意见领袖发现模型。【结果】与单一的中心性分析模型和语义相似度模型对比, 融合两种方法的综合意见领袖识别模型进一步优化了意见领袖排序结果, 与原始微博数据更为一致。【局限】研究语料来源于“转基因食品”话题, 具有一定的领域局限性。【结论】本文模型从度的量的关系和度的权重语义距离两方面发现意见领袖, 效果更为明显。

Select

基于CapsNet的中文文本分类研究

冯国明, 张晓冬, 刘素辉

数据分析与知识发现. 2018, 2(12): 68-76. https://doi.org/10.11925/infotech.2096-3467.2018.0391

摘要 ( ) PDF全文 ( ) HTML ( )

可视化

【目的】解决长文本的表示问题并将CapsNet应用于中文文本分类任务中, 提高分类精度。【方法】针对长文本提出LDA矩阵和词向量体表示法, 并结合CapsNet提出基于CapsNet的中文文本分类模型。以搜狗新闻语料与复旦大学文本分类语料作为实验数据, 将TextCNN、DNN等模型作为对比对象进行文本分类实验与分析。【结果】CapsNet模型在中文文本分类的各评价指标上均优于其他模型, 在5类短文本、长文本分类中准确率分别达89.6%、96.9%, 且收敛速度比CNN模型快近两倍。【局限】模型计算时间复杂度高, 实验语料规模受限。【结论】本文方法和CapsNet模型在中文文本分类中相对于已有方法有更好的准确率、收敛速度和鲁棒性。

Select

改进的DBSCAN聚类算法在社会化标注中的应用

熊回香, 叶佳鑫, 蒋武轩

数据分析与知识发现. 2018, 2(12): 77-88. https://doi.org/10.11925/infotech.2096-3467.2018.0358

摘要 ( ) PDF全文 ( ) HTML ( )

可视化

【目的】改进DBSCAN算法并验证其在社会化标注中的可行性及有效性。【方法】结合社会化标注的特点, 分析标签被用来标注资源的频次及标签的总出现次数, 挖掘标签与资源间的联系来改进DBSCAN聚类算法, 以改进的算法为基础, 实现标签聚类、用户聚类以及用户标签的拓展。【结果】采用豆瓣电影上的数据进行对比实验, 改进的DBSCAN算法在应用于社会化标注时可以提高簇内对象间相关性与各簇间相关性的比值, 聚类效果得到改进。【局限】在选择构建向量的数据时存在一定局限性, 样本数据只能从较笼统的层面表示用户及资源特征, 未对其进行深入挖掘。【结论】本文通过分析社会化标注的特点来改进DBSCAN算法, 提高算法的效果, 并为其改进提供新的思路。

Select

基于R2RML的STKOS超级科技词表RDF转换实现

王颖, 吴思竹

数据分析与知识发现. 2018, 2(12): 89-97. https://doi.org/10.11925/infotech.2096-3467.2018.0423

摘要 ( ) PDF全文 ( ) HTML ( )

可视化

【目的】实现STKOS超级科技词表从关系数据库到RDF数据的自动转换。【方法】构建STKOS超级科技词表语义描述模型, 针对STKOS超级科技词表的数据存储情况和数据特点, 分别建立将科技术语、规范概念、范畴类、来源概念和术语等从关系数据库存储字段转换到RDF数据集的R2RML映射文档, 并利用R2RML Parser工具执行自动批量转换。【结果】完成STKOS超级科技词表大规模发布数据的RDF转换, 生成1.9亿RDF三元组, 并存入Virtuoso数据库中提供SPARQL查询功能。【局限】R2RML的自定义谓词不够灵活, 对于复杂数据结构需要进行预先拆分和转换。【结论】本文基于R2RML开展了STKOS超级科技词表的RDF转换实践, 其映射方法可为其他关系数据库或叙词表的RDF转换提供参考。

Select

基于网络属性的抗肿瘤药物靶点预测方法及其应用

范馨月, 崔雷

数据分析与知识发现. 2018, 2(12): 98-108. https://doi.org/10.11925/infotech.2096-3467.2018.0545

摘要 ( ) PDF全文 ( ) HTML ( )

可视化

【目的】旨在发现潜在的抗肿瘤药物作用靶点, 为日后临床工作及实验验证提供参考。【方法】从DrugBank数据库获取抗肿瘤药物靶点, 结合HPRD数据库中蛋白质相互作用信息, 使用Cytoscape建立药物靶点PPI网络并计算网络节点的拓扑属性, 使用SPSS单因素分析和Weka信息增益原理筛选拓扑属性变量, 采用SMOTE算法处理不平衡数据集问题, 利用决策树方法构建抗肿瘤药物靶点预测模型, 并与其他三种常见的机器学习分类算法模型进行性能比较。【结果】应用决策树算法构建的抗肿瘤药物靶点预测模型的预测准确率达73.18%, 在CBioPortal中验证发现, 结果中预测分数大于等于0.9的16个靶点在多种肿瘤中存在突变和扩增, 并以NR5A1为例进行具体分析。【局限】仅使用抗肿瘤药物靶点的PPI网络属性构建预测模型, 未加入靶点的功能、序列属性等特征。【结论】基于PPI网络的拓扑属性, 采用机器学习方法对潜在的抗肿瘤药物靶点进行预测是有效的, 可以为抗肿瘤药物的研发及临床工作提供一定参考。

选择文件类型/文献管理软件名称

选择包含的内容

2018年, 第2卷, 第12期　
刊出日期：2018-12-25

模态框（Modal）标题

选择文件类型/文献管理软件名称

选择包含的内容

检索词推荐：

2018年, 第2卷, 第12期 刊出日期：2018-12-25

2018年, 第2卷, 第12期　
刊出日期：2018-12-25