数据分析与知识发现

Select

张宁, 尹乐民, 何立峰

数据分析与知识发现. 2018, 2(6): 1-12. https://doi.org/10.11925/infotech.2096-3467.2017.1174

摘要 ( ) PDF全文 ( ) HTML ( )

可视化

【目的】研究网络股评“发布者-关注者”BSI投资者情绪指标与股票市场的关联性。【方法】通过情感词典匹配方法对上证指数股评进行情感分类, 构造4种“发布者-关注者”情感倾向值SV, 并依此构建“发布者-关注者”BSI投资者情绪指标, 建立线性与非线性模型进行实证检验。【结果】文本挖掘构建的BSI指标与上证综指的价格和收益率显著相关, 并且BSI对市场收益率的预测能力强于对收盘价格的预测。【局限】仅考虑涨跌两种情绪极性, 未对情感强度进行深入分析。【结论】构造的BSI指标能够有效预测整体股票市场走势, 并且丰富了投资者情绪的测量体系。

Select

激励机制下图书馆信息安全管理的投入意愿研究——基于演化博弈的视角

朱光, 丰米宁, 张薇薇

数据分析与知识发现. 2018, 2(6): 13-24. https://doi.org/10.11925/infotech.2096-3467.2017.1101

摘要 ( ) PDF全文 ( ) HTML ( )

可视化

【目的】分析不同成本和收益条件下图书馆信息安全管理的投入意愿, 解决投入过程中可能存在的“搭便车”问题, 提高图书馆信息安全管理的水平和效率。【方法】运用演化博弈理论, 设计由图书馆和技术研发企业组成的博弈主体, 探究双方在图书馆信息安全管理过程中的投入意愿。根据不同博弈策略的收益和成本, 计算博弈双方的支付矩阵, 分析信息安全投入的演化稳定策略。据此设计第三方激励机制, 以增强博弈双方的投入意愿。【结果】图书馆与技术研发企业的投入意愿与投入收益增率、投入成本、“搭便车”所获收益密切相关。当投入收益增率较小时, 博弈双方不会选择“高效投入”。随着投入收益增率逐渐变大, 博弈双方选择“高效投入”的概率随之提高, 并会出现多种演化稳定策略。【局限】未能设计非线性收益函数; 未能考虑其他影响演化稳定策略的因素(如用户意愿、广告因素等)。【结论】通过分析“收益-成本”因素对信息安全管理投入意愿的影响, 促进图书馆信息安全管理的发展, 并提高管理水平。

Select

基于知识元的企业竞争情报关系辨识与融合方法

孙琳, 王延章

数据分析与知识发现. 2018, 2(6): 25-36. https://doi.org/10.11925/infotech.2096-3467.2017.0996

摘要 ( ) PDF全文 ( ) HTML ( )

可视化

【目的】辨识和融合竞争情报的隐性关联知识, 为企业参与激烈的市场竞争提供智力支持。【方法】基于知识元模型构建竞争情报的知识体系, 通过知识元属性关系自生成网络、相似度分析和基于证据理论的多属性融合方法对企业竞争情报知识进行关系辨识与融合。【结果】构建企业财务与销售业务指标、研发能力与企业资源的知识元属性关系网络; 基于产品“HS”情报元进行商业关系辨识; 以及实现“MGIS”营销策划事件关系的情报元融合。【局限】限于对事物认知的局限性和竞争情报的小样本数收集, 企业竞争情报相关知识元体系尚待完善。【结论】解决了竞争情报的复杂关系辨识与情报分析需求的不匹配问题, 为竞争情报系统实现竞争态势评估、危机预警和决策支持提供知识基础。

Select

一种基于话题聚类及情感强度的微博舆情分析模型

王秀芳, 盛姝, 路燕

数据分析与知识发现. 2018, 2(6): 37-47. https://doi.org/10.11925/infotech.2096-3467.2017.1107

摘要 ( ) PDF全文 ( ) HTML ( )

可视化

【目的】构建一种微博舆情热点的监控和预测模型, 从话题聚类及情感强度的角度出发解决短文本漂移、情感极性量化等问题。【方法】提出一种基于话题聚类及情感强度的微博舆情分析模型, 实现微博话题快速聚类及情感强度量化计算, 通过时序回归分析追踪预测热点话题的情感变化。【结果】实验结果表明, 本文模型预测准确率达88.97%, 对比iLab-Edinburgh模型提高约7%, 证明了模型的可行性。【局限】未考虑突发事件下, 模型对于事件的预警预测效果。【结论】本文模型能够有效提高公众情感倾向的预测准确性, 为微博舆情分析方法提供新的途径。

Select

自然权重对非线性科技评价的影响及纠正研究——以TOPSIS方法评价为例

俞立平, 宋夏云, 王作功

数据分析与知识发现. 2018, 2(6): 48-57. https://doi.org/10.11925/infotech.2096-3467.2017.1124

摘要 ( ) PDF全文 ( ) HTML ( )

可视化

【目的】本文提出隐含在科技评价指标中的数据自然权重问题, 并提出了修正方法。【方法】以JCR2016数学期刊和TOPSIS评价方法为例, 分析自然权重对非线性评价方法的影响, 提出动态最大均值逼近标准化方法, 以消除自然权重的影响。【结果】自然权重对非线性评价方法影响较大, 对于加权类非线性评价方法, 设计权重、自然权重和评价方法共同影响实际权重, 对于非加权类线性评价方法, 自然权重和评价方法影响实际权重; 自然权重消除后可以有效降低评价方法对实际权重的影响, 从而充分发挥设计权重的作用, 这符合评价公理; 指标数据分布特点也会影响实际权重。【局限】用来消除自然权重的动态最大均值逼近标准化方法是一种逼近算法, 均值标准化结果难以完全相等。【结论】在科技评价中必须重视自然权重问题, 这是一种系统误差, 消除后才能保证评价公平。

Select

Altmetrics与引文指标相关性研究

吴朋民, 陈挺, 王小梅

数据分析与知识发现. 2018, 2(6): 58-69. https://doi.org/10.11925/infotech.2096-3467.2018.0354

摘要 ( ) PDF全文 ( ) HTML ( )

可视化

【目的】研究高质量期刊中论文的Altmetrics指标的相关特性, 包括与被引次数相关性、学科差异性、分项指标的贡献度等, 对比分析与已有基于全论文数据集分析结果的差异性, 为正确理解和使用Altmetrics指标提供借鉴。【方法】选取Nature Index的68种高质量期刊为数据源, 利用机器学习方法对论文进行学科分类, 采用Spearman相关性分析方法, 分析Altmetrics与被引次数之间的相关性及在各个学科中的差别, 以及Altmetrics各分项指标的贡献度, 并利用ROC曲线评估Altmetrics识别高被引论文的有效性。【结果】Altmetrics与被引次数的相关性存在学科差异; 高质量期刊中, 论文的Altmetrics分值与被引次数间的相关性增强; News、Blog、Twitter对Altmetrics得分的贡献度增大; Altmetrics有助于识别高被引论文。【局限】所选数据集覆盖年限较短, 未进一步根据学科特点扩展数据集。【结论】对比以往全数据集的研究结果, Altmetrics在高质量期刊中的表现具有独特性, Altmetrics与被引次数之间具有强相关性。

Select

社交博客标签增长态势与连接模式分析

叶光辉, 胡婧岚, 徐健, 夏立新

数据分析与知识发现. 2018, 2(6): 70-78. https://doi.org/10.11925/infotech.2096-3467.2017.1311

摘要 ( ) PDF全文 ( ) HTML ( )

可视化

【目的】揭示标签网络中节点链路的形成机理, 对社交博客标签的增长态势和连接模式进行分析。【方法】借助统计分析和网络分析指出标签增长模式; 在标签度分布分析的基础上, 细化统计标签连接的类型及对应的数量, 总结新加入标签的连接规律; 定义度度相关性指标, 验证标签连接服从优先连接模式的概率。【结果】发现标签最符合线性增长模式, 标签度分布呈现出单峰居中, 左侧震荡, 右侧平缓的态势, 不符合幂律分布。【局限】未能结合用户标记行为说明其对标签网络连接模式形成的影响。【结论】无论是“新标签-旧标签”还是“旧标签-旧标签”均不完全服从优先连接模式。

Select

基于复杂网络重叠社区的电子商务用户复合类型识别

钱晓东, 李敏

数据分析与知识发现. 2018, 2(6): 79-91. https://doi.org/10.11925/infotech.2096-3467.2018.0101

摘要 ( ) PDF全文 ( ) HTML ( )

可视化

【目的】由用户特征的多样性可知, 用户往往是多重角色的混合体, 而已有研究很少涉及用户复合类型, 这不利于电子商务运营商全面地了解客户。本文提出一种电子商务用户复合类型的识别算法, 为运营商的个性化营销提供数量化依据。【方法】基于用户访问序列的特点构建节点距离矩阵; 从重定义匹配数、编辑代价和编辑规则等方面改进Jaro-Winkler Distance算法, 计算用户访问序列距离矩阵; 以距离矩阵为基础, 区分中心用户和非中心用户, 并构建用于用户复合类型识别的复杂网络; 从改进初始模块度增量矩阵等方面改进CNM算法, 获得用户类型初始划分; 再利用模糊隶属函数进行用户优化, 最终得到电子商务用户复合类型。【结果】以CONGA算法作为比较基准, 首先采用LFR基准程序生成的网络测试本文算法性能, 计算结果表明本文算法的NMI值较基准算法最高提高了15.60%; 再利用用户真实在线数据进行算法应用, 计算结果表明本文算法的整体聚类系数值较基准算法最高提高了10.87%; 且算法的时间复杂度低于基准算法。【局限】本文算法需要主观设定三个参数。【结论】用户网络符合小世界模型特性, 具有复杂网络的典型形态; 利用本文算法可以有效识别电子商务用户复合类型。

Select

面向高校学生深度辅导领域的主题建模和主题上下位关系识别研究

庞贝贝, 苟娟琼, 穆文歆

数据分析与知识发现. 2018, 2(6): 92-101. https://doi.org/10.11925/infotech.2096-3467.2018.0066

摘要 ( ) PDF全文 ( ) HTML ( )

可视化

【目的】对高校学生深度辅导这一特定领域知识进行建模, 提出一个支持小规模知识获取和建模的框架。【方法】采用LDA模型识别出文档集合所包含的主题及标识主题的词组; 对“文档-主题”矩阵进行概念层次分析, 获取主题之间的上下位关系; 并将建模结果统一编码为本体的形式存入知识库, 以便进行知识检索。【结果】本研究面向深度辅导具体应用, 引入概念层次分析法, 在LDA建模基础上进一步细化主题知识的粒度, 改善了LDA主题建模结果难以表达主题之间关联关系的难题。【局限】未考虑新的深度辅导文档带来的知识库增量更新问题。【结论】本研究框架能够很好地支持深度辅导领域中诸如学生问题、交流方式、引导技巧等多粒度知识的建模与检索。

Select

基于灰色关联分析和时间因素的协同过滤算法

王道平, 蒋中杨, 张博卿

数据分析与知识发现. 2018, 2(6): 102-109. https://doi.org/10.11925/infotech.2096-3467.2018.0017

摘要 ( ) PDF全文 ( ) HTML ( )

可视化

【目的】针对传统协同过滤算法中存在的相似度可分辨性低和未考虑用户兴趣漂移的问题, 本文提出一种基于灰色关联分析和时间因素的协同过滤算法以提高推荐算法的精度。【方法】首先给出基于灰色关联度的用户相似度计算方法, 其次引入时间权重函数改进Pearson相关系数相似度, 并结合两种相似度计算方法形成混合相似度, 据此选取目标用户的近邻并做出推荐, 最后采用MovieLens数据集进行测试。【结果】与传统的协同过滤算法、单独考虑灰色关联分析或时间因素的协同过滤算法相比, 本文算法的平均绝对误差降低了29.8%。【局限】本文算法时间复杂性比较高, 计算混合相似度耗时较长。【结论】混合相似度的提出, 提高了为目标用户推荐物品的准确度, 具有较高的商业化推广前景。

选择文件类型/文献管理软件名称

选择包含的内容

2018年, 第2卷, 第6期　
刊出日期：2018-06-25

模态框（Modal）标题

选择文件类型/文献管理软件名称

选择包含的内容

检索词推荐：

2018年, 第2卷, 第6期 刊出日期：2018-06-25

2018年, 第2卷, 第6期　
刊出日期：2018-06-25