数据分析与知识发现

Select

李蕾, 何大庆, 章成志

数据分析与知识发现. 2018, 2(7): 1-12. https://doi.org/10.11925/infotech.2096-3467.2018.0074

摘要 ( ) PDF全文 ( ) HTML ( )

可视化

【目的】了解社会化问答的发展态势和研究内容。【文献范围】在Google Scholar和CNKI中分别以检索词“Social Q&A”和“社会化问答”进行文献检索, 再结合主题筛选, 精读并使用追溯法获得社会化问答研究的代表性文献共77篇。【方法】对社会化问答的发展历程和早期研究内容进行介绍, 对社会化问答近期的主要研究内容进行归类总结。【结果】目前社会化问答的相关研究主要从问题、答案、用户和平台4个方面展开。【局限】仅将发展历程和研究主题作为探讨核心, 未对每个研究主题进行更加细致的探讨。【结论】基于现有的研究内容反映出的研究问题, 分别从问题、答案、用户、平台、领域以及应用层面, 提出对社会化问答未来研究的建议和展望。

Select

基于Web的众筹研究回顾:融资模式、影响因素和行为模式

王伟, 郭丽环, 王洪伟, KevinZhu, 何翎

数据分析与知识发现. 2018, 2(7): 13-25. https://doi.org/10.11925/infotech.2096-3467.2018.0121

摘要 ( ) PDF全文 ( ) HTML ( )

可视化

【目的】基于Web的众筹模式成为新的融资渠道, 倍受政府和投资者的关注, 但是众筹研究并不广泛。本文针对众筹模式的现状, 探讨众筹模式结构性、趋势性的研究进展。【文献范围】从 Web of Science、CNKI等数据库中分别以“众筹(Crowdfunding, Crowdfinancing, Crowdinvesting)”、“P2P借贷(P2P Lending)”等检索词检索获得中英文相关文献101篇。【方法】通过文献计量学和数据分析方法, 针对众筹相关概念及内涵、模式差异、影响因素与发展趋势进行系统的文献提炼与评析, 分面从众筹平台、项目描述、社会关系、地理位置以及项目质量等方面分析影响众筹项目成功率的因素。【结果】众筹项目融资受多方面因素影响, 尤其不能忽视非质量因素, 项目融资者与投资者呈现显著的行为模式的差异, 投融双方的行为共同决定众筹项目的前景。【局限】众筹模式的研究还并不深入。【结论】众筹模式具有较大的可探索空间, 未来需要结合其他领域的研究对众筹模式进行更加深入的研究, 例如: 心理学、行为学、金融学等。

Select

社交媒体环境下用户信任度评估与传播影响力研究

景东, 张大勇

数据分析与知识发现. 2018, 2(7): 26-33. https://doi.org/10.11925/infotech.2096-3467.2017.1067

摘要 ( ) PDF全文 ( ) HTML ( )

可视化

【目的】通过研究社交媒体用户信任度评估和传播影响力, 发现推动或制约信息传播的关键因素, 为促进社交媒体健康有序发展提供服务。【方法】根据网络信任特点, 提出一种基于直接信任和间接信任的综合评估指标, 该指标综合考虑个体的局部影响力和全局调控能力。【结果】SIR模型评估实验结果表明, 综合评估指标值最大的个体发起的传播能在较短的传播时间内达到最大的范围。【局限】数据来源不够广泛, 可能导致研究偏差。【结论】所构建的综合评估指标能够更为准确地度量网络中每个个体的信任水平。

Select

基于主题时间模型的农村电商扶贫政策演化及地区差异分析

余传明, 郭亚静, 龚雨田, 黄漫宇, 彭虎锋

数据分析与知识发现. 2018, 2(7): 34-45. https://doi.org/10.11925/infotech.2096-3467.2018.0075

摘要 ( ) PDF全文 ( ) HTML ( )

可视化

【目的】揭示农村电商扶贫政策从2008年到2017年的演化规律以及区域差异。【方法】运用主题时间模型, 提取10年间农村电商扶贫政策的时间-主题概率分布以及主题-词汇概率分布, 通过计算不同年份下主题的平均强度并提取每个主题下概率高的前n个词汇, 分析政策内容的演化情况; 将各省数据按照东、中、西部进行划分, 得到各个地域的主题-词汇概率分布, 分析政策的区域差异性。【结果】农村电商扶贫政策经历了起步、探索、发展三个阶段, 东、中、西部地区在物流、平台、人才培养等方面具有不同侧重点。【局限】农村电商扶贫政策的区域差异分析有待细化。【结论】相比传统的词频统计方法, 主题时间模型更为清晰、准确地揭示了政策演化规律与区域差异。

Select

基于随机森林属性约简的众包竞赛参与者识别体系研究

周成, 魏红芹

数据分析与知识发现. 2018, 2(7): 46-54. https://doi.org/10.11925/infotech.2096-3467.2017.1193

摘要 ( ) PDF全文 ( ) HTML ( )

可视化

【目的】解决众包竞赛中参与者识别体系规模较大、识别方法比较单一的问题。【方法】在广泛收集众包竞赛参与者众包能力指标的基础上, 提出递归启发式属性约简方法, 构建新的众包参与者识别体系, 并在此基础上利用随机森林算法构建众包参与者识别模型。【结果】实验结果表明: 所提出的属性约简方法能有效地降低数据维度, 由初始的17个属性降低到8个属性; 同时, 基于约简后的8个属性构建的识别体系和随机森林的众包参与者识别模型具有更高的识别准确率。【局限】识别模型比较简单, 有待进一步扩展; 数据来源于国内众包竞赛网站, 数据真实性有待验证。【结论】将机器学习方法引入到众包竞赛参与者识别中, 丰富了参与者识别的方法, 提高了识别的效率。

Select

高校网络舆情安全中主题分类方法研究——以新浪微博数据为例

贾隆嘉, 张邦佐

数据分析与知识发现. 2018, 2(7): 55-62. https://doi.org/10.11925/infotech.2096-3467.2018.0003

摘要 ( ) PDF全文 ( ) HTML ( )

可视化

【目的】通过一种特征加权方法解决高校新浪微博主题分类研究所面临的高维性和稀疏性问题。【方法】计算特征属于类别的概率,进一步预测文档属于类别的概率,使得特征由基于词的表示转换为基于类别的表示,最终采用支持向量机对转换后的特征矩阵进行分类。【结果】传统tf, tf×idf以及tf×rf三种方法在结合本文提出的方法后,在微平均F1/宏平均F1方面分别提升：7.2%/7.8%,7.5%/7.9%以及6.4%/5.7%。【局限】仅针对主题分类中特征加权方法进行探索,未对主题分类中其他部分展开研究。【结论】在高校网路舆情主题分类中,该方法可以有效地降低特征矩阵维度,同时提升分类能力与分类效率。

Select

基于不确定近邻的旅游产品协同过滤推荐算法研究

赵雅楠, 王育清

数据分析与知识发现. 2018, 2(7): 63-71. https://doi.org/10.11925/infotech.2096-3467.2018.0179

摘要 ( ) PDF全文 ( ) HTML ( )

可视化

【目的】解决传统协同推荐技术在智慧旅游产业运用中的数据稀疏性、冷启动等问题。【方法】结合基于用户和基于内容的协同推荐技术, 对用户进行K-means聚类后动态分类筛选, 为推荐类型分配权重, 提出基于不确定近邻的旅游产品协同过滤推荐算法IUNCF。【结果】基于不同相似性阈值和推荐数目对真实旅游数据进行算法检验, 实验结果表明, IUNCF算法的MAE值和F指标分别达到0.243和0.764, IUNCF可提高旅游产品推荐的准确度和有效性。【局限】IUNCF算法应针对现阶段消费低频性等特点进一步优化, 并扩展运用范围。【结论】IUNCF算法在对用户精准推荐智慧旅游产品领域具有较高价值。

Select

考虑时间动态性和序列模式的个性化推荐算法

李杰, 杨芳, 徐晨曦

数据分析与知识发现. 2018, 2(7): 72-80. https://doi.org/10.11925/infotech.2096-3467.2017.0857

摘要 ( ) PDF全文 ( ) HTML ( )

可视化

【目的】在电子商务个性化推荐中考虑商品销售的时间动态性和序列模式问题, 提高推荐效果。【方法】提出一种改进的个性化推荐算法: 引入时间系数和热门系数, 改进评分相似性函数, 提出新的用户兴趣相似度计算方法; 加入商品序列模式, 给出二项序列模式挖掘算法, 用序列模式对推荐结果进行筛选排序。【结果】利用2004年-2005年亚马逊图书评论数据进行测试, 与基于修正余弦的协同过滤算法相比较, 改进算法的推荐准确率和F值分别提高1.89%和0.73%。【局限】该算法没有考虑用户评价分数高低个人倾向的影响。【结论】改进的相似性函数和通过序列模式对结果进行筛选两个方面均能提高个性化推荐效果。

Select

一种基于Huffman树的FCM聚类算法

肖满生, 周丽娟, 文志诚

数据分析与知识发现. 2018, 2(7): 81-88. https://doi.org/10.11925/infotech.2096-3467.2017.1333

摘要 ( ) PDF全文 ( ) HTML ( )

可视化

【目的】解决传统的FCM算法随机选取初始聚类中心、对噪声敏感、只适合均衡分布的样本聚类问题。【方法】提出一种基于Huffman树的FCM新算法, 该算法设计一种高密度样本的相异度矩阵构建Huffman树并获取初始聚类中心, 进而给出非归一化约束的样本隶属度函数。【结果】通过人造样本及图像数据集、UCI数据集的实验对比结果表明, 算法在聚类精度、运算时间等指标上比基于高斯核FCM算法及传统FCM算法更有优势。【局限】仅凭实验或经验确定样本密度调节因子$\beta $, 尚缺乏理论依据。【结论】本研究在现实生活中对含有大量噪声样本及样本分布非均衡的数据集聚类有一定的实际应用价值。

Select

基于汉字标注的中文历史事件名抽取研究

唐慧慧, 王昊, 张紫玄, 王雪颖

数据分析与知识发现. 2018, 2(7): 89-100. https://doi.org/10.11925/infotech.2096-3467.2018.0057

摘要 ( ) PDF全文 ( ) HTML ( )

可视化

【目的】探讨中文历史事件名识别和抽取的最优模型, 用于历史文本的知识重组和中国历史事件本体的构建。【方法】以魏晋南北朝史书文本为原始语料, 进行自动标引, 运用条件随机场(CRFs)模型, 以单个汉字为标注对象, 探讨不同汉字角色集合、不同特征对历史事件名识别的影响, 寻找最佳模型。【结果】经过实验论证, 得到字素的词性倾向和姓氏特征相累加的最佳历史事件名识别模型, F1值高达98.74%, 该最佳模型在两个开放场景中的应用也得到较好的识别效果。【局限】由于史书文本的语料特性, 本实验的数据量不是特别充足; 未在本实验环境下验证汉字角色标注相较于词角色标注的优越性。【结论】定义恰当的角色和特征集合后, CRFs模型可以有效地识别和抽取历史文本中的历史事件名。

Select

移动图书馆信息接受熵及其仿真研究

毕达天, 王福

数据分析与知识发现. 2018, 2(7): 101-111. https://doi.org/10.11925/infotech.2096-3467.2017.1160

摘要 ( ) PDF全文 ( ) HTML ( )

可视化

【目的】移动图书馆如何快速响应用户所处场景的切换, 并基于用户信息接受期望为其适配情境是移动图书馆服务创新和空间再造亟需解决的问题。【方法】借鉴信息熵、情境熵等理论提出信息接受熵的概念, 并基于熵的能量分布思想, 构建移动图书馆场景化信息接受熵的广义组分分布概率模型。在辽宁、吉林和河南三个地区的高校利用云舟知识服务空间对用户进行创设情境实验, 运用问卷调查、出声思考法和深度访谈相结合的方法收集用户对“场景-行为-情境”适配程度的感知和体验数据。【结果】借助Matlab编写算法, 运用李克特5级量表对用户信息接受的感知和体验进行评分, 计算不同场景的信息接受熵, 并对不同场景的信息接受熵进行仿真模拟, 结果发现适时提前切换场景并增加情境会增强用户的畅体验。【局限】样本数量较少, 虽不影响其实际仿真效果, 但是在一定程度会影响仿真的精度。【结论】通过比较场景切换的多维信息接受熵奇异情况, 实现了信息接受熵在场景形成、切换、交互、耦合过程中的预测作用。

选择文件类型/文献管理软件名称

选择包含的内容

2018年, 第2卷, 第7期　
刊出日期：2018-07-25

模态框（Modal）标题

选择文件类型/文献管理软件名称

选择包含的内容

检索词推荐：

2018年, 第2卷, 第7期 刊出日期：2018-07-25

2018年, 第2卷, 第7期　
刊出日期：2018-07-25