数据分析与知识发现

Select

我国内地城市电子政务服务能力分布规律——基于地理区域、政务渠道、政务维度综合视角

司文峰, 胡广伟

数据分析与知识发现. 2018, 2(9): 1-9. https://doi.org/10.11925/infotech.2096-3467.2018.0333

摘要 ( ) PDF全文 ( ) HTML ( )

可视化

【目的】为解决电子政务服务能力分析切入视角单一的局限, 采用综合视角进行全面的分析。【方法】通过应用多维指标体系测评地级以上城市网站及“两微一端”, 分别基于地理区域、政务渠道、政务维度视角进行统计分析与归纳讨论。【结果】揭示了我国内地城市电子政务服务水平偏低、发展不平衡的态势和分布规律; 得出比较影响、互相影响、效果影响显著不同的重要结论; 并归纳出7种不同的电子政务服务阶段。【局限】来源数据非时间序列, 分析样本未扩展至县镇。【结论】基于地理区域、政务渠道、政务维度的综合视角对提升电子政务服务能力提出了整体性提升、平衡性发展、同类性借鉴等建议。

Select

品牌对商品在线销量的影响——基于海量商品评论的在线声誉和品牌知名度的调节作用研究

刘丽娜, 齐佳音, 张镇平, 曾丹

数据分析与知识发现. 2018, 2(9): 10-21. https://doi.org/10.11925/infotech.2096-3467.2018.0164

摘要 ( ) PDF全文 ( ) HTML ( )

可视化

【目的】研究海量商品评论所隐含的商品在线声誉值对于品牌对商品在线销售量影响的调节作用。【方法】以京东商城手机商品的销售为背景, 通过自然语言处理和机器学习等技术, 利用联合分析法, 精准而全面地计算商品的在线声誉值, 并构建模型探究品牌的两个维度(品牌竞争力和品牌来源国(地区))对于商品销量的影响, 以及在线声誉和品牌知名度对上述影响的调节作用。【结果】在电子商务时代, 品牌竞争力依然是影响商品销量的重要因素, 在线声誉对于品牌竞争力对商品销售的影响起到正向调节作用, 而商品知名度则会削弱品牌来源国(地区)对商品销量的影响。【局限】只针对搜索型商品进行相关分析, 而体验型商品并未涉及。【结论】使用本文方法计算出的商品在线声誉加强了品牌竞争力对销售的影响, 可以为电商平台的在线声誉系统提供更加客观而有益的补充, 具有较高的商业化推广前景。

Select

基于F-BiGRU情感分析的产品选择方法

余本功, 张培行, 许庆堂

数据分析与知识发现. 2018, 2(9): 22-30. https://doi.org/10.11925/infotech.2096-3467.2018.0015

摘要 ( ) PDF全文 ( ) HTML ( )

可视化

【目的】为提高产品选择效率, 帮助消费者更好地制定购物决策, 本文在门限递归单元的基础上, 提出一种特征强化双向门限递归单元模型(Feature Bidirectional Gated Recurrent Unit, F-BiGRU)。【方法】首先, 获取相关产品的在线评论信息; 然后对在线评论按照产品属性进行分割; 使用正向情感评论和负向情感评论对F-BiGRU模型进行训练; 最后使用F-BiGRU模型对产品各属性的评论进行情感量化, 得到产品各属性的情感满意程度, 并使用TOPSIS法对候选产品进行排序。【结果】选取汽车口碑文本评论数据进行实证, 对比相关情感分析方法, F-BiGRU方法提高了情感分析的准确度, 更适应在线评论短文本的特点。【局限】深度学习模型需要大规模的数据集, 本文方法在一些小数据集上的表现可能不佳。【结论】基于F-BiGRU情感分析的产品选择方法提高了情感分析的准确度, 能更高效快捷地帮助消费者进行产品选择。

Select

结合卷积神经网络和Topic2Vec的新闻主题演变分析

徐月梅, 吕思凝, 蔡连侨, 张小娅

数据分析与知识发现. 2018, 2(9): 31-41. https://doi.org/10.11925/infotech.2096-3467.2018.0068

摘要 ( ) PDF全文 ( ) HTML ( )

可视化

【目的】通过对网络新闻报道的主题演化研究, 分析新闻主题的内容和情感随时间演变过程, 把握媒体舆论方向。【方法】提出一种基于Topic2Vec的词向量表达方式改进新闻主题的语义空间距离, 并引入卷积神经网络学习主题-特征词矩阵, 实现大量新闻主题的聚类, 从而描绘相同主题的内容强度和情感演变曲线, 判别主题关注事件及关键子主题。【结果】以2015年-2017年美国有线电视新闻网对中国的新闻报道作为实验数据集, 实验结果表明该方法能够发现主题及其情感在全局时间跨度的演化趋势。【局限】时间窗口长度对主题演化的效果和可变时间窗口长度机制未能全面涉及。【结论】本文的新闻主题演变模型使同类主题在语义空间更为接近, 主题分类准确率比对比模型提升约10%, 使得分析新闻主题在全局时间跨度的演化成为可能。

Select

基于知乎问答社区的内容推荐研究——以物流话题为例

何跃, 丰月, 赵书朋, 马玉凤

数据分析与知识发现. 2018, 2(9): 42-49. https://doi.org/10.11925/infotech.2096-3467.2018.0088

摘要 ( ) PDF全文 ( ) HTML ( )

可视化

【目的】通过研究知乎用户的社交行为, 为用户更精准地推荐相关内容。【方法】提出基于关联规则-LDA主题模型内容推荐方法, 通过构建特定话题下的共享子话题网络, 并结合LDA模型提取子话题下的主题词, 最终将相关子话题的内容精确推送给用户。【结果】实证研究发现, 知乎平台的物流话题下存在多个具有高度共现性的子话题, 其置信度均达到65%以上。【局限】收集的数据缺乏全面性, 可能会对推荐结果产生影响。【结论】运用关联规则-LDA主题模型分析, 能够为内容推荐提供新的研究思路。

Select

在线新闻评论生长规律研究

宗红, 薛春香, 陈芬

数据分析与知识发现. 2018, 2(9): 50-58. https://doi.org/10.11925/infotech.2096-3467.2018.0157

摘要 ( ) PDF全文 ( ) HTML ( )

可视化

【目的】通过揭示在线新闻评论生长规律来发现在线新闻的老化规律, 从而挖掘新闻信息的潜在价值。【方法】提出在线新闻评论生长特征的测度指标, 包括生长周期、生长峰值、集中度绝对值、峰值集中指数和生长半衰期, 并利用新浪新闻及其评论数据进行实证研究。【结果】研究发现, 绝大多数在线新闻评论生长周期较短、生长峰值较小, 评论峰值集中出现在靠前位置; 其生长曲线主要有负指数型、平缓型、单峰型和多波段型4种类型; 生长规律受新闻本身的老化特性、新闻发布时间、相关新闻事件或新闻后续事件的发生等因素影响。【局限】缺少其他新闻平台数据的对比研究。【结论】本文多指标测度了在线新闻评论的生长情况, 并发现了4种显著的生长曲线。

Select

一种基于LDA主题模型的政策文本聚类方法研究

张涛, 马海群

数据分析与知识发现. 2018, 2(9): 59-65. https://doi.org/10.11925/infotech.2096-3467.2018.0273

摘要 ( ) PDF全文 ( ) HTML ( )

可视化

【目的】利用LDA主题模型有效提升政策文本聚类精准度。【方法】通过对政策文本模拟数据的预处理、导入政策词表、LDA模型生成基础数据、利用加权算法进行文本计算等步骤对政策文本聚类。【结果】实验数据表明: k=4时, 加权后的政策文本聚类结果G值最大, 与初始人工分类数量吻合, Purity值和F值较高, 因此验证该方法是合理有效的。【局限】实验中每步操作结果的精度都会对政策文本聚类的准确性产生影响。【结论】通过运用该方法的整体性设计, 可对未来新政策的制定及对已有政策的反向评价检验和双向互动生成机制的形成提供借鉴。

Select

共通语义空间下的跨文献类型文本自动分类研究

李湘东, 高凡, 李悠海

数据分析与知识发现. 2018, 2(9): 66-73. https://doi.org/10.11925/infotech.2096-3467.2018.0314

摘要 ( ) PDF全文 ( ) HTML ( )

可视化

【目的】解决不同文献类型文本之间因写作风格和用词习惯不同而产生的语义差异问题。【方法】选取同时出现在两个不同文献类型文本集合中的领域无关特征和只在其中某一个集合中出现的领域相关特征, 利用领域无关特征, 对分属两个集合的领域相关特征构建双向图并进行谱聚类, 关联表达类似语义的领域相关特征, 产生由聚类特征定义的共通语义空间。【结果】实验结果表明, 与传统的文本自动分类方法相比, 本文方法的分类性能提高了3.0%-6.9%。【局限】构建共通语义空间时, 需要大量与待分类文本属于同领域的语料。【结论】共通语义空间能够对不同文献类型的数字资源进行有效整合。

Select

词位置分布加权TextRank的关键词提取

刘竹辰, 陈浩, 于艳华, 李劼

数据分析与知识发现. 2018, 2(9): 74-79. https://doi.org/10.11925/infotech.2096-3467.2018.0271

摘要 ( ) PDF全文 ( ) HTML ( )

可视化

【目的】将词在文档内的词距和位置分布信息融入TextRank模型, 改进单文档关键词提取效果。【方法】基于TextRank方法构建候选关键词词图, 融合一般文档写作结构中词之间的位置分布信息, 计算概率转移矩阵, 通过迭代计算候选关键词得分, 并挑选分值最大的前K个作为关键词提取结果。【结果】实验结果表明, 词位置分布加权的TextRank方法优于传统的TextRank方法。当K分别取3、5、7和10时, F值与最优方法相比分别提升1.29%、2.42%、5.43%和5.88%。【局限】未使用知识库, 外部词汇关系信息没有被充分利用。【结论】词在文章中位置分布信息能够改善关键词提取效果。

Select

基于LDA模型的HSK作文生成

徐艳华, 苗雨洁, 苗琳, 吕学强

数据分析与知识发现. 2018, 2(9): 80-87. https://doi.org/10.11925/infotech.2096-3467.2018.0204

摘要 ( ) PDF全文 ( ) HTML ( )

可视化

【目的】研究HSK5作文自动生成, 为汉语教师写作教学以及汉语学习者备考提供参考。【方法】将“HSK动态作文语料库”作为基本语料库, 基于LDA模型训练语料库, 融合交叉熵选择句子的策略, 生成包含关键词的文本。通过人工评价, 对比待评价文本和参考标准, 对生成文本进行评分。【结果】实验结果表明, 生成的文本内容包含所有关键词, 且与主题相关。【局限】训练文本有一部分是改正后的HSK作文语料, 来自母语为非汉语的外国人的作文, 以致内容连贯性不强、内容不够丰富。【结论】该方法完成了根据关键词写作的任务, 生成的文本可以很好地围绕关键词展开, 并切合主题, 本文提出的融合策略使生成的文本可读性较强。

Select

基于迁移成分分析的多层社交网络链接分类

伍杰华, 沈静, 周蓓

数据分析与知识发现. 2018, 2(9): 88-99. https://doi.org/10.11925/infotech.2096-3467.2018.0342

摘要 ( ) PDF全文 ( ) HTML ( )

可视化

【目的】解决多层次社交网络链接分类算法无法有效获取各层次间子网络的关联信息, 从而提高分类性能的问题。【方法】定义反映各子网络间关联的共性特征和反映各子网络自身属性结构的特性特征, 提出一种基于迁移成分分析的多层次社交网络链接分类算法, 获取反映层次间相互关联特征的组件, 使得不同层次的子网络能够相互学习。【结果】通过在真实多层次数据集YouTube和QueryLog上与基准分类算法、基于特征学习的分类算法和基准迁移分类算法进行比较, 在AUC和ROC曲线的评价指标上有1.57%-33.2%的提升。【局限】未能处理超大规模的网络数据, 同时尚未深入探讨特征定义的维度和性能之间的关系。【结论】本文方法能够有效地将迁移学习思想应用到多层次社交网络链接分类场景, 为该类模型的研究提供一种新的方案。

Select

基于VSM的移动图书馆用户画像及场景推荐

毕达天, 王福, 许鹏程

数据分析与知识发现. 2018, 2(9): 100-108. https://doi.org/10.11925/infotech.2096-3467.2018.0658

摘要 ( ) PDF全文 ( ) HTML ( )

可视化

【目的】为了更加精准地识别不同用户在不同场景的信息接受期望, 采用用户画像的方法挖掘用户信息需求期望、信息搜索习惯和信息接受偏好。【方法】以技术接受模型(TAM)的感知有用性和感知易用性为逻辑起点, 综合运用问卷调查方法、访问日志挖掘方法、出声思考法挖掘用户在不同场景的信息需求期望、信息搜索习惯和信息接受偏好, 运用专家访谈法基于向量空间模型(VSM)构建用户画像模型。【结果】运用协同过滤算法对不同用户进行场景推荐。【局限】实验样本数据量较小, 虽不影响实际推荐效果, 但在一定程度上会影响推荐的精准度。【结论】基于模型对用户在不同场景的信息接受期望进行聚类, 运用Tagul标签云生成工具为5个场景用户画像, 为移动图书馆不同场景有针对性地制订了情境配置方案。

选择文件类型/文献管理软件名称

选择包含的内容

2018年, 第2卷, 第9期　
刊出日期：2018-09-25

模态框（Modal）标题

选择文件类型/文献管理软件名称

选择包含的内容

检索词推荐：

2018年, 第2卷, 第9期 刊出日期：2018-09-25

2018年, 第2卷, 第9期　
刊出日期：2018-09-25