期刊首页 当期目录

2019年, 第3卷, 第11期 
刊出日期:2019-11-25
  

  • 全选
    |
    研究论文
  • 李纲,陈思菁,毛进,谷岩松
    数据分析与知识发现. 2019, 3(11): 1-15. https://doi.org/10.11925/infotech.2096-3467.2019.0249
    摘要 ( ) PDF全文 ( ) HTML ( )   可视化   收藏

    【目的】对受灾地区用户和非受灾地区用户在灾难不同时期的热点话题进行分析, 揭示和比较两类用户在宏观层面和微观层面的话题演化规律。【方法】本文结合地理标签和个人信息描述对受灾地区用户和非受灾地区用户进行自动划分; 提出一种基于主题词共现和社区发现的微博热点话题识别、测度和演化分析框架; 利用冲积图构建热点话题演化图谱; 基于态势感知理论, 比较两类用户在宏观层面和微观层面的热点话题演化规律。【结果】灾难爆发时, 受灾用户主要发布物理环境类话题, 而非受灾用户倾向于情感的表达; 灾难过后, 受灾用户主要发布情感类话题, 而非受灾用户则更倾向发布建设环境和物理环境类话题。【局限】以用户个人信息描述判断其所属地区的方法较粗糙; 话题强度的测量有进一步优化的空间。【结论】受灾用户和非受灾用户在不同时间阶段表现出不同的话题关注倾向, 灾害管理部门可以利用这种差异更高效地从社交媒体数据中识别受灾人群及其需求, 从而及时采取响应措施。

  • 丁良萍,张智雄,刘欢
    数据分析与知识发现. 2019, 3(11): 16-23. https://doi.org/10.11925/infotech.2096-3467.2019.0045
    摘要 ( ) PDF全文 ( ) HTML ( )   可视化   收藏

    【目的】探讨在基于支持向量机(SVM)模型的科技论文摘要自动语步识别过程中, 训练样本的规模、N元词(N-gram)的N取值、停用词以及词频加权方式等特征对识别效果的影响。【方法】从72万余篇科技论文结构化摘要中, 抽取出总计110多万条已标注好的语步为实验数据, 构建SVM模型进行语步识别实验。采用控制变量方法, 基于单一变量原则, 通过改变训练样本量、N-gram的N取值、是否去除停用词、词频加权方式, 对比分析这些特征变化对语步识别效果的影响。【结果】训练样本数量为60万条语步、N元词的N取值为[1,2]、不去除停用词、词频加权方式采用TF-IDF时模型识别效果最好, 为93.50%。【局限】主要以笔者收集的结构化论文摘要为训练和测试语料, 未与其他人的结果比较。【结论】训练样本规模以及一些精细的特征对传统机器学习模型的效果有重要影响, 使用者在实践中需要根据具体情况进行精细的特征选取。

  • 高原,王东,冯宏伟,施元磊,段治州
    数据分析与知识发现. 2019, 3(11): 24-34. https://doi.org/10.11925/infotech.2096-3467.2019.0109
    摘要 ( ) PDF全文 ( ) HTML ( )   可视化   收藏

    【目的】针对交通方式混合模式下城市居民移动产生的GPS时空轨迹数据, 实现城市道路交叉路口的自动识别。【方法】将交叉路口识别转化为一个有监督的分类学习问题。利用GeoHash算法对原始轨迹和轨迹活动区域进行编码和分格; 将编码轨迹与活动区域编码矩阵映射成二值化融合矩阵, 构建交叉路口特征集合; 最后利用带有滑动窗口的K近邻分类算法, 实现城市交通的交叉路口识别。【结果】在真实轨迹数据集GeoLife上的对比实验表明, 经过GeoHash编码转换, 数据集规模平均缩减率达到原有轨迹点数量的39%, 降低了计算的时间复杂度; 同时, 识别精度优于传统的基于转向角度的交叉路口识别方法, 当误差距离为50米时, 综合评价指数的F1-Measure达到0.82。【局限】需要在更多城市真实轨迹数据集上进一步检验该方法的有效性。【结论】本文所提方法不受交通模式变化而产生的GPS轨迹采样频率影响, 能解决混合交通模式数据集上的城市交叉路口自动识别问题, 具有较强的通用性。

  • 王安,顾益军,李坤明,李文政
    数据分析与知识发现. 2019, 3(11): 35-44. https://doi.org/10.11925/infotech.2096-3467.2019.0143
    摘要 ( ) PDF全文 ( ) HTML ( )   可视化   收藏

    【目的】将词节点移除融入TextRank算法, 提升中文文本关键词抽取效果。【方法】提出中文关键词抽取改进算法RemoveRank。通过引入词节点移除的方式, 交替进行排序步骤与移除步骤, 综合考虑词图的复杂网络结构特性, 将移除队列作为词节点排序结果, 实现关键词的抽取。【结果】利用南方周末网络带关键词标注数据集进行实验评估, 实验结果表明, 引入词节点移除的方式优于传统算法, 在关键词抽取数量分别取3, 5, 7时, 其F值相比TextRank方法分别提高4%, 6%, 5%。【局限】构建词图时只考虑词节点是否连通, 尚未考虑词节点连边的权重。【结论】在合适的滑动窗口取值下, RemoveRank算法可以有效地完成关键词抽取工作。

  • 丁浩,李树青
    数据分析与知识发现. 2019, 3(11): 43-51. https://doi.org/10.11925/infotech.2096-3467.2019.0370
    摘要 ( ) PDF全文 ( ) HTML ( )   可视化   收藏

    【目的】构建一种基于用户多类型兴趣波动特征预测的推荐方法以提升推荐效果。【方法】针对每种类型用户评分数据加入时间衰减因子并使用神经网络对数据波动线性拟合, 选择最优参数结果并对比评估方法有效性。【结果】通过5组不同的用户数据进行仿真实验, 结果表明, 本文方法预测结果的MAE和RMSE分别较对比方法最高降低幅度达到47.63%和44.61%。【局限】由于时间波动的分析依赖用户历史数据, 当历史数据量过于稀疏时需采用额外冷启动算法对数据进行预处理。【结论】该方法结合用户对不同商品类型兴趣漂移特征的波动分析和预测, 使推荐结果更准确。

  • 杨磊,王子润,侯贵生
    数据分析与知识发现. 2019, 3(11): 52-59. https://doi.org/10.11925/infotech.2096-3467.2019.0294
    摘要 ( ) PDF全文 ( ) HTML ( )   可视化   收藏

    【目的】信息质量是主题发现的重要影响因素, 通过构建Q-LDA模型进行网络健康社区主题挖掘, 弥补LDA主题模型在网络信息质量方面的不足, 并增强模型的主题表示能力。【方法】研究网络健康信息质量评价体系, 并对网络健康信息进行质量加权, 在LDA主题模型的基础上建立Q-LDA主题挖掘模型, 利用实际数据对模型进行验证。【结果】Q-LDA模型的结果可解释性和主题表达能力优于传统的LDA主题模型, 其主题挖掘效率提高16%, 能够更有效地挖掘网络健康社区信息所隐藏的主题。【局限】只选取网络健康社区内某一种疾病版块的文本数据, 其代表性可能存在不足。【结论】在考虑网络健康信息质量的情况下进行主题挖掘, 其结果能更好地满足网络健康社区用户的需求。

  • 卢新元,王雪霖,代巧锋
    数据分析与知识发现. 2019, 3(11): 60-69. https://doi.org/10.11925/infotech.2096-3467.2019.0339
    摘要 ( ) PDF全文 ( ) HTML ( )   可视化   收藏

    【目的】通过分析众包社区的知识贡献者, 获得知识贡献的不同构型, 从而引导社区成员进行知识共享。【方法】采用基于模糊集的定性比较分析方法, 以竞赛式众包社区中进行知识贡献的社区成员为研究对象, 从 社区环境、动机理论、沉没成本效应三个方面划分条件变量, 将知识贡献程度设为结果变量, 以获得知识贡献的构型。【结果】高程度知识贡献为: (1) 有管理员引导的社区, 可通过圈币奖励与沉没成本(时间或金钱)引导社区成员进行高程度的知识贡献; (2) 已有金钱投入的社区成员, 可通过圈币与计入时长引导其进行高程度的知识贡献。低程度知识贡献为: (1) 在缺乏管理员引导的社区, 社区成员难以获得高程度的知识贡献; (2) 在时间投入与圈币奖励同时存在, 而金钱投入不存在的情况下, 较难获得高程度的知识贡献。【局限】部分变量的校准缺乏 理论依据; 仅研究单一网站, 结果的普适性受到一定限制; 研究采用截面数据, 对于结果的推断会有一定影响。【结论】本研究有利于众包社区对社区成员的知识共享行为进行引导, 以提高社区成员的个人能力, 进而提高 众包任务的质量。

  • 沈洋,庄伟超,吴清华,钱玲飞
    数据分析与知识发现. 2019, 3(11): 70-78. https://doi.org/10.11925/infotech.2096-3467.2019.0422
    摘要 ( ) PDF全文 ( ) HTML ( )   可视化   收藏

    【目的】提高中国监犯风险评估准确性和面向监狱管制的风险可识别性(识别监犯是否具有暴力、自杀等潜在风险)。【方法】提出一种监犯风险评估方法。该方法总结4种监犯风险类型, 应用改进的区间模糊VIKOR算法将模糊性评价转换为监犯特征风险数值, 获得优化的数据集; 利用SVM等多种算法分别训练评估模型, 得到最终组合模型; 并将最终组合模型与现有成熟模型对比。【结果】本文评估模型精确率比现有模型提高8.9%, 召回率提高11.1%, F1提高0.1。【局限】难以对不同类型监犯风险给出普适的建模算法。【结论】本文所提监犯特征风险评估方法提高了监犯风险评估的准确性, 为监犯风险评估提供新的研究方法, 为监狱管理提供新的科学依据。

  • 叶光辉,杨金庆
    数据分析与知识发现. 2019, 3(11): 79-88. https://doi.org/10.11925/infotech.2096-3467.2019.0498
    摘要 ( ) PDF全文 ( ) HTML ( )   可视化   收藏

    【目的】已有线路推荐研究较少考虑地名实体之间的次序, 为此设计了基于城市地名实体双向链接分析的路线推荐方法。【方法】以特定场景下不同地名实体形成的有向加权网络为基础数据源, 循环计算不同轨迹链隶属于各个地名实体对应理想集的链入和链出值, 进而在通过布尔逻辑和位置限定运算符表达用户查询需求的基础之上, 融合模糊检索算法, 实现用户查询与轨迹链的精确匹配。【结果】本文所提算法推荐准确率为0.75, 高于TF-IDF推荐算法和不考虑地名实体次序的推荐算法, 但召回率无优势; 随着加权网络规模的增大, 推荐准确率与召回率呈现出明显的反向关系。【局限】未考虑对象属性数据对推荐结果的影响。【结论】本文方法融合了基于统计分析与语义分析的推荐算法, 可快速生成备选路线及推荐指数。

  • 许鹏程,毕强
    数据分析与知识发现. 2019, 3(11): 89-98. https://doi.org/10.11925/infotech.2096-3467.2019.0532
    摘要 ( ) PDF全文 ( ) HTML ( )   可视化   收藏

    【目的】更加科学规范地对学者影响力进行评估, 从而发现领域专家。【方法】从作者、文献、领域、主题4个维度构建知识超网络模型; 结合超网络的度量方法、文献计量法, 运用LDA主题模型, 借鉴PageRank排序的思路, 提出基于知识超网络的领域专家识别方法。【结果】以图书情报领域为例, 通过实验进行领域专家识别, 并将结果与h指数、p指数、社会网络分析法进行对比, 验证了本文方法的有效性及合理性。【局限】只选取部分期刊的论文数据进行实验, 排序结果与真实的排序可能有差别; 通过LDA主题模型挖掘的领域标签的粒度需要进一步细化。【结论】基于科技文献的知识超网络, 探索学术影响力评价的科学范式, 为领域专家识别提供了新的思路和方法。

  • 卢强,朱振方,徐富永,国强强
    数据分析与知识发现. 2019, 3(11): 99-107. https://doi.org/10.11925/infotech.2096-3467.2019.0412
    摘要 ( ) PDF全文 ( ) HTML ( )   可视化   收藏

    【目的】提出一种融合语法规则的情感分类方法, 提高中文文本情感分类的准确率。【方法】将中文语法规则以约束的形式同Bi-LSTM结合, 通过规范句子相邻位置的输出模拟句子层次中非情感词、情感词、否定词和程度词的语言作用。【结果】相较于前沿的RNN、LSTM、Bi-LSTM模型, 融合中文语法规则的Bi-LSTM模型准确率可达91.2%, 在准确率方面得到较好的提升。【局限】实验数据集来源相对单一, 只选取酒店评论数据集, 在其他数据集上方法的有效性需要进一步验证。【结论】本文提出的情感分类方法融合了中文语法规则, 进 一步提升了情感分类的准确率。

  • 王欣瑞,何跃
    数据分析与知识发现. 2019, 3(11): 108-119. https://doi.org/10.11925/infotech.2096-3467.2019.0061
    摘要 ( ) PDF全文 ( ) HTML ( )   可视化   收藏

    【目的】探究社交媒体用户交互行为的社会网络与股市之间的关系, 检验社会网络属性对股市的预测能 力。【方法】利用新浪财经博客的转载信息, 设置时间快照构建多个网络图; 提取网络属性并与上证指数做相关性分析; 最后将具有相关性的网络属性与上证指数进行格兰杰因果关系检验。【结果】网络密度与上证指数呈现二次项关系, 极值点为3 400; 博主节点的平均点赞数与上证指数呈现正相关性, 相关系数为0.486; 平均点赞数取一阶滞后具有协整关系, 可以作为上证指数的格兰杰因。【局限】由于长文本情感分析和算法优化的问题, 未计算博文的情感且所选取的网络属性均为基本属性。【结论】本文验证了社交媒体用户的交互行为对股市的预测能力, 交互行为的社会网络属性能够提高股市预测的精度。

  • 陈芬,高小欢,彭玥,何源,薛春香
    数据分析与知识发现. 2019, 3(11): 120-128. https://doi.org/10.11925/infotech.2096-3467.2018.1255
    摘要 ( ) PDF全文 ( ) HTML ( )   可视化   收藏

    【目的】融合外部特征与帖文本身的内容, 引入文本倾向性分析表征网民对博主的支持度, 识别网络意见领袖。【方法】构建意见领袖识别模型, 在潜在意见领袖提取的基础上, 引入文本倾向性分析, 通过Word2Vec算法识别网络中的情感新词、提高微博评论情感倾向性分析的准确性, 分别计算博主评论中正面、中立和负面三种情感倾向所占的比例, 去除负面情感占比过重的“伪意见领袖”。【结果】与改进的PageRank算法对比, 本文意见领袖识别模型进一步优化了意见领袖的排序结果, 与原始微博数据更为一致。【局限】研究语料来源于“官员殴打护士”话题, 具有一定的领域局限性。【结论】模型最终识别出三种典型的网络意见领袖, 涵盖突发事件发展的全过程。