期刊首页 当期目录

2018年, 第2卷, 第10期 
刊出日期:2018-10-25
  

  • 全选
    |
    专题
  • 汪勇
    数据分析与知识发现. 2018, 2(10): 1-1.
    摘要 ( ) PDF全文 ( ) HTML ( )   可视化   收藏
  • 王欣, 冯文刚
    数据分析与知识发现. 2018, 2(10): 2-8. https://doi.org/10.11925/infotech.2096-3467.2018.0742
    摘要 ( ) PDF全文 ( ) HTML ( )   可视化   收藏

    【目的】分析并评述当前在网络上监测极端主义思想传播和个体思想激进化的主要技术。【方法】在文献分析的基础上, 对相关技术的解决思路、数据来源、标注方法、算法进行分析归纳。【结果】在社交网络极端主义检测与发现领域, 研究者更多地借鉴心理学和社会学研究成果, 细化检测指标和检测方法, 构造多样化的检测模式。主要技术分为基于词典和基于机器学习两类, 由于基于机器学习的方法具有准确率高、速度快的优势, 因此使用较基于词典的方法更加频繁, 但是如何科学有效地标注训练数据集是研究难点。【结论】该领域的技术应用尚处于初级探索阶段, 需要将更多的量化研究投入到对激进化过程的分析中。检测技术研究者应更多地与社会学和心理学研究者合作, 以开发出更加精细的模型。需要投入更多的研究资源以提高训练数据集的标注速度和准确性。

  • 李勇男
    数据分析与知识发现. 2018, 2(10): 9-14. https://doi.org/10.11925/infotech.2096-3467.2018.0708
    摘要 ( ) PDF全文 ( ) HTML ( )   可视化   收藏

    【目的】根据反恐情报的特点对朴素贝叶斯分类器进行修改, 为反恐情报数据的分类分析提供一种 简单实用的方法。【方法】根据反恐情报的特点删除数据噪声, 对相关性较大的属性进行归约, 对连续属性进行离散化处理; 利用预处理后的样本数据计算不同属性的条件概率; 基于最大后验假设判定数据分类。【结果】采用调高概率阈值的方式对最后的分类结果进一步筛选, 能部分抵消属性相关性对结果的影响, 最后只需对敏感等级较高的数据进行人工情报研判, 节约人力成本。【局限】本文方法对数据属性的独立性有一定的要求, 在实际使用中需要与决策树等其他分类方法组合使用, 才能覆盖更多的情报信息, 为反恐预警提供参考。【结论】该方法适用于对属性相关性较小的基础数据进行快速分类, 为人工情报研判提供参考依据。

  • 肖延辉, 王欣, 冯文刚, 田华伟, 吴绍忠, 李丽华
    数据分析与知识发现. 2018, 2(10): 15-20. https://doi.org/10.11925/infotech.2096-3467.2018.0741
    摘要 ( ) PDF全文 ( ) HTML ( )   可视化   收藏

    【目的】利用犯罪嫌疑人的历史活动轨迹, 预测其可能潜藏的地理位置, 进而对其进行定位、跟踪、监控或抓捕。【方法】提出基于长短记忆型卷积神经网络的犯罪地理位置预测方法: 利用卷积神经网络提取重要犯罪位置特征, 挖掘位置数据在空间维度上的局部相关性; 基于长短记忆型神经网络学习位置特征在时间维度上的连续性, 得到下一个位置的预测。【结果】在真实轨迹数据集GeoLife上进行对比实验, 本文方法将犯罪地理位置预测的精确度从0.71提高到0.79。【局限】实验采用GeoLife真实轨迹数据集进行模拟仿真, 方法的实用性和有效性需要在公安一线实战中进一步检验。【结论】本文方法可以有效挖掘空间相关性和时间连续性, 预测精确度远高于随机预测精确度, 可以为公安情报研判提供有效参考。

  • 刘明辉
    数据分析与知识发现. 2018, 2(10): 21-26. https://doi.org/10.11925/infotech.2096-3467.2018.0768
    摘要 ( ) PDF全文 ( ) HTML ( )   可视化   收藏

    【目的】使用K-means聚类分析方法, 对民航系统遭受的恐怖主义袭击进行定量、客观的评估。【方法】构造K-means聚类方法风险评估模型, 对1992年-2015年发生的民航系统恐怖袭击案件进行分析, 客观地计算出几类袭击方式、袭击目标的风险。【结果】飞机上爆炸、针对机场和工作人员的武装袭击是高风险等级, 飞机上的劫机、针对机场和工作人员的爆炸袭击是中风险等级, 其他形式的袭击方式风险等级相对较低。以此方法对2016年民航系统的恐怖袭击风险进行预测, 准确率达92.3%。【局限】使用K-means聚类分析方法进行风险评估, 仅适用于处理数值变量数据。【结论】该方法的分析计算过程不需要人工干预和打分, 可以根据统计数据对民航系统的恐怖袭击实现风险智能分类分级, 具有可推广性。

  • 冯文刚, 李岩, 李福海, 王欣, 周西平
    数据分析与知识发现. 2018, 2(10): 27-36. https://doi.org/10.11925/infotech.2096-3467.2018.0763
    摘要 ( ) PDF全文 ( ) HTML ( )   可视化   收藏

    【目的】针对民航安保严峻挑战, 进行民航反恐风险评估及对应安保决策研究。【方法】基于民航反恐安保风险评估结果, 构建民航反恐安保风险决策树, 对潜在民航恐怖袭击的概率、威慑效应、替代效应、对策有效性和后果进行决策分析。【结果】基于多种可能的针对民航恐怖袭击威胁及其对策的综合效应分析结果, 实现对多种对策的综合作用结果进行评价。【局限】通过分析已发生的恐怖事件, 较难实现未发生的恐怖事件的验证。【结论】分解民航恐怖袭击的多层次属性, 得出潜在民航恐怖袭击的概率和安保对策, 并实现后果分析。

  • 刘忠轶, 胡晨望, 谭坤, 高岩
    数据分析与知识发现. 2018, 2(10): 37-45. https://doi.org/10.11925/infotech.2096-3467.2018.0769
    摘要 ( ) PDF全文 ( ) HTML ( )   可视化   收藏

    【目的】应用排队论模型, 优化反恐警力配置策略, 提高反恐效率和效果。【方法】M/M/1/∞和M/M/N/∞两类排队模型的基础上, 构建两种反恐警力优化配置模型, 分别求解最优警力配置方案, 通过算例对两种警力优化配置模型进行比较分析。【结果】基于M/M/N/∞排队模型的反恐警力配置模型在反恐警力配置效率和恐怖袭击案件处置效率方面更具优势。【局限】由于实际恐怖袭击案件数据和警力数据获取受限, 未进行实际数据的验证。【结论】应用排队论模型可以实现反恐警力资源的有效配置, 尤其应用M/M/N/∞模型更具优势, 可以有效提高反恐警力配置效率和恐怖袭击案件处置效率。

  • 冯文刚, 黄静
    数据分析与知识发现. 2018, 2(10): 46-53. https://doi.org/10.11925/infotech.2096-3467.2018.0812
    摘要 ( ) PDF全文 ( ) HTML ( )   可视化   收藏

    【目的】基于数据分析进行分级分类安检, 提升机场安全检查的工作效率和用户体验。【方法】针对民航乘客安检最为关注的时效问题, 提出一种特征级的深度学习方法, 基于民航数据库和公安数据库, 构建包括时序特征、空序特征、环境特征三层深度神经网络, 通过训练获得联合表示层——旅客风险因素, 基于此得出旅客安检和航班预警模型。【结果】旅客安检和航班预警模型可以较好地缓解民航安检压力, 提前做好高风险旅客和航班的防范处置准备。【局限】只针对大型机场进行分析, 结论对小型机场是否适用需要进一步验证。【结论】基于深度学习获得的旅客风险因素构建的预警模型可以有效提升机场安全检查的工作效率和用户体验。

  • 研究论文
  • 王婷婷, 王宇, 秦琳杰
    数据分析与知识发现. 2018, 2(10): 54-64. https://doi.org/10.11925/infotech.2096-3467.2018.0196
    摘要 ( ) PDF全文 ( ) HTML ( )   可视化   收藏

    【目的】为解决动态主题模型时间窗口的自主划分问题, 提出基于动态自适应时间窗口划分的DIM模型。【方法】通过传统的LDA主题模型和词向量模型对文本语料进行量化; 构建反映时间窗口间差异性和时间窗口内相似性的综合指标; 基于该指标构建自适应时间窗口划分的DIM模型, 并针对“一带一路”国际合作高峰论 坛的新闻语料进行实证研究。【结果】基于动态自适应时间窗口划分的DIM模型能够迅速、有效地划分时间窗口, 不但保证了不同窗口下主题间的可比性, 还能够对文档的影响因素进行评价。【局限】时间窗相似度综合指标基于传统LDA模型构造, 也可采用LDA族类的其他模型进行改进。【结论】新模型具有自适应划分时序文本的能力, 是对传 统动态主题模型的一种有效改进。

  • 操玮, 李灿, 贺婷婷, 朱卫东
    数据分析与知识发现. 2018, 2(10): 65-76. https://doi.org/10.11925/infotech.2096-3467.2018.0026
    摘要 ( ) PDF全文 ( ) HTML ( )   可视化   收藏

    【目的】结合实际的中国网贷数据, 通过对不同流行集成方法的对比分析, 探索合适中国网贷信用风险监测的集成方法, 从而提高对中国网贷平台信用风险的监测效率。【方法】基于人人贷交易数据, 从借款人的5个方面提取特征信息并运用随机森林算法进行特征筛选, 基于此运用4种集成算法和5种基分类器, 构建信用风险预警模型实现对比分析。【结果】实验结果表明, Rotation Forest的准确度最高为99.32%, 误差率仅为1.71%。而且基于随机森林的特征选择过程能够提高相关模型的性能。【局限】实验数据集有待进一步扩充。【结论】Rotation Forest集成模型与识别风险的重要因素结合, 可以显著提高信用风险预测效率。

  • 黄孝喜, 李晗雨, 王荣波, 王小华, 谌志群
    数据分析与知识发现. 2018, 2(10): 77-83. https://doi.org/10.11925/infotech.2096-3467.2018.0114
    摘要 ( ) PDF全文 ( ) HTML ( )   可视化   收藏

    【目的】针对中英文的隐喻数据集, 提出一种基于卷积神经网络与SVM分类器的隐喻识别方法。【方法】将实验数据向量化, 结合词性特征和关键词特征作为卷积神经网络的输入, 通过卷积层和池化层提取特征, 应用SVM进行分类。针对卷积神经网络的池化层中特征采样的不完全性, 提出将MaxPooling与MeanPooling组合在一起的改进方法。【结果】相对于直接使用卷积神经网络, 利用本文方法进行隐喻识别的准确率在英文动宾语料、英文形容词-名词词组语料和中文隐喻语料分别提高4.12%、0.84%和4.50%。【局限】中文分词不准确, 影响词向量模型训练; 卷积神经网络的层数过少, 影响特征的完整性。【结论】根据中英文数据集上隐喻识别的结果分析, 该方法在两个数据集上都取得了良好效果。

  • 陈云伟, 张瑞红
    数据分析与知识发现. 2018, 2(10): 84-94. https://doi.org/10.11925/infotech.2096-3467.2018.0542
    摘要 ( ) PDF全文 ( ) HTML ( )   可视化   收藏

    【目的】对复杂网络领域典型的社团划分算法进行全面系统的比较, 为情报研究人员开展相关社团划分研究提供参考。【方法】比较几种经典社团划分算法在理论、计算方法上的异同并展示其在小型的经典数据集上的划分结果; 扩大研究数据集, 选取适用数据规模范围较广的Louvain算法、Louvain多级细分算法及SLM算法, 进一步验证其在合作网络与引文网络上的划分效果。【结果】在小型数据上, GN算法与FN算法的划分结果类似, SLM算法的划分效果优于Louvain算法及其多级细分算法。在图书情报领域通常涉及的数以千计的机构合作网络、引文网络而言, 分辨率设定值为0.5左右即可获得较利于解析的社团划分结果, 此时SLM算法获得的社团划分结果与Louvain及其多级细分算法存在相对较大的差异, 后两者的社团划分结果基本相近, 当分辨率设定为1.0时, 二者社团划分结果的差异性逐步显著。【局限】尽管Louvain算法、Louvain多级细分算法及SLM算法仍然适用于大型网络的社团划分, 但本文仅对数千个节点的中型网络开展比较研究, 并未涉及大规模数据网络的划分比较。【结论】Louvain算法、Louvain多级细分算法及SLM算法在时间效率上均优于早期的GN算法与FN算法, 且针对中小型数据集的划分效果也较好。其中, SLM算法在引文网络上的社团划分效果优于Louvain算法及其多级细分算法。

  • 胡家珩, 岑咏华, 吴承尧
    数据分析与知识发现. 2018, 2(10): 95-102. https://doi.org/10.11925/infotech.2096-3467.2018.0169
    摘要 ( ) PDF全文 ( ) HTML ( )   可视化   收藏

    【目的】为特定领域情感分析任务构建一个适用的情感词典。【方法】以金融领域为例, 结合语料库和知识库的特点, 提出一种全新的构建情感词典的方法: 利用词向量方法将文本信息映射到向量空间, 借助已有的通用情感词典, 自动标引训练语料, 按照9:1的比例构建训练集和预测集。使用Python构建深度神经网络分类器, 判断特定领域候选情感词的情感极性, 构成情感词典。【结果】本文构建的神经网络分类器的训练集准确度为95.02%, 预测集准确度为95.00%, 同时证明了利用本文方法所构建的情感词典在金融领域中的表现优于其他已有方法。【局限】抽取种子词的方法需要进一步优化。【结论】本文方法解决了训练神经网络分类器中训练语料不足的问题, 同时解决了词向量的语义相关性无法区分情感信息的问题。在构建面向特定领域情感词典上具有较好的表现, 为该领域其他研究提供参考依据。

  • 徐建民, 许彩云
    数据分析与知识发现. 2018, 2(10): 103-109. https://doi.org/10.11925/infotech.2096-3467.2018.0211
    摘要 ( ) PDF全文 ( ) HTML ( )   可视化   收藏

    【目的】针对仅利用文本信息计算科技文档相似度存在的不足, 提出一种结合文本和公式信息计算科技文档相似度的方法。【方法】将单个公式的特征元素映射为位置向量, 计算得到单个公式的相似度; 计算文档间的公式覆盖度和相似度; 结合文本和公式信息计算得到科技文档相似度。【结果】比较本文方法和传统向量空间方法的分类性能, 结果显示本文方法在宏平均F值上最大可提高6.7%。【局限】没有包含文档公式信息的公开测试集, 自行构建的数据集规模较小。【结论】结合公式信息计算文档相似度, 不仅能有效提高文档相似度计算的准确性, 而且可以实现跨语言文档的相似度计算。