期刊首页 当期目录

2020年, 第4卷, 第7期 
刊出日期:2020-07-25
  

  • 全选
    |
    专题
  • 于施洋
    数据分析与知识发现. 2020, 4(7): 1-1.
    摘要 ( ) PDF全文 ( ) HTML ( )   可视化   收藏
  • 王建冬,于施洋
    数据分析与知识发现. 2020, 4(7): 2-17. https://doi.org/10.11925/infotech.2096-3467.2020.0325
    摘要 ( ) PDF全文 ( ) HTML ( )   可视化   收藏

    目的】构建国家经济大脑,运用大数据手段支撑宏观经济监测预测。【应用背景】 国家发展改革委大数据中心正在积极尝试构建形成战略、政策、项目、企业、自然人5类本体构建规则。【方法】坚持均衡与演化路径相统一,引入批判实在论分析视角,整合复杂网络、自然语言理解和时空分析等算法模型,形成宏中微观一体化分析体系。【结果】微观层面,整合打通政府和社会数据,构建动态本体库,实现以企业社会信用代码为主线统一关联全国3 000万家企业和5 000万家个体工商户的78大类、1 828个指标项;中观层面,基于复杂系统突现的三个依赖性,构建仿真分析平台;宏观层面,围绕监测经济动力(投资、消费、贸易)、产业运行和区域发展三方面,提出实践应用较成熟的15种大数据监测指数,构建传统预测与复杂性预测、行为预测和时空预测等新方法相结合的预测平台,强化风险识别。【结论】构建微观动态本体、中观仿真分析和宏观监测预测的统一框架,能够有效解决宏微观经济学脱节的理论困境,提升宏观决策科学性。

  • 陈东,王建冬,李慧颖,蔡思航,黄倩倩,易成岐,曹攀
    数据分析与知识发现. 2020, 4(7): 18-27. https://doi.org/10.11925/infotech.2096-3467.2020.0323
    摘要 ( ) PDF全文 ( ) HTML ( )   可视化   收藏

    目的】为强化畜禽业生产决策和政策引导的科学性、前瞻性,有效预测多变量影响下的禽肉市场变化趋势。【方法】以白条鸡为例,综合考虑多重因素对白条鸡交易量的影响,提取50个可能与白条鸡交易量预测有关的变量作为数据特征,对比当前主流的机器学习算法,探索性地提出一种基于机器学习的白条鸡日均交易量预测方法,对禽肉产品供需能力进行量化预测。【结果】ElasticNet、RandomForest和GBRT三个算法预测效果均较为稳定,预测效果从优至劣依次为:GBRT、RandomForest、ElasticNet(MAE分别为:25.30、26.67、28.21);随着时间积累和训练样本数量增加,白条鸡日均交易量预测效果逐步提高;三种算法均具备提前三期的稳定预测效果。【局限】 本文采用的数据特征种类和历史数据量较少,且对行业的专业认识较浅。【结论】本研究对于量化评估、预测重大突发事件对产业产值的影响具有借鉴意义,有望为政府部门预判产业危机、制定产业调控政策提供理论数据支撑。

  • 邱尔丽,何鸿魏,易成岐,李慧颖
    数据分析与知识发现. 2020, 4(7): 28-37. https://doi.org/10.11925/infotech.2096-3467.2020.0324
    摘要 ( ) PDF全文 ( ) HTML ( )   可视化   收藏

    目的】提出更适用公共政策评价的网民情感分类指标,引入深度学习技术研究网民立场的自动化识别和支持度研判问题。【方法】选取三个不同领域不同类型的重要公共政策作为研究对象,对微博数据进行采集、清洗和标注;运用立场分析方法研判三个政策的网民支持度;构建基于字符级卷积神经网络(CNN)技术的文本分类模型对实验数据集进行训练,并对实验结果进行对比检验解读。【结果】该模型在三组数据测试集的综合评价指标上均取得优秀表现,当模型稳定后有两组数据集F1值在0.8以上,一组数据集F1值在0.6以上;且耗时较循环神经网络(RNN)模型更短,训练时间差距达数十倍。【局限】 数据样本量和政策覆盖类型有限,网民支持度计算方法有待进一步深化。【结论】立场分类方法和字符级CNN技术在公共政策评价的效度和效率上有较好表现,尤其在应急突发性政策评价方面能够发挥明显作用。

  • 聂磊,傅娟,易成岐,杨道玲
    数据分析与知识发现. 2020, 4(7): 38-49. https://doi.org/10.11925/infotech.2096-3467.2020.0322
    摘要 ( ) PDF全文 ( ) HTML ( )   可视化   收藏

    目的】为更加及时、有效地量化测算突发公共事件后企业线下复工水平,提供可量化的数据结果支撑相关政策制定和落地实施。【方法】采用人工与自动化相结合的POI围栏圈定策略,获取931个样本区域内移动终端数量;基于企业生产经营范围内的移动终端位置数量测算复工水平;结合事实和相关数据对测算结果进行验证。【结果】2020年春节假期结束后初期,全国样本企业平均复工水平约为2019年同期的三成;截止到2020年2月底,样本企业已有约半数员工线下返回工作岗位。【局限】 实验样本数量相对较少,且数据分析维度有限。【结论】本研究所提方法符合突发公共事件后对复工水平动态监测的需要,测算结果有效性得到初步验证。

  • 研究论文
  • 沈志宏,赵子豪,王海波
    数据分析与知识发现. 2020, 4(7): 50-65. https://doi.org/10.11925/infotech.2096-3467.2020.0452
    摘要 ( ) PDF全文 ( ) HTML ( )   可视化   收藏

    目的】传统的以SQL为中心的技术栈无法有效地应对大数据场景带来的多元异构数据管理、大规模关系网络管理和复杂网络分析等挑战,本文针对新型大数据技术栈展开研究。【方法】通过分析图数据模型的优势,结合图技术的发展和应用现状,提出以图为中心的新型大数据技术栈,并介绍了智能融合数据管理系统PandaDB。【结果】该技术栈在生物数据网络、科技知识图谱等实际应用中得到较好的验证,PandaDB具备良好的结构化、非结构化数据融合管理能力。【局限】 该技术栈的大面积推广还存在支撑工具不足、应用生态不够成熟等困难。【结论】以图为中心的新型大数据技术栈会在更多的大数据应用场景中发挥更大的价值。

  • 唐晓波,高和璇
    数据分析与知识发现. 2020, 4(7): 66-75. https://doi.org/10.11925/infotech.2096-3467.2019.1299
    摘要 ( ) PDF全文 ( ) HTML ( )   可视化   收藏

    目的】基于医疗问答社区中的健康问句数据,提出基于关键词词向量特征扩展的健康问句分类模型,提升健康问句的分类效率,帮助医疗问答社区提高患者使用满意度。【方法】分别使用TF-IDF和LDA提取关键词,使用Word2Vec对关键词进行词向量特征扩展,并将其应用于医疗问答社区中的健康问句分类。【结果】本模型可以有效地提升健康问句分类的效果。当关键词提取方式为TF-IDF、训练词向量的语料库为问答全集语料库、保留词典中词语数为600、语言模型为CBOW时,准确率、召回率、F值分别为0.987 2、0.972 5、0.979 8,分类效果最优。【局限】 未在语义层面深度提取医学短文本关键词。【结论】基于关键词词向量特征扩展的健康问句分类模型在健康问句分类方面与现有分类方法相比具有更好的分类效果。

  • 夏天
    数据分析与知识发现. 2020, 4(7): 76-86. https://doi.org/10.11925/infotech.2096-3467.2020.0071
    摘要 ( ) PDF全文 ( ) HTML ( )   可视化   收藏

    目的】自动抽取中文学术文本中的关键短语,为学术文本挖掘提供短语级别的概念表达。【方法】引入内部凝聚度和边界自由度两个指标,分别度量短语内部的紧密程度和短语边界的自由组配能力,实现中文双词短语的权威度计算,并与位置加权关键词抽取结果进行融合排序,在此基础上选取TopN个元素生成关键短语。【结果】在构建的中文学术论文数据集上,关键短语抽取算法PhraseRank在准确率、召回率和考虑排序位置的R-MAP评价指标方面,均大幅度优于传统的关键词抽取算法WordRank,其中,R-MAP值相对提升超过了128%。【局限】 未识别三个及以上词语构成的关键短语。【结论】相比于关键词,PhraseRank抽取得到的关键短语,与人工标记结果的一致性更高,更能体现中文学术文本的概念表达特点。

  • 翁梦娟,姚长青,韩红旗,王莉军,冉亚鑫
    数据分析与知识发现. 2020, 4(7): 87-95. https://doi.org/10.11925/infotech.2096-3467.2020.0137
    摘要 ( ) PDF全文 ( ) HTML ( )   可视化   收藏

    目的】提高类间分布不均匀数据下中图分类标引的精度。【方法】提出一种使用卷积神经网络(CNN)作为融合分类器的分类方法,相比于其他Stacking融合方法,本方法将各基模型的分类标签概率分布信息堆叠后作为CNN输入,无须人工设置基模型权重。【结果】实验以中图分类法G4下三级类目为例,结果显示,本方法对不均衡中图类目的平均标引准确率达60%,相比于基线模型,本方法的分类精度有19%的绝对提升。【局限】 在方法设计上依赖卷积神经网络中卷积核的设计,只能通过实验确定效果最佳的网络结构;融合阶段训练分类器的复杂度会随着类目数量和基模型数量的增加而增加。【结论】本方法可有效提高不均衡数据集下的标引精度,可与层级分类策略结合使用,实现中图全类目的自动化分类标引。

  • 王鑫芸,王昊,邓三鸿,张宝隆
    数据分析与知识发现. 2020, 4(7): 96-109. https://doi.org/10.11925/infotech.2096-3467.2020.0232
    摘要 ( ) PDF全文 ( ) HTML ( )   可视化   收藏

    目的】根据某一学科期刊的收录内容进行层次体系构建,进而在投稿时依据文章内容与期刊的相似程度给出投稿指导意见的方法。【方法】以图书馆学、情报学学科为例,采用层次聚类构建两层体系结构,分别利用SVM、CNN、RNN三种分类方法进行实验,对比其在不同特征组合下的实验效果,选择最合适的分类算法。为了优化分类准确程度,尝试将内容接近的期刊进行组合。【结果】当实验的特征组合更为丰富且更能反映文献的核心内容时,准确率最高可达81.84%。【局限】 在进行层次结构体系构建时,选取的实验数据量较小,存在一定的局限性。【结论】在实验数据充足的条件下,深度学习算法比机器学习算法呈现出更明显的分类优势。将内容接近的期刊进行组合后,分类效果可以得到显著提升。

  • 徐红霞,于倩倩,钱力
    数据分析与知识发现. 2020, 4(7): 110-117. https://doi.org/10.11925/infotech.2096-3467.2018.1362
    摘要 ( ) PDF全文 ( ) HTML ( )   可视化   收藏

    目的】研究面向开放网络社区话题交互数据的对抗性观点挖掘方法。【方法】构建基于情感分析和主题模型的观点情感对抗性挖掘模型。通过该模型,考虑知乎社区、话题、交互数据等特征,加入交互数据筛选和关键词筛选,以知乎AlphaGo话题为例进行实证研究。【结果】本文方法可有效挖掘观点及其情感对抗性。研究发现在AlphaGo话题讨论中,“挺AlphaGo”和“反AlphaGo”的对抗性显著。“挺AlphaGo”的主要表现有人类智慧、比赛、能力,“反AlphaGo”的主要表现有AI产品及其产品、理解能力。【局限】 仅针对AlphaGo主题进行实证分析,在模型泛化性验证上有待提高。【结论】本文方法具有可操作性和可解释性,可挖掘交互数据潜在的对抗性信息,从而使观点挖掘的结果更具针对性,为情报分析、观点挖掘提供借鉴。

  • 徐以聪,田学东,李新福,杨芳,史青宣
    数据分析与知识发现. 2020, 4(7): 118-126. https://doi.org/10.11925/infotech.2096-3467.2019.1294
    摘要 ( ) PDF全文 ( ) HTML ( )   可视化   收藏

    目的】从大量数学表达式中检索出与查询表达式相似的表达式,并对检索结果排序。【方法】提取单个数学表达式的特征子式,利用犹豫模糊集理论计算每个特征子式的权重值;将属于同一表达式的子式权重值进行累加,计算表达式间的相似度得分,按照分数从高到低的顺序排列检索结果。【结果】从时间和相似度的角度进行分析,本文方法检索效率较高,检索结果较准确,本文排序方法的NDCG值最高为0.88,表明该排序方法较合理。【局限】 本文排序方法并非完全面向数学表达式语义检索。【结论】引入犹豫模糊集计算子式权重能够更准确地检索出具有相同结构特征的数学表达式。