期刊首页 当期目录

2020年, 第4卷, 第1期 
刊出日期:2020-01-25
  

  • 全选
    |
    综述评介
  • 谭荧,张进,夏立新
    数据分析与知识发现. 2020, 4(1): 1-11. https://doi.org/10.11925/infotech.2096-3467.2019.0769
    摘要 ( ) PDF全文 ( ) HTML ( )   可视化   收藏

    【目的】 调研近年来社交媒体情境下的情感分析相关研究,重点介绍情感挖掘的任务和方法。【文献范围】 利用Web of Science核心数据库检索2015年-2019年间,主题为Social Media和Sentiment Analysis的文献,并结合引文分析和浏览的方法补充文献集,共计收集163篇并引用代表性文献91篇。【方法】 针对社交媒体情境下的情感分析研究方向、技术和应用进行内容分析。【结果】 归纳10余种情感分析任务,总结适用于社交媒体平台的情感分析改进方法,并论述了这些情感分析结果的应用领域。【局限】 未深入解析情感分析算法的步骤和过程。【结论】 本文分析了情感分析研究的现有核心技术和改进方向,发现了该领域在社交媒体情境下的不同任务和挑战。

  • 王建冬
    数据分析与知识发现. 2020, 4(1): 12-26. https://doi.org/10.11925/infotech.2096-3467.2019.1380
    摘要 ( ) PDF全文 ( ) HTML ( )   可视化   收藏

    【目的】 对国内外大数据经济监测预测研究现状进行述评。【文献范围】 以“Big Data + Economics/ Economy”、“大数据+经济”等主题词检索WoS、CNKI、EI等数据库,结合主题筛查和引文溯源,获得中文文献163篇、英文文献107篇,以及主题为大数据经济学的中外文专著7部,结合主题相关度和文献质量等因素,确定代表性文献157篇。【方法】 采用文献综述法,对近十余年国内外经济学、信息科学等领域学者研究大数据经济监测预测的研究手段、数据来源、核心观点进行归纳梳理。【结果】 从监测和预测两方面总结7种典型研究路径,前者包括基于大数据改进传统调查、构建新型经济监测指标、“现时预测”(Nowcasting)和经济运行态势分析等4条路径,后者包括构建先行性经济预测指标、改进传统预测模型、建立全新预测模型等3条路径。【局限】 仅对过去十几年间相关领域研究进展进行述评,研究跨度和学科视角有待进一步拓展。【结论】 既要理性看待大数据应用于宏观经济监测预测巨大潜力和现实困境,又要从经济学理论发展史的角度思考大数据与传统经济数据分析的区别与联系,深入思考其方法论内涵与影响。

  • 关鹏,王曰芬
    数据分析与知识发现. 2020, 4(1): 26-39. https://doi.org/10.11925/infotech.2096-3467.2019.1201
    摘要 ( ) PDF全文 ( ) HTML ( )   可视化   收藏

    【目的】 分析国内外专利网络研究进展,梳理研究现状、发现研究问题和研判研究趋势。【文献范围】 分别以“Patent Network”和“专利网络”为主题在Web of Science核心集和CNKI核心期刊库中检索,通过去重、去除不相关文献后,共检索到英文论文465篇,中文论文196篇,分析其中代表性论文106篇。【方法】 首先,利用团渗透重叠社区发现算法对“专利网络”关键词共现网络进行主题挖掘,分析中英文热点研究主题;其次,对热点研究主题下的高被引论文进行述评。【结果】 综合现有研究,专利网络构建方法主要有合作关系、引用关系、技术转移关系、技术相似关系等,主流研究方法有社会网络分析、复杂网络和文本挖掘等。【局限】 仅对热点研究领域的高被引代表性论文进行分析,未能覆盖全部研究主题和文献。【结论】 专利网络研究尚未形成系统性的理论和方法体系,新兴研究方法的应用仍处于探索阶段。专利网络分析需向中观层面深入,网络演化机制、模型和仿真实验研究还需进一步加强。专利网络语义化分析倾向越来越明显;基于多种关系的综合性专利网络构建和分析,获得越来越多的关注,未来有可能成为新兴研究方向。

  • 马捷,葛岩,蒲泓宇
    数据分析与知识发现. 2020, 4(1): 40-50. https://doi.org/10.11925/infotech.2096-3467.2018.1278
    摘要 ( ) PDF全文 ( ) HTML ( )   可视化   收藏

    【目的】 探讨属性约简方法的发展趋势及应用领域,为该领域的系统研究提供借鉴。【文献范围】 在Web of Science和CNKI中分别以检索词“Attribute Reduction”和“属性约简”进行文献检索,再结合主题筛选,精读并使用追溯法获得属性约简研究的代表性文献共142篇。【方法】 介绍属性约简的基本方法,对属性约简方法的主要研究内容进行归类总结。【结果】 属性约简方法的热点研究集中在利用粗糙集、粒计算和形式概念分析等基本方法,其发展趋势与数据的动态性、智能算法之间的相互融合密切相关。【局限】 仅针对属性约简算法之间的融合发展进行简要论述, 未对其进行更深入探讨。【结论】 多种属性约简算法的融合研究是属性约简算法的发展趋势。

  • 研究论文
  • 潘虹,唐莉
    数据分析与知识发现. 2020, 4(1): 51-62. https://doi.org/10.11925/infotech.2096-3467.2019.1227
    摘要 ( ) PDF全文 ( ) HTML ( )   可视化   收藏

    【目的】 在大数据时代,海量非结构化数据大规模兴起,有效运用质性数据分析工具的重要性日益凸显,本文系统综述Nvivo在中国社会科学研究的应用。【文献范围】 以“Nvivo”为主题词在CNKI数据库全文检索,人工核校构建2008-2018年327篇样本文献数据库。【方法】 采用内容分析法对样本文献逐篇编码,分析质性数据分析工具在中国社会科学研究的应用。【结果】 (1)应用主体。近10年来,Nvivo应用主体以高校科研人员为主,跨校间科研合作薄弱。(2)应用过程。方法数据大多以内容分析法分析二手数据与访谈法收集访谈资料为主,Nvivo应用过程包括资料编码、编码检验、编码分析与理论建模四步骤,规范应用四步骤的研究占比远不足一成。(3)应用客体。研究热点聚焦于扎根理论、质性研究与内容分析法,研究前沿从理论层面向应用层面拓展呈现多元化趋势,其中公共管理学、图书情报学、新闻传播学是新兴应用学科。【局限】 Nvivo应用研究在科研合作、步骤规范性、方法多样性、数据多源化等方面有待完善。【结论】 未来质性数据分析工具将凭借其强大的数据编码、理论构建功能成为研究者开展混合研究的重要分析工具。

  • 余传明,李浩男,王曼怡,黄婷婷,安璐
    数据分析与知识发现. 2020, 4(1): 63-75. https://doi.org/10.11925/infotech.2096-3467.2019.0505
    摘要 ( ) PDF全文 ( ) HTML ( )   可视化   收藏

    【目的】 从知识网络视角探究如何更好地表示知识对象的语义关系。【方法】 在已有网络表示学习算法的基础上,借助于集成学习和深度学习思想,提出组合式知识网络表示学习模型(Combined Knowledge Network Representation Learning,CKNRL)。【结果】 在中英文新闻平行语料的知识网络链接预测任务上,CKNRL模型的AUC取值为0.929,高于单一的网络表示算法DeepWalk(0.925)、Node2Vec(0.926)和SDNE(0.899),验证了CKNRL模型的有效性。【局限】 实证研究仅建立在共词网络的基础上,尚未检验CKNRL模型在更多类型的知识网络链接预测中的效果。【结论】 通过建立融合模型能够更好地表示知识对象之间的语义关系。

  • 李旭晖,于滔,李婷,李逸文,顾进广
    数据分析与知识发现. 2020, 4(1): 76-88. https://doi.org/10.11925/infotech.2096-3467.2019.0791
    摘要 ( ) PDF全文 ( ) HTML ( )   可视化   收藏

    【目的】 设计一种面向演化的模式元数据描述机制,以适应各类信息系统应用中数据模式频繁演化的需要。【方法】 在总结已有相关研究的基础上,对概念模式的结构化描述进行形式化定义,结合模式结构对概念模式演化的常见形式进行归纳,确定基于正规模式的易演化模式结构。【结果】 提出一种面向演化的模式元数据描述机制及一种基于图结构的易演化模式元数据(Evolutionary Normal Metadata, ENM)描述模型。【局限】 研究仅是初步尝试,在后续工作中将针对正规概念模式的结构表达式的理论性质做更深入的探讨。【结论】 本文所提正规概念模式描述方法具备较强的概念语义特征描述能力。

  • 马娜,张智雄,吴朋民
    数据分析与知识发现. 2020, 4(1): 89-98. https://doi.org/10.11925/infotech.2096-3467.2019.0869
    摘要 ( ) PDF全文 ( ) HTML ( )   可视化   收藏

    【目的】 设计特征融合和伪标签降噪策略,探索科技论文术语型引用对象自动识别方法。【方法】 将术语型引用对象识别转换为序列标注问题,在BiLSTM-CNN-CRF输入层融合术语型引用对象的语言学和启发式两大类特征,增强引用对象的特征表示,设计伪标签学习降噪机制,采用半监督学习方法探究不同特征组合对识别效果的影响。【结果】 本方法在术语型引用对象识别任务中最优F1值达到0.6018,比BERT模型实验结果提升8%。【局限】 实验数据仅涉及计算机领域,在其他领域的可移植性有待考证。【结论】 基于特征融合的深度学习方法在术语型引用对象的识别中有较好性能,伪标签学习方法解决了引用对象标注数据不足的问题,两者结合有效地探索了术语型引用对象自动化识别方法。

  • 聂卉,何欢
    数据分析与知识发现. 2020, 4(1): 99-110. https://doi.org/10.11925/infotech.2096-3467.2019.0702
    摘要 ( ) PDF全文 ( ) HTML ( )   可视化   收藏

    【目的】 研究基于在线产品评论的隐性特征抽取,帮助用户从评论资讯中获取完整的产品信息与用户评价。【方法】 对两类主流的隐性特征抽取方法,即共现关系推断法和分类法,进行对比分析;构建领域词向量将语义关系引入语句模型,通过增强语句表达能力优化算法;探讨数据集类别样本的均衡性对算法产生的影响。【结果】 实验结果表明,不考虑类别样本量的均衡问题,分类法优于关系推断法,词向量的引入显著增强了语句表达能力,隐性特征识别模型的召回率提升5.91%,F1提升2.48%。若数据集类别样本量均衡,关系推断法表现更优,引入词向量后,最优模型的F1值达0.7503。【局限】 训练词向量的语料规模和均衡语料的规模偏小,有待进一步扩充完善。【结论】 实际应用中,应根据目标数据选择合适的建模方案,均衡数据集下,算法表现更好;词向量对两类方法都有优化作用,对分类法的优化作用更为明显。

  • 余本功,曹雨蒙,陈杨楠,杨颖
    数据分析与知识发现. 2020, 4(1): 111-120. https://doi.org/10.11925/infotech.2096-3467.2019.0790
    摘要 ( ) PDF全文 ( ) HTML ( )   可视化   收藏

    【目的】 解决短文本内容简短而引起的数据稀疏问题,提高短文本分类效果。【方法】 针对短文本数据稀疏的特点,采用多通道文本建模方式,形成融合短文本语义、语序特征和主题特征的文本向量表示作为分类器的输入,采用集成SVM与随机森林的nLD-SVM-RF方法实现短文本分类。【结果】 使用投诉短文本进行验证,相较于仅使用Doc2Vec作为特征的SVM单分类器和RF单分类器,当n=5时,nLD-SVM-RF方法准确率分别提高9.70%、6.25%。【局限】 本文数据为电信投诉文本,数据量较小,没有在大样本数据集上进行验证。【结论】 nLD-SVM-RF算法有助于企业分析短文本信息,辅助决策。

  • 孙海霞,邓盼盼,李姣,沈柳,钱庆
    数据分析与知识发现. 2020, 4(1): 121-130. https://doi.org/10.11925/infotech.2096-3467.2019.0955
    摘要 ( ) PDF全文 ( ) HTML ( )   可视化   收藏

    【目标】 提出面向KOS版本演化的整合概念更新方法,促进多源异构词表整合系统动态发展。【方法】 聚焦术语、同义词集合和优选术语三类知识单元,通过字符串精确匹配识别来源术语和优选术语变更模式;通过概念向量空间识别来源概念同义词集合变更模式;融合规则和相似度更新整合概念同义词集合和优选术语;以STKOS超级科技词表的医学类整合概念集及其重要来源MeSH和HUGO进行实验与准确性评估。【结果】 新增术语更新同义归并准确率达94.96%,变更整合概念优选术语推荐准确率达99.91%。【局限】 概念变更模式识别未考虑术语歧义性;多表同时更新时,变更概念术语归并准确率受词表部数和更新顺序影响。【结论】 本文提出的整合概念自动更新策略可用于来源KOS版本升级引发的同义互操作系统概念升级。

  • 宰新宇,田学东
    数据分析与知识发现. 2020, 4(1): 131-138. https://doi.org/10.11925/infotech.2096-3467.2019.0943
    摘要 ( ) PDF全文 ( ) HTML ( )   可视化   收藏

    【目的】 提出一种公式匹配与文本排序相融合的科技文档检索方法。【方法】 利用公式描述结构对数学表达式进行解析得到公式的结构信息,实现基于数学表达式的科技文档检索;同时,通过词嵌入模型投影得到查询关键字的词向量和文档词向量,根据两种词向量之间的相似度对文档集合进行排序。【结果】 实验结果表明,方法的查全率和查准率分别为0.77和0.63,相较于传统科技文档检索方法分别提高24.2%和23.5%。【局限】 只针对LaTeX格式的查询表达式,在数学表达式描述格式方面有局限性。【结论】 数学表达式与文档关键字相结合的科技文档检索模型提高了科技文档检索的性能。