数据分析与知识发现

2021年, 第5卷, 第1期　刊出日期：2021-01-25

选择:

合并摘要

导出引用管理器
EndNote Reference Manager ProCite BibTeX RefWorks

主编寄语

Select

支持复杂场景下的决策智能——数据分析与知识发现的新挑战

张晓林

数据分析与知识发现. 2021, 5 (1): 1-2.

摘要

HTML ( 86 )

PDF(461KB) ( 736 )

References | Related Articles | Metrics

综述评介

Select

BERT模型的主要优化改进方法研究综述*

刘欢,张智雄,王宇飞

数据分析与知识发现. 2021, 5 (1): 3-15. DOI: 10.11925/infotech.2096-3467.2020.0965

摘要

HTML ( 80 )

PDF(858KB) ( 2204 )

【目的】 对谷歌发布的BERT语言表示模型的主要优化改进方法进行梳理,为后续基于BERT的相关研究开发提供借鉴。【文献范围】 自BERT发布以来,到目前与BERT模型优化改进相关的41篇主要文献及相关模型。【方法】 根据模型优化改进的技术路线,从改进预训练目标、融合外部知识库、改进Transformer结构和预训练模型压缩4个方面,分别阐述优化改进的方式及产生的效果。【结果】 预训练目标优化和Transformer结构改进最早受到研究者关注,并且成为BERT模型优化改进的主要方式,随后预训练模型压缩及外部知识库的融合也成为新的发展方向。【局限】 BERT模型相关研究发展迅速,可能未覆盖一些相关研究工作。【结论】 研究者可重点关注预训练目标优化和Transformer结构改进方面的研究,同时考虑根据不同应用场景选择模型优化方向。

图表 | 参考文献 | 相关文章 | 多维度评价

Select

科学发现偶然性研究综述

于硕,Hayat Dino Bedru,储新倍,袁宇渊,万良田,夏锋

数据分析与知识发现. 2021, 5 (1): 16-35. DOI: 10.11925/infotech.2096-3467.2020.1088

摘要

HTML ( 24 )

PDF(898KB) ( 872 )

【目的】 总结科学发现偶然性的概念、组成、典型支撑技术和应用,分析相关研究面临的挑战和发展方向。【文献范围】 在Microsoft Academic、Google Scholar等平台中对相关关键词（如“serendipity”“novelty”“diversity”等）进行检索,经筛选后共引用102篇文献。【方法】 回顾不同场景下科学研究中的偶然发现,探讨科学发现偶然性的概念,对相关支撑工具以及应用进行分类总结。【结果】 支持偶然发现的工具有助于科学研究;目前偶然发现没有统一定义,如何评估科学发现的偶然性仍具有困难。【局限】 影响科学发现的偶然性因素复杂,已有的研究分析尚不全面。【结论】 科学研究中的偶然发现有助于科学进步,但探索科学发现的偶然性仍面临着缺少度量标准、难于控制等一系列挑战。

图表 | 参考文献 | 相关文章 | 多维度评价

Select

数字人文视域下文化遗产众包研究综述*

赵宇翔,练靖雯

数据分析与知识发现. 2021, 5 (1): 36-55. DOI: 10.11925/infotech.2096-3467.2020.0906

摘要

HTML ( 30 )

PDF(1059KB) ( 499 )

【目的】 系统性回顾数字人文视域下文化遗产众包领域的理论与实践发展。【文献范围】 使用SSCI、SCIE、EI、A&HCI、CPCI-S、CPCI-SSH、Google Scholar、中国知网、万方和维普等数据源以检索式“Cultural Heritage Crowdsourcing”、“Crowdsourcing AND Digital Humanities”、“Cultural Heritage AND Collaboration”、“Cultural Heritage AND User Generated Content”、“GLAM AND Crowdsourcing”、“文化遗产众包”、“数字人文众包”、“馆藏众包”等进行检索,再结合主题筛选,并使用追溯法获得代表性文献共110篇。【方法】 梳理文化遗产众包的内涵和外延,从数据资源、数字技术和平台系统三个关键要素出发深入分析文化遗产众包的理论和实践。【结果】 探索文化遗产众包的概念解析,提出文化遗产众包项目分类,构建文化遗产众包的数据生命周期和数字技术分类体系,以及梳理文化遗产众包平台建设与运作管理的相关研究成果与经验。【局限】 需要进一步提炼面向数字人文研究与实践的文化遗产众包模式的整合框架。【结论】 文化遗产众包是近年来公共文化服务领域在数据采集与分析、信息资源建设以及知识服务创新方面的新模式,是响应数字时代科技与文化深度融合的新举措,也是图书情报与档案管理学科开展数字人文探索的新方向。

图表 | 参考文献 | 相关文章 | 多维度评价

Select

联盟链共识机制研究综述*

冷基栋,吕学强,姜阳,李果林

数据分析与知识发现. 2021, 5 (1): 56-65. DOI: 10.11925/infotech.2096-3467.2020.0981

摘要

HTML ( 12 )

PDF(694KB) ( 851 )

【目的】 分析拜占庭问题的应用,梳理联盟链共识机制的相关研究。【文献范围】 以Consensus Mechanisms和共识机制为检索词,分别检索WoS、ResearchGate、arXiv以及中国知网,人工筛选联盟链共识机制相关的文献,最终选取74篇相关文献。【方法】 梳理区块链共识机制及其分类方法,回顾拜占庭问题在分布式领域的应用,研究强共识的共识机制和授权共识机制。【结果】 总结拜占庭问题、布鲁尔定理、拜占庭系统和拜占庭容错机制的发展过程以及内在联系;提出联盟链共识机制的基本流程和评价标准;基于安全性和时延性将联盟链共识机制分为4类。【局限】 理论上可用于联盟链的共识机制较多,本文未全部展开介绍。【结论】 联盟链共识机制的研究推进了区块链的落地实践,从容错能力、通信时延、转换效率等维度改进共识机制是联盟链共识机制未来的研究方向。

图表 | 参考文献 | 相关文章 | 多维度评价

研究论文

Select

无监督引用文本自动识别与分析*

金贤日,欧石燕

数据分析与知识发现. 2021, 5 (1): 66-77. DOI: 10.11925/infotech.2096-3467.2020.0548

摘要

HTML ( 25 )

PDF(934KB) ( 309 )

【目的】 探索施引文献中引用文本自动识别方法,并比较不同类型引用句在内容上的差别。【方法】 提出一种无监督引用文本识别方法,通过比较候选句与施引文献和被引文献的文本相似度确定隐性引用句。为了精确计算文本相似度,提出向量空间模型与词嵌入模型相结合的两种文档向量模型。【结果】 分别对两篇高被引论文约200篇施引文献中的隐性引用句进行了识别,本文方法的F值均达到92%以上。通过对显性引用句和隐性引用句的内容进行比较,发现两者在引用功能和情感上有明显区别：表达研究背景和技术基础的隐性引用句比例要高于显性引用句,而表达研究基础和研究比较的隐性引用句比例要低于显性引用句;45.3%的显性引用句为正面引用,而78.8%的隐性引用句为中性引用。【局限】 仅对句子层面的引用文本进行识别,在短语层面的引用文本识别还有待于进一步探索。【结论】 在识别引用文本时有必要识别隐性引用句,本文提出的引用文本识别方法性能较高。

图表 | 参考文献 | 相关文章 | 多维度评价

Select

基于SIDR模型的谣言传播与源头检测研究

陈一新,陈馨悦,刘奕,王汉桢,赖拥庆,徐扬

数据分析与知识发现. 2021, 5 (1): 78-89. DOI: 10.11925/infotech.2096-3467.2020.0715

摘要

HTML ( 26 )

PDF(1034KB) ( 457 )

【目的】 探究谣言传播的特征,识别谣言源头,减小谣言造成的危害。【方法】 在传统传染病模型的基础上,加入“辟谣者”状态,以现实中谣言传播特征为参考设置节点状态转化规则,构建基于社交网络中节点交互作用的SIDR谣言传播模型,并基于该模型提出谣言源头检测算法,利用Beam Search搜索算法进行模型优化。在理论建模的基础上,选取典型的真实谣言案例进行验证与分析。【结果】 SIDR模型能够较准确地刻画现实中的谣言传播事件,源头处辟谣能够抑制谣言传播;本文提出的源头检测算法在谣言传播的初期Top5节点的识别准确率达到83%。【局限】 未考虑现实中社交网络的动态变化,选取实例的代表性有限。【结论】 研究结果可为谣言发展趋势的预测和谣言源头的识别提供指导。

图表 | 参考文献 | 相关文章 | 多维度评价

Select

基于多机器学习方法联合的公共卫生风险预测研究——以兰州市流感预测为例*

柴国荣,王斌,沙勇忠

数据分析与知识发现. 2021, 5 (1): 90-98. DOI: 10.11925/infotech.2096-3467.2020.0754

摘要

HTML ( 38 )

PDF(1302KB) ( 376 )

【目的】 探索应用机器学习预测流感这类公共卫生风险的可行性和有效性。【方法】 首先,收集2009-2016年兰州市的流感和气象数据,拆分成2009-2015年和2016年两组,分别作为训练和验证数据;然后,分别基于SARIMA、Kalman Filter和VAR建立三种机器学习预测方法,并设计两种多方法联合预测策略;最后,评估、比较上述方法（策略）的预测性能。【结果】 在设定的全期、爆发期和稳定期三种场景下,SARIMA、VAR和Kalman Filter方法的预测效果分别为最佳（RMSE分别为11.68、19.23和1.60;R ²分别为0.932、0.923和0.956）;多方法联合策略可进一步提升三种场景下的预测效果,其中联合策略Comb_2的表现更好（RMSE分别为10.82、14.68和1.38;R ²分别为0.942、0.934和0.963）。【局限】 相关数据限制,主要考虑了气象一类外部相关因素。【结论】 应用机器学习预测流感等公共卫生风险具有可行性和有效性,且潜力巨大。但目前面临的主要困境是多源数据缺乏,需要从技术、组织和制度层面打破数据壁垒,推动数据共享与开放。

图表 | 参考文献 | 相关文章 | 多维度评价

Select

异质性财经新闻与股市关系研究*

吕华揆,刘政昊,钱宇星,洪旭东

数据分析与知识发现. 2021, 5 (1): 99-111. DOI: 10.11925/infotech.2096-3467.2020.0063

摘要

HTML ( 23 )

PDF(5095KB) ( 366 )

【目的】 对财经新闻进行分类,探讨不同类型财经新闻与股市之间的关系。【方法】 运用Word2Vec+k-Means方法对新闻文本进行聚类,并运用VAR模型从时间维度分析不同类别新闻如何影响股市以及股市的变动如何反作用于新闻。【结果】 不同类别下的新闻情绪效应与信息效应能够显著影响股市成交量、振幅与收益,但对股市影响侧重不同;股市收益率与成交量分别反作用于新闻情感分歧与新闻长度,但依旧受新闻类别的影响。【局限】 从股市整体角度分析股市与新闻之间的关系,而未考虑个股间差异。【结论】 新闻与股市之间存在相互影响机制,且存在时间滞后效应;新闻类别是二者相互影响的关键变量。

图表 | 参考文献 | 相关文章 | 多维度评价

Select

专利合作视角下技术创新合作网络演化分析——以国内语音识别技术领域为例*

关鹏,王曰芬,靳嘉林,傅柱

数据分析与知识发现. 2021, 5 (1): 112-127. DOI: 10.11925/infotech.2096-3467.2020.0337

摘要

HTML ( 23 )

PDF(1755KB) ( 368 )

【目的】 从专利合作视角,对技术创新合作网络的演化特征及作用机理进行分析。【方法】 构建专利合作网络演化分析框架,从网络规模、网络聚类性、组元分析、节点度分布和小世界效应5个维度对网络拓扑结构进行演化分析;从中心性和结构洞两个维度对网络的核心申请人和核心地区进行演化分析;在国内语音识别技术领域进行实证研究,验证演化分析框架的可行性,分析网络演化对技术创新能力和创新机制的作用和影响。【结果】 实证分析验证了演化分析框架的可行性,并获得国内语音识别技术专利合作网络的演化特征、作用机理和管理启示。【局限】 仅对语音识别技术领域进行实证分析,还需进一步扩展技术领域分析范围,以获得普适性规律;还需从微观层面探索网络结构演化对企业创新绩效的影响。【结论】 国内语音识别技术专利合作网络结构从碎片化网络向多中心小世界网络演化,网络核心由高校、科研院所向高校、科研院所和企业三者协同演化,网络机制由随机连接向“富者恒富”的度优先连接演化,网络演化对国内语音识别技术产业的核心创新能力和创新机制的形成产生重要作用和影响。从合作模式和区域发展两方面提出技术创新管理启示。

图表 | 参考文献 | 相关文章 | 多维度评价

Select

基于消费者关注度的汽车销量预测方法研究*

蒋翠清,王香香,王钊

数据分析与知识发现. 2021, 5 (1): 128-139. DOI: 10.11925/infotech.2096-3467.2020.0418

摘要

HTML ( 38 )

PDF(1169KB) ( 988 )

【目的】 基于消费者关注度构建汽车销量预测模型,探究消费者关注度对汽车销量的预测作用。【方法】 首先,提出一种融合口碑评论与搜索数据的消费者关注度量化方法,利用Word2Vec在口碑语料库中训练词向量以挖掘初始关键词,通过时差相关性分析筛选出核心关键词,再运用主成分分析合成消费者关注度。其次,基于消费者关注度构建Attention_LSTM模型,进而预测汽车销量。【结果】 实验表明,引入消费者关注度后的Attention_LSTM模型在RMSE和MAPE指标方面分别降低2.02和0.96%。另外,Attention_ LSTM模型较ARIMA、SVR、BP神经网络和LSTM模型,平均百分比误差分别降低6.52%、3.42%、2.56%和0.81%。【局限】 未融合其他社交媒体数据对消费者在线行为进行更全面的刻画。【结论】 引入消费者关注度的Attention_ LSTM模型能够有效预测汽车销量的动态变化趋势。

图表 | 参考文献 | 相关文章 | 多维度评价

Select

基于几何对象聚类的学术文献图表定位研究

于丰畅,程齐凯,陆伟

数据分析与知识发现. 2021, 5 (1): 140-149. DOI: 10.11925/infotech.2096-3467.2020.0630

摘要

HTML ( 12 )

PDF(2097KB) ( 400 )

【目的】 解决学术文献图表定位中低召回率问题。【方法】 提取学术文献PDF文件中的几何对象,从编码分析和图片理解两种视角获取图表范围的先验信息,使用K-means聚类算法对几何对象进行合并,并用启发式算法重构图表文字内容,以此确定文献中的图表位置。【结果】 在实验数据集上,本文算法定位的准确率为0.915,召回率为0.918,与当前先进的算法准确率相近,且召回率提高0.193,相对提升达到26.6%。【局限】 复杂排版和文档符号的不规范使用,会给算法造成一定误差。聚类K值确定和干扰文字过滤算法尚有提升空间。【结论】 算法不依赖特定的排版方式,充分利用了PDF学术文献的视觉和编码特点,有效地提高学术文献图表定位的召回率。

图表 | 参考文献 | 相关文章 | 多维度评价