数据分析与知识发现

Select

钟佳娃,刘巍,王思丽,杨恒

数据分析与知识发现. 2021, 5(6): 1-13. https://doi.org/10.11925/infotech.2096-3467.2021.0040

摘要 ( ) PDF全文 ( ) HTML ( )

可视化

【目的】 通过文献调研梳理并综述文本情感分析的技术发展态势及应用场景。【文献范围】 以Web of Science核心数据库和CNKI为检索来源,利用情感分析的相关概念、方法、技术构造检索策略,对2011-2020年文本情感分析方法的研究论文进行计量统计。【方法】 从时间、主题等维度对文本情感分析的主要模型方法和应用场景分别进行归纳、分析和总结,并在此基础上探讨其现状和不足。【结果】 根据分析结果可以看出,面向不同应用场景,主要有基于情感词典与规则、基于传统机器学习和基于深度学习三种文本情感分析方法,各种方法均存在优缺点。同时,近年来基于多策略混合的方法逐渐成为重要的改进方向。【局限】 主要从宏观技术方法的角度对文本情感分析方法及应用进行综述分析,没有对各类情感分析算法的技术细节进行对比和阐述。【结论】 在大数据和深度学习带来的人工智能技术变革背景下,文本情感分析在技术方法上还有改进空间,同时在面向商业决策等应用场景中也有很大的发展潜力。

Select

高性能区块链关键技术研究综述

董振恒,吕学强,任维平,姜阳,李果林

数据分析与知识发现. 2021, 5(6): 14-24. https://doi.org/10.11925/infotech.2096-3467.2020.1210

摘要 ( ) PDF全文 ( ) HTML ( )

可视化

【目的】 对高性能区块链的关键技术进行调研和总结,探讨高性能区块链的研究进展与面临的主要问题、关键技术以及研究趋势与未来发展方向。【文献范围】 以“Consensus Algorithm”、“Smart Contract”、“Blockchain”、“共识算法”、“智能合约”为检索词在Web of Science、谷歌学术、中国知网及其他互联网资源平台检索文献,经过筛选共选择39篇文献进行综述。【方法】 采用文献调研的方法,分别总结共识算法的演进过程、智能合约应用以及实现平台的优缺点。【结果】 本研究有助于了解现阶段实现高性能区块链包含的共识算法以及智能合约方面的关键问题和关键方法。【局限】 共识算法研究发展速度较快,出现的共识算法较多,文中提到的共识算法仅为分类中有代表性的部分算法。智能合约的实现平台也不断涌现,仅针对有代表性的实现平台进行介绍。【结论】 对实现高性能区块链的关键技术——共识算法与智能合约,分别进行归类总结,可为后续高性能区块链的研究提供思路与启发。

Select

多维度社交网络舆情用户群体聚类分析方法研究

王晰巍,贾若男,韦雅楠,张柳

数据分析与知识发现. 2021, 5(6): 25-35. https://doi.org/10.11925/infotech.2096-3467.2020.0077

摘要 ( ) PDF全文 ( ) HTML ( )

可视化

【目的】 通过舆情用户群体聚类为舆情监管部门和社交网络服务提供商定位用户群体特征、实施有针对性的管控措施提供新的视角和思路。【方法】 以群体理论为基础,从用户的影响力特征、情感特征和行为特征出发进行聚类,通过采集新浪微博平台用户数据,利用Canopy、K-Means算法进行聚类,最终通过Neo4j和Weka进行可视化呈现。【结果】 聚类结果表明,同一舆情事件的用户群体在情感、影响力和行为等方面存在差异,不同舆情事件的用户群体在上述方面也会存在相同点。【局限】 两事件均为高校舆情事件,并且仅以新浪微博平台作为数据来源。【结论】 根据聚类结果可针对相同舆情事件和不同舆情事件中的各个用户群体提出对应的管控策略。

Select

基于人才知识图谱推理的强化学习可解释推荐研究

阮小芸,廖健斌,李祥,杨阳,李岱峰

数据分析与知识发现. 2021, 5(6): 36-50. https://doi.org/10.11925/infotech.2096-3467.2020.1218

摘要 ( ) PDF全文 ( ) HTML ( )

可视化

【目的】 为解决现有工作推荐存在的难以大规模应用、冷启动、缺乏新颖性和解释性等问题,提出基于人才知识图谱推理的强化学习可解释推荐方法。【方法】 基于真实的简历数据集构建人才社会经历知识图谱,依据强化学习的理论在知识图谱上训练一个策略智能体,将一次推理过程分解为选择方向、选择节点两个子过程,使其能够在知识图谱上寻找潜在的优质推荐目标。【结果】 相比于LR、BPR、JRL-int、JRL-rep及PGPR模型,基于人才知识图谱推理的强化学习可解释推荐模型在MRR@20（81.7%）、Hit@1（74.8%）、Hit@5（92.2%）以及Hit@10（97.0%）均表现最优。【局限】 实验数据集规模和任务类型相对有限。【结论】 该模型有效结合人才历史工作经历、相似人才工作经历进行推荐,结合知识图谱工作岗位的属性关联,在给出推荐结果的同时,提供推理路径,能够有效应对冷启动和缺乏新颖性、可解释性问题。

Select

基于XGBoost的在线短租市场价格预测及特征分析模型

曹睿,廖彬,李敏,孙瑞娜

数据分析与知识发现. 2021, 5(6): 51-65. https://doi.org/10.11925/infotech.2096-3467.2020.1186

摘要 ( ) PDF全文 ( ) HTML ( )

可视化

【目的】 解决不同特征的房源缺乏合理定价建议的问题。【方法】 基于Airbnb平台真实的营业数据,提出一种基于XGBoost的在线短租市场价格预测及特征分析模型。利用Lasso对原始数据进行特征提取并降维,再将特征提取后的数据作为XGBoost的输入,迭代训练获得最佳的预测模型,最后利用SHAP值对模型特征进行解释。【结果】 实验结果表明,基于XGBoost的在线短租市场价格预测模型在调优超参数后,RMSE、MAE和R-squared分别能够达到0.091、0.065和0.798,优于4种主要的对比模型。【局限】 由于数据源限制,模型训练数据未能与实时在线的业务数据流特征结合,可能导致模型实时适应能力偏弱。【结论】 引入SHAP模型增强模型的可解释性,综合XGBoost与RandomForest的特征重要性排序结果,识别出影响房价的关键因素,为房东改进服务质量并提高收益提供决策参考。

Select

自然灾害期间微博平台的舆情特征及演变——以台风和暴雨数据为例

马莹雪,赵吉昌

数据分析与知识发现. 2021, 5(6): 66-79. https://doi.org/10.11925/infotech.2096-3467.2020.1258

摘要 ( ) PDF全文 ( ) HTML ( )

可视化

【目的】 从舆论热点话题与信息传播模式等视角理解自然灾害期间微博平台的舆情特征与演变模式。【方法】 采用机器学习方法对微博有效数据进行提取,采用深度学习方法对微博文本进行聚类分析,采用复杂网络分析方法对微博信息传播模式进行研究。【结果】 微博分类器准确率达到0.82,有效提取出灾害相关数据;文本聚类结果能较好地体现出舆情热点演变情况;发现信息传播网络的“幂律性”和“时间不变性”,信息传播网络结构稀疏,社团规模稳定扩张但分布模式不变;灾害期间用户之间的交互加强,不同地区用户对信息来源的偏好有所差异。【局限】 缺乏对不同社交平台数据的实验验证和分析比较。【结论】 所提研究方法和结果可以为灾害期间的舆情发现和管理提供一定启发。

Select

中美对“一带一路”沿线技术扩散结构比较研究

高伊林,闵超

数据分析与知识发现. 2021, 5(6): 80-92. https://doi.org/10.11925/infotech.2096-3467.2020.1168

摘要 ( ) PDF全文 ( ) HTML ( )

可视化

【目的】 基于专利视角探索“一带一路”背景下以中、美为代表的科技大国在不同技术领域上国际技术扩散的特征与结构。【方法】 基于PCT国际专利合作与跨国专利申请数据,采用QAP分析从技术、地区层面衡量专利合作、专利布局两种技术扩散渠道的协同度。【结果】 我国在“一带一路”沿线专利部署初显成效,技术扩散形成较好的技术协同度;我国在技术扩散结构、程度上与美国存在一定差距。【局限】 仅比较中、美两国的技术扩散特征,暂未考虑其他国家,暂未分析知识产权贸易等其他类型的技术扩散渠道特征。【结论】 通过中、美技术扩散结构对比和协同性分析,为我国实施“一带一路”倡议提供参考。

Select

基于多层次特征提取的胶囊网络文本分类研究

余本功,朱晓洁,张子薇

数据分析与知识发现. 2021, 5(6): 93-102. https://doi.org/10.11925/infotech.2096-3467.2020.1273

摘要 ( ) PDF全文 ( ) HTML ( )

可视化

【目的】 提高现有浅层文本分类模型特征抽取能力,自底向上分层级地提取文本信息,从而提高文本分类效果。【方法】 本文提出一种基于全局特征和高层次特征获取的文本分类模型（MFE-CapsNet）,该模型利用双向门控循环单元提取上下文信息,并引入权值注意力编码前后隐层向量,从而提高序列模型特征表示质量。结合胶囊网络利用动态路由获得高层次聚合后的局部信息,构建MFE-CapsNet模型,进行文本分类的对比实验。【结果】 MFE-CapsNet模型在三个不同领域的中文数据集上F1值分别达到96.21%、94.17%、94.19%,对比其他分类方法最少分别提升1.28、1.49、0.46个百分点。【局限】 实验仅在三种语料上进行验证。【结论】 MFE-CapsNet模型利用改进的胶囊网络能够更加全面、深层次地挖掘文本语义特征,提高文本分类性能。

Select

基于多层语义融合的图文信息情感分类研究

谢豪,毛进,李纲

数据分析与知识发现. 2021, 5(6): 103-114. https://doi.org/10.11925/infotech.2096-3467.2020.1159

摘要 ( ) PDF全文 ( ) HTML ( )

可视化

【目的】 对海量不同模态的社交媒体数据进行有效的情感分析,更好地了解公众的情感和意见倾向。【方法】 为充分挖掘图文之间的关联性和互补性,提出一种基于多层语义融合的社交媒体图文信息情感分类模型,首先通过文本-图像语义关联模型、图像-文本语义关联模型、多模态语义深度关联融合模型三个子模型挖掘图文之间的双向多层次语义关联,进而使用加权策略对三个子模型的情感分类得分进行决策级融合得到最终情感分类结果。【结果】 在真实图文数据集上的实验结果表明,与最优基线模型相比,所提模型在各项评估指标均能达到最优,其中准确率提高了1.0百分点,F1值提高了1.2百分点。【局限】 实验仅在一个数据集上进行,没有对模型的鲁棒性和可扩展性做进一步验证。【结论】 所提模型在情感分类任务上能够更加充分地挖掘社交媒体图文信息之间的关联性和互补性。

Select

基于词嵌入与扩展词交集的查询扩展

黄名选,蒋曹清,卢守东

数据分析与知识发现. 2021, 5(6): 115-125. https://doi.org/10.11925/infotech.2096-3467.2020.1312

摘要 ( ) PDF全文 ( ) HTML ( )

可视化

【目的】 针对信息检索中词不匹配问题,提出一种词嵌入与扩展词交集融合的查询扩展模型。【方法】 对初检文档集进行词嵌入学习训练和关联规则挖掘,分别得到词嵌入候选扩展词集和挖掘候选扩展词集,将这两种候选扩展词集进行交集融合得到最终扩展词集,实现查询扩展。【结果】 实验结果表明,所提扩展模型检索结果MAP和P@5高于基准检索,与近年同类查询扩展方法比较,其MAP和P@5平均增幅范围分别为0.96%~31.24%和1.07%~13.55%。【局限】 只进行实验性研究,需要继续探讨在实际信息检索系统中的具体应用。【结论】 所提模型能提高扩展词质量,改善检索性能,遏制查询主题漂移和词不匹配问题。

Select

基于BERT-BiGA模型的标题党新闻识别研究

尹鹏博,潘伟民,张海军,陈德刚

数据分析与知识发现. 2021, 5(6): 126-134. https://doi.org/10.11925/infotech.2096-3467.2021.0098

摘要 ( ) PDF全文 ( ) HTML ( )

可视化

【目的】 为了识别网络新闻中的标题党现象,提出一种以中文BERT模型为基础,结合BiGRU和融合注意力机制的标题党新闻检测方法。【方法】 该方法使用中文BERT预训练模型作为文本编码器,通过融合注意力机制提取文本特征,最后使用BiGRU直接对新闻标题和新闻内容进行建模,通过它们之间的语义相关度判定是否为标题党。【结果】 该方法避免使用文本相似度计算方法中复杂的特征工程和误差二次放大等问题,取得了81%的识别准确率。并且开发浏览器插件为新闻读者实现标题党新闻实时检测。【局限】 标题党判别机制只考虑新闻标题和内容,未将阅读数、点赞数和评论等信息纳入计算。【结论】 该方法在召回率指标上取得了4%的提升,可以看出该方法对于标题党新闻的特征更敏感。

Select

一种面向科技文献元数据增量数据规范的多模式匹配算法

董美,常志军,张润杰

数据分析与知识发现. 2021, 5(6): 135-144. https://doi.org/10.11925/infotech.2096-3467.2020.1006

摘要 ( ) PDF全文 ( ) HTML ( )

可视化

【目的】 针对期刊文献元数据日增的小规模数据,设计一种基于Hash的多模式匹配算法,对其机构信息利用大规模的模式集进行规范化。【方法】 使用Hash定位模式串,减少对系统内存的占用;抽取模式串的首个单词/字结合Word跳步匹配,减少匹配次数,加大跳转幅度,从而提升多模式匹配的效率。【结果】 以CSCD机构库182万条数据作为模式集的实验中,该算法与Aho-Corasick（AC）算法对比,能够较为快速地构建模式集对应的字典;在字符集规模约为1万条时,有更优越的时间性能,尤其是英文语料下有9.39%时间性能的提升;与Wu-Manber（WM）算法相比,该算法不受最短模式串限制。【局限】 针对不同的模式集和字符集,需要对算法或数据进行调整;该算法及其拓展的无首词模式,均不适用于模式集较小、字符集较大的场景。【结论】 该算法可以应用于中文、英文、中英混合的文本,在模式集较大（10⁶级）、字符集较小（1万左右）的情况下,有超越经典算法AC算法（0.08%-30.41%）和WM算法时间性能的表现。

选择文件类型/文献管理软件名称

选择包含的内容

2021年, 第5卷, 第6期　
刊出日期：2021-06-25

模态框（Modal）标题

选择文件类型/文献管理软件名称

选择包含的内容

检索词推荐：

2021年, 第5卷, 第6期 刊出日期：2021-06-25

2021年, 第5卷, 第6期　
刊出日期：2021-06-25