数据分析与知识发现

Select

王丽, 刘细文

数据分析与知识发现. 2022, 6(6): 1-10. https://doi.org/10.11925/infotech.2096-3467.2021.0915

摘要 ( ) PDF全文 ( ) HTML ( )

可视化

【目的】 基于专利数据对技术主题扩散进行量化研究,为提前发现或预判技术扩散提供线索。【方法】 以技术主题为研究单元,基于专利引用关系构建技术扩散关系;融合技术扩散的强度、速度、广度等三个维度构建技术扩散综合测度指标;在此基础上,实现技术主题扩散量化测度模型。【结果】 从石墨烯领域100个技术主题的扩散分析来看,模型可以快速遴选综合扩散度高的技术主题,如多种石墨烯制备方法、“石墨烯用于晶体管”等;模型的生成结果还包括扩散的具体方向,如“石墨烯用于散热”主题向“腔壳设备”等主题强力扩散,向“含锂复合氧化物”等主题快速扩散。【局限】 对三个维度的技术扩散测度指标进行了线性归一化,未深入研究各指标权重。未来可以根据情报应用目的优化各指标的权重值,提升综合测度指标的鲁棒性。【结论】 综合测度优化了单一扩散指标测度的不均衡性,技术主题扩散测度模型可以快速生成有效的情报信息。

Select

信息框架对健康行为意愿改变的作用研究——眼动实验与启示

韩文婷, 韩玺, 朱庆华

数据分析与知识发现. 2022, 6(6): 11-21. https://doi.org/10.11925/infotech.2096-3467.2021.1128

摘要 ( ) PDF全文 ( ) HTML ( )

可视化

【目的】 探究收益-损失框架和时间框架对前意向阶段个体健康行为意愿改变的作用,寻找有效引导个体健康行为意愿改变的健康信息类型。【方法】 基于信息框架设计4类健康信息,利用眼动实验记录被试阅读健康信息的眼动数据并采取方差分析的方法进行分析;结合后续半结构化访谈探究信息框架与健康行为意愿改变间的作用机制及前意向阶段个体的个性化信息需求。【结果】 损失框架信息比获得框架信息更能引起被试关注（总注视时长：49.456>32.633,P=0.045;平均注视时长：0.314>0.223,P=0.003）。短期和长期框架信息之间无明显差异（总注视时长：P=0.524;注视次数：P=0.291;平均注视时长：P=0.240）。健康信息通过增强感知风险、感知收益及自我效能影响健康行为意愿。此外,通过访谈数据总结了前意向阶段个体在健康行为改变过程中所需的6类健康信息。【局限】 被试结构单一,数量有限,眼动实验仅测试了两种框架信息的作用。【结论】 研究结论可为后续针对前意向阶段个体的个性化健康信息干预提供参考。

Select

基于方面词的用户消费心理画像方法

肖寒琼, 张馨遇, 肖宇晗, 林慧苹

数据分析与知识发现. 2022, 6(6): 22-31. https://doi.org/10.11925/infotech.2096-3467.2021.1261

摘要 ( ) PDF全文 ( ) HTML ( )

可视化

【目的】 针对用户消费心理画像方法较少的问题,以三层次体验理论为依据,从用户评论中挖掘用户的消费心理和消费偏好。【方法】 建立体验层次-产品特征-方面词之间的映射关系,然后利用方面词提取技术,从用户评论中挖掘用户对不同体验层次的关注度,将用户分为本能偏好、行为偏好、反思偏好三种类型,最后使用基于深度学习的方面词情感分析技术计算得到用户对于产品的喜爱度,进一步分析不同类型用户的特点。【结果】 基于90余万条京东手机评论数据进行应用分析,获得三类消费偏好用户群,其中本能偏好用户占比41.60%,高于行为偏好用户（占比33.01%）和反思偏好用户（占比25.39%）,还从手机品牌以及价位等方面分析了三类用户的消费特点。【局限】 实验仅以京东手机评论数据集为例,未来可使用多种产品、多个平台的评论数据集,以获得更丰富完善的用户画像与消费偏好。【结论】 本文的用户画像方法可以较好地表达不同类型用户的消费偏好。

Select

弹幕视频的情感时间曲线聚类与传播效果

张腾, 倪渊, 莫同, 吕学强

数据分析与知识发现. 2022, 6(6): 32-45. https://doi.org/10.11925/infotech.2096-3467.2021.0793

摘要 ( ) PDF全文 ( ) HTML ( )

可视化

【目的】 构建面向弹幕文本的情感曲线聚类模型,为视频传播效果预测提供新的决策方式。【方法】 提出词向量扩充领域情感词典,优化情感分类器性能;采用综合权重等手段使情感时序平稳平滑;提出SBD度量K-shape聚类模型,分析情感时序模式、特征及传播效果。【结果】 优化情感词典模型在多分类指标（主客观、极性分类）上F1值分别达到0.89和0.79,主客观分类器性能提升123%。对比多种时序度量聚类算法组合,SBD度量K-shape聚类模型在戴维森堡丁指数和轮廓系数指标上均性能更优。【局限】 情感词典算法未完全考虑网络流行语或不含中心形容词的句子情形,情感时序聚类结果描述、解释程度需要进一步加深。【结论】 基于领域情感词典-SBD-Kshape算法可以削弱弹幕文本非规整噪声及时序相位偏移的影响,聚类结果可作为识别传播效果差异的依据。

Select

结合GNN、Bi-GRU及注意力机制的会话序列推荐

张若琦, 申建芳, 陈平华

数据分析与知识发现. 2022, 6(6): 46-54. https://doi.org/10.11925/infotech.2096-3467.2021.1105

摘要 ( ) PDF全文 ( ) HTML ( )

可视化

【目的】 解决传统会话序列推荐仅使用一次建模难以兼顾商品全面信息表达和序列中用户全局/短期兴趣捕获的问题。【方法】 将历史会话构建有向会话图,利用图神经网络学习有向会话图中的节点信息表达,丰富节点嵌入。使用双向门控循环神经网络和注意力机制捕获会话序列中用户的全局和短期兴趣,以生成推荐列表。【结果】 与次优模型SRGNN相比,在Yoochoose数据集上平均排序倒数提升1.02%,在Diginetica数据集上精确度提升2.11%。【局限】 本文模型在处理长序列时结果较差。【结论】 本文模型能够更好地建模用户行为序列,有效预测用户可能行为,提高推荐效率。

Select

基于用户-评论-商户关系的虚假用户识别研究：用户偏差分析的视角

孟园, 王悦

数据分析与知识发现. 2022, 6(6): 55-70. https://doi.org/10.11925/infotech.2096-3467.2021.1259

摘要 ( ) PDF全文 ( ) HTML ( )

可视化

【目的】 以用户-评论-商户虚假度增强关系为基础,提出一种基于用户偏差的虚假度迭代修正模型（URS-FDIRM）,以有效识别虚假用户。【方法】 分别采用均值法、JS散度和KL散度三种方法测度用户内容偏差和用户行为偏差,基于马蜂窝平台的实验数据构建URS-FDIRM模型识别虚假用户。【结果】 三种方法均能有效测度用户的内容偏差和行为偏差,其中,采用均值法的URS-FDIRM模型对虚假用户识别效果最佳,F1值达92.57%。【局限】 该方法主要结合常规偏差度量方法提取用户偏差指标,未探索包括更多用户行为特征的偏差度量方法,一定程度影响了虚假用户识别效果。【结论】 考虑用户-评论之间的内容偏差和商户-用户之间的行为偏差,能捕获更多的用户虚假度线索,揭示用户-评论-商户三者虚假度的相互关系,为异常用户行为监测提供参考。

Select

SSVAE：一种补充语义信息的深度变分文本聚类模型

薛菁菁, 秦永彬, 黄瑞章, 任丽娜, 陈艳平

数据分析与知识发现. 2022, 6(6): 71-83. https://doi.org/10.11925/infotech.2096-3467.2021.1212

摘要 ( ) PDF全文 ( ) HTML ( )

可视化

【目的】 解决现有深度变分推断算法进行文本聚类时面临的语义缺失问题。【方法】 基于现有的深度变分推断算法,设计一种补充语义信息的深度文本聚类模型（SSVAE）,可以将文本语义信息补充到聚类过程中。【结果】 实验结果表明,SSVAE在文本聚类过程中有效地补充了文本缺失的语义信息,与现有效果最好的深度变分推断模型以及主流的深度聚类模型相比,SSVAE的NMI指标在BBC,Reuters-1500,Abstract,Reuters-10k,20news-l这5个真实文本数据集上分别提升8.92、7.43、8.73、4.80和6.14个百分点。【局限】 SSVAE在补充语义的过程中,除了补充了缺失的语义,有时也不可避免地引入一些噪声,这会造成聚类效果的微小偏差。【结论】 补充语义信息的深度变分文本聚类模型SSVAE能够对文本进行更有效的聚类划分,提高聚类准确性。

Select

融合注意力机制与句向量压缩的长文本分类模型

叶瀚,孙海春,李欣,焦凯楠

数据分析与知识发现. 2022, 6(6): 84-94. https://doi.org/10.11925/infotech.2096-3467.2021.1216

摘要 ( ) PDF全文 ( ) HTML ( )

可视化

【目的】 针对预训练语言模型输入长度限制的缺点进行优化,提高长文本分类的准确度。【方法】 设计依据自然文本中存在的标点符号进行分句并按次序输入预训练语言模型的分类模型;提出句向量平均池化法与注意力机制加权法对分类特征向量进行压缩编码,并在多个预训练语言模型上进行实验。【结果】 相比于直接截断文本内容,使用句向量压缩的模型准确率最多提升了3.74个百分点。在两种数据集上,融合注意力机制模型的F1-score相比基线模型分别平均提升1.61%和0.83%。【局限】 在部分预训练语言模型上提升效果不显著。【结论】 在不改变预训练语言模型架构时,结合分句内容信息的文本分类模型在不同预训练语言模型上能够有效提升分类效果。

Select

基于主题聚类的新媒体政务互动内容摘要生成研究

胡吉明, 郑翔

数据分析与知识发现. 2022, 6(6): 95-104. https://doi.org/10.11925/infotech.2096-3467.2021.0916

摘要 ( ) PDF全文 ( ) HTML ( )

可视化

【目的】 基于主题聚类生成新媒体政务互动内容舆情摘要,保障政府部门对舆情事件的及时准确把控。【方法】 从互动内容文本特征分析入手,通过Top2Vec主题聚类、TextRank抽取式摘要生成和Transformer-Copy生成式摘要生成,多角度呈现新媒体政务互动内容的摘要内涵。【结果】 模型的ROUGE-1、ROUGE-2和ROUGE-L值分别达到22.05%、6.93%和20.96%,对比发现其效果优于Seq2Seq和Seq2Seq-Attention模型。【局限】 仅获取了10部法律法规草案的微博政务互动内容,未在更广泛的新媒体政务互动内容中验证本文方法。【结论】 本文方法能够揭示事件主题类别和舆情摘要,具备一定的领域适应性和应用优势。

Select

基于医学领域知识和远程监督的医学实体关系抽取研究

景慎旗, 赵又霖

数据分析与知识发现. 2022, 6(6): 105-114. https://doi.org/10.11925/infotech.2096-3467.2021.1238

摘要 ( ) PDF全文 ( ) HTML ( )

可视化

【目的】 针对当前传统医学关系抽取方法存在数据标注成本高及易产生错误标签的问题,提出引入医学领域知识的远程监督医学实体关系抽取模型。【方法】 该模型采用多实例策略降低远程监督标注数据的噪声影响,使用预训练语言模型MedicalBERT对远程监督标注文本进行编码,以实体在医学知识库的描述作为背景知识为医学关系抽取提供监督信号,提升文本中实体语义编码的准确性。【结果】 本文模型的抽取效果与现有模型相比,准确率最高提升5.4%,召回率最高提升2.5%,F1值最高提升4.1%。此外,在并发症的抽取结果中,F1值达到93.8%。【局限】 模型主要适用于句子级关系抽取,暂未考虑其在更多句子情况下的性能。【结论】 引入医学领域知识的远程监督医学实体关系抽取模型具有良好的关系抽取效果,可为医学关系抽取研究提供参考。

Select

基于文本成分距离的节事“官方投射形象-观众感知形象”比较研究

耿爽, 何钰琴, 许欣, 牛奔

数据分析与知识发现. 2022, 6(6): 115-127. https://doi.org/10.11925/infotech.2096-3467.2021.1194

摘要 ( ) PDF全文 ( ) HTML ( )

可视化

【目的】 探究节事活动官方宣传的投射形象与观众分享内容的感知形象在不同形象维度上的差异与一致性。【方法】 通过爬虫收集官方宣传数据与观众相关评论数据,采用扎根理论构建节事形象概念模型,通过文本成分距离计算分析各维度要素上的形象距离,量化分析节事观众感知形象和官方投射形象之间的差异,最后收集问卷数据对节事概念模型与文本成分距离分析结果进行多元数据的验证。【结果】 节事形象包含节事、社会、场所三个维度和19个范畴,场所维度上“感知-投射”形象差异最大（4.349）,社会维度上“感知-投射”形象差异最小（3.251）。【局限】 以草莓音乐节为研究案例,数据量相对有限,未来考虑补充其他节事活动数据进行拓展。【结论】 本研究为追踪和分析官方投射形象与观众感知形象的差距提供了有效的数据驱动的分析路径。

Select

基于多任务学习的税务稽查选案研究

李国锋, 李祚娟, 王哲吉, 吴梦

数据分析与知识发现. 2022, 6(6): 128-140. https://doi.org/10.11925/infotech.2096-3467.2021.1116

摘要 ( ) PDF全文 ( ) HTML ( )

可视化

【目的】 整合多源涉税数据信息,利用机器学习方法,实现对重点税种涉税违法企业的智能判别分析。【方法】 利用网络数据获取、文本挖掘等技术,收集企业财务指标、高管信息、媒体关注信息等多源涉税数据进行融合处理;利用随机森林方法进行特征选择,构建税务稽查选案判别指标体系;利用改进的基于焦点损失函数的多任务结构化稀疏学习方法,视不同税种选案工作为不同任务联合训练,构建了分税种的税务稽查选案判别模型。【结果】 真实数据实验结果表明,所提出的基于多任务学习方法构建的税务稽查选案判别模型具有较好的泛化性能和应用能力,其召回率均值达到0.830 9,相对于逻辑回归方法和传统的多任务结构化稀疏学习分别提升了0.135 1和0.103 3。【局限】 模型需要在上市企业以外的数据集层面进一步验证。【结论】 本研究所构建的模型能够更加精准地甄别出不诚实纳税的目标企业,且可同时识别出其具体涉及的偷漏税税种,为政府智慧税务稽查提供新思路。

选择文件类型/文献管理软件名称

选择包含的内容

2022年, 第6卷, 第6期　
刊出日期：2022-06-25

模态框（Modal）标题

选择文件类型/文献管理软件名称

选择包含的内容

检索词推荐：

2022年, 第6卷, 第6期 刊出日期：2022-06-25

2022年, 第6卷, 第6期　
刊出日期：2022-06-25