数据分析与知识发现

数据分析与知识发现

2023年, 第7卷, 第10期　刊出日期：2023-10-25

选择:

合并摘要

导出引用管理器
EndNote Reference Manager ProCite BibTeX RefWorks

研究论文

Select

基于引文网络的高颠覆性专利知识扩散特征研究^*

潘一如, 毛进, 李纲

数据分析与知识发现. 2023, 7 (10): 1-14. DOI: 10.11925/infotech.2096-3467.2022.0927

摘要

HTML ( 28 )

PDF(1966KB) ( 268 )

【目的】探索颠覆性专利的知识扩散规律，丰富颠覆性专利研究。【方法】利用颠覆性指数从USPTO数据库中识别高颠覆性专利，分别从引文量和共引耦合数匹配控制组专利，从引文分布和引文网络特征两方面分析高颠覆性专利的知识扩散特征，并构建回归模型揭示核心特征。【结果】高颠覆性专利存在授权后1~3年达到引文起飞点，3~5年速度达到巅峰，第6年起速度下降的规律。高颠覆性专利与控制组专利在知识扩散强度、知识扩散效率、局部和全局知识扩散能力等方面具有显著差异。首次引用年引用数、首次高峰间隔年和首次高峰年引用数指标，以及低引文代的平均路径长度、平均聚类系数和连通性指标有助于识别高颠覆性专利。【局限】 颠覆性指数会随时间发生波动，本研究按时间区间选择高颠覆性专利，其颠覆性指数值尚不稳定。【结论】研究从专利被引角度揭示颠覆性技术的知识扩散特征，研究发现能够为颠覆性技术识别提供理论支持。

图表 | 参考文献 | 相关文章 | 多维度评价

Select

跨学科语义漂移识别与可视化分析^*

李楠, 汪波

数据分析与知识发现. 2023, 7 (10): 15-24. DOI: 10.11925/infotech.2096-3467.2022.0635

摘要

HTML ( 16 )

PDF(1288KB) ( 258 )

【目的】借助机器学习技术分析并呈现领域术语的语义漂移现象，实现跨学科语义漂移识别与可视化，挖掘语义漂移的规律及成因。【方法】结合深度学习方法，设计一种领域术语语义漂移识别与可视化框架，该框架采用“SBERT模型+词嵌入优化+层次聚类”的组合算法实现跨学科语义漂移识别，综合Bokeh、主成分分析法对跨学科语义漂移现象进行可视化展示。【结果】 所提方法能够准确识别跨学科语义漂移，在DT-Sentence数据集上的整体识别精确率达到86.15%。【局限】 技术框架的普适性尚未得到验证，后续研究将拓展其在不同学科领域中的应用。【结论】所提方法有利于语义漂移规律的挖掘及可视化，为语义演化、语义理解、语义建模等研究奠定良好的技术基础。

图表 | 参考文献 | 相关文章 | 多维度评价

Select

基于改进LPA算法的去中心化电子商务网络消费者类别划分算法^*

刘铸, 钱晓东

数据分析与知识发现. 2023, 7 (10): 25-36. DOI: 10.11925/infotech.2096-3467.2022.0795

摘要

HTML ( 14 )

PDF(1276KB) ( 209 )

【目的】针对LPA算法应用在去中心化电子商务网络消费者类别划分中标签传播距离以及节点相似度判断的不足，提出一种基于改进LPA的类别划分算法。【方法】首先，针对LPA依据共有关系度量节点远近的问题，引入余弦相似度公式度量节点相似度，并构建相似度邻接矩阵，为了符合局部性的特点和减少度量的时间复杂度，引入反查表原理。其次，运用度中心性指标选出初始中心点，并以集聚系数指标为标签更新规则，根据LPA中标签传播特点不符合局部性要求，提出标签传播距离优化公式。【结果】在两种邻居相似度阈值的网络中，改进LPA比传统LPA的类别结构模块度Q值分别提高了0.054和0.145；在不同规模的数据上模块度Q值至多提高了0.092。【局限】 需要主观设定两个参数和使用反查表，时间复杂度与网络规模为平方关系。【结论】改进的LPA能更好地限制标签传播，使得类别内节点相似度更高、类别间节点相似度更低，适用于去中心化电子商务消费者网络。

图表 | 参考文献 | 相关文章 | 多维度评价

Select

药物领域三元闭包形成的影响机制研究——基于机会-信任-动机视角^*

吴胜男, 孙乙丹, 蒲虹君, 董继宗, 高健, 田若楠, 李霖

数据分析与知识发现. 2023, 7 (10): 37-49. DOI: 10.11925/infotech.2096-3467.2022.0895

摘要

HTML ( 8 )

PDF(2190KB) ( 183 )

【目的】基于社交有向网络中影响三元闭包形成的机会、信任、动机三机制视角，深入探讨药物领域三元闭包形成的影响机制，为药物知识发现提供基础研究。【方法】借助社会网络指标测度机会、信任和动机三类机制，利用皮尔逊法检验三类机制与三元闭包边聚类系数及三元闭包数量的相关关系；并引入更多节点属性和网络特征，通过计量经济学的方法深入检验节点属性与网络特征对三类机制的影响作用。【结果】节点对机会与节点对边聚类系数呈强正相关性（r₁>0.5）；节点对信任、动机与节点对所在封闭三元组数目呈强正相关性（r₃、r₅>0.5）；节点对邻近中心性对机会、信任具有负向影响作用，对动机具有正向影响作用；节点对中介中心性与特征向量中心性对机会、信任、动机均具有正向影响作用；网络平均路径长度对节点对机会具有负向影响作用，对节点对信任、动机具有正向影响作用。【局限】 选用的主题数据规模较小，未纳入大规模文献进行实证分析。【结论】提出的药物领域三元闭包形成三种影响机制均能较好地表现节点对三元闭包形成情况，并发现节点属性与网络特征对三机制具有影响作用，可为药物知识发现提供新的探索角度。

图表 | 参考文献 | 相关文章 | 多维度评价

Select

预训练模型视角下的跨语言典籍风格计算研究^*

张逸勤, 邓三鸿, 胡昊天, 王东波

数据分析与知识发现. 2023, 7 (10): 50-62. DOI: 10.11925/infotech.2096-3467.2022.0926

摘要

HTML ( 7 )

PDF(1035KB) ( 189 )

【目的】利用预训练语言模型对典籍文本进行风格计算与对比分析，宏观把控跨语言环境下典籍语言风格特征，提升典籍外译质量。【方法】分别应用5种预训练语言模型并对比深度学习模型Bi-LSTM-CRF在《论语》、《道德经》、《礼记》、《尚书》和《战国策》所构建的跨语言典籍古汉英语料库上的分词词性标注性能，基于预训练模型的最优训练结果完成对语料库中所有古汉语典籍的分词与词性标注，在这基础上进行对古汉语典籍及其对应的白话文和英文翻译在词汇层面的语言风格分析，包括词性、词汇长度、词汇多样性和密度的比较和总结。【结果】SikuBERT预训练语言模型对典籍词汇识别准确率、召回率、调和平均值F1达到91.29%、91.76%和91.52%，现代汉语译文较典籍原文词汇表意指代更为明确、词组功能相对单一、词汇组合方式更为多样，而英文译文存在翻译简化的现象。【局限】 因数据抽样偏差，仅选取了特定的先秦典籍文本与译本，结论扩展到其他领域文本的有效性需进一步验证。【结论】本研究验证了预训练语言模型SikuBERT对典籍语言风格挖掘研究的可行性，深入分析典籍文本语言风格差异，为提升古代汉语翻译质量与促进中国优秀典籍跨文化传播奠定了研究基础。

图表 | 参考文献 | 相关文章 | 多维度评价

Select

基于混合神经网络的中文在线评论产品特征提取及消费者需求分析^*

史丽丽, 林军, 朱桂阳

数据分析与知识发现. 2023, 7 (10): 63-73. DOI: 10.11925/infotech.2096-3467.2022.0872

摘要

HTML ( 16 )

PDF(1072KB) ( 225 )

【目的】从中文在线评论中提取产品特征，并结合评论内容对消费者需求进行分析。【方法】首先提出一种混合神经网络（HNN）模型用于从中文在线评论中提取产品特征，进一步将关键事件技术及抱怨和赞扬分析理论应用到Kano模型中，对产品特征进行分类和优先级排序。【结果】HNN模型的F1值达到94.85%，比变体基准模型平均提高10.52个百分点，比业界其他模型平均提高9.47个百分点。【局限】 所提方法是一种监督方法，对标记信息的需求限制了其应用。【结论】所提方法通过解决中文产品特征提取的问题，提升了产品特征提取的精度。结合提取的特征进行消费者需求分析，对产品特征进行分类和优先级排序，为产品管理者构建产品提升策略奠定基础。

图表 | 参考文献 | 相关文章 | 多维度评价

Select

基于感知融合的多任务多模态情感分析模型^*

吴思思, 马静

数据分析与知识发现. 2023, 7 (10): 74-84. DOI: 10.11925/infotech.2096-3467.2022.1019

摘要

HTML ( 14 )

PDF(1585KB) ( 244 )

【目的】针对现有的多模态情感分析模型中存在的上下文信息利用不足、未注重模态间的一致性和差异性等问题，设计一种基于感知融合的多任务多模态情感分析模型。【方法】设计了多模态、文本、声音、图像情感分析4个任务，使用BERT、wav2vec 2.0、OpenFace 2.0模型提取文本、声音、图像的特征信息，经Self-Attention层处理后传入感知融合层进行多模态特征融合，最后使用Softmax对单模态信息和多模态信息进行分类。引入同方差不确定性损失函数，为不同任务自动分配权重。【结果】所提模型与基线模型相比，在CH-SIMS数据集上准确率和F1值上分别提升1.59和1.67个百分点，在CMU-MOSI数据集上准确率和F1值上分别提升0.55和0.67个百分点。消融实验表明采用多任务学习比未采用多任务学习在准确率和F1值上分别提升4.08和4.18个百分点。【局限】 未测试模型在大规模数据集上的表现。【结论】所提模型能够有效地降低噪声，提升多模态融合效果，同时多任务学习框架能够使模型获得更好的学习效果。

图表 | 参考文献 | 相关文章 | 多维度评价

Select

基于ADGCN-MFM的多模态讽刺检测研究^*

余本功, 季晓晗

数据分析与知识发现. 2023, 7 (10): 85-94. DOI: 10.11925/infotech.2096-3467.2022.0987

摘要

HTML ( 12 )

PDF(2346KB) ( 177 )

【目的】针对现有多模态讽刺检测研究对文本的情感信息和句法依存关系考虑不够全面的问题，提出一种基于情感-依存图卷积神经网络与模态融合的讽刺检测模型。【方法】该模型通过情感图和句法依存图增强文本模态的情感和句法信息，利用图卷积神经网络得到具有丰富情感语义的文本信息，随后通过模态融合的方式融合多模态特征，并利用自注意力机制过滤冗余信息，根据融合信息进行讽刺检测。【结果】实验结果表明，模型的准确率达到85.85%，相较于基线模型HFM、Res-BERT、D&R Net、IIMI-MMSD分别提升3.46、2.25、1.83、0.95个百分点；F₁值达到84.80%，相较于基线模型中的较优者提升1.44个百分点。【局限】 未在更多数据集上验证模型的泛化性与稳健性。【结论】所提模型可以充分挖掘到文本的情感和句法依存关系，有效提升了多模态讽刺检测的准确性。

图表 | 参考文献 | 相关文章 | 多维度评价

Select

在线健康社区慢性病患者评论主题情感协同挖掘研究——以甜蜜家园为例^*

余佳琪, 赵豆豆, 刘蕤

数据分析与知识发现. 2023, 7 (10): 95-108. DOI: 10.11925/infotech.2096-3467.2022.0891

摘要

HTML ( 13 )

PDF(1156KB) ( 247 )

【目的】为及时掌握慢性病患者在不同患病阶段的关注主题与情感类型，构建评论主题情感协同挖掘模型。【方法】在LDA主题模型的基础上融入情感信息与时间信息，提出动态主题情感混合模型dUTSU。基于糖尿病患者评论数据，从主题识别效果、情感分类准确率验证模型有效性，开展主题-情感词分析和主题情感演化分析实现糖尿病患者不同患病阶段评论主题与情感协同挖掘。【结果】dUTSU的困惑度、主题平均相似度、情感分类准确率均优于JST、ASUM、UTSU等同类模型；利用dUTSU分析糖尿病患者评论数据，共识别出15个主题，得到疾病确诊阶段、并发症阶段等共7个时间片内的热点主题与伴生的情感强度及类型，揭示了主题情感随时间演化的特征。【局限】 采用糖尿病患者评论数据开展实验，研究场景较为单一；在建模时仅考虑了时间属性，没有考虑患者的地理位置、个人属性、社交关系等因素对主题与情感的影响。【结论】dUTSU模型能够有效实现患者不同患病阶段的评论主题与情感协同挖掘，分析结果可为在线健康社区、医疗机构及患者自身进行健康服务与干预提供依据。

图表 | 参考文献 | 相关文章 | 多维度评价

Select

基于超平面-BERT-Louvain优化LDA模型的书法作品价值要素提取及指标体系构建^*

潘小宇, 倪渊, 金春华, 张健

数据分析与知识发现. 2023, 7 (10): 109-118. DOI: 10.11925/infotech.2096-3467.2022.0915

摘要

HTML ( 5 )

PDF(907KB) ( 112 )

【目的】针对书法作品价值评估分歧大、标准缺失的难题，借助大数据与人工智能方法高效、准确地识别书法作品价值要素，为各种书法作品交易活动提供技术支撑。【方法】首先，融合超平面算法和BERT模型对书法文献进行停用词剔除与语义扩充，形成高辨识度的优化语料库；其次，构建书法文献复杂语义网络，引入Louvain算法，通过最大化社区网络的模块度确定最优主题数；最终，本文提出一种基于超平面-BERT-Louvain-LDA（HBL-LDA）的新方法来高效、准确地构建书法价值评估指标体系。【结果】相比于LDA，HBL-LDA模型的主题识别查准率和F值分别提高了45.00个百分点和29.46个百分点，平均主题优质率减少了0.96，识别的优质主题更多。基于代表性书法作品，利用多种回归模型对评估指标体系进行验证，准确率高达84.00%。【局限】 只针对书法作品构建了评估指标体系，难以在其他艺术品数据上适配。而且，BERT模型缺乏主题语义信息，使得相似特征词扩充具有一定的局限性。【结论】本文提出一种基于超平面-BERT-Louvain组合优化LDA模型，构建书法价值评估指标体系的新模式，为其他领域指标体系的构建提供了新方向。

图表 | 参考文献 | 相关文章 | 多维度评价

Select

重大冰雪赛事对冰雪运动社会效应研究——基于北京冬奥会百度指数分析^*

张燕, 王子维, 叶芃芊

数据分析与知识发现. 2023, 7 (10): 119-130. DOI: 10.11925/infotech.2096-3467.2022.1240

摘要

HTML ( 8 )

PDF(887KB) ( 167 )

【目的】探讨重大冰雪赛事中对冰雪运动社会关注度产生影响的因素以及相关的影响机制，验证重大赛事对冰雪运动的带动作用，为冰雪运动推广提供参考。【方法】基于百度指数，通过Wilxcon秩和检验、相关性分析以及结合LSDV法构建双向固定效应模型进行假设检验。【结果】北京冬奥会显著提升了冰雪运动相关项目以及相关器械场地的百度指数；冬奥会奖牌尤其是金牌会显著提升相关项目的百度指数；群众偏好以及明星运动员的存在与冰雪运动关注度呈显著的正相关关系，并且其能够正向调节冬奥会和奖牌对社会关注的影响。【局限】 仅收集了北京冬奥会这一冰雪赛事的数据，未来需要对更多冰雪赛事进行验证。【结论】实证结果在统计上验证了重大冰雪赛事、赛事成绩、群众偏好以及明星运动员对我国冰雪运动推广具有积极作用，并基于此结果提供了相关建议。

图表 | 参考文献 | 相关文章 | 多维度评价

Select

面向反恐安全领域的中文阅读理解数据集构建与评测^*

高峰, 杨梓航, 候进, 顾进广, 程军军

数据分析与知识发现. 2023, 7 (10): 131-143. DOI: 10.11925/infotech.2096-3467.2022.0334

摘要

HTML ( 11 )

PDF(996KB) ( 214 )

【目的】为解决反恐安全领域机器阅读理解技术研究缺少专业数据集支持的问题，提出一个面向该领域的中文机器阅读理解数据集SecMRC。【方法】构建关键词搜索引擎获取领域新闻语料，通过ERNIE-GEN模型自动生成问题文本进行预标注。使用时间特征词和领域关键词匹配算法构建领域词表，辅助模型精确分词。最后结合人工标注问答对形成数据集，并提出新的基线模型SecMT5。【结果】数据集包含2 100条反恐安全领域新闻文本，7 300个抽取式问答对，2 100个生成式问答对，总字符数4 796 264个。使用先进抽取式、生成式阅读理解模型在SecMRC数据集进行测试。结果显示抽取式F1指标达到72.05%，生成式ROUGE-L指标均值为37.62%，均大幅弱于人类水平。通过SecMRC数据集训练后抽取式模型F1指标提升6.13个百分点。【局限】 数据集问答对数量还需补充，难度和多样性还有待提升。【结论】SecMRC数据集突出领域知识，具有一定难度和挑战性，能有效支持机器阅读理解技术在该领域的研究。数据集构建方法具有通用性，可推广至其他专业领域。

图表 | 参考文献 | 相关文章 | 多维度评价

Select

面向手语语言学的中国手语词汇多模态语料库构建研究^*

张艳琼, 朱兆松, 赵晓驰

数据分析与知识发现. 2023, 7 (10): 144-155. DOI: 10.11925/infotech.2096-3467.2022.1262

摘要

HTML ( 8 )

PDF(3640KB) ( 94 )

【目的】通过提取和组织蕴含在多模态手语资源中的知识，创建适用于手语语言研究的手语多模态语料库，满足公众从繁杂的多模态数据中获取所需手语语言知识的迫切要求。【应用背景】 针对手语信息化程度低、资源组织无序、手语知识难以利用等问题，构建适用于手语语言知识挖掘的多模态语料库。【方法】构建手语词汇多模态特征标注体系，制定手语词汇特征编码方案，实施多层次标注，并建立手语词汇图数据模型，利用图数据库Neo4j进行存储和可视化呈现。【结果】手语词汇数据来自国家手语词汇语料库，目前已完成10 000余手语词汇多模态标注，实现构建多模态语料库的全部过程。【结论】本文多模态语料库增加手形、动作、表情、姿态等多模态知识检索，能极大地提升手语语料的使用价值。

图表 | 参考文献 | 相关文章 | 多维度评价