期刊首页 在线期刊 当期目录

2024年, 第8卷, 第8-9期 
刊出日期:2024-09-25
  

  • 全选
    |
    专家视点
  • 秦健
    数据分析与知识发现. 2024, 8(8-9): 1-5. https://doi.org/10.11925/infotech.2096-3467.2024.0711
    摘要 ( ) PDF全文 ( ) HTML ( )   可视化   收藏

    人工智能的爆炸式增长对人类社会和环境的许多方面都产生积极和消极的影响。尽管学术界和工业界对人工智能增强教育、促进环境可持续发展、赋能医疗健康系统及人货运输等方面的积极影响持乐观态度,但专家们仍担心如果不加以控制,人工智能的负面影响可能会造成潜在的危害和危险。本文讨论了为什么必须强调人工智能的可信度,以及当前在确保人工智能可信度方面的最新研究进展。人工智能应用带来的便利和效率受到专家和公众的欢迎,但如何遏制来自恶意甚至邪恶使用行为的潜在负面影响和可能危害是一项巨大而复杂的挑战。建立可信的人工智能被认为是对抗和遏制人工智能负面影响的主要方法。可信人工智能的努力包括两个广泛的领域:政府的政策和法规以及学术界和工业界的研发。政策法规注重伦理、法律和稳健性原则,为可信人工智能的研发提供指导。在研究出版物中,一个普遍的观点是,可信人工智能应该具备可靠性、安全性、保密性、隐私性、可用性和易用性。对于不同的人群,对可信人工智能的要求可能有所不同。可信人工智能的一个重要发展是从以模型为主导的人工智能向以数据为中心的人工智能的转变。以数据为中心的人工智能范式通过系统地设计用于机器学习建模的数据集来保证数据质量,其中包括数据设计、数据塑造和数据策略,而数据政策贯穿整个数据设计、塑造和策略过程。塑造可信人工智能和遏制人工智能负面影响的政策和技术发展都为学术界和工业界提供了许多新的研发机会。

  • 专辑
  • 高广尚
    数据分析与知识发现. 2024, 8(8-9): 6-19. https://doi.org/10.11925/infotech.2096-3467.2023.0691
    摘要 ( ) PDF全文 ( ) HTML ( )   可视化   收藏

    【目的】 从嵌入式和事后处理两个角度分别探讨可解释推荐模型中的可解释性机制。【文献范围】 在谷歌学术和中国知网中分别以关键词“explainable recommendation”“interpretable recommendation”“explainable AI”“可解释推荐”进行文献检索,再结合主题筛选,精读并使用追溯法获得可解释性方法研究的代表性文献共64篇。【方法】 从嵌入式角度研究推荐的可解释性方法,具体结合知识图谱、深度学习、注意力机制、多任务学习这4个视角进行探讨分析;从事后处理角度研究推荐的可解释性方法,具体结合预定义模板、语句检索、自然语言生成、强化学习、知识图谱这5个视角进行探讨分析;从逻辑思路、性能特点和局限性三个方面详细比较可解释性方法,最后对可解释性研究亟需解决的问题进行展望。【结果】 可解释性能够有效提升推荐系统的说服力,也能够提升用户的使用体验,更是提升推荐系统透明度和可信赖性的关键途径。【局限】 未深入分析可解释性算法的评价指标。【结论】 尽管现有的可解释性方法能在一定程度上满足诸多应用的解释需求,但在对话交互式解释、因果解释等研究中仍然面临诸多挑战。

  • 王若佳, 范科鸣, 刘智锋, 王继民
    数据分析与知识发现. 2024, 8(8-9): 20-30. https://doi.org/10.11925/infotech.2096-3467.2023.1145
    摘要 ( ) PDF全文 ( ) HTML ( )   可视化   收藏

    【目的】 探索生成式人工智能环境下的用户信息检索式行为特征,揭示生成式人工智能技术在搜索引擎中的适用性及有效性。【方法】 采用用户实验与问卷调查的方法获取行为数据,基于Wilcoxon非参数检验、卡方检验等统计方法进行数据分析,对比不同搜索引擎环境下的用户检索行为模式差异。【结果】 与传统搜索引擎相比,生成式人工智能搜索引擎的检索式长度平均增加5.61字符、构造时间延长8.92秒,未在任务描述中出现词数增加1.25个,采用平移策略与跟随系统策略的检索所占比例分别提升至29.30%和12.11%,用户主观满意度提升0.88分。【局限】 未探讨检索结果浏览、检索结果使用等更全面的用户检索行为。【结论】 生成式人工智能技术能够赋能搜索引擎,提升用户的检索体验,但也存在认知负荷高、可信度低、交互复杂等问题。

  • 张鑫, 陈云伟, 许海云, 李姝影
    数据分析与知识发现. 2024, 8(8-9): 31-41. https://doi.org/10.11925/infotech.2096-3467.2023.1236
    摘要 ( ) PDF全文 ( ) HTML ( )   可视化   收藏

    【目的】 以干细胞领域为实证,探究科研团队的演化、作者影响力变迁规律及其相关关系。【方法】 采用莱顿算法提取合作网络中的社团结构,根据影响力方差判断领导者模式,识别领导者,以皮尔逊相关系数和P值探讨社团规模演化与领导者节点影响力变迁的关联关系。【结果】 科研团队具有明显的领导者特征,度方差远大于随机网络度方差;11/15的领导者在全部时间片内持续领导团队;约80%的社团规模与领导者中心度满足线性相关关系,R值十分接近1,且P值小于0.05。【局限】 对复杂领导者模式进行简化,只选取了最具代表性的一位专家展开研究。【结论】 领军人物在相当长时间内领导团队,且领导者的影响力变迁与团队规模呈现较强的相关性。

  • 张洋, 谢迎花, 梁以安, 余厚强
    数据分析与知识发现. 2024, 8(8-9): 42-51. https://doi.org/10.11925/infotech.2096-3467.2023.1224
    摘要 ( ) PDF全文 ( ) HTML ( )   可视化   收藏

    【目的】 构建替代计量学“场景-问题-方法”研究框架,丰富替代计量分析的研究设计,促进替代计量学可持续发展。【方法】 借鉴科学学、信息计量学中的成熟框架,结合替代计量学的特征,从应用场景、研究问题、关键方法、探索性方法四个维度构建替代计量学的研究框架。【结果】 替代计量学的应用场景主要可分为评价指标、科学传播、知识扩散三种。面向评价指标场景提出指标应用、影响因素和指标构建三类研究问题;面向科学传播场景提出传播策略、传播结构、传播趋势、科学与社会互动4类研究问题;面向知识扩散场景提出扩散策略、扩散结构和扩散效果三类研究问题。最后,结合因果推断、网络分析和机器学习三种关键分析方法,阐述研究问题相应的研究设计思路。【局限】 本研究提出的研究方向在可操作性、实现性方面有一定难度,未来仍需实证检验。【结论】 本框架有利于促进替代计量学进入内涵式发展阶段。

  • 孙守强, 李青青, 肖舒玥, 曾子明
    数据分析与知识发现. 2024, 8(8-9): 52-62. https://doi.org/10.11925/infotech.2096-3467.2023.1154
    摘要 ( ) PDF全文 ( ) HTML ( )   可视化   收藏

    【目的】 为解决叙事型壁画便捷检索与场景感知的问题,构建基于情景感知的叙事型壁画场景式移动视觉搜索模型。【方法】 结合情景感知和信息觅食理论,以情景为元素,构建壁画情景图谱;通过组合多模型提取壁画全局及局部视觉特征,利用点积进行特征匹配;在特定情景下,基于情景图谱进行情景关联,实现便于用户认知和理解的场景式移动视觉搜索。【结果】 在搜索时间、地点、人物和事件关联壁画时,本文模型平均mAP值为0.840,优于VGG16、BOW_KAZE、HOG等模型。【局限】 未考虑用户所处情景对搜索意图的影响。【结论】 本文提出的叙事型壁画场景式移动视觉搜索模型,能够有效搜索情景关联的壁画,对公共文化机构建设场景式移动视觉搜索服务具有一定的参考价值。

  • 王莉晓, 陈伟, 邱含琪
    数据分析与知识发现. 2024, 8(8-9): 63-75. https://doi.org/10.11925/infotech.2096-3467.2023.1250
    摘要 ( ) PDF全文 ( ) HTML ( )   可视化   收藏

    【目的】 基于机器学习构建颠覆性技术弱信号识别模型,发现早期的颠覆性技术并探究其对现有主流技术的未来颠覆潜力。【方法】 通过归纳颠覆性技术弱信号的核心特征,设计基于专利引证类别的颠覆性指数DI-P,构建历史颠覆性技术语料,设计基于机器学习的颠覆性技术弱信号识别模型,选取逻辑回归、高斯朴素贝叶斯、随机梯度下降、梯度提升树和随机森林等多个机器学习模型综合预测,并通过链路预测探究颠覆性技术弱信号的未来颠覆路径。【结果】 在储氢领域开展实证分析,构建基于引证类别的颠覆性指数DI-P获取历史颠覆性技术语料,其准确率与AUC值均优于RDI与DI。通过对比颠覆性技术弱信号与高价值专利,能够从成本、效率及安全性等角度发现其未来可能的颠覆路径。【局限】 实证领域相对单一,数据源局限于专利数据与战略规划,预测模型准确率有限。【结论】 通过结合机器学习模型与链路预测方法,能够精准、细粒度地识别颠覆性技术弱信号及其颠覆路径。

  • 蒋涛, 潘云辉, 崔鹏
    数据分析与知识发现. 2024, 8(8-9): 76-84. https://doi.org/10.11925/infotech.2096-3467.2023.1146
    摘要 ( ) PDF全文 ( ) HTML ( )   可视化   收藏

    【目的】 解决现有基于新闻传播模式的虚假新闻检测研究未能充分挖掘并融合传播者情感偏好特征的问题,提升虚假新闻检测模型准确率。【方法】 构建一种融合新闻传播模式和传播者情感偏好的虚假新闻检测模型USPGCN。首先,从传播者历史发文中挖掘传播者情感偏好特征,并用新闻文本的情感特征丰富新闻文本特征;其次,以新闻传播模式为基础,通过图卷积神经网络以及混合池化函数,融合新闻传播者情感偏好和新闻传播模式;最后,将丰富后的新闻文本特征与池化函数的结果融合,输入到分类器中得到最终的分类结果。【结果】 在公开的数据集GossipCop和PolitiFact上,将所提出模型与基线模型进行比较,该模型的精确率分别达到0.973 9和0.904 8,优于基线模型,证明了该模型的有效性。【局限】 暂未考虑传播者跟风转发等特殊情况。【结论】 融合新闻传播模式和传播者情感偏好的模型能够有效提高虚假新闻检测识别的准确率。

  • 刘美玲, 甘娇娇, 曾莹, 王双双, 周继云
    数据分析与知识发现. 2024, 8(8-9): 85-95. https://doi.org/10.11925/infotech.2096-3467.2023.1199
    摘要 ( ) PDF全文 ( ) HTML ( )   可视化   收藏

    【目的】 为了维护电子商务市场的秩序,开发有效的虚假评论识别技术显得尤为重要。本文旨在解决虚假评论识别中的数据不平衡问题和模型学习过程中的灾难性遗忘问题。【方法】 本文提出一种基于增量学习的虚假评论识别方法,以解决数据不平衡问题,并引入弹性权重整合技术,用于缓解模型在学习过程中可能出现的灾难性遗忘问题。【结果】 在YelpCHI、YelpNYC和YelpZIP数据集上进行实验,对比现有先进方法En-HGAN,本文模型在在三个数据集上的F1值分别提升了17.2、16.1和13.3个百分点,AUC值提分别提升了12.8、13.8和13.6个百分点。【局限】 在处理极端不平衡数据集时仍有改进空间,增量学习带来的灾难性遗忘仍然存在。【结论】 本文方法能够有效识别虚假评论,为电子商务市场的诚信建设提供技术支持。

  • 宝日彤, 孙海春
    数据分析与知识发现. 2024, 8(8-9): 96-104. https://doi.org/10.11925/infotech.2096-3467.2023.1103
    摘要 ( ) PDF全文 ( ) HTML ( )   可视化   收藏

    【目的】 为及时、准确地预警热点事件的反转,提出一种基于滑动窗口主题差异值的舆情反转预警模型。【方法】 以社交平台上反转事件的评论为研究对象,首先在时序数据上设置滑动时间窗口,然后通过主题模型提取窗口的主题,构建主题差异值算法,将文本输入训练好的情感分析模型中计算情绪波动,最后将不同时刻的两个指标输入时间异常检测序列判断是否发生反转。【结果】 选取2018-2022年间发生的具有代表性的舆情反转事件的评论构建数据集并进行实验验证,结果表明,本文模型在数据集上的准确率达到98.15%,其中正面情感与负面情感的F1值分别为98.90%与99.30%。【局限】 仅凭主题相异度和情感波动两个指标难以对持续时间长、多方诱因的反转事件进行准确预警。【结论】 舆情反转与评论主题和公众情感之间存在关联度,本文模型利用该特征在舆情反转检测中表现良好。

  • 郑旭辉, 王昊, 宋华, 李晓敏
    数据分析与知识发现. 2024, 8(8-9): 105-121. https://doi.org/10.11925/infotech.2096-3467.2024.0473
    摘要 ( ) PDF全文 ( ) HTML ( )   可视化   收藏

    【目的】 运用深度学习方法分析用户生成内容,探究顾客感知价值如何受其人格影响。【方法】 提出基于群体知识与细粒度文本分解的研究框架。首先,利用主题模型挖掘商品或服务的感知因素框架用于分解评论,改进的Doc2Vec-IOVO多分类策略计算细粒度的感知价值分数,并基于NLP深度学习模型测量用户大五人格。其次,研究人格对感知价值的影响,采用多种方式分析人格的影响力差异。最后,研究提出人格指标用于预测的价值。【结果】 改进策略多级情感识别效果最高准确率达96.50%,相较基准提升18.28个百分点。融入新特征的人格识别准确率最高提升2.66个百分点。神经质、外向型、尽责性与开放性对感知价值有显著影响,神经质为负向影响,其余为正向影响,外向性与神经质的影响力强于其他人格,且利用人格指标使得准确预测用户行为提升3.82~7.72个百分点。【局限】 训练数据局限于James英文意识流数据集,缺乏其他语种与领域的数据。【结论】 本文提出的细粒度感知因素挖掘评分与基于文本的人格识别方法,可替代问卷调查法,以高效、低成本的方式帮助商家分析用户心理,并预测感知倾向,调整经营策略。

  • 商锦铃, 张建勇
    数据分析与知识发现. 2024, 8(8-9): 122-132. https://doi.org/10.11925/infotech.2096-3467.2023.1212
    摘要 ( ) PDF全文 ( ) HTML ( )   可视化   收藏

    【目的】 针对查询式摘要数据集稀缺问题,研究满足科研人员个性化查询需求的方法。【方法】 通过构建生成与自我校验提示链,基于ChatGPT和提示工程提出一种以大语言模型为“数据标注员”的自动化数据标注方法,构建自然语言处理领域学术会议记录查询摘要数据集AMTQFSum。【结果】 AMTQFSum在数据量和长度分布上更加优越,UniEval摘要评估模型语言显示AMTQFSum比现有QFS数据集平均得分提升85%和33%。在6个经典查询式摘要模型上验证AMTQFSum数据集的基准效果,结果显示基于BART的查询式摘要生成效果最佳,ROUGE-1/2/L达52.53%、35.61%、44.80%。【局限】 未扩大数据集学科范围。【结论】 基于提示链的大语言模型数据标注方法能为自动化数据标注提供可行方案,AMTQFSum数据集为查询式摘要生成任务提供了研究基础。

  • 赵建飞, 陈挺, 王小梅, 冯冲
    数据分析与知识发现. 2024, 8(8-9): 133-143. https://doi.org/10.11925/infotech.2096-3467.2023.1246
    摘要 ( ) PDF全文 ( ) HTML ( )   可视化   收藏

    【目的】 实现复杂专利文本中的关键技术信息自动化抽取,缓解传统自然语言处理抽取模型强领域知识标注依赖的问题。【方法】 本文提出一种基于大语言模型知识自蒸馏的无标注关键信息抽取方法,基于多重角色策略,对德温特改写专利的摘要进行结构化分析,通过知识自蒸馏策略增强大语言模型关键内容抽取与结构化分析的能力。【结果】 本文方法在实体抽取任务和关系抽取任务的测试中,召回率分别达到了95.40%和51.49%,并且结构化分析的格式正确率达到100%。在关系三元组抽取任务数据集RE-DocRED上,本文方法在无监督和零样本的设置下F1值达到5.01%。【结论】 本文方法能够出色地完成无数据标注的专利文本关键信息抽取任务。

  • 王奎芳, 吕璐成, 孙文君, 王翼虎, 赵亚娟
    数据分析与知识发现. 2024, 8(8-9): 144-156. https://doi.org/10.11925/infotech.2096-3467.2023.1203
    摘要 ( ) PDF全文 ( ) HTML ( )   可视化   收藏

    【目的】 提高专利技术功效词自动化抽取的准确度。【方法】 采用ChatGPT作为教师模型,ChatGLM3作为学生模型,通过知识蒸馏,将ChatGPT生成的训练数据用于微调ChatGLM3,得到多个技术词抽取模型和功效词抽取模型。采用多个技术词抽取模型分别从专利的摘要、第一权利要求和技术功效语段中抽取技术词,采用功效词抽取模型从技术功效语段中抽取功效词。【结果】 相较于ChatGPT,微调后的多个技术词抽取模型和功效词抽取模型呈现出准确率高、召回率低的特点。基于第一权利要求的ChatGLM3微调模型的准确率和F1值最高,分别为0.734和0.724;功效词抽取模型的准确率为0.649,大于商业工具标注功效词的准确率0.530。【局限】 本研究的技术领域和专利语言单一,验证数据量偏小,数据清洗规则不够全面。【结论】 本研究方案通过知识蒸馏操作,提升了大语言模型自动抽取技术功效词的准确性。同时,本研究能够支持从专利文本中挖掘前沿创新技术、热点技术,支撑更高质量的智能化专利分析。

  • 何丽, 柳岚清, 刘杰, 段建勇, 王昊
    数据分析与知识发现. 2024, 8(8-9): 157-167. https://doi.org/10.11925/infotech.2096-3467.2023.1064
    摘要 ( ) PDF全文 ( ) HTML ( )   可视化   收藏

    【目的】 为解决现有预训练模型在答案选择任务中对问答句之间的语义交互信息利用不足、模型进行微调时精度不稳定等问题,提出融合问题分类与RoBERTa模型的答案选择方法。【方法】 提出保留原实体语义的EAT标注方法并结合多句联合建模的RoBERTa模型构建答案选择模型。此外,通过两段微调过程,对模型进行迁移学习,提高模型微调过程的精度稳定性。【结果】 在WiKiQA数据集上,本文方法在P@1、MAP和MRR三个指标分别达到0.843、0.896、0.903;在TrecQA数据集上,上述三个指标分别达到0.955、0.944、0.974。同时,该方法提升了模型精度收敛过程的稳定性。【局限】 对于“缩写(ABBR)”和“描述(DESC)”这两种类型的复杂问题,使用命名实体识别工具无法抽取答案句中的关键实体,导致不能利用这两种分类信息增强问答句语义信息交互建模。【结论】 将保留原实体语义的融合问题分类信息方法与迁移-自适应策略引入多句建模RoBERTa模型,可以有效提升模型表现并改善模型的鲁棒性。

  • 王义真, 沈雪莹, 欧石燕
    数据分析与知识发现. 2024, 8(8-9): 168-178. https://doi.org/10.11925/infotech.2096-3467.2023.1192
    摘要 ( ) PDF全文 ( ) HTML ( )   可视化   收藏

    【目的】 构建适用于民事判决文书的论辩结构,实现论辩元素的自动化抽取。【方法】 基于图尔敏论证模型构建民事裁判文书的论辩结构,用于指导民事裁判文书论辩语料库的标注。随后,提出一种基于上下文感知的多头注意力论辩元素分类模型(CAMA-AECM)用于自动抽取论辩元素。【结果】 本文模型在不同论辩主体的数据集上均表现出较好的性能。在Macro-F1值指标上,模型在原告、被告和法院这三个论辩主体对应的数据集上分别实现了最大1.73%、5.72%和3.92%的提升。【局限】 受限于论辩语料构建的成本和规模,并未探索全部民事案由的裁判文书论辩结构和特征。【结论】 本研究构建的模型有效实现了论辩元素的自动识别,不仅可以提高对裁判文书中论辩知识的挖掘能力,还为裁判文书自动化分析提供了一个新的工具。

  • 王昊, 李晓敏, 布文茹, 赵梓博, 邓三鸿
    数据分析与知识发现. 2024, 8(8-9): 179-190. https://doi.org/10.11925/infotech.2096-3467.2023.1194
    摘要 ( ) PDF全文 ( ) HTML ( )   可视化   收藏

    【目的】 针对当前非遗领域实体关系抽取与图谱构建研究面临的标注数据缺乏问题,提出一种轻标注关系抽取方案。【方法】 以丝织领域文本为数据源,构建SREP模型,结合领域术语词典和LTP工具进行实体识别。随后利用BERT模型将实体及其上下文进行向量化表示,并采用多种聚类算法对不同特征组合进行关系抽取实验,以确定最优算法和特征组合。再以Bootstrapping主动学习方式进行关系实例拓展,最终将抽取的关系三元组导入Gephi构建领域知识图谱。【结果】 实验结果表明,结合实体中间文本特征与实体类型特征组合的K-means算法在关系抽取实验中取得最优效果,并抽取出5类关系。在关系实例拓展阶段,LR算法较适用于主动学习方法,准确率达到0.860,相较于基线模型提高0.105。【局限】 模型效果需要在更大规模数据集、不同文化领域的关系抽取中进一步验证。【结论】 本文所提模型能够在降低标注数据依赖的基础上有效提取非遗文本中的实体关系,实现非遗结构化文本的语义挖掘和利用。

  • 王宇飞, 张智雄, 李雪思, 刘熠
    数据分析与知识发现. 2024, 8(8-9): 191-199. https://doi.org/10.11925/infotech.2096-3467.2023.1216
    摘要 ( ) PDF全文 ( ) HTML ( )   可视化   收藏

    【目的】 设计聚类标签自动构建算法,实现从聚类后的文本类簇中抽取具有代表性的短语,以概括类簇的主要内容,揭示类簇中文本的共性信息。【方法】 提出一种基于改进关联规则(IAR)的短语级聚类标签自动构建算法。通过对传统关联规则指标进行调整、增加新的区分度指标、设计指标组合权重,选出文本类簇中具有代表性的单词组合,并将单词组合映射回原文本中,从而得到短语形式的标签。为评估算法效果,提出针对聚类标签数据的标注方案,并人工标注科技论文研究问题短句数据集。【结果】 本文提出的算法在数据集上达到了较好的效果(ROUGE1-F1值为78.39%),可以自动构建简洁、准确的标签。【局限】 仅从类簇文本中构建标签,没有考虑外部词表,如上位词等。【结论】 本文通过改进关联规则,设计了一套有效的聚类标签自动构建算法,在有效提升文本聚类结果的可解释性的同时,为读者快速理解类簇内容提供了有力支撑。

  • 李西雨, 钱力, 张智雄
    数据分析与知识发现. 2024, 8(8-9): 200-212. https://doi.org/10.11925/infotech.2096-3467.2023.1148
    摘要 ( ) PDF全文 ( ) HTML ( )   可视化   收藏

    【目的】 基于大语言模型实现科技论文语义评价指标的自动量化,支撑科技文献语义评价研究。【方法】 从科技论文中抽取与评价指标相关的语步句,设计标准、简化、详细三种不同详尽程度的提示词,横向对比提示词效果,利用少量标注样本微调大语言模型,得到科技论文语义评价指标量化模型。【结果】 基于论文文本的语义内容,从“实验条件的苛刻程度”维度量化论文评价指标并开展分析。实验结果表明,基于详细提示词微调的模型取得最佳效果。在训练样本数为100时,Micro-Acc和Fuzzy-Acc分别达到0.72和0.87。【局限】 仅选取计算机领域科技论文进行实验,未考察所提方法在不同学科上的效果差异。【结论】 基于提示微调大语言模型的指标量化方法具有较高的精确度和可靠性,提高提示词的详尽程度可明显提升量化效果。此外,增加微调阶段的样本数虽可提升总体效果,但不同得分段的提升程度存在差异。

  • 谢瑶瑶, 邓三鸿, 王昊, 章学周
    数据分析与知识发现. 2024, 8(8-9): 213-225. https://doi.org/10.11925/infotech.2096-3467.2023.1113
    摘要 ( ) PDF全文 ( ) HTML ( )   可视化   收藏

    【目的】 解决现有研究中需求和专利文档的文本挖掘不充分问题以及需求-技术匹配不准确问题。【方法】 结合需求多任务学习框架TDAM和F-term专利识别方法,设计一种更为精确、有效的需求-技术匹配流程框架,并以新能源汽车领域为例,应用本文模型验证其有效性。【结果】 从模型匹配性能上,本文模型的需求-技术匹配精确度为0.819,比S-LDA模型精确度高了大约13.1%,将比BiLSTM模型高了约31.5%。本文模型的召回率为0.796,F1值为0.807。【局限】 仅收集了日本专利,数据来源不够全面。【结论】 应用本文模型可生成与用户需求匹配度较高的专利技术,促进企业制定针对特定消费者需求的技术解决方案,从而引导相关企业确定技术研发方向。

  • 张殿元, 余传明
    数据分析与知识发现. 2024, 8(8-9): 226-239. https://doi.org/10.11925/infotech.2096-3467.2023.1214
    摘要 ( ) PDF全文 ( ) HTML ( )   可视化   收藏

    【目的】 利用知识谱图导入外部知识,结合多模态融合机制和置信度检测机制,探索临床问题和医学图像之间的相互联系,提升其在医疗视觉问答任务的效果。【方法】 提出一种新的医疗视觉问答的模型,该模型由文本知识增强层、图像嵌入层、多模态融合层、置信度检测层和预测层组成。文本知识增强层将外部知识图谱嵌入到临床问题表示中,图像嵌入层获取医疗图像表示,多模态融合层捕捉文本与图像的交互关系,置信度检测层评估数据的可信度,预测层生成预测结果。最终将所提出的模型在VQA-RAD和PathVQA数据集上开展实证研究。【结果】 实验结果表明,基于知识增强与多模态融合的医疗视觉问答模型在VQA-RAD和PathVQA数据集上的开放域问答的最优准确率达到了59.3%和16.2%,证明了该模型的有效性。【局限】 仅仅考虑了单一语言情境,需要在其他多语言数据集上进一步验证所提模型的有效性。【结论】 本研究显著提高了医疗视觉问答任务的性能,对于提高医疗健康领域的服务质量和效率,以及在某些专业领域的样本扩充工作方面具有重要的参考价值。

  • 周抒, 王昊, 施国良, 石斌, 裘靖文
    数据分析与知识发现. 2024, 8(8-9): 240-250. https://doi.org/10.11925/infotech.2096-3467.2023.1117
    摘要 ( ) PDF全文 ( ) HTML ( )   可视化   收藏

    【目的】 针对金融领域智能问答系统多轮对话中存在的回复不准确、返回多结果中精确度不足以及一词多义问题,构建多粒度多注意力交互匹配模型。【方法】 提出基于BERT的多粒度多注意力交互匹配模型(MGMAI),MGMAI包含预处理层、表示层、注意力交互层、语义聚合层和对话选择层,聚焦于对话中的关键信息并利用这些信息实现高效的对话匹配。【结果】 MGMAI模型被应用于两个公开的多轮对话数据集上进行训练与验证,并在金融领域多轮对话数据上进行微调,实验结果表明,MGMAI在R10@1、R10@2、R10@5指标上比先进的深度语境建模模型高出0.019、0.010和0.007。【局限】 仅在金融领域智能问答系统中进行测试,未在其他领域或更多样化的数据集上验证模型的泛化能力。【结论】 MGMAI模型能有效提升金融领域智能问答系统中的多轮对话准确度和系统处理多义性问题的能力,对于类似的多轮对话系统,该模型展现出潜在的应用价值和改进空间。

  • 胡忠义, 朱彬呈, 吴江
    数据分析与知识发现. 2024, 8(8-9): 251-260. https://doi.org/10.11925/infotech.2096-3467.2023.1252
    摘要 ( ) PDF全文 ( ) HTML ( )   可视化   收藏

    【目的】 设计基于图像检索的乡村文旅目的地检索系统,实现基于图像和标签检索符合特定需求的乡村文旅目的地,辅助游客进行乡村旅游决策。【方法】 构建乡村文旅目的地及图像数据库;构建基于ViT模型的图像特征提取模型;构建Milvus向量数据库存储图像特征及乡村文旅信息,结合标签和深度特征进行混合搜索;基于前后端开发技术完成系统构建。【结果】 本文构建的乡村文旅图像检索技术在实验数据集上取得了较好的查询精度,其中,在自建数据集上mAP@100达到0.764 2,高于基准模型。【局限】 受限于实验数据集的规模和种类,部分检索需求无法得到较丰富和贴切的检索结果。【结论】 本文构建的图像检索技术能够准确检索到相关图像,基于图像检索的乡村文旅目的地检索系统能够为游客提供便捷易用的文旅服务。

  • 庄智惶, 徐星, 夏学文, 张应龙, 周新宇
    数据分析与知识发现. 2024, 8(8-9): 261-270. https://doi.org/10.11925/infotech.2096-3467.2023.1258
    摘要 ( ) PDF全文 ( ) HTML ( )   可视化   收藏

    【目的】 利用神经网络模型解决少样本陶瓷器型分类问题,通过多尺度和注意力机制优化,提高模型针对陶瓷器型分类的性能。【方法】 提出一种基于坐标注意力机制和多尺度融合的瓶颈结构,并将其应用于残差网络中,引入尺度之间的关系,提升残差网络在多尺度方面的建模能力。【结果】 在陶瓷器型图像公共数据集上,本文模型只需进行少样本学习即能达到95.71%的分类准确率,相比基准模型ResNet50提升了1.01个百分点。在精确率、召回率和F1分数指标上,本文模型比ResNeSt50分别提升了20.43、20.53和20.52个百分点。【局限】 模型推理效率下降,不适用于需要进行快速陶瓷器型分类的场景。【结论】 多尺度改进方式在陶瓷器型分类中简单有效,在处理此类任务或者相近的人文数据分类任务时,可优先考虑这种优化策略。