期刊首页 在线期刊 最新录用

最新录用


说明:最新录用文章, 内容和格式将与印刷版一致(除了页码), 您可以通过doi直接引用。

Please wait a minute...
  • 全选
    |
  • 于娟, 赵慧云, 巫邵诚, 席运江
    预出版日期: 2024-10-23

    [目的]减少文本分类过程中因语言差异和文本特征选择所导致的语义偏离和丢失,保留更多的文本信息。[方法]首先,采用SBERT的预训练模型进行句子表示;其次,使用句向量旋转相似度(Sentence Vectors Rotator’s Similarity, SVRS)方法计算不同文本中句子的相似度并对文本内的句子加权形成文本向量;最后,集成机器学习和神经网络的分类方法完成跨语言文本分类。[结果]在中、英、俄、法、西班牙文等多个跨语言文本数据集和多语言公开数据集Reuters的分类任务上进行实验的结果表明,所提方法的准确率较已有方法有显著提升,且在召回率、精确率和F1值等评价指标上也都有所提升。[局限]未考虑句子在文本中的出现位置对其权重的影响。[结论]句向量加权的文本表征方法能够减少语义偏离和语义丢失,从而提升跨语言文本分类的性能。

  • 张岚泽, 顾益军, 彭竞杰
    预出版日期: 2024-10-23

    [目的]引入拓扑结构分析,提高图神经网络在信贷欺诈检测准确性。[方法]提出融合先验结构信息的图深度欺诈检测模型PSI-GNN。通过结构信息编码将表征中心节点拓扑结构的属性信息嵌入于特征向量;其次,将消息传递分为近端与远端两个方面,其一基于浅层GNN模型聚合近端节点信息,其二,以随机游走结构相似性为导向筛选并聚合远端同构性信息;最后,融合上述两节点嵌入结果并完成欺诈识别。[结果]与9个相关领域的图神经网络模型相比,在包含欺诈行为的信贷或交易网络DGraph-Fin和TFinance数据集上,PSI-GNN在F1-Macro和AUC分别具有2.62%、4.55%和4.67%、2.33%的提升;[局限]对结构信息预嵌入开销的降低是进一步研究的重点。[结论]充分利用信贷网络中实体的结构属性和同构性信息可有效完成欺诈检测任务。

  • 陈静, 赵雨珂, 陆泉, 张璐
    预出版日期: 2024-10-23

    [目的]揭示导航工具的可解释性特征带来的用户认知差异机理。[方法]选择了两种基于主题和基于目录的文本标记导航工具THC-DAT和BOOKMARK,利用眼动追踪技术、采用曼-惠特尼秩和检验,探析它们的不同主题覆盖度、导航准确度、语义可读性等可解释性特征对用户完成阅读任务带来的认知差异。

    [结果]导航工具可解释性特征重要程度因任务难度而异。在低难度任务中,导航准确性最影响认知效率、认知效果和优化导航辅助认知策略;在高难度任务中,语义可读性则最影响认知效率。[局限] 研究样本数量有限,结构单一;仅在两种类型导航工具中进行认知差异对比。[结论]以可解释性特征为切入视角,为提升阅读导航工具的知识组织服务水平,进而优化用户阅读质量提供了新思路。

  • 曹琨, 吴新年, 白光祖, 靳军宝, 郑玉荣, 李莉
    预出版日期: 2024-10-11

    [目的] 结合“科学-技术”文本内容特征及复杂网络关系开展关键核心技术识别方法研究,为政府、科研机构和产业界合理制定科技战略规划、开展科技创新活动提供情报支撑。[方法] 运用Sentence-BERTopic模型对句子级别的论文和专利文本语料进行深层次语义融合及知识主题建模,并根据论文和专利文献的引文关系构建“科学-技术”知识主题复杂网络,然后结合节点质量特征、时间衰减因子、入链节点边的权重和出度等因素对传统的PageRank算法进行改进,从而对领域内节点重要性和影响力进行了客观排序,最后结合重尾分级法遴选出关键核心技术。[结果] 在数控机床领域进行实证研究,从中遴选出热误差建模与补偿、数控机床控制技术、数控机床进给系统等53个关键核心技术方向,将此结果与国内外相关政策规划进行对比,基本涵盖了领域内重要的关键核心技术,由此验证了本方法的科学和合理性。[局限] 缺乏对引用位置、引用动机、引用行为及句子目的等深入分析,可能影响识别的准确性。[结论] 通过构建“科学-技术”复杂网络及KCR算法能够全面地揭示科学和技术的知识结构及其拓扑特征,实现了关键核心技术的细粒度精准量化识别。

  • 夏中华, 齐江蕾, 丁浩
    预出版日期: 2024-10-11

    [目的]本文提出一种医学出版物推荐模型,运用跨模态信息提高推荐的准确率。[方法]本文通过统一医学语言系统医学知识标准化抽取,将图文标签进行配对,再利用配对的语义标签通过对比学习将图像与文本之间的特征语义进行对齐,基于对齐的特征语义构建了跨模态交叉注意力机制,并通过用户对不同模态兴趣权重预测用户对出版物的偏好进行推荐。[结果]本文在2个出版物数据集上与3种最新的多模态基线方法进行对比实验,模型的F1平均为68%,Precision 平均为64%,NDCG平均为63%,各指标结果总体优于其它基线模型。[局限]对于仅包含单一模态的预训练数据可能需要额外的冷启动方法。[结论]所提出模型跨模态信息特征的融合能力强,可以有效缓解不同模态间语义鸿沟问题,提高医学出版物推荐的准确率。

  • 王鑫, 刁秀丽, 倪维健, 曾庆田, 宋正国
    预出版日期: 2024-10-11

    [目的]跟踪在线学习者的学习进度和知识状态,以便提供个性化的学习支持服务。[方法]本文提出一种细粒度学习能力增强的可解释知识追踪(FLAB-IKT),从知识和能力两方面进行学习者建模,完成下一时刻答题结果的预测。[结果]通过在三个数据集上开展实验可以发现,本文所提出知识追踪模型的预测性能相较于众多基线方法在AUC指标上提升2%左右。[局限]本文方法从增加学习因素的角度提升知识追踪模型的可解释性,但在提升基于深度学习的知识追踪模型可解释性方面还需进一步验证。[结论]本文提出的知识追踪模型不仅在预测性能上有很好的提升,而且能够从多个角度刻画学习者模型和预测过程,提高了知识追踪模型的可解释性。

  • 谌文佳, 杨琳, 李金林
    预出版日期: 2024-10-11

    [目的]基于意图识别构建更准确的语义相似度分类模型,为中文医疗健康查询服务提供更精准的答案匹配结果。[方法]融合Bert(Bidirectional Encoder Representations from Transformers)和卷积神经网络(Convolutional Neural Networks, CNN)构建意图识别模型,然后将其作为模型嵌入层构建嵌入意图识别的孪生Bert(Intention-recognition Embedded Twin Bert, ITBert)语义分类模型。[结果]在CHIP-STS数据集上,相较于单一模型,融合模型在意图识别的Top-1结果准确率提高了8.2和1.5个百分点,达到了73.6%;Top-3结果准确率提高了7.6和3.2和个百分点,达到了91.2%,证明了融合模型对于意图识别效果的提升。对于语义相似度分类结果,相较于基准模型,ITBert模型AUC值提高了0.015-0.087,证明了意图知识的嵌入对医疗语义相似度分类效果的提升。[局限]人工标注的意图信息存在一定的偏差,可能会影响语义相似度的分类结果。[结论]融合模型可以提高医疗健康查询服务中的意图识别效果,嵌入识别的意图知识可以提高语义相似度分类模型的准确率,有利于提供更准确的医疗健康自动问答服务。

  • 裘江南, 徐雪冬, 鲁艳霞, 杨智龙
    预出版日期: 2024-10-11

    【目的】对公众诉求中反映的矛盾进行识别与多标签分类,探究不同地区不同矛盾类型与回应率差异。【方法】以养老保险纠纷为例,首先,通过领域词库构建、关键诉求内容提取、简单数据增强三个方式对ERNIE模型进行知识与数据增强;然后,构建ERNIE-BILSTM矛盾识别分类模型,实现了对低数据资源场景下的公众诉求中矛盾的深度挖掘,解决了现有研究中缺少定量方法进行社会矛盾分析的问题。最后,基于识别分类结果对矛盾进行了差异性分析。【结果】数据收集区间内,河南省与辽宁省的养老保险缴纳类矛盾较多,而广东省与北京市更容易发生养老保险服务类矛盾,且不同矛盾类型的回应率具有较大差异。【局限】未考虑不同矛盾类型之间的相关性,后续可结合相关性做进一步分析。【结论】研究结果揭示了养老保险纠纷矛盾的省际差异,可以帮助决策者把握矛盾热点与态势,辅助政府决策。

  • 潘宏鹏, 刘忠轶
    预出版日期: 2024-10-11

    [目的]从海量社交用户中,根据多模态数据特征,智能识别出社交网络谣言传播者。[方法]考虑网络谣言传播呈现“多模态”与“用户样本不平衡”特点,首先对原始数据进行过采样处理,然后将用户属性、微博发文等传统特征,与用户生成内容中的多模态信息特征深度融合,在XGBoost模型基础上构建能够广泛融合社交用户特征的社交网络谣言传播者智能识别框架,最后在模型输出层嵌入SHAP值,增加算法可解释性。[结果]XGBoost模型在经过样本平衡处理的数据集上综合性能表现最优,召回率可提升12.3%。融合多模态信息特征的识别方法在准确率上可达到91.2%,比对照组提升了2.5%。[局限]多模态信息特征仅考虑了文本、图片两种模态,未来可进一步结合音频、视频等模态信息拓展研究。[结论]基于多模态数据与过采样算法训练得到的识别方法,能够有效完成社交网络谣言传播者的智能识别任务。

  • 金博, 章嘉湾
    预出版日期: 2024-10-11

    [目的]解决手动睡眠分期方法耗时繁琐和现有自动睡眠分期模型训练时间长、识别效果不佳等问题,提升睡眠分期预测的准确性和鲁棒性。[方法]设计基于离散小波和残差收缩网络的睡眠分期模型(WaveSleep)。首先,使用离散小波变换对原始脑电信号数据进行分解,然后通过两个不同尺寸的卷积神经网络进行多分辨率的特征提取。接着,使用深度残差收缩网络对特征在通道层面的相互依赖关系进行建模。最后将部署了多头注意力的时间上下文编码器用于有效捕捉特征中的时间依赖关系。[结果]在三个公共睡眠数据集上的实验表明,所提模型的分类准确率分别达到85.4%、81.9%、84.4%,与最优基线模型相比准确率分别提高1.0、0.6、0.2个百分点。[局限]本文所提模型在类别不平衡的数据集上准确率提升有限。[结论]本文模型能够有效提升睡眠分期预测的效率和准确性,并且具有显著的鲁棒性。

  • 陈婷, 丁宏昊, 周昊宇, 吴江
    预出版日期: 2024-10-11

    【目的】探讨直播电商中弹幕内容与行为特征对消费者购买行为的影响以及主播与产品关联度的调节效应。【方法】基于详尽可能性模型,利用抖音平台的弹幕数据和灰豚平台的消费数据,结合文本挖掘和零膨胀负二项回归分析,从作为中心路径的弹幕内容特征和作为边缘路径的行为特征两方面,探究消费者购买行为的影响因素,并通过分组回归分析主播与产品关联度的调节作用。【结果】信息丰富度、社交互动程度和弹幕数量正向影响购买行为;弹幕情感极性对购买行为的影响呈倒U型;与主播与产品关联度低的直播间相比,主播与产品关联度高的直播间弹幕情感极性对购买行为的正向影响范围更大。【局限】仅选取单一直播电商平台的弹幕,研究结果缺乏普适性。【结论】本研究从弹幕视角分析消费者实际购买行为的影响因素,为直播电商模式下商家与消费者之间的有效沟通以及提升带货效果提供了参考和建议。

  • 刘清堂, 蒋如意, 吴林静, 尹兴翰, 王登, 马鑫倩
    预出版日期: 2024-10-11

    【目的】通用领域的实体关系抽取模型直接应用于特定领域存在性能不佳问题。统计分析发现土家民族器乐文本中实体位置、类型与实体关系具有强相关性特征,论文提出融合实体位置与类型特征的实体关系抽取模型。【方法】采用Pipeline关系抽取模型,在完成命名实体识别任务后,将每个字符到主客体的相对位置和实体类型特征拼接到原关系语句后,通过BERT模型进行特征学习,最后通过全连接层进行关系分类学习。【结果】在自建土家民族器乐数据集上进行消融和模型对比实验,结果表明:融合实体类型特征的模型(BERT_E)表现最优,其F1-micro为97.359%。【局限】样本规模较小,实体位置特征未考虑实体长度等问题。【结论】研究成果推动了土家民族器乐文化数字化保护和智能应用服务,同时对民族器乐相关领域的实体关系抽取具有重要借鉴价值。

  • 窦路遥, 周志刚, 申婧, 冯宇, 苗均重
    预出版日期: 2024-10-11

    [目的] 解决潜在高价值专利识别过程中序列建模的长距离依赖问题以及序列特征的关键信息获取问题,提升潜在高价值专利识别精准度和可解释性。[方法] 提出一种基于预训练模型XLNet和双注意力机制BiAttention的潜在高价值专利识别模型(XLBBC),通过XLNet模型进行专利文本表示和高质量语义获取,再利用BiGRU网络获取全局文本序列信息,随后嵌入BiAttention层使模型集中注意力于输入序列的不同部分,联合CNN层捕捉专利文本中的关键短语和特定模式。在非晶合金、工业机器人、钙钛矿太阳能电池等领域的混合专利数据集展开实证研究。[结果] 该模型在一定数据规模(40000条专利数据)时具备高准确性(0.89)和一致性(0.65)的双重优势;模型的预测准确率达到42%左右,较之既有研究模型的准确率提升约9%。[局限] 尚未考虑标准必要专利与高价值专利的关联关系和融合机制,算法复杂度有待提升。[结论] XLBBC模型在文本分类层面的效果优于CNN等组合模型;XLNet模型在全局语义理解上具备优越性;当注意力层处于XLNet-BiGRU层和CNN层之间时,会取得更好的模型效果。

  • 钱晓东, 史玉林, 郭颖
    预出版日期: 2024-10-09

    【目的】本文通过改进的Deepwalk链路预测算法,研究电子商务网络的节点相似性和推荐问题。【方法】针对传统的Deepwalk算法进行随机游走过程中同等对待每个节点的问题,对电商网络的结构和属性信息对随机行走进行偏置,从而引导游走过程更有针对性地遍历图中不同类型的节点;针对传统的DeepWalk算法使用余弦相似度相似性度量方法不能很好的表现用户和商品关系的问题,将Bhattacharyya系数引入到现有的非线性相似度计算模型中,创建新的相似度模型。【结果】基于此提出优化后的Deepwalk模型,并利用三个电商网络数据集验证本文算法,结果显示优化后的算法精确度高于传统Deepwalk算法、Node2vec、M-NMF等六种算法。【结论】说明改进后的算法能够较好地学习节点嵌入向量,从而了解电商网络中节点的相似性。

  • 庞庆华, 徐珣, 张丽娜
    预出版日期: 2024-10-09

    [目的]为解决微博主题推荐中存在的单一性和缺乏新颖性的问题,提出了一种更加全面的主题推荐模型,以满足用户个性化需求。[方法]首先利用LDA模型挖掘用户历史微博主题,构建微博-主题矩阵和用户-主题矩阵;其次从微博的互动、属性和频次维度综合衡量,形成用户对微博主题的多维度评价,同时模拟用户兴趣的遗忘和衰减过程,构建用户动态兴趣偏好模型,并得到用户的邻居集;最后通过混合推荐,形成用户对主题的最终评价,为用户进行top-N主题推荐。[结果]通过真实数据集进行消融实验,发现提出的主题推荐模型在F1值、覆盖率、新颖度方面的综合评价更高。[局限]仅从微博文本内容进行主题挖掘,后续研究可进一步结合用户评论等信息进行。[结论]模型在保证准确率的同时,可以为用户提供更多样、新颖的推荐内容,有效地解决了微博推荐中的单一性和缺乏新颖性的问题。

  • 穰雨辰, 马静
    预出版日期: 2024-10-09

    [目的]为了减小模态间差异,加强模态间的关联性,让模型能够精准地把握多模态数据中蕴藏的情感倾向,提升情感分析效果。[方法]针对文本模态,原始文本数据在补充了图像字幕后使用RoBERTa预训练模型进行文本特征提取。针对图像模态,使用ClipVisionModel提取图像特征。将分别提取出的文本、图像特征通过以多模态Transformer为主的多模态对齐层得到增强的融合特征,最后把多模态融合特征输入多层感知机进行情感识别分类。[结果]本文提出的模型在MVSA-Multiple数据集上的准确率和F1值分别达到71.78%和68.97%,高于所有基线模型。本文模型相比于基线模型中的最优表现,准确率和F1值分别提高了1.78%和0.07%。[局限]未能使用更多的数据集检验模型表现。[结论]本文提出的模型有效的促进了模态间的融合,获得了更好的融合表征,提升了情感分析效果。

  • 谢珺, 杨海洋, 续欣莹, 程兰, 张亚睿, 吕佳琪
    预出版日期: 2024-10-09

    [目的]针对现有模型知识表示质量低、模型性能差等问题,提出一种基于多视图融合与多特征提取的知识图谱补全方法。[方法]通过视图编码器生成多个单视图网络,并利用注意力机制融合不同视图信息作为实体的最终知识表示;通过不同的特征提取器分别提取头实体和关系的语义和交互特征,并利用交叉注意力模块融合语义和交互特征与尾实体进行匹配。[结果]在链接预测任务中的实验结果表明,与基线模型相比,在通用数据集FB15k-237和WN18RR上的Hits@10指标分别提升0.4和0.7个百分点,在领域数据集Kinship和UMLS上的Hits@10指标分别达到了99.0%和99.9%。[局限]在视图更新时未更新关系,关系知识表示向量质量一般。[结论]多视图融合模型能够有效提升知识图谱表示质量,多特征提取框架能够有效提升链接预测精度。

  • 贠阳林, 唐晓彬
    预出版日期: 2024-10-09

    [目的]传统的推荐方法在面临冷启动问题时无法有效地生成个性化建议,降低了推荐的准确性和用户满意度。[方法]与一般的金融商品推荐任务中仅使用商品信息不同,本文还进行了用户历史交易记录的表征,引入多层次融合表征。通过将两者关联起来,引入隐式信息的推荐系统能够捕捉复杂的用户投资模式。[结果]首先与不同基准方法进行对比,随后构建了一种小样本学习场景以验证本文模型应对商品冷启动问题的能力。实验结果表明了,相较此前最优方法,本方法的平均倒数排名,命中率和归一化折现累积增益分别提升18.6%,26.08%和23.52%。[局限]由于并没有基于最先进的神经网络架构,因此未来可以使用较为先进的深度神经网络,来进一步提升推荐效果。[结论]不同的消融实验和与基准模型的对比实验结果证明了本文方法在推荐金融商品方面的有效性。

  • 吕婉莹, 赵洁, 黄流深, 董振宁, 梁周扬

    【目的】使用特征分组和组合思想,前者在数据缺失情况下提供可替换特征进行信任评估,并降低组合搜索空间;后者有效降维,进一步缓解数据缺失导致信任评估困难的问题。【方法】基于Markov Blanket分析特征间的感知信任分辨能力关系,对特征分组,使组内特征分辨能力相似;基于变领域搜索方法,进行组内和组间搜索,完成特征组合。【结果】特征值缺失情况下,信任评估效果稳定,有效提供替补特征;信任特征维度降至1.7%,信任评估平均精度高于92%。【局限】仅讨论缓解数据缺失问题的方法,后续进一步讨论如何利用含缺失值数据的知识。【结论】融合特征分组和组合,提供高效的信任评估模型,从双方面缓解信任评估中数据缺失引致的难题。

  • 陈稳, 陈伟

    [目的]识别出多源数据中蕴含的新兴主题,建立融合计量指标多变量的LSTM模型以实现新兴主题热度的预测。

    [方法]首先,挖掘出基金项目、期刊论文、专利文献中的研究主题;其次,根据主题新颖性、成长性和持续性筛选出研究主题中的新兴主题;最后,设计主题热度指标,并融合基金金额、基金数量、论文篇均被引、专利IPC小类数量4个计量指标,基于LSTM模型实现对新兴主题研究热度的预测。

    [结果]以固体氧化物燃料电池领域为例,融合计量指标的多变量LSTM预测效果优于BP、KNN、SVM、单变量LSTM模型,其MAE(16.534)、RMSE(23.494)最小, R2(0.642)最高。

    [局限]在输入计量指标选择中,专利被引数量等指标由于很难获取每个时间窗口下具体数据而未被纳入。

    [结论]计量指标多变量的纳入优化了新兴主题热度预测模型的预测效果。


  • 胡吉明, 钱玮, 文鹏, 吕晓光

    [目的] 融合中文病历的结构功能信息,丰富病历文本的语义内涵,提升文本表示的准确性和后续文本挖掘效果。

    [方法] 依据中文病历结构功能特征,创新文本语义表示策略,使用BiLSTM-CRF模型实现基于结构的命名实体智能识别,在词向量层面引入实体及结构信息,经由TextCNN模型进一步提取局部上下文特征,得到文本语义内涵更为丰富的向量表示形式。

    [结果] 在命名实体识别实验中,基于结构的医疗实体识别精确率、召回率以及F值分别达93.20%、95.19%及94.19%;在文本表示的分类验证实验中,本文所提病历文本表示方法的分类准确率达到了92.12%。

    [局限] 需进一步加强对更多类型文本的验证,细化结构识别过程,使所提方法更好地应用于文本挖掘工作。

    [结论] 本文将病历结构功能信息引入病历文本表示工作,实证证明了其既能有效提高命名实体识别准确度,又能进一步丰富文本语义内涵和提升文本表示效果。

  • 杨洋, 江开忠, 原明君, 惠岚昕

    [目的] 针对传统LDA模型中主题数目需指定的问题,提出了一种面向新闻话题识别领域的融合语义与时序的自适应主题数目确定方法。

    [方法] 本文将语义和时序作为两个视图对新闻数据进行提取,得到对应的特征向量。再利用Co-DPSC算法对两个视图进行协同训练得到包含时序影响的语义特征矩阵,最后对矩阵降维处理后按行进行密度峰值聚类,其结果作为最优主题的个数。

    [结果] 实验结果表明考虑语义和时间因素来确定最优主题数其查准率和F值均有所提升,其中查准率提高了35.09%, F值提高了15.39%。

    [局限] 对关键词集进行聚类,关键词的获取方法一定程度上影响了聚类的效果和运行的时间。由于新闻数据需要文本和时间要素,对其他类型的数据有一定局限性。

    [结论] 实验证明,本文方法将新闻数据的时效性和内容结合起来考量新闻的类别,能在一定程度上提升最优主题数目选取的准确性。

  • 杨美芳, 杨波

    [目的]有效学习风险领域文本特征和上下文语义关联性,提升企业风险领域实体抽取的性能。[方法]提出基于笔画ELMo嵌入IDCNN-CRF的企业风险领域实体抽取模型。首先使用双向语言模型将大规模非结构化的企业风险领域数据预训练得到的笔画ELMo向量作为输入特征,然后将其送入IDCNN网络进行训练,再运用CRF对IDCNN的输出层进行处理,最后获得全局最优的企业风险领域实体序列标注。[结果]实验结果表明,该模型对企业风险领域实体抽取的F值为91.9%,相对于BiLSTM-CRF深度神经网络模型的抽取性能提升了2%,且测试速度快2.36倍。[局限]在基于笔画ELMo字向量的基础上充分融合额外文本特征能有效提升中文实体抽取的效果,但未考虑本模型扩展于更多领域实体抽取任务的普适性。[结论]本文给出了模型应用的具体流程,为企业风险领域实体语料库构建提供参考借鉴。

  • 李晓敏, 王昊, 李跃艳, 赵萌

    [目的]地名是人类社会发展到一定阶段的产物,地名在社会发展过程中不断发生演变,利用关联数据技术对地名沿革的演变过程进行研究,对地名更好地发挥文化传承作用具有积极意义。

    [方法]本文构建了中国地名演化知识库CGNE_Onto,制定演变类型强弱标志词识别历史沿革数据中的演变类型句,再利用BERT-BiLSTM-CRF模型识别演变类型句中的时间和地名实体,将识别出的时间和地名实体作为本体中的类构建本体知识库,同时从直接路径关系和间接路径关系角度对构建好的行政区划地名演化本体知识库进行可视化展示。并对各个朝代不同演变类型的数量以及形成原因进行了统计分析。

    [结果]实验结果表明,本文提出的模型能够多角度直观地展示地名演变情况,为地名数据的分析挖掘提供了一种新的思路。

    [局限]本文数据集规模较小造成演变特征词也有一定的局限。

    [结论]本文构建的地名演化知识库能够直观清晰地展现地名从古至今的演变情况,以及各个朝代演变类型的情况。

  • 赵蕊洁, 佟昕瑀, 刘小桦, 路永和

    [目的]为了提高医药实体识别的效果、实现医药新知识的挖掘和提高医药科技论文的利用率提出一种新的实体识别模型。

    [方法]构建了基于Att-BiLSTM-CRF的医药实体识别模型并在公开数据集GENIA Term Annotation Task和BioCreative II Gene Mention Tagging上分别对模型进行F1值、准确率测试,进而使用该模型对生物医药科技论文的摘要进行实体标注。

    [结果]实验结果证明,本文提出的模型优于其他基准模型,在两个数据集上的F1值分别为81.57%和84.23%、准确率分别为92.51%和97.85%,并且在数据不平衡的情况下更有优势。

    [局限]实体标注实验数据量和应用范围较为单一,可以进一步扩大。

    [结论]基于Att-BiLSTM-CRF的医药实体识别模型可以提高实体识别效果并实现医药新知识的挖掘。

  • 彭成, 张春霞, 张鑫, 郭倞涛, 牛振东

    【目的】为解决时序知识图谱推理方法存在的实体信息获取片面和缺乏不同时间戳对于待推理事件重要性度量的问题。【方法】本文提出了一种基于实体多元编码的时序知识图谱推理模型。实体多元编码旨在于引入三种实体特征编码,包括当前时间戳的实体切片特征编码、融合时间戳嵌入和实体静态特征的实体动态特征编码,以及历史时间步上相对稳定的实体片段特征编码。同时,设计时序注意力机制来学习不同时间戳内的局部结构信息对推理目标的重要性权重。【结果】本文时序知识图推理模型在数据集ICEWS14测试集上的实验结果为MRR:0.4704,Hits@1:40.31%,Hits@3:50.02%,Hits@10:59.98%,在ICEWS18测试集上实验结果为MRR:0.4385,Hits@1:37.55%,Hits@3:46.92%,Hits@10:56.85%,在YAGO测试集上实验结果为MRR:0.6564,Hits@1:63.07%,Hits@3:65.87%,Hits@10:68.37%。本文模型在这些评估指标上优于现有方法。【局限】本文方法在大规模数据集上运行速度较慢。【结论】本文方法捕获了时序知识图谱中包括实体切片特征、动态特征和片段特征的实体多元特征,所设计的时序注意力机制度量历史局部结构信息对推理的重要性,有效提升了时序知识图谱推理的性能。

  • 邓 露, 胡 珀, 李炫宏

    [目的] 将生物医学文本映射到生物医学领域超级叙词表以获得文本中包含的生物医学术语及其对应概念,并将术语和概念作为背景知识融入到文本摘要模型中,以提高文本摘要模型在生物医学文本上的摘要生成质量。

    [方法] 该方法先通过抽取式摘要技术获取文本的重要内容,然后结合生物医学领域知识库将文本重要内容中包含的术语与其对应的知识库概念一并抽取出来,作为背景知识融入到神经网络生成式摘要模型的注意力机制中,使模型在领域知识引导下既可聚焦文本内部的重要信息,又可抑制因外部信息引入而可能产生的噪音问题,显著改善摘要的生成质量。

    [结果] 在三个生物医学领域数据集上的实验结果验证了所提方法的有效性,本文所提模型PG-meta在三个数据集上的ROUGE均值达到31.06,比原PG模型ROUGE均值高1.51。

    [局限] 仍有待进一步探索不同的生物医学领域背景知识获取方式对于模型增强效果的影响。

    [结论] 所提方法可帮助模型更好的学习生物医学文本深层含义,提高摘要生成质量。


  • 曹喆, 郭慧兰, 吴江, 胡忠义

    [目的] 从技术-用户的互动视角,揭示用户的技术感知与元宇宙技术需求的差距,为元宇宙技术优化提供参考借鉴。

    [方法] 基于京东平台上64件VR产品的36720条评论信息,运用LDA主题建模与BERT情感分类的混合方法,构建关注度和喜爱度指标,定量分析用户对VR技术的感知程度,并结合产品客观属性和元宇宙技术需求展开对比分析。

    [结果] 从用户评论中提炼出VR产品的功能、品控、使用感受、营销和视听体验五个感知属性,用户在视听体验和营销两个属性上的感知程度分别为最高和最低;功能、使用感受、视听体验三个属性在元宇宙的沉浸体验、易接入性、互操作性和可扩展性等四个技术需求维度上具有高沉浸度、感官失调、多样连接、时空限制、多人互动、移动障碍、多功能设计、设备问题八种进退步表现。

    [局限] 样本的多元性与均衡性有待提升;未对其它类型的元宇宙技术设备进行拓展研究。

    [结论] 通过感知属性提炼、感知偏好识别和感知程度分析,发现当前VR产品能够满足元宇宙在沉浸体验方面的技术需求,但在易接入性、互操作性和可扩展性方面尚存提升空间;结合产品客观属性,本研究能够为元宇宙相关技术的优化提供参考。


  • 杨德芳, 唐莉

    [目的]负责任研究与创新是全球科技竞争与可持续发展的一个重要议题,本文从国际文献出发,分析负责任研究与创新领域的研究概况,知识基础和研究热点。[文献范围]本文以Web of Science三大核心数据库收录的657篇负责任研究与创新相关文献为研究样本。[方法]运用文献计量和可视化分析等方法,对负责任研究与创新领域的研究成果和研究热点进行数据挖掘。[结果]研究发现,荷兰和英国学者引领了负责任研究与创新领域,中国在该领域的国际发表于2014年,总发文量14篇。负责任研究与创新领域的研究建立在技术评估和预期治理,欧盟情境下的概念和特征以及概念思辨和强化等基础之上。研究热点主要聚焦于科学社会与治理,概念框架与实践,技术发展的伦理与价值,可持续性研究等四个方面。[局限]数据范围需进一步扩充,热点演化趋势需要进一步展开分析。[结论]研究呼吁,中国学者未来在负责任研究与创新领域的研究中在关注国际动态的同时,需与中国特有的研究问题和研究实践相结合,为我国新兴技术负责任发展保驾护航。

  • 张永伟, 刘婷, 刘畅, 吴冰欣, 俞敬松

    [目的]探究高效的大规模文本语料库句法信息检索方法。

    [方法]依据句法信息特点,将句法信息线性化索引,直接提供检索时条件匹配所需的各种信息,从而提升检索速度。

    [结果]使用2851万句《人民日报》语料进行实验,26个检索条件平均用时802.6毫秒,达到了大规模语料库检索系统对检索效率的要求。

    [局限]实验使用的检索条件数量较少,未使用更多的检索条件进行验证。

    [结论]本文方法有助于在大规模文本语料库中快速地检索词法信息、依存句法信息和成分句法信息。


  • 陈圆圆, 马静

    [目的]针对现有多模态讽刺检测模型中存在预测准确率不高、多模态特征难以融合等问题,本文设计一种SC-attention融合机制。

    [方法]采用CLIP和RoBERTa模型分别提取图片、图片属性和文本三种模态特征,经由SENet的注意力机制和Co-attention机制结合构成的SC-attention机制将多模态特征进行融合,以原始模态特征为引导,合理分配特征权重,最后输入至全连接层进行讽刺检测。

    [结果]实验结果表明基于SC-attention机制的多模态讽刺检测的准确率为93.71%,F1指标为 91.89%,该模型与采用同样数据集的模型相比,准确率提升了10.27%,F1值提升了11.5%。

    [局限]模型的泛化性需要在更多数据集上体现出来。

    [结论]本文所提出的SC-attention机制减少了信息冗余和特征损失,有效提高了多模态讽刺检测的准确率。


  • 曾闻, 王曰芬

    [目的]从识别指标信息的多元与不同赋权及排序算法组配的综合视角,结合大规模数据集的特点,研究核心专利组合识别方法的构建及其应用对比。[方法]通过交叉组配构建5种组合识别方法,选取6项专利特征信息,以人工智能领域为例,从整体与局部层次对比各方法的特征和应用情境。[结果]不同组合识别方法在各自不同的数据集与时间段应用时保持较高的一致性。同时不同方法识别的结果,随着要识别的核心专利数量增加而两两间重合率逐渐减少,例如方法一与方法四的核心专利重合率由80%降至47%。[局限]仅应用一个领域,组合识别方法应用的特点可进一步挖掘。[结论]所构建的5种组合识别方法,基于专利数据集的规模、分散程度、时间跨度和特征值表现及技术领域发展的差异,可分别应用到核心专利识别的不同结果需求与具体情境中。针对快速发展的人工智能领域,熵权法赋权结合灰色关联分析和熵权法赋权结合TOPSIS这两种方法识别效果更优。

  • 王代琳, 刘丽娜, 刘美玲, 刘亚秋

    [目的]针对现有的推荐算法多以根据图书的书名、关键字、摘要进行推荐,或根据读者的图书浏览行为挖掘读者兴趣偏好进行推荐,而忽略了读者对于图书的内容框架——目录的关注,为了解决现有方法缺乏表达读者对于图书目录的关注而导致推荐准确度不高的问题,本文提出一种基于图书目录注意力机制的读者偏好分析方法及其个性化推荐模型IABiLSTM。

    [方法]根据图书标题和目录内容提取出图书的语义特征:利用BiLSTM网络捕获文本的长距离依赖和语序上下文信息,使用双层Self-Attention机制增强图书目录特征更深层次的语义表达;分析读者历史浏览行为,使用兴趣函数拟合量化读者兴趣度;将图书的语义特征和读者兴趣度相结合生成读者偏好向量,计算候选图书语义特征向量和读者偏好向量的相似度来预测评分完成个性化图书推荐。

    [结果]模型分别在豆瓣读书和Amazon两个数据集上对MSE、Precision、Recall三项指标进行了考察,当N值为50时结果分别为1.14%和1.20%、89%和75%、85%和73%,优于对比模型,验证本文模型有效提升了图书推荐的准确度。

    [局限]模型仅在豆瓣读书和Amazon两个数据集上进行了验证,在其他数据集上的泛化性能有待进一步验证。

    [结论]本文通过提高对图书目录的注意力关注度和对读者历史浏览交互行为的分析,有效表达读者的兴趣偏好,为提高图书推荐的准确度做了重要贡献。本文所提模型不仅适用于基于图书内容和读者浏览行为隐形偏好挖掘的推荐任务,在其他常见的NLP任务中亦能提供重要的借鉴意义。

  • 赵鹏武, 李志义, 林小琦

    【目的】研究中文任务实体关系中动态语义信息的特征抽取和中文人物关系识别。【方法】采用公开的人物实体关系语料集,使用注意力机制+改进的卷积神经网络模型从训练数据中自动提取特征,从不同模型实体关系识别效率、不同关系标签实体关系抽取效果以及不同向量训练集实体关系抽取效率等多维度对实验结果进行对比和验证。【结果】实验结果表明:在中文人物关系抽取任务上,CNN+Attention模型的预测准确率和全局性能均优于SVM、LR、LSTM、BiLSTM以及CNN模型,并比抽取效果相对较优的BiLSTM模型准确率高0.9%,召回率高0.8%,F1值提升0.8%。【局限】仅使用单一的样本数据来源,未拓展多种数据来源渠道,样本数据集范围不够广。【结论】基于注意力机制的卷积神经网络,在中文人物关系抽取任务中能够有效地提升实体关系抽取的准确率和召回率。

  • 张治鹏, 毛煜升, 张李义

    [目的]挖掘在线预订平台评论中的观点原因,提出一个观点原因句分类模型(DERNIE-BiLSTM)。[方法]构建了一个数据量百万级别的酒店领域的评论语料库并人工标注一个数据集ORSC,将语料库额外加入ERNIE自有的预训练集中并通过预训练提取ORSC数据集的文本特征,利用BiLSTM模型融合特征并识别包含观点原因的评论。[结果] 在ORSC数据集上,DERNIE短分类准确率为0.9133, F1值为0.9120,经过BiLSTM融合特征后的准确率提升到0.9457, F1值提升到0.9462。 [局限]预训练语言模型对额外语料库数据量的要求大,对计算速度和效率会产生一定的影响。[结论]基于DERNIE-BiLSTM预训练模型的提取特征和融合的方法,能更精准的挖掘评论中的观点原因句。

  • 华 斌, 康月, 范林昊

    智能问答   文本挖掘   电子政务   政策知识建模   知识图谱   知识聚合

  • 胡忠义, 张硕果, 吴江

    [目的]缓解钓鱼网站识别中URL表征不充分的问题,构建一种基于URL多粒度特征融合的识别模型。

    [方法]分别基于独热编码和BERT深度表征URL的字符级和单词级特征,进而通过融合两种粒度的深度特征构建钓鱼网站识别模型。

    [结果]所构建的融合多粒度URL特征的识别模型在本文数据集上的准确率、召回率、F值以及ROC值分别达到了96.1%、0.98、0.97、0.97,比单一粒度的表征模型、基准分类器和以往方法具有更好的识别性能。

    [局限]除了URL特征表征,有待进一步融合包括URL页面内容在内的更多源特征。

    [结论]构建的模型可以更全面的深度表征URL特征,有效提升了钓鱼网站的识别准确性。


  • 曹丽娜, 张健, 陈进东, 樊辉

    [目的]针对中小微企业质量难以精准刻画的问题,开展基于深度学习的中小微企业综合质量画像技术研究。

    [方法]本文设计涵盖质量创新能力、过程质量控制、产品质量水平、经营质量与风险、财务质量等五个维度的中小微企业综合质量画像体系,构建多元化的综合质量画像技术,并重点针对质量抽检报告、用户评论等网络文本数据,提出基于深度学习方法的中小微企业综合质量画像构建技术。

    [结果]实证表明,在F值上,基于Bert预训练的模型对三类质量实体的识别效果较基准模型分别提高了4.66%、1.99%、4.25%,基于Word2Vec预训练的评论分类模型较传统TF-IDF模型提高了6.03%。

    [局限]限于数据的可获得性,更多企业质量相关维度的画像有待进一步优化和完善。

    [结论]深度学习技术扩大了企业质量画像的维度、提升了企业质量画像的准度,为企业质量服务机构的服务模式创新提供了技术支撑。

  • 曲宗希, 沙勇忠, 李雨桐

    [目的]预知重大传染病的发展趋势可提前制定应对措施,探索基于多机器学习的集合预测方法建立准确有效的传染病疫情预测模型。

    [方法]基于灰狼优化算法,搜索ANFIS、LSSVM和LSTM三种机器学习的最优权重组合,建立重大传染病集合预测模型。通过COVID-19疫情数据设计实验评估模型预测性能。

    [结果] ANFIS、LSSVM和LSTM分别适用于确诊、死亡和恢复病例情景;基于灰狼优化的集合预测模型在三种情景下的R2分别达到了0.987、0.993和0.987,相较于单项模型的平均RMSE分别降低了38.79%、64.40%和53.88%。

    [局限]模型需使用其他重大传染病疫情数据进一步验证。

    [结论]不同机器学习的预测表现各有所长,基于灰狼优化的集合预测模型能够有效融合多机器学习优势,从而获得稳定、精确的预测结果。

  • 高劲松, 张强, 李帅珂, 孙艳玲, 周树斌

    [目的]探究诗人在时空轨迹和情感维度的变化情况,为人文领域的知识发现提供新的研究视角。

    [应用背景]为提升当前数字人文研究过程的可视化效果及研究结果的可读性,通过应用本体技术和GIS技术来表达诗人的时空情感轨迹,为相关领域的学者提供新的研究思路和可视化的研究方法。

    [方法]以李白为例,构建诗人本体模型,对诗人的相关概念和关系进行知识建模,再利用GIS技术展示李白的时空情感轨迹变化,挖掘背后的隐性知识。

    [结果]李白的人生轨迹跨越了大半个中国,其中以到今南京轨迹次数为最。从空间角度看,当涂为李白“悲喜交加”地,南京为李白的“悲”地。从时间角度看,青年时期李白“喜”多于“悲”,中年时期“悲”多于“喜”,晚年时期“悲喜交加”。

    [结论]本文为研究诗人的时空情感轨迹提供了实践经验,为人文领域相关问题的研究提供了新思路和新方法。