【目的】解决基于深度学习的实体关系抽取方法在古籍小样本场景下,由于依赖大规模标注数据而导致的微调效率低、抽取性能不佳问题。【方法】提出一种基于提示学习和抽取式阅读理解的古籍礼仪实体关系联合抽取方法。首先,将实体识别和关系抽取任务整合至一个抽取式阅读理解框架中,简化模型结构。然后,利用领域知识设计三种轻量级提示策略,有效降低联合抽取任务的复杂度。最后,基于预训练语言模型和全局指针网络构建古籍礼仪实体关系联合抽取模型MPG-GP (MRC-Prompt-GujiBERT with Global Pointer),有效抽取古籍中的礼仪实体关系三元组。【结果】在构建的古籍礼仪实体关系联合抽取数据集上进行实验,本文方法F1值比基线方法提升了0.32~6.05个百分点。【局限】 在构建提示模板时,未采用可学习的软提示方式,并且提示设计仍有进一步优化的空间。【结论】所提方法能够有效缓解深度神经网络对大量标注数据的依赖,提升了模型在小样本古籍礼仪实体关系联合抽取任务上的准确性,为古籍低资源场景信息抽取提供了新的方法和思路。
【目的】针对当前案件相似度计算方法存在难以捕捉关键法律要素间长距离、全局和非连续的法律关系,以及文本相似但案件不相似的难分样本区分问题,提出一种更有效的案件相似度计算方法。【方法】构建案件知识图谱结构化表示案件事实,结合图卷积与双向长短期记忆网络编码案件知识图谱,感知主客体间复杂的法律关系,引入难/易混合的负样本挖掘机制提升区分难分样本的能力。【结果】在“中国法研杯”司法人工智能挑战赛提供的基准数据集上的实验表明,所提模型相较冠军模型准确率提升11个百分点,较基于注意力卷积神经网络方法提升7个百分点。【局限】 案件知识图谱构建可能会影响相似度计算的效率,但可以通过离线图谱构建、节点预向量化等计算加速策略来克服。【结论】本方法能有效感知关键法律要素间复杂的法律关系,学习不同案件的区别与联系,提升案件相似度计算性能。
【目的】针对英文文本中存在多重嵌套和实体语义不明确的问题,提出一种融合单词多元信息的嵌套命名实体识别方法GTR-NNER。【方法】基于三仿射注意力引导的图卷积网络模块融合单词信息、单词位置信息、单词边界信息、单词标签信息以及语法信息,根据得到的多元信息进行跨度枚举,最后通过判别器完成实体识别。【结果】在两个嵌套数据集上进行10折交叉验证,GTR-NNER方法的平均F1值分别为84.38%和91.44%;在两个非完全嵌套数据集GENIA和ACE2005上,GTR-NNER方法的F1值分别为82.19%和89.27%。【局限】 融合单词的多元信息致使模型的收敛速度变慢。【结论】在命名实体识别模型中结合单词的多元信息能够提高嵌套实体识别的效果,且实验结果证明本文融合单词多元信息的方法是有效的。
【目的】为了有效识别非结构化学术文献中有价值的实体,建立一个统一的实体识别框架。【方法】采用BERT+Global Pointer(GP)框架,通过整体统一的思想建模实体边界,设计适配指针机制的交叉熵损失函数,并结合CRF、GPT-4和BERT进行多模型对比验证。【结果】在不同类型的数据集上,本文模型的准确率、召回率和F1值均有不错表现。在非嵌套数据集上的平均F1值分别达到95.38%和79.81%,而在嵌套数据集上的平均F1值分别达到66.91%和61.47%,且模型总体性能在不需要人工制定特征模板的情况下优于对比模型。【局限】 对于整体的嵌套实体识别,GP模型为了能够从应用的角度高效而精准地识别相应的实体,仍需要进一步优化。【结论】GP模型在实体统一识别中可以有效利用实体的位置特征,对于复杂的嵌套实体,不仅能提高识别的准确度,还能兼顾识别的便捷性。
【目的】为大语言模型场景下的个人数据定价提供一种量化隐私损失、补偿隐私价值的方法。【方法】基于前提假设,结合差分隐私,以方向统计学为基础,提出一种能够评估数据隐私值并量化数据价值的方法,进而利用SST-2数据集进行方法评估。【结果】在隐私参数与准确率、预算与准确率的关系方面,随着隐私参数的增加或预算的增加,模型准确率均会增加,证明了方法的有效性。【局限】 数据集和模型架构的选择较为单一;在定价机制上仅考虑了隐私因素对价格的影响。【结论】所提方法能够评估数据的隐私值,并量化数据价值,为大语言模型下的个人数据定价提供支撑。
【目的】提出文本嵌入动态图神经网络的链路预测方法,旨在对人工智能领域技术创新的融合趋势进行建模与预测,揭示潜在的技术关联和创新路径。【方法】将专利摘要文本融入动态图神经网络的节点特征表示中,借助动态图神经网络的学习能力得到更准确的链路预测结果。【结果】以国内AI领域为例进行验证,相较于相似度模型和传统图表示学习模型,本文方法的AUC提升约0.06。【局限】 由于嵌入维度过大,难以与图神经网络融合,专利摘要文本嵌入时未使用大语言模型。【结论】该方法预测准确度高,增强了对未来AI领域专利融合预测的可信度,是开展细粒度链路预测的一种有效方法。
【目的】为促进发明人之间的合作交流,提高创新效率,本文重点研究如何帮助发明人从海量专利文献中识别潜在合作伙伴及辨析合作伙伴类型。【方法】从动态网络视角考虑发明人合作网络结构和节点属性的动态变化,提出基于动态图卷积网络的发明人潜在合作伙伴识别方法,进而细分发明人合作伙伴类型。【结果】采用集成电路领域专利数据进行实证,本文方法AUC值达到0.846 4,错误率为0.289 7,ER+为0.083 0,ER-为0.206 7,均显著优于基线模型。【局限】 仅考虑了发明人的专利信息,忽略了发明人的多源创新成果,如论文信息等。【结论】本文方法利用合作网络结构及节点属性随时间的动态变化,在进行伙伴识别时能够有效提升模型准确率。通过识别潜在合作伙伴及细分伙伴类型,有助于发明人选择恰当的合作策略,提高合作效率和效果,有效补充了现有合作伙伴选择方法研究框架。
【目的】探究跨领域知识融合对高价值专利的影响,揭示高价值专利的特征。【方法】以中国专利金奖获奖专利表征高价值专利,从IPC分类号与知识单元两个维度分别测度专利的跨领域知识融合程度,并运用回归分析探究其对专利是否获奖与专利单一价值维度的影响。【结果】高价值专利在IPC分类号上表现出更低的跨领域程度,但知识内容更加丰富。IPC分类号和知识单元表征的跨领域程度与专利单一价值维度之间分别呈现“倒U”型关系与负向影响关系。【局限】 仅以中国专利金奖获奖专利表征高价值专利,无法表征高价值专利的全部特征。【结论】本研究有利于尽早识别与保护高价值专利,促进专利源头质量管理和转化运用。
【目的】解决潜在高价值专利识别过程中序列建模的长距离依赖问题以及序列特征的关键信息获取问题,提升潜在高价值专利识别精准度和可解释性。【方法】提出一种基于预训练模型XLNet和双向注意力机制的潜在高价值专利识别模型XLBBC,通过XLNet模型进行专利文本表示和高质量语义获取,再利用BiGRU网络获取全局文本序列信息,随后嵌入BiAttention层使模型集中注意力于输入序列的不同部分,联合CNN层捕捉专利文本中的关键短语和特定模式。在非晶合金、工业机器人、钙钛矿太阳能电池和基因芯片等领域的混合专利数据集展开实证研究。【结果】XLBBC模型在一定数据规模(40 000条专利数据)时具备高准确性(0.89)和一致性(0.65)的双重优势;模型的预测准确率达到42%左右,较既有研究模型的准确率提升约9%。【局限】 未考虑标准必要专利与高价值专利的关联关系和融合机制,算法效率和可扩展性仍需进一步优化。【结论】XLBBC模型在处理复杂文本数据时更具优势;XLNet模型在全局语义理解上具备优越性;当注意力层处于XLNet-BiGRU层和CNN层之间时,会取得更好的模型效果。
【目的】结合“科学-技术”文本内容特征及复杂网络关系开展关键核心技术识别方法研究,为政府、科研机构和产业界合理制定科技战略规划、开展科技创新活动提供支撑。【方法】运用Sentence-BERTopic模型对句子级别的论文和专利文本语料进行深层次语义融合及知识主题建模,根据论文和专利文献的引文关系构建“科学-技术”知识主题复杂网络,然后结合节点质量特征、时间衰减因子、入链节点边的权重和出度等因素对传统的PageRank算法进行改进,并对领域内节点重要性和影响力进行排序,最后结合重尾分级法遴选出关键核心技术。【结果】在数控机床领域进行实证研究,从中遴选出热误差建模与补偿、数控机床控制技术、数控机床进给系统等53个关键核心技术,将此结果与国内外相关政策规划进行对比,基本涵盖了领域内重要的关键核心技术。【局限】 缺乏对引用位置、引用动机、引用行为及句子目的等深入分析,可能影响识别的准确性。【结论】通过构建“科学-技术”复杂网络及KCR算法全面揭示科学和技术的知识结构及其拓扑特征,实现了关键核心技术的细粒度精准量化识别。
【目的】基于学术谱系构建学科知识转移网络,为考溯学科知识体系演化特征提供参考。【方法】首先,基于导学关系数据构建学术谱系网络及识别学者所处代际;其次,借助学科知识分类体系,使用混合推荐算法重新组织并关联学者知识领域;最后,构建知识转移网络并分析学科知识的代际演化和时序演化特征。【结果】获取计算机科学领域学术谱系及论文数据,系统阐述所提方法的应用过程。研究发现,计算机科学领域内学者代际关系多为两代关系,跨学科师承关系占据重要地位。随着领域内代际的增加,学科知识转移更偏向于领域内子领域间传播或同一子领域内的传承。【局限】 知识转移是由多种途径实现的,研究未充分考虑融合引文等多源数据,学术谱系数据规模和质量对分析结果具有一定影响。【结论】从学术谱系视角出发构建学科知识转移网络并进行演化分析,能够细化科学发展过程的描述粒度,为探索知识转移的微观机制提供方法参考。
【目的】针对现有情感分析研究中多模态数据融合不充分且很少考虑模态间异构性的影响,从而导致情感分类准确率不高的问题,提出一种基于Translate机制的交叉融合多模态情感分析模型。【方法】首先通过Translate机制实现文本、图像和音频模态特征间的相互转换;然后将转换后的模态特征与目标模态特征进行融合(单模态融合),从而避免不同模态的异构性对模型性能的影响;最后使用交叉融合将不同模态特征充分交互,生成充分学习单模态信息的多模态特征,进而输入分类器中进行情感分类。【结果】在CMU-MOSI和CMU-MOSEI公开数据集上与当前主流情感分析模型进行对比实验。相较于次优模型,所提模型的准确率和F1值分别提升0.96和1.00个百分点。【局限】 多模态数据中各模态对于情感分析的贡献度不同,模型没有特别考虑图像和音频模态贡献度高于文本模态的场景。【结论】所提模型充分融合了模态间信息,避免了模态间异构性的影响,能够有效提升模型整体性能。
【目的】从科技文献中高效挖掘科学实验知识与数据,构建科学实验知识图谱,为知识发现提供高质量数据支撑。【方法】利用事件知识图谱技术对科学实验的复杂性、时序性及知识和数据融合性等知识对象进行统一的知识表示与建模,构建科学实验知识图谱模式层;利用大语言模型提升科学实验知识图谱数据层的知识抽取效率,并以有机太阳能电池为例进行实证。【结果】采用人工标注与大语言模型微调方式构建了一个有机太阳能电池领域科学实验知识图谱,包含34类节点,9种关系,总计有24 348个节点和123 642个关系。【局限】 数据来源仅包括论文和专利;科学实验知识图谱构建需要较多专家人工参与,效率尚待进一步提高;未考虑细分领域中的细粒度研究规程和研究方法检验规则等。【结论】本文提出的学科领域科学实验知识图谱构建方法可为实验方案推荐、科学实验演化分析、AI for Science等提供高质量数据支持,有效支撑各类知识发现场景。
【目的】 探讨直播电商中弹幕内容与行为特征对消费者购买行为的影响以及主播与产品关联度的调节效应。【方法】 基于详尽可能性模型,利用抖音平台的弹幕数据和灰豚平台的消费数据,结合文本挖掘和零膨胀负二项回归分析,从作为中心路径的弹幕内容特征和作为边缘路径的行为特征两方面探究消费者购买行为的影响因素,并通过分组回归分析主播与产品关联度的调节作用。【结果】 信息丰富度、社交互动程度和弹幕数量正向影响购买行为;弹幕情感极性对购买行为的影响呈倒U形;与主播与产品关联度低的直播间相比,主播与产品关联度高的直播间弹幕情感极性对购买行为的正向影响范围更大。【局限】 仅选取单一直播电商平台的弹幕,研究结果缺乏普适性。【结论】 从弹幕视角分析消费者实际购买行为的影响因素,能够为直播电商模式下商家与消费者之间的有效沟通以及提升带货效果提供参考和建议。
【目的】 在弹幕视频传播效果预测模型中融入情感特征以提升预测效果,利用模型可解释性量化各特征变量的影响。【方法】 基于BERT-BILSTM对弹幕视频传播影响因素情感特征进行提取。提出基于PCA-CVRFE-RF-XGBoost的组合预测模型对弹幕视频的传播效果进行预测,基于1 515部文化弹幕视频的传播数据进行实证分析。【结果】 挖掘出31个变量覆盖了信息质量、信源可信性和信息传播感知质量三方面特征。在弹幕情感特征提取准确率上,BERT-BILSTM模型在测试集中积极和消极分类的精确率分别达到0.81和0.85,F1值达到0.84。实验结果表明,基于CVRFE-RF-XGBoost构建的弹幕视频传播效果预测结果优于SVR、BP神经网络模型。【局限】 弹幕文本情感分析的粒度仍待细化。【结论】 所提模型为情感特征复杂、高动态性的弹幕视频传播效果预测提供新方法。通过样本实证结果表明,信源可信度的特征贡献度高于信息质量,这意味着信源可信度对弹幕视频传播效果的影响程度更深,其中,媒介平台口碑、媒介平台专业性、个人影响力、内容发布频次等特征尤为关键。
【目的】 揭示导航工具的可解释性特征带来的用户认知差异机理。【方法】 选择两种基于主题和基于目录的文本标记导航工具THC-DAT和BOOKMARK,利用眼动追踪技术,采用曼-惠特尼秩和检验,探析其不同主题覆盖度、导航准确度、语义可读性等可解释性特征给用户完成阅读任务带来的认知差异。【结果】 导航工具可解释性特征重要程度因任务难度而异。在低难度任务中,导航准确性最影响认知效率、认知效果和优化导航辅助认知策略;在高难度任务中,语义可读性则最影响认知效率。【局限】 研究样本数量有限,结构单一;仅在两种类型导航工具中进行认知差异对比。【结论】 以可解释性特征为切入视角,为提升阅读导航工具的知识组织服务水平,进而优化用户阅读质量提供了新思路。
【目的】 为充分挖掘特定领域的关键技术及分支,全面揭示其技术演化轨迹,提出一种集成图嵌入和路径分析的技术演化路径识别方法。【方法】 开发无监督图嵌入模型,将专利结构关系、文本及节点信息传递、聚合的知识等特征,融合为多维语义向量,用于拓展技术路径的同时提升社区划分效果;从网络拓扑和语义关联视角,提出主路径及衍生路径的拓展方法,并构建技术衔接点测度指标,识别路径上具有发展潜力技术领域。【结果】 在无人机飞行控制系统技术的实证中,识别出4个子领域的技术演化路径及分支,并发现该领域中模式识别技术、多处理器和数据融合技术具备良好的发展前景。【局限】 暂未将技术演化模式的形成机制因素纳入识别框架中。【结论】 集成图嵌入和路径分析的方法在路径拓展效果、应用普适性等方面具有一定优势。
【目的】 对公众诉求中反映的矛盾进行识别与多标签分类,探究不同地区不同矛盾类型与回应率差异。【方法】 以养老保险纠纷为例,通过领域词库构建、关键诉求内容提取与简单数据增强两种方式对ERNIE模型进行知识与数据增强;构建ERNIE-BiLSTM矛盾识别分类模型,实现对低数据资源场景下的公众诉求中矛盾的深度挖掘,解决现有研究中缺少定量方法进行社会矛盾分析的问题。最后,基于识别分类结果对矛盾进行差异性分析。【结果】 数据收集区间内,河南省与辽宁省的养老保险缴纳类矛盾较多,而广东省与北京市更容易发生养老保险服务类矛盾,不同矛盾类型的回应率具有较大差异。【局限】 未考虑不同矛盾类型之间的相关性。【结论】 研究揭示了养老保险纠纷矛盾的省际差异,可以帮助决策者把握矛盾热点与态势,辅助政府决策。
【目的】 为更灵活地捕捉交通流数据的时空特征,实现更精确的多变量交通流预测,本文提出一种位置感知时空图卷积网络多变量时间序列预测模型PASTGCN。【方法】 将交通流时序数据的空间位置和周期性时间特征表示为显式时空位置嵌入;在时空卷积结构基础上,在时间卷积网络中引入空间信息,实现空间感知的时间序列建模。考虑到空间关系的动态变化,使用静态和动态的双重图学习方法捕捉空间依赖。【结果】 在两个真实世界交通流数据集上进行实验,结果表明PASTGCN模型能有效预测多变量交通流速,误差对比现有深度学习模型最好可降低1.59%。【局限】 实验数据集有限,图学习方法及多次图卷积使算法的时间复杂度较高。【结论】 PASTGCN模型能有效利用时空位置信息实现更准确的时空交通流预测。
【目的】 以拟人为无标范畴的辞格代表,探索多维融合的拟人辞格识别策略。【方法】 依据依存句法理论,通过认知框架构建拟人辞格生成与理解认知模型,提出一种多特征融合的拟人辞格自动识别方法WPGBA,该方法对修辞文本的词向量、语法向量、词性向量、上下文语义等多维特征分别表征与融合,使用K12阶段语文教材作为实验数据。【结果】 通过WPGBA方法完成自动识别模型训练,实验显示在识别实验中准确率为90.40%,召回率为87.58%,F1值为88.65%,相较实验组其他方法准确率最少提升6.27个百分点。【局限】 在进行篇章阅读理解、语言能力评测等实际应用时会出现新的复杂句,由于实验数据集规模有限,方法泛化能力受到制约。【结论】 从认知角度出发设计的表意特征与上下文语义特征融合策略,对无标范畴中拟人辞格具有较好识别效果。
【目的】 提出基于Generator-Evaluator框架的问题描述动态生成方法,以能够更准确地掌握与检索问答。【方法】 在Generator中,建立融合多种注意力的问答编码层;提出通过双向注意力权重改进指针生成网络以建立解码层。在Evaluator中,综合使用强化学习和交叉熵建立混合评估器以优化Generator,设计面向问题描述生成的奖励函数,以建立最优的问题描述生成模型。【结果】 使用webtext2019zh公开数据集进行实验,结果表明所提出的问题描述动态生成方法在句法方面的RBMean指标和语义方面的CRMean指标分别提升15.26%与3.34%。【局限】 仅基于问题标题与答案进行研究,未结合答案评论构建更丰富的奖励函数。【结论】 通过所提方法能够生成既覆盖原始问题内容,又体现最新答案知识的问题描述。
【目的】 根据多模态数据特征,从社交网络用户中识别出社交网络谣言传播者。【方法】 考虑到网络谣言传播呈现多模态与用户样本不平衡的特点,首先对原始数据进行过采样处理,然后将用户属性、微博发文等传统特征与用户生成内容中的多模态信息特征深度融合;在XGBoost模型基础上构建能够广泛融合社交网络用户特征的社交网络谣言传播者识别框架,并在模型输出层嵌入SHAP值,增加算法可解释性。【结果】 XGBoost模型在经过样本平衡处理的数据集上综合性能表现最优,召回率提升12.3个百分点。融合多模态信息特征的识别方法准确率可达0.912,比对照组提升2.5个百分点。【局限】 多模态信息特征仅考虑文本、图片两种模态,未来可进一步结合音频、视频等模态信息拓展研究。【结论】 基于多模态数据与过采样算法训练得到的识别方法,能够有效完成社交网络谣言传播者的识别任务。
【目的】 对海量警情文本数据进行智能化分类。【方法】 针对警情文本分类任务,提出一个基于BERT-DPCNN的文本分类模型。采用BERT预训练模型生成文本词向量,通过优化DPCNN模型中的激活函数和改进动态学习率提高分类性能。【结果】 将BERT-DPCNN与BERT、BERT-CNN、BERT-RCNN、BERT-RNN、BERT-LSTM、ERNIE等6类模型进行对比实验,结果表明BERT-DPCNN的准确率、召回率和精准率最佳。在二分类任务中,BERT-DPCNN的准确率达到98%以上,十一分类任务中,其准确率达到82%以上。【局限】 模型参数较多,实验次数有限,有待进一步测试。【结论】 基于BERT-DPCNN的文本分类模型能有效提升警情文本分类的准确率,为公安部门进行警情分析和研判提供数据支撑。
【目的】 减少文本分类过程中因语言差异和文本特征选择所导致的语义偏离和丢失,保留更多的文本信息。【方法】 首先,采用SBERT的预训练模型进行句子表示;其次,使用句向量旋转相似度方法计算不同文本中句子的相似度并对文本内的句子加权形成文本向量;最后,集成机器学习和神经网络的分类方法完成跨语言文本分类。【结果】 在中、英、俄、法、西班牙文等跨语言文本数据集和多语言公开数据集Reuters的分类任务上进行实验的结果表明,所提方法的准确率约为96%,较已有方法有显著提升,且在召回率、精确率和F1值等评价指标上均有所提升。【局限】 未考虑句子在文本中的出现位置对其权重的影响。【结论】 句向量加权的文本表征方法能够减少语义偏离和语义丢失,从而提升跨语言文本分类的性能。
【目的】 基于意图识别构建更准确的语义相似度分类模型,为中文医疗健康查询服务提供更精准的答案匹配结果。【方法】 融合BERT和卷积神经网络(CNN)构建意图识别模型,然后将其作为模型嵌入层构建嵌入意图识别的孪生BERT(ITBERT)语义分类模型。【结果】 在CHIP-STS数据集上,相较于BERT和TextCNN单一模型,融合模型在意图识别的Top-1结果准确率分别提高了1.5和8.2个百分点,达到了73.6%;Top-3结果准确率分别提高了3.2和7.6个百分点,达到了91.2%,证明了融合模型对于意图识别效果的提升。对于语义相似度分类结果,相较于基准模型,ITBERT模型AUC值提高了0.015~0.087,证明了意图知识的嵌入对医疗语义相似度分类效果的提升。【局限】 人工标注的意图信息存在一定的偏差,可能会影响语义相似度的分类结果。【结论】 融合模型可以改善医疗健康查询服务中的意图识别效果,嵌入识别的意图知识可以提高语义相似度分类模型的准确率,有利于提供更准确的医疗健康自动问答服务。
【目的】 解决常规文本分类任务中由于领域训练数据稀缺、类型间差异大等因素导致的分类准确率低的问题。【方法】 引入深层金字塔卷积网络与多门控制单元机制,构建基于BERT-DPCNN-MMOE模型框架的分类模型,通过设计多任务实验和迁移学习实验,对标8种基线模型,验证本文分类模型的有效性。【结果】 自主构建多任务跨类型的数据作为训练测试基础,发现本文模型在多任务实验和迁移学习实验中的分类效果均优于8种基线模型,F1值的提升幅度均超过4.7个百分点。【局限】 模型在其他领域的适应性需进一步研究。【结论】 基于BERT-DPCNN-MMOE分类模型在多任务、跨类型文本分类任务上能够表现出更优的效果,对未来专题情报分类任务具有重要意义。
【目的】 为解决中文反讽短文本中存在的特征稀疏问题,提出一种融入夸张表征的中文反讽识别方法,挖掘短文本中的夸张表征以提升中文反讽识别准确率。【方法】 通过点互信息和语义相似度计算分别获取与反讽领域相关的共现词对集、感叹词集与程度副词集,合并上述词集构建夸张表征词典;然后,通过正则表达式匹配反讽文本得到特殊标点符号序列并经独热编码获得特殊标点符号特征,采用RoBERTa-wwm-ext模型获取文本语义特征,利用WoBERT模型将夸张表征词典内的词及词对转化为动态词向量,获取夸张表征;最后,改进多头注意力机制,同时关注文本语义特征、夸张表征以及特殊标点符号特征,经Softmax函数得到识别结果。【结果】 将公开的Ciron和ChineseSarcasm-Corpus数据集合并后进行实验,本文方法准确率达81.49%,F1值达81.24%。【局限】 构建的夸张表征词典依赖语料质量,泛化能力有限。【结论】 本文方法通过挖掘中文反讽短文本中存在的夸张表征,结合文本语义信息,能有效丰富文本语义表示,提升中文反讽识别的准确率。
【目的】 针对出版物推荐领域可能存在的数据稀疏性问题,提出一种基于LDA与迁移学习的潜在非负因子分解主题推荐模型,提高在数据稀疏场景中推荐的准确率。【方法】 使用非负矩阵分解填充非负数据的高维稀疏矩阵,基于LDA与非负矩阵分解构建隐含主题模型,充分考虑用户评论信息的主题分布特征,进一步将用户不同维度的信息应用到评分预测中,缓解数据的稀疏性。同时引入迁移学习机制,从相关的其他类别出版物预训练模型中提取和迁移模型参数,协助完成目标模型特征学习任务,提高对冷门出版物推荐的有效性。【结果】 在三个出版物数据集中与三种基线方法进行对比实验,本文模型的精确率、F1值和NDCG平均为0.773 2、0.708 5和0.746 8,各指标结果总体优于其他基线模型。【局限】 当系统中用户数量过少时,需通过其他方法进行冷启动。【结论】 本文所提方法对用户兴趣特征泛化能力强,能进一步缓解模型中的流行度偏置以及数据稀疏性问题,有效提高出版物推荐的准确率。
【目的】 深入挖掘文献特征间的深层次关联关系,提升学术文献作者姓名消歧的效果。【方法】 结合机构名称规范库、学科分类体系、主题词表等规范知识库的先验知识,设计一种基于知识增强的特征提取框架,在规范数据的基础上,通过异质信息网络嵌入融合文献特征的语义信息和关系信息,生成高质量的文献向量表示,使用层次凝聚算法进行聚类。【结果】 在本文构建的测试集中,模型F1值达到89.07%。【局限】 知识库的质量和规模限制了模型在新兴及细分领域的准确性和泛化能力。【结论】 本文方法结合专家先验知识和深度学习的强大学习能力,为学术文献中的姓名消歧任务提供了有效路径。
【目的】 量化低资源语言平行语料的句对齐评分,获取高质量平行语料,提升机器翻译的性能。【方法】 提出基于神经网络的无监督句嵌入双语平行语料句对齐评分方法NeuroAlign。将平行句对嵌入同一向量空间,计算平行语料中给定候选句对的对齐评分,然后根据评分排序过滤分值较低的平行句对,获得高质量的低资源语言双语平行语料。【结果】 与基线系统相比,本文方法在BUCC2018平行文本挖掘任务中F1值可提升0.5~0.8个百分点;在CCMT2021低资源语言神经机器翻译中BLEU值可提升0.1~10.9;句对齐评分可接近人工评分。【局限】 限于低资源双语平行语料的资源匮乏,未在藏汉、维汉、蒙汉以外的语言对上进行探索。【结论】 本文提出的句对齐评分方法可以有效应用至低资源语言平行语料的句对齐评分,从数据源端提升语料质量,进而改进机器翻译的效果。