【目的】 为解决中文反讽短文本中存在的特征稀疏问题,提出一种融入夸张表征的中文反讽识别方法,挖掘短文本中的夸张表征以提升中文反讽识别准确率。【方法】 通过点互信息和语义相似度计算分别获取与反讽领域相关的共现词对集、感叹词集与程度副词集,合并上述词集构建夸张表征词典;然后,通过正则表达式匹配反讽文本得到特殊标点符号序列并经独热编码获得特殊标点符号特征,采用RoBERTa-wwm-ext模型获取文本语义特征,利用WoBERT模型将夸张表征词典内的词及词对转化为动态词向量,获取夸张表征;最后,改进多头注意力机制,同时关注文本语义特征、夸张表征以及特殊标点符号特征,经Softmax函数得到识别结果。【结果】 将公开的Ciron和ChineseSarcasm-Corpus数据集合并后进行实验,本文方法准确率达81.49%,F1值达81.24%。【局限】 构建的夸张表征词典依赖语料质量,泛化能力有限。【结论】 本文方法通过挖掘中文反讽短文本中存在的夸张表征,结合文本语义信息,能有效丰富文本语义表示,提升中文反讽识别的准确率。
【目的】 解决常规文本分类任务中由于领域训练数据稀缺、类型间差异大等因素导致的分类准确率低的问题。【方法】 引入深层金字塔卷积网络与多门控制单元机制,构建基于BERT-DPCNN-MMOE模型框架的分类模型,通过设计多任务实验和迁移学习实验,对标8种基线模型,验证本文分类模型的有效性。【结果】 自主构建多任务跨类型的数据作为训练测试基础,发现本文模型在多任务实验和迁移学习实验中的分类效果均优于8种基线模型,F1值的提升幅度均超过4.7个百分点。【局限】 模型在其他领域的适应性需进一步研究。【结论】 基于BERT-DPCNN-MMOE分类模型在多任务、跨类型文本分类任务上能够表现出更优的效果,对未来专题情报分类任务具有重要意义。
【目的】 基于意图识别构建更准确的语义相似度分类模型,为中文医疗健康查询服务提供更精准的答案匹配结果。【方法】 融合BERT和卷积神经网络(CNN)构建意图识别模型,然后将其作为模型嵌入层构建嵌入意图识别的孪生BERT(ITBERT)语义分类模型。【结果】 在CHIP-STS数据集上,相较于BERT和TextCNN单一模型,融合模型在意图识别的Top-1结果准确率分别提高了1.5和8.2个百分点,达到了73.6%;Top-3结果准确率分别提高了3.2和7.6个百分点,达到了91.2%,证明了融合模型对于意图识别效果的提升。对于语义相似度分类结果,相较于基准模型,ITBERT模型AUC值提高了0.015~0.087,证明了意图知识的嵌入对医疗语义相似度分类效果的提升。【局限】 人工标注的意图信息存在一定的偏差,可能会影响语义相似度的分类结果。【结论】 融合模型可以改善医疗健康查询服务中的意图识别效果,嵌入识别的意图知识可以提高语义相似度分类模型的准确率,有利于提供更准确的医疗健康自动问答服务。
【目的】 减少文本分类过程中因语言差异和文本特征选择所导致的语义偏离和丢失,保留更多的文本信息。【方法】 首先,采用SBERT的预训练模型进行句子表示;其次,使用句向量旋转相似度方法计算不同文本中句子的相似度并对文本内的句子加权形成文本向量;最后,集成机器学习和神经网络的分类方法完成跨语言文本分类。【结果】 在中、英、俄、法、西班牙文等跨语言文本数据集和多语言公开数据集Reuters的分类任务上进行实验的结果表明,所提方法的准确率约为96%,较已有方法有显著提升,且在召回率、精确率和F1值等评价指标上均有所提升。【局限】 未考虑句子在文本中的出现位置对其权重的影响。【结论】 句向量加权的文本表征方法能够减少语义偏离和语义丢失,从而提升跨语言文本分类的性能。
【目的】 对海量警情文本数据进行智能化分类。【方法】 针对警情文本分类任务,提出一个基于BERT-DPCNN的文本分类模型。采用BERT预训练模型生成文本词向量,通过优化DPCNN模型中的激活函数和改进动态学习率提高分类性能。【结果】 将BERT-DPCNN与BERT、BERT-CNN、BERT-RCNN、BERT-RNN、BERT-LSTM、ERNIE等6类模型进行对比实验,结果表明BERT-DPCNN的准确率、召回率和精准率最佳。在二分类任务中,BERT-DPCNN的准确率达到98%以上,十一分类任务中,其准确率达到82%以上。【局限】 模型参数较多,实验次数有限,有待进一步测试。【结论】 基于BERT-DPCNN的文本分类模型能有效提升警情文本分类的准确率,为公安部门进行警情分析和研判提供数据支撑。
【目的】 根据多模态数据特征,从社交网络用户中识别出社交网络谣言传播者。【方法】 考虑到网络谣言传播呈现多模态与用户样本不平衡的特点,首先对原始数据进行过采样处理,然后将用户属性、微博发文等传统特征与用户生成内容中的多模态信息特征深度融合;在XGBoost模型基础上构建能够广泛融合社交网络用户特征的社交网络谣言传播者识别框架,并在模型输出层嵌入SHAP值,增加算法可解释性。【结果】 XGBoost模型在经过样本平衡处理的数据集上综合性能表现最优,召回率提升12.3个百分点。融合多模态信息特征的识别方法准确率可达0.912,比对照组提升2.5个百分点。【局限】 多模态信息特征仅考虑文本、图片两种模态,未来可进一步结合音频、视频等模态信息拓展研究。【结论】 基于多模态数据与过采样算法训练得到的识别方法,能够有效完成社交网络谣言传播者的识别任务。
【目的】 提出基于Generator-Evaluator框架的问题描述动态生成方法,以能够更准确地掌握与检索问答。【方法】 在Generator中,建立融合多种注意力的问答编码层;提出通过双向注意力权重改进指针生成网络以建立解码层。在Evaluator中,综合使用强化学习和交叉熵建立混合评估器以优化Generator,设计面向问题描述生成的奖励函数,以建立最优的问题描述生成模型。【结果】 使用webtext2019zh公开数据集进行实验,结果表明所提出的问题描述动态生成方法在句法方面的RBMean指标和语义方面的CRMean指标分别提升15.26%与3.34%。【局限】 仅基于问题标题与答案进行研究,未结合答案评论构建更丰富的奖励函数。【结论】 通过所提方法能够生成既覆盖原始问题内容,又体现最新答案知识的问题描述。
【目的】 以拟人为无标范畴的辞格代表,探索多维融合的拟人辞格识别策略。【方法】 依据依存句法理论,通过认知框架构建拟人辞格生成与理解认知模型,提出一种多特征融合的拟人辞格自动识别方法WPGBA,该方法对修辞文本的词向量、语法向量、词性向量、上下文语义等多维特征分别表征与融合,使用K12阶段语文教材作为实验数据。【结果】 通过WPGBA方法完成自动识别模型训练,实验显示在识别实验中准确率为90.40%,召回率为87.58%,F1值为88.65%,相较实验组其他方法准确率最少提升6.27个百分点。【局限】 在进行篇章阅读理解、语言能力评测等实际应用时会出现新的复杂句,由于实验数据集规模有限,方法泛化能力受到制约。【结论】 从认知角度出发设计的表意特征与上下文语义特征融合策略,对无标范畴中拟人辞格具有较好识别效果。
【目的】 为更灵活地捕捉交通流数据的时空特征,实现更精确的多变量交通流预测,本文提出一种位置感知时空图卷积网络多变量时间序列预测模型PASTGCN。【方法】 将交通流时序数据的空间位置和周期性时间特征表示为显式时空位置嵌入;在时空卷积结构基础上,在时间卷积网络中引入空间信息,实现空间感知的时间序列建模。考虑到空间关系的动态变化,使用静态和动态的双重图学习方法捕捉空间依赖。【结果】 在两个真实世界交通流数据集上进行实验,结果表明PASTGCN模型能有效预测多变量交通流速,误差对比现有深度学习模型最好可降低1.59%。【局限】 实验数据集有限,图学习方法及多次图卷积使算法的时间复杂度较高。【结论】 PASTGCN模型能有效利用时空位置信息实现更准确的时空交通流预测。
【目的】 对公众诉求中反映的矛盾进行识别与多标签分类,探究不同地区不同矛盾类型与回应率差异。【方法】 以养老保险纠纷为例,通过领域词库构建、关键诉求内容提取与简单数据增强两种方式对ERNIE模型进行知识与数据增强;构建ERNIE-BiLSTM矛盾识别分类模型,实现对低数据资源场景下的公众诉求中矛盾的深度挖掘,解决现有研究中缺少定量方法进行社会矛盾分析的问题。最后,基于识别分类结果对矛盾进行差异性分析。【结果】 数据收集区间内,河南省与辽宁省的养老保险缴纳类矛盾较多,而广东省与北京市更容易发生养老保险服务类矛盾,不同矛盾类型的回应率具有较大差异。【局限】 未考虑不同矛盾类型之间的相关性。【结论】 研究揭示了养老保险纠纷矛盾的省际差异,可以帮助决策者把握矛盾热点与态势,辅助政府决策。
【目的】 为充分挖掘特定领域的关键技术及分支,全面揭示其技术演化轨迹,提出一种集成图嵌入和路径分析的技术演化路径识别方法。【方法】 开发无监督图嵌入模型,将专利结构关系、文本及节点信息传递、聚合的知识等特征,融合为多维语义向量,用于拓展技术路径的同时提升社区划分效果;从网络拓扑和语义关联视角,提出主路径及衍生路径的拓展方法,并构建技术衔接点测度指标,识别路径上具有发展潜力技术领域。【结果】 在无人机飞行控制系统技术的实证中,识别出4个子领域的技术演化路径及分支,并发现该领域中模式识别技术、多处理器和数据融合技术具备良好的发展前景。【局限】 暂未将技术演化模式的形成机制因素纳入识别框架中。【结论】 集成图嵌入和路径分析的方法在路径拓展效果、应用普适性等方面具有一定优势。
【目的】 揭示导航工具的可解释性特征带来的用户认知差异机理。【方法】 选择两种基于主题和基于目录的文本标记导航工具THC-DAT和BOOKMARK,利用眼动追踪技术,采用曼-惠特尼秩和检验,探析其不同主题覆盖度、导航准确度、语义可读性等可解释性特征给用户完成阅读任务带来的认知差异。【结果】 导航工具可解释性特征重要程度因任务难度而异。在低难度任务中,导航准确性最影响认知效率、认知效果和优化导航辅助认知策略;在高难度任务中,语义可读性则最影响认知效率。【局限】 研究样本数量有限,结构单一;仅在两种类型导航工具中进行认知差异对比。【结论】 以可解释性特征为切入视角,为提升阅读导航工具的知识组织服务水平,进而优化用户阅读质量提供了新思路。
【目的】 在弹幕视频传播效果预测模型中融入情感特征以提升预测效果,利用模型可解释性量化各特征变量的影响。【方法】 基于BERT-BILSTM对弹幕视频传播影响因素情感特征进行提取。提出基于PCA-CVRFE-RF-XGBoost的组合预测模型对弹幕视频的传播效果进行预测,基于1 515部文化弹幕视频的传播数据进行实证分析。【结果】 挖掘出31个变量覆盖了信息质量、信源可信性和信息传播感知质量三方面特征。在弹幕情感特征提取准确率上,BERT-BILSTM模型在测试集中积极和消极分类的精确率分别达到0.81和0.85,F1值达到0.84。实验结果表明,基于CVRFE-RF-XGBoost构建的弹幕视频传播效果预测结果优于SVR、BP神经网络模型。【局限】 弹幕文本情感分析的粒度仍待细化。【结论】 所提模型为情感特征复杂、高动态性的弹幕视频传播效果预测提供新方法。通过样本实证结果表明,信源可信度的特征贡献度高于信息质量,这意味着信源可信度对弹幕视频传播效果的影响程度更深,其中,媒介平台口碑、媒介平台专业性、个人影响力、内容发布频次等特征尤为关键。
【目的】 探讨直播电商中弹幕内容与行为特征对消费者购买行为的影响以及主播与产品关联度的调节效应。【方法】 基于详尽可能性模型,利用抖音平台的弹幕数据和灰豚平台的消费数据,结合文本挖掘和零膨胀负二项回归分析,从作为中心路径的弹幕内容特征和作为边缘路径的行为特征两方面探究消费者购买行为的影响因素,并通过分组回归分析主播与产品关联度的调节作用。【结果】 信息丰富度、社交互动程度和弹幕数量正向影响购买行为;弹幕情感极性对购买行为的影响呈倒U形;与主播与产品关联度低的直播间相比,主播与产品关联度高的直播间弹幕情感极性对购买行为的正向影响范围更大。【局限】 仅选取单一直播电商平台的弹幕,研究结果缺乏普适性。【结论】 从弹幕视角分析消费者实际购买行为的影响因素,能够为直播电商模式下商家与消费者之间的有效沟通以及提升带货效果提供参考和建议。