【目的】 以评论文本为研究对象,研究可行动信息识别方法,为实践者发挥自身优势及弥补不足提供行动参考。【方法】 将目标任务定义为句子级分类问题,提出一种基于文段的可行动信息识别模型SAII。基于BERT预训练模型对输入句子进行编码,建立词级别的上下文表征;枚举句子中不同范围的文段,引入文段注意力机制生成信息量丰富的文段级表征;为缓解噪声问题,提出多通道文段过滤机制,最大限度地保留接近关键元素原型的文段;融合提纯后的文段表示和上下文表示,自动识别可行动信息。【结果】 在两个真实数据集上的实验结果表明,所提模型的效果最佳。与三类基线模型中的最优模型相比,SAII模型在Yelp数据集和RateMDs数据集上的F1指标分别提高7.91个百分点和5.42个百分点;2.10个百分点和2.73个百分点;1.94个百分点和1.46个百分点。【局限】 仍需在多领域和多模态数据集上广泛验证模型的有效性。【结论】 本文模型具备词级和文段级表征能力,有效提高了识别准确率,推动了用户生成内容的价值实现。
【目的】 从科技文献中发现给定主题在已有研究中存在的缺陷、不足、难点等方面的问题实例。【方法】 将主题-问题实例对的抽取任务转化为候选短语分类问题。在问题句的基础上抽取候选短语、构建句法依赖树,采用基于BiGCN和Transformer交互模块的句法依赖增强分类模型判断候选短语是否为给定主题对应的问题实例。【结果】 实现了面向主题的问题实例识别,其中句法增强的分类模型在候选短语分类任务中F1值为83.7%,相比基线模型提高了2.8个百分点。【局限】 没有考虑句子间的指代关系,存在问题实例遗漏的可能,从而导致召回率降低。【结论】 句法依赖增强模型能够较好地学习句子中主题与问题实例间的对应关系,提高给定主题的问题实例识别准确率。
【目的】 基于跨模态深度学习方法,通过旅游评论对消费者情感表达进行分析,并识别反讽情绪。【方法】 构建跨模态的深度学习模型,首先进行多模态信息的编码,通过图神经网络提取文本与图片中的交互信息,利用注意力机制强调多模态特征,最后进行反讽识别。【结果】 结合Yelp网站的旅游评论数据进行实证研究,并与相关基线模型作比较。实验结果表明,跨模态模型具有优越性,反讽识别的准确率达到88.77%。【局限】 所提模型仅在Yelp网站的Hilton数据集上进行测试,未在其他旅游平台上进一步验证。【结论】 所提模型能够充分提取不同模态间的交互信息,有效提升反讽识别的准确性。
【目的】 通过结合文本和图像模数据,提出跨模态对抗神经网络模型,提高谣言检测对新数据的泛化能力。【方法】 采用融合自注意力机制的双向长短时记忆网络模型表示文本特征,使用预训练的VGG19网络模型表示图像特征,通过对抗神经网络学习事件共同特征。【结果】 所提模型在准确率、精确率、召回率和F1值得分等方面都优于对比模型,在微博、推特两个数据集上的准确率分别比基线模型的最优结果提高了3.6个百分点和3.5个百分点。【局限】 不同模态信息下的特征关联分析不够,跨模态数据的语义鸿沟问题没有很好解决。【结论】 所提模型能够比现有方法更好地学习特征表示,在谣言检测上取得了较好的结果。
【目的】 期刊影响因子(JIF)及其分区信息是学者进行论文投稿时参考的重要依据,本文拟定量测度JIF和分区信息对不同国家学者的投稿行为的影响。【方法】 以自然出版集团(NPG)所出版期刊的《期刊引证报告》(Journal Citation Reports,JCR)及其月度已录用投稿论文数据为例,利用面板负二项回归等统计分析方法,对照两种期刊分区信息:JCR期刊分区和中国科学院文献情报中心期刊分区表(简称“中科院期刊分区表”),探究不同国家的学者对JIF及其分区信息变化的投稿行为差异。【结果】 JIF对美国、德国、日本等国学者的已录用投稿论文数存在不同程度的负向影响,JIF提高,其已录用投稿论文数反而减少。而JCR期刊分区对各国学者的已录用投稿论文数均有正向影响,JCR期刊分区上升,其已录用投稿论文数相对增加。中科院期刊分区对中国学者的已录用投稿论文数有正向影响。排除国际合作的影响后,其影响依然表现为正向,相比于JCR期刊分区的影响(3.7%),中科院期刊分区对中国学者投稿行为的影响更大(27.2%)。【局限】 利用已录用论文的投稿数据代替期刊实际的收稿数据可能会存在一些偏误。【结论】 学者的投稿行为受其所属国家、合作特征及不同期刊分区的影响。本文研究结论丰富了对学者投稿行为影响因素的理解,有助于揭示不同国家学者的投稿行为特征和规律。
【目的】 分析南海学术论文的引用意图和引用情感,揭示学者的引用行为与学术思想涌现过程。【方法】 建立引文分类体系,采用基于特征的支持向量机实现引文自动分类,基于知识图谱构建引文分类图谱,从总体分布、国家差异、引用主题三个方面分析南海学术论文的引用特征。【结果】 引用意图和引用情感自动分类的F1宏平均值分别为0.75和0.72。中国学者倾向从历史视角维护南海主权,引用的意图主要作为“使用”和“背景”引用,引用的情感主要作为“中性”引用。【局限】 语料数据规模较小,数据源的全面性有待加强。【结论】 中国学者从历史视角维护南海主权的同时,也要加强从法理视角论证南海争议主题。
【目的】 针对当前非遗文本实体抽取研究的不足,提出以机器阅读理解方法为基础,通过问答的方式对非遗文本中的实体进行抽取。【方法】 构建非遗实体敏感的注意力机制,用于捕捉非遗文本上下文同问题之间的联系,使模型关注同问题相关的非遗实体,并建立非遗文本实体抽取模型ICHQA。【结果】 将ICHQA模型在标注的非遗语料库中进行实证研究,并同相关基线模型进行对比,结果表明ICHQA在F1指标中表现最优,达87.139%。为凸显模型的优势和增强可解释性,本文还展开了消融实验并对模型输出进行了可视化。【局限】 本文提出的模型仅在非遗语料库中进行验证,泛化性测试不够。【结论】 利用机器阅读理解进行非遗实体抽取,能够有效利用实体标签的语义特征,提升实体抽取的效果。
【目的】 为快速找出网络中最具影响力的节点,提出使用重叠社区的影响力最大化方法IMtoc。【方法】 将整个社交网络分割为几个重叠社区,综合特征向量中心性最大的节点和重叠节点,选出候选种子集,然后通过贪心算法在候选集中找到最优的种子节点。【结果】 对于大型社交网络Git_web_ml数据集,IMtoc算法的运行时间比CELF和IMRank算法快约91%和65%。【局限】 影响力节点与重叠节点存在重合,造成部分节点代表性不足。【结论】 IMtoc算法与现有方法相比存在一定优势,可以在影响范围和运行时间之间取得平衡。
【目的】 针对当前基于翻译的知识图谱嵌入模型负采样质量偏低,影响知识图谱的有效嵌入,导致模型表征能力低、性能较差等问题,提出一种联合关系上下文负采样的知识图谱模型。【方法】 从原始知识图谱中提取目标实例的邻居并生成上下文向量;然后根据相邻关系可提供给定实体性质或类型信息的特性,在负采样时利用Concat聚合函数对给定实体的关系上下文进行聚合,确定被替换实体的属性;最后结合TransE模型的三元组嵌入并选择相同属性的替换实体生成负例三元组,从而提高正负例三元组的相似度。【结果】 实体链接中,在FB15K-237与WN18RR数据集上相对于基准模型分别提升18.3、29.2个百分点;同时在关系链接中较基准模型中的最优结果提升0.7个百分点。【局限】 在邻居关系上只考虑了关系上下文的语义信息,故难以确定相对位置,需要进一步探索其路径信息。【结论】 该采样策略通过提高替换实体与被替换实体间的相似性,提升了负例三元组的质量,使模型的准确率得到提高。
【目的】 利用改进的D-S证据理论实现含主观不确定性的微博不可信用户识别。【方法】 基于证据距离改进D-S证据理论,依据该理论将微博用户历史博文的可信度转化为证据,融合证据生成用户的信任区间。在此基础上,利用决策树算法实现对不可信用户的识别。【结果】 与当前认可度较高的不可信用户识别方法相比,本文提出的方法时间消耗最多减少287.4秒,
方法
【目的】 基于司法案件异构属性图,提出一种高效的案件相似度计算模型,用于提升案件相似度比较的速度和精确率。【方法】 以案件的法律文书内容及其他相关信息构建案件异构属性图,将案件文本相似性问题转化为图相似性问题,结合图注意力网络和邻域节点共识匹配,能够有效学习到司法案件异构属性图的局部信息和全局信息,进而计算案件的相似度。【结果】 在2019年中国法研杯的相似案例匹配数据集上,所提出模型在计算量(FLOPs)仅有冠军模型1.02%的情况下,达到了优于冠军模型的结果。【局限】 本文模型的精度与属性图构建的复杂性呈正相关,但通过离线方式预先构建案件异构属性图,不会影响算法的时间复杂度。【结论】 基于司法案件异构属性图有效利用了司法领域文本中的深度语义和法律主客体之间的隐含信息,提升了案件相似度比较的速度和精确率。
【目的】 在股票预测模型中融入投资者情感特征以提升对股价走势的预测效果。【方法】 使用注意力机制将RoBERTa模型构建的投资者情感特征与时间卷积神经网络提取的股价特征进行融合,构造考虑投资者情感特征的RoBERTa-TCN股价预测模型。【结果】 与LSTM、GRU、TCN三个模型在6只股票数据集上的实验结果进行对比,RoBERTa-TCN模型在4个不同评价指标上有平均约0.490 6的提升。【局限】 未考虑股票交易日的时间特殊性对股价波动的影响。【结论】 融入近期投资者情感特征和股指特征的RoBERTa-TCN模型具有良好股价预测效果。