Data Analysis and Knowledge Discovery  2024, Vol. 8 Issue (2): 74-83    DOI: 10.11925/infotech.2096-3467.2022.1284
Identifying Moves in Full-Text Chinese Academic Papers
Du Xinyu(),Li Ning
Computer School, Beijing Information Science & Technology University, Beijing 100101, China
[Objective] This paper investigates the recognition of moves in full-text academic papers. It establishes a solid foundation for automatically understanding paper contents. Existing research on move recognition in academic papers only processes a small number of moves with coarse granularity. There are few open datasets for move classification. [Methods] Based on the BERT model, we constructed a move classification dataset of academic papers with multi-stage fine-tuning. Then, we proposed a move recognition model incorporating the section titles to recognize moves at a fine-grained level. [Results] For the 22-class classification, the overall accuracy of the RoBERTa-wwm-ext model increased by 0.031 to 0.909, and the Micro-F1 improved by 0.022 to 0.837. [Limitations] There is a small amount of unbalanced data in the constructed corpus, and the paper's quality will affect by the proposed model's performance. [Conclusions] The proposed model benefits the automatic understanding of academic papers, research quality evaluation, and semantic content retrieval, which play important roles in using scientific and technological literature.

Key wordsAcademic Papers Understanding      Move Recognition      Pre-trained Model     
Received: 04 December 2022      Published: 28 March 2023
ZTFLH:  TP391  
Fund:National Natural Science Foundation of China(61672105)
Corresponding Authors: Du Xinyu,ORCID:0000-0001-5289-8199,E-mail:。   

Du Xinyu, Li Ning. Identifying Moves in Full-Text Chinese Academic Papers. Data Analysis and Knowledge Discovery, 2024, 8(2): 74-83.

Framework for Move Recognition Method Based on Pre-trained Model
标签名称 语步句示例
背景 在文本数据挖掘中,文本分类是一项重要的研究内容,被广泛应用于Web 搜索、日志分析、信息过滤、情感分析等领域中。
问题不足 然而,由于文本数据具有纬度高和稀疏性等特征,因此自编码器在文本挖掘领域的应用效果还有待提高。
目的 为了解决应用自编码器进行文本嵌入的过程中面临的纬度高和数据稀疏性问题,以提高其在文本分类应用中的效果。
研究意义 篇章作为词和句子更上层的一种分析粒度,在自然语言理解和自然语言生成中起到至关重要的作用,与之相对应的浅层篇章结构分析是自然语言处理中一项具有重大意义的任务,它是自然语言理解的基础。
理论基础 修辞结构理论(Rhetorical Structure Theory,RST)是篇章结构分析中的重要理论之一,文本可以将其转化成修辞结构树进行分析,修辞结构树如图1所示。
定义 篇章是指由一系列连续的子句、句子或语段构成的语言单位,其内部存在着由单词构成句子、句子构成段落、段落构成篇章的层次结构。
举例说明 篇章信息表2是一个酒店的评价示例,该酒店评论可以作一个篇章,其包含的每一条评论可以看作篇章内的每一个段落。
已有研究 2004年,Hu等提出了许多基于数据挖掘和自然语言处理的产品评论挖掘意见特征技术,然后使用特征提取的结果选择句子以生成产品评论摘要。
价值优势 PRC在特征图的通道上执行部分残差连接导致梯度源将部分梯度进行了分流在不增加层数的情况下增加了时间戳中的梯度组合数,因此部分残差连接不仅可以防止梯度弥散还可以产生各种特征组合。
本文方法 针对隐式篇章关系分类任务,提出一种基于自注意力机制和句法信息的方法。
方法描述 结合自注意力机制的双向长短时记忆模型的输入同BiLSTM,自注意力的关键部分如式(6)所示,将BiLSTM模型产生的隐藏层表示通过自注意力机制再次编码,提取出更高层次的特征表示。
方法选择 YOLO系列[5]在速度和精度方面能够达到一个很好的平衡,在实际应用中是最受欢迎的目标检测器,因此本文选择TinyYOLO作为基准检测模型,在不牺牲精度的情况下减少浮点运算和可训练参数来满足车载边缘计算单元的资源受限要求。
实验内容 最后,在ShapeNet数据集中训练上述网络结构,对所训练的网络模型进行验证并与其他基准方法进行定性比较。
实验环境 本文实验平台为Intel5处理器,16GB RAM,Ubuntu 16.04操作系统,采用Python 3.7和TensorFlow 1.14进行编译。
实验设置 本实验中batch设置为64;learning_rate表示学习率,设置为0.001;decay表示权重衰减正则项系数,设置为0.0005;;omentum表示动量,设置为0.9;ignore_thresh表示非极大值抑制算法中的IOU阈值,本实验设置为0.7。
数据 实验采用公开的20Newsgroups(20ncws)数据集。
结果描述 在MITRestaurantCorpus,MITMovieCorpus和MITMovietrivialCorpus3个数据集上,所提模型得出了良好的结果,最大F1值分别为78.74%,7.60%和71.54%。
结果评估 表3还可以发现,当属于不同类别文本的连接数量较多时,会造成特征矩阵中噪声较大,从而影响性能指标。
评估指标 本文利用微观F1测度(Micro-F1)和宏观F1测度(Macro-F1)对所有文本分类模型进行性能评估。
结论 实验结果表明,所提模型显著提升了语义槽填充任务的F1值。
贡献 本文对自编码器进行了改进,在隐藏层中加入了全局调整函数,实现了嵌入式特征向量的稀疏化,解决了文本数据的稀疏性问题,从而提高了其在后续分类应用中的准确性。
未来工作 本文虽然对时态特征进行了改进和调整,但还是有较大的提升空间;同时,本文是在已标注的语料库上进行的工作,未来将会考虑在原始语料上进行事件事实性分析。
Move Tag Set with Examples
Micro-F1 Score for Multi-stage Fine-Tuning
微调阶段 训练数据量 精确率 召回率 Micro-F1值
初始化分类模型 2 490 0.656 0.601 0.627
第一阶段(数据增强) 4 980 0.657 0.647 0.652
第二阶段 6 974 0.799 0.756 0.777
第三阶段 11 263 0.805 0.769 0.786
第四阶段 15 275 0.807 0.784 0.795
第五阶段 19 275 0.840 0.781 0.809
Recognition Result under Multi-stage Fine-Tuning
Move Recognition Framework with Section Titles as Input
环境 配置参数
处理器 Intel(R) Xeon(R) Platinum 8255C CPU @2.50GHz
显卡 NVIDIA Tesla V100-SXM2
操作系统 CentOS Linux release 7.8.2003 (Core)
语言 Python
Configuration of Experimental Environment
参数 设定值 参数说明
max_seq_length 300 最大文本长度
train_batch_size 16 模型训练批大小
eval_batch_size 8 模型验证批大小
learning_rate 2e-5 学习率
num_train_epochs 3 模型训练轮次
Model Parameters
模型 原始句子 增加章节标题文本
准确率 Micro-F1 准确率 Micro-F1
BERT-wwm-ext 0.878 0.814 0.901 0.834
RoBERTa-wwm-ext 0.878 0.815 0.909 0.837
RBT3 0.839 0.754 0.860 0.779
Move Recognition Result for Academic Papers
语步类型 Micro-F1 语步类型 Micro-F1
贡献 0.695 0.695 结果评估 0.854 0.874
目的 0.948 0.948 实验内容 0.863 0.879
问题不足 0.914 0.934 研究意义 0.7620 0.833
未来工作 0.889 0.889 结果描述 0.886 0.898
结论 0.893 0.904 实验环境 0.928 0.923
已有研究 0.937 0.965 方法描述 0.884 0.928
背景 0.813 0.851 举例说明 0.857 0.866
价值优势 0.753 0.848 本文方法 0.856 0.913
方法选择 0.545 0.615 评估指标 0.906 0.861
理论基础 0 0 定义 0.937 0.934
实验设置 0.816 0.896 数据 0.907 0.930
Results of the Different Move Recognition
Move Recognition Sample of Chinese Academic Paper
