Please wait a minute...
Advanced Search
数据分析与知识发现  2019, Vol. 3 Issue (11): 16-23    DOI: 10.11925/infotech.2096-3467.2019.0045
     研究论文 本期目录 | 过刊浏览 | 高级检索 |
影响支持向量机模型语步自动识别效果的因素研究 *
丁良萍1,2,张智雄1,2,3(),刘欢1,2
1 中国科学院文献情报中心 北京 100190
2 中国科学院大学图书情报与档案管理系 北京 100190
3 中国科学院武汉文献情报中心 武汉 430071
Factors Affecting Rhetorical Move Recognition with SVM Model
Liangping Ding1,2,Zhixiong Zhang1,2,3(),Huan Liu1,2
1 National Science Library, Chinese Academy of Sciences, Beijing 100190, China
2 Department of Library, Information and Archives Management, University of Chinese Academy of Science, Beijing 100190, China
3 Wuhan Library, Chinese Academy of Sciences, Wuhan 430071, China
全文: PDF(432 KB)   HTML ( 20
输出: BibTeX | EndNote (RIS)      
摘要 

【目的】探讨在基于支持向量机(SVM)模型的科技论文摘要自动语步识别过程中, 训练样本的规模、N元词(N-gram)的N取值、停用词以及词频加权方式等特征对识别效果的影响。【方法】从72万余篇科技论文结构化摘要中, 抽取出总计110多万条已标注好的语步为实验数据, 构建SVM模型进行语步识别实验。采用控制变量方法, 基于单一变量原则, 通过改变训练样本量、N-gram的N取值、是否去除停用词、词频加权方式, 对比分析这些特征变化对语步识别效果的影响。【结果】训练样本数量为60万条语步、N元词的N取值为[1,2]、不去除停用词、词频加权方式采用TF-IDF时模型识别效果最好, 为93.50%。【局限】主要以笔者收集的结构化论文摘要为训练和测试语料, 未与其他人的结果比较。【结论】训练样本规模以及一些精细的特征对传统机器学习模型的效果有重要影响, 使用者在实践中需要根据具体情况进行精细的特征选取。

服务
把本文推荐给朋友
加入引用管理器
E-mail Alert
RSS
作者相关文章
丁良萍
张智雄
刘欢
关键词 语步识别支持向量机结构化摘要    
Abstract

[Objective] The paper explores the influence of sample size, the N value of N-gram, stop words, and weighting methods of word frequency on the automatic recognition of rhetorical moves in scientific paper, aiming to improve the abstracting method based on support vector machine (SVM) model. [Methods] We retrieved a total of 1.1 million labeled moves from 720,000 structured abstracts of scientific papers as experimental data, and constructed SVM model for move recognition. Based on the principle of single variable, we used control variable method by changing the sample size, the N value, removal of stop words, and word frequency weighting methods to analyze their impacts on the model’s performance. [Results] We found that the model yielded the best result with a sample size of 600,000 abstracts, the N value [1,2], keeping stop words, and using TF-IDF to weight word frequency. [Limitations] We only examined the model with structured abstracts, which might not be comparable with other studies. [Conclusions] The sample size and some fine features have significant impacts on the performance of traditional machine learning models.

Key wordsMove Recognition    Support Vector Machine    Structured Abstracts
收稿日期: 2019-01-10     
中图分类号:  TP393  
基金资助:*本文系中国科学院文献情报能力建设专项子项目“科技文献丰富语义检索应用示范”(项目编号: 院1734)
通讯作者: 张智雄     E-mail: zhangzhx@mail.las.ac.cn
引用本文:   
丁良萍,张智雄,刘欢. 影响支持向量机模型语步自动识别效果的因素研究 *[J]. 数据分析与知识发现, 2019, 3(11): 16-23.
Liangping Ding,Zhixiong Zhang,Huan Liu. Factors Affecting Rhetorical Move Recognition with SVM Model. Data Analysis and Knowledge Discovery, DOI:10.11925/infotech.2096-3467.2019.0045.
链接本文:  
http://manu44.magtech.com.cn/Jwk_infotech_wk3/CN/10.11925/infotech.2096-3467.2019.0045
作者 模型 语步类型 模型效果
Teufel S, et al[7](2002) NBM 7类 准确率44%, 目的语步召回率65%
Ruch P, et al[8](2007) NBM OMRC 结论语步F1值85%
Wu J, et al[10](2006) HMM BOMRC 准确率80.54%
Lin J, et al[9](2006) HMM IMRC 各个语步F1值: 88.5%, 84.3%, 89.8, 89.7%
McKnight L, et al[12](2003) SVM IMRC 各个语步F1值: 89.2%, 82.0%, 82.1%, 89.5%
Shimbo M, et al[11](2003) SVM BOMRC 准确率91.9%
Ito T, et al[14](2004) TSVM COMRC 各个语步F1值: 66.0%, 51%, 49.3%, 72.9%, 67.7%
Yamamoto Y, et al[13](2005) SVM IMRC 各个语步F1值: 91.3%, 83.6%, 87.2%, 89.8%
Hirohata K, et al[2](2008) CRF OMRC 准确率95.5%
Kim S N, et al[15](2010) CRF PICO 所有语步平均F1值80.9%
表1  现有语步识别研究的模型及效果
作者 训练样本量 N-gram取值 是否去停用词 词频加权方式
McKnight L, et al[12] 7 253 1 没有明确提及 TF(简单词频统计)
Shimbo M, et al[11] 10 000 [1,2] 没有明确提及 TF
Ito T, et al[14] 4 185 1 没有明确提及 TF
Yamamoto Y, et al[13] 8 383 1 TF-IDF
Hirohata K, et al[2] 51 000 [1,2] 卡方值
Kim S N, et al[15] 1 000 [1,2] 没有明确提及 TF
Ruch P, et al[8] 12 000 [1,3] 卡方值
表2  现有研究所采用的训练样本量、N-gram取值、是否去停用词、词频加权方式对比
Background语步重要词项 Purpose语步重要词项 Method语步重要词项 Result语步重要词项 Conclusion语步重要词项
have to Be be May
be evaluate Use to Be
be purpose In have That
know determine Measure significantly Should
aim report Perform respectively Can
recently this By show Suggest
表3  Yamamoto等实验得到的各语步排名前6位的重要词项
N取值 训练样本量 是否去停用词 词频加权方式 Precision(%) Recall(%) F1值(%)
10 000 一元词、二元词 TF 86.75 86.75 86.75
50 000 88.25 88.00 88.12
600 000 90.25 91.75 91.00
表4  训练样本量差异下的模型识别效果(词频加权方式为TF时)
N取值 训练样本量 是否去停用词 词频加权方式 Precision(%) Recall(%) F1值(%)
10 000 一元词、二元词 TF-IDF 88.75 89.00 88.87
50 000 90.25 90.00 90.12
600 000 93.50 93.50 93.50
表5  训练样本量差异下的模型识别效果(词频加权方式为TF-IDF时)
N取值 训练样本量 是否去停用词 词频加权方式 Precision(%) Recall(%) F1值(%)
[1,3] 10 000 TF 80.50 79.50 80.00
[1,2] 86.75 86.75 86.75
[2,2] 84.50 84.25 84.37
[2,3] 84.00 83.50 83.75
表6  N元词差异下的模型识别效果
是否去停用词 训练样本量 N元词 词频加权方式 Precision(%) Recall(%) F1值(%)
10 000 一元词、二元词 TF 80.50 79.75 80.12
86.75 86.75 86.75
表7  停用词差异下的模型识别效果(词频加权方式TF)
是否去停用词 训练样本量 N元词 词频加权方式 Precision(%) Recall(%) F1值(%)
10 000 一元词、二元词 TF-IDF 82.00 82.00 82.00
88.75 89.00 88.87
表8  停用词差异下的模型识别效果(词频加权方式TF-IDF)
词频加权方式 训练样本量 N元词 是否去停用词 Precision(%) Recall(%) F1值(%)
TF 10 000 一元词、二元词 86.75 86.75 86.75
TF-IDF 88.75 89.00 88.87
表9  词频加权方式差异下的模型识别效果(训练样本量10 000)
词频加权方式 训练样本量 N元词 是否去停用词 Precision(%) Recall(%) F1值(%)
TF 50 000 一元词、二元词 88.25 88.00 88.12
TF-IDF 90.25 90.00 90.12
表10  词频加权方式差异下的模型识别效果(训练样本量50 000)
词频加权方式 训练样本量 N元词 是否去停用词 Precision(%) Recall(%) F1值(%)
TF 600 000 一元词、二元词 90.25 91.75 91.00
TF-IDF 93.50 93.50 93.50
表11  词频统计方式差异时的模型表现(训练样本量600 000)
[1] Swales J. Research Genres: Explorations and Applications[M]. Cambridge University Press, 2004: 228-229.
[2] Hirohata K, Okazaki N, Ananiadou S , et al. Identifying Sections in Scientific Abstracts Using Conditional Random Fields [C]// Proceedings of the 3rd International Joint Conference on Natural Language Processing. 2008.
[3] American National Standards Institute(ANSI Z39.14-1979). American National Standard for Writing Abstracts[S]. New York:American National Standards Institute, 1979.
[4] Swales J. Genre Analysis: English in Academic and Research Settings[M]. Cambridge University Press, 1990.
[5] Nwogu K N . The Medical Research Papers: Structure and Function[J]. English for Specific Purposes, 1997,16(2):119-138.
doi: 10.1016/j.ceca.2019.102107 pmid: 31841954
[6] Dos Santos M B . The Textual Organization of Research Paper Abstracts in Applied Linguistics[J]. Text-Interdisciplinary Journal for the Study of Discourse, 1996,16(4):481-500.
[7] Teufel S, Moens M . Summarizing Scientific Articles: Experiments with Relevance and Rhetorical Status[J]. Computational Linguistics, 2002,28(4):409-445.
doi: 10.1162/089120102762671936
[8] Ruch P, Boyer C, Chichester C , et al. Using Argumentation to Extract Key Sentences from Biomedical Abstracts[J]. International Journal of Medical Informatics, 2007,76(2-3):195-200.
doi: 10.1016/j.ijmedinf.2006.05.002 pmid: 16815739
[9] Lin J, Karakos D, Demner-Fushman D , et al. Generative Content Models for Structural Analysis of Medical Abstracts [C]// Proceedings of the HLT-NAACL BioNLP Workshop on Linking Natural Language and Biology. Association for Computational Linguistics, 2006: 65-72.
[10] Wu J C, Chang Y C, Liou H C , et al. Computational Analysis of Move Structures in Academic Abstracts [C]//Proceedings of the COLING/ACL 2006 on Interactive Presentation Sessions. Association for Computational Linguistics, 2006: 41-44.
[11] Shimbo M, Yamasaki T, Matsumoto Y . Using Sectioning Information for Text Retrieval: A Case Study with the Medline Abstracts [C]// Proceedings of the 2nd International Workshop on Active Mining. 2003.
[12] McKnight L, Srinivasan P . Categorization of Sentence Types in Medical Abstracts [C]//Proceedings of AMIA Annual Symposium. American Medical Informatics Association, 2003.
[13] Yamamoto Y, Takagi T . A Sentence Classification System for Multi-Document Summarization in the Biomedical Domain [C] // Proceedings of the 2005 International Workshop on Biomedical Data Engineering. 2005: 90-95.
[14] Ito T, Shimbo M, Yamasaki T , et al. Semi-Supervised Sentence Classification for Medline Documents[J]. Methods, 2004,138:141-146.
[15] Kim S N, Martinez D, Cavedon L , et al. Automatic Classification of Sentences to Support Evidence Based Medicine[J]. BMC Bioinformatics, 2011, 12(2): Article No. S5.
doi: 10.1371/journal.pone.0122199 pmid: 25961290
[16] Vapnik V . The Nature of Statistical Learning Theory[M]. Springer Science & Business Media, 2013.
[17] Joachims T . Text Categorization with Support Vector Machines: Learning with Many Relevant Features [C]// Proceedings of the 10th European Conference on Machine Learning. 1998: 137-142.
[18] Kivinen J, Warmuth M K, Auer P . The Perceptron Algorithm vs. Winnow: Linear vs. Logarithmic Mistake Bounds When Few Input Variables are Relevant [C] // Proceedings of the Conference on Computational Learning Theory, 1995.
[1] 秦贺然,刘浏,李斌,王东波. 融入实体特征的典籍自动分类研究 *[J]. 数据分析与知识发现, 2019, 3(9): 68-76.
[2] 王若佳,张璐,王继民. 基于机器学习的在线问诊平台智能分诊研究[J]. 数据分析与知识发现, 2019, 3(9): 88-97.
[3] 李纲,周华阳,毛进,陈思菁. 基于机器学习的社交媒体用户分类研究 *[J]. 数据分析与知识发现, 2019, 3(8): 1-9.
[4] 陈果,许天祥. 基于主动学习的科技论文句子功能识别研究 *[J]. 数据分析与知识发现, 2019, 3(8): 53-61.
[5] 曾庆田,戴明弟,李超,段华,赵中英. 轨迹数据融合用户表示方法的重要位置发现*[J]. 数据分析与知识发现, 2019, 3(6): 75-82.
[6] 周成,魏红芹. 专利价值评估与分类研究*——基于自组织映射支持向量机[J]. 数据分析与知识发现, 2019, 3(5): 117-124.
[7] 侯君,刘魁,李千目. 基于ESSVM的分类推荐*[J]. 数据分析与知识发现, 2018, 2(3): 9-21.
[8] 黄孝喜,李晗雨,王荣波,王小华,谌志群. 基于卷积神经网络与SVM分类器的隐喻识别*[J]. 数据分析与知识发现, 2018, 2(10): 77-83.
[9] 曾金,陆伟,丁恒,陈海华. 基于图像语义的用户兴趣建模*[J]. 数据分析与知识发现, 2017, 1(4): 76-83.
[10] 田世海,吕德丽. 改进潜在语义分析和支持向量机算法用于突发安全事件舆情预警*[J]. 数据分析与知识发现, 2017, 1(2): 11-18.
[11] 杨爽,陈芬. 基于SVM多特征融合的微博情感多级分类研究*[J]. 数据分析与知识发现, 2017, 1(2): 73-79.
[12] 刘红光,马双刚,刘桂锋. 基于降噪自动编码器的中文新闻文本分类方法研究*[J]. 现代图书情报技术, 2016, 32(6): 12-19.
[13] 张晔,张晗,尹玢璨,赵玉虹. 基于电子病历利用支持向量机构建疾病预测模型*——以重度急性胰腺炎早期预警为例[J]. 现代图书情报技术, 2016, 32(2): 83-89.
[14] 张策,都云程,梁然. 采用URL特征的Hub网页识别方法研究*[J]. 现代图书情报技术, 2016, 32(1): 24-31.
[15] 何跃, 宋灵犀, 齐丽云. 负面事件中的品牌网络口碑溢出效应研究——以“圆通夺命快递”事件为例[J]. 现代图书情报技术, 2015, 31(10): 58-64.
Viewed
Full text


Abstract

Cited

  Shared   
  Discussed   
版权所有 © 2015 《数据分析与知识发现》编辑部
地址:北京市海淀区中关村北四环西路33号 邮编:100190
电话/传真:(010)82626611-6626,82624938
E-mail:jishu@mail.las.ac.cn