面向学术文献全文本的方法论知识抽取系统分析与设计 *
System Analysis and Design for Methodological Entities Extraction in Full Text of Academic Literature
通讯作者: 朱学芳, ORCID: 0000-0002-6396-729X, E-mail:xfzhu@nju.edu.cn。
收稿日期: 2019-01-15 修回日期: 2019-05-17 网络出版日期: 2019-10-25
基金资助: |
|
Received: 2019-01-15 Revised: 2019-05-17 Online: 2019-10-25
【目的】面向学术文献全文本抽取方法论实体, 识别其在全文本中的标引特征及使用环境。【方法】基于字典、规则及人工标注的方式抽取包含方法论知识的特征句及方法论实体, 借助Visual Studio 2012及SQL Server 2012实现方法论实体抽取核心功能模块。【结果】方法论特征句抽取的准确率为76%, 召回率大于42%; 每个特征句中约包含1.42个方法论实体, 方法论实体的正式标引比率低于27%, 对特征句的正式标引比率低于35%, 学科专用工具的正式标引率较低。【局限】系统特征句抽取准确率及召回率均较低, 虽提供了人工标注界面加以辅助, 但工作量较大, 未基于语句关系等方法论知识的语义特征进行命名实体识别。【结论】学科专用方法论知识的学术价值被忽视; 本研究所设计的方法论特征句及实体抽取方法具备多学科通用性, 可进一步探讨方法论驱动的跨学科知识扩散路径。
关键词:
[Objective] This paper proposes a new system to extract methodological entities from the full texts of academic literature, aiming to identify their indexing features and usages. [Methods] Firstly, we extracted feature sentences and methodological entities based on dictionaries, rules, and manual annotations. Then, we implemented a methodology knowledge extraction module with the help of Microsoft Visual Studio 2012 and SQL Server 2012. [Results] The precision of extracting methodological features was 76%, while the recall rate was greater than 42%. Each feature sentence had 1.42 method entities on average. The formal indexing ratio for methodological entities was less than 27%, while the ratio for feature sentences was less than 35%. We also found low formal indexing rate for subject-specific methodological entities. [Limitations] This system’s recall and precision rates were not very satisfactory. The manual workload was intensive for entity extraction and did not include the semantic features. [Conclusions] The proposed method has inter-disciplinary versatility and helps us explore the dissemination routes of interdisciplinary knowledge.
Keywords:
本文引用格式
徐浩, 朱学芳, 章成志, 江川.
Xu Hao.
1 引 言
随着补充计量学的兴起, 一些学者呼吁重视方法论知识的价值、认可其贡献者的学术贡献, 一些机构也开始认同科学家开发软件所付出的努力[4]。但伴随跨学科研究的普及, 如何识别某篇学术文献所基于的一种或多种方法论知识?如何基于全文本信息针对特定方法论开展溯源研究?方法论在全文本中以何种方式存在, 其标引方式又如何?其在全文本中的使用流程或操作步骤是否规范?此类问题的解决对于科研人员规范使用方法论知识, 推测领域热点, 保障知识生产流程的规范性具有一定现实意义。
基于以上背景, 笔者述评全文本信息抽取的相关领域, 明确拓展方向; 提出了面向学术文献全文本的方法论知识抽取系统(简称“方法论抽取系统”)的构建思路及功能模块, 实现其核心功能模块的开发; 以PLoS ONE数据为样本进行实证, 给出方法论知识的抽取结果及其标引特征; 探讨方法论驱动知识扩散研究的思路, 针对研究不足明确未来工作。
2 相关研究
2.1 基于文本挖掘的命名实体识别
(1) 基于字典及规则的命名实体抽取
(2) 基于机器学习的命名实体抽取
Girju等[10]基于有监督的知识抽取方法对英文句子中的“主题-工具”语义关系进行抽取, 2007年在国际语义评测比赛中达到了85.7%的准确率及41.4%的召回率, 但未涉及细粒度研究方法抽取。Pan等[11]提出一种改进的自适应知识抽取算法, 根据Package、Program等6个正向触发词得到识别软件实体的10个高频规则, 召回率达到42%、F值达到58%。Nanba等[12]将信息抽取描述为序列标注的问题, 基于机器学习方法识别学术文献或专利中的“技术(Technology)”(包括算法、工具、数据等)及“效果(Effect)”两类信息。Tsai等[13]提出一种非监督的自举算法识别出学术信息中的“技术”及“应用”。
(3) 基于多规则模式混合机器学习的命名实体抽取
Houngbo等[14]以生物医学语料为样本, 基于规则及机器学习实现了特征句中方法类知识描述方式的抽取, 两种方式的准确率均超过80%, 但未实现特定方法论实体的抽取。Guo等[15]提出利用语篇修辞与词汇本身的最小监督学习方法识别医学论文中的背景、问题、方法、结论等篇章信息。钱力等[16]基于多规则模式混合机器学习的方法针对学术文本中的研究方法、工具等“研究设计指纹信息”进行抽取算法设计, 准确率达70%以上。程齐凯[17]将“领域无关词汇”划分为“研究问题”与“研究方法”两类, 基于条件随机场和机器学习实现了学术文本中的词汇功能识别, 该算法较国际主流OpenIE及REVerb系统在召回率上提升31.26%、F1值提升16.16%。李信等[18]在词汇功能定义基础上对文献中研究问题及方法分别建立索引并关联, 开发的科研文献分析系统满足了“方法-问题”细粒度的文献检索和学科导航需求。
2.2 基于内容分析方法的命名实体识别
综上, 学术界对文献中所包含细粒度知识单元的抽取与分析相关成果已较多且已涉及文献内部的方法论知识, 本研究一方面注重方法论知识在学术文本中的使用环境, 以便科研工作者基于特定方法论知识从特征句描述、特征段描述、标引特征、全文信息等内容把握方法论知识的使用环境、使用流程等; 另一方面从系统分析与设计的角度构建方法论抽取系统的主要功能模块, 实现其核心功能, 拟提供较为通用的方法论实体人工标注环境。
3 系统思路与构建
若干方法、工具、技术等方法论知识解决研究问题的过程是学术文献形成的经典范式之一。本系统着眼于学术文献内的方法论知识, 一方面为科研人员尤其是领域新进入成员提供细粒度的方法论参考; 另一方面, 从量的维度揭示某领域在方法论使用方面所表现出的特征及发展趋势。此外, 全文本信息最大程度地保存了方法论实体的使用环境甚至是使用步骤, 基于全文本文献的篇章结构解析可给出使用某个特定的方法论知识的特征句、特征段及标引信息, 可溯源追踪特定的方法论知识, 节约科研时间, 有助于保障方法论知识的合理、规范使用。
3.1 系统思路
为实现方法论抽取系统, 在保证全文本信息可获得性的同时满足多学科领域的应用需求, 来源文献的学科领域应尽可能广泛; 将科研工作者的需求归纳为“研究方法”的“使用环境”; 针对已抽取的方法论知识结合专家经验在语义层面上进行数据清洗等, 定量分析某学科领域的高频方法论知识, 进而可从方法使用的维度结合其使用的具体环境推测某学科领域的研究热点。
3.2 系统构建
学术文献所基于的方法论知识广泛存在于全文本中, 其存在位置具有很强的不确定性, 不同学科的论文对方法论知识的描述也不尽相同。为提供一个更具通用性的方法论抽取系统, 本研究以PLoS ONE为基础数据源, 其来源文献包括生物学、医学、社会学、计算机科学、数学、农学等多个学科。
考虑现有学术文献分析系统及业务需求, 将方法论抽取系统划分为5个功能模块: 数据管理模块、知识抽取模块、知识检索模块、学科导航模块及统计分析模块, 系统结构及其子功能模块如图1所示。
图1
知识抽取模块为系统核心, 按全文本文献中特定知识单元抽取流程将该模块具化为4个子功能模块。
(1) 特征段落识别及编码模块
PLoS ONE收录的文献依据JATS标准[23]进行组织, 明确要求投稿论文详细说明其实验、统计及分析部分, 给出了较为明确的方法类特征段落指示词: Materials and Methods、Methods、Material and Methods、Patients and Methods、Subjects and Methods、Methodology、Data and Methods等。在全文本中此类特征段蕴含了较为丰富的、学术文献所基于的方法论知识, 据此设定特征段识别规则: 从段落起始位置开始提取26个字符(或提取至文本段标签结束标记“:=”结束), 若出现段落指示词“method”则该文本段为特征段。此外, 在同一文献内可能存在多个特征段, 通过编码的方式唯一标识特征段, 保证可溯源性。
(2) 特征句识别及编码模块
包含方法论知识的特征句来源于特征段。借助斯坦福大学提供的自然语言处理工具包(Stanford Core NLP)对特征段进行句子切分及还原, 对切分后的句子依序编号, 用于识别特征句。
表1 识别方法论知识的高频特征模式
序号 | 模式 | 序号 | 模式 |
---|---|---|---|
1 | use<>software | 6 | analysis be perform with<> |
2 | perform use<> | 7 | <>statistical software |
3 | be perform use<> | 8 | <> software |
4 | analysis be perform use<> | 9 | quantify use<> |
5 | analyze use<> | 10 | be calculate use<> |
(注: <>所示即为方法论知识。)
需要特别指出的是: 特征句经句子还原后可能匹配表1中的多个模式, 如特征句“We used QSR NVivo Version 9 software to aid managing the data and coding the dataset.”可同时匹配模式1及模式8, 为避免重复计算, 通过特征句编码的方式对特征句进行唯一标识, 便于追溯某个特定方法论知识的使用环境。
(3) 人工标注模块
鉴于本研究所基于的规则识别软件实体的召回率仅为42%, 而本文以全文本内方法论知识(包括研究方法、试剂、仪器、软件、算法等)为研究对象, 其存在方式更为复杂, 若仅依据既定规则, 可能会导致实体识别准确率及召回率的同时下降。一方面笔者构建了包括97个软件实体的方法论实体数据字典, 提高知识抽取的准确性, 另一方面添加人工标注模块, 以最大限度地识别特征句内的方法论知识。
(4) 标引特征识别模块
识别方法论实体的标引特征有助于对特定方法论知识开展溯源研究, 其在学术文献全文本中的引用方式可分为正式及非正式引用两类, 前者在全文本中有明确的参考文献标记“[]”, 主要包括引用论文或图书等正式出版物、引用手册或指南、引用网址三类[1]; 后者对方法论知识未进行正式标引, 但在其后方用括号等方式标注软件的来源网址、软件版本等信息。
除核心功能模块外, 数据管理模块完成用户注册及权限分配、数据采集与组织及方法论实体抽取规则维护等; 文献检索模块能给出特定方法论知识的相关概念, 链接上下文信息甚至是全文信息, 使用户了解实体的使用环境; 学科导航模块可针对不同的学科领域, 给出其方法论知识的排序结果及时序分布、多学科对比, 发现学科在方法论知识层面的关联; 统计分析模块是学科导航模块的延伸, 旨在结合频次分析、时序分析等识别热点方法论知识及其使用环境、总结趋势。
4 系统实现
以Microsoft Visual Studio 2012为开发工具, SQL Server 2012为数据库实现方法论知识抽取模块的开发, 流程如图2所示。
图2
(1) 包含ABI Prism、SPSS、Stata等97个软件实体字典初始化。
(2) 根据规则依次识别包含方法论知识的特征段及特征句。特征句匹配方法论实体字典, 若匹配成功则进行方法论实体的标引特征识别及模式总结, 否则将其与特征模式匹配, 若匹配成功则进行方法论实体的推荐, 经人工标注(如图3所示)确定实体名称、标引特征及模式总结, 若匹配不成功则表示该特征句不包含方法论知识, 做回收处理。
图3
(3) 方法论实体编码及结构化输出。同一个特征句可能存在多个方法论实体, 同一个方法论实体在特征句中的标引方式也多样, 因此笔者在人工识别方法论实体的同时, 对其标引情况进行编码。
5 面向全文本的方法论知识抽取结果分析
表2 样本数据特征句基本信息统计
文本名称 | 特征句数量/准确率(%) | 实体数量 | 标引次数/百分比(%) | 特征句标引次数 | 实体标引占特征句标引比例(%) |
---|---|---|---|---|---|
S_0.txt | 575/76.36 | 812 | 213/26.23 | 269 | 79.18 |
S_1.txt | 602/76.30 | 829 | 209/25.21 | 257 | 81.32 |
S_2.txt | 572/75.66 | 816 | 206/25.25 | 261 | 78.92 |
S_3.txt | 595/75.32 | 843 | 215/25.50 | 266 | 80.83 |
S_4.txt | 556/74.73 | 794 | 196/24.69 | 241 | 81.33 |
S_5.txt | 626/77.28 | 892 | 219/24.55 | 268 | 81.72 |
S_6.txt | 610/76.44 | 883 | 221/25.03 | 278 | 74.16 |
S_7.txt | 595/76.38 | 869 | 214/24.63 | 276 | 77.54 |
S_8.txt | 600/76.43 | 800 | 194/24.25 | 249 | 78.22 |
S_9.txt | 618/76.67 | 916 | 223/24.34 | 299 | 74.58 |
表3 高频方法论实体提及与引用情况
序号 | 实体名称 | 提及次数 | 正式引用次数/引用率(%) | 正式引用有效次数/有效率(%) |
---|---|---|---|---|
1 | SPSS | 376 | 7/1.86 | 1/14.29 |
2 | Image J | 269 | 38/14.13 | 29/76.32 |
3 | GraphPad Prism | 247 | 0/0.00 | 0/0.00 |
4 | ANOVA | 209 | 5/2.39 | 2/40.00 |
5 | R | 178 | 70/39.33 | 15/21.43 |
6 | student 's t - test | 147 | 3/2.04 | 2/66.67 |
7 | SAS | 142 | 9/6.34 | 2/22.22 |
8 | Stata | 113 | 14/12.39 | 2/14.29 |
9 | MATLAB | 105 | 25/23.81 | 18/72.00 |
10 | FlowJo | 91 | 4/4.40 | 4/100.00 |
11 | BLAST | 79 | 24/30.38 | 24/100.00 |
12 | Primer | 73 | 15/20.55 | 10/66.67 |
13 | GraphPad software | 56 | 0/0.00 | 0/0.00 |
14 | EXCEL | 56 | 25/44.64 | 1/4.00 |
15 | MEGA | 55 | 28/50.91 | 27/96.43 |
(注: 正式引用有效次数指来源文献的类型为期刊类型, 可通过期刊的学科分类追踪方法论实体学科来源; 斜体及下划线表示单元为研究方法实体, 其余均为研究工具实体。)
(1) 本系统融合字典及规则的方式识别可能包含方法论知识的特征句, 特征句抽取准确率为76%左右, 而方法论实体抽取的准确率取决于系统智能推荐的准确性及标注人员的素质; 在召回率方面, 因特征句数量庞大且笔者较为注重方法论实体的使用环境, 所以未做计算, 但系统所基于的规则来源于文献[11](其召回率为42%), 笔者拓展种子词数量且构建了实体字典, 因此在理论上系统召回率应高于42%。
(2) 实验样本中平均每个特征句包含1.42个方法论实体, 该结果表明基于特征段指示词识别特征段落、融合字典及规则的方式识别特征句具备可操作性。
(3) 表2显示全文本内单个方法论实体的正式标引率低于27%, 若将数据集扩大到2006年-2014年, 正式标引粒度扩大到特征句粒度, 正式标引率仍低于35%, 结合表3数据可推测导致该现象的原因: 统计学的研究工具(如SPSS、SAS、Stata、R等)或研究方法(如ANOVA, student’s t-test等)、图像处理软件(Image J)等方法论知识具有学科通用性, 科研工作者更倾向于提及此类知识而不正式引用。但部分学科专用方法论知识, 知识发布的网站给出了在使用此类知识过程中的引用文献建议(如MEGA、CiteSpace等), 标引率较低, 该现象可反映科研工作者忽视了对此类方法论知识的正式标引。
(4) 表2中特征句标引指不深入特征句内的某个方法论知识而直接识别特征句的标引, 在样本数据的 10个特征句集合内, 特征句标引次数与其中包含的方法论实体的标引次数相当, 后者约占前者的80%, 因此特征句同样可视为方法论知识的载体, 进而可在特征句维度上实现方法论驱动的学科知识扩散网络构建。
未来可进一步讨论, 若表3中的方法论实体为正式标引, 那么可综合期刊隶属学科、内容分析方法以及专家咨询法等开展方法论知识的溯源研究, 确定被引文献是否为开发或提出某方法论知识的文献, 若施引文献及被引文献均能归属至某特定学科, 便可由此构建方法论驱动的学科知识扩散网络, 追踪方法论驱动的知识扩散路径。
6 结 语
本文基于方法论知识较广分布于学术文献内而其学术价值难以被认可或重视的现状, 分析与设计了方法论抽取系统, 基于字典及规则方法实现系统核心功能模块的开发, 注重方法论知识的使用环境, 基于方法论知识的标引特征讨论方法论知识学科溯源的可能性, 探寻方法论驱动的知识扩散路径。
以2014年PLoS ONE数据为样本给出系统核心功能模块的运行结果, 结果表明本研究在特征句识别准确率方面达到76%, 召回率大于42%; 在人工参与下, 方法论实体抽取准确率较高, 提出包含方法论知识的特征句可视为方法论知识的载体, 可据其内部的标引特征, 追踪方法论驱动的知识扩散路径。
然而, 本研究虽实现了方法论抽取系统的核心功能模块, 但字典构建具有较强的领域特征, 规则的总结通常情况下又难以穷尽, 系统虽提供了一个较为友好的数据标注及实体标引特征识别交互界面, 但实体标注过程工作量较大, 对特征模式的总结难度仍较大, 方法论实体抽取的准确率及召回率受囿于此, 下一步将继续探寻面向学术文献全文本的知识抽取算法, 引入知识本体工程、句法分析等技术进一步提高实体抽取的准确率及召回率; 此外, 将在研究方法使用环境的基础上进行更深层次的语义挖掘, 构建“研究问题-研究方法”、“研究方法-研究方法”、“学者-研究方法”等研究方法关系网络, 拓展科学学研究领域。
作者贡献声明
徐浩: 提出研究思路, 设计系统功能结构, 撰写论文;
朱学芳: 设计研究方案, 修改论文;
章成志: 修改论文;
江川: 数据采集及标注, 代码实现。
利益冲突声明
所有作者声明不存在利益冲突关系。
支撑数据
支撑数据由作者自存储, E-mail: xhnju2014@163.com。
[1] 徐浩, 朱学芳, 章成志. PLoSONE_DATA_ALL.mdf及PLoSONE_DATA_ALL_log.ldf. PLoSONE学术文献全文本数据库.
[2] 徐浩, 朱学芳, 江川. soft_dic.txt. 包含97个软件实体的数据字典.
参考文献
我国图书情报领域的软件使用和引用研究
[J]. ,
Software Usage and Citation in the Field of Library and Information Science in China
[J].
Assessing Open Source Software as a Scholarly Contribution
[J]. ,
Output Information Requirements
[EB/OL]. [
面向学科领域的学术文献语义标注框架研究
[J]. ,
Research on Semantic Annotation in Academic Literature
[J].
全文本文献计量分析学术沙龙综述
[J]. ,
A Review of the Academic Salon on Full-text Bibliometric Analysis
[J].
Analyzing the Dynamics of Research by Extracting Key Aspects of Scientific Papers
[C]//
Technical Trend Analysis by Analyzing Research Papers’ Titles
[C]//
针对中文学术文献的情报方法术语抽取
[J]. ,
Extracting Information Method Term from Chinese Academic Literature
[J].
A Knowledge-Rich Approach to Identifying Semantic Relations Between Nominals
[J]. ,
Assessing the Impact of Software on Science: A Bootstrapped Learning of Software Entities in Full-Text Papers
[J]. ,
Automatic Creation of a Technical Trend Map from Research Papers and Patents
[C]// ,
Concept-Based Analysis of Scientific Literature
[C]// ,
Method Mention Extraction from Scientific Research Papers
[C]//
Active Learning-Based Information Structure Analysis of Full Scientific Articles and Two Applications for Biomedical Literature Review
[J]. ,
科技论文的研究设计指纹自动识别方法构建与实现
[J]. ,
Building and Implement on Automatic Identification Method of Research Design Fingerprint of Scientific Papers
[J].
学术文本的词汇功能识别
[D]. ,
Term Function Recognition from Academic Text
[D]. ,
基于词汇功能识别的科研文献分析系统设计与实现
[J]. ,
Design and Implementation of Scientific Literature Analysis System Based on Term Function Recognition
[J].
The Use of Theory in Information Science Research
[J]. ,
我国情报学理论的来源、应用及学科专属度研究
[J]. ,
Theories of Information Science in China: Source, Uses and Discipline Exclusive Degrees
[J].
我国情报学研究中混合方法的应用及其领域分布分析
[J]. ,
Application of Mixed Methods and Their Field Distribution in Information Science Research in China
[J].
科学知识图谱绘制工具CiteSpace的学科领域扩散特征研究
[J]. ,
Discipline Diffusion Features of the Mapping Knowledge Domains Software: CiteSpace
[J].
/
〈 | 〉 |