Advanced Search

数据分析与知识发现, 2019, 3(10): 29-36 doi: 10.11925/infotech.2096-3467.2019.0069

专题

面向学术文献全文本的方法论知识抽取系统分析与设计 *

徐浩1, 朱学芳,,2, 章成志3, 江川4

1南京工程学院经济与管理学院 南京 211167

2南京大学信息管理学院 南京 210023

3南京理工大学经济管理学院 南京 210094

4南京农业大学信息科技学院 南京 210095

System Analysis and Design for Methodological Entities Extraction in Full Text of Academic Literature

Xu Hao1, Zhu Xuefang,,2, Zhang Chengzhi3, Jiang Chuan4

1School of Economics & Management, Nanjing Institute of Technology, Nanjing 211167, China

2School of Information Management, Nanjing University, Nanjing 210023, China

3School of Economics & Management, Nanjing University of Science and Technology, Nanjing 210094, China

4 College of Information Science & Technology, Nanjing Agricultural University, Nanjing 210095, China

通讯作者: 朱学芳, ORCID: 0000-0002-6396-729X, E-mail:xfzhu@nju.edu.cn

收稿日期: 2019-01-15   修回日期: 2019-05-17   网络出版日期: 2019-10-25

基金资助: *本文系国家社会科学基金重大项目“情报学学科建设与情报工作未来发展路径研究”.  17ZDA291
南京工程学院引进人才科研启动基金项目“方法论驱动的跨学科知识扩散规律及测度研究”.  YKJ201725
南京工程学院校级基础研究专项“面向全文本的研究方法类知识学科扩散规律研究”的研究成果之一.  JCYJ201826

Received: 2019-01-15   Revised: 2019-05-17   Online: 2019-10-25

摘要

【目的】面向学术文献全文本抽取方法论实体, 识别其在全文本中的标引特征及使用环境。【方法】基于字典、规则及人工标注的方式抽取包含方法论知识的特征句及方法论实体, 借助Visual Studio 2012及SQL Server 2012实现方法论实体抽取核心功能模块。【结果】方法论特征句抽取的准确率为76%, 召回率大于42%; 每个特征句中约包含1.42个方法论实体, 方法论实体的正式标引比率低于27%, 对特征句的正式标引比率低于35%, 学科专用工具的正式标引率较低。【局限】系统特征句抽取准确率及召回率均较低, 虽提供了人工标注界面加以辅助, 但工作量较大, 未基于语句关系等方法论知识的语义特征进行命名实体识别。【结论】学科专用方法论知识的学术价值被忽视; 本研究所设计的方法论特征句及实体抽取方法具备多学科通用性, 可进一步探讨方法论驱动的跨学科知识扩散路径。

关键词: 学术文献全文本 ; 方法论实体 ; 知识抽取系统 ; 实体使用环境

Abstract

[Objective] This paper proposes a new system to extract methodological entities from the full texts of academic literature, aiming to identify their indexing features and usages. [Methods] Firstly, we extracted feature sentences and methodological entities based on dictionaries, rules, and manual annotations. Then, we implemented a methodology knowledge extraction module with the help of Microsoft Visual Studio 2012 and SQL Server 2012. [Results] The precision of extracting methodological features was 76%, while the recall rate was greater than 42%. Each feature sentence had 1.42 method entities on average. The formal indexing ratio for methodological entities was less than 27%, while the ratio for feature sentences was less than 35%. We also found low formal indexing rate for subject-specific methodological entities. [Limitations] This system’s recall and precision rates were not very satisfactory. The manual workload was intensive for entity extraction and did not include the semantic features. [Conclusions] The proposed method has inter-disciplinary versatility and helps us explore the dissemination routes of interdisciplinary knowledge.

Keywords: Full Text of Academic Literature ; Methodological Entities ; Entity Extraction System ; Entity Use Feature

PDF (1446KB) 元数据 多维度评价 相关文章 导出 EndNote| Ris| Bibtex  收藏本文

本文引用格式

徐浩, 朱学芳, 章成志, 江川. 面向学术文献全文本的方法论知识抽取系统分析与设计 *. 数据分析与知识发现[J], 2019, 3(10): 29-36 doi:10.11925/infotech.2096-3467.2019.0069

Xu Hao. System Analysis and Design for Methodological Entities Extraction in Full Text of Academic Literature. Data Analysis and Knowledge Discovery[J], 2019, 3(10): 29-36 doi:10.11925/infotech.2096-3467.2019.0069

1 引 言

学术文献是创作者对其思想、观点等知识单元进行创造、编码、加工的最终结果, 实证型文献的形成过程可视为研究方法解决研究问题的过程, 通常会借助某种研究工具或方法甚至是某种仪器设备或试剂(本文统称为方法论知识)辅助实验、分析数据、统计分析、处理图像等。此类方法论知识或为研究者本人提出或为其借鉴他人成果进行拓展, 构成了文献内部的知识载体, 在驱动科研成果生成的过程中与学术文献共同扮演着不可或缺的角色, 但其学术价值一直被低估甚至是忽略[1,2,3]

随着补充计量学的兴起, 一些学者呼吁重视方法论知识的价值、认可其贡献者的学术贡献, 一些机构也开始认同科学家开发软件所付出的努力[4]。但伴随跨学科研究的普及, 如何识别某篇学术文献所基于的一种或多种方法论知识?如何基于全文本信息针对特定方法论开展溯源研究?方法论在全文本中以何种方式存在, 其标引方式又如何?其在全文本中的使用流程或操作步骤是否规范?此类问题的解决对于科研人员规范使用方法论知识, 推测领域热点, 保障知识生产流程的规范性具有一定现实意义。

基于以上背景, 笔者述评全文本信息抽取的相关领域, 明确拓展方向; 提出了面向学术文献全文本的方法论知识抽取系统(简称“方法论抽取系统”)的构建思路及功能模块, 实现其核心功能模块的开发; 以PLoS ONE数据为样本进行实证, 给出方法论知识的抽取结果及其标引特征; 探讨方法论驱动知识扩散研究的思路, 针对研究不足明确未来工作。

2 相关研究

阅读文献是科研工作者把握领域知识结构、掌握发展动态的必要环节, 但文献数量的激增使得以整篇文献为粒度知识组织难以满足需求, 多数科研工作者更倾向于依赖某个知识元的语义特征进行“策略阅读”[5]。智能信息处理技术的发展, 使基于学术文献全文信息识别特定知识实体更便捷, 拓展了传统科学计量学研究[6]。非结构化的学术文本内蕴含大量知识实体, 细粒度知识单元抽取隶属于命名实体识别领域, 因此, 相关研究可分为基于文本挖掘和基于内容分析的命名实体识别两类。

2.1 基于文本挖掘的命名实体识别

(1) 基于字典及规则的命名实体抽取

基于领域字典及规则的实体抽取在特定语料上效果较好, 效果越好通常意味着字典及规则构建越全面。Gupta等[7]以识别文章中的方法或工具为目的构建信息抽取规则, 在人工标注的小样本数据集中达到66.81%的准确率及78.81%的召回率; Kondo等[8]基于规则识别学术文献中的“领域”、“问题”、“方法”等信息, 准确率及召回率分别为81.6%及82.5%。化柏林[9]认为一个完整的学术文献知识单元抽取系统应包括论文类型分析、篇章结构分析、知识抽取及表示模块, 构建的面向中文学术文献情报方法术语抽取规则在实验数据中获得了较好的召回率(94%)和准确率(92%)。

(2) 基于机器学习的命名实体抽取

Girju等[10]基于有监督的知识抽取方法对英文句子中的“主题-工具”语义关系进行抽取, 2007年在国际语义评测比赛中达到了85.7%的准确率及41.4%的召回率, 但未涉及细粒度研究方法抽取。Pan等[11]提出一种改进的自适应知识抽取算法, 根据Package、Program等6个正向触发词得到识别软件实体的10个高频规则, 召回率达到42%、F值达到58%。Nanba等[12]将信息抽取描述为序列标注的问题, 基于机器学习方法识别学术文献或专利中的“技术(Technology)”(包括算法、工具、数据等)及“效果(Effect)”两类信息。Tsai等[13]提出一种非监督的自举算法识别出学术信息中的“技术”及“应用”。

(3) 基于多规则模式混合机器学习的命名实体抽取

Houngbo等[14]以生物医学语料为样本, 基于规则及机器学习实现了特征句中方法类知识描述方式的抽取, 两种方式的准确率均超过80%, 但未实现特定方法论实体的抽取。Guo等[15]提出利用语篇修辞与词汇本身的最小监督学习方法识别医学论文中的背景、问题、方法、结论等篇章信息。钱力等[16]基于多规则模式混合机器学习的方法针对学术文本中的研究方法、工具等“研究设计指纹信息”进行抽取算法设计, 准确率达70%以上。程齐凯[17]将“领域无关词汇”划分为“研究问题”与“研究方法”两类, 基于条件随机场和机器学习实现了学术文本中的词汇功能识别, 该算法较国际主流OpenIE及REVerb系统在召回率上提升31.26%、F1值提升16.16%。李信等[18]在词汇功能定义基础上对文献中研究问题及方法分别建立索引并关联, 开发的科研文献分析系统满足了“方法-问题”细粒度的文献检索和学科导航需求。

2.2 基于内容分析方法的命名实体识别

内容分析方法是对文本进行定量分析的专门方法, 可揭示文献中隐性的事实和内容[19], 但较多依赖人工标注, 时间成本高, 因此通常针对于小规模语料或用于标注机器学习的训练集。王芳等[20]采用该方法在1 822篇论文中识别出586条理论实体; 后又采用该方法统计分析情报学研究方法的混合应用频次和类 型[21]。徐浩等[22]通过构建专业检索的方式在CNKI中获取2 788篇与CiteSpace相关的论文, 借助内容分析方法甄别出855篇基于CiteSpace开展实证分析的文献。

综上, 学术界对文献中所包含细粒度知识单元的抽取与分析相关成果已较多且已涉及文献内部的方法论知识, 本研究一方面注重方法论知识在学术文本中的使用环境, 以便科研工作者基于特定方法论知识从特征句描述、特征段描述、标引特征、全文信息等内容把握方法论知识的使用环境、使用流程等; 另一方面从系统分析与设计的角度构建方法论抽取系统的主要功能模块, 实现其核心功能, 拟提供较为通用的方法论实体人工标注环境。

3 系统思路与构建

若干方法、工具、技术等方法论知识解决研究问题的过程是学术文献形成的经典范式之一。本系统着眼于学术文献内的方法论知识, 一方面为科研人员尤其是领域新进入成员提供细粒度的方法论参考; 另一方面, 从量的维度揭示某领域在方法论使用方面所表现出的特征及发展趋势。此外, 全文本信息最大程度地保存了方法论实体的使用环境甚至是使用步骤, 基于全文本文献的篇章结构解析可给出使用某个特定的方法论知识的特征句、特征段及标引信息, 可溯源追踪特定的方法论知识, 节约科研时间, 有助于保障方法论知识的合理、规范使用。

3.1 系统思路

为实现方法论抽取系统, 在保证全文本信息可获得性的同时满足多学科领域的应用需求, 来源文献的学科领域应尽可能广泛; 将科研工作者的需求归纳为“研究方法”的“使用环境”; 针对已抽取的方法论知识结合专家经验在语义层面上进行数据清洗等, 定量分析某学科领域的高频方法论知识, 进而可从方法使用的维度结合其使用的具体环境推测某学科领域的研究热点。

3.2 系统构建

学术文献所基于的方法论知识广泛存在于全文本中, 其存在位置具有很强的不确定性, 不同学科的论文对方法论知识的描述也不尽相同。为提供一个更具通用性的方法论抽取系统, 本研究以PLoS ONE为基础数据源, 其来源文献包括生物学、医学、社会学、计算机科学、数学、农学等多个学科。

考虑现有学术文献分析系统及业务需求, 将方法论抽取系统划分为5个功能模块: 数据管理模块、知识抽取模块、知识检索模块、学科导航模块及统计分析模块, 系统结构及其子功能模块如图1所示。

图1

图1   方法论抽取系统功能结构


知识抽取模块为系统核心, 按全文本文献中特定知识单元抽取流程将该模块具化为4个子功能模块。

(1) 特征段落识别及编码模块

PLoS ONE收录的文献依据JATS标准[23]进行组织, 明确要求投稿论文详细说明其实验、统计及分析部分, 给出了较为明确的方法类特征段落指示词: Materials and Methods、Methods、Material and Methods、Patients and Methods、Subjects and Methods、Methodology、Data and Methods等。在全文本中此类特征段蕴含了较为丰富的、学术文献所基于的方法论知识, 据此设定特征段识别规则: 从段落起始位置开始提取26个字符(或提取至文本段标签结束标记“:=”结束), 若出现段落指示词“method”则该文本段为特征段。此外, 在同一文献内可能存在多个特征段, 通过编码的方式唯一标识特征段, 保证可溯源性。

(2) 特征句识别及编码模块

包含方法论知识的特征句来源于特征段。借助斯坦福大学提供的自然语言处理工具包(Stanford Core NLP)对特征段进行句子切分及还原, 对切分后的句子依序编号, 用于识别特征句。

文献[11]实现了学术文献中软件实体的抽取, 其设定Package、Program、Software、Tool、Toolbox、Toolkit等6个种子词, 识别出了抽取软件实体的10个高频模式, 如表1所示。笔者发现除上述特征词外, Kit及Platform同样可识别方法论知识。因此根据8个特征词及10个高频模式构建规则并实验, 发现: 此类规则不仅能识别文献内部的软件实体, 还可识别出其他方法论知识(如技术、算法、试剂等)。

表1   识别方法论知识的高频特征模式

序号模式序号模式
1use<>software6analysis be perform with<>
2perform use<>7<>statistical software
3be perform use<>8<> software
4analysis be perform use<>9quantify use<>
5analyze use<>10be calculate use<>

(注: <>所示即为方法论知识。)

新窗口打开| 下载CSV


需要特别指出的是: 特征句经句子还原后可能匹配表1中的多个模式, 如特征句“We used QSR NVivo Version 9 software to aid managing the data and coding the dataset.”可同时匹配模式1及模式8, 为避免重复计算, 通过特征句编码的方式对特征句进行唯一标识, 便于追溯某个特定方法论知识的使用环境。

(3) 人工标注模块

鉴于本研究所基于的规则识别软件实体的召回率仅为42%, 而本文以全文本内方法论知识(包括研究方法、试剂、仪器、软件、算法等)为研究对象, 其存在方式更为复杂, 若仅依据既定规则, 可能会导致实体识别准确率及召回率的同时下降。一方面笔者构建了包括97个软件实体的方法论实体数据字典, 提高知识抽取的准确性, 另一方面添加人工标注模块, 以最大限度地识别特征句内的方法论知识。

(4) 标引特征识别模块

识别方法论实体的标引特征有助于对特定方法论知识开展溯源研究, 其在学术文献全文本中的引用方式可分为正式及非正式引用两类, 前者在全文本中有明确的参考文献标记“[]”, 主要包括引用论文或图书等正式出版物、引用手册或指南、引用网址三类[1]; 后者对方法论知识未进行正式标引, 但在其后方用括号等方式标注软件的来源网址、软件版本等信息。

除核心功能模块外, 数据管理模块完成用户注册及权限分配、数据采集与组织及方法论实体抽取规则维护等; 文献检索模块能给出特定方法论知识的相关概念, 链接上下文信息甚至是全文信息, 使用户了解实体的使用环境; 学科导航模块可针对不同的学科领域, 给出其方法论知识的排序结果及时序分布、多学科对比, 发现学科在方法论知识层面的关联; 统计分析模块是学科导航模块的延伸, 旨在结合频次分析、时序分析等识别热点方法论知识及其使用环境、总结趋势。

4 系统实现

以Microsoft Visual Studio 2012为开发工具, SQL Server 2012为数据库实现方法论知识抽取模块的开发, 流程如图2所示。

图2

图2   方法论知识抽取模块工作流程


(1) 包含ABI Prism、SPSS、Stata等97个软件实体字典初始化。

(2) 根据规则依次识别包含方法论知识的特征段及特征句。特征句匹配方法论实体字典, 若匹配成功则进行方法论实体的标引特征识别及模式总结, 否则将其与特征模式匹配, 若匹配成功则进行方法论实体的推荐, 经人工标注(如图3所示)确定实体名称、标引特征及模式总结, 若匹配不成功则表示该特征句不包含方法论知识, 做回收处理。

图3

图3   方法论抽取系统人工标注程序界面


(3) 方法论实体编码及结构化输出。同一个特征句可能存在多个方法论实体, 同一个方法论实体在特征句中的标引方式也多样, 因此笔者在人工识别方法论实体的同时, 对其标引情况进行编码。

5 面向全文本的方法论知识抽取结果分析

以2014年PLoS ONE刊载的10 358篇学术文献全文本数据为样本, 基于字典及规则系统共抽取出可能包含方法论知识的26 206个语句, 随机抽取其中的7 810条记录存放于10个文本文件中, 借助方法论知识抽取系统的系统推荐, 结合人工标注共识别出来源于5 949个特征句的8 454个方法论实体及其标引特征, 具体信息如表2所示, 经数据清洗后的方法论实体数据库中高频方法论实体信息如表3所示。

表2   样本数据特征句基本信息统计

文本名称特征句数量/准确率(%)实体数量标引次数/百分比(%)特征句标引次数实体标引占特征句标引比例(%)
S_0.txt575/76.36812213/26.2326979.18
S_1.txt602/76.30829209/25.2125781.32
S_2.txt572/75.66816206/25.2526178.92
S_3.txt595/75.32843215/25.5026680.83
S_4.txt556/74.73794196/24.6924181.33
S_5.txt626/77.28892219/24.5526881.72
S_6.txt610/76.44883221/25.0327874.16
S_7.txt595/76.38869214/24.6327677.54
S_8.txt600/76.43800194/24.2524978.22
S_9.txt618/76.67916223/24.3429974.58

新窗口打开| 下载CSV


表3   高频方法论实体提及与引用情况

序号实体名称提及次数正式引用次数/引用率(%)正式引用有效次数/有效率(%)
1SPSS3767/1.861/14.29
2Image J26938/14.1329/76.32
3GraphPad Prism2470/0.000/0.00
4ANOVA2095/2.392/40.00
5R17870/39.3315/21.43
6student 's t - test1473/2.042/66.67
7SAS1429/6.342/22.22
8Stata11314/12.392/14.29
9MATLAB10525/23.8118/72.00
10FlowJo914/4.404/100.00
11BLAST7924/30.3824/100.00
12Primer7315/20.5510/66.67
13GraphPad software560/0.000/0.00
14EXCEL5625/44.641/4.00
15MEGA5528/50.9127/96.43

(注: 正式引用有效次数指来源文献的类型为期刊类型, 可通过期刊的学科分类追踪方法论实体学科来源; 斜体及下划线表示单元为研究方法实体, 其余均为研究工具实体。)

新窗口打开| 下载CSV


(1) 本系统融合字典及规则的方式识别可能包含方法论知识的特征句, 特征句抽取准确率为76%左右, 而方法论实体抽取的准确率取决于系统智能推荐的准确性及标注人员的素质; 在召回率方面, 因特征句数量庞大且笔者较为注重方法论实体的使用环境, 所以未做计算, 但系统所基于的规则来源于文献[11](其召回率为42%), 笔者拓展种子词数量且构建了实体字典, 因此在理论上系统召回率应高于42%。

(2) 实验样本中平均每个特征句包含1.42个方法论实体, 该结果表明基于特征段指示词识别特征段落、融合字典及规则的方式识别特征句具备可操作性。

(3) 表2显示全文本内单个方法论实体的正式标引率低于27%, 若将数据集扩大到2006年-2014年, 正式标引粒度扩大到特征句粒度, 正式标引率仍低于35%, 结合表3数据可推测导致该现象的原因: 统计学的研究工具(如SPSS、SAS、Stata、R等)或研究方法(如ANOVA, student’s t-test等)、图像处理软件(Image J)等方法论知识具有学科通用性, 科研工作者更倾向于提及此类知识而不正式引用。但部分学科专用方法论知识, 知识发布的网站给出了在使用此类知识过程中的引用文献建议(如MEGA、CiteSpace等), 标引率较低, 该现象可反映科研工作者忽视了对此类方法论知识的正式标引。

(4) 表2中特征句标引指不深入特征句内的某个方法论知识而直接识别特征句的标引, 在样本数据的 10个特征句集合内, 特征句标引次数与其中包含的方法论实体的标引次数相当, 后者约占前者的80%, 因此特征句同样可视为方法论知识的载体, 进而可在特征句维度上实现方法论驱动的学科知识扩散网络构建。

未来可进一步讨论, 若表3中的方法论实体为正式标引, 那么可综合期刊隶属学科、内容分析方法以及专家咨询法等开展方法论知识的溯源研究, 确定被引文献是否为开发或提出某方法论知识的文献, 若施引文献及被引文献均能归属至某特定学科, 便可由此构建方法论驱动的学科知识扩散网络, 追踪方法论驱动的知识扩散路径。

6 结 语

本文基于方法论知识较广分布于学术文献内而其学术价值难以被认可或重视的现状, 分析与设计了方法论抽取系统, 基于字典及规则方法实现系统核心功能模块的开发, 注重方法论知识的使用环境, 基于方法论知识的标引特征讨论方法论知识学科溯源的可能性, 探寻方法论驱动的知识扩散路径。

以2014年PLoS ONE数据为样本给出系统核心功能模块的运行结果, 结果表明本研究在特征句识别准确率方面达到76%, 召回率大于42%; 在人工参与下, 方法论实体抽取准确率较高, 提出包含方法论知识的特征句可视为方法论知识的载体, 可据其内部的标引特征, 追踪方法论驱动的知识扩散路径。

然而, 本研究虽实现了方法论抽取系统的核心功能模块, 但字典构建具有较强的领域特征, 规则的总结通常情况下又难以穷尽, 系统虽提供了一个较为友好的数据标注及实体标引特征识别交互界面, 但实体标注过程工作量较大, 对特征模式的总结难度仍较大, 方法论实体抽取的准确率及召回率受囿于此, 下一步将继续探寻面向学术文献全文本的知识抽取算法, 引入知识本体工程、句法分析等技术进一步提高实体抽取的准确率及召回率; 此外, 将在研究方法使用环境的基础上进行更深层次的语义挖掘, 构建“研究问题-研究方法”、“研究方法-研究方法”、“学者-研究方法”等研究方法关系网络, 拓展科学学研究领域。

作者贡献声明

徐浩: 提出研究思路, 设计系统功能结构, 撰写论文;

朱学芳: 设计研究方案, 修改论文;

章成志: 修改论文;

江川: 数据采集及标注, 代码实现。

利益冲突声明

所有作者声明不存在利益冲突关系。

支撑数据

支撑数据由作者自存储, E-mail: xhnju2014@163.com。

[1] 徐浩, 朱学芳, 章成志. PLoSONE_DATA_ALL.mdf及PLoSONE_DATA_ALL_log.ldf. PLoSONE学术文献全文本数据库.

[2] 徐浩, 朱学芳, 江川. soft_dic.txt. 包含97个软件实体的数据字典.

参考文献

崔明, 潘雪莲, 华薇娜 .

我国图书情报领域的软件使用和引用研究

[J]. 中国图书馆学报, 2018,44(3):68-78.

[本文引用: 2]

( Cui Ming, Pan Xuelian, Hua Weina .

Software Usage and Citation in the Field of Library and Information Science in China

[J]. Journal of Library Science in China, 2018,44(3):68-78.)

[本文引用: 2]

Hafer L, Kirkpatrick A E .

Assessing Open Source Software as a Scholarly Contribution

[J]. Communications of the ACM, 2009,52(12):126-129.

[本文引用: 1]

Piwowar H .

Altmetrics: Value All Research Products

[J]. Nature, 2013,493(7431):159.

[本文引用: 1]

Research Excellence Framework.

Output Information Requirements

[EB/OL]. [ 2018- 11- 18]. .

URL     [本文引用: 1]

孙建军, 裴雷, 蒋婷 .

面向学科领域的学术文献语义标注框架研究

[J]. 情报学报, 2018,37(11):1077-1086.

[本文引用: 1]

( Sun Jianjun, Pei Lei, Jiang Ting .

Research on Semantic Annotation in Academic Literature

[J]. Journal of the China Society for Scientific and Technical Information, 2018,37(11):1077-1086.)

[本文引用: 1]

王佳敏, 李信, 刘齐进 .

全文本文献计量分析学术沙龙综述

[J]. 信息资源管理学报, 2018,8(4):119-125.

[本文引用: 1]

( Wang Jiamin, Li Xin, Liu Qijin .

A Review of the Academic Salon on Full-text Bibliometric Analysis

[J]. Journal of Information Resources Management, 2018,8(4):119-125.)

[本文引用: 1]

Gupta S, Manning C D .

Analyzing the Dynamics of Research by Extracting Key Aspects of Scientific Papers

[C]// Proceedings of the 5th International Joint Conference on Natural Language Processing. 2011: 1-9.

[本文引用: 1]

Kondo T, Nanba H, Takezawa T , et al.

Technical Trend Analysis by Analyzing Research Papers’ Titles

[C]// Proceedings of the 4th Language and Technology Conference. 2009: 512-521.

[本文引用: 1]

化柏林 .

针对中文学术文献的情报方法术语抽取

[J]. 现代图书情报技术, 2013(6):68-75.

[本文引用: 1]

( Hua Bolin .

Extracting Information Method Term from Chinese Academic Literature

[J]. New Technology of Library and Information Service, 2013(6):68-75.)

[本文引用: 1]

Girju R, Beamer B, Rozovskaya A , et al.

A Knowledge-Rich Approach to Identifying Semantic Relations Between Nominals

[J]. Information Processing & Management, 2010,46(5):589-610.

[本文引用: 1]

Pan X, Yan E, Wang Q , et al.

Assessing the Impact of Software on Science: A Bootstrapped Learning of Software Entities in Full-Text Papers

[J]. Journal of Informetrics, 2015,9(4):860-871.

[本文引用: 3]

Nanba H, Kondo T, Takezawa T .

Automatic Creation of a Technical Trend Map from Research Papers and Patents

[C]// Proceedings of the 3rd International Workshop on Patent Information Retrieval. ACM, 2010: 11-16.

[本文引用: 1]

Tsai C T, Kundu G, Roth D .

Concept-Based Analysis of Scientific Literature

[C]// Proceedings of the 22nd ACM International Conference on Information & Knowledge Management. ACM, 2013: 1733-1738.

[本文引用: 1]

Houngbo H, Mercer R E .

Method Mention Extraction from Scientific Research Papers

[C]// Proceedings of the 2012 International Conference on Computational Linguistics. 2012: 1211-1222.

[本文引用: 1]

Guo Y, Silins I, Stenius U , et al.

Active Learning-Based Information Structure Analysis of Full Scientific Articles and Two Applications for Biomedical Literature Review

[J]. Bioinformatics, 2013,29(11):1440-1447.

[本文引用: 1]

钱力, 张晓林, 王茜 .

科技论文的研究设计指纹自动识别方法构建与实现

[J]. 图书情报工作, 2018,62(2):135-143.

[本文引用: 1]

( Qian Li, Zhang Xiaolin, Wang Qian .

Building and Implement on Automatic Identification Method of Research Design Fingerprint of Scientific Papers

[J]. Library and Information Service, 2018,62(2):135-143.)

[本文引用: 1]

程齐凯 .

学术文本的词汇功能识别

[D]. 武汉: 武汉大学, 2015.

[本文引用: 1]

( Cheng Qikai .

Term Function Recognition from Academic Text

[D]. Wuhan: Wuhan University, 2015.)

[本文引用: 1]

李信, 程齐凯, 刘兴帮 .

基于词汇功能识别的科研文献分析系统设计与实现

[J]. 图书情报工作, 2017,61(1):109-116.

[本文引用: 1]

( Li Xin, Cheng Qikai, Liu Xingbang .

Design and Implementation of Scientific Literature Analysis System Based on Term Function Recognition

[J]. Library and Information Service, 2017,61(1):109-116.)

[本文引用: 1]

Pettigrew K E, McKechnie L E F .

The Use of Theory in Information Science Research

[J]. Journal of the American Society for Information Science and Technology, 2001,52(1):62-73.

[本文引用: 1]

王芳, 陈锋, 祝娜 , .

我国情报学理论的来源、应用及学科专属度研究

[J]. 情报学报, 2016,35(11):1148-1164.

[本文引用: 1]

( Wang Fang, Chen Feng, Zhu Na , et al.

Theories of Information Science in China: Source, Uses and Discipline Exclusive Degrees

[J]. Journal of the China Society for Scientific and Technical Information, 2016,35(11):1148-1164.)

[本文引用: 1]

王芳, 祝娜, 翟羽佳 .

我国情报学研究中混合方法的应用及其领域分布分析

[J]. 情报学报, 2017,36(11):1119-1129.

[本文引用: 1]

( Wang Fang, Zhu Na, Zhai Yujia .

Application of Mixed Methods and Their Field Distribution in Information Science Research in China

[J]. Journal of the China Society for Scientific and Technical Information, 2017,36(11):1119-1129.)

[本文引用: 1]

徐浩, 钱爱兵, 朱学芳 , .

科学知识图谱绘制工具CiteSpace的学科领域扩散特征研究

[J]. 情报杂志, 2017,36(5):69-74, 68.

[本文引用: 1]

( Xu Hao, Qian Aibing, Zhu Xuefang , et al.

Discipline Diffusion Features of the Mapping Knowledge Domains Software: CiteSpace

[J]. Journal of Intelligence, 2017,36(5):69-74,68.)

[本文引用: 1]

JATS数据标准

[EB/OL]. [ 2018- 11- 09]. .

URL     [本文引用: 1]

(

Journal Archiving and Interchange Tag Set

[EB/OL]. [ 2018- 11- 09].

URL     [本文引用: 1]

/

版权所有 © 2015 《数据分析与知识发现》编辑部
地址:北京市海淀区中关村北四环西路33号 邮编:100190
电话/传真:(010)82626611-6626,82624938
E-mail:jishu@mail.las.ac.cn