Advanced Search
数据分析与知识发现, 2019, 3(3): 14-24
doi: 10.11925/infotech.2096-3467.2018.0607
科技文献内容知识点抽取研究综述
Review of Knowledge Extraction of Scientific Literature
徐红霞, 李春旺

摘要:

【目的】总结述评国内外科技文献内容知识点抽取研究。【文献范围】以CNKI和Google Scholar为平台, 检索得到知识点抽取相关论文, 共选择68篇代表性文献进行述评。【方法】采用文献调研方法, 对当前图书情报和计算机领域的知识点抽取研究进展进行评析, 对关键的抽取技术进行分类总结。【结果】在总结知识点抽取研究现状和技术体系的基础上, 指出科技文献知识点抽取技术的利弊及未来研究方向。【局限】不同学科领域的科技文献知识点抽取的对比研究较少。【结论】本文提出的研究框架有助于全面把握知识点抽取研究现状, 为其他学者开展新的研究提供借鉴。

关键词: 知识抽取 ; 科技文献 ; 机器学习

Abstract:

[Objective] The paper reviews knowledge extraction of scientific literature. [Coverage] We searched research literatures in CNKI and Google Scholar, and then obtained a total of 68 representive literatures on knowledge extraction. [Methods] We used literature survey method. First, we reviewd knowledge extraction in the Library & Information Science and Computer Science. Then, we classified and summarized the key extraction technology. [Results] Investigating the current research status and technological system, this paper gives the pros & cons and the roadmap of knowledge extraction technology. [Limitations] There is little comparative study on knowledge extraction is different subjects. [Conclusions] The research framework is helpful to get a thorough understanding of the present status and provides some good advice for scholars.

Key words: Knowledge Extraction ; Scientific Literature ; Machine Learning

1 引 言

在第四范式[1]科研模式下, 对科学数据这类已有科研成果的分析利用, 成为实现科技创新的重要途径。而人工智能的发展也建立在对人类已有知识的学习、利用、再创新基础之上。当前, 科技成果主要通过科技文献的形式进行发布, 对科技文献知识点的获取具有重要意义。而信息爆炸性增长为知识获取带来新的挑战, 例如在科研选题立项阶段, 科研人员需要全面了解相关领域已取得的成果知识、最新进展以及未来发展趋势等。从庞大的科技文献中手工检索、逐一学习并获取相关知识点, 成为制约科技创新发展的一个瓶颈。如何采取智能技术手段, 让机器代替人从领域科技文献中抽取出相关主题的知识点, 按一定关联方式构建知识网络, 帮助科研人员方便快捷地获取相关知识, 成为当前知识服务研究的热点。本文重点总结科技文献内容知识点抽取研究及技术体系, 以便为相关研究提供借鉴。

2 知识点抽取研究进展
2.1 科技文献内容中的知识点

(1) 知识点界定。不同应用场景下, 人们对知识点的定义不同。本文所讨论的科技文献内容知识点是指: 包含在科技文献之中、面向特定领域问题的、经科学研究验证并经领域专家评审确认的知识单元。这种知识点蕴含在科技文献之中, 科技文献通常具有一定的篇章结构, 例如题名、作者、摘要、正文、参考文献等, 而正文又包括引言(Introduction)、相关研究(Related Work)、假设(Assumption)、方法(Method)、分析(Analysis)、结论(Conclusion)等不同部分, 科技论文的篇章结构可以作为科技论文知识点抽取方法设计的参照要素。科技论文中的知识点具有权威性, 其知识内容都是经过领域专家评审确认的, 具有较高可信度, 是支撑科技创新可信赖的知识对象。与科技文献知识点不同, 其他诸如来自网络信息、百科、新闻、社交数据等方面的知识点不在本文讨论范围之中。

(2) 知识点类别。根据粒度不同, 知识点可分为细粒度知识点和粗粒度知识点两种。其中, 细粒度知识点主要指实体、属性、关系等单元, 它们是构成知识的最基本要素。刘丽佳等[2]建立了领域概念实体、属性、属性值三元组类型的知识点。粗粒度知识点是由多个实体、属性、关系按一定方式组合而成的复杂知识对象, 比如: 主题、事件、创新点等。主题可以是一篇科技文献的核心研究内容, 例如国际评测任务SemEval, 其比赛内容为抽取三元组主题性知识点(任务、过程、原料); 而事件可以是由人物、事件、地点、事项等组成的多元知识点, 例如王宁等[3]提出基于知识元的突发事件案例信息表示方法; 创新点描述科技文献的学术价值, 如Demner-Fushman等[4]依据分类模型抽取作者新贡献的相关句子, 从而得到创新句知识点。根据领域范围不同, 知识点又可以分为通用知识点和学科领域知识点。通用知识点指人类社会生产生活活动中积累的常识性知识, 例如CYC系统[5]收集的知识“树是长在房子外面的”、“笔在笔袋中”等。学科领域知识点是面向特定学科领域的知识, 又分为领域基础知识和领域专深知识。前者指领域通用知识, 如生物领域中构成生物体的基因、蛋白质等知识; 后者是在基础知识点基础上经研究发现的知识, 比如LBD (Linked Brain Data)(①http://www.linked-brain-data.org/.)中揭示的脑组织与脑疾病和认知功能的关系; KnowLife[6]揭示的抽烟与高血压、抽烟与雷诺氏病的因果关系。张力元等[7]利用最小二乘支持向量机与条件随机场方法揭示GOES (Gene Ontology Evidence Sentences)知识。

(3) 知识点表示。知识点表示主要研究用什么样的方式描述和存储知识点, 以方便人和计算机对其进行理解、分析与组合操作。对于细粒度知识点, 主要采取RDF三元组表示方式[8], 三元组基本结构是[主语-谓词-宾语], 其中, 属性三元组表示形式为: [实体-属性-属性值], 实体关系三元表示形式为: [实体-关系-实体]。三元组表示方式不仅可以表示细粒度知识点, 通过三元组嵌套也可以实现对事件等粗粒度复杂知识点的表示, 例如犯罪事件会引起调查事件, 调查事件会引起拘捕事件[9]。目前, 基于三元组的知识点表示得到了广泛应用, 但三元组不是唯一的知识点表示方式。为解决三元组表示计算效率、数据稀疏性等方面面临的问题, 以深度学习为代表的表示学习技术取得了重要进展, 它将三元组的构成要素(实体、关系、属性)表示为低维稠密向量, 进而在低维空间中高效计算它们之间的语义关联, 对知识点的获取、融合、推理等有重要意义[10]。在复杂知识点特别是知识网络表示方面, 本体是一种比较好的知识点组织方式, 与人类思维形式和人类语言形式较为一致, 是一种规范且便于理解的组织方式。其中, Rak等[11]建立了基于OWL本体的生物医学知识点表示框架, 孙静等[12]就中医领域构建了基于本体的症状知识点表示框架。

2.2 知识点抽取研究现状

在图书情报领域, 知识点抽取广泛应用于科学计量、引文分析、知识创新预测等。根据应用的不同, 可分为引用内容分析、主题分析等。在引用内容分析中, 主要通过主题词和特征词的抽取及语义分析, 探索、识别和归类参考文献对于施引文献的引用功能和引用对象类型以及施引文献对参考文献的引用情感倾向和引用的主题知识[13]。Jeong等[14]提出基于被引内容的作者共引分析, 以信息科学领域的期刊论文为例, 抽取引用句并计算引用句之间的相似度, 得到相较传统共引分析更细节的作者共引分析。刘盛博等[13]以J.O’Keefe的高被引论文为例, 从引用性质和功能角度, 抽取研究背景介绍、理论基础和实验基础知识点。在主题分析中, 冷伏海等[15]提出综合使用语义标注、规则、正则抽取句子级主题。葛斌等[16]通过计算无向图节点权重抽取句子级主题。温浩等[17]从实践出发, 提出基于模式识别的三元组主题(问题、方法、结果)抽取。Yi等[18]提出基于融合半监督方法的神经标注抽取关键短语主题知识点。

在计算机领域, 知识点抽取对象一般是实体(概念)及其复杂关系, 广泛应用于智能检索和知识推理。在关系抽取中, Girju等[19]从大量语料库资源中得到词法、句法、语义等特征, 利用有监督机器学习方法抽取科技名词间的关系知识点。车海燕等[20]提出一种自动知识抽取方法, 利用聚集体知识刻画N元关系知识, 自动识别显式及隐含的简单事实知识与N元关系复杂事实知识。在实体或概念抽取中, 丁君军等[21]通过混合使用模式、语法和词频统计抽取学术概念、属性、属性值。翟劼等[22]针对知识点特征, 以短语结构树为基础, 提出基于规则的属性、属性值抽取方法。

广义的知识点抽取还包括知识点构建过程, 指在统一框架的规范下, 对来自不同知识源的知识点进行集成、推理、协同后形成新的知识点[23]。目前知识点构建研究处于起步阶段, 实体对齐是其中的关键步骤, 已经取得丰硕成果, 但仍有较大发展空间[24]

近10年来, 特别是在当前文献大数据环境下, 知识点抽取研究是图书情报和计算机领域的关注热点, 研究工作已取得一定的成果和进展, 但也存在些许不足。第一, 通用知识点抽取技术整体评测效果不断提升, 而针对学科领域特点的抽取研究仍然存在较大短板, 相关研究较少, 精准度有待进一步提升。第二, 不同领域的抽取技术存在较大差异, 未来研究可以以需求为驱动, 领域科学家协同参与, 从而逐步满足大规模不同领域数据计算的需求。

3 知识点抽取关键技术

根据知识点构成类型不同, 知识点抽取技术分为细粒度和粗粒度知识点抽取技术两种, 前者主要包括实体、关系、属性等抽取技术, 后者主要包括事件、主题等粗粒度知识点抽取技术。关键技术的优缺点及适用情况如表1所示。

表1 知识点抽取关键技术

3.1 实体抽取

(1) 基于规则和词典的实体抽取方法。由于硬件、技术、环境等限制, 早期的实体抽取大多采用此类方法。Rau[25]于1991年将启发式算法与规则相结合, 首次实现了从文本中抽取公司名称的实体抽取系统, 其中主要使用三种启发式规则: 平行句子结构(例如: IBM, GE and HP each ... or IBM, GE and HP all)、大量逗号(例如: Ace, Acme, Foo, Bar and Hurchinson, Ltd)、启发词(例如: “of ”, John Doe of General Electric, Can Company of America)。该方法简单、运行速度快, 但易受人为因素影响。

(2) 基于统计机器学习的实体抽取方法。Lin等[26]首先实现基于最大熵模型的实体抽取, 而后规则纠正实体分界错误, 该方法将规则与机器学习方法相结合, 在GENIA数据集上实体抽取准确率和召回率均超过70%。为解决实体类型繁杂的问题, Liu等[27]采用K近邻算法和条件随机场模型相结合的半监督方法, 在一定程度上解决了标注数据不足的问题。其中K近邻算法(K Nearest Neighbor, KNN)用于实体分类, 条件随机场算法(CRF)用于实体分界标注。

(3) 基于神经网络的实体抽取方法。相比统计机器学习, 神经网络方法能够自动学习词汇语义、上下文依赖等, 减少人工设定特征的代价。在实体抽取中, 长短时记忆LSTM网络是效果最好的网络模型之一。Lample等[28]提出条件随机场和双向LSTM网络相结合的架构, 网络包含词嵌入层、LSTM编码器、CRF标注层三部分, 该方法F1值最高达到90.94%。

(4) 面向开放域的实体抽取。以上实体抽取方法大多是限定领域文本和类别实体的抽取。在现实应用中, 更多是开放域的实体抽取, 例如科技文献知识抽取系统、问答系统等。对于不同领域, 科技文献中所包含的实体类别存在较大差异。面向开放域的实体抽取类型复杂, 困难度高。如何自动生成标注数据是该任务面临的难点之一。Whitelaw等[29]提出迭代扩展语料库的方法, 根据已有语料进行特征建模, 处理海量数据集得到实体, 迭代生成标注语料。Etzioni等[30]提出KnowItAll系统, 采用BootStrapping无监督方法, 不需要任何标注语料, 准确率最高达80%, 最低为59%。该系统在搜索引擎中以规则词作为关键词查询, 并用规则抽取实体, 计算抽取准确性, 最后将准确性达到一定阈值的实体纳入知识库。该方法需要在搜索引擎中查询大量关键词, 执行效率低, 难以适应大数据环境。

以上实体抽取方法各有利弊, 应根据不同情况适当选用。规则方法难以实现在不同领域的迁移应用, 但胜在效率高。无监督算法一方面能够降低领域依赖性, 另一方面减少人工标注所花费的时间, 但当前阶段可行性不高, 在未来的研究中应持续关注。神经网络模型, 特别是LSTM-CRF模型能得到很不错的效果, 但在面向学科领域专深实体抽取中, 仍然存在准确率较低的问题, 在未来的研究中应加强与领域特征的结合。开放域实体抽取仍然是未来研究的难点之一, 应在通用抽取技术框架指导下, 针对领域实体特点采取不同的抽取策略, 通过半监督方法生成标注语料, 机器学习和神经网络的方法将会得到更多应用。

3.2 关系抽取

(1) 基于规则的方法。Brin[31]构建了DIPRE系统, 该系统以少量实体关系为种子, 不断迭代, 自动获取规则和实例。Agichtein等[32]在Brin的基础上完善关系的描述模式和实例的置信度评价方式, 提出Snowball系统。Zhu等[33]在Agichtein等的基础上进一步完善置信度评价方式。Carlson等[34]为减少错误实例, 以少量标注种子为例, 根据置信度评价, 迭代增加标注数据。Roth等[35,36]将数据表示为矩阵, 根据相似度计算模板得分, 基于TAC数据调整最优化阈值, 最后进行高分模板匹配。基于规则的方法应用可行性较强, 但对语义类别的描述能力有限。

(2) 基于统计机器学习的方法。根据句子处理方式不同, 基于统计机器学习的方法分为基于特征的方法和基于核函数的方法。基于特征的方法指以上下文、词性、句法等为特征, 构建对象的N维特征向量表示, 训练得到关系分类器, 主要有机器学习方法的选择和特征的选择两个研究点。Kambhatla[37]使用最大熵模型结合词汇、句法和语义特征抽取语义关系。Miao等[38]和Sun等[39]研究特征选取对效果的影响, 包括上下文特征、长术语相关性(Long Term Correlation)特征、实体序列特征、实体间的序列化特征、实体间标点符号特征、词特征、分词特征和语法特征。车万翔等[40]提出在相同特征集的情况下, 不同机器学习方法性能差别不大。基于核函数的方法指用核函数计算两个对象的相似性, 得到关系分类模型。Culotta等[41]提出依据依存树定义核函数, 该方法不需要生成明确的特征, 但训练和预测速度太慢, 无法处理大量数据。Zelenko等[42]比较了核函数和特征的方法, 实验结果表明特征的方法优于核函数的方法。

(3) 基于深度学习的方法。Nguyen等[43]采用CNN方法, 网络共包含4层: 第一层为句子词向量表示的查找表, 第二层为识别N-grams的卷积层, 第三层为确定最相关特征的池化层, 第四层是逻辑回归层。Nguyen等[44]根据神经网络与其他方法相结合的思路, 比较研究了神经网络分别与CNN、RNN、对数线性模型相结合的方法, 实验结果表明, 二者结合能够达到更好的效果。相比统计机器学习方法, 深度学习方法不需要人工设计大量特征, 但存在三大难点, 首先深度学习是一个黑匣子, 其中的运行逻辑不够完美; 其次决定效果的因素众多, 例如神经网络类型、参数、网络结构、是否有预训练词嵌入、训练、测试与评估数据的比例分配等, 因此寻找好的因素组合需花费一定精力; 第三是深度学习效果依赖巨量数据集合。

(4) 面向开放域关系抽取。开放关系抽取分为二元和多元开放关系抽取。在二元开放关系抽取中, 杨博等[45]采用马尔科夫推理、本体结构推理等联合推理方法, 综合多种特征, 从而有效推断关系, 但准确率和召回率表现一般。Wu等[46]研究面向Wikipedia的开放关系抽取, 采用自监督学习训练模型, 准确率得到显著提升。Fader等[47]利用通用规则实现动词抽取, 召回率和准确率相较Wu等的方法有实质性提升。在多元开放关系抽取中, Akbik等[48]提出抽取n元实体关系的方法, 依次检测事实信息词、头部过渡词、所有过渡词, 但该方法抽取效率较低, 不适用于大规模数据。为提高效率, Zeng等[49]提出基于CNN的关系抽取方法, 网络在时间维上应用卷积, 信息在时间维上池化, 实验效果得到有效提升。Sunil等[50]提出CNN与特征相结合的方法, 特征包括单词本身、距离第一个实体的距离、距离第二个实体的距离、单词的语义标注、单词的块标注、实体类型特征, 该方法具有较好的领域通用性。

(5) 实体与关系的联合抽取。关系与实体之间蕴涵较强的联系, 这是实体与关系联合抽取的理论基础。Katiyar等[51]提出基于LSTM网络的实体关系联合抽取, 效果优于单独抽取。针对开放域抽取问题, Miwa等[52]基于词序列和解析树结构, 使用双向顺序LSTM-RNNs网络和双向树结构LSTM-RNNs网络进行抽取。为减少人工特征, Zheng等[53]提出不需要手动设定特征的混合神经网络抽取模型。神经网络为双向编码-解码LSTM模型和CNN模型, LSTM用于实体抽取, CNN用于关系分类。实验结果证明由于LSTM和CNN神经网络的联合, LSTM中实体的上下文信息传递到CNN网络中, 效果得到显著提升。

(6) 属性抽取。属性能对实体进行全面的勾画, 实体的属性可看作实体与属性值之间的名称性关系, 因此属性抽取一般作为关系抽取处理。郭剑毅等[54]使用CRF和SVM方法抽取实例、属性及属性值, CRF用于实体抽取, SVM用于关系识别。对于不同句子中的知识点, 采用上下文就近匹配规则。刘丽佳等[2]对自由文本中的实例、属性和属性值进行识别, 用后向传播(Back Propagation, BP)神经网络的方法进行实例和属性、属性和属性值、实例和属性值关系的识别与抽取, 采用列文伯格(Levenberg-Marquardt, LM)优化算法识别和抽取关系。Zhang等[55]通过主体、客体、关系相对位置得到词嵌入表示, 提出基于神经网络序列模型的属性抽取方法。属性抽取的实体对很可能分散在多句话中, 为捕获多句话中存在的实体对, Huang等[56]基于依赖关系结构建立属性和候选值之间的关系, 以依存图为深度神经网络的输入, 将属性和候选值学习到的Attention与外部知识库学习到的Attention相结合, 指导模型更好地选择上下文, 得到更准确的属性类型。

在关系抽取中, 由于实体和关系之间存在较强的联系, 为进一步提升关系抽取的效果, 应当考虑加入实体特征。在未来研究中, 应充分考虑各类实体特征对关系抽取效果的影响程度, 为应用场景提供有效借鉴。为解决标注数据少的问题, 在未来研究中可重点关注深度学习与特征相结合的方法, 以及深度学习与迭代增加数据相结合的方法。开放域关系抽取仍然是关系抽取研究的难点之一, 在未来研究中可首先考虑建立多领域大规模语料库。

3.3 粗粒度知识点抽取技术

(1) 在主题句知识点抽取技术中, 冷伏海等[15]提出综合使用语义标注、规则及正则表达技术抽取相关主题句。张帆等[57]利用词表、本体抽取主题句。Leskovec等[58]通过建立原始文档与人工标注主题句之间的语义网络, 训练主题句分类器。Muratore等[59]提出一种基于图神经网络的方法, 节点为文档中的句子, 边表征句子之间是否有相同的词, 根据该语义图计算句子权重, 训练主题句分类模型。葛斌等[16]抽取句子主题词构建空间向量并生成无向图, 基于向量空间模型计算边权重, 最后利用文档句相似度矩阵权重模型进行建模与计算, 权重高于一定阈值的文档句被分类为主题句。

(2) 事件抽取任务可分解为4部分: 触发词识别、事件类型分类、论元识别和角色分类。其中, 触发词识别和事件类型分类可合并为事件识别任务, 论元识别和角色分类可合并为论元角色分类任务[60]。事件抽取技术方法主要包括机器学习方法和神经网络方法两类。机器学习方法利用人工构建特征的方法表示每个候选触发词或每个触发词-实体对, 然后借助基于统计的分类模型进行分类[60]。Chen等[61]提出基于富语言学特征的事件抽取模型, 共包括6种特征: 字级别、语义角色标注、触发词概率、零指代、触发词类型一致性、参数一致性。针对事件和论元角色联合抽取问题, Li等[62]提出将触发词和论元角色识别相结合, 加入全局特征, 采用结构感知机算法实现联合抽取。在神经网络方法中, Nguyen等[63]率先提出基于词嵌入、实体位置与实体类型特征的卷积神经网络用于事件检测, 取得较好的效果。针对事件和论元角色联合抽取问题, Nguyen等[64]提出基于递归神经网络模型进行事件和论元角色的联合抽取, 实验证明该模型同时提高了两个任务的性能, 并获得论元角色分类任务的最好效果。针对生物领域事件的抽取问题, 魏小梅[65]提出基于序列标记的联合模型, 从概念上将事件分解为更简单的实体链, 基于依存分析的结果抽取包含实体链的序列, 然后用条件随机场模型标记实体链, 采用人工规则和词典对标记结果进行修正。

(3) 还有一些其他形式的粗粒度知识点抽取技术, 例如定义抽取技术、三元组类型主题抽取技术等。Yi等[18]提出基于半监督方法的神经标注模型, 解决主题知识点(任务、过程、原料)抽取问题。温浩等[17]利用模式识别等对学术论文文摘进行统计分析、特征提取、机器学习、模式判定分析, 对三元组主题知识点(问题、方法、结果)进行了深度挖掘。丁君军等[21]通过混合使用模式规则、语法规则和词频统计实现定义知识点的抽取。在未来研究中, 由于领域知识点抽取需求的不断增加, 粗粒度知识点的形式将越来越多, 对应的技术将更多样化。

4 科技文献内容的知识点抽取相关应用
4.1 智能学术搜索

Semantic Scholar[66]于2015年年末发布, 是一个建立在知识库基础上的学术搜索工具。知识库构建基本原理是以Semantic Scholar语料和Freebase为输入, 得到实体和关系知识点。实体抽取共分为两部分, 首先从文章中抽取名词短语, 其次是实体链接, 将实体链接到在Google中FACC1标注的最频繁实体。关系抽取中的关系包含4种: Author、Context、Desc、Venue, Author表示作者发表文章的题名带有该实体; Context表示两个实体在20个单位的词窗口中共现次数超过5; Desc表示实体与Freebase描述之间的关系; Venue表示作者发表了标题带有该实体的会议论文。利用该知识库, 实现了更细粒度、更精准的智能学术搜索。

4.2 领域知识图谱

中国科学院自动化研究所开发的脑科学知识图谱(①http://www.linked-brain-data.org/.)的内容是包含在科技文献中的科研人员发现并证实的知识点。利用该知识图谱, 支持脑科学知识检索, 支持基于已发现知识的推理计算, 从而为提出科学假设、发现新知识提供支撑。KnowLife[6]是健康和生命科学领域的知识图谱。构建过程分为三部分: 获取生物医学领域的科技文献文本内容和相关的网络论坛文本内容; 抽取三元组知识点(头实体, 关系, 尾实体); 进行知识点整合。OC-2-KB (Obesity and Cancer to Knowledge Base)[67]是肥胖与癌症主题的知识图谱。其内容是包含在PubMed中摘要文本的三元组知识点。领域知识图谱能够为问答系统、搜索系统、推理系统提供支持, 还可以使领域研究人员快速建立起知识点之间的联系, 加速研究人员脑中研究主题的知识点网络构建。

4.3 学科知识服务平台

针对实际研究需要, 中国科学院青岛生物能源与过程研究所研发了蓝细菌知识服务平台。该平台以研究主题为出发点, 按知识类别分类, 对该主题下科技文献内容中的蓝细菌形态描述、生理参数、遗传背景、生物化学特性、代谢网络、代谢工程及应用前景、研究人员机构等, 进行系统归类整理, 并将基于此探索对部分内容、知识的预测功能, 实现一站式蓝细菌知识平台。该知识服务平台既包含细粒度知识点, 例如生理参数、生化特性等, 也包含粗粒度知识点, 例如形态描述等。利用该学科知识服务平台, 科研人员, 特别是复杂领域(例如生物医学领域)的科研人员, 能及时发现研究方向, 把握前人研究动态, 加速科研创新。

5 结 语

文献大数据作为规范、准确的一类庞大资源, 对其的深层次挖掘有重大价值。科技文献内容的知识点抽取是将文本结构化的过程。本文重点梳理抽取技术方法的发展情况, 对经典、新型算法进行了系统阐述和比较。从综述中可以看出, 经过多年努力, 知识点抽取已有较好的研究进展, 但仍存在严峻的问题和挑战。

(1) 科技文献知识点语义相关性与复杂性导致大量语义信息隐含在句子级、篇章级文本中, 内容表征复杂[68], 以蓝细菌的相容性物质主题下酶知识点为例, 需要从科技文献全文中抽取到酶的名字、酶的性质、酶的来源, 从一万字左右的文章中, 仅抽取三个实体要素构成知识点, 面临这样大量噪声文本存在的情形, 直接采用自然语言处理中的技术方法显然无法准确又全面地抽取知识点;

(2) 科技文献有严格的发表规范, 文章结构及论述方式都需符合一定的学术规范, 规范性为知识点抽取提供了便利, 合理地利用能够提升抽取准确率;

(3) 由于每个领域的抽取目标都不相同, 构建单个领域科技文献知识点抽取的语料, 不仅费时费力, 且无法在其他领域中作为语料, 因此需要研究无监督、半监督或远程监督等方法。

考虑到知识点抽取存在的挑战, 结合对关键技术的广泛调研, 笔者认为知识点抽取未来研究的方向主要有三个:

(1) 从大量非结构化文本缩小文本范围, 或研究大量文本中抽取少量知识点问题类型的不平衡抽取技术方案;

(2) 利用学术论文规范辅助知识点抽取;

(3) 探索自动或半自动生成科技文献知识点抽取语料的方法。

考虑知识点抽取的可行性, 可加强科技文献载体特征、领域特征等抽取特征的研究, 建议先从几个相近的领域出发探索较通用的知识点抽取方法, 之后逐步扩大抽取的领域范围。

作者贡献声明

徐红霞: 提出研究选题, 文献收集和整理, 论文起草及最终版本修订;

李春旺: 提出研究思路, 论文框架设计, 论文修改。

利益冲突声明

所有作者声明不存在利益冲突关系。

支撑数据

支撑数据由作者自存储, E-mail: xuhongxia@mail.las.ac.cn。

[1] 徐红霞. References.zip. 参考文献.

参考文献

[1] Hey T, Tansley S, Tolle K.The Fourth Paradigm[M]. Microsoft Press, 2009.
[本文引用:1]
[2] 刘丽佳, 郭剑毅, 周兰江, . 基于LM算法的领域概念实体属性关系抽取[J]. 中文信息学报, 2014, 28(6): 216-222.
针对非结构化自由文本中关系模式比较复杂,关系抽取性能不高的问题,该文提出了利用BP神经网络的优化算法-LM算法,对非结构化自由文本信息中的领域概念实体属性关系进行抽取。首先对语料进行预处理,然后利用CRFs模型对领域概念的实例、属性和属性值进行实体识别,然后根据领域中各类关系的特点分别进行特征提取,构造BP神经网络模型,利用LM算法抽取相应关系。和适用于二分类问题的SVM相比,人工神经网络优化算法自主学习能力强,识别精度高,更适用于多分类的问题。通过几组实验表明,该方法在领域概念实体属性关系抽取方面取得了良好的效果, F值提高了12.8%。
Magsci     [本文引用:2]
(Liu Lijia, Guo Jianyi, Zhou Lanjiang, et al.Domain Concepts Entity Attribute Relation Extraction Based on LM Algorithm[J]. Journal of Chinese Information Processing, 2014, 28(6): 216-222.)
[3] 王宁, 陈湧, 郭玮, . 基于知识元的突发事件案例信息抽取方法[J]. 系统工程, 2014, 32(12): 133-139.
[本文引用:1]
(Wang Ning, Chen Yong, Guo Wei, et al.A Method for Emergency Case Information Extraction Based on Knowledge Element[J]. Systems Engineering, 2014, 32(12): 133-139.)
[4] Demner-Fushman D, Few B, Hauser S E, et al.Automatically Identifying Health Outcome Information in Medline Records[J]. Journal of the American Medical Informatics Association, 2006, 13(1): 52-60.
DOI:10.1197/jamia.M1911      URL     [本文引用:1]
[5] Lenat D B.CYC: A Large-scale Investment in Knowledge Infrastructure[J]. Communications of the ACM, 1995, 38(11): 33-38.
[本文引用:1]
[6] Ernst P, Meng C, Siu A, et al.KnowLife: A Knowledge Graph for Health and Life Sciences[C]//Proceedings of the 30th International Conference on Data Engineering. 2014.
[本文引用:2]
[7] 张力元, 姬东鸿. LS-SVM与条件随机场结合的生物证据句子抽取[J]. 计算机工程, 2015, 41(5): 207-212.对于生物证据句子抽取问题,传统特征和贝叶斯分类模型构建的抽取系统效率不高,导致抽取结果的召回 率较低。为此,针对单句抽取问题和多句混合抽取问题,分别构建2 套系统。利用最小二乘支持向量机模型结合 新的特征组合和句子过滤模块构建系统1,解决传统特征涵盖不全面的问题,并在系统1 中融入条件随机场模型, 融合候选句判别规则建立系统2,解决连续多句合并的问题。实验结果表明,在单句抽取问题上,相比贝叶斯模型 的基准系统,系统1 召回率和F 值分别提高39. 7% 和12. 9% ,在多句混合抽取问题上,相比基于正例和无标记样本 学习系统,系统2 的召回率提高了37. 1% 。
对于生物证据句子抽取问题,传统特征和贝叶斯分类模型构建的抽取系统效率不高,导致抽取结果的召回 率较低。为此,针对单句抽取问题和多句混合抽取问题,分别构建2 套系统。利用最小二乘支持向量机模型结合 新的特征组合和句子过滤模块构建系统1,解决传统特征涵盖不全面的问题,并在系统1 中融入条件随机场模型, 融合候选句判别规则建立系统2,解决连续多句合并的问题。实验结果表明,在单句抽取问题上,相比贝叶斯模型 的基准系统,系统1 召回率和F 值分别提高39. 7% 和12. 9% ,在多句混合抽取问题上,相比基于正例和无标记样本 学习系统,系统2 的召回率提高了37. 1% 。
DOI:10.3969/j.issn.1000-3428.2015.05.038      Magsci     [本文引用:1]
(Zhang Liyuan, Ji Donghong.Biological Evidence Sentence Extraction with Combination of LS-SVM and Conditional Random Field[J]. Computer Engineering, 2015, 41(5): 207-212.)
[8] 刘知远, 孙茂松, 林衍凯, . 知识表示学习研究进展[J]. 计算机研究与发展, 2016, 53(2): 247-261.
人们构建的知识库通常被表示为网络形式,节点代表实体,连边代表实体间的关系.在网络表示形式下,人们需要设计专门的图算法存储和利用知识库,存在费时费力的缺点,并受到数据稀疏问题的困扰.最近,以深度学习为代表的表示学习技术受到广泛关注.表示学习旨在将研究对象的语义信息表示为稠密低维实值向量,知识表示学习则面向知识库中的实体和关系进行表示学习.该技术可以在低维空间中高效计算实体和关系的语义联系,有效解决数据稀疏问题,使知识获取、融合和推理的性能得到显著提升.介绍知识表示学习的最新进展,总结该技术面临的主要挑战和可能解决方案,并展望该技术的未来发展方向与前景.
DOI:10.7544/issn1000-1239.2016.20160020      Magsci     [本文引用:1]
(Liu Zhiyuan, Sun Maosong, Lin Yankai, et al.Knowledge Representation Learning: A Review[J]. Journal of Computer Research and Development, 2016, 53(2): 247-261.)
[9] Chambers N, Jurafsky D.Unsupervised Learning of Narrative Schemas and Their Participants[C]// Proceedings of the Joint Conference of the 47th Annual Meeting of the ACL and the 4th International Joint Conference on Natural Language Processing of the AFNLP. 2009: 602-610.
[本文引用:1]
[10] 王洋洋. 基于海量学术资源的知识元抽取研究[D]. 宁波: 宁波大学, 2014.
[本文引用:1]
(Wang Yangyang.Research on Knowledge Element Extraction Based on Massive Academic Resources[D]. Ningbo: Ningbo University, 2014.)
[11] Rak R, Kurgan L, Reformat M.Use of OWL 2 to Facilitate a Biomedical Knowledge Base Extracted from the GENIA Corpus[C]//Proceedings of the 5th OWLED Workshop on OWL: Experiences and Directions, Collocated with the 7th International Semantic Web Conference. 2008.
[本文引用:1]
[12] 孙静, 杨帆, 邓文萍, . 基于本体的中医症状知识表示模型构建[J]. 医学信息学杂志, 2017, 38(2): 52-56.
[本文引用:1]
(Sun Jing, Yang Fan, Deng Wenping, et al.Construction of TCM Symptoms Knowledge Representation Model Based on Ontology[J]. Journal of Medical Informatics, 2017, 38(2): 52-56.)
[13] 刘盛博, 丁堃, 张春博. 引文分析的新阶段:从引文著录分析到引用内容分析[J]. 图书情报知识, 2015(3): 25-34.
[本文引用:2]
(Liu Shengbo, Ding Kun, Zhang Chunbo.New Stage of Citation Analysis: From Citation Description Analysis to Citation Context Analysis[J]. Documentation, Information & Knowledge, 2015(3): 25-34.)
[14] Jeong Y K, Song M, Ding Y.Content-based Author Co-citation Analysis[J]. Journal of Informatrics, 2014, 8(1): 197-211.
DOI:10.1016/j.joi.2013.12.001      URL     [本文引用:1]
[15] 冷伏海, 白如江, 祝清松. 面向科技文献的混合语义信息抽取方法研究[J]. 图书情报工作, 2013, 57(11): 112-119.
针对目前知识抽取技术无法精确抽取学术文献中提及的具体理论方法和性能指标参数等问题,综合运用语义标注技术、规则抽取技术以及正则表达式技术,提出一种面向科技文献的混合语义信息抽取方法。该方法首先对科技文献进行语义标注,得到相关学术术语。然后,构造抽取规则,抽取文献提及的与具体性能指标相关的句子。最后,采用正则表达式技术从相关句子中精确抽取出关键性能指标。对碳纳米管研究领域科技文献语义的信息抽取证明,该方法能迅速、有效和准确地抽取科技文献主要创新研究内容和性能指标。
DOI:10.7536/j.jssn.0252-3116.2013.11.021      Magsci     [本文引用:2]
(Leng Fuhai, Bai Rujiang, Zhu Qingsong.A Hybrid Semantic Information Extraction Method for Scientific Research Papers[J]. Library and Information Service, 2013, 57(11): 112-119.)
[16] 葛斌, 李芳芳, 李阜, . 基于无向图构建策略的主题句抽取[J]. 计算机科学, 2011, 38(5): 181-185.
[本文引用:2]
(Ge Bing, Li Fangfang, Li Fu, et al.Subject Science Extraction Based on Undirected Graph Construction[J]. Computer Science, 2011, 38(5): 181-185.)
[17] 温浩, 温有奎, 王民. 基于模式识别的文本知识点深度挖掘方法[J]. 计算机科学, 2016, 43(3): 279-284.
[本文引用:2]
(Wen Hao, Wen Youkui, Wang Min.Approach to Text Knowledge Depth Mining Based on Pattern Recognition[J]. Computer Science, 2016, 43(3): 279-284.)
[18] Yi L, Mari O, Hannaneh H.Scientific Information Extraction with Semi-supervised Neural Tagging[C]// Proceedings of the 2017 Conference on Empirical Methods in Natural Language Processing, Copenhagen, Denmark. USA: ACL, 2017: 2641-2651.
[本文引用:2]
[19] Girju R, Beamer B, Rozovskaya A, et al.A Knowledge-rich Approach to Identifying Semantic Relations Between Nominals[J]. Information Processing & Management, 2010, 46(5): 589-610.
[本文引用:1]
[20] 车海燕, 冯铁, 张家晨, . 面向中文自然语言文档的自动知识抽取方法[J]. 计算机研究与发展, 2013, 50(4): 834-842.
自动知识抽取方法可以自动识别并抽取Web文档中与本体匹配的事实知识。利用这些事实知识既可以构建基于知识的服务,也能够为语义Web的实现提供必要的语义数据。但面向自然语言特别是中文自然语言的自动知识抽取非常困难.提出了基于语义Web理论和中文自然语言处理(natural language processing, NLP)技术的自动知识抽取新方法AKE,用聚集体知识概念刻画N元关系知识,能够在不使用大规模语言知识库和同义词表的情况下自动识别中文自然语言文档内容中显式和隐含的简单事实知识和N元关系复杂事实知识.实验结果表明该方法优于目前已知的其他方法.
Magsci     [本文引用:1]
(Che Haiyan, Feng Tie, Zhang Jiachen, et al.Automatic Knowledge Extraction from Chinese Natural Language Documents[J]. Journal of Computer Research and Development, 2013, 50(4): 834-842.)
[21] 丁君军, 郑彦宁, 化柏林. 基于规则的学术概念属性抽取[J]. 情报理论与实践, 2011, 34(12): 10-14.
[本文引用:2]
(Ding Junjun, Zheng Yanning, Hua Bolin.Extraction of Academic Concept Attribute Based on Rules[J]. Information Studies: Theory & Application, 2011, 34(12): 10-14.)
[22] 翟劼, 裘江南. 基于规则的知识元属性抽取方法研究[J]. 情报科学, 2016, 34(4): 43-47.应急管理研究的深入, 现有知识表示方法难以满足其跨学科、 知识异构的特点。知识元模型的提出为解 决这一现状提供了可能。针对知识元模型的特征, 以短语结构树为基础, 提出一种基于规则的知识元属性抽取方 法。以搜集的 2000至 2009年应急管理矿难案例为数据源进行实验, 并对知识元属性抽取结果进行评估与分析。 结果表明, 该方法能基本满足从大规模数据中自动抽取知识元及属性, 将属性抽取方法应用到应急管理中,提高了 知识元抽取效率。
应急管理研究的深入, 现有知识表示方法难以满足其跨学科、 知识异构的特点。知识元模型的提出为解 决这一现状提供了可能。针对知识元模型的特征, 以短语结构树为基础, 提出一种基于规则的知识元属性抽取方 法。以搜集的 2000至 2009年应急管理矿难案例为数据源进行实验, 并对知识元属性抽取结果进行评估与分析。 结果表明, 该方法能基本满足从大规模数据中自动抽取知识元及属性, 将属性抽取方法应用到应急管理中,提高了 知识元抽取效率。
Magsci     [本文引用:1]
(Zhai Jie, Qiu Jiangnan.Research on the Rule-based Knowledge Unit Attributes Extraction Method[J]. Information Science, 2016, 34(4): 43-47.)
[23] 徐绪堪, 房道伟, 蒋勋, . 知识组织中知识粒度化表示和规范化研究[J]. 图书情报知识, 2014(6): 101-106.
[本文引用:1]
(Xu Xukan, Fang Daowei, Jiang Xun, et al.Research on Knowledge Granularity Representation and Standardization During Knowledge Organization[J]. Documentation, Information & Knowledge, 2014(6): 101-106.)
[24] 徐增林, 盛泳潘, 贺丽荣, . 知识图谱技术综述[J]. 电子科技大学学报, 2016, 45(4): 589-606.
[本文引用:1]
(Xu Zenglin, Sheng Yongpan, He Lirong, et al.Review on Knowledge Graph Techniques[J]. Journal of University of Electronic Science and Technology of China, 2016, 45(4): 589-606.)
[25] Rau L F.Extracting Company Names from Text[C]// Proceedings of the 7th IEEE Conference on Artificial Intelligence Applications. IEEE, 1991: 29-32.
[本文引用:1]
[26] Lin Y F, Tsai T, Chou W C, et al.A Maximum Entropy Approach to Biomedical Named Entity Recognition[C]// Proceedings of the 4th International Conference on Data Mining in Bioinformatics. USA: ACM, 2008: 56-61.
[本文引用:1]
[27] Liu X H, Zhang S D, Wei F R, et al.Recognizing Named Entities in Tweets[C]// Proceedings of the 49th Annual Meeting of the Association for Computational Linguistics. ACL, 2011: 359-367.
[本文引用:1]
[28] Lample G, Ballesteros M, Subramanian S, et al.Neural Architectures for Named Entity Recognition[C]// Proceedings of the 2016 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies. USA: ACL, 2016: 260-270.
[本文引用:1]
[29] Whitelaw C, Kehlenbeck A, Petrovic N, et al.Web-Scale Named Entity Recognition[C]// Proceedings of the 17th ACM Conference on Information and Knowledge Management. ACM, 2008: 123-132.
[本文引用:1]
[30] Etzioni O, Cafarella M, Downey D, et al.Unsupervised Named-Entity Extraction from the Web: An Experimental Study[J]. Artificial Intelligence, 2005, 165: 91-134.
DOI:10.1016/j.artint.2005.03.001      URL     [本文引用:1]
[31] Brin S.Extracting Patterns and Relations from the World Wide Web[C]//Proceedings of the 6th International Conference on Extending Database Technology, 1998: 172-183.
[本文引用:1]
[32] Agichtein E, Gravano L.Snowball: Extracting Relations from Large Plain-text Collections[C]// Proceedings of the 5th ACM International Conference on Digital Libraries. ACM, 2000: 85-94.
[本文引用:1]
[33] Zhu J, Nie Z Q, Liu X J, et al.Statsnowball: A Statistical Approach to Extracting Entity Relationships[C]// Proceedings of the 18th International Conference on World Wide Web, Madrid, Spain. New York, USA: ACM, 2009: 101-110.
[本文引用:1]
[34] Carlson A, Betteridge J, Wang R C, et al.Coupled Semi-Supervised Learning for Information Extraction[C]// Proceedings of the 3rd ACM International Conference on Web Search and Data Mining, New York, USA. USA: ACM, 2010: 101-110.
[本文引用:1]
[35] Roth B, Klakow D.Combining Generative and Discriminative Model Scores for Distant Supervision[C]// Proceedings of the 2013 Conference on Empirical Methods in Natural Language Processing.2013: 24-29.
[本文引用:1]
[36] Roth B, Barth T, Wiegand M, et al.Effective Slot Filling Based on Shallow Distant Supervision Methods[OL]. arXiv Preprint, arXiv:1401.1158.
[本文引用:1]
[37] Kambhatla N. Combining Lexical, Syntactic, and Semantic Features with Maximum Entropy Models for Extracting Relations[C]//Proceedings of the ACL 2004 on Interactive Poster and Demonstration Sessions, Barcelona, Spain. USA: ACL, 2004.
[本文引用:1]
[38] Miao Q L, Zhang S, Zhang B, et al.Extracting and Visualizing Semantic Relationships from Chinese Biomedical Text[C]// Proceedings of the 26th Pacific Asia Conference on Language, Information and Computation, 2012: 99-107.
[本文引用:1]
[39] Sun X, Dong L.Featured-Based Approach to Chinese Term Relation Extraction[C]// Proceedings of the 2009 International Conference on Signal Processing Systems. USA: ACM, 2009: 410-414.
[本文引用:1]
[40] 车万翔, 刘挺, 李生. 实体关系自动抽取[J]. 中文信息学报, 2005, 19(2): 1-6.
[本文引用:1]
(Che Wanxiang, Liu Ting, Li Sheng.Automatic Entity Relation Extraction[J]. Journal of Chinese Information Processing, 2005, 19(2): 1-6.)
[41] Culotta A, Sorensen J.Dependency Tree Kernels for Relation Extraction[C]// Proceedings of the 42nd Annual Meeting on Association for Computational Linguistics, Barcelona, Spain. USA: ACL, 2004.
[本文引用:1]
[42] Zelenko D, Aone C, Richardella A.Kernel Methods for Relation Extraction[J]. Journal of Machine Learning Research, 2003, 3: 1083-1106.
[本文引用:1]
[43] Nguyen T H, Grishman R.Relation Extraction: Perspective from Convolutional Neural Networks[C]// Proceedings of the 1st Workshop on Vector Space Modeling for Natural Language Processing. 2015: 39-48.
[本文引用:1]
[44] Nguyen T H, Grishman R.Combining Neural Networks and Log-linear Models to Improve Relation Extraction[OL]. arXiv Preprint, arXiv: 1511.059026.
[本文引用:1]
[45] 杨博, 蔡东风, 杨华. 开放式信息抽取研究进展[J]. 中文信息学报, 2014, 28(4): 1-11.
从大规模非结构化文本中自动地抽取有用信息是自然语言处理和人工智能的一个重要目标。开放式信息抽取在高效挖掘网络文本信息方面已成为必然趋势,按关系参数可分为二元、多元实体关系抽取,该文按此路线对典型方法的现状和存在问题进行分析与总结。目前多数开放式实体关系抽取仍是浅层语义处理,对隐含关系抽取很少涉及。采用马尔科夫逻辑、本体结构推理等联合推理方法可综合多种特征,有效推断细微完整信息,为深入理解文本打开新局面。
Magsci     [本文引用:1]
(Yang Bo, Cai Dongfeng, Yang Hua.Progress in Open Information Extraction[J]. Journal of Chinese Information Processing, 2014, 28(4): 1-11.)
[46] Wu F, Weld D S.Open Information Extraction Using Wikipedia[C]//Proceedings of the 48th Annual Meeting of the Association for Computational Linguistics. USA: ACL, 2010: 118-127.
[本文引用:1]
[47] Fader A, Soderland S, Etzioni O.Identifying Relations for Open Information Extraction[C]//Proceedings of the 2011 Conference on Empirical Methods in Natural Language Processing. 2011: 1535-1545.
[本文引用:1]
[48] Akbik A, Loser A.KrakeN: N-ary Facts in Open Information Extraction[C]// Proceedings of the Joint Workshop on Automatic Knowledge Base Construction and Web-scale Knowledge Extraction. ACM, 2012: 52-56.
[本文引用:1]
[49] Zeng D, Liu K, Chen Y, et al.Distant Supervision for Relation Extraction via Piecewise Convolutional Neural Networks[C]// Proceedings of the 2015 Conference on Empirical Methods in Natural Language Processing, Lisbon, Portugal. USA: ACL, 2015: 1753-1762.
[本文引用:1]
[50] Sunil S K, Anand A, Oruganty K, et al.Relation Extraction from Clinical Texts Using Domain Invariant Convolutional Neural Network[C]// Proceedings of the 15th Workshop on Biomedical Natural Language Processing, Berlin, Germany. USA: ACL, 2016: 206-215.
[本文引用:1]
[51] Katiyar A, Cardie C.Investigating LSTMs for Joint Extraction of Opinion Entities and Relations[C]// Proceedings of the 54th Annual Meeting of the Association for Computational Linguistics, Berlin, Germany. USA: ACL, 2016: 919-929.
[本文引用:1]
[52] Miwa M, Bansal M.End-to-End Relation Extraction Using LSTMs on Sequences and Tree Structures[C]// Proceedings of the Association for Computational Linguistics, Berlin, Germany. USA: ACL, 2016: 1105-1116.
[本文引用:1]
[53] Zheng S C, Hao Y X, Lu D Y, et al.Joint Entity and Relation Extraction Based on a Hybrid Neural Network[J]. Neurocomputing, 2017, 257: 59-66.
DOI:10.1016/j.neucom.2016.12.075      URL     [本文引用:1]
[54] 郭剑毅, 李真, 余正涛, . 领域本体概念实例、属性和属性值的抽取及关系预测[J]. 南京大学学报: 自然科学版, 2012, 48(4): 383-389.
[本文引用:1]
(Guo Jianyi, Li Zhen, Yu Zhengtao, et al.Extraction and Relation Prediction of Domain Ontology Concept Instance, Attribute and Attribute Value[J]. Journal of Nanjing University: Natural Sciences, 2012, 48(4): 383-389.)
[55] Zhang Y H, Zhong V, Chen D Q.Position-aware Attention and Supervised Data Improve Slot Filling[C]// Proceedings of the 2017 Conference on Empirical Methods in Natural Language Processing. USA: ACL, 2017: 35-45.
[本文引用:1]
[56] Huang L, Sil A, Ji H, et al.Improving Slot Filling Performance with Attention Neural Networks on Dependency Structures[C]// Proceedings of the 2017 Conference on Empirical Methods in Natural Language Processing, Copenhagen, Denmark. USA: ACL, 2017: 2588-2597.
[本文引用:1]
[57] 张帆, 乐小虬. 面向领域科技文献的句子级创新点抽取研究[J]. 现代图书情报技术, 2014(9): 15-21.
[本文引用:1]
(Zhang Fan, Le Xiaoqiu.Research on Innovation Points Extraction from Scientific Research Paper Based on Field Thesaurus[J]. New Technology of Library and Information Service, 2014(9): 15-21.)
[58] Leskovec J, Milic-Frayling N, Grobelnik M.Extracting Summary Sentences Based on the Document Semantic Graph[R]. Microsoft Technical Report. Redmond: Microsoft Corporation,2005.
[本文引用:1]
[59] Muratore D, Hagenbuchner M, Scarselli F, et al.Sentence Extraction by Graph Neural Networks[C]// Proceedings of the 20th International Conference on Artificial Neural Networks. 2010: 237-246.
[本文引用:1]
[60] 秦彦霞, 张民, 郑德权. 神经网络事件抽取技术综述[J]. 智能计算机与应用, 2018, 8(3): 1-5.
[本文引用:2]
(Qin Yanxia, Zhang Min, Zheng Dequan.A Survey on Neural Network-based Methods for Event Extraction[J]. Intelligent Computer and Applications, 2018, 8(3): 1-5.)
[61] Chen C, Ng V.Joint Modeling for Chinese Event Extraction with Rich Linguistic Features[C]// Proceedings of the 24th International Conference on Computational Linguistics. 2012: 529-544.
[本文引用:1]
[62] Li Q, Ji H, Huang L.Joint Event Extraction via Structured Prediction with Global Features[C]// Proceedings of the 51st Annual Meeting of the Association for Computational Linguistics. 2013: 73-82.
[本文引用:1]
[63] Nguyen T H, Grishman R.Event Detection and Domain Adaptation with Convolutional Neural Networks[C]// Proceedings of the 53rd Annual Meeting of the Association for Computational Linguistics and the 7th International Joint Conference on Natural Language Processing. 2015: 365-371.
[本文引用:1]
[64] Nguyen T H, Cho K, Grishaman R.Joint Event Extraction via Recurrent Neural Networks[C]// Proceedings of the 2016 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies. 2016: 300-309.
[本文引用:1]
[65] 魏小梅. 生物事件抽取联合模型研究[D]. 武汉: 武汉大学, 2016.
[本文引用:1]
(Wei Xiaomei.The Study on Joint Models for Biomedical Event Extraction[D]. Wuhan: Wuhan University, 2016.)
[66] Xiong C Y, Power R, Callan J.Explicit Semantic Ranking for Academic Search via Knowledge Graph Embedding[C]// Proceedings of the 26th International Conference on World Wide Web, Perth, Australia. USA: ACM, 2017: 1271-1279.
[本文引用:1]
[67] Lossio-Ventura J A, Hogan W, Modave F, et al. OC-2-KB: A Software Pipeline to Build an Evidence-based Obesity and Cancer Knowledge Base[C]//Proceedings of the 2017 IEEE International Conference on Bioinformatics and Biomedicine. 2017: 1284-1287.
[本文引用:1]
[68] 龚立群, 孙洁丽. 国外主要知识抽取项目介绍与评析[J]. 图书馆论坛, 2007, 27(4): 11-15.
[本文引用:1]
(Gong Liqun, Sun Jieli.Introduction and Evaluation of Knowledge Extraction Projects Overseas[J]. Library Tribune, 2007, 27(4): 11-15.)
资源
PDF下载数    
RichHTML 浏览数    
摘要点击数    

分享
导出

相关文章:
关键词(key words)
知识抽取
科技文献
机器学习

Knowledge Extraction
Scientific Literature
Machine Learning

作者
徐红霞
李春旺

Xu Hongxia
Li Chunwang
版权所有 © 2015 《数据分析与知识发现》编辑部
地址:北京市海淀区中关村北四环西路33号 邮编:100190
电话/传真:(010)82626611-6626,82624938
E-mail:jishu@mail.las.ac.cn