专利术语抽取的层次过滤方法

引用本文

侯婷, 吕学强, 李卓. 专利术语抽取的层次过滤方法. 31(1): 24-30
Hou Ting, Lv Xueqiang, Li Zhuo. Hierarchical Filtering Method for Patent Term Extraction. New Technology of Library and Information Service, 31(1): 24-30 复制到剪切板

Permissions

《现代图书情报技术》编辑部

专利术语抽取的层次过滤方法

侯婷, 吕学强, 李卓

北京信息科技大学网络文化与数字传播重点实验室北京 100101

通讯作者:侯婷, ORCID: 0000-0001-6599-1106, E-mail:houtingting163@126.com。

作者贡献声明：

吕学强: 提出研究课题;

侯婷: 设计实验方案, 完成实验并撰写论文;

李卓: 数据处理和分析, 论文最终版本修订。

基金:本文系国家自然科学基金项目“基于本体的专利自动标引研究”(项目编号:61271304)、北京市教委科技发展计划重点项目暨北京市自然科学基金B类重点项目“面向领域的互联网多模态信息精准搜索方法研究”(项目编号:KZ201311232037)和北京市属高等学校创新团队建设与教师职业发展计划项目“大数据内容理解的理论基础及智能化处理技术”(项目编号: IDHT20130519)的研究成果之一;

摘要

【目的】专利术语作为专利文献的核心内容和重要组成部分, 其抽取任务是专利研究的基础工作。【方法】提出一种基于层次过滤的方法抽取专利术语。基于后缀数组获取重复字串作为候选词, 根据候选词集合中无效字串的特点将其分为破碎字串、冗余字串和通用词, 通过识别和过滤三类无效字串获得专利术语。分别提出计算独立性算法过滤破碎字串, 相对活跃度计算方法和分词纠错法过滤冗余字串。【结果】实验结果表明, 该方法对中文专利术语抽取有较好的效果, 平均正确率为90.54%, 平均召回率为87.33%。【局限】只针对重复字串, 无法识别文献中出现频次为1的专利术语。【结论】该方法用于专利术语抽取是有效的。

关键词: 专利术语; 层次过滤; 独立性计算; 相对活跃度

中图分类号:TP391.1

Hierarchical Filtering Method for Patent Term Extraction

Hou Ting, Lv Xueqiang, Li Zhuo

Beijing Key Laboratory of Internet Culture and Digital Dissemination Research, Beijing Information Science and Technology University, Beijing 100101, China

Abstract

[Objective] As the core content and the important part of patent documents, the extraction task of patent terms is regarded as the basis of research works on the patent.[Methods] A hierarchical filtering method is presented to extract terms. Based on the suffix array, this method takes repeated strings as the candidate words and divides invalid strings into three classes, including the broken string, the redundant string and the common word, according to their features in the candidate set. Besides, by removing the above invalid strings, patent terms are obtained. The authors propose an independence calculation method, a relative activity calculation method and a word segmentation error correction method to filter broken strings and redundant strings respectively.[Results] Experimental results show that the proposed method has a good effect on Chinese patent term extraction. The average precision is 90.54% and the average recall is 87.33%.[Limitations] The method is just suitable for repeated strings and cannot identify the term which frequency number is 1.[Conclusions] The method is effective in patent term extraction.

Keyword: Patent terms; Hierarchical filtering method; Independence calculation; Relative Active Degree

Show Figures

1 引言

专利是技术信息的重要来源, 据世界知识产权组织统计, 世界上每年90%-95%的发明创造成果能在专利文献中查到^[1]。专利文献具有独特的竞争情报价值, 在科研和专利业务的诸多方面发挥着重要作用。专利术语是深层次理解专利文献内容的基础, 其能否被较好地识别影响着专利检索、专利翻译、专利本体构建^[2]等诸多方面的应用性能。因此, 专利术语抽取作为目前重要的研究课题, 越来越受到研究者的关注。

国内外学者对术语抽取进行了大量的研究, 提出了各种术语抽取方法, 主要包括: 语言学规则方法^[3]、统计方法^[4]和混合方法^[5]。其中, 语言学规则方法主要是利用词法、句法信息识别术语, 该方法简单, 抽取准确率高, 但是总体召回率偏低, 规则库构建和维护需要耗费人力资源; 统计方法基于数理统计理论, 利用词的统计特征抽取术语, 该方法具有较好的适应性, 但准确率较低; 混合方法, 即将两种方法结合起来, 取长补短。专利文献是一种法律文本, 为了有效地保护发明创造, 专利申请人在专利文献中往往会使用一些繁复晦涩、意义含混的专用术语, 不能简单地用语言学规则或者统计方法来抽取术语。目前针对中文专利进行术语抽取的研究, 大多采用多策略融合技术。韩红旗等^[6]利用构词规则和术语度PC-value计算方法抽取术语。该方法能够有效地抽取长术语, 对低频短术语, 特别是最新术语, 识别精度不高, 需要人工识别。徐川等^[7]提出将字符串之间的结合强度与词性过滤法相融合的方法抽取专利术语, 该方法会将一些通用字串误识别为术语。刘豹等^[8]使用条件随机场模型进行初步标注识别术语, 然后结合规则库和词表等对错误识别结果进行过滤。岳金媛等^[9]利用NC-value算法和条件随机场模型来抽取专利术语。上述两种方法具有较高的准确率和召回率, 但是人工标注术语的工作量较大, 且人工标注的质量决定了术语抽取的质量。谷俊等^[10]对传统的TFIDF模型进行了改进, 增加了申请年和申请人的因素来抽取专利技术术语, 针对性比较强, 无法证明其在大规模数据中的通用性。上述专利术语抽取的研究有效地结合了语言学规则方法和统计方法, 提高了抽取术语的准确率, 但是极少考虑到中文专利文献的用词特点。

针对以上方法存在的问题, 本文提出一种基于层次过滤的专利术语抽取方法, 抽取文献中重复字串作为候选术语, 根据候选术语中三类无效字串的结构特点进行逐一过滤。旨在提高专利术语抽取的准确度和召回率, 降低人工成本, 为专利的信息检索、机器翻译、专利分析、专利地图构建等工作提供技术基础。

2 获取候选术语

专利术语承载着专利发明的核心知识, 在专利文献中会被多次提及。因此, 本文抽取文献中的重复字串作为候选术语。而文献中常常包含一些没有实际意义的通用词, 以此作为切分标记对文本进行切分预处理, 可以提高候选术语抽取的效率和准确度。

专利术语构成形式多样, 数词、方位词、介词等均有可能构成术语, 例如“ 四角位移传感器” 、“ 上连杆” 等, 而这些词又存在于常用停用词表中, 同时, 常用停用词表不包含专利常用词, 例如: “ 专利号” 、“ 实施例” 等。因此, 不能直接使用常用停用词表对文献进行切分。本文根据专利文献的用词特点和专利术语的特点, 构建专利切分标记表。

2.1 专利切分标记表构建

本文构建的专利切分标记表包括显式切分标记和隐式切分标记, 显式切分标记包括标点、数字、西文和非汉字符号; 隐式切分标记包括普通通用词、专利常用词以及出现频率高、构词能力差的单字词。普通通用词是指应用十分广泛、自身并无明确意义、只有将其放入一个完整的句子中才有一定作用的词汇。专利常用词是指与专利相关的经常出现在专利文献中而在其他文献中较少出现的词汇。构词能力差的单字词是指类似于“ 的” 、“ 是” 等的词。

隐式切分标记中的专利常用词和构词能力差的单字词通过人工手动的构建, 普通通用词主要通过选取现代汉语方位词表、代词表、副词表等6个表^[11]中的双字以及双字以上的词获得。此外, 本文还收录了单字数词词表和单字量词词表, 将“ 单字数词+单字量词” 的模式, 共同作为一个隐式切分标记。最后, 将获得的全部隐式切分标记按照词长大小顺序, 存储到切分标记表中。专利切分标记表示例如表1所示:

表1 专利切分标记词表示例

2.2 候选术语抽取算法

专利文献主要用来描述新发明的领域技术, 所用的专利术语具有丰富的内涵, 一般为多词术语, 单词型术语较少, 因此, 仅将长度大于2的词语作为候选术语。专利术语在文献的多个部分都会重复出现, 如主权项、权利要求书等。同时, 专利术语存在嵌套关系, 例如: “ 连续式葡萄糖传感器” 、“ 连续式葡萄糖” 、“ 葡萄糖传感器” 。因而, 根据术语的分布特点和构成特点, 本文利用后缀数组抽取字符串中重复字串的思想^[12], 抽取文本内容中的重复字串作为候选术语。

基本定义如下:

后缀: 从某个位置i开始到整个串末尾结束的一个特殊子串。

最长公共前缀: 一种特殊的公共子串, 即两个字符串从头开始的最长公共子串。例如: 字符串“ aaaab” 与字符串“ aaab” 的最长公共前缀为“ aaa” 。

算法描述: 首先采用构建的专利切分标记表对专利文献进行切分处理, 获得字串片段, 将这些字串片段的所有后缀按照字典序排列, 将相邻的两个后缀的最长公共前缀以及最长公共前缀从头开始长度大于2的子串作为候选术语加入候选词集合中。

3 候选术语过滤

在获取的候选术语中, 存在三种无效字串。第一种无效字串通常在结构上有所缺失, 没有独立存在意义, 例如“ 进电机” 、“ 力传感器” 等, 该类无效字串称为破碎字串。第二种无效字串在结构中存在冗余信息, 字串的一部分不是术语, 例如“ 生物传感器中” 、“ 加壳聚糖溶液” 等, 这类无效字串称为冗余字串。第三种无效字串在结构上完整, 但却不是术语, 例如“ 灵敏度” 、“ 严重性” 等, 此类无效字串称为通用词。将三种无效字串从候选词集合中删除, 即可获得所需的专利术语。

3.1 破碎字串过滤

在候选术语的抽取过程中, 会产生一系列的不完整、不能独立出现的条目, 称为破碎字串。同时, 存在一些破碎字串拥有多个相异父串, 且这些父串之间不存在嵌套关系, 称这类破碎字串为公共破碎字串。例如“ 软件系统” 、“ 硬件系统” 中的“ 件系统” 。目前常用子串归并技术^{[13, 14, 15]}处理破碎字串, 但是该技术不能有效地过滤公共破碎字串。因此, 根据子串与其众多父串之间的关系特点, 本文提出一种计算独立性算法, 计算候选字串单独出现的频次。如果一个字串除了在父串中出现之外, 单独出现的频次比较高, 则该字串的独立性比较强, 成为破碎字串的可能性较低。设置阈值, 将单独出现频次小于阈值μ 的候选字串过滤掉。该算法不仅可以准确地过滤同频子串, 也可以有效地将公共破碎字串过滤掉。

假设某候选字串str, 其父串集合为Parset, 则字串str独立出现的频次为:

(1)

其中, Sfre(str)表示字串str独立出现的频次, Sfre(pstr)表示字串pstr独立出现的频次, fre(str)表示字串str在文献中出现的总频次。如果父串集合为空, 则该候选字串的独立频次为其在文献中出现的总频次。

3.2 冗余字串过滤

对候选字串中冗余字串的处理, 主要是删除冗余字串中的冗余词。例如: “ 用流量限制膜” , 将冗余词“ 用” 删除。本文从候选字串的相对活跃度、构词规则等方面来处理冗余字串。

(1) 相对活跃度过滤

周浪等^[16]提出一种基于左右熵的短语过滤方法, 通过判断候选字串中是否包含活跃度较高的词确定是否为冗余字串。活跃度较高的词为易与其他词汇搭配使用的词, 比如上例中的“ 用” 等。但是有些术语组成部分的词, 活跃度也比较高, 例如“ 控制” 、“ 输出” 等, 包含这类词的字串是专利术语, 并不为冗余字串。据统计, 这类专利术语相比于冗余字串, 在文档中出现的频次平均高出8.5次/文档。因此, 本文对上述方法进行改进, 将字串的频次特征和字串组成词的信息熵特征结合, 提出一种相对活跃度计算方法, 提高冗余字串的识别精度。方法描述如下:

设有词语w, 该词左右两侧的活跃度可按以下公式计算:

(2)

(3)

其中, L表示词w左侧的词汇的集合; R表示词w右侧的词汇的集合; 表示词l在w左侧的概率; 表示词r在w右侧的概率。

假设某个候选字串中包含n个词语, 即为 , 利用以下公式计算其相对活跃度(Relative Active Degree, RAD):

(4)

(5)

其中, RAD(t)表示字串t的相对活跃度, f(t)表示候选字串t的频次, AD_W(w_i)表示词汇w_i的活跃度。人工设定阈值η , 当RAD(t)大于阈值η 时, 视该字串为冗余字串。设冗余字串中活跃度最高的词为w_m, 将w_m在t中长度大于2的相邻字串s加入到候选词集中, 同时, 将该字串从候选词集合中删除。

(2) 词性规则过滤

在上述过程中, 将活跃度高的词语的相邻字串加入候选词集中, 会引入一部分噪声。此外, 候选字串中, 存在一些稳定性比较高的非术语字串。从词性规则方面考虑, 将一些明显不符合构词规则的字串从候选词集中删除。但是, 在专利文献中的术语构词具有多样性, 存在一些术语, 并不符合普通的构词规则。因此, 本文将词性过滤规则与字串频次相结合过滤候选字串, 将频次比较低、符合词性过滤规则的字串过滤掉。所用的部分词性过滤规则如表2所示:

表2 词性过滤规则

(3) 分词纠错法

在以上过滤冗余字串的过程中, 需要用到分词工具。本文采用的分词系统为ICTCLAS^[17], 它依赖于上下文, 在某些上下文语境下, 可能会错误地将字串中的几个词切分为一个词, 而且这种粘连现象一般出现在字串的结尾或者开头部分。例如: “ 建模/n 软件/n 模块执行/n” 、“ 理疗/v 装置/n 控制盒/n 上装/n” 等。这类被错误切分的字串属于冗余字串, 且在词性构成上符合术语构词规则, 因此, 不能够被有效识别。

分析发现, 这类冗余字串在候选词集合中一般存在对应的子串, 且为正确术语。如“ 建模/n软件/n 模块/n” 、“ 理疗/v 装置/n 控制盒/n” 均存在于候选词集合中。对其相邻的字串进行分词以及词性标注, 如上例的“ 执行/v” 、“ 上/f 装/v” 等, 可以看出, 单独对其相邻字串进行词性标注时, 标注结果正确。因此, 利用标注结果, 结合术语构词规则, 对分词产生的错误进行分词纠错处理。具体的规则方法描述如下:

设有候选字串S=w₁w₂L w_n, 若候选词集合中存在字串S₁=w₁w₂L w_m为字串S的左子串, 字串S₂=w_m+1L w_n为字串S₁在字串S中的相邻字串。若字串S₁的结尾词词性为名词, 字串S₂的结尾词词性为动词、方位词时, 则将候选字串S从候选词集合中删除; 同理, 若候选词集合中存在字串S₃=w_iL w_n, 且i> i, 为字串S的右子串, 字串S₄=w₁L w_n-1为字串S₃在字串S中的相邻字串, 若S₃结尾词词性为名词时, 对字串S₄进行词性标注, 若S₄包含助词、方位词(非词首)等不可能构成术语的词性时, 将字串S从候选词集合中删除。

3.3 通用词过滤

候选字串中存在一些表示性质、程度、数值、位置、形状等的词语, 这类词语并不属于术语范畴。这类词语大都以固定的词缀结尾, 例如“ 残疾人” 、“ 受试者” 、“ 标准值” 、“ 深度” 、“ 严重性” 、“ 双凹形” 等。因此, 本文利用词缀规则过滤候选字串中的通用词。部分词缀规则如表3所示:

表3 部分词缀规则

4 实验及结果分析

4.1 实验及评价指标

(1) 实验

实验数据采用某专利公司提供的1 102篇有关医疗设备领域的专利文献(摘要、主权项、权利要求书、专利说明书), 大小为18.7MB。根据候选术语抽取算法抽取文献中的重复字串作为候选术语, 通过公式(1)计算候选术语的独立性过滤候选术语中的破碎字串, 利用相对活跃度计算方法、词性规则和分词纠错法过滤冗余字串, 最后采用后缀规则过滤通用词。将三类无效字串过滤后获得专利术语。其中, 过滤破碎字串时阈值μ =1; 识别冗余字串时, 阈值η =0.4。

(2) 评价指标

采用自然语言处理领域中通用的评测指标, 即准确率和召回率。统计每篇文献中包含的术语总数(Sa)、识别的术语总数(St)和正确识别的术语总数(Sr), 计算出单篇准确率(SP)和单篇召回率(SR)。计算所统计文献中包含的术语总数(Ta)、识别的术语总数(Tt)和正确识别的术语总数(Tr), 获得所统计文献的平均准确率(AP)和召回率(AR)。公式如下:

(6)

(7)

(8)

(9)

4.2 实验结果及分析

随机选取其中15篇专利文献的实验结果进行评价, 如表4所示:

表4 专利文献抽取结果评价

表4引用的15篇文献, 主题内容、技术背景不同, 文件大小分布各异。专利术语抽取实验在15篇文献中的平均准确率高达90.54%; 召回率和文献大小大体成负相关, 变化较大, 最高达到97.62%, 最低达到78.13%, 对应的文件大小为7KB和58KB。经分析, 文件较大的文献中, 所包含的频次为1的术语较多, 而本文采用的候选术语抽取算法不能将频次为1的专利术语抽取出来。因此, 对于包含较多频次为1的文献, 召回率偏低。而这些频次为1的术语, 在文献中有些作为例子或者另一术语的别名出现, 有些作为技术背景内容被提及, 例如在介绍“ 生理系统” 时, 提及“ 呼吸系统” , 在介绍技术背景时引入其他专利的名称等。

在对三种无效字串过滤的过程中, 分别统计了平均准确率和平均召回率, 其统计结果如图1所示:

	Figure Option View Download New Window
	图1 逐层过滤的准确率和召回率

抽取候选字串过程中, 为了保证召回率, 将最长公共前缀的子串也作为候选词加入候选词集合中, 大大降低了准确率。从图1可以看出, 在未过滤无效字串之前, 准确率仅有10.37%, 而召回率达97.77%。破碎字串过滤将准确率提高到53.77%, 由于过滤阈值较低, 使得提高准确率的同时保持了召回率不变。冗余字串过滤后, 召回率降低到87.33%, 准确率提高到84.22%。通用词过滤后, 召回率保持不变, 主要是因为采用词缀规则过滤一些带有词缀的非术语, 对专利术语没有影响。

从图1可以看出, 候选词集合中破碎字串和冗余字串所占比重较大, 两类字串经过过滤后, 准确率提高幅度较高。在过滤冗余字串时, 召回率下降幅度较大。从字串的活跃度和构词规则等方面逐步过滤冗余字串, 每次过滤都会存在把正确术语过滤掉的情况。根据公式(8)、公式(9)得到平均准确率为90.54%, 平均召回率为87.33%, 表明本文方法对抽取术语具有较好的效果。

以用于专利术语抽取的PC-value方法^[6]作对比实验, 抽取15篇文献, 通过观察实验结果, 人为设定PC-value的阈值χ =6。对比实验结果如表5所示:

表5 对比实验结果

从对比结果中可以看出, 本文方法明显优于PC-value方法。PC-value方法抽取专利技术术语的流程为: 分词和词性标注, 使用语言构词规则获得候选术语列表, 计算候选术语的PC-value值, 领域专家评估确定术语。根据专利术语特点, 存在一些并不符合普通术语构词规则的术语, 该方法不能有效识别该类术语。而本文首先利用重复字串获得候选术语, 从非术语的构词特征出发, 利用统计方法和语言规则法过滤无效字串。PC-value有利于提取高频、长术语, 而对低频的短术语抽取效果不好, 本文方法只对文献中出现频次为1的术语识别效果不好。因此, 本文方法的术语识别效果高于PC-value方法。

5 结语

根据候选术语中无效字串的特点, 将其分为破碎字串、冗余字串和通用词, 提出一种基于层次过滤的专利术语抽取方法。根据子串与父串的关系特点判断破碎字串并将其过滤; 分别从字串的活跃度和构词规则等方面过滤冗余字串; 采用词缀规则过滤通用词。实验结果表明, 提出的方法能较好地从专利文献中抽取专利术语。本文的候选术语抽取算法只针对重复字串, 对频次为1的低频术语抽取效果不佳。经分析发现, 大多数低频术语出现在文献的背景技术部分, 下一步工作是分析术语在文献中的分布特征, 利用其分布特点改进术语抽取的效果。

参考文献

View Option

[1]	王朝晖. 专利文献的特点及其利用[J]. 现代情报, 2008(9): 151-152, 156. Wang Zhaohui. Characteristics and Utilization of Patent Documentation[J]. Modern Information, 2008(9): 151-152, 156. [本文引用:1] [CJCR: 0.801]
[2]	李江华, 时鹏, 胡长军. 一种适用于复合术语的本体概念学习方法[J]. 计算机科学, 2013, 40(5): 168-172. Li Jianghua, Shi Peng, Hu Changjun. Ontology Concept Learning Method for Compound Terms[J]. Computer Science, 2013, 40(5): 168-172. [本文引用:1] [CJCR: 0.61]
[3]	Chambers N, Jurafsky D. Template-based Information Extraction without the Templates [C]. In: Proceedings of the 49th Annual Meeting of the Association for Computational Linguistics (HLT’11). Stroudsburg, Pennsylvania, USA: Association for Computational Linguistics, 2001: 976-986. [本文引用:1]
[4]	潘虹, 徐朝军. LCS算法在术语抽取中的应用研究[J]. 情报学报, 2010, 29(5): 853-857. Pan Hong, Xu Chaojun. Application of LCS-based Algorithm in Chinese Term Extraction[J]. Journal of the China Society for Scientific and Technical Information, 2010, 29(5): 853-857. [本文引用:1] [CJCR: 1.1348]
[5]	施水才, 王锴, 韩艳铧, 等. 基于条件随机场的领域术语识别研究[J]. 计算机工程与应用, 2013, 49(10): 147-149. Shi Shuicai, Wang Kai, Han Yanhua, et al. Terminology Recognition Based on Conditional Rand om Fields[J]. Computer Engineering and Applications, 2013, 49(10): 147-149. [本文引用:1] [CJCR: 0.457]
[6]	韩红旗, 朱东华, 汪雪锋. 专利技术术语的抽取方法[J]. 情报学报, 2011, 30(12): 1280-1285. Han Hongqi, Zhu Donghua, Wang Xuefeng. Technical Term Extraction Method for Patent Document[J]. Journal of the China Society for Scientific and Technical Information, 2011, 30(12): 1280-1285. [本文引用:2] [CJCR: 1.1348]
[7]	徐川, 施水才, 房祥, 等. 中文专利文献术语抽取[J]. 计算机工程与设计, 2013, 34(6): 2175-2179. Xu Chuan, Shi Shuicai, Fang Xiang, et al. Chinese Patent Terminology Extraction[J]. Computer Engineering and Design, 2013, 34(6): 2175-2179. [本文引用:1] [CJCR: 0.789]
[8]	刘豹, 张桂平, 蔡东风. 基于统计和规则相结合的科技术语自动抽取研究[J]. 计算机工程与应用, 2008, 44(23): 147-150. Liu Bao, Zhang Guiping, Cai Dongfeng. Technical Term Automatic Extraction Research Based on Statistics and Rules[J]. Computer Engineering and Applications, 2008, 44(23): 147-150. [本文引用:1] [CJCR: 0.457]
[9]	岳金媛, 徐金安, 张玉洁. 面向专利文献的汉语分词技术研究[J]. 北京大学学报: 自然科学版, 2013, 49(1): 159-164. Yue Jinyuan, Xu Jin’an, Zhang Yujie. Chinese Word Segmentation for Patent Documents[J]. Acta Scientiarum Naturalium Universitatis Pekinensis, 2013, 49(1): 159-164. [本文引用:1] [CJCR: 0.799]
[10]	谷俊, 严明. 基于中文专利的新技术术语识别研究[J]. 情报科学, 2013, 31(1): 144-149. Gu Jun, Yan Ming. Study of New Technology Detection Based on Chinese Patents[J]. Information Science, 2013, 31(1): 144-149. [本文引用:1] [CJCR: 1.112]
[11]	百度文库. 现代汉语词表 [EB/OL]. [2014-06-10]. http: //wenku. baidu. com/view/b41a75ea19e8b8f67c1cb99b. html. Baidu Library. Modern Chinese Vocabulary [EB/OL]. [2014-06-10]. http://wenku.baidu.com/view/b41a75ea19e8b8f67c1cb99b.html. [本文引用:1]
[12]	Yamamoto M, Church K W. Using Suffix Arrays to Compute Term Frequency and Document Frequency for all Substrings in a Corpus[J]. Computational Linguistics, 2001, 27(1): 1-30. [本文引用:1] [JCR: 0.94]
[13]	吕学强, 张乐, 黄志丹, 等. 基于散列技术的快速子串归并算法[J]. 复旦学报: 自然科学版, 2004, 43(5): 948-951. Lv Xueqiang, Zhang Le, Huang Zhidan, et al. Fast Hash Algorithms on Statistical Substring Reduction[J]. Journal of Fudan University: Natural Science, 2004, 43(5): 948-951. [本文引用:1] [CJCR: 0.2263]
[14]	吕学强. 面向机器翻译的E-Chunk获取与应用研究[D]. 沈阳: 东北大学, 2003. Lv Xueqiang. Research of E-Chunk Acquisition and Application in Machine Translation [D]. Shenyang: Northeastern University, 2003. [本文引用:1]
[15]	周浪, 冯冲, 黄河燕, 等. 一种基于独立性统计的子串归并算法[J]. 计算机工程与应用, 2010, 46(24): 129-131. Zhou Lang, Feng Chong, Huang Heyan, et al. Substring Reduction Algorithm Based on Independence Statistic[J]. Computer Engineering and Applications, 2010, 46(24): 129-131. [本文引用:1] [CJCR: 0.457]
[16]	周浪, 冯冲, 黄河燕. 一种面向术语抽取的短语过滤技术[J]. 计算机工程与应用, 2009, 45(19): 9-11. Zhou Lang, Feng Chong, Huang Heyan. Phrase Filtering Technology Oriented to Term Extraction[J]. Computer Engineering and Applications, 2009, 45(19): 9-11. [本文引用:1] [CJCR: 0.457]
[17]	Zhang H P, Yu H K, Xiong D Y, et al. HHMM-based Chinese Lexical Analyzer ICTCLAS [C]. In: Proceedings of the 2nd SIGHAN Workshop on Chinese Language Processing (SIGHAN’03). Stroudsburg, Pennsylvania, USA: Association for Computational Linguistics, 2003: 184-187. [本文引用:1]

2008

0.0

0.801

. 2008, (9):151-152, 156

Characteristics and Utilization of Patent Documentation

专利文献是重要的技术信息,世界上每年发明创造成果的90%-95%能在专利文献中查到,而且许多发明创造成果仅仅出现于专利文献中.专利以公开换取保护,因特网上有着丰富的免费专利文献,时广大用户有非常重要的价值和意义.然而,大多数信息用户对它的认识和利用还不够充分.本文详细地介绍了专利文献的特点、用途、检索方法及获取途径.

... 1 引言专利是技术信息的重要来源, 据世界知识产权组织统计, 世界上每年90%-95%的发明创造成果能在专利文献中查到^[1] ...

2013

0.0

0.61

... 专利术语是深层次理解专利文献内容的基础, 其能否被较好地识别影响着专利检索、专利翻译、专利本体构建^[2]等诸多方面的应用性能 ...

2001

0.0

... 国内外学者对术语抽取进行了大量的研究, 提出了各种术语抽取方法, 主要包括: 语言学规则方法^[3]、统计方法^[4]和混合方法^[5] ...

2010

0.0

1.1348

. 2010, 29(5):853-857

Application of LCS-based Algorithm in Chinese Term Extraction

本文介绍了一种基于最大公共子串(Longest Common Substring,LCS)算法的术语抽取方法:按标点符号对领域文档进行切分;抽取切分后的语句片断的所有最大公共子串作为候选术语集;通过停用词过滤、对照领域词筛选和术语嵌套子串筛选等规则进行判别,得到最终的术语集.通过学前教育领域术语抽取的实验,验证了该算法可以有效地抽取中文领域术语:术语抽取平均准确率达84.2%;4～6字符双词术语抽取的效果尤佳,准确率接近100%.

... 国内外学者对术语抽取进行了大量的研究, 提出了各种术语抽取方法, 主要包括: 语言学规则方法^[3]、统计方法^[4]和混合方法^[5] ...

2013

0.0

0.457

. 2013, 49(10):147-149

Terminology Recognition Based on Conditional Random Fields

1.Chinese Information Processing Research Center, Beijing Information Science and Technology University, Beijing 100101, China 2.Beijing TRS Information Technology Co., Ltd, Beijing 100101, China

Terminology is the key word in all fields. This paper describes a method to recognize terminology based on researches on domain literature. Relying on the existing mature tools, this method uses CRF model to calculate the probability of POS combination. After choosing the set of features, it proposes an optimal feature template through adjusting features and window combination. Meanwhile, it uses 10-fold cross-validation method to determine training parameters of the model. The experimental result shows that the method proposed is a practical reference for terminology recognition.

领域术语是各个领域的核心词汇，在研究了大量领域文献的基础上，提出了一种识别领域术语的方法。该方法以现有成熟工具为依托，使用条件随机场模型统计领域术语的词性组合概率。在选定特征集后，通过调整特征和窗口的组合，制定一个最优特征模板，同时通过10倍交叉验证法确定模型训练参数。实验结果表明，通过条件随机场模型分析领域术语的词性组合概率能够有效地识别领域术语。

... 国内外学者对术语抽取进行了大量的研究, 提出了各种术语抽取方法, 主要包括: 语言学规则方法^[3]、统计方法^[4]和混合方法^[5] ...

2011

0.0

1.1348

... 韩红旗等^[6]利用构词规则和术语度PC-value计算方法抽取术语 ...

... 以用于专利术语抽取的PC-value方法^[6]作对比实验, 抽取15篇文献, 通过观察实验结果, 人为设定PC-value的阈值#cod#x003c7 ...

2013

0.0

0.789

... 徐川等^[7]提出将字符串之间的结合强度与词性过滤法相融合的方法抽取专利术语, 该方法会将一些通用字串误识别为术语 ...

2008

0.0

0.457

. 2008, 44(23):147-150 DOI:10.3778/j.issn.1002-8331.2008.23.045

Technical Term Automatic Extraction Research Based on Statistics and Rules

Knowledge Engineering Center，Shenyang Institute of Aeronautical Engineering，Shenyang 110034，China

Technical term automatic extraction is one of the important topics in Chinese information processing.It has been widely applied to information retrieval，machine translation，especially in the patent machine translation.In this paper，the research mainly focuses on the recognizing method of the technical term combined the patent machine translation task，proposes a technical term recognition method based on the statistics and rules at the base of the analysis of existed method.It first uses Conditional Random Fields（CRF） model to label and recognize the corpus，then a post-processing step based on rules is used to correct the wrong labeled result.The experiment results show the method is efficient for identifying technical terms，in open test the F-value reaches 84.4%.

科技术语自动抽取是中文信息处理领域的一个重要研究课题，在信息检索、机器翻译等领域，特别是在专利翻译中有着广泛应用。结合专利翻译任务，主要研究专利中科技术语的识别方法，在分析目前已有方法的基础之上，提出了一种使用条件随机场模型进行标注识别，并结合规则对错误识别结果进行后处理的科技术语识别方法。实验结果表明，提出的统计和规则相结合的识别方法是有效的，开放测试结果F值达到了84.4%。

... 刘豹等^[8]使用条件随机场模型进行初步标注识别术语, 然后结合规则库和词表等对错误识别结果进行过滤 ...

2013

0.0

0.799

... 岳金媛等^[9]利用NC-value算法和条件随机场模型来抽取专利术语 ...

2013

0.0

1.112

... 谷俊等^[10]对传统的TFIDF模型进行了改进, 增加了申请年和申请人的因素来抽取专利技术术语, 针对性比较强, 无法证明其在大规模数据中的通用性 ...

2014

0.0

... 隐式切分标记中的专利常用词和构词能力差的单字词通过人工手动的构建, 普通通用词主要通过选取现代汉语方位词表、代词表、副词表等6个表^[11]中的双字以及双字以上的词获得 ...

2001

0.94

0.0

... 因而, 根据术语的分布特点和构成特点, 本文利用后缀数组抽取字符串中重复字串的思想^[12], 抽取文本内容中的重复字串作为候选术语 ...

2004

0.0

0.2263

. 2004, 43(5):948-951

Fast Hash Algorithms on Statistical Substring Reduction

用统计方法研究东西方语言的多词单元问题和东方语言的未登录词问题时需要删除同频子串(子串归并).传统的子串归并算法时间复杂度为O(n2),在大规模语料库的处理中效率低下.提出一种基于散列技术的时间复杂度为O(n)的子串归并算法,并用数学方法证明其与O(n2)复杂度的算法等价,即输入相同时输出也相同.不同规模语料上的实验结果表明新算法能够大大缩短子串归并所需时间,适用于大规模语料库的处理.

... 目前常用子串归并技术^[13,14,15]处理破碎字串, 但是该技术不能有效地过滤公共破碎字串 ...

2003

0.0

... 目前常用子串归并技术^[13,14,15]处理破碎字串, 但是该技术不能有效地过滤公共破碎字串 ...

2010

0.0

0.457

. 2010, 46(24):129-131 DOI:10.3778/j.issn.1002-8331.2010.24.039

Substring Reduction Algorithm Based on Independence Statistic

1.School of Computer Science and Technology，Nanjing University of Science and Technology，Nanjing 210094，China 2.Research Center of Computer & Language Information Engineering，Chinese Academy of Sciences，Beijing 100097，China 3.Department of Computer，Ningbo Polytechnic，Ningbo，Zhejiang 315800，China

The substring reduction algorithm applied in most cases is mainly focusing on the substrings having the same frequency with the parent string in one to one mode.After being processed by the morphological analysis tool，it’s unavoidable to product many segment fragments which compose many meaningless substrings.According to the analysis of the one to multiple relationship between the meaningless substring and its parent strings，a substring reduction algorithm based on independence statistic is proposed to filter these meaningless substrings.Finally，this substring reduction algorithm is applied in the Chinese multi-words terminology extraction system，and the precision of the term extraction results is improved from 91.3% to 93.32%.

现行的子串归并算法都是采用一对一的方式针对同频子串提出的。但是在使用词法分析工具对文本进行切分时，不可避免地会产生很多的分词碎片，这直接导致了很多无意义子串的产生。通过分析这些无意义子串和众多父串之间的这种一对多关系，提出了一种基于独立性统计的子串归并算法。最后将该子串归并算法应用在中文术语抽取系统中，使得系统的准确率从91.3%提升到了93.32%。

... 目前常用子串归并技术^[13,14,15]处理破碎字串, 但是该技术不能有效地过滤公共破碎字串 ...

2009

0.0

0.457

. 2009, 45(19):9-11 DOI:10.3778/j.issn.1002-8331.2009.19.003

Phrase Filtering Technology Oriented to Term Extraction

1.College of Computer Science and Technology，Nanjing University of Science and Technology，Nanjing 210094，China 2.Research Center of Computer & Language Information Engineering，CAS，Beijing 100097，China

In the term extraction process，some phrases or phrase fragments containing active lexical represent as the noisy，which usually have the stable collocation pattern and a high co-occurrence probability in the corpus.The traditional phrase filtering methods are inclined to measure the cohesion of the inner words，and own less discriminate ability with these active noisy.This paper proposes a phrase filtering approach based on left/right entropy technology to evaluate the active degree of words in the phrases or phrase fragments and filter the ones having high value.Validated by the tests，this approach can effectively remove the active noisy and improve the performance of the multi-word term extraction system.

在术语抽取工作中，经常会遇到一些包含活跃词汇的短语或短语碎片，这些干扰项一般具有稳定的搭配模式，并且在语料中共现的概率也非常高。常用的短语过滤方法都是侧重于计算短语内部词语之间的黏合度，对这些干扰项的鉴别能力并不强。提出了一种基于左右熵的短语过滤方法，估算出短语或短语碎片中词语的活跃度，并过滤掉活跃度较高的短语或短语碎片。将该方法应用到一个术语抽取系统中，实验证实能够有效去除这些干扰项，提升术语抽取系统的性能。

... 周浪等^[16]提出一种基于左右熵的短语过滤方法, 通过判断候选字串中是否包含活跃度较高的词确定是否为冗余字串 ...

2003

0.0

... 本文采用的分词系统为ICTCLAS^[17], 它依赖于上下文, 在某些上下文语境下, 可能会错误地将字串中的几个词切分为一个词, 而且这种粘连现象一般出现在字串的结尾或者开头部分 ...