%A 侯婷, 吕学强, 李卓 %T 专利术语抽取的层次过滤方法 %0 Journal Article %D 2015 %J 数据分析与知识发现 %R 10.11925/infotech.1003-3513.2015.01.04 %P 24-30 %V 31 %N 1 %U {https://manu44.magtech.com.cn/Jwk_infotech_wk3/CN/abstract/article_3996.shtml} %8 2015-01-25 %X

[目的] 专利术语作为专利文献的核心内容和重要组成部分, 其抽取任务是专利研究的基础工作。[方法] 提出一种基于层次过滤的方法抽取专利术语。基于后缀数组获取重复字串作为候选词, 根据候选词集合中无效字串的特点将其分为破碎字串、冗余字串和通用词, 通过识别和过滤三类无效字串获得专利术语。分别提出计算独立性算法过滤破碎字串, 相对活跃度计算方法和分词纠错法过滤冗余字串。[结果] 实验结果表明, 该方法对中文专利术语抽取有较好的效果, 平均正确率为90.54%, 平均召回率为87.33%。[局限] 只针对重复字串, 无法识别文献中出现频次为1的专利术语。[结论] 该方法用于专利术语抽取是有效的。