Please wait a minute...
Advanced Search
现代图书情报技术  2014, Vol. 30 Issue (9): 91-98    DOI: 10.11925/infotech.1003-3513.2014.09.12
  情报分析与研究 本期目录 | 过刊浏览 | 高级检索 |
面向中文专利权利要求书的分词方法研究
张杰, 张海超, 翟东升
北京工业大学经济与管理学院 北京 100124
Research of the Word Segmentation for Chinese Patent Claims
Zhang Jie, Zhang Haichao, Zhai Dongsheng
School of Economics and Management, Beijing University of Technology, Beijing 100124, China
全文: PDF(885 KB)   HTML  
输出: BibTeX | EndNote (RIS)      
摘要 

[目的] 解决中文专利权利要求书分词问题,满足专利相似研究需求。[方法] 总结中文专利权利要求书分割特征词、分割子串规则和术语抽取规则,构建领域词典,提出一种基于领域词典和规则相组合的分词方法。[结果] 实验结果表明: 分词的准确率为90%,召回率为95%,F 值为92%。[局限] 由于领域词典的庞大,使得大规模分词的效率降低。[结论] 该方法能够进一步提高中文专利权利要求书的分词效果和效率。

服务
把本文推荐给朋友
加入引用管理器
E-mail Alert
RSS
作者相关文章
张杰
张海超
翟东升
关键词 中文专利权利要求书中文分词领域词典术语抽取    
Abstract

[Objective] To segment Chinese patent claims and fulfill the research needs of patent similarity. [Methods] This paper not only summarizes the segmentation words, the rules of substring segmentation and the rules of domain terms extraction, but also constructs the domain dictionary. The method based on domain dictionaries and rules to segment Chinese patent claims is presented. [Results] The experimental results show that the precision is 90%, the recall-rate is 95%, and F-score is 92%. [Limitations] However, the huge field of dictionaries reduces the efficiency of large-scale segmentation. [Conclusions] This proposed method further improves the effectiveness and efficiency of Chinese patent claims segmentation.

Key wordsChinese patent claim    Chinese word segmentation    Domain dictionary    Terms extraction
收稿日期: 2014-02-21     
:  TP391  
基金资助:

本文系北京市自然科学基金项目“中文专利侵权检测与分析理论方法及关键技术研究”(项目编号:9132005)和北京工业大学人文社会科学基金项目“知识产权侵权检测服务方法、模型及相关技术研究”(项目编号:X5011019201201)的研究成果之一。

通讯作者: 张杰 E-mail:jgzhangjie@bjut.edu.cn     E-mail: jgzhangjie@bjut.edu.cn
作者简介: 作者贡献声明:张杰,张海超,翟东升:提出研究思路,设计研究方案,实施研究过程;张杰,张海超:数据的采集、清洗与分析;张杰,张海超,翟东升:论文起草及最终版本修订。
引用本文:   
张杰, 张海超, 翟东升. 面向中文专利权利要求书的分词方法研究[J]. 现代图书情报技术, 2014, 30(9): 91-98.
Zhang Jie, Zhang Haichao, Zhai Dongsheng. Research of the Word Segmentation for Chinese Patent Claims. New Technology of Library and Information Service, DOI:10.11925/infotech.1003-3513.2014.09.12.
链接本文:  
http://manu44.magtech.com.cn/Jwk_infotech_wk3/CN/10.11925/infotech.1003-3513.2014.09.12

[1] 赵铁军, 吕雅娟, 于浩,等. 提高汉语自动分词精度的多步处理策略[J]. 中文信息学报, 2001, 15(1): 13-18. (Zhao Tiejun, Lv Yajuan, Yu Hao, et al. Increasing Accuracy of Chinese Segmentation with Strategy of Multi-step Processing [J]. Journal of Chinese Information Processing, 2001, 15(1): 13-18.)
[2] 奉国和, 郑伟. 国内中文自动分词技术研究综述[J]. 图书情报工作, 2011, 55(2): 41-45. (Feng Guohe, Zheng Wei. Review of Chinese Automatic Word Segmentation [J]. Library and Information Service, 2011, 55(2): 41-45.)
[3] 邹海山, 吴勇, 吴月珠, 等. 中文搜索引擎中的中文信息处理技术[J]. 计算机应用研究, 2000, 17(12): 21-24. (Zou Haishan, Wu Yong, Wu Yuezhu, et al. Chinese Text Processing in Chinese Search Engine [J]. Application Research of Computers, 2000, 17(12): 21-24.)
[4] 莫建文, 郑阳, 首照宇, 等. 改进的基于词典的中文分词方法[J]. 计算机工程与设计, 2013, 34(5): 1802-1807. (Mo Jianwen, Zheng Yang, Shou Zhaoyu, et al. Improved Chinese Word Segmentation Method Based on Dictionary [J]. Computer Engineering and Design, 2013, 34(5): 1802-1807.)
[5] 李玲. 基于双词典机制的中文分词系统设计[J]. 机械工程与自动化, 2013(1): 17-19. (Li Ling. Design of Chinese Word Segmentation System Based on Dual-dictionary Mechanism [J]. Mechanical Engineering & Automation, 2013(1): 17-19.)
[6] 何国斌, 赵晶璐. 基于最大匹配的中文分词概率算法研究[J]. 计算机工程, 2010, 36(5): 173-175. (He Guobin, Zhao Jinglu. Research on Probabilistic Algorithm of Chinese Word Segmentation Based on the Maximum Match [J]. Computer Engineering, 2010, 36(5): 173-175.)
[7] 梁桢, 李禹生. 基于Hash 结构词典的逆向回溯中文分词技术研究[J]. 计算机工程与设计, 2010, 31(23): 5158-5161. (Liang Zhen, Li Yusheng. Reverse Backtracking Research of Chinese Segmentation Based on Dictionary of Hash Structure [J]. Computer Engineering and Design, 2010, 31(23): 5158-5161.)
[8] 田思虑, 李德华, 潘莹. 一种改进的基于二元统计的 HMM 分词算法[J]. 计算机与数字工程, 2011, 39(1): 14-16, 20. (Tian Silv, Li Dehua, Pan Ying. Improved 2-Gram HMM Algorithm for Chinese Word Segmentation [J]. Computer & Digital Engineering, 2011, 39(1): 14-16, 20.)
[9] 冯永, 李华, 钟将, 等. 基于自适应中文分词和近似SVM的文本分类算法[J]. 计算机科学, 2010, 37(1): 251-254, 293. ( Feng Yong, Li Hua, Zhong Jiang, et al. Text Classification Algorithm Based on Adaptive Chinese Word Segmentation and Proximal SVM [J]. Computer Science, 2010, 37(1): 251-254, 293.)
[10] 赵秦怡, 王丽珍. 一种基于互信息的串扫描中文文本分词方法[J]. 情报杂志, 2010, 29(7): 161-162, 172. (Zhao Qinyi, Wang Lizhen. A Method of String-Scanning Chinese Word Segmentation Based on Mutual Information [J]. Journal of Intelligence, 2010, 29(7): 161-162,172.)
[11] 刘丹, 方卫国, 周泓. 基于贝叶斯网络的二元语法中文分词模型[J]. 计算机工程, 2010, 36(1):12-14. (Liu Dan, Fang Weiguo, Zhou Hong. Bigram Chinese Word Segmentation Model Based on Bayesian Network [J]. Computer Engineering, 2010, 36(1): 12-14.)
[12] 王彩荣. 汉语自动分词专家系统的设计与实现[J]. 微处理机, 2004, 25(3): 56-57, 60. (Wang Cairong. The Design and Implementation of Expert System for Automatic Segmentation of Chinese Words [J]. Microprocessors, 2004, 25(3): 56-57, 60.)
[13] 尹锋. 基于神经网络的汉语自动分词系统的设计与分析[J]. 情报学报, 1998, 17(1): 41-50. (Yin Feng. Design and Analysis of Chinese Automatic Segmenting System Based on Neural Network [J]. Journal of the China Society for Scientific and Technical Information, 1998, 17(1): 41-50.)
[14] 来斯惟, 徐立恒, 陈玉博, 等. 基于表示学习的中文分词算法探索[J]. 中文信息学报, 2013, 27(5): 8-14. (Lai Siwei, Xu Liheng, Chen Yubo, et al. Chinese Word Segment Based on Character Representation Learning[J]. Journal of Chinese Information Processing, 2013, 27(5): 8-14.)
[15] 王靖, 徐向阳, 符蓉. 一种优化的用于中文分词的CRF机器学习模型[J]. 微计算机信息, 2010, 26 (4-3): 169-170, 147. (Wang Jing, Xu Xiangyang, Fu Rong. An Optimized CRF Model Used for Chinese Word Segmentation [J]. Microcomputer Information, 2010, 26(4-3): 169-170, 147.)
[16] 佟晓筠, 宋国龙, 刘强, 等. 中文分词及词性标注一体化模型研究[J]. 计算机科学, 2007, 34(9): 174-175, 212. (Tong Xiaojun, Song Guolong, Liu Qiang, et al. Research on the Model of Integrating Chinese Word Segmentation with Part- of-speech Tagging [J]. Computer Science, 2007, 34(9): 174-175, 212.)
[17] 蒋建洪, 赵嵩正, 罗玫. 词典与统计方法结合的中文分词模型研究及应用[J]. 计算机工程与设计, 2012, 33(1): 387-391. (Jiang Jianhong, Zhao Songzheng, Luo Mei. Analysis and Application of Chinese Word Segmentation Model Which Consist of Dictionary and Statics Method [J]. Computer Engineering and Design, 2012, 33(1): 387-391.)
[18] 张梅山, 邓知龙, 车万翔, 等. 统计与词典相结合的领域自适应中文分词[J]. 中文信息学报, 2013, 26(2): 8-12. (Zhang Meishan, Deng Zhilong, Che Wanxiang, et al. Combining Statistical Model and Dictionary for Domain Adaption of Chinese Word Segmentation [J]. Journal of Chinese Information Processing, 2013, 26(2): 8-12.)
[19] 张桂平, 刘东生, 尹宝生, 等. 面向专利文献的中文分词技术的研究[J]. 中文信息学报, 2010, 24(3): 112-116.
(Zhang Guiping, Liu Dongsheng, Yin Baosheng, et al. Research on Chinese Word Segmentation for Patent Documents [J]. Journal of Chinese Information Processing, 2010, 24(3): 112-116.)
[20] 岳金媛, 徐金安, 张玉洁. 面向专利文献的汉语分词技术研究[J]. 北京大学学报: 自然科学版, 2013, 49(1): 159-164. (Yue Jinyuan, Xu Jin'an, Zhang Yujie. Chinese Word Segmentation for Patent Documents [J]. Acta Scientiarum Naturalium Universitatis Pekinensis, 2013, 49(1): 159-164.)
[21] 宋立峰. 中文分词算法在专利文献中的应用研究[J]. 海峡科学, 2011(7): 9-11, 26. (Song Lifeng. Research on Chinese Word Segmentation Algorithm for Patent Documents [J]. Straits Science, 2011(7): 9-11, 26.)
[22] 张华平. NLPIR汉语分词系统 [EB/OL]. [2014-01-15]. http://ictclas.nlpir.org. ( Zhang Huaping. NLPIR [EB/OL]. [2014-01-15]. http://ictclas.nlpir.org.)
[23] 国家知识产权局. 审查指南[M]. 北京: 知识产权出版社, 2006: 218-242. (State Intellectual Property Office of the People's Republic of China. Guidelines for Patent Examination [M]. Beijing: Intellectual Property Publishing House, 2006: 218-242.)
[24] 翟东升, 马文姗. 中文专利权利要求书分词算法研究[J]. 情报杂志, 2011, 30(11): 152-155. (Zhai Dongsheng, Ma Wenshan. Research the Algorithm of Chinese Patent Claims Segmentation [J]. Journal of Intelligence, 2011, 30(11): 152-155.)
[25] 胡少荣, 孟嗣仪, 刘云, 等. 网页信息自动抽取技术的研究[J]. 铁路计算机应用, 2010, 19(9): 37-40. (Hu Shaorong, Meng Siyi, Liu Yun, et al. Research on Automatic Extraction Technology of Web Information [J]. Railway Computer Application, 2010, 19(9): 37-40.)
[26] 胡阿沛, 张静, 刘俊丽. 基于改进C-value方法的中文术语抽取[J]. 现代图书情报技术, 2013(2): 24-29. (Hu Apei, Zhang Jing, Liu Junli. Chinese Term Extraction Based on Improved C-value Method [J]. New Technology of Library and Information Service, 2013(2): 24-29.)
[27] 日立专利信息检索系统Digi-patent/s [EB/OL]. [2014-01- 06]. http://www.digi-patent-s.com.cn. (Digi-patent/s [EB/ OL]. [2014-01-06]. http://www.digi-patent-s.com.cn.)
[28] 中华人民共和国国家标准. GB/T13715-92, 信息处理用现代汉语分词规范 [S]. (The People's Republic of China National Standard. GB/T13715-92, Contemporary Chinese Language Word Segmentation Specification for Information Processing [S].)

[1] 尤众喜,华薇娜,潘雪莲. 中文分词器对图书评论和情感词典匹配程度的影响 *[J]. 数据分析与知识发现, 2019, 3(7): 23-33.
[2] 冯国明,张晓冬,刘素辉. 基于自主学习的专业领域文本DBLC分词模型[J]. 数据分析与知识发现, 2018, 2(5): 40-47.
[3] 倪维健,孙浩浩,刘彤,曾庆田. 面向领域文献的无监督中文分词自动优化方法*[J]. 数据分析与知识发现, 2018, 2(2): 96-104.
[4] 张越,王东波,朱丹浩. 面向食品安全突发事件汉语分词的特征选择及模型优化研究*[J]. 数据分析与知识发现, 2017, 1(2): 64-72.
[5] 王密平,王昊,邓三鸿,吴志祥. 基于CRFs的冶金领域中文专利术语抽取研究*[J]. 现代图书情报技术, 2016, 32(6): 28-36.
[6] 姜霖,王东波. 采用连续词袋模型(CBOW)的领域术语自动抽取研究*[J]. 现代图书情报技术, 2016, 32(2): 9-15.
[7] 余昕聪, 李红莲, 吕学强. 本体上下位关系在招生问答机器人中的应用研究[J]. 现代图书情报技术, 2015, 31(12): 65-71.
[8] 何宇, 吕学强, 徐丽萍. 新能源汽车领域中文术语抽取方法[J]. 现代图书情报技术, 2015, 31(10): 88-94.
[9] 唐守利, 徐宝祥. 基于本体的云服务语义检索系统研究[J]. 现代图书情报技术, 2014, 30(12): 27-35.
[10] 汤青,吕学强,李卓,施水才,. 领域本体术语抽取研究*[J]. 现代图书情报技术, 2014, 30(1): 43-50.
[11] 熊李艳, 谭龙, 钟茂生. 基于有效词频的改进C-value自动术语抽取方法[J]. 现代图书情报技术, 2013, 29(9): 54-59.
[12] 化柏林. 针对中文学术文献的情报方法术语抽取[J]. 现代图书情报技术, 2013, (6): 68-75.
[13] 胡阿沛, 张静, 刘俊丽. 基于改进C-value方法的中文术语抽取[J]. 现代图书情报技术, 2013, 29(2): 24-29.
[14] 李文江, 陈诗琴. AIMLBot智能机器人在实时虚拟参考咨询中的应用[J]. 现代图书情报技术, 2012, 28(7): 127-132.
[15] 江华, 苏晓光. 无词典中文高频词快速抽取算法[J]. 现代图书情报技术, 2012, 28(6): 50-53.
Viewed
Full text


Abstract

Cited

  Shared   
  Discussed   
版权所有 © 2015 《数据分析与知识发现》编辑部
地址:北京市海淀区中关村北四环西路33号 邮编:100190
电话/传真:(010)82626611-6626,82624938
E-mail:jishu@mail.las.ac.cn