面向中文专利权利要求书的分词方法研究

引用本文

张杰, 张海超, 翟东升. 面向中文专利权利要求书的分词方法研究. 现代图书情报技术, 2014, 30(9): 91-98
Zhang Jie, Zhang Haichao, Zhai Dongsheng. Research of the Word Segmentation for Chinese Patent Claims. New Technology of Library and Information Service, 2014, 30(9): 91-98 复制到剪切板

Permissions

面向中文专利权利要求书的分词方法研究

张杰, 张海超, 翟东升

北京工业大学经济与管理学院北京 100124

通讯作者: 张杰 E-mail:jgzhangjie@bjut.edu.cn

作者贡献声明：

张杰, 张海超, 翟东升: 提出研究思路, 设计研究方案, 实施研究过程; 张杰, 张海超: 数据的采集、清洗与分析; 张杰, 张海超, 翟东升: 论文起草及最终版本修订。

基金:*本文系北京市自然科学基金项目“中文专利侵权检测与分析理论方法及关键技术研究”(项目编号: 9132005)和北京工业大学人文社会科学基金项目“知识产权侵权检测服务方法、模型及相关技术研究”(项目编号: X5011019201201)的研究成果之一;

摘要

【目的】解决中文专利权利要求书分词问题, 满足专利相似研究需求。【方法】总结中文专利权利要求书分割特征词、分割子串规则和术语抽取规则, 构建领域词典, 提出一种基于领域词典和规则相组合的分词方法。【结果】实验结果表明: 分词的准确率为90%, 召回率为95%, F值为92%。【局限】由于领域词典的庞大, 使得大规模分词的效率降低。【结论】该方法能够进一步提高中文专利权利要求书的分词效果和效率。

关键词: 中文专利权利要求书; 中文分词; 领域词典; 术语抽取

中图分类号:TP391

Research of the Word Segmentation for Chinese Patent Claims

Zhang Jie, Zhang Haichao, Zhai Dongsheng

School of Economics and Management, Beijing University of Technology, Beijing 100124, China

Abstract

[Objective] To segment Chinese patent claims and fulfill the research needs of patent similarity.[Methods] This paper not only summarizes the segmentation words, the rules of substring segmentation and the rules of domain terms extraction, but also constructs the domain dictionary. The method based on domain dictionaries and rules to segment Chinese patent claims is presented.[Results] The experimental results show that the precision is 90%, the recall-rate is 95%, and F-score is 92%.[Limitations] However, the huge field of dictionaries reduces the efficiency of large-scale segmentation.[Conclusions] This proposed method further improves the effectiveness and efficiency of Chinese patent claims segmentation.

Keyword: Chinese patent claim; Chinese word segmentation; Domain dictionary; Terms extraction

Show Figures

1 引言

目前, 海量专利信息的处理面临着巨大的挑战, 信息的快速检索和充分利用成为必然, 专利文本分词是研究专利相似的基础和重要部分。词是能够独立使用的最小语言单元, 但中文文本和西语存在很大不同: 汉语中词与词之间没有明显的类似于空格的显式边界。因此, 中文分词成为计算机处理的重要工作, 中文分词的难点是切分歧义的消除和未登录词的识别^{[ 1]}。

虽然中文分词研究取得了丰硕成果, 但针对中文专利文献分词的研究并不多, 本文结合中文专利权利要求书的分割子串规则和术语抽取规则, 构建特定领域词典, 在初分词的基础上, 提出一种基于规则和领域词典的组合分词方法。

2 研究现状介绍

中文分词算法很多, 大致可归纳为: 词典分词方法、统计分词方法、理解分词方法和组合分词算法^{[ 2]}。

基于词典的分词方法也称作基于字符串的机械分词方法^{[ 3]}, 其主要思想是: 按照一定的匹配规则将文本中的字符串和事先构建好的词典中的词语进行逐一

匹配, 若匹配成功则切分出来。常用的几种词典分词方法有正向最大匹配法、逆向最大匹配法、双向最大匹配法和最少切分等^{[ 2]}。莫建文等^{[ 4]}提出改进的基于词典中文分词方法, 该方法结合双字哈希结构, 并利用改进的正向最大匹配分词算法进行中文分词。李玲^{[ 5]}构造了标准词典、临时词典和临时高频词表组成的双词典机制作为分词基础, 应用正向最大匹配法和逆向最大匹配法进行分词, 提出基于双词典机制的歧义处理方法。何国斌等^{[ 6]}采用哈希法和二分法进行分词匹配, 并针对机械分词算法的特点, 提出一种基于最大匹配的分词概率算法。梁桢等^{[ 7]}设计能够记录词长的 Hash 结构尾字词典, 提出一种逆向回溯最大匹配算法, 该改进算法采用的回溯机制能够有效消除分词中可能存在的一些歧义问题。

目前来看, 词典分词方法的研究主要围绕词典结构、设计Hash表提高分词性能。词典分词方法的缺陷在于切分准确率依赖于词典规模, 需要权衡时间开销和空间开销。

基于统计的中文分词方法, 其思想是: 词是稳定的汉字的组合, 利用已有的文本语料库作为切分资源, 文本中相邻字之间共现的概率能够很好地反映字之间成词的可信度, 再通过训练语料的迭代, 最后形成统计模型进行分词。常用的是互信息方法、隐马尔科夫模型(HMM)、N元语言模型和最大熵模型等^{[ 2]}。田思虑等^{[ 8]}提出一种改进的基于二元统计的HMM分词算法, 计算出二元统计粗分模型有向边的权值, 运用最短路径法求出分词结果。冯永等^{[ 9]}提出一种基于自适应中文分词和近似SVM的文本分类算法, 利用近似支持向量机进行文本分类。赵秦怡等^{[ 10]}在互信息原理的基础上提出一种基于统计的中文文本分词方法, 该方法对经过预处理后每一个串中的任意可能长度串均判断其成词的可能性。刘丹等^{[ 11]}提出基于贝叶斯网络的中文分词模型, 使用性能更好的平滑算法, 提高了分词效率。

但是, 基于统计的方法往往依赖于大规模的标注训练语料, 不同专业领域的语料存在很大的差异, 分词的准确率与其密切相关。若训练语料过大, 也可能出现数据稀疏的问题。

基于理解的中文分词方法, 基本思想是: 分词同时进行句法、语义分析, 利用句法信息和语义信息处理歧义现象, 理解分词方法需要使用大量语言知识和信息, 常用的人工智能技术包括专家系统、神经网络和生成-测试法三种^{[ 2]}。王彩荣^{[ 12]}设计了分词专家系统的框架, 用知识推理与语法分析替代传统的“词典匹配分词+歧义校正”的过程。尹锋^{[ 13]}利用 BP 神经网络设计了一个分词系统, 进行大量仿真实验, 取得不错的分词效果。来斯惟等^{[ 14]}提出一种基于表示学习的中文分词方法从大规模语料中无监督地学习中文字的语义向量, 将字的语义向量应用于基于神经网络的有监督中文分词。王靖等^{[ 15]}通过对条件随机场机器学习模型的改进, 增加模型导出功能和使其支持预定Tag, 降低了机器学习的代价。

组合的分词方法, 在实际分词过程中往往需要组合几种分词方法利用各自优势, 以更好地解决分词难题。佟晓筠等^{[ 16]}设计了N-最短路径自动分词和词性自动标注一体化处理的模型。蒋建洪等^{[ 17]}提出一种将词典与统计方法结合的中文分词模型, 分析特定领域的文本数据的特点, 设计并实现了一个快速、准确度高的分词模型。张梅山等^{[ 18]}提出一种将统计与词典相结合的领域自适应中文分词方法, 通过将词典信息以特征的方式融入到统计分词模型中实现领域自适应性。

在中文分词研究中, 针对专利文献的讨论并不多。张桂平等^{[ 19]}提出一种基于统计和规则相结合的多策略分词方法, 结合文献的上下文信息进行最大概率分词。岳金媛等^{[ 20]}采用基于领域词典与统计相结合的方法探讨专利文献的中文分词, 使用条件随机场模型提高专业术语的识别率。宋立峰^{[ 21]}对比分析基于词类的错误驱动学习方法、条件随机场方法和期望最大值方法在中文分词方面的应用, 结果显示基于词类的错误驱动学习方法具有较高的适应性, 有更好的分词效果。

目前, 成熟的中文分词系统是中国科学院计算技术研究所开发的ICTCLAS中文分词系统^{[ 22]}。该系统采用多层隐马尔科夫模型, 扩展原有的隐马尔科夫模型, 分词精度和速度都有很大提高。

专利文献中存在大量未登录专业术语, 关系到分词准确性。而ICTCLAS系统是针对普通文本设计的, 对专利文献的分词效果并不理想。因此, 本文根据中文专利权利要求书的结构特点, 提出一种基于规则和领域词典的组合分词方法, 在ICTCLAS系统初分词的基础上, 构建分词规则和领域词典进行再分词, 以期解决要求书分词的问题, 提高要求书分词效果, 同时也为专利文献相似研究提供基础。

3 中文专利权利要求书的结构特点

我国专利法规定专利权利要求书应当以说明书为依据, 一项发明或者实用新型应当只有一项独立权利要求书, 并且写在同一发明或者实用新型的从属要求书之前, 并且专利权利要求书与一般的文本不同, 专利权利要求书具有一定的格式要求^{[ 23]}。

一项权利要求一般用一句话表示, 以期强调句子意思的完整性和独立性, 但可以用顿号、逗号和分号等来分割。权利要求书开头不用写明专利名称, 可以直接撰写第一项权利要求项, 即独立要求项。从属要求项紧接着独立要求, 若有两项以上独立要求, 各自的从属权利要求对应写在独立权利要求之后。

独立权利要求一般分为两部分撰写: 前序部分和特征部分。独立权利要求的前序部分和特征部分应当包含发明的全部必要技术特征, 共同构成一个完整的技术解决方案, 同时限定发明或实用新型的保护范围。前序部分: 写明发明或实用新型的要求保护的主题名称, 与该项发明或者实用新型最接近的现有技术共有的必要技术特征。特征部分: 写明发明或实用新型区别于现有技术的技术特征, 这是权利要求的核心内容。该部分紧接前序部分, 并且用“其特征是…”、“其特征在于…”等类似短语与前序部分相连。

从属权利要求也应分两部分撰写: 引用部分和限定部分。引用部分: 写明被引用的权利要求书的编号及发明或实用新型主题名称。限定部分: 写明发明或者实用新型附加的技术特征, 是对独立要求的补充和对引用部分的技术特征的进一步限定。同样, 也以“其特征是…”、“其特征在于…”等类似短语与引用部分相连。

综上所述, 中文专利权利要求书存在明显的结构特点, 属于半结构化文本。因此可以根据这些结构信息提高要求书分词效果。

4 规则和领域词典相结合的中文专利权利要求书分词方法

4.1 分词流程

根据中文专利权利要求书的特点和撰写规范, 其分词方法与普通文本的分词方法有所不同, 本文提出的分词方法流程如图1所示:

	Figure Option View Download New Window
	图1 中文专利权利要求书分词流程

该分词方法的大致步骤如下:

(1) 中文专利权利要求书预处理: 对要求书分类, 根据分割子串规则初步分割要求书, 并对其进行词性标注, 形成要求书语料库;

(2) 领域专业术语抽取: 利用术语抽取规则对已经预处理的要求书语料进行候选术语抽取, 候选术语筛选方法识别出最终的专业术语;

(3) 构建领域词典及分词: 利用识别出的专业术语集合构建领域词典, 并结合专利领域知识进行分词。

4.2 中文专利权利要求书预处理

要求书预处理主要包括: 要求书分类、要求书分割子串和词性标注。

(1) 要求书分类

翟东升等^{[ 24]}经过对大量的中文专利权利要求书分析, 归纳了部分分类特征词。本文在综合上述文献的基础上, 将中文专利权利要求书分为: 特征类、设备组成类和过程方法类, 并总结出分类特征词表如表1所示:

表1 中文专利权利要求书分类特征词表

(2) 要求书分割子串

根据分割子串规则, 将中文专利权利要求书分割成子串, 从大量要求书中总结出分割子串规则。根据表1建立分割特征词表规则, 根据要求书潜在的分割子串符号标志, 建立符号分割规则, 如表2所示:

表2 常用标点符号分割标记(部分)

正则表达式(Regular Expression)由一些普通字符和一些元字符组成^{[ 25]}。一个正则表达式通常可以称为一个模式, 用来匹配一系列符合某个句法规则的字符串。本文利用正则表达式来表达上述的分割特征词表规则、符号分割规则和术语抽取规则, 并且构建了XML 调用规则表达式模板, 该模板与本文设计的C#中文分词系统的程序代码相分离, 容易存储、调用及根据需要进行修改。在实验时, 若遇到规则不一致的情况, 则进行人工干预, 进一步完善规则表达式。对表1分割特征词表规则构造相应的正则表达式, 如下所示:

经过上述两步后, 要求书分割子串后的样式如下所示:

“一种移动通信网络适配器/ , / 其特征在于/ : / 具有无线端口/ 。/”

因此, “一种移动通信网络适配器, 其特征在于: 具有无线端口。”一句完整表述被分割成: “一种移动通信网络适配器”和“具有无线端口”两个子串。

(3) 词性标注

词性标注的目的是为了便于4.3节术语抽取规则的运用。词性标注利用ICTCLAS系统的一级词性标记集对子串进行词性标注, 例如“一种移动通信网络适配器”子串进行词性标注后, 结果为“一/m 种/q 移动/vn 通信/vn 网络/n 适配器/n”。

4.3 领域专业术语抽取

该阶段, 利用术语抽取规则对预处理后的要求书文档语料库进行术语抽取, 形成候选术语集合; 候选术语是否是真正意义上的专业术语, 还要对其进行筛选; 最后形成专业术语集合。

(1) 候选术语抽取

专利文献的术语一般用词严谨、遵循语法规则, 大多由动词、名词和形容词组成, 包含一些缩略词和停用词。要求书中存在明显的标点符号、提示词、连接词、数字和其他切分标记, 因此根据要求书专业术语的构词特点和词性标注信息归纳出术语提取的一些规则, 总结出术语抽取的规则, 如表3所示:

表3 中文专利权利要求书术语抽取规则(部分)

其中, n表示名词, a表示形容词, v表示动词, q表示量词, m表示数词, *表示出现任意次, +表示出现一次或者一次以上。

运用术语抽取规则对语料库中子串进行术语抽取时, 利用了4.2节中的词性标注, 若语料符合抽取模式, 则抽取候选术语, 形成候选术语集合。例如“网络/n 适配器/n”符合“n⁺n”模式, 则被抽取成“网络适配器”候选术语, “一/m 种/q”符合“m⁺q⁺”模式, 则被抽取成“一种”候选术语。

(2) 候选术语筛选

候选术语是否是真正意义上的专业术语, 还要对其进行筛选, 用到的方法有C-value算法和禁用词表。C-value是由Frantzi提出的领域独立的多词术语的统计抽取方法, 该方法是对词频计算方法的改进, 更有效地抽取文本中的嵌套多词术语、反映术语的上下文信息, 本文利用改进的C-value方法评价抽取的候选术语是否是有实际意义的专业术语, 公式如下^{[ 26]}:

(1)

(2)

其中, s表示候选字符串, |s|为字符串s的长度, f(s)为字符串s的词频。T_s表示包含字符串s的术语, p(T_s)表示包含字符串s的术语总数, w为T_s中任意的包含字符串s的术语, f_s(w)为w在字符串s的上下文中出现的次数。α和β为可调权重系数, 。例如, 候选术语“网络适配器”和“一种”经过NC-value方法筛选后, “网络适配器”成为专业术语, 而“一种”则不能作为专业术语。

通过粗切分后, 语料中可能会出现词性标注错误, 术语的识别也因此会出现术语切分范围过界和术语前后粘连等问题。利用禁用词可以很好地校正该错误。常用的禁用词是一些介词、方位词和数词等, 例如:“为了、除了、下”等。最后, 在对候选术语筛选评价后选择具有实际意义的术语作为专业术语。

4.4 构建领域词典及分词

将4.3节抽取的最终专业术语汇总整理, 利用该领域科学文献总结出常用词和专业词汇, 借助现有的叙词表获取该领域的基础概念, 最终形成该领域的专业术语集合。本文实验选取450篇中文专利的独立权利要求书(约1 400句), 分为训练语料和测试语料。构建的领域词典规模约为9 100个词条, 词条的组织排序形式如图2所示:

	Figure Option View Download New Window
	图2 领域词典词条组织样式

利用构建的领域词典对测试语料进行分词, 得到分词结果。本文设计的中文分词系统如图3所示, 该系统调用了ICTCLAS的开发接口。

	Figure Option View Download New Window
	图3 本文设计的中文分词系统

5 实验验证

5.1 实验设计

中文专利实验数据来源于日立专利信息检索系统Digi-patent/s^{[ 27]}。根据IPC分类号, 选取部分要求书数据作为语料库, 如表4所示。共选取450篇中文专利的权利要求书, 其中350篇要求书作为分词实验的训练数据, 用于构建领域词典的训练语料; 100篇要求书作分词实验的测试数据, 用于实验测试语料。表4中各领域的要求书在训练数据集和测试数据集中都占有相应比例。同时按照专利术语标注标准^{[ 28]}对实验数据手工标注, 作为标准结果集与实验结果对比。

表4 实验数据组成

5.2 实验结果评价方法

中文分词结果的评价通常用到三个指标: 准确率、召回率和F值^{[ 24]}, 公式如下:

5.3 实验结果

将抽取的最终专业术语按照格式导入本文设计的分词系统中, 实验时将本文方法得到的结果与标准分词结果进行对比。经过实验测试, 本文提出的组合分词方法的分词准确率(P)为90%, 召回率(R)为95%, F-score为92%。结果表明, 该方法改善了要求书这一特定文本的分词效果, 提高了分词性能。

下面是利用本文方法进行分词后的实例, 申请号为“CN01800934.4”的独立权利要求书:

“一种/ 移动/ 通信/ 网络适配器/ , / 其特征在于/ : / 具有/ 无线端口/ 。/ 物理/ 连接/ 通过/ 基站/ 与/ 网络内容/ 提供者/ 进行/ 通信/ 的/ 无线/ 移动/ 通信装置/ : / 机器端口/ , / 与/ 机器/ 相/ 连接/ ; / 上行协议栈/ , / 生成/ 互联网协议/ 数据/ , / 该/ 互联网协议/ 数据/ 利用/ 上行通路/ 经/ 所述/ 无线/ 移动/ 通信装置/ 和/ 所述/ 基站/ 向/ 网络内容/ 提供者/ 传送/ , / 而/ 所述/ 网络内容/ 提供者/ 根据/ 所述/ 互联网协议/ 数据/ 经/ 下行通路/ 向/ 所述/ 机器 / 播送/ 网络内容/ 。/”

6 结语

中文分词的研究取得了丰硕成果, 但目前针对中文专利文献分词的研究并不多, 本文根据中文专利权利要求书的结构特点, 提出一种基于规则和领域词典的组合分词方法, 在ICTCLAS系统初分词的基础上, 构建分词规则和领域词典进行再分词。实验结果表明, 要求书分词的准确率、召回率和F值都有较大的提高。

本文提出的方法对中文专利权利要求书的分词效果有很好的改善, 但由于领域词典的庞大, 也使得大规模分词的效率降低。因此, 下一步通过对基于理解的分词方法研究, 进行语义分析, 构造新的分词模型, 进一步提高中文专利权利要求书的分词性能。

EBSCO宣布支持NISO开放发现倡议

EBSCO信息服务公司(EBSCO)宣布将完全支持NISO开放发现倡议(Open Discovery Initiative, ODI)工作组所制定的最终版推荐准则, 这一准则给出了发现服务的最佳实践。EBSCO是ODI委员会的一员, 因此, EBSCO有关元数据共享和供应商合作的开放政策与工作组制定的推荐准则是一致的。

ODI列出的多个目标涵盖了很多方面, 包括: 元数据共享、链向出版商内容、使用数据提供等。其中, 元数据共享方面, ODI呼吁内容提供商为发现服务提供商提供更多的元数据, 包括相应的全文或是原始内容, 供发现服务商进行索引。

ODI认为, 下一步将会在这个领域进行更加深入的研究, 以确定具体需要关注的问题, 并研究内容提供商和发现服务提供商会如何解决这些问题。EBSCO在其元数据共享政策第三部分已经明确指出将会支持对该问题的进一步研究。

NISO执行董事Todd Carpenter认为EBSCO支持ODI推荐准则有着重要的意义: “EBSCO一直以来都非常支持NISO的标准制定和标准实施工作, 我们非常感激EBSCO员工的积极奉献, 感谢他们在NISO各项倡议, 包括此次的ODI倡议中发挥的先锋作用。EBSCO最近发布的元数据共享政策与ODI的目标是一致的, 这一举动标示着双方将进行更深入的合作, 为所有图书馆读者谋福利。”

EBSCO计划继续与潜在的合作伙伴进行讨论, 以确保EBSCO内容在第三方发现服务解决方案中的可用性, 并寻求就OPAC功能无缝整合到发现服务中进行合作的可能性。

EBSCO高级副总裁兼ODI委员Scott Bernier认为ODI委员会所做的工作将会令整个图书馆界受益良多: “我们很高兴能够看到这些进步, 也期待能够与业界进行更多的合作, 共同协作执行ODI推荐准则, 为图书馆界谋福利。我们会不定期地分享ODI推荐准则的最新进展。”

(编译自: http://www.ebscohost.com/newsroom/stories/ebsco-announces-support-for-open-discovery-initiative-recommendations)

(本刊讯)

参考文献

View Option

[1]	赵铁军, 吕雅娟, 于浩, 等. 提高汉语自动分词精度的多步处理策略[J]. 中文信息学报, 2001, 15(1): 13-18. Zhao Tiejun, Lv Yajuan, Yu Hao, et al. Increasing Accuracy of Chinese Segmentation with Strategy of Multi-step Processing[J]. Journal of Chinese Information Processing, 2001, 15(1): 13-18. [本文引用:1] [CJCR: 1.13]
[2]	奉国和, 郑伟. 国内中文自动分词技术研究综述[J]. 图书情报工作, 2011, 55(2): 41-45. Feng Guohe, Zheng Wei. Review of Chinese Automatic Word Segmentation[J]. Library and Information Service, 2011, 55(2): 41-45. [本文引用:4] [CJCR: 1.193]
[3]	邹海山, 吴勇, 吴月珠, 等. 中文搜索引擎中的中文信息处理技术[J]. 计算机应用研究, 2000, 17(12): 21-24. Zou Haishan, Wu Yong, Wu Yuezhu, et al. Chinese Text Processing in Chinese Search Engine[J]. Application Research of Computers, 2000, 17(12): 21-24. [本文引用:1] [CJCR: 0.601]
[4]	莫建文, 郑阳, 首照宇, 等. 改进的基于词典的中文分词方法[J]. 计算机工程与设计, 2013, 34(5): 1802-1807. Mo Jianwen, Zheng Yang, Shou Zhaoyu, et al. Improved Chinese Word Segmentation Method Based on Dictionary[J]. Computer Engineering and Design, 2013, 34(5): 1802-1807. [本文引用:1] [CJCR: 0.789]
[5]	李玲. 基于双词典机制的中文分词系统设计[J]. 机械工程与自动化, 2013(1): 17-19. Li Ling. Design of Chinese Word Segmentation System Based on Dual-dictionary Mechanism[J]. Mechanical Engineering & Automation, 2013(1): 17-19. [本文引用:1]
[6]	何国斌, 赵晶璐. 基于最大匹配的中文分词概率算法研究[J]. 计算机工程, 2010, 36(5): 173-175. He Guobin, Zhao Jinglu. Research on Probabilistic Algorithm of Chinese Word Segmentation Based on the Maximum Match[J]. Computer Engineering, 2010, 36(5): 173-175. [本文引用:1] [CJCR: 0.492]
[7]	梁桢, 李禹生. 基于Hash 结构词典的逆向回溯中文分词技术研究[J]. 计算机工程与设计, 2010, 31(23): 5158-5161. Liang Zhen, Li Yusheng. Reverse Backtracking Research of Chinese Segmentation Based on Dictionary of Hash Structure[J]. Computer Engineering and Design, 2010, 31(23): 5158-5161. [本文引用:1] [CJCR: 0.789]
[8]	田思虑, 李德华, 潘莹. 一种改进的基于二元统计的 HMM 分词算法[J]. 计算机与数字工程, 2011, 39(1): 14-16, 20. Tian Silv, Li Dehua, Pan Ying. Improved 2-Gram HMM Algorithm for Chinese Word Segmentation [J]. Computer & Digital Engineering, 2011, 39(1): 14-16, 20. [本文引用:1] [JCR: 1.675]
[9]	冯永, 李华, 钟将, 等. 基于自适应中文分词和近似SVM的文本分类算法[J]. 计算机科学, 2010, 37(1): 251-254, 293. Feng Yong, Li Hua, Zhong Jiang, et al. Text Classifi-cation Algorithm Based on Adaptive Chinese Word Segmentation and Proximal SVM [J]. Computer Science, 2010, 37(1): 251-254, 293. [本文引用:1] [CJCR: 0.61]
[10]	赵秦怡, 王丽珍. 一种基于互信息的串扫描中文文本分词方法[J]. 情报杂志, 2010, 29(7): 161-162, 172. Zhao Qinyi, Wang Lizhen. A Method of String-Scanning Chinese Word Segmentation Based on Mutual Information [J]. Journal of Intelligence, 2010, 29(7): 161-162, 172. [本文引用:1] [CJCR: 0.951]
[11]	刘丹, 方卫国, 周泓. 基于贝叶斯网络的二元语法中文分词模型[J]. 计算机工程, 2010, 36(1): 12-14. Liu Dan, Fang Weiguo, Zhou Hong. Bigram Chinese Word Segmentation Model Based on Bayesian Network[J]. Computer Engineering, 2010, 36(1): 12-14. [本文引用:1] [CJCR: 0.492]
[12]	王彩荣. 汉语自动分词专家系统的设计与实现[J]. 微处理机, 2004, 25(3): 56-57, 60. Wang Cairong. The Design and Implementation of Expert System for Automatic Segmentation of Chinese Words [J]. Microprocessors, 2004, 25(3): 56-57, 60. ) [本文引用:1]
[13]	尹锋. 基于神经网络的汉语自动分词系统的设计与分析[J]. 情报学报, 1998, 17(1): 41-50. Yin Feng. Design and Analysis of Chinese Automatic Segmenting System Based on Neural Network[J]. Journal of the China Society for Scientific and Technical Information, 1998, 17(1): 41-50. [本文引用:1] [CJCR: 1.1348]
[14]	来斯惟, 徐立恒, 陈玉博, 等. 基于表示学习的中文分词算法探索[J]. 中文信息学报, 2013, 27(5): 8-14. Lai Siwei, Xu Liheng, Chen Yubo, et al. Chinese Word Segment Based on Character Representation Learning[J]. Journal of Chinese Information Processing, 2013, 27(5): 8-14. [本文引用:1] [CJCR: 1.13]
[15]	王靖, 徐向阳, 符蓉. 一种优化的用于中文分词的CRF机器学习模型[J]. 微计算机信息, 2010, 26 (4-3): 169-170, 147. Wang Jing, Xu Xiangyang, Fu Rong. An Optimized CRF Model Used for Chinese Word Segmentation [J]. Microcomputer Information, 2010, 26(4-3): 169-170, 147. [本文引用:1]
[16]	佟晓筠, 宋国龙, 刘强, 等. 中文分词及词性标注一体化模型研究[J]. 计算机科学, 2007, 34(9): 174-175, 212. Tong Xiaojun, Song Guolong, Liu Qiang, et al. Research on the Model of Integrating Chinese Word Segmentation with Part- of-speech Tagging [J]. Computer Science, 2007, 34(9): 174-175, 212. [本文引用:1] [CJCR: 0.61]
[17]	蒋建洪, 赵嵩正, 罗玫. 词典与统计方法结合的中文分词模型研究及应用[J]. 计算机工程与设计, 2012, 33(1): 387-391. Jiang Jianhong, Zhao Songzheng, Luo Mei. Analysis and Application of Chinese Word Segmentation Model Which Consist of Dictionary and Statics Method[J]. Computer Engineering and Design, 2012, 33(1): 387-391. [本文引用:1] [CJCR: 0.789]
[18]	张梅山, 邓知龙, 车万翔, 等. 统计与词典相结合的领域自适应中文分词[J]. 中文信息学报, 2013, 26(2): 8-12. Zhang Meishan, Deng Zhilong, Che Wanxiang, et al. Combining Statistical Model and Dictionary for Domain Adaption of Chinese Word Segmentation[J]. Journal of Chinese Information Processing, 2013, 26(2): 8-12. [本文引用:1] [CJCR: 1.13]
[19]	张桂平, 刘东生, 尹宝生, 等. 面向专利文献的中文分词技术的研究[J]. 中文信息学报, 2010, 24(3): 112-116. [本文引用:1]
[20]	Zhang Guiping, Liu Dongsheng, Yin Baosheng, et al. Research on Chinese Word Segmentation for Patent Documents[J]. Journal of Chinese Information Processing, 2010, 24(3): 112-116. [本文引用:1] [CJCR: 1.13]
[21]	岳金媛, 徐金安, 张玉洁. 面向专利文献的汉语分词技术研究[J]. 北京大学学报: 自然科学版, 2013, 49(1): 159-164. Yue Jinyuan, Xu Jin’an, Zhang Yujie. Chinese Word Segmentation for Patent Documents[J]. Acta Scientiarum Naturalium Universitatis Pekinensis, 2013, 49(1): 159-164. [本文引用:1] [CJCR: 0.799]
[22]	宋立峰. 中文分词算法在专利文献中的应用研究[J]. 海峡科学, 2011(7): 9-11, 26. Song Lifeng. Research on Chinese Word Segmentation Algorithm for Patent Documents [J]. Straits Science, 2011(7): 9-11, 26. [本文引用:1] [CJCR: 0.087]
[23]	张华平. NLPIR汉语分词系统 [EB/OL]. [2014-01-15]. http: //ictclas. nlpir. org. Zhang Huaping. NLPIR [EB/OL]. [2014-01-15]. http://ictclas.nlpir.org [本文引用:1]
[24]	国家知识产权局. 审查指南[M]. 北京: 知识产权出版社, 2006: 218-242. State Intellectual Property Office of the People’s Republic of China. Guidelines for Patent Examination[M]. Beijing: Intellectual Property Publishing House, 2006: 218-242. [本文引用:2]
[25]	翟东升, 马文姗. 中文专利权利要求书分词算法研究[J]. 情报杂志, 2011, 30(11): 152-155. Zhai Dongsheng, Ma Wenshan. Research the Algorithm of Chinese Patent Claims Segmentation[J]. Journal of Intelligence, 2011, 30(11): 152-155. [本文引用:1] [CJCR: 0.951]
[26]	胡少荣, 孟嗣仪, 刘云, 等. 网页信息自动抽取技术的研究[J]. 铁路计算机应用, 2010, 19(9): 37-40. Hu Shaorong, Meng Siyi, Liu Yun, et al. Research on Automatic Extraction Technology of Web Information[J]. Railway Computer Application, 2010, 19(9): 37-40. [本文引用:1] [CJCR: 0.1916]
[27]	胡阿沛, 张静, 刘俊丽. 基于改进C-value方法的中文术语抽取[J]. 现代图书情报技术, 2013(2): 24-29. Hu Apei, Zhang Jing, Liu Junli. Chinese Term Extraction Based on Improved C-value Method[J]. New Technology of Library and Information Service, 2013(2): 24-29. [本文引用:1] [CJCR: 1.073]
[28]	日立专利信息检索系统Digi-patent/s [EB/OL]. [2014-01- 06]. 日立专利信息检索系统Digi-patent/s [EB/OL]. [2014-01- 06]. http: //www. digi-patent-s. com. cn. Digi-patent/s[EB/OL]. [2014-01-06]. http://www.digi-patent-s.com.cn [本文引用:1]
[29]	中华人民共和国国家标准. GB/T13715-92, 信息处理用现代汉语分词规范[S]. The People’s Republic of China National Stand ard. GB/T13715-92, Contemporary Chinese Language Word Segmentation Specification for Information Processing [S]. [本文引用:1]

2001

0.0

1.13

. 2001, 15(1):13-18

Increasing Accuracy of Chinese Segmentation with Strategy of Multi-step Processing

汉语自动分词在面向大规模真实文本进行分词时仍然存在很多困难。其中两个关键问题是未登录词的识别和切分歧义的消除。本文描述了一种旨在降低分词难度和提高分词精度的多步处理策略，整个处理步骤包括7个部分，即消除伪歧义、句子的全切分、部分确定性切分、数词串处理、重叠词处理、基于统计的未登录词识别以及使用词性信息消除切分歧义的一体化处理。开放测试结果表明分词精确率可达98％以上。 Abstract： The automatic word segmentation of Chinese sentences is difficult when the processing mechanism faces large-scale real texts. The crucial two issues in Chinese segmentation are the identification of unknown words and the disambiguation of segmentation strings. This paper describes a strategy based on multi-steps processing for decreasing the difficulties and improving the accuracy of the segmentation. The processing steps include seven parts, i. e., disambiguation of pseudo-ambiguities, full segmentation of a sentence, determinate segmentation for some words, processing of numeral string, processing for reduplication of words, statistical identification for unknown words and final correction for segmentation ambiguities with part-of-speech which is integrated in the tagger. The output of this procedure is promising with above 98％ accuracy in opentest.

... 因此, 中文分词成为计算机处理的重要工作, 中文分词的难点是切分歧义的消除和未登录词的识别^[1] ...

2011

0.0

1.193

. 2011, 55(2):41-45

Review of Chinese Automatic Word Segmentation

认为分词是文本自动分类、信息检索、信息过滤、文献自动标引、摘要自动生成等中文信息处理的基础与关键技术之一,中文本身复杂性及语言规则的不确定性,使中文分词技术成为分词技术中的难点.全面归纳中文分词算法、歧义消除、未登录词识别、自动分词系统等研究,总结出当前中文分词面临的难点与研究热点.

... 2 研究现状介绍中文分词算法很多, 大致可归纳为: 词典分词方法、统计分词方法、理解分词方法和组合分词算法^[2] ...

... 常用的几种词典分词方法有正向最大匹配法、逆向最大匹配法、双向最大匹配法和最少切分等^[2] ...

... 常用的是互信息方法、隐马尔科夫模型(HMM)、N元语言模型和最大熵模型等^[2] ...

... 基于理解的中文分词方法, 基本思想是: 分词同时进行句法、语义分析, 利用句法信息和语义信息处理歧义现象, 理解分词方法需要使用大量语言知识和信息, 常用的人工智能技术包括专家系统、神经网络和生成-测试法三种^[2] ...

2000

0.0

0.601

... 基于词典的分词方法也称作基于字符串的机械分词方法^[3], 其主要思想是: 按照一定的匹配规则将文本中的字符串和事先构建好的词典中的词语进行逐一 ...

2013

0.0

0.789

... 莫建文等^[4]提出改进的基于词典中文分词方法, 该方法结合双字哈希结构, 并利用改进的正向最大匹配分词算法进行中文分词 ...

0.0

... 李玲^[5]构造了标准词典、临时词典和临时高频词表组成的双词典机制作为分词基础, 应用正向最大匹配法和逆向最大匹配法进行分词, 提出基于双词典机制的歧义处理方法 ...

2010

0.0

0.492

. 2010, 36(5):173-175

Research on Probabilistic Algorithm of Chinese Word Segmentation Based on the Maximum Match

(College of Computer and Information Science, Southwest University, Chongqing 400715)

Combined with the sequence table and leaping form fast inquery characteristic, this paper presents an improvement structure of segmentation dictionary. Hashing and binary search is used to segmentation match for enquiring, and in view of the characteristics of the mechanical Chinese word segmentation, by introducing the random number, a Chinese word automatic segmentation probabilistic algorithm is discussed. Experiment indicates that the arithmetic can improve the speed of Chinese segmentation and precision, also, strengthen the processing of dispelling ambiguity.

结合顺序表和跳跃表的快速查询特性，提出一种改进的整词分词词典结构，主要采用哈希法和二分法进行分词匹配，并针对机械分词算法的特点，引入随机数，探讨一种基于最大匹配的分词概率算法。实验表明，该算法具有较高的分词效率和准确率，对消去歧义词也有较好的性能。

... 何国斌等^[6]采用哈希法和二分法进行分词匹配, 并针对机械分词算法的特点, 提出一种基于最大匹配的分词概率算法 ...

2010

0.0

0.789

. 2010, 31(23):5158-5161

Reverse Backtracking Research of Chinese Segmentation Based on Dictionary of Hash Structure

为了提高现有的中文分词效率,提出了基于Hash结构词典的逆向回溯中文分词方法.针时首字Hash结构词典的不足,设计了能够记录词长的Hash结构尾字词典,然后对逆向最大匹配分词算法进行了分析,为了解决其存在的中文分词歧义问题,设计出一种逆向回溯最大匹配算法,该改进算法采用的回溯机制能够有效消除分词中可能存在的一些歧义问题.实验结果表明,该方法实现了提高中文分词速度并减少交集型歧义字符串切分错误的设计目标.

... 梁桢等^[7]设计能够记录词长的 Hash 结构尾字词典, 提出一种逆向回溯最大匹配算法, 该改进算法采用的回溯机制能够有效消除分词中可能存在的一些歧义问题 ...

2011

1.675

0.0

. 2011, 39(1):14-16

Improved 2-Gram HMM Algorithm for Chinese Word Segmentation [J]

中文分词是中文信息处理的基础.基于二元统计的HMM中文分词算法表现良好,但也存在易将包含常用介、副词的词进行误拆分的问题.改进的分词算法运用逆向最大匹配的思想,在计算粗分集权重的过程中,考虑了分词的词长及词序对正确切分的有利影响.该算法首先计算出二元统计粗分模型有向边的权值,然后根据词长修定权值,最后运用最短路径法求出分词结果.实验结果表明,该算法有效的解决了过分拆分的问题,分词效果良好.

... 田思虑等^[8]提出一种改进的基于二元统计的HMM分词算法, 计算出二元统计粗分模型有向边的权值, 运用最短路径法求出分词结果 ...

2010

0.0

0.61

... 冯永等^[9]提出一种基于自适应中文分词和近似SVM的文本分类算法, 利用近似支持向量机进行文本分类 ...

2010

0.0

0.951

. 2010, 29(7):161-162

A Method of String-Scanning Chinese Word Segmentation Based on Mutual Information [J]

中文分词技术是中文信息处理的基础环节,在互信息原理的基础上提出了一个基于统计的中文文本分词方法.该方法对经过预处理之后每一个串中的任意可能长度串均判断其成词的可能性,实验结果说明该算法简单且具有良好的精度及查全率.

... 赵秦怡等^[10]在互信息原理的基础上提出一种基于统计的中文文本分词方法, 该方法对经过预处理后每一个串中的任意可能长度串均判断其成词的可能性 ...

2010

0.0

0.492

. 2010, 36(1):12-14

Bigram Chinese Word Segmentation Model Based on Bayesian Network

(School of Economy and Management, Beihang University, Beijing 100083)

This paper proposes Chinese word segmentation model based on Bayesian network, which adopts better smoothing algorithm to achieves word sense disambiguation and automatic recognition of foreign/domestic person names together. Viterbi algorithm is used in the model, which is demonstrated to be more efficient in word segmentation under acceptable accuracy and recall rate. Experimental results show that precision rate is 99.68% and recall rate is 99.7% in close test, with the speed of 74 800 words per second.

提出基于贝叶斯网络的中文分词模型，使用性能更好的平滑算法，可同时实现交叉、组合歧义消解以及译名、人名识别。应用字齐Viterbi算法求解，在保证精度和召回率的前提下，有效提高了分词效率。实验结果显示，该模型封闭测试的精度、召回率分别为99.68%和99.7%，分词速度约为每秒74 800字。

... 刘丹等^[11]提出基于贝叶斯网络的中文分词模型, 使用性能更好的平滑算法, 提高了分词效率 ...

2004

0.0

. 2004, 25(3):56-57

The Design and Implementation of Expert System for Automatic Segmentation of Chinese Words [J]

本文介绍了自动分词专家系统的设计思想和系统结构,并给出了自动分词专家系统知识库的组织与实现方法,以及推理机制的建立和自动分词过程.

... 王彩荣^[12]设计了分词专家系统的框架, 用知识推理与语法分析替代传统的“词典匹配分词+歧义校正”的过程 ...

1998

0.0

1.1348

... 尹锋^[13]利用 BP 神经网络设计了一个分词系统, 进行大量仿真实验, 取得不错的分词效果 ...

2013

0.0

1.13

... 来斯惟等^[14]提出一种基于表示学习的中文分词方法从大规模语料中无监督地学习中文字的语义向量, 将字的语义向量应用于基于神经网络的有监督中文分词 ...

2010

0.0

... 王靖等^[15]通过对条件随机场机器学习模型的改进, 增加模型导出功能和使其支持预定Tag, 降低了机器学习的代价 ...

2007

0.0

0.61

. 2007, 34(9):174-175,212

Research on the Model of Integrating Chinese Word Segmentation with Part- of-speech Tagging [J]

本文应用N-最短路径法,构造了一种中文自动分词和词性自动标注一体化处理的模型,在分词阶段召回N个最佳结果作为候选集,最终的结果会在未登录词识别和词性标注之后,从这N个最有潜力的候选结果中选优得到,并基于该模型实现了一个中文自动分词和词性自动标注一体化处理的中文词法分析器.初步的开放测试证明,该分析器的分词准确率和词性标注准确率分别达到98.1%和95.07%.

... 佟晓筠等^[16]设计了N-最短路径自动分词和词性自动标注一体化处理的模型 ...

2012

0.0

0.789

... 蒋建洪等^[17]提出一种将词典与统计方法结合的中文分词模型, 分析特定领域的文本数据的特点, 设计并实现了一个快速、准确度高的分词模型 ...

2013

0.0

1.13

... 张梅山等^[18]提出一种将统计与词典相结合的领域自适应中文分词方法, 通过将词典信息以特征的方式融入到统计分词模型中实现领域自适应性 ...

2010

0.0

... 张桂平等^[19]提出一种基于统计和规则相结合的多策略分词方法, 结合文献的上下文信息进行最大概率分词 ...

2010

0.0

1.13

. 2010, 24(3):112-116

Research on Chinese Word Segmentation for Patent Documents

针对专利文献的特点,该文提出了一种基于统计和规则相结合的多策略分词方法.该方法利用文献中潜在的切分标记,结合切分文本的上下文信息进行最大概率分词,并利用术语前后缀规律进行后处理.该方法充分利用了从大规模语科中获取的全局信息和切分文本的上下文信息,有效地解决了专利分词中未登录词难以识别问题.实验结果表明,该文方法在封闭和开放测试下分别取得了较好的结果,对未登录词的识别也有很好的效果. Abstract： According to the characteristics of the patent documents, this paper presents a multi-strategy approach for word segmentation based on statistics and rules. Our method takes advantage of the latent segmentation-marks in the document and employs the context information of the text in the a maximum probabilistic model of segmentation.Meanwhile, the term affix rules are applied in the post-processing. Making full use of the global information from a large scale corpus and the specific context information, this method effectively solves the problem of the out-of-vo-cabulary words difficult to identify in the patent segmentation. The experimental results indicate that this method achieves good results in the close and opening test, with improves on unknown words recognition as well.

... 岳金媛等^[20]采用基于领域词典与统计相结合的方法探讨专利文献的中文分词, 使用条件随机场模型提高专业术语的识别率 ...

2013

0.0

0.799

... 宋立峰^[21]对比分析基于词类的错误驱动学习方法、条件随机场方法和期望最大值方法在中文分词方面的应用, 结果显示基于词类的错误驱动学习方法具有较高的适应性, 有更好的分词效果 ...

0.0

0.087

... 目前, 成熟的中文分词系统是中国科学院计算技术研究所开发的ICTCLAS中文分词系统^[22] ...

2014

0.0

... 3 中文专利权利要求书的结构特点我国专利法规定专利权利要求书应当以说明书为依据, 一项发明或者实用新型应当只有一项独立权利要求书, 并且写在同一发明或者实用新型的从属要求书之前, 并且专利权利要求书与一般的文本不同, 专利权利要求书具有一定的格式要求^[23] ...

2006

0.0

... 翟东升等^[24]经过对大量的中文专利权利要求书分析, 归纳了部分分类特征词 ...

... 2 实验结果评价方法中文分词结果的评价通常用到三个指标: 准确率、召回率和F值^[24], 公式如下: ...

2011

0.0

0.951

... 正则表达式(Regular Expression)由一些普通字符和一些元字符组成^[25] ...

2010

0.0

0.1916

. 2010, 19(9):37-40

Research on Automatic Extraction Technology of Web Information

在网络舆情分析中,经常要从大量的网页信息中抽取出有用的数据.但一般的网页信息抽取技术都是基于对HTML文档的分析.本文提出网页信息自动抽取的方法,可以滤除网页噪声,快速准确地获取所需要的网页信息.该方法首先将HTML转换为结构化的XML文档,然后结合DOM4J和XPath语言建立网页解析模板库,最后根据模板的抽取规则对网页信息进行抽取.实验证明,该方法具有较高的回召率和查准率.

... C-value是由Frantzi提出的领域独立的多词术语的统计抽取方法, 该方法是对词频计算方法的改进, 更有效地抽取文本中的嵌套多词术语、反映术语的上下文信息, 本文利用改进的C-value方法评价抽取的候选术语是否是有实际意义的专业术语, 公式如下^[26]: ...

0.0

1.073

. , 2013(2):24-29

Chinese Term Extraction Based on Improved C-value Method

Institute of Scientific & Technical Information of China, Beijing 100038, China

An improved C-value term extraction method is introduced in the paper. Firstly, the domain-specific text corpora is preprocessed by stop word list. Secondly, a term extraction algorithm based on the co-occurrence frequency of multi-character is applied to get candidate terms. Lastly, term selection is completed based on termhood computed by IC-value which is the improvement of C-value in terms of inverse document frequency, meaningless substring and term length. Empirical study is conducted based on 1 000 abstracts of articles about Hepatitis B. The results indicate the proposed IC-value is much better than C-value, TF-IDF and V-value in both precision and recall. And IC-value also has good performance in long term extraction and it is very effective in filtering meaningless substring.

提出一种改进C-value的术语抽取方法,即IC-value方法。利用停用词对文本进行预处理后,采用一种基于串频统计的抽取算法提取候选术语;对候选术语进行语言规则过滤;从逆文档频率、破碎子串和术语长度三个方面改进C-value方法得到IC-value方法,并用来计算候选术语的术语度。以1 000篇乙型肝炎相关论文摘要进行实证研究,结果证明IC-value方法在准确率和召回率方面都要优于C-value、TF-IDF和V-value,有较强的长术语发现能力,且识别破碎子串的效果十分明显。

... 1 实验设计中文专利实验数据来源于日立专利信息检索系统Digi-patent/s^[27] ...

2014

0.0

... 同时按照专利术语标注标准^[28]对实验数据手工标注, 作为标准结果集与实验结果对比 ...

0.0