汉语组块分析在产品特征提取中的应用研究

引用本文

杜思奇, 李红莲, 吕学强. .汉语组块分析在产品特征提取中的应用研究 [J]. 现代图书情报技术, 2015,31(9): 26-30
Du Siqi, Li Honglian, Lv Xueqiang. .Research of Chinese Chunk Parsing in Application of the Product Feature Extraction. New Technology of Library and Information Service,2015,31(9): 26-30 复制到剪切板

Permissions

《现代图书情报技术》编辑部

汉语组块分析在产品特征提取中的应用研究

杜思奇¹, 李红莲¹, 吕学强²

¹北京信息科技大学信息与通信工程学院北京 100101

²北京信息科技大学网络文化与数字传播北京市重点实验室北京 100101

杜思奇, ORCID: 0000-0003-4418-4262, E-mail: beixindusiqi@163.com。

作者贡献声明：吕学强: 提出研究命题; 杜思奇: 提出研究思路, 设计研究方案, 分析数据, 起草论文; 李红莲: 论文修订。

基金:*本文系国家自然科学基金项目“基于本体的专利自动标引研究”(项目编号: 61271304)和北京市教委科技发展计划重点项目暨北京市自然科学基金B类重点项目“面向领域的互联网多模态信息精准搜索方法研究”(项目编号: KZ201311232037) 的研究成果之一

摘要

目的解决用户评论文本中的产品特征提取问题, 尤其是名词性短语的识别问题。方法利用汉语组块分析进行产品特征提取, 根据Apriori产生频繁项集以及TF-IDF阈值对候选产品特征进行过滤, 得到产品特征集合, 从而实现对用户评论中产品特征的自动提取。结果为验证该方法的有效性, 以汽车评论文本为例, 从中提取汽车类产品的特征, 平均召回率达到76.89%, 平均准确率达到84.03%。【局限】该方法的召回率较低, 存在名词块识别错误的问题。结论实验结果表明引入汉语组块分析可以准确识别名词性短语, 提高产品特征提取的准确率。

关键词: 产品特征提取; 名词性短语识别; 汉语组块分析; 关联规则

中图分类号:TP391

Research of Chinese Chunk Parsing in Application of the Product Feature Extraction

Du Siqi¹, Li Honglian¹, Lv Xueqiang²

¹School of Information and Communication Engineering, Beijing Information Science and Technology University, Beijing 100101, China

²Beijing Key Laboratory of Internet Culture and Digital Dissemination Research, Beijing Information Science and Technology University, Beijing 100101, China

Abstract

[Objective] This paper aims at the problem of product feature extraction, especially the noun phrase identification.[Methods] Chinese Chunk Parsing is used to extract the feature, and frequent sets are generated by Apriori. Then the candidate product features are filtered according to the rules of the minimum support, frequent nouns and TF-IDF. At last, the final product feature sets are obtained.[Results] In order to verify the effectiveness of the method, the car reviews are used in this paper, the average recall rate reaches 76.89%, the average precision rate reaches 84.03%. [Limitations] The recall rate is low and there is noun phrase identification error in the test.[Conclusions] Experiment results show that the method can extract product feature from Chinese reviews with good effects.

Keyword: Product feature extraction; Noun phrase identification; Chinese chunk parsing; Association rules

Show Figures

1 引言

近年来, 互联网技术和电子商务的不断发展给企业的业务流程和消费者的购买行为带来了深刻的影响^[1]。如何挖掘出用户在线评论中的有用信息成为电子商务领域关心的问题。

产品特征是潜藏在用户评论中的产品性能的描述性信息, 通过产品特征, 可以使用户和生产商迅速了解产品的主要特点, 例如汽车类产品的产品特征包括: 油耗、内饰、做工、颜色、性价比等。提取评论中产品特征的方法主要分为人工定义和自动提取两种。人工定义依靠人工找出评论中出现的产品特征, 建立产品特征集合。姚天昉等^[2]利用本体构建汽车类产品的概念图, 并对汽车类产品的特征进行提取。娄德成等^[3]利用特征词表提取汽车类产品的特征及评论。Shi等^[4]利用人工定义的层次概念模型对中文评论文本进行研究。虽然人工定义的方法相对简单, 但是需要耗费一定的人力; 另外, 这种方法的可移植性较差。因此更倾向于使用自动提取的方法。自动提取依靠自然语言处理提取名词性成分。Hu等^[5]利用关联规则实现产品特征提取。Popescu等^[6]改进了Hu等^[5]的方法, 并利用MPI算法过滤停用词。伍星等^[7]利用弱监督学习算法对数码相机提取产品特征。李实等^[8]结合汉语中名词性短语的表达特点实现数码类产品的特征提取。

从句法分析角度, 产品特征不仅可以由名词描述, 还可以通过名词性短语描述, 这些名词性成分共同构成产品特征。仅仅依靠词法分析很难准确识别评论文本中的名词性成分, 需要依靠句法分析进一步研究。

在总结现有的产品特征提取方法的基础上, 本文引入汉语组块分析, 利用汉语组块分析识别名词性成分, 利用Apriori算法产生频繁项集, 利用TF-IDF方法过滤停用词, 从而实现评论文本中产品特征的提取。为了验证该方法的有效性, 以汽车类产品评论为例, 进行产品特征提取, 提取流程如图 1所示。

	Figure Option View Download New Window
	图1 基于汉语组块分析的产品特征提取流程

2 基于汉语组块分析的名词性成分提取

2.1 汉语组块分析概述

组块分析是一种句法分析。它既可以作为自然语言处理系统中分析句法功能的子任务, 也可以作为词法分析过渡到句法分析的一座桥梁^[9]。汉语组块分析针对经过预处理的词语序列, 分析后主要产生两部分信息— — 词界块: 将相同成分的词语序列划分在同一个块中, 形成连续的词界块序列; 块成分标记: 为每一个汉语块赋予一个块成分标记。可见, 进行汉语组块分析首先要确定汉语块标记。本文主要采用的汉语块标记如表1所示:

表1 汉语组块成分标记集

其中, 名词块描述的是评论文本中的名词性成分信息, 本文依靠汉语组块分析识别名词性成分。

2.2 基于支持向量机的汉语组块分析

目前应用于汉语组块分析的机器学习算法主要有隐马尔科夫模型、基于记忆的机器学习、基于转换的机器学习、最大熵^[10]等。本文利用台湾大学资讯工程系提供的LibSVM工具箱(http://www.csie.ntu.edu.tw/~cjiin/libsvm/.)进行汉语组块分析。

汉语文本组块, 实际上就是输出一组汉语块序列。例如, 对于评论文本“ 空间足够大, 空间利用率比较高!” , 利用中国科学院计算技术研究所分词软件ICTCLAS(http://ictclas.nlpir.org/.)处理该评论文本, 输出结果为“ 空间/n 足够/v 大/a , /w 空间/n 利用率/n 比较/d 高/a ！/w” 。再对经过上述预处理的评论文本做汉语组块分析, 输出结果为“ 空间/n [ap 足够/v 大/a] , /w [np 空间/n 利用率/n] [ap 比较/d 高/a] ！/w” 。其中, “ 空间” 和“ 利用率” 两个名词在句子中构成名词性描述信息, 因此这两个名词进行组块就形成名词块“ [np 空间/n 利用率/n]” 。

支持向量机作为一种有监督的机器学习算法, 必须由使用者提供一系列特征作为分类依据。将评论文本上下文不同位置出现的词(w)、词性(t)以及组块类别标记(c)作为组合特征训练支持向量机模型。这样分类模型x就可以由12个特征表示, 如下所示:

(1)

其中, i为当前位置, i-1为前一个位置, i+1为后一个位置。

为解决数据集不均衡的问题, 本文采用一对一分类方法。另外, 选择多项式核函数(Polynomial Kernel Function)使分类器在高维空间具有更好的泛化能力。

2.3 名词性信息提取

经过汉语组块分析后, 每一条评论文本可以形成类似“ 空间/n [ap 足够/v 大/a] , /w [np 空间/n 利用率/n] [ap 比较/d 高/a] ！/w” 的汉语块序列。根据汉语组块分析的特点, 能够描述产品特征的主要有如下两类名词性信息:

(1) 名词块: 通过汉语组块可以将某一名词以及其附属修饰信息嵌入到同一个汉语块中, 例如: [np 空间/n 利用率/n]。

(2) 自由名词、动名词: 这类信息指在汉语块外的名词以及动名词, 这些名词性信息同样具有描述产品特征的功能, 例如: 小句序列“ 空间/n [ap 足够/v 大/a]” 中的名词“ 空间” 。

基于以上分析, 本文要对经过组块分析后文本中出现的名词块和自由名词、动名词进行提取。通过这样的方法, 可以对评论文本进行初始化处理, 再从初始化集合中找出用户评论的对象, 并进行停用词过滤。

3 频繁项集产生和停用词过滤

3.1 基于Apriori算法的频繁项集产生

计算机无法自动识别某一个名词性信息是否为产品特征, 但是基于“ 评价对象会在评论文本中重复出现” 的假设, 通过Apriori算法寻找构成频繁项集的产品特征是合适的。在文献^[5]的基础上, 本文结合支持度计数对初始化集合进行剪枝, 从而寻找频繁项集。

项集和支持度计数是Apriori算法的重要参数。由于本文所使用的语料是评论文本, 因此项集X可以定义为: 经过汉语组块分析后得到的初始化集合。事务集合T定义为: 从网络上下载的用户评论集合。其中一条用户评论可以计为 t_i(1≤ i≤ n), 因此T={t₁, t₂, · · · , t_i, · · · , t_n} 。项集的一个重要属性是支持度计数, 支持度计数可以表示为^[5]:

(2)

支持度用来衡量给定项集的频繁程度, 因此可以用支持度删除频繁程度较低的项集。支持度可以用如下公式计算:

(3)

其中, X和Y是互不相交的项集, 即X∩ Y=φ , N为用户评论的词条个数。通过设定最小支持度(Minimum Support, Min_Support), 在事务集合中搜索项集, 其中满足最小支持度的项集称为频繁项集。

利用Apriori算法在上一步生成的初始化集合中搜索频繁项集作为候选的商品特征集合。本文采用的最小支持度阈值为[1%, 5%], 并利用这个阈值过滤非频繁项集。通过Apriori算法得到频繁项集, 并将其作为候选的产品特征。由于频繁项集中还包含许多的非产品信息, 因此还需要对该集合进行停用词过滤, 才能得出最后的产品特征集合。

3.2 TF-IDF与停用词过滤

停用词在产品特征提取中指候选产品特征集合中的非产品特征的名词。通过观察候选产品特征集合, 这些停用词主要有以下三类: 商品品牌名称, 例如: “ 众泰” 、“ 别克” 、“ 雪佛兰” 等; 口语化名词, 例如: “ 车子” 、“ 这款车” 、“ 这辆车” 等; 人称名词, 例如“ 朋友” 、“ 同事” 、“ 老公” 等。

为了得到最终的产品特征集合, 需要利用相应的过滤算法过滤掉这些名词。TF-IDF(Term Frequency- Inverse Document Frequency)是在资源勘探领域常用的加权技术, 常用于文本特征权重计算^[11]以及文本分类^[12]等任务中。本文结合停用词的特点利用TF-IDF过滤频繁项集中的停用词, 从而保留重要的产品特征。

TF-IDF的计算方法^[11]如下:

其中, n_{i, j}是某个检索词在文档d_j中出现的次数, 而是该文档中出现的词语数量总和。|D|表示文件总和, 由于本文计算的是文档内的TF-IDF, 所以取值为1; |t|j:t_i∈ d_j|表示包含检索词t_i的评论词条的个数。

通过观察非产品特征及其TF-IDF值, 发现绝大多数的非产品特征的TF-IDF值在0.003以上, 因此本文以0.003作为过滤阈值, 对候选产品特征集合进行过滤后可以得到最终的产品特征集合。

4 实验结果及性能评价

4.1 实验数据与评价指标

汽车之家网站^①(①http//www.autohome.com.cn/.)是互联网汽车销售平台, 为汽车消费者提供专业的购车服务信息。本文采用汽车之家网站提供的汽车类产品评论语料, 分别对4款车型进行实验, 包括众泰T600(SUV)、别克GL8(商务车)、通用雪佛兰-赛欧(小型轿车)以及长安欧诺(微面)。其中每款汽车的评论语料包含400条评论。

通过人工标注的方法得到上述4款汽车的产品特征集合, 以众泰T600为例, 产品特征集合如表2所示。

表2 众泰T600的产品特征

4.2 实验结果

本文采用准确率(P)和查全率(R)评价实验效果。与文献[8]结果进行对比, 如表 3所示:

表3 对比实验结果1

通过表3可知, 在本文获取的评论文本上进行实验, 本文方法和文献^[8]的召回率相接近; 但是由于本文采用机器学习的方法识别名词性信息, 所以在准确率上明显高于文献^[8]。

通过第一组对比实验可知, 利用统计的机器学习算法处理语言信息是可行的; 由于评论文本中语言风格的多变, 仅仅依靠语言规则识别名词成分很难达到较高的准确率。由于文献^[5]和文献^[6]的方法在产品特征提取领域具有一定代表性, 因此本文再与其进行对比实验, 结果如表4所示:

表4 对比实验结果2

第二组对比实验中, 本文方法的平均召回率略低于文献^[5]的方法, 平均准确率优于文献^[5]和文献^[6]。因此, 本文方法可以在保证一定召回率的情况下得到较高的准确率。文献[5]通过计算名词之间的距离判断能否构成名词性成分, 并通过无监督的机器学习算法寻找频繁项集, 利用停用词词表过滤停用词; 文献^[6]在文献^[5]的基础上改进了过滤停用词的方法, 利用MPI过滤停用词。本文利用组块分析识别名词性成分, 通过TF-IDF过滤停用词。实验结果表明, 依靠组块分析可以充分考虑句子的上下文信息, 有利于识别名词性成分。因此本文所使用的方法在平均准确率上优于经典文献所采用的基于词法分析的方法。

实验结果表明, 汉语组块分析有利于产品特征的提取。由于本文采用的评论语料来自不同车型, 从结果中可以挖掘属于它们各自的私有特征, 例如: 疝气大灯(众泰T600)、中外合资(通用雪佛兰-赛欧)、商务性(别克GL8)、能拉人能拉货(长安欧诺)。

5 结语

本文引入汉语组块分析, 结合支持向量机、Apriori算法获取频繁项集、TF-IDF停用词过滤进行产品特征识别。实验结果表明, 本文方法的准确率较高, 同时召回率也保持了较高的水平, 说明本文方法是有效的。今后, 将结合汉语组块分析的产品特征对评论文本中的情感倾向性以及评论文本中情感标签的提取进行相关研究。

参考文献

View Option

[1]	祁志民, 刘涌. 浅谈我国电子商务的发展现状与趋势[J]. 学术交流, 2009(7): 136-138. (Qi Zhimin, Liu Yong. Introduction to the China Electronic Commerce Development Present Situation and Trends[J]. Academic Exchange, 2009(7): 136-138. ) [本文引用:1]
[2]	姚天昉, 聂青阳, 李建超, 等. 一个用于汉语汽车评论的意见挖掘系统[C]. 见: 中文信息处理前沿进展——中国中文信息学会二十五周年学术会议论文集. 2006. (Yao Tianfang, Nie Qingyang, Li Jianchao, et al. An Opinion Mining System for Chinese Automobile Reviews [C]. In: Proceedings of the 25th Academic Conference of Chinese Information Processing Society of China on Frontiers of Chinese Information Processing. 2006. ) [本文引用:1]
[3]	娄德成, 姚天昉. 汉语句子语义极性分析和观点挖掘抽取方法的研究[J]. 计算机应用, 2006, 26(11): 2622-2625. (Lou Decheng, Yao Tianfang. Semantic Polarity Analysis and Opinion Mining on Chinese Reviews Sentence[J]. Computer Applications, 2006, 26(11): 2622-2625. ) [本文引用:1]
[4]	Shi B, Chang K. Mining Chinese Reviews [C]. In: Proceedings of the 6th IEEE International Conference on Data Mining Workshops. IEEE, 2006: 585-589. [本文引用:1]
[5]	Hu M, Liu B. Mining and Summarizing Customer Reviews [C]. In: Proceedings of the 10th ACM SIGKDD International Conference on Knowledge Discovery and Data Mining. ACM, 2004: 168-177. [本文引用:8]
[6]	Popescu A M, Etzioni O. Extracting Product Features and Opinions from Reviews [A]. // Natural Language Processing and Text Mining[M]. Springer London, 2005: 339-446. [本文引用:4]
[7]	伍星, 何中市, 黄永文. 基于弱监督学习的产品特征抽取[J]. 计算机工程, 2009, 35(13): 199-201. (Wu Xing, He Zhongshi, Huang Yongwen. Product Feature Extraction Based on Weakly Supervised Learning[J]. Computer Enineering, 2009, 35(13): 199-201. ) [本文引用:1]
[8]	李实, 叶强, 李一军, 等. 中文网络客户评论的产品特征挖掘方法研究[J]. 管理科学学报, 2009, 12(2): 142-150. (Li Shi, Ye Qiang, Li Yijun, et al. Mining Features of Product from Chinese Customer Online Reviews[J]. Journal of Management Science in China, 2009, 12(2): 142-150. ) 李业刚, 黄河燕. 汉语组块分析综述[J]. 中文信息学报, 2013, 27(3): 1-8. (Li Yegang, Huang Heyan. A Survey onChinese Chunk Parsing[J]. Journal of Chinese Information Process, 2013, 27(3): 1-8. ) [本文引用:3]
[9]	周雅倩, 郭以昆, 黄萱菁, 等. 基于最大熵方法的中英文基本名词短语识别[J]. 计算机研究与发展, 2003, 40(3): 440-445. (Zhou Yaqian, Guo Yikun, Huang Xuanjing, et al. Chinese and English BaseNP Recognition Based on a Maximun Entropy Model[J]. Journal of Computer Research and Development, 2003, 40(3): 440-445. ) [本文引用:1]
[10]	路永和, 李焰锋. 改进TF-IDF算法的文本特征项权值计算方法[J]. 图书情报工作, 2013, 57(3): 90-95. (Lu Yonghe, Li Yanfeng. Improvement of Text Feature Weighting Method Based on TF-IDF Algorithm[J]. Library and Information Service, 2013, 57(3): 90-95. ) [本文引用:1]
[11]	覃世安, 李法运. 文本分类中TF-IDF方法的改进研究[J]. 现代图书情报技术, 2013 (10): 27-30. (Qin Shian, Li Fayun. Improved TF-IDF Method in Text Classification[J]. New Technology of Library and Information Service, 2013(10): 27-30. ) [本文引用:2]

0.0

. , 2009(7):136-138 DOI:doi:10.3969/j.issn.1000-8284.2009.07.036

Qi Zhimin , Liu Yong.

祁志民, 刘涌

伴随信息服务业的飞速发展,电子商务现在已成为很多国家和各大公司争夺的焦点。我国的电子商务也呈现出迅猛发展的态势。研究我国电子商务的发展现状、探讨其发展趋势、制定实施恰当的政策措施,变得十分迫切。我国在电子商务的安全性、管理、搜索功能、费用支出、合同法律、税收等方面都还存在一些问题,应针对这些问题,做好电子商务的发展规划和宏观指导,加强基础设施建设,加强电子商务宣传和人才培养,加强政府的示范和引导。我国电子商务在发展趋势上将向纵深化、个性化、专业化、国际化、区域化、融合化发展。

... 1 引言近年来, 互联网技术和电子商务的不断发展给企业的业务流程和消费者的购买行为带来了深刻的影响^[1] ...

2006

0.0

. 2006, :-

Yao Tianfang , Nie Qingyang , Li Jianchao

姚天昉, 聂青阳, 李建超

近年来,对描述非事实的主观性文本处理方面的研究十分活跃,主要的特点是对基于断言或评论的文本进行处理,此类文本内容包含有个人、群体、组织等的意见、情感和态度等.基于主观性文本的意见挖掘技术是一种新颖的语言技术,它不仅可以运用于自然语言接口、文本分类、文本过滤、自动摘要、自然语言生成、问答系统等方面,还可以应用于现实生活中的许多方面,如电子商务、电子学习、商业智能、出版编辑、企业管理、信息监控、民意调查等.我们所开发的用于汉语汽车论坛的意见挖掘系统的目的是在电子公告板、门户网站的各大论坛上挖掘并且概括顾客们对各种汽车品牌的不同性能指标的评论和意见,并且判断这些意见的褒贬性以及强度.通过对文本处理的综合统计,给出可视化的结果.这项研究是对汉语主观性文本处理的一次探索,特别是文本各个层次处理所涉及到的词汇、句子和文本极性和强度判断以及它们之问关系的分析.意见挖掘系统的测试结果显示了系统总平均召同率达到了80％,总平均精确率达到了60％.因此,这种用于汉语汽车评论的意见挖掘系统是合理和有效的.

... 姚天昉等^[2]利用本体构建汽车类产品的概念图, 并对汽车类产品的特征进行提取 ...

2006

0.0

. 2006, 26(11):2622-2625

Semantic Polarity Analysis and Opinion Mining on Chinese Reviews Sentence

汉语句子语义极性分析和观点挖掘抽取方法的研究

Lou Decheng , Yao Tianfang.

娄德成, 姚天昉

By using natural language management technology, Chinese Web review sentences were semantic studied and opinion mined. A new algorithm for computing the contextual polarity of polar words was proposed, and a framework was introduced for topic identification and feature extraction. The framework provided an innovative solution for the association of extracted opinion to its specific topic. The experiment results show that the algorithm is both reasonable and effective compared with the results of manual annotation.

利用自然语言处理技术，对中文网络评论语句进行语义极性分析和观点抽取。提出了计算词语上下文极性的算法，并且分析主题和修饰成分的匹配关系。最后与手工标注结果进行比较，通过实验证明了该算法的合理性和有效性。

... 娄德成等^[3]利用特征词表提取汽车类产品的特征及评论 ...

2006

0.0

... Shi等^[4]利用人工定义的层次概念模型对中文评论文本进行研究 ...

2004

0.0

... Hu等^[5]利用关联规则实现产品特征提取 ...

... Popescu等^[6]改进了Hu等^[5]的方法, 并利用MPI算法过滤停用词 ...

... 在文献^[5]的基础上, 本文结合支持度计数对初始化集合进行剪枝, 从而寻找频繁项集 ...

... 项集的一个重要属性是支持度计数, 支持度计数可以表示为^[5]: ...

... 由于文献^[5]和文献^[6]的方法在产品特征提取领域具有一定代表性, 因此本文再与其进行对比实验, 结果如表4所示: ...

... 第二组对比实验中, 本文方法的平均召回率略低于文献^[5]的方法, 平均准确率优于文献^[5]和文献^[6] ...

... 文献^[6]在文献^[5]的基础上改进了过滤停用词的方法, 利用MPI过滤停用词 ...

2005

0.0

... Popescu等^[6]改进了Hu等^[5]的方法, 并利用MPI算法过滤停用词 ...

... 由于文献^[5]和文献^[6]的方法在产品特征提取领域具有一定代表性, 因此本文再与其进行对比实验, 结果如表4所示: ...

... 第二组对比实验中, 本文方法的平均召回率略低于文献^[5]的方法, 平均准确率优于文献^[5]和文献^[6] ...

... 文献^[6]在文献^[5]的基础上改进了过滤停用词的方法, 利用MPI过滤停用词 ...

2009

0.0

. 2009, 35(13):199-201

Product Feature Extraction Based on Weakly Supervised Learning

基于弱监督学习的产品特征抽取

Wu Xing , He Zhongshi , Huang Yongwen.

伍星, 何中市, 黄永文

The mining of product reviews is the process of extracting information in reviews which is expressed by natural language, the extraction of product feature is the first phrase of the mining of product reviews. The quality of product feature decides the quality of subsequent phrases. This paper adopts weakly supervised methods, which just need a hand of product features as the seeds, using the occurrence sentences of seed to extract text patterns, and using the text patterns to find new product features. Experimental results show that it can extract product feature from English plain text and receive good result.

产品评论挖掘是从自然语言描述的用户评论中获取信息的过程，产品特征抽取是产品评论挖掘的第1个阶段，产品特征的好坏决定了产品评论挖掘中后续阶段的质量。采用弱监督的学习方法，只需要提供少量的产品特征作为种子，从这些种子出现的语句中抽取文本模式，利用文本模式来发现新的产品特征。实验结果表明，从英文文本中自动抽取产品特征的实验系统，取得了较好的效果。

... 伍星等^[7]利用弱监督学习算法对数码相机提取产品特征 ...

2009

0.0

... 李实等^[8]结合汉语中名词性短语的表达特点实现数码类产品的特征提取 ...

... 通过表3可知, 在本文获取的评论文本上进行实验, 本文方法和文献^[8]的召回率相接近 ...

... 但是由于本文采用机器学习的方法识别名词性信息, 所以在准确率上明显高于文献^[8] ...

2003

0.0

. 2003, 40(3):440-445

Chinese and English BaseNP Recognition Based on a Maximun Entropy Model

基于最大熵方法的中英文基本名词短语识别

Zhou Yaqian , Guo Yikun , Huang Xuanjing

周雅倩, 郭以昆, 黄萱菁

使用了基于最大熵的方法识别中文基本名词短语.在开放语料Chinese TreeBank上,只使用词性标注,达到了平均87.43%/88.09%的查全率/准确率.由于,关于中文的基本名词短语识别的结果没有很好的可比性,又使用相同的算法,尝试了英文的基本名词短语识别.在英文标准语料TREEBANK Ⅱ上,开放测试达到了93.31%/93.04%的查全率/准确率,极为接近国际最优水平.这既证明了此算法的行之有效,又表明该方法的语言无关性.

... 它既可以作为自然语言处理系统中分析句法功能的子任务, 也可以作为词法分析过渡到句法分析的一座桥梁^[9] ...

2013

0.0

. 2013, 57(3):90-95 DOI:10.7536/j.jssn.0252-3116.2013.03.017

Improvement of Text Feature Weighting Method Based on TF-IDF Algorithm

改进TF-IDF算法的文本特征项权值计算方法

Lu Yonghe , Li Yanfeng.

路永和, 李焰锋

School of Information Management, Sun Yat-sen University, Guangzhou 510006

Based on the importance of the feature and the ability of category distinguishing, this paper analyzes the disadvantages of traditional TF-[KG*4]IDF and its related improved algorithm, studies how to calculate feature weighting in text categorization, and develops a new function TW to correct feature's weight. Secondly, with the comparative experiments on term's CHI and term's TW validate, it reveals that TW can increase the weight of special features in a class and decrease the weight of common but unimportant features. Finally, this paper develops a new feature weighting algorithm combining TW with TF-IDF, and compares it with other methods by the classification experiments on Chinese classification corpus, in order to verify the validity of the new algorithm.

首先,从特征项重要性和类别区分能力的角度出发,通过分析传统的权重函数TF-IDF(term frequency-inverse document frequency)及其相关改进算法,研究文本分类中向量化时的特征权重计算,构建权重修正函数TW。其次,通过对特征词的卡方分布和TW作对比实验,验证TW能提高类别中专有词汇的权值,降低常见但对分类不重要的特征的权值。最后,将TW与TF-IDF结合作为新的特征权重算法,通过在中文分类语料库上的实际分类实验,与其他权重算法比较,验证此种算法的有效性。

... 2 基于支持向量机的汉语组块分析目前应用于汉语组块分析的机器学习算法主要有隐马尔科夫模型、基于记忆的机器学习、基于转换的机器学习、最大熵^[10]等 ...

2013

0.0

. 2013, 2013(10):27-30

文本分类中TF-IDF方法的改进研究

Qin Shian , Li Fayun.

覃世安, 李法运

When the count of one class is much more than another class's, the result of IDF in TF-IDF goes the wrong way according to its design idea. This paper solves the problem by using probability to change TF-IDF algorithm. In the end, the experiment proves that the solution mentioned above is good at classifying webpage text through a simple way to cumulative sum the value of characteristic words and the speed is faster and the accuracy rate is promoted.

针对TF-IDF在待分类文本类的数量分布不均时提取特征值效果差的问题,提出使用特征值在类间出现的概率比代替特征值在类间出现的次数比以改进TF-IDF算法。实验证明利用改进后的TF-IDF方法提取网页文本特征值,并配合简单累加求和的分类器,使得网页文本分类的准确率有明显提高,且分类速度加快。

... TF-IDF(Term Frequency- Inverse Document Frequency)是在资源勘探领域常用的加权技术, 常用于文本特征权重计算^[11]以及文本分类^[12]等任务中 ...

... TF-IDF的计算方法^[11]如下: ...