知识抽取中的停用词处理技术

doi:10.11925/infotech.1003-3513.2007.08.11

现代图书情报技术

2007, Vol. 2

Issue (8): 48-51 https://doi.org/10.11925/infotech.1003-3513.2007.08.11

知识组织与知识管理

本期目录 | 过刊浏览 | 高级检索

知识抽取中的停用词处理技术

化柏林

(中国科学技术信息研究所北京 100038)

Stop-word Processing Technique in Knowledge Extraction

Hua Bolin

(Institute of Scientific and Technical Information of China,Beijing 100038,China)

摘要
参考文献
相关文章
Metrics

全文: PDF (376 KB)
输出: BibTeX | EndNote (RIS)

摘要

在知识抽取的分词过程中，需要提前把停用词标引出来。停用词处理的关键在于停用词的认定、停用词表的获取与组织技术以及停用词匹配技术。停用词的识别常常需要停用词表，识别过程中需要判断假停用词以降低噪声。实验表明，对停用词进行单独处理可以大大加快词语切分速度以及后续的句法分析归约速度。

	服务

	把本文推荐给朋友
	加入引用管理器
	E-mail Alert
	RSS
	作者相关文章
	化柏林

关键词 ：知识抽取, 停用词, 中文分词, 自然语言处理, 文本信息分析

Abstract：

It is indispensable to index stop-word before word segmentation in knowledge extraction.The key technique of processing stop-word is how to select stop-word,acquire and organize stop-word lists,and match stop-word.To recognize stop-word,constructing stop-word list is necessary.In processing stop-word,recognizing false stop-word can decrease noise.According to experiment,processing stop-word can not only save segment time,but also improve following syntactic analysis efficiency.

Key words： Knowledge extraction Stop-word Chinese segmentation Natural language processing Text information analysis

收稿日期: 2007-05-11 出版日期: 2007-08-25

:	TP391

	G356

通讯作者: 化柏林 E-mail: huabolin@istic.ac.cn

作者简介: 化柏林

引用本文:

化柏林 . 知识抽取中的停用词处理技术[J]. 现代图书情报技术, 2007, 2(8): 48-51.
Hua Bolin. Stop-word Processing Technique in Knowledge Extraction. New Technology of Library and Information Service, 2007, 2(8): 48-51.

链接本文:

https://manu44.magtech.com.cn/Jwk_infotech_wk3/CN/10.11925/infotech.1003-3513.2007.08.11 或 https://manu44.magtech.com.cn/Jwk_infotech_wk3/CN/Y2007/V2/I8/48

［1］周钦强，孙炳达，王义．文本自动分类系统文本预处理方法的研究［J］．计算机应用研究，2005（02）：85-86.
［2］熊文新，宋柔．信息检索用户查询语句的停用词过滤［J］．计算机工程，2007，33（06）：195-197.
［3］梁南元．书面汉语的自动分词与一个自动分词系统—CDWS［J］．北京航空学院学报，1984（4）：97-104.
［4］罗杰，陈力，夏德麟，等．基于新的关键词提取方法的快速文本分类系统［J］．计算机应用研究，2006，4：32-34.
［5］ Ho T K．Stop Word Location and Identification for Adaptive Text Recognition［J］．International Journal on Document Analysis and Recognition，2000，3（1）：16-26.
［6］ Stop Word List—Words Filtered out by Search Engine Spiders［EB/OL］.［2007-06-14］.http://www.seo-innovation.com/support-files/stopwordlist.pdf.
［7］顾益军，樊孝忠，王建华，等．中文停用词表的自动选取［J］．北京理工大学学报，2005，25（04）：337-340.
［8］ Zou F，Wang F L，Deng X T，et al．Stop Word List Construction and Application in Chinese Language Processing［J］．WSEAS Transactions on Information Science and Applications，2006，3（6）：1036-1044.
［9］ Al Shalabi R，Kanaan G，Jaam J M，et al．Stop-word Removal Algorithm for Arabic language［C］．Information and Communication Technologies:From Theory to Applications,2004.Proceedings.2004 International Conference on.
［10］ Savoy J．Data Fusion for Effective European Monolingual Information Retrieval［C］．Workshop of the Cross-Language Evaluation Forum(CLEF 2004)，2005：233-244.
［11］ Tomov D T．Research Brief:Some Critical Remarks on the Stop Word Lists of ISI Publications［J］．The Journal of Documentation，2001，57（6）：798-808.
［12］孙茂松，左正平，黄昌宁．汉语自动分词词典机制的实验研究［J］．中文信息学报，2000，14（1）：1-6.
［13］刘颖．用隐马尔柯夫模型对汉语进行切分和标注排歧［J］．计算机工程与设计，2001，22（4）：58-62.
［14］刘开瑛．中文文本自动分词和标注［M］．北京:商务印书馆，2000.
［15］ Bril E.A Simple Rule-based Part-of-speech Tagger［C］.In:Proceedings of the Third Conference on Applied natural Language Processing.ACL.Trento,Italy.1992:152-155.

[1]	王一钒,李博,史话,苗威,姜斌. 古汉语实体关系联合抽取的标注方法*[J]. 数据分析与知识发现, 2021, 5(9): 63-74.
[2]	石湘,刘萍. *基于知识元语义描述模型的领域知识抽取与表示研究 ^——以信息检索领域为例**[J]. 数据分析与知识发现, 2021, 5(4): 123-133.
[3]	唐琳,郭崇慧,陈静锋. 中文分词技术研究综述^*[J]. 数据分析与知识发现, 2020, 4(2/3): 1-17.
[4]	黄名选,卢守东,徐辉. 基于加权关联模式挖掘与规则后件扩展的跨语言信息检索 ^*[J]. 数据分析与知识发现, 2019, 3(9): 77-87.
[5]	胡佳慧,方安,赵琬清,杨晨柳,任慧玲. 面向知识发现的中文电子病历标注方法研究 ^*[J]. 数据分析与知识发现, 2019, 3(7): 123-132.
[6]	尤众喜,华薇娜,潘雪莲. 中文分词器对图书评论和情感词典匹配程度的影响 ^*[J]. 数据分析与知识发现, 2019, 3(7): 23-33.
[7]	徐红霞,李春旺. 科技文献内容知识点抽取研究综述[J]. 数据分析与知识发现, 2019, 3(3): 14-24.
[8]	徐浩,朱学芳,章成志,江川. 面向学术文献全文本的方法论知识抽取系统分析与设计 ^*[J]. 数据分析与知识发现, 2019, 3(10): 29-36.
[9]	王颖,钱力,谢靖,常志军,孔贝贝. 科技大数据知识图谱构建模型与方法研究^*[J]. 数据分析与知识发现, 2019, 3(1): 15-26.
[10]	冯国明, 张晓冬, 刘素辉. 基于自主学习的专业领域文本DBLC分词模型[J]. 数据分析与知识发现, 2018, 2(5): 40-47.
[11]	倪维健, 孙浩浩, 刘彤, 曾庆田. 面向领域文献的无监督中文分词自动优化方法^*[J]. 数据分析与知识发现, 2018, 2(2): 96-104.
[12]	俞琰, 赵乃瑄. 基于辅助集的专利主题分析领域停用词选取^*[J]. 数据分析与知识发现, 2018, 2(11): 95-103.
[13]	官琴, 邓三鸿, 王昊. 中文文本聚类常用停用词表对比研究^*[J]. 数据分析与知识发现, 2017, 1(3): 72-80.
[14]	张越, 王东波, 朱丹浩. 面向食品安全突发事件汉语分词的特征选择及模型优化研究^*[J]. 数据分析与知识发现, 2017, 1(2): 64-72.
[15]	杨春雷. 面向语用消歧的量化约束条件系统: 从语言学设计到计算实现^*[J]. 数据分析与知识发现, 2017, 1(11): 1-11.

Viewed

Full text

Abstract

Cited

Shared

Discussed