基于模糊处理的中文文本关键词提取算法*

doi:10.11925/infotech.1003-3513.2009.05.08

现代图书情报技术

2009, Vol. 25

Issue (5): 39-43 https://doi.org/10.11925/infotech.1003-3513.2009.05.08

知识组织与知识管理

本期目录 | 过刊浏览 | 高级检索

基于模糊处理的中文文本关键词提取算法*

张红鹰

（安徽财经大学成教学院蚌埠 233000）

Chinese Text Keywords Extraction Based on Fuzzy Processing

Zhang Hongying

(Adult Education College,Anhui University of Finance and Economics, Bengbu 233000,China)

摘要
参考文献
相关文章
Metrics

全文: PDF (493 KB)
输出: BibTeX | EndNote (RIS)

摘要

研究关键词提取算法，在分析可能影响关键词提取词语的各种属性并将其量化的基础上，提出并实现一种将分词与词性标注、文本预处理、线性加权算法、组合词生成与过滤、合并候选关键词等集成到一个完整框架中的模型算法。

	服务

	把本文推荐给朋友
	加入引用管理器
	E-mail Alert
	RSS
	作者相关文章
	张红鹰

关键词 ：文本, 关键词, 提取, 模糊处理

Abstract：

This article studies algorithms of keywords extraction and analyzes factors that may influence the extraction. Based on the quantification of these factors, this paper proposes the complete framework of a model that includes word segmentation and part-of-speech tagging, text pre-treatment, weighted linear algorithm, generation and filtering of word combination, and combination of candidate keywords.

Key words： Text Keyword Extraction Fuzzy processing

收稿日期: 2008-12-18 出版日期: 2009-05-25

TP393

基金资助:

*本文系2007年度教育部人文社科研究基金青年项目“文本挖掘技术在论文抄袭判定中的应用研究”（项目编号：07JC870006）的研究成果之一。

通讯作者: 张红鹰 E-mail: zhytsj@sina.com

作者简介: 张红鹰

引用本文:

张红鹰. 基于模糊处理的中文文本关键词提取算法*[J]. 现代图书情报技术, 2009, 25(5): 39-43.
Zhang Hongying. Chinese Text Keywords Extraction Based on Fuzzy Processing. New Technology of Library and Information Service, 2009, 25(5): 39-43.

链接本文:

https://manu44.magtech.com.cn/Jwk_infotech_wk3/CN/10.11925/infotech.1003-3513.2009.05.08 或 https://manu44.magtech.com.cn/Jwk_infotech_wk3/CN/Y2009/V25/I5/39

［1］ Luhn H P.A Statistical Approach to Mechanized Encoding and Searching of Literary Information［J］.IBM Journal of Research and Development,1957,1(4):309-317.
［2］张敏, 耿焕同, 王煦法. 一种利用BC 方法的关键词自动提取算法研究［J］. 小型微型计算机系统, 2007(6):189-192.
［3］刘华. 基于文本分类中特征提取的领域词语聚类［J］. 语言文字应用,2007(1):139 - 144.
［4］方清华. 信息检索加权理论与技术:基于VSM模型的分析［J］. 情报杂志, 2008(6):73-76.
［5］王灿辉,张敏,马少平,等. 基于相邻词的中文关键词自动抽取［J］.广西师范大学学报(自然科学版), 2007(2):161-164.
［6］索红光, 刘玉树, 曹淑英. 一种基于词汇链的关键词抽取方法［J］. 中文信息学报, 2006(6):25-30.
［7］ Li S J,Wang H F,Yu S W,et al.Research on Maximum Entropy Model for Keyword Indexing［J］.Chinese Journal of Computers,2004,27(9):1192-1197.

[1]	陈杰,马静,李晓峰. 融合预训练模型文本特征的短文本分类方法*[J]. 数据分析与知识发现, 2021, 5(9): 21-30.
[2]	周泽聿,王昊,赵梓博,李跃艳,张小琴. 融合关联信息的GCN文本分类模型构建及其应用研究*[J]. 数据分析与知识发现, 2021, 5(9): 31-41.
[3]	韩辉, 刘秀文. 海事适任评估中主观题自动评分技术研究^*[J]. 数据分析与知识发现, 2021, 5(8): 113-121.
[4]	江雅仁, 乐小虬. 一对多实体关系少样本持续学习方法研究[J]. 数据分析与知识发现, 2021, 5(8): 45-53.
[5]	张乐, 冷基栋, 吕学强, 崔卓, 王磊, 游新冬. RLCPAR：一种基于强化学习的中文专利摘要改写模型*[J]. 数据分析与知识发现, 2021, 5(7): 59-69.
[6]	黄名选,蒋曹清,卢守东. 基于词嵌入与扩展词交集的查询扩展^*[J]. 数据分析与知识发现, 2021, 5(6): 115-125.
[7]	余本功,朱晓洁,张子薇. 基于多层次特征提取的胶囊网络文本分类研究^*[J]. 数据分析与知识发现, 2021, 5(6): 93-102.
[8]	吴旭,陈春旭. 基于多策略的群聊话题检测技术^*[J]. 数据分析与知识发现, 2021, 5(5): 1-9.
[9]	宋若璇,钱力,杜宇. 基于科技论文中未来工作句集的学术创新构想话题自动生成方法研究^*[J]. 数据分析与知识发现, 2021, 5(5): 10-20.
[10]	许光,任明,宋城宇. 西方媒体新闻中的中国经济形象提取^*[J]. 数据分析与知识发现, 2021, 5(5): 30-40.
[11]	陈君,梁昊,钱晨. *情感距离视角下奖励式众筹用户投资决策行为研究——基于项目文本的分析**[J]. 数据分析与知识发现, 2021, 5(4): 60-71.
[12]	代冰,胡正银. 基于文献的知识发现新近研究综述 ^*[J]. 数据分析与知识发现, 2021, 5(4): 1-12.
[13]	王红斌,王健雄,张亚飞,杨恒. 主题不平衡新闻文本数据集的主题识别方法研究^*[J]. 数据分析与知识发现, 2021, 5(3): 109-120.
[14]	胡少虎,张颖怡,章成志. 关键词提取研究综述^*[J]. 数据分析与知识发现, 2021, 5(3): 45-59.
[15]	郑新曼, 董瑜. 基于科技政策文本的程度词典构建研究^*[J]. 数据分析与知识发现, 2021, 5(10): 81-93.

Viewed

Full text

Abstract

Cited

Shared

Discussed