Please wait a minute...
Advanced Search
现代图书情报技术  2006, Vol. 1 Issue (8): 46-50     https://doi.org/10.11925/infotech.1003-3513.2006.08.10
  信息检索技术 本期目录 | 过刊浏览 | 高级检索 |
基于Lucene的中文字典分词模块的设计与实现
向晖1 郭一平2 王亮
1(华中科技大学控制科学与工程系 武汉  430074)
2(华中科技大学图书馆 武汉  430074)
Design and Implementation of Chinese Words Dictionary Segmentation Module Based on Lucene
Xiang Hui1    Guo Yiping2    Wang Liang
1(Department of Control Science and Engineering,Huazhong University of Science and Technology, Wuhan  430074,China)
2(Huazhong University of Science and Technology  Library,Wuhan  430074,China)
全文:
输出: BibTeX | EndNote (RIS)      
摘要 

在分析Lucene语言分析器结构的基础上,采用基于中文字典的正向最大匹配分词算法,设计实现能够在基于Lucene的搜索引擎中处理中文信息的中文分词模块。

服务
把本文推荐给朋友
加入引用管理器
E-mail Alert
RSS
作者相关文章
向晖
郭一平
王亮
关键词 搜索引擎Lucene中文分词正向最大匹配算法    
Abstract

This paper introduces the construction of language analyzer in Lucene, designs and implements Chinese words segmentation module which uses forwards maximum match algorithm (FMM). This module can disposes Chinese information well and efficiently in the search engine based on Lucene.

Key wordsSearch engine    Lucene    Chinese words segmentation    Forwards Maximum match algorithm
收稿日期: 2006-05-19      出版日期: 2006-08-25
: 

G254

 
通讯作者: 向晖     E-mail: xcaids@126.com
作者简介: 向晖,郭一平,王亮
引用本文:   
向晖,郭一平,王亮 . 基于Lucene的中文字典分词模块的设计与实现[J]. 现代图书情报技术, 2006, 1(8): 46-50.
Xiang Hui,Guo Yiping,Wang Liang . Design and Implementation of Chinese Words Dictionary Segmentation Module Based on Lucene. New Technology of Library and Information Service, 2006, 1(8): 46-50.
链接本文:  
https://manu44.magtech.com.cn/Jwk_infotech_wk3/CN/10.11925/infotech.1003-3513.2006.08.10      或      https://manu44.magtech.com.cn/Jwk_infotech_wk3/CN/Y2006/V1/I8/46

1赵汀,孟祥武.基于Lucene API的中文全文数据库设计与实现.计算机工程与应用,2003(20):179-181
2高琰,谷士文,谭立球,费耀平.基于Lucene的搜索引擎设计与实现.微机发展,2004,14(10):27-30
3刘迁,贾惠波.中文信息处理中自动分词技术的研究与展望.计算机工程与应用,2006(3):175-177,182
4郭辉,苏中义,王文,崔  俊.一种改进的MM分词算法.微型电脑应用,2002,18(1):13-15
5李庆虎,陈玉健,孙家广.一种中文分词词典新机制——双字哈希机制.中文信息学报,2002,17(4):13-18

[1] 唐琳,郭崇慧,陈静锋. 中文分词技术研究综述*[J]. 数据分析与知识发现, 2020, 4(2/3): 1-17.
[2] 尤众喜,华薇娜,潘雪莲. 中文分词器对图书评论和情感词典匹配程度的影响 *[J]. 数据分析与知识发现, 2019, 3(7): 23-33.
[3] 冯国明, 张晓冬, 刘素辉. 基于自主学习的专业领域文本DBLC分词模型[J]. 数据分析与知识发现, 2018, 2(5): 40-47.
[4] 倪维健, 孙浩浩, 刘彤, 曾庆田. 面向领域文献的无监督中文分词自动优化方法*[J]. 数据分析与知识发现, 2018, 2(2): 96-104.
[5] 张越, 王东波, 朱丹浩. 面向食品安全突发事件汉语分词的特征选择及模型优化研究*[J]. 数据分析与知识发现, 2017, 1(2): 64-72.
[6] 刘彤,倪维健,柳梅. 面向搜索引擎查询日志的领域术语自动识别方法*[J]. 现代图书情报技术, 2016, 32(2): 25-33.
[7] 童国平, 孙建军. 基于搜索日志的用户行为分析[J]. 现代图书情报技术, 2015, 31(7-8): 80-88.
[8] 王晰巍, 赵丹, 杨梦晴, 魏俊巍. 行业网站搜索引擎优化指标及实证研究——基于信息生态视角的分析[J]. 现代图书情报技术, 2015, 31(3): 75-83.
[9] 余昕聪, 李红莲, 吕学强. 本体上下位关系在招生问答机器人中的应用研究[J]. 现代图书情报技术, 2015, 31(12): 65-71.
[10] 张杰, 张海超, 翟东升. 面向中文专利权利要求书的分词方法研究[J]. 现代图书情报技术, 2014, 30(9): 91-98.
[11] 陈勇, 李红莲, 吕学强. 网络用户搜索行为特征分析[J]. 现代图书情报技术, 2014, 30(12): 10-17.
[12] 李文江, 陈诗琴. AIMLBot智能机器人在实时虚拟参考咨询中的应用[J]. 现代图书情报技术, 2012, 28(7): 127-132.
[13] 江华, 苏晓光. 无词典中文高频词快速抽取算法[J]. 现代图书情报技术, 2012, 28(6): 50-53.
[14] 石崇德, 王惠临. 统计机器翻译中文分词优化技术研究[J]. 现代图书情报技术, 2012, 28(4): 29-34.
[15] 鲜国建, 赵瑞雪, 朱亮, 寇远涛. 农业科学叙词表的SKOS转化及其应用研究[J]. 现代图书情报技术, 2012, (10): 16-20.
Viewed
Full text


Abstract

Cited

  Shared   
  Discussed   
版权所有 © 2015 《数据分析与知识发现》编辑部
地址:北京市海淀区中关村北四环西路33号 邮编:100190
电话/传真:(010)82626611-6626,82624938
E-mail:jishu@mail.las.ac.cn