Please wait a minute...
Advanced Search
现代图书情报技术  2007, Vol. 2 Issue (1): 37-39     https://doi.org/10.11925/infotech.1003-3513.2007.01.09
  20届机检会论文选登 本期目录 | 过刊浏览 | 高级检索 |
BBS中文新词语自动挖掘*
吕学强 黄河 李渝勤 施水才
(北京信息科技大学中文信息处理研究中心 北京 100101)
Mining Chinese New Word in BBS
Lv Xueqiang   Huang He   Li Yuqin   Shi Shuicai
(Chinese Information Processing Research Center, Beijing Information Science andTechnology University, Beijing  100101, China)
全文: PDF (410 KB)  
输出: BibTeX | EndNote (RIS)      
摘要 

针对从BBS文本中自动挖掘新词语的问题,提出一种结合统计和规则的简单易行的方法,采用中文分词、频数统计、词性过滤、词语碎片组合等关键技术。据此方法开发的系统可以自动挖掘不限长度、不限领域、不限类别的与上下文无关的任意新词语。

服务
把本文推荐给朋友
加入引用管理器
E-mail Alert
RSS
作者相关文章
施水才
李渝勤
吕学强
黄河
关键词 自动挖掘新词语统计规则    
Abstract

A simple method using statistics and rule is presented for mining Chinese new words in BBS texts automatically, in which we use such key technologies as Chinese segmentation, frequency statistics, speech pattern filter and a series of operations on word fragments. A system developed in this method can mine random context-insensitive new words in any length and in any field, of any kind.

Key wordsAuto-mining    New word    Statistics    Rule
收稿日期: 2006-10-13      出版日期: 2007-01-25
: 

TP391

 
基金资助:

* 本文系国家自然科学基金项目“Web数据挖掘技术研究”(项目编号:602084)和北京市教育委员会科技发展计划重点项目“面向大规模真实文本的数据挖掘技术”(项目编号:KZ200310772013)的研究成果之一。

通讯作者: 吕学强     E-mail: lv.xueqian@trs.com.cn
作者简介: 吕学强,黄河,李渝勤,施水才
引用本文:   
吕学强,黄河,李渝勤,施水才 . BBS中文新词语自动挖掘*[J]. 现代图书情报技术, 2007, 2(1): 37-39.
Lv Xueqiang,Huang He,Li Yuqin,Shi Shuicai . Mining Chinese New Word in BBS. New Technology of Library and Information Service, 2007, 2(1): 37-39.
链接本文:  
https://manu44.magtech.com.cn/Jwk_infotech_wk3/CN/10.11925/infotech.1003-3513.2007.01.09      或      https://manu44.magtech.com.cn/Jwk_infotech_wk3/CN/Y2007/V2/I1/37

1尚英.现代汉语新词语研究现状及趋势:[学位论文].山东:烟台师范学院,1997
2亢世勇.新词语大词典.上海:上海辞书出版社,2003
3高永伟.近20年英语国家对新词的研究.外语与外语教学,1998(11):9-11
4郑家恒,杜永萍,宋礼鹏,农业病虫害词汇获取方法初探.孙茂松,陈群秀.语言计算与基于内容的文本处理.北京:清华大学出版社,2003.61-66
5郑家恒,李文花.基于构词法的网络新词自动识别初探.山西大学学报(自然科学版),2002,25(2):115-119
6沈丽琴,施勤,柴海新.自动新词提取方法和系统[专利].中国,00126471.0,2002-03-20
7邹刚,刘洋,刘群,孟遥,于浩,亢世勇.面向Internet的中文新词语检测.中文信息学报,2004,18(6):1-9
8Chen A T.Chinese Word Segmentation Using Minimal Linguistic Knowledge: [dissertation]. University of California at Berkeley,2004

[1] 李铁军,颜端武,杨雄飞. 基于情感加权关联规则的微博推荐研究*[J]. 数据分析与知识发现, 2020, 4(4): 27-33.
[2] 魏伟,郭崇慧,邢小宇. 基于语义关联规则的试题知识点标注及试题推荐*[J]. 数据分析与知识发现, 2020, 4(2/3): 182-191.
[3] 俞琰,陈磊,姜金德,赵乃瑄. 结合词向量和统计特征的专利相似度测量方法 *[J]. 数据分析与知识发现, 2019, 3(9): 53-59.
[4] 黄名选,卢守东,徐辉. 基于加权关联模式挖掘与规则后件扩展的跨语言信息检索 *[J]. 数据分析与知识发现, 2019, 3(9): 77-87.
[5] 强韶华,罗云鹿,李玉鹏,吴鹏. 基于RBR和CBR的金融事件本体推理研究 *[J]. 数据分析与知识发现, 2019, 3(8): 94-104.
[6] 张勇,李树青,程永上. 基于频次有效长度的加权关联规则挖掘算法研究 *[J]. 数据分析与知识发现, 2019, 3(7): 85-93.
[7] 李茹,李锐,蒋捷,吴华意. 网络地图用户访问会话时空特征分析*[J]. 数据分析与知识发现, 2019, 3(6): 1-11.
[8] 谭章禄,王兆刚,胡翰. 一种基于χ2统计的特征分类选择方法研究*[J]. 数据分析与知识发现, 2019, 3(2): 72-78.
[9] 卢强,朱振方,徐富永,国强强. 融合语法规则的Bi-LSTM中文情感分类方法研究 *[J]. 数据分析与知识发现, 2019, 3(11): 99-107.
[10] 何跃, 丰月, 赵书朋, 马玉凤. 基于知乎问答社区的内容推荐研究——以物流话题为例[J]. 数据分析与知识发现, 2018, 2(9): 42-49.
[11] 王飞飞, 张生太. 移动社交网络微信用户信息发布行为统计特征分析*[J]. 数据分析与知识发现, 2018, 2(4): 99-109.
[12] 王璟琦, 李锐, 吴华意. 基于空间自相关的网络舆情话题演化时空规律分析*[J]. 数据分析与知识发现, 2018, 2(2): 64-73.
[13] 何跃, 王爱欣, 丰月, 王莉. 基于关联规则的门诊药房布局优化[J]. 数据分析与知识发现, 2018, 2(1): 99-108.
[14] 魏星, 胡德华, 易敏寒, 朱启贞, 朱文婕. 基于数据立方体挖掘疾病-基因-药物新关联*[J]. 数据分析与知识发现, 2017, 1(10): 94-104.
[15] 黄名选. 基于矩阵加权关联模式的印尼中跨语言信息检索模型*[J]. 数据分析与知识发现, 2017, 1(1): 26-36.
Viewed
Full text


Abstract

Cited

  Shared   
  Discussed   
版权所有 © 2015 《数据分析与知识发现》编辑部
地址:北京市海淀区中关村北四环西路33号 邮编:100190
电话/传真:(010)82626611-6626,82624938
E-mail:jishu@mail.las.ac.cn