%A 段宇锋, 鞠菲 %T 基于N-Gram的专业领域中文新词识别研究 %0 Journal Article %D 2012 %J 数据分析与知识发现 %R 10.11925/infotech.1003-3513.2012.02.07 %P 41-47 %V 28 %N 2 %U {https://manu44.magtech.com.cn/Jwk_infotech_wk3/CN/abstract/article_3520.shtml} %8 2012-02-25 %X 以植物学作为专业领域的样本,对专业领域的新词自动化识别进行探索。研究选取《中国植物志》作为样本集,在ICTCLAS切词的基础上采用N-Gram统计的方法提取新词的候选项,然后分别按照词频(TF)、文档频率(D)和平均词频(TF/D)对新词候选项排序,取一定范围内的候选项作为识别出的新词。实验结果表明,词频TF筛选新词候选项的识别效果最好,F值为0.65。该方法能够自动产生专业领域的用户词典,具有较强的可移植性。