%A 冯国明, 张晓冬, 刘素辉 %T 基于自主学习的专业领域文本DBLC分词模型 %0 Journal Article %D 2018 %J 数据分析与知识发现 %R 10.11925/infotech.2096-3467.2017.1302 %P 40-47 %V 2 %N 5 %U {https://manu44.magtech.com.cn/Jwk_infotech_wk3/CN/abstract/article_4506.shtml} %8 2018-05-25 %X

【目的】 提高对专业术语、名词占比较高的专业领域文本的分词准确度。【方法】 提出将词典、统计、深度学习三者有机结合的DBLC模型, 并编程实现。获取中国管理案例库中的部分案例作为专业领域语料, 将其他几种已有分词模型作为对比对象进行实验与分析。【结果】 通过实验得到各模型在实验语料上的分词效果, DBLC模型在各评价指标上均优于其他模型, 分词准确率达到96.3%。【局限】未对原词典词与新词做区别处理, 没有考虑词典的存储结构问题, 模型计算时间复杂度较高。【结论】 本文提出的DBLC模型提高了专业领域文本的分词准确度, 且该模型分词准确率与词典规模正相关。