%A 祁瑞华, 霍跃红, 郭旭, 刘彩虹 %T 典籍英译作者身份识别研究 %0 Journal Article %D 2015 %J 数据分析与知识发现 %R 10.11925/infotech.1003-3513.2015.01.05 %P 31-37 %V 31 %N 1 %U {https://manu44.magtech.com.cn/Jwk_infotech_wk3/CN/abstract/article_3997.shtml} %8 2015-01-25 %X

[目的] 分析典籍英译作者身份识别的关键问题, 提出不完整数据作者身份识别的有效方法。[方法] 针对诗词典籍篇幅短小和语料不平衡的特点, 建立基于词汇、句子和语篇层面的文体特征向量空间模型, 提出用于不完整数据作者身份识别的加权朴素信念分类算法。[结果] 加权朴素信念分类算法可以有效改善朴素信念分类算法性能, 与目前主流分类算法对比实验表明其在不完整数据集上具有很好的综合性能。[局限] 需进一步扩展数据集的样本数量和作者数量, 在大数据集上提高文体特征提取效率和作者身份识别的准确性。[结论] 提出的多层面文体特征模型和加权朴素信念分类算法在诗词典籍英译作品集上具有较好的准确性和应用性。