%A 李心蕾, 王昊, 刘小敏, 邓三鸿 %T 面向微博短文本分类的文本向量化方法比较研究* %0 Journal Article %D 2018 %J 数据分析与知识发现 %R 10.11925/infotech.2096-3467.2018.0322 %P 41-50 %V 2 %N 8 %U {https://manu44.magtech.com.cn/Jwk_infotech_wk3/CN/abstract/article_4538.shtml} %8 2018-08-25 %X

目的】利用Word2Vec和Sent2Vec算法生成新浪微博的文本的向量化表示形式, 以期在文本分类时获得较低的计算成本和较高的分类效果。【方法】使用文本中词的0-1矩阵进行分类, 将分类效果作为基准线; 采用Word2Vec算法生成词向量并用不同方式合成句子的向量表示, 进行文本分类, 并与基准线进行对比; 利用Sent2Vec算法直接生成句子向量进行分类, 综合评价3种方法的优缺点。【结果】研究显示使用Word2Vec算法和Sent2Vec算法能够极大程度上压缩文本特征, 对比于使用所有3万多个词作为特征, Word2Vec算法和Sent2Vec算法将特征数压缩在1 000以内。在分类准确率方面, Word2Vec算法的分类准确率比基准线低约3%, 准确率为75.14%。Sent2Vec算法的分类效果远不如其他两种方法, 准确率只有63.08%。【局限】由于语料有限, Word2Vec算法在计算词向量时可能缺少足够的语义信息, 导致词向量的准确性不高, 而Sent2Vec算法在中文文本语境下生成句向量的分类结果较差。【结论】Word2Vec算法更适用大规模语料文本分类, 在文本量较少时应使用词为特征分类。