基于双向长短时记忆网络的改进注意力短文本分类方法 *
陶志勇,李小兵,刘影,刘晓芳

Classifying Short Texts with Improved-Attention Based Bidirectional Long Memory Network
Zhiyong Tao,Xiaobing Li,Ying Liu,Xiaofang Liu
表1 数据集信息
数据集 类别 样本数 训练集 验证集 测试集 平均词数 文本最大长度 词语总数
Chinese_news (CNH) 18 192 000 156 000 18 000 18 000 12 29 137 890
MR 2 10 658 7 462 1 598 1 598 20 57 18 159
TREC 6 5 949 5 357 - 592 10 35 9 337
IMDB 2 50 000 25 000 12 500 12 500 239 2 525 141 902
IMDB_10 10 50 000 25 000 12 500 12 500 239 2 525 141 902
Yelp 5 35 000 25 000 5 000 5 000 129 984 104 352