基于双向长短时记忆网络的改进注意力短文本分类方法 *
|
陶志勇,李小兵,刘影,刘晓芳
|
Classifying Short Texts with Improved-Attention Based Bidirectional Long Memory Network
|
Zhiyong Tao,Xiaobing Li,Ying Liu,Xiaofang Liu
|
|
表1 数据集信息
|
|
|
数据集 | 类别 | 样本数 | 训练集 | 验证集 | 测试集 | 平均词数 | 文本最大长度 | 词语总数 | Chinese_news (CNH) | 18 | 192 000 | 156 000 | 18 000 | 18 000 | 12 | 29 | 137 890 | MR | 2 | 10 658 | 7 462 | 1 598 | 1 598 | 20 | 57 | 18 159 | TREC | 6 | 5 949 | 5 357 | - | 592 | 10 | 35 | 9 337 | IMDB | 2 | 50 000 | 25 000 | 12 500 | 12 500 | 239 | 2 525 | 141 902 | IMDB_10 | 10 | 50 000 | 25 000 | 12 500 | 12 500 | 239 | 2 525 | 141 902 | Yelp | 5 | 35 000 | 25 000 | 5 000 | 5 000 | 129 | 984 | 104 352 |
|
|
|