基于文本数据的过滤式与嵌入式样本选择算法*
|
|
刘书瑞,田继东,陈普春,赖立,宋国杰
|
New Sample Selection Algorithm with Textual Data
|
|
Shurui Liu,Jidong Tian,Puchun Chen,Li Lai,Guojie Song
|
|
表1 本文数据集的描述
|
Table 1 Description of the Dataset
|
|
| 数据来源 | 总样本数量(个) | 正样本数量(个) | 正样本数量/样本数量(%) | | 泰迪杯C题训练数据 | 477 019 | 127 328 | 26.69% | | NLPCC训练数据 | 181 882 | 9 198 | 5.06% | | 百度 DuReader_v2.0 | 80 485 | 80 485 | 100.00% | | 以上三个数据集总计 | 739 386 | 217 011 | 29.35% | | 随机数 1 数据集 | 175 042 | 51 507 | 29.43% | | 随机数 2 数据集 | 174 537 | 51 507 | 29.51% | | 随机数 3 数据集 | 174 955 | 52 003 | 29.72% |
|
|
|