基于文本数据的过滤式与嵌入式样本选择算法*
|
刘书瑞,田继东,陈普春,赖立,宋国杰
|
New Sample Selection Algorithm with Textual Data
|
Shurui Liu,Jidong Tian,Puchun Chen,Li Lai,Guojie Song
|
|
表1 本文数据集的描述
|
Table 1 Description of the Dataset
|
|
数据来源 | 总样本数量(个) | 正样本数量(个) | 正样本数量/样本数量(%) | 泰迪杯C题训练数据 | 477 019 | 127 328 | 26.69% | NLPCC训练数据 | 181 882 | 9 198 | 5.06% | 百度 DuReader_v2.0 | 80 485 | 80 485 | 100.00% | 以上三个数据集总计 | 739 386 | 217 011 | 29.35% | 随机数 1 数据集 | 175 042 | 51 507 | 29.43% | 随机数 2 数据集 | 174 537 | 51 507 | 29.51% | 随机数 3 数据集 | 174 955 | 52 003 | 29.72% |
|
|
|