基于文本数据的过滤式与嵌入式样本选择算法*
刘书瑞,田继东,陈普春,赖立,宋国杰

New Sample Selection Algorithm with Textual Data
Shurui Liu,Jidong Tian,Puchun Chen,Li Lai,Guojie Song
表1 本文数据集的描述
Table 1 Description of the Dataset
数据来源 总样本数量(个) 正样本数量(个) 正样本数量/样本数量(%)
泰迪杯C题训练数据 477 019 127 328 26.69%
NLPCC训练数据 181 882 9 198 5.06%
百度 DuReader_v2.0 80 485 80 485 100.00%
以上三个数据集总计 739 386 217 011 29.35%
随机数 1 数据集 175 042 51 507 29.43%
随机数 2 数据集 174 537 51 507 29.51%
随机数 3 数据集 174 955 52 003 29.72%