数据集对于深度学习模型的重要性不言而喻。然而根据性质、类型、领域的不同, 数据集往往散落在不同的资源平台里。fast.ai 通过与亚马逊AWS 合作, 将最重要的数据集集中整理在一处, 数据集自身采用标准格式, 同时采用快速、可靠的存储服务器进行存储。fast.ai 整理的人工智能研究领域数据集共包含三类: 图像分类领域、自然语言处理领域, 以及目标检测定位, 给出了每一类数据集的介绍、引文, 以及下载地址: https://course.fast.ai/datasets.html。
(1) 图像分类领域
①MNIST: 小型(28x28 像素)灰度手写数字数据集。
②CIFAR10: 32x32 像素彩色图像。
③Caltech-UCSD Birds-200-2011: 包含200 种鸟类(主要为北美洲鸟类)照片的图像数据集。
④Caltech 101: 包含101 种物品类别的图像数据集。
⑤Oxford-IIIT Pet: 包含37 种宠物类别的图像数据集。
⑥Oxford 102 Flowers: 含102 种花类的图像数据集。
⑦Food-101: 包含101 种食品类别的图像数据集。
⑧Stanford cars: 包含196 种汽车类别的图像数据集。
(2) 自然语言处理领域
①IMDb Large Movie Review Dataset: 用于情感二元分类的数据集。
②Wikitext-103: 超过1 亿个语句的数据合集, 全部从维基百科的Good 与Featured 文章中提炼出来。
③WMT 2015 French/English parallel texts: 用于训练翻译模型的法语/英语平行文本, 拥有超过2 000 万句法语与英语句子。
④AG News: 496 835 条来自AG 新闻语料库4 大类别超过2 000 个新闻源的新闻文章。
⑤Amazon reviews-Full: 34 686 770 条来自6 643 669 名亚马逊用户针对2 441 053 款产品的评论数据。
⑥DBPedia Ontology: 来自DBpedia 2014 的14 个不重叠的分类的40 000 个训练样本和5 000 个测试样本。
⑦Sogou news: 2 909 551 篇来自SogouCA 和SogouCS 新闻语料库5 个类别的新闻文章。
⑧Yahoo! Answers: 来自雅虎Yahoo! Answers Comprehensive Questions and Answers1.0 数据集的10 个主要分类数据。
⑨Yelp reviews-Full: 来自2015 年Yelp Dataset Challenge 数据集的1 569 264 个样本。
(3) 目标检测定位领域
①Camvid:700 张包含像素级别语义分割的图像分割数据集, 每张图像都经过检查和确认以确保数据的准确性。
②PASCAL Visual Object Classes(VOC): 用于类识别的标准图像数据集。
③COCO 数据集: 目前最常用于图像检测定位的数据集。
(编译自: https://course.fast.ai/datasets.html.)
(本刊讯)
|