Advanced Search
  首页 > 行业动态
fast.ai 整理出人工智能研究领域数据集列表

  数据集对于深度学习模型的重要性不言而喻。然而根据性质、类型、领域的不同, 数据集往往散落在不同的资源平台里。fast.ai 通过与亚马逊AWS 合作, 将最重要的数据集集中整理在一处, 数据集自身采用标准格式, 同时采用快速、可靠的存储服务器进行存储。fast.ai 整理的人工智能研究领域数据集共包含三类: 图像分类领域、自然语言处理领域, 以及目标检测定位, 给出了每一类数据集的介绍、引文, 以及下载地址: https://course.fast.ai/datasets.html

  (1) 图像分类领域
  ①MNIST: 小型(28x28 像素)灰度手写数字数据集。
  ②CIFAR10: 32x32 像素彩色图像。
  ③Caltech-UCSD Birds-200-2011: 包含200 种鸟类(主要为北美洲鸟类)照片的图像数据集。
  ④Caltech 101: 包含101 种物品类别的图像数据集。
  ⑤Oxford-IIIT Pet: 包含37 种宠物类别的图像数据集。
  ⑥Oxford 102 Flowers: 含102 种花类的图像数据集。
  ⑦Food-101: 包含101 种食品类别的图像数据集。
  ⑧Stanford cars: 包含196 种汽车类别的图像数据集。

  (2) 自然语言处理领域
  ①IMDb Large Movie Review Dataset: 用于情感二元分类的数据集。
  ②Wikitext-103: 超过1 亿个语句的数据合集, 全部从维基百科的Good 与Featured 文章中提炼出来。
  ③WMT 2015 French/English parallel texts: 用于训练翻译模型的法语/英语平行文本, 拥有超过2 000 万句法语与英语句子。
  ④AG News: 496 835 条来自AG 新闻语料库4 大类别超过2 000 个新闻源的新闻文章。
  ⑤Amazon reviews-Full: 34 686 770 条来自6 643 669 名亚马逊用户针对2 441 053 款产品的评论数据。
  ⑥DBPedia Ontology: 来自DBpedia 2014 的14 个不重叠的分类的40 000 个训练样本和5 000 个测试样本。
  ⑦Sogou news: 2 909 551 篇来自SogouCA 和SogouCS 新闻语料库5 个类别的新闻文章。
  ⑧Yahoo! Answers: 来自雅虎Yahoo! Answers Comprehensive Questions and Answers1.0 数据集的10 个主要分类数据。
  ⑨Yelp reviews-Full: 来自2015 年Yelp Dataset Challenge 数据集的1 569 264 个样本。

  (3) 目标检测定位领域
  ①Camvid:700 张包含像素级别语义分割的图像分割数据集, 每张图像都经过检查和确认以确保数据的准确性。
  ②PASCAL Visual Object Classes(VOC): 用于类识别的标准图像数据集。
  ③COCO 数据集: 目前最常用于图像检测定位的数据集。
  (编译自: https://course.fast.ai/datasets.html.)

(本刊讯)

发布时间: 2019-01-16   浏览: 3064
版权所有 © 2015 《数据分析与知识发现》编辑部
地址:北京市海淀区中关村北四环西路33号 邮编:100190
电话/传真:(010)82626611-6626,82624938
E-mail:jishu@mail.las.ac.cn