Advanced Search
  首页 > 行业动态
谷歌推出强化学习研究专用框架“多巴胺”

  强化学习研究中涌现了许多重大技术进展, 已经帮助智能体在游戏中发挥出超越人类的作用, 如DQN、AlphaGo 和AlphaGo Zero, 以及近期连续击败业余玩家和前职业选手的 DOTA2 AI OpenAI Five。近日, 谷歌发布一个新的基于TensorFlow 的强化学习框架“多巴胺”(Dopamine)。其目标是提供一个兼顾灵活、稳定、可重复性的强化学习实验框架, 让不论资深还是新手研究人员都感受到“多巴胺”带来的放松和愉悦, 从而帮助他们更多、更快、更好地开展有可能带来颠覆性发现的思辨、探索研究。

  “多巴胺”框架面向研究人员, 是一个简单但健壮的框架, 适合用于强化学习算法设计中的快速原型设计和迭代改进。如果算法研究人员需要一个轻量、容易理解的代码库, 为了自由地尝试各种不同的想法, “多巴胺”就是最合适的选择。首个版本重点关注目前最先进的彩虹DQN, 在 Atari-2000 游戏中有惊人表现。除了彩虹DQN 之外, “多巴胺”还实现了另外三个基于数值的智能体: DQN、C51 以及刚刚发表在ICML2018 上的隐式分位数网络(Implicit Quantile Network)。“多巴胺”非常便于使用, 具备以下特性:

  (1) 上手快捷: “多巴胺”提供的代码紧凑, 只有大约15 个Python 文档, 而且有完善的注释。
  (2) 可重复性: 为了提供一些可重复性的保障, “多巴胺”的代码提供了完整的测试功能。除此之外, “多巴胺”也遵循了arxiv.org/abs/1709.06009 中提出的关于在 Arcade 学习环境中标准化经验评价的建议。
  (3) Benchmark: 对于新手来说, 能够在 benchmark 中快速比较自己的想法和已有方法的表现是非常重要的。“多巴胺”提供包含4 个智能体的全部训练数据, 均包含Arcade 学习环境支持的60 个游戏中的数据; 格式有Python 以及JSON 两种。谷歌的开发人员还额外设计了一个网站, 可以在上面快速可视化这4 个智能体在所有60 个游戏中的训练过程。

  “多巴胺”在GitHub 存储库的地址: https://github.com/google/dopamine
  (编译自: https://ai.googleblog.com/2018/08/introducing-new-framework-for-flexible.html.)

(本刊讯)

发布时间: 2018-10-25   浏览: 6914
版权所有 © 2015 《数据分析与知识发现》编辑部
地址:北京市海淀区中关村北四环西路33号 邮编:100190
电话/传真:(010)82626611-6626,82624938
E-mail:jishu@mail.las.ac.cn