Advanced Search
  首页 > 行业动态
DeepMind 开源强化学习复现工具TRFL

  近日, DeepMind 宣布开源一个用于在TensorFlow 环境中开发强化学习智能体的代码库TRFL, 并打包许多有用的基础组件(https://github.com/deepmind/trfl/)。DeepMind 用于开发DQN、DDPG 以及IMPALA(重要性加权行动者–学习者架构)等知名强化学习技术的许多关键算法组件都包含在其中。

  TRFL 包含许多功能, 可以实现经典强化学习算法以及更现代的算法。对于基于值的强化学习, DeepMind 的研究人员也在TRFL 中提供了各种TensorFlow 操作, 便于在离散的行动空间中学习, 如TD 学习、Sarsa、Q-learning 以及其变体;当然也包括用于实现DPG 等连续控制算法的操作。TRFL 中还包括学习值分布函数的操作, 这些操作支持批量计算, 并且返回的损失值可以送入TensorFlow 优化器进行最小化。有一些损失值是针对不同批之间的变化进行计算的(如Sarsa、Q-learning 等),也有一些损失是针对成批轨迹的(如Q-lambda、Retace 等)。

  对于基于策略的方法, TRFL 中也同时提供可以简易实现A2C 等在线学习方法以及V-trace 等离线策略校正方法的工具。TRFL 也支持连续动作空间中的策略梯度的计算。TRFL 还提供一个Unreal 引擎中使用的辅助伪反馈函数, DeepMind 的研究人员发现它能在许多不同的任务中提高数据效率。

  宣告开源并不是这个项目的终点。由于这个库在DeepMind 内部有着广泛的应用, 因此会持续不断地对其进行维护, 并逐步增加新的功能。DeepMind 也非常期待强化学习社区中更多的人参与到这个项目中来。

  (编译自: https://deepmind.com/blog/trfl/.)

  (本刊讯)

发布时间: 2018-11-13   浏览: 6630
版权所有 © 2015 《数据分析与知识发现》编辑部
地址:北京市海淀区中关村北四环西路33号 邮编:100190
电话/传真:(010)82626611-6626,82624938
E-mail:jishu@mail.las.ac.cn