在指导机器人一项新任务时,比如如何打开橱柜,经常使用强化学习的方法。强化学习是一个不断试错的过程,当机器人采取更接近目标的行动时会得到奖励。在此过程中,往往需要认真设计奖励函数,在探索和尝试不同的动作时,必须迭代地更新奖励函数,这是耗时、低效且难以扩展的,尤其是当任务复杂且涉及多个步骤时。
近日,由麻省理工学院、哈佛大学和华盛顿大学的研究人员合作开发的一种新型强化学习方法,该方法不依赖于专业设计的奖励函数,相反,它能利用从许多非专业用户那里收集的众包反馈来高效地指导机器人完成复杂的任务,并且在模拟实验和实际应用中都显示出良好的效果。
虽然其他强化学习方法也试图利用非专家的用户反馈信息,但这种新方法能够帮助机器人更快地学习,即使从用户那里众包反馈的数据充满错误,而其他强化学习方法在面临这些噪音数据时很可能会失败。此外,这种新方法还允许异步收集反馈,因此世界各地的非专业用户都可以为指导机器人做出贡献。
未来,这种方法可以帮助机器人快速学习在用户家中如何执行特定任务,而无需用户向机器人展示每个任务的物理示例。机器人可以自己利用众包的非专家用户反馈指导探索。
(编译自:https://www.sciencedaily.com/releases/2023/11/231127132237.htm)
(本刊讯)
|