导航菜单

学习成分神经程序进行连续控制

机器学习领域称为深度强化学习,已在现代工业和科学领域找到了许多成功的应用,特别是在灵巧对象操纵,敏捷运动,自主导航等领域。但是,仍然存在一些基本挑战:为了达到人类级别的AI,算法必须具有以不同的抽象程度在分层结构中计划和管理其活动的能力。同样,无模型的深度强化学习代理需要与环境进行大量交互以优化其策略。

在出现在arxiv.org上的新研究论文中,研究人员建议使用学习的世界内部模型来减少与环境的必要交互次数。这种方法是基于以下设计策略:将复杂的任务分解为层次结构,然后重新组合和使用它们,以提高学习样本的效率并减少与实际环境交互的需要:

我们提出了一种新颖的解决方案来应对稀疏奖励,连续控制问题,这些问题需要在多个抽象级别进行分层计划。我们的解决方案称为AlphaNPI-X,涉及三个独立的学习阶段。首先,我们使用具有经验重播的非政策强化学习算法来学习一套原子性的目标条件策略,这些策略可以轻松地用于许多任务。其次,我们学习描述原子政策对环境影响的自我模型。第三,利用自我模型来学习具有多个抽象级别的递归合成程序。关键见解是,自模型可以通过想象来进行规划,从而避免了在学习高级写作程序时与世界互动的需求。为了完成学习的第三阶段,我们扩展了AlphaNPI算法,该算法将AlphaZero应用到学习递归神经程序员解释器中。我们的经验表明,AlphaNPI-X可以有效地学习解决具有挑战性的稀疏操作任务,例如堆叠多个模块,而这些模块会导致强大的无模型基线失败。

郑重声明:本文版权归原作者所有,转载文章仅为传播更多信息之目的,如作者信息标记有误,请第一时间联系我们修改或删除,多谢。