LiFT:以基础模型为教师的无监督强化学习

- LiFT是一个无监督的强化学习框架,使用基础模型作为教师来指导学习过程。 - 代理从大型语言模型中接收任务指令,并通过视觉-语言模型进行奖励反馈的引导。 - LiFT可以在具有挑战性的开放环境中学习语义上有意义的技能。 - 该方法在MineDojo环境中优于先前的无监督技能发现方法。 - 讨论了使用现成的基础模型作为教师的挑战,并介绍了解决这些挑战的努力。 - LiFT是一个闭环系统,包括LLM任务指令提议和VLM引导的策略学习。 - LLM根据当前的训练环境提出有意义的任务指令。 - VLM通过提供奖励反馈来指导代理学习多任务的语言条件策略。 - LiFT的结果与使用人工监督的任务指令相当。 - 奖励稳定化和策略初始化对于成功学习至关重要。 - VLM奖励的质量有限,可以改进。 - 不同类型的奖励,如softmax,对学习过程没有显著的益处。 - 在评估中,代理执行了8个任务,任务描述在表格中给出。 - 选择任务的目的是在Minecraft环境中进行初步生存。 - 使用随机值作为世界种子,以与训练中使用的世界种子不同。 - 提供了一个完整的提示,要求从给定的情境中提出最有趣的任务和几个不有趣的任务。 - 提供了网络架构、超参数和动作空间映射的训练细节。 - 提供了LiFT、APT和VPT的基线实现的详细信息。

评论