从使用一类决策树的演示中学习学习安全约束

- 使用一类决策树可以从专家示范中学习安全约束。 - 学习到的约束可以在约束强化学习框架中使用,以获得安全策略。 - 该方法提供了约束的可解释性。 - 实验证明了该方法在合成基准领域和现实驾驶环境中的有效性。 - 通过学习约束可以减少手动指定约束的需求。 - 通过监控约束的违反率可以修剪学习到的约束。 - 学习到的约束可以在不同的代理和任务中应用。 - 强化学习中的安全约束问题是一个关键挑战,该方法提供了一种解决方案。 - 引用了一些相关的研究论文和会议论文。 - 这些论文涉及到最大似然约束推断、安全探索、人工智能控制问题等。 - 论文的作者包括McPherson、Stocking、Sastry、Ray、Achiam、Amodei、Russell、Schulman、Wolski、Dhariwal、Radford、Klimov、Scobee、Wang、Krasowski、Althoff、Yang、Rosca、Narasimhan、Ramadge、Zhang、Vuong、Ross、Ziebart、Maas、Bagnell和Dey等。

评论