- 本文提出了一种将RLAIF解释为贝叶斯推断的方法 - 通过引入蒸馏的自我批判(dSC),通过Gibbs采样器对LLM的输出进行改进,并将其蒸馏成一个精细调整的模型 - dSC只需要合成数据,可以成为与LLMs对齐的一种可行且廉价的替代方法 - dSC将奖励模型作为似然模型,并使用Gibbs MCMC采样器链来改进语言模型的响应 - dSC的功能在示意图中有所说明 - dSC的实验结果表明,在避免有害行为、避免负面情感和保护隐私生成方面,它可以显著提高模型的性能 - 未来的研究方向可以探索其他的差异,例如对比散度或使用行为克隆之外的RL方法
2023-12-05 15:42:28 +0800
2023-12-15 14:31:00 +0800
- 使用一类决策树可以从专家示范中学习安全约束。 - 学习到的约束可以在约束强化学习框架中使用,以获得安全策略。 - 该方法提供了约束的可解释性。 - 实验证明了该方法在合成基准领域和现实驾驶环境中的有效性。 - 通过学习约束可以减少手动指定约束的需求。 - 通过监控约束的违反率可以修剪学习到的约束。 - 学习到的约束可以在不同的代理和任务中应用。 - 强化学习中的安全约束问题是一个关键挑战,该方法提供了一种解决方案。 - 引用了一些相关的研究论文和会议论文。 - 这些论文涉及到最大似然约束推断、安全探索、人工智能控制问题等。 - 论文的作者包括McPherson、Stocking、Sastry、Ray、Achiam、Amodei、Russell、Schulman、Wolski、Dhariwal、Radford、Klimov、Scobee、Wang、Krasowski、Althoff、Yang、Rosca、Narasimhan、Ramadge、Zhang、Vuong、Ross、Ziebart、Maas、Bagnell和Dey等。
2023-12-15 14:31:01 +0800
- 一种改进的算法可以解决(k, k^(1+o(1)))-gap编辑距离问题,时间复杂度为O(n/k + k^2)。 - 通过利用字符串的分块周期性和断点的概念,可以优化算法的运行时间。 - 该算法将问题分解为多个子问题,每个子问题的块周期性较小。 - 通过对断点进行采样,可以确定每个子问题的匹配位置。 - 该算法在一定条件下可以达到近似最优的效果,对于较大的k值,优于之前的算法。 - 该算法的时间复杂度在理论上是接近最优的,但仍存在一些开放问题。 - 一种用于有界块周期性的算法的证明。 - 该算法使用树距离框架,将编辑距离的计算分解为独立的子任务。 - 树距离定义了一棵分区树,将字符串X和Y分成多个子串,并定义了限制在[-L, L]范围内的树距离。 - 引理4.3证明了树距离与编辑距离之间的关系,给出了树距离的下界和上界。 - 引理4.4给出了树距离的上界,限制了Yv,s和Y'v之间的差异。 - 这些结果为后续的算法提供了基础。 - Lemma 4.6: 精确采样引理保证从分布中准确近似抽取的值。 - Lemma 4.7: 计算平移值的最小值的算法。 - Lemma 4.8: 确定两个字符串是否接近的匹配测试算法。 - Lemma 4.9: 确定字符串是否具有p周期性的p-周期性测试算法。 - Lemma 4.11: 用于近似周期字符串之间编辑距离的快速平移ED算法。 - Lemma 4.12: 解决树距离问题的算法3的正确性。 - Lemma 4.13: 当编辑距离小于或等于k时,分区树中未匹配节点的数量。 - Lemma 4.14: 当编辑距离小于或等于k时,分区树中活动节点的数量。 - Lemma 4.15: 解决树距离问题的算法3的运行时间。 - Lemma 3.1: 解决字符串X和Y上的GapED问题的有界块周期性算法。 - Theorem 5.1: 动态近似ED算法,用于维护和近似字符串之间的编辑距离。 - Corollary 5.2: 具有简化参数的动态近似ED算法。 - Lemma 5.3: 计算模式和文本子串之间编辑距离的近似值。 - Lemma 5.4: 两个p周期性字符串之间编辑距离的3近似值。 - Lemma 4.10提供了一种计算具有给定周期的两个字符串之间编辑距离的近似值的方法。 - 其中一个字符串的长度可以改变而不影响距离。 - 该算法使用加权图来计算近似值。 - 算法的运行时间主要由Lemma 5.3的应用决定。 - 算法的正确性基于Lemma 5.4。 - 提供了与编辑距离近似算法相关的各种参考文献。
2023-12-05 15:42:28 +0800
2023-12-03 19:40:47 +0800
2023-12-03 19:40:46 +0800
- Ruby 3.3的YJIT相比Ruby 3.2的YJIT有显著改进,提供更好的性能、更快的启动时间和减少的内存使用。 - YJIT 3.3包括更好的JIT覆盖率、核心方法调用的内联原语和新的寄存器分配器等优化。 - 通过改进元数据大小和实施“冷阈值”启发式算法,努力减少YJIT的内存使用。 - YJIT 3.3具有更好的默认值,并且可以在运行时从Ruby代码中启用。 - 性能基准测试显示,YJIT 3.3在渲染liquid模板、Railsbench和Ruby LSP等方面提供了显著的性能提升。 - 内存使用基准测试表明,与YJIT 3.2相比,YJIT 3.3的内存开销减少了。 - YJIT已成功部署在Shopify的StoreFront Renderer基础设施中,提供了一致的性能改进。 - 即使在最慢的请求上,YJIT 3.3比CRuby 3.3解释器更快,并且在内存与性能之间有良好的平衡。 - YJIT 3.3在optcarrot基准测试中实现了比CRuby 3.3解释器快3.3倍以上的性能。 - 带有YJIT的Ruby 3.3.0版本将于12月25日发布,性能、内存使用和启动时间都有显著改进。
2023-12-19 07:00:54 +0800
2023-12-15 14:31:02 +0800
- 使用cookie提供最佳的在线体验 - 可选择“全部接受”以同意 - 可选择“偏好设置”以获取更多选项
2023-12-12 10:42:44 +0800
2023-12-07 20:37:05 +0800