基于贝叶斯理论的LLM综合自评

- 本文提出了一种将RLAIF解释为贝叶斯推断的方法 - 通过引入蒸馏的自我批判(dSC),通过Gibbs采样器对LLM的输出进行改进,并将其蒸馏成一个精细调整的模型 - dSC只需要合成数据,可以成为与LLMs对齐的一种可行且廉价的替代方法 - dSC将奖励模型作为似然模型,并使用Gibbs MCMC采样器链来改进语言模型的响应 - dSC的功能在示意图中有所说明 - dSC的实验结果表明,在避免有害行为、避免负面情感和保护隐私生成方面,它可以显著提高模型的性能 - 未来的研究方向可以探索其他的差异,例如对比散度或使用行为克隆之外的RL方法

评论