
RLHF何以成LLM训练关键?AI大牛盘点五款平替方案,详解Llama 2反馈机制升级
最后编辑于 2025年2月17日
04AI门户网报道
编辑:LRS
【04AI门户网导读】AI领域日新月异,RLHF也逐渐成为过时的技术,但新路线尚不明朗:应该采用无需人工的反馈,还是继续改进RLHF机制?
在ChatGPT引领的大型语言模型时代,一个绕不过去的话题就是「基于人类反馈的强化学习」(RLHF),不仅提升了语言模型的性能,也将人类社会的价值观注入到模型中,使得语言模型能够帮助用户解决问题,提高模型的安全性。
不过在ChatGPT之后,大量模型和相关技术不断发布,RLHF也早已更新换代,并衍生出来一些无需人工的微调方法,效果提升也很明显。
最近,Lightning AI创始人、AI研究大牛Sebastian Raschka发表了一篇博客,描述了Llama 2中的RLHF机制和原版相比做出了哪些改变和提升,还介绍了几个RLHF算法的替代方案。
论文标题:RLAIF:Scaling Reinforcement Learning from Human Feedback with AI Feedback
论文链接:https://arxiv.org/abs/2309.00267
发表日期:2023年9月
标注人员在一半的案例中更喜欢RLAIF模型,也就意味着两个模型的差距并不大,并且RLHF和RLAIF都大大优于纯粹通过监督指令微调训练的模型。
这项研究的结果是非常有用的,基本上意味着我们可以更容易获得RLHF的训练数据,不过RLAIF模型如何在定性研究中表现还有待观察,这项研究侧重于信息内容的安全性和真实性,只是对人类偏好研究的部分捕获。
但这些替代方案在实践中是否有价值还有待观察,因为目前还没有哪个模型可以不用RLHF的情况下,取得与Llama 2和Code Llama相近的性能。
参考资料:https://magazine.sebastianraschka.com/p/llm-training-rlhf-and-its-alternatives