cdq的language models that think,chat beeter
基于奖励的强化学习RLVR很难应用到对话中去,而基于人类反馈的强化学习RLHF,很难先思考再回答的规划过程。
本文提出的RLMT框架,简化训练流程,泛化思考的应用场景。
强制思考,使用通用的,基于人类偏好的奖励模型来评估最终答案的质量。
除了可选的有监督微调预热,流程通过通用Prompt用模型生成包含思考过程和最终回答的完整输出,而奖励模型只评估最终答案,使用在线强化学习方法最大化奖励模型的期望得分。其中GPRO算法最佳。SFT预热不重要。
看的我云里雾里,感觉只是个a+b啊