人类反馈强化学习

RLHF（人类反馈强化学习）是指什么？

2025年10月22日 9赞

人类反馈强化学习是一种通过人类偏好数据来优化语言模型行为的训练方法。人类反馈强化学习的过程首先训练一个奖励模型来预测人类对模型输出的偏好评分，然后使用强化学习算法优化语言模型以最大化奖励分数。通俗来说…