AdaptiveKLController¶
- class torchrl.data.AdaptiveKLController(*, init_kl_coef: float, target: float, horizon: int, model: Optional[Module] = None)[來源]¶
自適應 KL 控制器,如 Ziegler 等人在“根據人類偏好微調語言模型”中所述。
- 關鍵字引數:
參考資料:第 2.2 節 https://arxiv.org/pdf/1909.08593.pdf#page=2 來源: https://github.com/openai/lm-human-preferences/blob/master/lm_human_preferences/train_policy.py