捷徑

RewardNormalizer

class torchrl.trainers.RewardNormalizer(decay: float = 0.999, scale: float = 1.0, eps: Optional[float] = None, log_pbar: bool = False, reward_key=None)[原始碼]

獎勵正規化 hook。

參數:
  • decay (float, optional) – 指數移動平均衰減參數。預設值為 0.999

  • scale (float, optional) – 用於在正規化後乘以獎勵的比例。預設值為 1.0。

  • eps (float, optional) – 用於防止數值下溢的 epsilon 抖動。預設值為 torch.finfo(DEFAULT_DTYPE).eps,其中 DEFAULT_DTYPE=torch.get_default_dtype()

  • reward_key (strtuple, optional) – 在輸入批次中尋找獎勵的索引鍵。預設值為 ("next", "reward")

範例

>>> reward_normalizer = RewardNormalizer()
>>> trainer.register_op("batch_process", reward_normalizer.update_reward_stats)
>>> trainer.register_op("process_optim_batch", reward_normalizer.normalize_reward)
register(trainer: Trainer, name: str = 'reward_normalizer')[原始碼]

在預設位置於訓練器中註冊 hook。

參數:
  • trainer (Trainer) – 必須註冊 hook 的訓練器。

  • name (str) – hook 的名稱。

注意

若要在預設位置以外的其他位置註冊 hook,請使用 register_op()

文件

取得 PyTorch 的完整開發人員文件

檢視文件

教學課程

取得針對初學者和進階開發人員的深入教學課程

檢視教學課程

資源

尋找開發資源並獲得問題解答

檢視資源