RewardClipping¶
- class torchrl.envs.transforms.RewardClipping(clamp_min: Optional[float] = None, clamp_max: Optional[float] = None, in_keys: Optional[Sequence[NestedKey]] = None, out_keys: Optional[Sequence[NestedKey]] = None)[source]¶
將獎勵值限制在 clamp_min 和 clamp_max 之間。
- 參數:
clip_min (scalar) – 結果獎勵值的最小值。
clip_max (scalar) – 結果獎勵值的最大值。
- transform_reward_spec(reward_spec: TensorSpec) TensorSpec [source]¶
轉換獎勵規格,使結果規格符合轉換映射。
- 參數:
reward_spec (TensorSpec) – 轉換前的規格
- 返回:
轉換後預期的規格