RewardScaling¶
- class torchrl.envs.transforms.RewardScaling(loc: Union[float, Tensor], scale: Union[float, Tensor], in_keys: Optional[Sequence[NestedKey]] = None, out_keys: Optional[Sequence[NestedKey]] = None, standard_normal: bool = False)[原始碼]¶
獎勵的仿射轉換。
獎勵會根據以下公式進行轉換
\[reward = reward * scale + loc\]- 參數:
loc (數字 或 torch.Tensor) – 仿射轉換的位置
scale (數字 或 torch.Tensor) – 仿射轉換的縮放
standard_normal (bool, optional) –
如果
True
,則轉換將為\[reward = (reward-loc)/scale\]如同標準化一樣。預設值為 False。
- transform_reward_spec(reward_spec: TensorSpec) TensorSpec [source]¶
轉換獎勵規格 (reward spec),使產生的規格與轉換映射 (transform mapping) 相符。
- 參數:
reward_spec (TensorSpec) – 轉換前的規格
- 返回:
轉換後預期的規格