捷徑

RewardScaling

class torchrl.envs.transforms.RewardScaling(loc: Union[float, Tensor], scale: Union[float, Tensor], in_keys: Optional[Sequence[NestedKey]] = None, out_keys: Optional[Sequence[NestedKey]] = None, standard_normal: bool = False)[原始碼]

獎勵的仿射轉換。

獎勵會根據以下公式進行轉換

\[reward = reward * scale + loc\]
參數:
  • loc (數字torch.Tensor) – 仿射轉換的位置

  • scale (數字torch.Tensor) – 仿射轉換的縮放

  • standard_normal (bool, optional) –

    如果 True,則轉換將為

    \[reward = (reward-loc)/scale\]

    如同標準化一樣。預設值為 False

transform_reward_spec(reward_spec: TensorSpec) TensorSpec[source]

轉換獎勵規格 (reward spec),使產生的規格與轉換映射 (transform mapping) 相符。

參數:

reward_spec (TensorSpec) – 轉換前的規格

返回:

轉換後預期的規格

文件

存取 PyTorch 的全面開發人員文件

檢視文件

教學課程

取得初學者和進階開發人員的深入教學課程

檢視教學課程

資源

尋找開發資源並獲得您問題的解答

檢視資源