快捷方式

td0_return_estimate

class torchrl.objectives.value.functional.td0_return_estimate(gamma: float, next_state_value: Tensor, reward: Tensor, terminated: Optional[Tensor] = None, *, done: Optional[Tensor] = None)[source]

軌跡的 TD(0) 折扣回報估計。

也稱為啟動引導的時間差分或單步回報。

參數:
  • gamma (純量) – 指數平均折扣。

  • next_state_value (Tensor) – 具有 new_state 輸入的值函數結果。必須是 [Batch x TimeSteps x 1] 或 [Batch x TimeSteps] tensor

  • reward (Tensor) – 環境中採取動作的回報。必須是 [Batch x TimeSteps x 1] 或 [Batch x TimeSteps] tensor

  • terminated (Tensor) – 劇集結束的布林標誌。如果未提供,則預設為 done

關鍵字引數:

done (Tensor) – 已棄用。請改用 terminated

所有 tensors (值、回報和完成) 必須具有形狀 [*Batch x TimeSteps x *F],其中 *F 是特徵維度。

文件

取得 PyTorch 完整的開發者文件

檢視文件

教學

取得為初學者和進階開發者提供的深度教學

檢視教學

資源

尋找開發資源並取得問題解答

檢視資源