td0_return_estimate¶
- class torchrl.objectives.value.functional.td0_return_estimate(gamma: float, next_state_value: Tensor, reward: Tensor, terminated: Optional[Tensor] = None, *, done: Optional[Tensor] = None)[source]¶
軌跡的 TD(0) 折扣回報估計。
也稱為啟動引導的時間差分或單步回報。
- 參數:
gamma (純量) – 指數平均折扣。
next_state_value (Tensor) – 具有 new_state 輸入的值函數結果。必須是 [Batch x TimeSteps x 1] 或 [Batch x TimeSteps] tensor
reward (Tensor) – 環境中採取動作的回報。必須是 [Batch x TimeSteps x 1] 或 [Batch x TimeSteps] tensor
terminated (Tensor) – 劇集結束的布林標誌。如果未提供,則預設為
done
。
- 關鍵字引數:
done (Tensor) – 已棄用。請改用
terminated
。
所有 tensors (值、回報和完成) 必須具有形狀
[*Batch x TimeSteps x *F]
,其中*F
是特徵維度。