捷徑

AdditiveGaussianModule

class torchrl.modules.AdditiveGaussianModule(*args, **kwargs)[source]

加性高斯 PO 模組。

參數:
  • spec (TensorSpec) – 用於取樣動作的 spec。取樣的動作將在探索後投影到有效的動作空間上。

  • sigma_init (純量, 可選) – 初始 epsilon 值。預設值:1.0

  • sigma_end (純量, 可選) – 最終 epsilon 值。預設值:0.1

  • annealing_num_steps (int, 可選) – sigma 達到 sigma_end 值的步數。預設值:1000

  • mean (float, 可選) – 每個輸出元素常態分佈的平均值。預設值:0.0

  • std (float, 可選) – 每個輸出元素常態分佈的標準差。預設值:1.0

關鍵字參數:

action_key (NestedKey, 可選) – 如果策略模組有多個輸出鍵,則其輸出 spec 將為 Composite 類型。需要知道在哪裡可以找到動作 spec。預設值:“action”

注意

在訓練迴圈中加入對 step() 的呼叫以更新探索因子至關重要。由於不容易捕捉到這個遺漏,如果省略了它,將不會引發任何警告或異常!

forward(tensordict: TensorDictBase) TensorDictBase[source]

定義每次呼叫時執行的計算。

應由所有子類別覆寫。

注意

雖然正向傳遞 (forward pass) 的步驟需要在這個函式中定義,但應該在之後呼叫 Module 實例,而不是呼叫這個函式,因為前者會處理已註冊的 hook,而後者會默默地忽略它們。

step(frames: int = 1) None[source]

Sigma 衰減的一個步驟。

在呼叫此方法 self.annealing_num_steps 次後,後續呼叫將不執行任何操作 (no-op)。

參數:

frames (int) – 自上次步驟以來的 frame 數量。預設值為 1

文件

存取 PyTorch 的完整開發者文件

檢視文件

教學課程

取得適合初學者和進階開發者的深入教學課程

檢視教學課程

資源

尋找開發資源並獲得您問題的解答

檢視資源