捷徑

AdditiveGaussianWrapper

class torchrl.modules.AdditiveGaussianWrapper(*args, **kwargs)[來源]

加性高斯 PO 包裝器。

參數:

policy (TensorDictModule) – 策略。

關鍵字參數:
  • sigma_init (純量, 選用) – 初始 epsilon 值。預設值:1.0

  • sigma_end (純量, 選用) – 最終 epsilon 值。預設值:0.1

  • annealing_num_steps (int, 選用) – sigma 達到 sigma_end 值所需的步驟數。

  • mean (float, 選用) – 每個輸出元素的常態分佈的平均值。

  • std (float, 選用) – 每個輸出元素的常態分佈的標準差。

  • action_key (NestedKey, 選用) – 如果策略模組有多個輸出鍵,則其輸出規格將為 Composite 類型。需要知道在哪裡可以找到動作規格。預設值為 “action”。

  • spec (TensorSpec, 選用) – 如果提供,抽樣的動作將被投影到有效的動作空間上。如果未提供,探索包裝器將嘗試從策略中恢復它。

  • safe (boolean, 選用) – 如果為 False,則 TensorSpec 可以為 None。如果設定為 False 但傳遞了 spec,則仍然會進行投影。預設值為 True。

注意

一旦環境被包裝在 AdditiveGaussianWrapper 中,在訓練迴圈中加入對 step() 的呼叫以更新探索因子至關重要。由於不容易捕捉到這種疏忽,因此如果省略,不會發出警告或例外!

forward(tensordict: TensorDictBase) TensorDictBase[來源]

定義每次呼叫時執行的計算。

應由所有子類別覆寫。

注意

雖然前向傳遞的步驟需要在這個函數中定義,但應該在之後呼叫 Module 實例,而不是呼叫這個函數,因為前者會處理已註冊的鉤子,而後者會靜默地忽略它們。

step(frames: int = 1) None[source]

Sigma 衰減的一個步驟。

在 self.annealing_num_steps 之後,此函數不執行任何操作。

參數:

frames (int) – 自上次步驟以來的幀數。

文件

存取 PyTorch 的全面開發者文件

檢視文件

教學

取得適用於初學者和進階開發者的深入教學

檢視教學

資源

尋找開發資源並取得您問題的解答

檢視資源