AdditiveGaussianWrapper¶

class torchrl.modules.AdditiveGaussianWrapper(*args, **kwargs)[來源]¶

加性高斯 PO 包裝器。

參數:

policy (TensorDictModule) – 策略。

關鍵字參數:

sigma_init (純量, 選用) – 初始 epsilon 值。預設值：1.0
sigma_end (純量, 選用) – 最終 epsilon 值。預設值：0.1
annealing_num_steps (int, 選用) – sigma 達到 sigma_end 值所需的步驟數。
mean (float, 選用) – 每個輸出元素的常態分佈的平均值。
std (float, 選用) – 每個輸出元素的常態分佈的標準差。
action_key (NestedKey, 選用) – 如果策略模組有多個輸出鍵，則其輸出規格將為 Composite 類型。需要知道在哪裡可以找到動作規格。預設值為 “action”。
spec (TensorSpec, 選用) – 如果提供，抽樣的動作將被投影到有效的動作空間上。如果未提供，探索包裝器將嘗試從策略中恢復它。
safe (boolean, 選用) – 如果為 False，則 TensorSpec 可以為 None。如果設定為 False 但傳遞了 spec，則仍然會進行投影。預設值為 True。

注意

一旦環境被包裝在 AdditiveGaussianWrapper 中，在訓練迴圈中加入對 step() 的呼叫以更新探索因子至關重要。由於不容易捕捉到這種疏忽，因此如果省略，不會發出警告或例外！

forward(tensordict: TensorDictBase) → TensorDictBase[來源]¶

定義每次呼叫時執行的計算。

應由所有子類別覆寫。

注意

雖然前向傳遞的步驟需要在這個函數中定義，但應該在之後呼叫 Module 實例，而不是呼叫這個函數，因為前者會處理已註冊的鉤子，而後者會靜默地忽略它們。

step(frames: int = 1) → None[source]¶

Sigma 衰減的一個步驟。

在 self.annealing_num_steps 之後，此函數不執行任何操作。

文件