AdditiveGaussianWrapper¶
- class torchrl.modules.AdditiveGaussianWrapper(*args, **kwargs)[來源]¶
加性高斯 PO 包裝器。
- 參數:
policy (TensorDictModule) – 策略。
- 關鍵字參數:
sigma_init (純量, 選用) – 初始 epsilon 值。預設值:1.0
sigma_end (純量, 選用) – 最終 epsilon 值。預設值:0.1
annealing_num_steps (int, 選用) – sigma 達到
sigma_end
值所需的步驟數。mean (float, 選用) – 每個輸出元素的常態分佈的平均值。
std (float, 選用) – 每個輸出元素的常態分佈的標準差。
action_key (NestedKey, 選用) – 如果策略模組有多個輸出鍵,則其輸出規格將為 Composite 類型。需要知道在哪裡可以找到動作規格。預設值為 “action”。
spec (TensorSpec, 選用) – 如果提供,抽樣的動作將被投影到有效的動作空間上。如果未提供,探索包裝器將嘗試從策略中恢復它。
safe (boolean, 選用) – 如果為 False,則 TensorSpec 可以為 None。如果設定為 False 但傳遞了 spec,則仍然會進行投影。預設值為 True。
注意
一旦環境被包裝在
AdditiveGaussianWrapper
中,在訓練迴圈中加入對step()
的呼叫以更新探索因子至關重要。由於不容易捕捉到這種疏忽,因此如果省略,不會發出警告或例外!