OrnsteinUhlenbeckProcessModule¶

class torchrl.modules.OrnsteinUhlenbeckProcessModule(*args, **kwargs)[來源]¶

Ornstein-Uhlenbeck 探索策略模組。

發表於 "CONTINUOUS CONTROL WITH DEEP REINFORCEMENT LEARNING", https://arxiv.org/pdf/1509.02971.pdf。

OU 探索用於連續控制策略，並引入自相關探索雜訊。這實現了一種「結構化」探索。

雜訊方程式

\[noise_t = noise_{t-1} + \theta * (mu - noise_{t-1}) * dt + \sigma_t * \sqrt{dt} * W\]

Sigma 方程式

\[\sigma_t = max(\sigma^{min, (-(\sigma_{t-1} - \sigma^{min}) / (n^{\text{steps annealing}}) * n^{\text{steps}} + \sigma))\]

為了追蹤樣本之間的步驟和雜訊，將在輸入/輸出 tensordict 中寫入 "ou_prev_noise{id}" 和 "ou_steps{id}" 鍵。預計 tensordict 將在重置時歸零，表示正在收集新的軌跡。如果不是，並且同一個 tensordict 用於連續的軌跡，則步驟計數將在整個 rollout 中持續增加。請注意，收集器類別負責在重置時歸零 tensordict。

注意

在訓練迴圈中加入對 step() 的呼叫以更新探索因子至關重要。由於不容易捕捉到這個遺漏，如果省略此步驟，不會引發警告或例外！

參數:

spec (TensorSpec) – 用於採樣動作的規格。採樣的動作將在探索後投影到有效的動作空間。
eps_init (純量) – 初始 epsilon 值，決定要添加的雜訊量。預設值：1.0
eps_end (純量) – 最終 epsilon 值，決定要添加的雜訊量。預設值：0.1
annealing_num_steps (int) – epsilon 達到 eps_end 值所需的步數。預設值：1000
theta (純量) – 雜訊方程式中的 theta 因子。預設值：0.15
mu (純量) – OU 平均值（雜訊方程式中的 mu）。預設值：0.0
sigma (純量) – sigma 方程式中的 sigma 值。預設值：0.2
dt (純量) – 雜訊方程式中的 dt。預設值：0.01
x0 (Tensor, ndarray, 選用) – 過程的初始值。預設值：0.0
sigma_min (數字, 選用) – sigma 方程式中的 sigma_min。預設值：None
n_steps_annealing (int) – sigma 退火的步數。預設值：1000

關鍵字參數:

action_key (NestedKey, 選用) – 要修改的動作的鍵。預設值：“action”
is_init_key (NestedKey, optional) – 尋找用於重置雜訊步數的 is_init 標記的鍵。預設值：“is_init”

範例

>>> import torch
>>> from tensordict import TensorDict
>>> from tensordict.nn import TensorDictSequential
>>> from torchrl.data import Bounded
>>> from torchrl.modules import OrnsteinUhlenbeckProcessModule, Actor
>>> torch.manual_seed(0)
>>> spec = Bounded(-1, 1, torch.Size([4]))
>>> module = torch.nn.Linear(4, 4, bias=False)
>>> policy = Actor(module=module, spec=spec)
>>> ou = OrnsteinUhlenbeckProcessModule(spec=spec)
>>> explorative_policy = TensorDictSequential(policy, ou)
>>> td = TensorDict({"observation": torch.zeros(10, 4)}, batch_size=[10])
>>> print(explorative_policy(td))
TensorDict(
    fields={
        _ou_prev_noise: Tensor(shape=torch.Size([10, 4]), device=cpu, dtype=torch.float32, is_shared=False),
        _ou_steps: Tensor(shape=torch.Size([10]), device=cpu, dtype=torch.int64, is_shared=False),
        action: Tensor(shape=torch.Size([10, 4]), device=cpu, dtype=torch.float32, is_shared=False),
        observation: Tensor(shape=torch.Size([10, 4]), device=cpu, dtype=torch.float32, is_shared=False)},
    batch_size=torch.Size([10]),
    device=None,
    is_shared=False)

forward(tensordict: TensorDictBase) → TensorDictBase[source]¶

定義每次呼叫時執行的計算。

應由所有子類別覆寫。

注意

雖然 forward pass 的方法需要在這個函數中定義，但應該呼叫 Module 實例，而不是這個函數，因為前者會處理已註冊的 hooks，而後者會靜默地忽略它們。

step(frames: int = 1) → None[source]¶

更新 eps 雜訊因子。

參數:: frames (int) – 當前批次的幀數（對應於要進行的更新次數）。

OrnsteinUhlenbeckProcessModule¶

文件

教學

資源