DistributionalDQNnet¶

class torchrl.modules.DistributionalDQNnet(*args, **kwargs)[source]¶

Distributional Deep Q-Network softmax 層。

此層應介於預測動作值的常規模型和作用於 logits 值的分配之間使用。

參數:

in_keys (字串清單或字串元組) – 對 log-softmax 運算的輸入鍵。預設為 ["action_value"]。
out_keys (字串清單或字串元組) – 對 log-softmax 運算的輸出鍵。預設為 ["action_value"]。

範例

>>> import torch
>>> from tensordict import TensorDict
>>> net = DistributionalDQNnet()
>>> td = TensorDict({"action_value": torch.randn(10, 5)}, batch_size=[10])
>>> net(td)
TensorDict(
    fields={
        action_value: Tensor(shape=torch.Size([10, 5]), device=cpu, dtype=torch.float32, is_shared=False)},
    batch_size=torch.Size([10]),
    device=None,
    is_shared=False)

forward(tensordict=None)[source]¶

定義每次呼叫時執行的計算。

應該由所有子類別覆寫。

注意

雖然 forward pass 的配方需要在這個函數中定義，但應該在之後呼叫 Module 實例，而不是這個函數，因為前者會處理已註冊的 hooks 的執行，而後者會靜默地忽略它們。

DistributionalDQNnet¶

文件

教學

資源