捷徑

DistributionalDQNnet

class torchrl.modules.DistributionalDQNnet(*args, **kwargs)[source]

Distributional Deep Q-Network softmax 層。

此層應介於預測動作值的常規模型和作用於 logits 值的分配之間使用。

參數:
  • in_keys (字串清單字串元組) – 對 log-softmax 運算的輸入鍵。預設為 ["action_value"]

  • out_keys (字串清單字串元組) – 對 log-softmax 運算的輸出鍵。預設為 ["action_value"]

範例

>>> import torch
>>> from tensordict import TensorDict
>>> net = DistributionalDQNnet()
>>> td = TensorDict({"action_value": torch.randn(10, 5)}, batch_size=[10])
>>> net(td)
TensorDict(
    fields={
        action_value: Tensor(shape=torch.Size([10, 5]), device=cpu, dtype=torch.float32, is_shared=False)},
    batch_size=torch.Size([10]),
    device=None,
    is_shared=False)
forward(tensordict=None)[source]

定義每次呼叫時執行的計算。

應該由所有子類別覆寫。

注意

雖然 forward pass 的配方需要在這個函數中定義,但應該在之後呼叫 Module 實例,而不是這個函數,因為前者會處理已註冊的 hooks 的執行,而後者會靜默地忽略它們。

文件

取得 PyTorch 的完整開發者文件

檢視文件

教學

取得初學者和進階開發者的深入教學

檢視教學

資源

尋找開發資源並獲得解答

檢視資源