捷徑

OnlineDTLoss

class torchrl.objectives.OnlineDTLoss(*args, **kwargs)[source]

Online Decision Transformer 損失的 TorchRL 實作。

“Online Decision Transformer” <https://arxiv.org/abs/2202.05607> 中呈現

參數:

actor_network (ProbabilisticActor) – 隨機 actor

關鍵字引數:
  • alpha_init (float, optional) – 初始熵乘數。預設值為 1.0。

  • min_alpha (float, optional) – alpha 的最小值。預設值為 None (無最小值)。

  • max_alpha (float, optional) – alpha 的最大值。預設值為 None (無最大值)。

  • fixed_alpha (bool, optional) – 如果 True,alpha 將被固定在其初始值。否則,alpha 將被優化以匹配 'target_entropy' 值。預設值為 False

  • target_entropy (float or str, optional) – 隨機策略的目標熵。預設值為 “auto”,其中目標熵計算為 -prod(n_actions)

  • samples_mc_entropy (int) – 用於估計熵的樣本數

  • reduction (str, optional) – 指定要應用於輸出的縮減:"none" | "mean" | "sum""none":不應用縮減,"mean":輸出的總和將除以輸出中的元素數量,"sum":輸出將被加總。預設值:"mean"

forward(tensordict: TensorDictBase = None) TensorDictBase[原始碼]

計算 Online Decision Transformer 的損失。

文件

取得 PyTorch 的完整開發者文件

檢視文件

教學

取得適合初學者和進階開發人員的深入教學

檢視教學

資源

尋找開發資源並取得問題解答

檢視資源