API 參考¶
- torchrl.collectors 套件
- torchrl.data 套件
- 重播緩衝區
- 可組合的重播緩衝區
- TorchRL Episode Data Format (TED)
- 資料集
- TensorSpec
- TensorSpec
- Binary
- Bounded
- Categorical
- Composite
- MultiCategorical
- MultiOneHot
- NonTensor
- Stacked
- StackedComposite
- Unbounded
- UnboundedContinuous
- UnboundedDiscrete
- BinaryDiscreteTensorSpec
- BoundedTensorSpec
- CompositeSpec
- DiscreteTensorSpec
- LazyStackedCompositeSpec
- LazyStackedTensorSpec
- MultiDiscreteTensorSpec
- MultiOneHotDiscreteTensorSpec
- NonTensorSpec
- OneHotDiscreteTensorSpec
- UnboundedContinuousTensorSpec
- UnboundedDiscreteTensorSpec
- 樹狀結構和森林
- 基於人類回饋的強化學習 (RLHF)
- Utils
- torchrl.envs 套件
- EnvBase
- GymLikeEnv
- EnvMetaData
- 向量化 envs
- 自定義原生 TorchRL 環境
- 多代理環境
- 自動重置 Envs
- 動態規格
- 轉換
- 具有遮罩動作的環境
- 記錄器
- 輔助程式
- 特定領域
- 函式庫
- BraxEnv
- BraxWrapper
- DMControlEnv
- DMControlWrapper
- GymEnv
- GymWrapper
- HabitatEnv
- IsaacGymEnv
- IsaacGymWrapper
- JumanjiEnv
- JumanjiWrapper
- MeltingpotEnv
- MeltingpotWrapper
- MOGymEnv
- MOGymWrapper
- MultiThreadedEnv
- MultiThreadedEnvWrapper (多執行緒環境封裝器)
- OpenMLEnv (OpenML 環境)
- OpenSpielWrapper (OpenSpiel 封裝器)
- OpenSpielEnv (OpenSpiel 環境)
- PettingZooEnv (PettingZoo 環境)
- PettingZooWrapper (PettingZoo 封裝器)
- RoboHiveEnv (RoboHive 環境)
- SMACv2Env (SMACv2 環境)
- SMACv2Wrapper (SMACv2 封裝器)
- UnityMLAgentsEnv (Unity ML-Agents 環境)
- UnityMLAgentsWrapper (Unity ML-Agents 封裝器)
- VmasEnv (Vmas 環境)
- VmasWrapper (Vmas 封裝器)
- gym_backend (gym 後端)
- set_gym_backend (設定 gym 後端)
- torchrl.modules 套件
- torchrl.objectives 套件
- torch.vmap and randomness (torch.vmap 與隨機性)
- Training value functions (訓練價值函數)
- DQN (深度 Q 網路)
- DDPG (深度確定性策略梯度)
- SAC (軟性演員評論家)
- REDQ (隨機集成雙 Q 函數)
- CrossQ (交叉 Q 函數)
- IQL (隱式 Q 學習)
- CQL (保守 Q 學習)
- GAIL (生成對抗模仿學習)
- DT (決策轉換器)
- TD3 (雙延遲深度確定性策略梯度)
- TD3+BC (TD3 + 行為克隆)
- PPO (近端策略最佳化)
- A2C (優勢演員評論家)
- Reinforce (REINFORCE)
- Dreamer (Dreamer 演算法)
- Multi-agent objectives (多代理目標)
- Returns (回報)
- ValueEstimatorBase (價值估計器基底)
- TD0Estimator (TD(0) 估計器)
- TD1Estimator (TD(1) 估計器)
- TDLambdaEstimator (TD(λ) 估計器)
- GAE (廣義優勢估計)
- td0_return_estimate (TD(0) 回報估計)
- td0_advantage_estimate (TD(0) 優勢估計)
- td1_return_estimate (TD(1) 回報估計)
- vec_td1_return_estimate (向量化 TD(1) 回報估計)
- td1_advantage_estimate (TD(1) 優勢估計)
- vec_td1_advantage_estimate (向量化 TD(1) 優勢估計)
- td_lambda_return_estimate (TD(λ) 回報估計)
- vec_td_lambda_return_estimate (向量化 TD(λ) 回報估計)
- td_lambda_advantage_estimate (TD(λ) 優勢估計)
- vec_td_lambda_advantage_estimate (向量化 TD(λ) 優勢估計)
- generalized_advantage_estimate (廣義優勢估計)
- vec_generalized_advantage_estimate (向量化廣義優勢估計)
- reward2go (未來獎勵)
- Utils
- torchrl.trainers 套件
- Checkpointing (檢查點)
- Trainer and hooks (訓練器與鉤子)
- Builders (建構器)
- make_collector_offpolicy (建立離線策略收集器)
- make_collector_onpolicy (建立線上策略收集器)
- make_dqn_loss (建立 DQN 損失)
- make_replay_buffer (建立回放緩衝區)
- make_target_updater (建立目標更新器)
- make_trainer (建立訓練器)
- parallel_env_constructor (平行環境建構子)
- sync_async_collector (同步非同步收集器)
- sync_sync_collector (同步同步收集器)
- transformed_env_constructor (轉換後環境建構子)
- Utils
- Loggers (紀錄器)
- Recording utils (錄製工具)
- torchrl._utils 套件