AveragedModel¶
- class torch.optim.swa_utils.AveragedModel(model, device=None, avg_fn=None, multi_avg_fn=None, use_buffers=False)[原始碼][原始碼]¶
實作隨機權重平均 (Stochastic Weight Averaging, SWA) 和指數移動平均 (Exponential Moving Average, EMA) 的平均模型。
隨機權重平均是由 Pavel Izmailov、Dmitrii Podoprikhin、Timur Garipov、Dmitry Vetrov 和 Andrew Gordon Wilson 在 Averaging Weights Leads to Wider Optima and Better Generalization (UAI 2018) 中提出的。
指數移動平均是 Polyak 平均 的一種變體,但使用指數權重而不是跨迭代的相等權重。
AveragedModel 類別會在
device
裝置上建立所提供模組model
的副本,並允許計算model
參數的運行平均值。- 參數
model (torch.nn.Module) – 用於 SWA/EMA 的模型
device (torch.device, optional) – 如果提供,平均模型將儲存在
device
上avg_fn (function, optional) – 用於更新參數的平均函數;該函數必須接收
AveragedModel
參數的目前值、model
參數的目前值,以及已平均的模型數量;如果為 None,則使用等權平均 (預設:None)multi_avg_fn (function, optional) – 用於原地更新參數的平均函數;該函數必須接收
AveragedModel
參數的目前值 (作為列表)、model
參數的目前值 (作為列表),以及已平均的模型數量;如果為 None,則使用等權平均 (預設:None)use_buffers (bool) – 如果為
True
,它將計算模型參數和緩衝區 (buffers) 的運行平均值。(預設:False
)
範例
>>> loader, optimizer, model, loss_fn = ... >>> swa_model = torch.optim.swa_utils.AveragedModel(model) >>> scheduler = torch.optim.lr_scheduler.CosineAnnealingLR(optimizer, >>> T_max=300) >>> swa_start = 160 >>> swa_scheduler = SWALR(optimizer, swa_lr=0.05) >>> for i in range(300): >>> for input, target in loader: >>> optimizer.zero_grad() >>> loss_fn(model(input), target).backward() >>> optimizer.step() >>> if i > swa_start: >>> swa_model.update_parameters(model) >>> swa_scheduler.step() >>> else: >>> scheduler.step() >>> >>> # Update bn statistics for the swa_model at the end >>> torch.optim.swa_utils.update_bn(loader, swa_model)
您也可以使用 avg_fn 或 multi_avg_fn 參數來自訂平均函數。如果未提供平均函數,則預設為計算權重的等權平均 (SWA)。
範例
>>> # Compute exponential moving averages of the weights and buffers >>> ema_model = torch.optim.swa_utils.AveragedModel(model, >>> torch.optim.swa_utils.get_ema_multi_avg_fn(0.9), use_buffers=True)
注意
當將 SWA/EMA 與包含批次正規化 (Batch Normalization) 的模型一起使用時,您可能需要更新批次正規化的激活統計資訊。可以透過使用
torch.optim.swa_utils.update_bn()
或將use_buffers
設定為 True 來完成。第一種方法透過傳遞資料通過模型,在訓練後步驟中更新統計資訊。第二種方法則在參數更新階段透過平均所有緩衝區來完成。經驗證據表明,更新正規化層中的統計資訊可以提高準確性,但您可能希望透過實驗測試哪種方法在您的問題中產生最佳結果。注意
avg_fn
和 multi_avg_fn 不會儲存在模型的state_dict()
中。注意
當第一次調用
update_parameters()
時 (即n_averaged
為 0),model 的參數會複製到AveragedModel
的參數。對於每次後續調用update_parameters()
,都將使用函數 avg_fn 來更新參數。- apply(fn)[原始碼]¶
將
fn
遞迴地應用於每個子模組 (由.children()
返回) 以及自身。典型的用途包括初始化模型的參數 (另請參閱 torch.nn.init)。
- 參數
fn (
Module
-> None) – 要應用於每個子模組的函數- 返回
self
- 返回類型
範例
>>> @torch.no_grad() >>> def init_weights(m): >>> print(m) >>> if type(m) == nn.Linear: >>> m.weight.fill_(1.0) >>> print(m.weight) >>> net = nn.Sequential(nn.Linear(2, 2), nn.Linear(2, 2)) >>> net.apply(init_weights) Linear(in_features=2, out_features=2, bias=True) Parameter containing: tensor([[1., 1.], [1., 1.]], requires_grad=True) Linear(in_features=2, out_features=2, bias=True) Parameter containing: tensor([[1., 1.], [1., 1.]], requires_grad=True) Sequential( (0): Linear(in_features=2, out_features=2, bias=True) (1): Linear(in_features=2, out_features=2, bias=True) )
- buffers(recurse=True)[原始碼]¶
返回模組緩衝區的迭代器。
- 參數
recurse (bool) – 如果為 True,則產生此模組和所有子模組的緩衝區。 否則,僅產生作為此模組直接成員的緩衝區。
- 產生
torch.Tensor – 模組緩衝區
- 返回類型
範例
>>> for buf in model.buffers(): >>> print(type(buf), buf.size()) <class 'torch.Tensor'> (20L,) <class 'torch.Tensor'> (20L, 1L, 5L, 5L)
- compile(*args, **kwargs)[原始碼]¶
使用
torch.compile()
編譯此模組的 forward。此模組的 __call__ 方法會被編譯,並且所有引數都會原封不動地傳遞給
torch.compile()
。有關此函數的引數的詳細資訊,請參閱
torch.compile()
。
- cuda(device=None)[原始碼]¶
將所有模型參數和緩衝區移動到 GPU。
這也會使相關的參數和緩衝區成為不同的物件。 因此,如果模組在優化時將駐留在 GPU 上,則應在建構優化器之前呼叫此方法。
注意
此方法會就地修改模組。
- eval()[原始碼]¶
將模組設定為評估模式。
這僅對某些模組有效。 有關它們在訓練/評估模式下的行為的詳細資訊,請參閱特定模組的文件,例如,它們是否受到影響,例如
Dropout
、BatchNorm
等。這與
self.train(False)
等效。有關 .eval() 與幾種可能與之混淆的類似機制之間的比較,請參閱在本機停用梯度計算。
- 返回
self
- 返回類型
- get_buffer(target)[原始碼]¶
如果存在,則返回由
target
給定的緩衝區,否則拋出錯誤。有關此方法的功能以及如何正確指定
target
的更詳細說明,請參閱get_submodule
的說明文字。- 參數
target (str) – 要尋找的緩衝區的完整字串名稱。 (有關如何指定完整字串,請參閱
get_submodule
。)- 返回
由
target
引用的緩衝區- 返回類型
- 引發
AttributeError – 如果目標字串參照到無效的路徑,或解析結果不是 buffer,則會引發此錯誤。
- get_extra_state()[source]¶
傳回要包含在模組的 state_dict 中的任何額外狀態。
如果您需要儲存額外狀態,請實作此方法以及對應的
set_extra_state()
給您的模組。此函數會在建構模組的 state_dict() 時被呼叫。請注意,額外狀態應該是可 pickle 的,以確保 state_dict 的序列化能夠正常運作。 我們只提供 Tensor 序列化的向後相容性保證;如果其他物件的序列化 pickle 形式發生變化,則可能會破壞向後相容性。
- 返回
要儲存在模組的 state_dict 中的任何額外狀態
- 返回類型
- get_parameter(target)[source]¶
如果存在
target
指定的參數,則傳回該參數,否則拋出錯誤。有關此方法的功能以及如何正確指定
target
的更詳細說明,請參閱get_submodule
的說明文字。- 參數
target (str) – 要尋找的 Parameter 的完整字串名稱。(請參閱
get_submodule
以了解如何指定完整字串。)- 返回
由
target
參照的 Parameter- 返回類型
torch.nn.Parameter
- 引發
AttributeError – 如果目標字串參照到無效的路徑,或解析結果不是
nn.Parameter
,則會引發此錯誤。
- get_submodule(target)[source]¶
如果存在
target
指定的子模組,則傳回該子模組,否則拋出錯誤。例如,假設您有一個
nn.Module
A
,如下所示:A( (net_b): Module( (net_c): Module( (conv): Conv2d(16, 33, kernel_size=(3, 3), stride=(2, 2)) ) (linear): Linear(in_features=100, out_features=200, bias=True) ) )
(該圖顯示一個
nn.Module
A
。A
有一個巢狀子模組net_b
,而它本身又有兩個子模組net_c
和linear
。net_c
然後又有一個子模組conv
。)要檢查我們是否具有
linear
子模組,我們將呼叫get_submodule("net_b.linear")
。 要檢查我們是否具有conv
子模組,我們將呼叫get_submodule("net_b.net_c.conv")
。get_submodule
的執行時間受限於target
中模組巢狀結構的程度。針對named_modules
的查詢可以達到相同的結果,但它在過渡模組的數量上是 O(N)。因此,對於檢查某些子模組是否存在的簡單檢查,應始終使用get_submodule
。- 參數
target (str) – 要尋找的子模組的完整字串名稱。(有關如何指定完整字串,請參閱上面的範例。)
- 返回
由
target
參照的子模組- 返回類型
- 引發
AttributeError – 如果目標字串參照到無效的路徑,或解析結果不是
nn.Module
,則會引發此錯誤。
- ipu(device=None)[source]¶
將所有模型參數和緩衝區移動到 IPU。
這也會使關聯的參數和緩衝區成為不同的物件。 因此,如果模組在最佳化時將位於 IPU 上,則應在建構最佳化器之前呼叫此方法。
注意
此方法會就地修改模組。
- load_state_dict(state_dict, strict=True, assign=False)[source]¶
將參數和緩衝區從
state_dict
複製到此模組及其後代。如果
strict
為True
,則state_dict
的鍵必須與此模組的state_dict()
函數傳回的鍵完全匹配。警告
如果
assign
為True
,除非get_swap_module_params_on_conversion()
為True
,否則必須在呼叫load_state_dict
之後建立最佳化器。- 參數
state_dict (dict) – 包含參數和持久緩衝區的字典。
strict (bool, optional) – 是否嚴格要求
state_dict
中的鍵與此模組的state_dict()
函數傳回的鍵匹配。預設值:True
assign (bool, optional) – 當設定為
False
時,保留目前模組中張量的屬性,而設定為True
則保留 state dict 中張量的屬性。唯一的例外是requires_grad
欄位預設值: ``False`
- 返回
- missing_keys 是一個 str 列表,包含此模組預期但提供的
state_dict
中缺少的任何鍵。 此模組預期但提供的
state_dict
中缺少的任何鍵。
- missing_keys 是一個 str 列表,包含此模組預期但提供的
- unexpected_keys 是一個 str 列表,包含此模組不預期但存在於提供的
state_dict
中的鍵。 此模組不預期但存在於提供的
state_dict
中的鍵。
- unexpected_keys 是一個 str 列表,包含此模組不預期但存在於提供的
- 返回類型
具有
missing_keys
和unexpected_keys
欄位的NamedTuple
注意
如果參數或緩衝區註冊為
None
並且其對應的鍵存在於state_dict
中,則load_state_dict()
將引發RuntimeError
。
- modules()[source]¶
傳回網路中所有模組的迭代器。
注意
重複的模組只會傳回一次。在以下範例中,
l
只會傳回一次。範例
>>> l = nn.Linear(2, 2) >>> net = nn.Sequential(l, l) >>> for idx, m in enumerate(net.modules()): ... print(idx, '->', m) 0 -> Sequential( (0): Linear(in_features=2, out_features=2, bias=True) (1): Linear(in_features=2, out_features=2, bias=True) ) 1 -> Linear(in_features=2, out_features=2, bias=True)
- mtia(device=None)[source]¶
將所有模型參數和緩衝區移動到 MTIA。
這也會使相關聯的參數和緩衝區成為不同的物件。因此,如果模組將在 MTIA 上存在並進行最佳化,則應在建構最佳化器之前呼叫它。
注意
此方法會就地修改模組。
- named_buffers(prefix='', recurse=True, remove_duplicate=True)[source]¶
傳回模組緩衝區的迭代器,同時產生緩衝區的名稱以及緩衝區本身。
- 參數
- 產生
(str, torch.Tensor) – 包含名稱和緩衝區的 Tuple
- 返回類型
範例
>>> for name, buf in self.named_buffers(): >>> if name in ['running_var']: >>> print(buf.size())
- named_children()[原始碼]¶
傳回一個迭代器,用於遍歷直接子模組,同時產生模組的名稱和模組本身。
範例
>>> for name, module in model.named_children(): >>> if name in ['conv4', 'conv5']: >>> print(module)
- named_modules(memo=None, prefix='', remove_duplicate=True)[原始碼]¶
傳回一個迭代器,用於遍歷網路中的所有模組,同時產生模組的名稱和模組本身。
- 參數
- 產生
(str, Module) – 名稱和模組的元組
注意
重複的模組只會傳回一次。在以下範例中,
l
只會傳回一次。範例
>>> l = nn.Linear(2, 2) >>> net = nn.Sequential(l, l) >>> for idx, m in enumerate(net.named_modules()): ... print(idx, '->', m) 0 -> ('', Sequential( (0): Linear(in_features=2, out_features=2, bias=True) (1): Linear(in_features=2, out_features=2, bias=True) )) 1 -> ('0', Linear(in_features=2, out_features=2, bias=True))
- named_parameters(prefix='', recurse=True, remove_duplicate=True)[原始碼]¶
傳回一個迭代器,用於遍歷模組參數,同時產生參數的名稱和參數本身。
- 參數
- 產生
(str, Parameter) – 包含名稱和參數的元組
- 返回類型
範例
>>> for name, param in self.named_parameters(): >>> if name in ['bias']: >>> print(param.size())
- parameters(recurse=True)[原始碼]¶
傳回一個迭代器,用於遍歷模組參數。
這通常傳遞給優化器。
- 參數
recurse (bool) – 如果為 True,則產生此模組和所有子模組的參數。 否則,僅產生作為此模組直接成員的參數。
- 產生
Parameter – 模組參數
- 返回類型
範例
>>> for param in model.parameters(): >>> print(type(param), param.size()) <class 'torch.Tensor'> (20L,) <class 'torch.Tensor'> (20L, 1L, 5L, 5L)
- register_backward_hook(hook)[原始碼]¶
在模組上註冊一個反向鉤子。
此函數已被棄用,建議使用
register_full_backward_hook()
,並且此函數的行為將在未來版本中更改。- 返回
一個控制代碼,可用於通過調用
handle.remove()
來移除新增的鉤子- 返回類型
torch.utils.hooks.RemovableHandle
- register_buffer(name, tensor, persistent=True)[原始碼]¶
將緩衝區新增到模組。
這通常用於註冊不應被視為模型參數的緩衝區。 例如,BatchNorm 的
running_mean
不是參數,但它是模組狀態的一部分。 預設情況下,緩衝區是持久的,並且將與參數一起保存。 可以通過將persistent
設定為False
來更改此行為。 持久緩衝區和非持久緩衝區之間的唯一區別是後者不會成為此模組的state_dict
的一部分。可以使用給定的名稱作為屬性來存取緩衝區。
- 參數
name (str) – 緩衝區的名稱。 可以使用給定的名稱從此模組存取緩衝區
tensor (Tensor 或 None) – 要註冊的緩衝區。 如果
None
,則忽略在緩衝區上運行的操作,例如cuda
。 如果None
,則緩衝區不包含在模組的state_dict
中。persistent ( bool ) – 指出 buffer 是否為此模組
state_dict
的一部分。
範例
>>> self.register_buffer('running_mean', torch.zeros(num_features))
- register_forward_hook(hook, *, prepend=False, with_kwargs=False, always_call=False)[source]¶
在此模組上註冊一個 forward hook。
每次
forward()
計算出一個輸出後,都會呼叫此 hook。如果
with_kwargs
是False
或未指定,則輸入僅包含傳遞給模組的位置引數。 關鍵字引數將不會傳遞給 hook,而只會傳遞給forward
。 此 hook 可以修改輸出。 它可以就地修改輸入,但由於這是forward()
呼叫後才呼叫,因此不會對 forward 產生影響。 hook 應具有以下簽名:hook(module, args, output) -> None or modified output
如果
with_kwargs
是True
,則 forward hook 將會傳遞給 forward 函式的kwargs
,並且預期會傳回可能已修改的輸出。 hook 應具有以下簽名:hook(module, args, kwargs, output) -> None or modified output
- 參數
hook (Callable) – 要註冊的使用者定義 hook。
prepend ( bool ) – 如果為
True
,則提供的hook
將在此torch.nn.modules.Module
上所有現有的forward
hook 之前觸發。 否則,提供的hook
將在此torch.nn.modules.Module
上所有現有的forward
hook 之後觸發。 請注意,以register_module_forward_hook()
註冊的全域forward
hook 將會在以此方法註冊的所有 hook 之前觸發。 預設值:False
with_kwargs ( bool ) – 如果為
True
,則hook
將會傳遞給 forward 函式的 kwargs。 預設值:False
always_call ( bool ) – 如果為
True
,則無論在呼叫 Module 時是否引發例外,都會執行hook
。 預設值:False
- 返回
一個控制代碼,可用於通過調用
handle.remove()
來移除新增的鉤子- 返回類型
torch.utils.hooks.RemovableHandle
- register_forward_pre_hook(hook, *, prepend=False, with_kwargs=False)[source]¶
在此模組上註冊一個 forward pre-hook。
每次呼叫
forward()
之前,都會呼叫此 hook。如果
with_kwargs
為 false 或未指定,則輸入僅包含傳遞給模組的位置引數。 關鍵字引數將不會傳遞給 hook,而只會傳遞給forward
。 此 hook 可以修改輸入。 使用者可以在 hook 中傳回元組或單個修改後的值。 如果傳回單個值(除非該值已為元組),我們將把該值包裝到元組中。 hook 應具有以下簽名:hook(module, args) -> None or modified input
如果
with_kwargs
為 true,則 forward pre-hook 將會傳遞給 forward 函式的 kwargs。 並且如果 hook 修改了輸入,則應傳回 args 和 kwargs。 hook 應具有以下簽名:hook(module, args, kwargs) -> None or a tuple of modified input and kwargs
- 參數
hook (Callable) – 要註冊的使用者定義 hook。
prepend ( bool ) – 如果為 true,則提供的
hook
將在此torch.nn.modules.Module
上所有現有的forward_pre
hook 之前觸發。 否則,提供的hook
將在此torch.nn.modules.Module
上所有現有的forward_pre
hook 之後觸發。 請注意,以register_module_forward_pre_hook()
註冊的全域forward_pre
hook 將會在以此方法註冊的所有 hook 之前觸發。 預設值:False
with_kwargs ( bool ) – 如果為 true,則
hook
將會傳遞給 forward 函式的 kwargs。 預設值:False
- 返回
一個控制代碼,可用於通過調用
handle.remove()
來移除新增的鉤子- 返回類型
torch.utils.hooks.RemovableHandle
- register_full_backward_hook(hook, prepend=False)[原始碼]¶
在模組上註冊一個反向鉤子。
每次計算模組的梯度時,都會呼叫這個 hook,也就是說,只有在計算模組輸出的梯度時,才會執行這個 hook。這個 hook 應該具有以下簽名:
hook(module, grad_input, grad_output) -> tuple(Tensor) or None
grad_input
和grad_output
是包含輸入和輸出梯度的元組。這個 hook 不應該修改它的參數,但它可以選擇性地返回一個相對於輸入的新梯度,這個新梯度將會取代grad_input
用於後續的計算。grad_input
只會對應到以位置參數形式給定的輸入,而所有 keyword arguments 都會被忽略。對於所有非 Tensor 參數,grad_input
和grad_output
中的條目將會是None
。由於技術上的原因,當這個 hook 應用到一個 Module 時,它的 forward 函數會接收到傳遞給這個 Module 的每個 Tensor 的一個 view。同樣地,呼叫者也會接收到這個 Module 的 forward 函數返回的每個 Tensor 的一個 view。
警告
當使用 backward hooks 時,不允許就地修改輸入或輸出,否則會引發錯誤。
- 參數
hook (Callable) – 要註冊的用戶定義 hook。
prepend (bool) – 如果為 true,提供的
hook
將會在所有現有的backward
hooks 之前觸發。否則,提供的hook
將會在這個torch.nn.modules.Module
上的所有現有的backward
hooks 之後觸發。請注意,使用register_module_full_backward_hook()
註冊的全域backward
hooks 將會在所有通過這個方法註冊的 hooks 之前觸發。
- 返回
一個控制代碼,可用於通過調用
handle.remove()
來移除新增的鉤子- 返回類型
torch.utils.hooks.RemovableHandle
- register_full_backward_pre_hook(hook, prepend=False)[原始碼]¶
在這個模組上註冊一個 backward pre-hook。
每次計算模組的梯度時,都會呼叫這個 hook。這個 hook 應該具有以下簽名:
hook(module, grad_output) -> tuple[Tensor] or None
grad_output
是一個元組。這個 hook 不應該修改它的參數,但它可以選擇性地返回一個相對於輸出的新梯度,這個新梯度將會取代grad_output
用於後續的計算。對於所有非 Tensor 參數,grad_output
中的條目將會是None
。由於技術上的原因,當這個 hook 應用到一個 Module 時,它的 forward 函數會接收到傳遞給這個 Module 的每個 Tensor 的一個 view。同樣地,呼叫者也會接收到這個 Module 的 forward 函數返回的每個 Tensor 的一個 view。
警告
當使用 backward hooks 時,不允許就地修改輸入,否則會引發錯誤。
- 參數
hook (Callable) – 要註冊的用戶定義 hook。
prepend (bool) – 如果為 true,提供的
hook
將會在所有現有的backward_pre
hooks 之前觸發。否則,提供的hook
將會在這個torch.nn.modules.Module
上的所有現有的backward_pre
hooks 之後觸發。請注意,使用register_module_full_backward_pre_hook()
註冊的全域backward_pre
hooks 將會在所有通過這個方法註冊的 hooks 之前觸發。
- 返回
一個控制代碼,可用於通過調用
handle.remove()
來移除新增的鉤子- 返回類型
torch.utils.hooks.RemovableHandle
- register_load_state_dict_post_hook(hook)[原始碼]¶
註冊一個 post-hook,以便在呼叫模組的
load_state_dict()
後執行。- 它應該具有以下簽名:
hook(module, incompatible_keys) -> None
module
參數是這個 hook 註冊的當前模組,而incompatible_keys
參數是一個NamedTuple
,它由屬性missing_keys
和unexpected_keys
組成。missing_keys
是一個包含缺失鍵的str
的list
,而unexpected_keys
是一個包含意外鍵的str
的list
。如果需要,可以就地修改給定的 incompatible_keys。
請注意,當呼叫
load_state_dict()
並使用strict=True
時執行的檢查,會受到 hook 對missing_keys
或unexpected_keys
做的修改的影響,正如預期的那樣。添加到任何一組鍵將導致在strict=True
時拋出錯誤,而清除缺失和意外鍵都將避免錯誤。- 返回
一個控制代碼,可用於通過調用
handle.remove()
來移除新增的鉤子- 返回類型
torch.utils.hooks.RemovableHandle
- register_load_state_dict_pre_hook(hook)[原始碼]¶
註冊一個 pre-hook,以便在呼叫模組的
load_state_dict()
之前執行。- 它應該具有以下簽名:
hook(module, state_dict, prefix, local_metadata, strict, missing_keys, unexpected_keys, error_msgs) -> None # noqa: B950
- 參數
hook (Callable) – 將在載入 state dict 之前調用的可呼叫 hook。
- register_module(name, module)[source]¶
是
add_module()
的別名。
- register_parameter(name, param)[source]¶
將參數新增到模組。
可以使用給定的名稱作為屬性存取參數。
- 參數
name (str) – 參數的名稱。可以使用給定的名稱從此模組存取參數
param (Parameter 或 None) – 要新增到模組的參數。如果
None
,則會忽略對參數執行的操作,例如cuda
。如果None
,則參數**不會**包含在模組的state_dict
中。
- register_state_dict_post_hook(hook)[source]¶
為
state_dict()
方法註冊一個後置 hook。- 它應該具有以下簽名:
hook(module, state_dict, prefix, local_metadata) -> None
已註冊的 hook 可以就地修改
state_dict
。
- register_state_dict_pre_hook(hook)[source]¶
為
state_dict()
方法註冊一個前置 hook。- 它應該具有以下簽名:
hook(module, prefix, keep_vars) -> None
已註冊的 hook 可用於在呼叫
state_dict
之前執行預先處理。
- requires_grad_(requires_grad=True)[source]¶
變更 autograd 是否應記錄此模組中參數上的操作。
此方法會就地設定參數的
requires_grad
屬性。此方法有助於凍結模組的一部分以進行微調,或個別訓練模型的部分 (例如,GAN 訓練)。
有關 .requires_grad_() 與幾個可能與其混淆的類似機制之間的比較,請參閱 在本地停用梯度計算。
- set_extra_state(state)[source]¶
設定載入的 state_dict 中包含的額外狀態。
會從
load_state_dict()
呼叫此函式,以處理 state_dict 中找到的任何額外狀態。如果您需要在其 state_dict 中儲存額外狀態,請為您的模組實作此函式和對應的get_extra_state()
。- 參數
state (dict) – 來自 state_dict 的額外狀態
- set_submodule(target, module)[source]¶
如果給定的
target
存在,則設定子模組,否則拋出錯誤。例如,假設您有一個
nn.Module
A
,如下所示:A( (net_b): Module( (net_c): Module( (conv): Conv2d(16, 33, kernel_size=(3, 3), stride=(2, 2)) ) (linear): Linear(in_features=100, out_features=200, bias=True) ) )
(該圖顯示一個
nn.Module
A
。A
有一個巢狀子模組net_b
,而它本身有兩個子模組net_c
和linear
。net_c
然後有一個子模組conv
。)要使用新的子模組
Linear
覆寫Conv2d
,您會呼叫set_submodule("net_b.net_c.conv", nn.Linear(33, 16))
。- 參數
- 引發
ValueError – 如果目標字串為空
AttributeError – 如果目標字串參照到無效的路徑,或解析結果不是
nn.Module
,則會引發此錯誤。
請參閱
torch.Tensor.share_memory_()
。- 返回類型
T
- state_dict(*args, destination=None, prefix='', keep_vars=False)[source]¶
傳回一個包含模組完整狀態參考的字典。
包括參數和持久緩衝區(例如,running averages)。鍵是相應的參數和緩衝區名稱。設定為
None
的參數和緩衝區不包括在內。注意
傳回的物件是淺拷貝。它包含對模組的參數和緩衝區的參考。
警告
目前
state_dict()
也接受位置引數,依序用於destination
、prefix
和keep_vars
。但是,此用法已被棄用,未來版本將強制使用關鍵字引數。警告
請避免使用引數
destination
,因為它不是為終端使用者設計的。- 參數
- 返回
一個包含模組完整狀態的字典
- 返回類型
範例
>>> module.state_dict().keys() ['bias', 'weight']
- to(*args, **kwargs)[source]¶
移動和/或轉換參數和緩衝區。
可以這樣呼叫:
- to(device=None, dtype=None, non_blocking=False)[source]
- to(dtype, non_blocking=False)[source]
- to(tensor, non_blocking=False)[source]
- to(memory_format=torch.channels_last)[source]
其簽名類似於
torch.Tensor.to()
,但僅接受浮點數或複數dtype
。此外,此方法只會將浮點數或複數參數和緩衝區轉換為dtype
(如果給定)。整數參數和緩衝區將被移動到device
,如果給定了該值,但 dtype 不變。當設定non_blocking
時,它會嘗試相對於主機非同步地進行轉換/移動(如果可能),例如,將具有釘選記憶體的 CPU Tensor 移動到 CUDA 裝置。請參閱以下範例。
注意
此方法會就地修改模組。
- 參數
device (
torch.device
) – 此模組中參數和緩衝區的所需裝置dtype (
torch.dtype
) – 此模組中參數和緩衝區的所需浮點數或複數 dtypetensor (torch.Tensor) – Tensor,其 dtype 和裝置是此模組中所有參數和緩衝區的所需 dtype 和裝置
memory_format (
torch.memory_format
) – 此模組中 4D 參數和緩衝區所需的記憶體格式 (僅限關鍵字引數)
- 返回
self
- 返回類型
範例
>>> linear = nn.Linear(2, 2) >>> linear.weight Parameter containing: tensor([[ 0.1913, -0.3420], [-0.5113, -0.2325]]) >>> linear.to(torch.double) Linear(in_features=2, out_features=2, bias=True) >>> linear.weight Parameter containing: tensor([[ 0.1913, -0.3420], [-0.5113, -0.2325]], dtype=torch.float64) >>> gpu1 = torch.device("cuda:1") >>> linear.to(gpu1, dtype=torch.half, non_blocking=True) Linear(in_features=2, out_features=2, bias=True) >>> linear.weight Parameter containing: tensor([[ 0.1914, -0.3420], [-0.5112, -0.2324]], dtype=torch.float16, device='cuda:1') >>> cpu = torch.device("cpu") >>> linear.to(cpu) Linear(in_features=2, out_features=2, bias=True) >>> linear.weight Parameter containing: tensor([[ 0.1914, -0.3420], [-0.5112, -0.2324]], dtype=torch.float16) >>> linear = nn.Linear(2, 2, bias=None).to(torch.cdouble) >>> linear.weight Parameter containing: tensor([[ 0.3741+0.j, 0.2382+0.j], [ 0.5593+0.j, -0.4443+0.j]], dtype=torch.complex128) >>> linear(torch.ones(3, 2, dtype=torch.cdouble)) tensor([[0.6122+0.j, 0.1150+0.j], [0.6122+0.j, 0.1150+0.j], [0.6122+0.j, 0.1150+0.j]], dtype=torch.complex128)
- to_empty(*, device, recurse=True)[原始碼]¶
將參數和緩衝區移動到指定的裝置,而不複製儲存體。
- 參數
device (
torch.device
) – 此模組中參數和緩衝區所需的裝置。recurse ( bool ) – 是否應將子模組的參數和緩衝區遞迴地移動到指定的裝置。
- 返回
self
- 返回類型
- train(mode=True)[原始碼]¶
將模組設定為訓練模式。
這僅對某些模組有效。 有關訓練/評估模式下其行為的詳細信息,請參閱特定模組的文檔,例如,它們是否受到影響,例如
Dropout
、BatchNorm
等。
- xpu(device=None)[原始碼]¶
將所有模型參數和緩衝區移動到 XPU。
這也會使相關的參數和緩衝區成為不同的物件。 因此,如果模組將在 XPU 上運行並進行優化,則應在建構優化器之前呼叫此函數。
注意
此方法會就地修改模組。
- zero_grad(set_to_none=True)[原始碼]¶
重設所有模型參數的梯度。
有關更多上下文,請參閱
torch.optim.Optimizer
下的類似函數。- 參數
set_to_none ( bool ) – 不是設定為零,而是將 grads 設定為 None。 有關詳細信息,請參閱
torch.optim.Optimizer.zero_grad()
。