BCEWithLogitsLoss¶

class torch.nn.BCEWithLogitsLoss(weight=None, size_average=None, reduce=None, reduction='mean', pos_weight=None)[source][source]¶

此損失函數將 Sigmoid 層和 BCELoss 結合在一個單一類別中。這個版本比使用單純的 Sigmoid 後面跟著 BCELoss 更具數值穩定性，因為透過將操作合併到一個層中，我們可以利用 log-sum-exp 技巧來提高數值穩定性。

未簡化的損失（即 reduction 設定為 'none'）可以描述為

\ell(x, y) = L = \{l_1,\dots,l_N\}^\top, \quad l_n = - w_n \left[ y_n \cdot \log \sigma(x_n) + (1 - y_n) \cdot \log (1 - \sigma(x_n)) \right],

其中 $N$ 是批次大小。如果 reduction 不是 'none' (預設 'mean')，則

\ell(x, y) = \begin{cases} \operatorname{mean}(L), & \text{if reduction} = \text{`mean';}\\ \operatorname{sum}(L), & \text{if reduction} = \text{`sum'.} \end{cases}

這可以用於測量重建的誤差，例如在自動編碼器中。請注意，目標 t[i] 應該是介於 0 和 1 之間的數字。

可以通過為正樣本添加權重來權衡召回率和精確度。在多標籤分類的情況下，損失可以描述為

\ell_c(x, y) = L_c = \{l_{1,c},\dots,l_{N,c}\}^\top, \quad l_{n,c} = - w_{n,c} \left[ p_c y_{n,c} \cdot \log \sigma(x_{n,c}) + (1 - y_{n,c}) \cdot \log (1 - \sigma(x_{n,c})) \right],

其中 $c$ 是類別編號（對於多標籤二元分類， $c > 1$ ，對於單標籤二元分類， $c = 1$ ）， $n$ 是批次中樣本的數量， $p_c$ 是類別 $c$ 的正面回答的權重。

$p_c > 1$ 增加召回率， $p_c < 1$ 增加精確度。

舉例來說，如果一個資料集包含 100 個正例和 300 個負例，則該類別的 pos_weight 應該等於 $\frac{300}{100}=3$ 。損失函數的行為會像是資料集包含 $3\times 100=300$ 個正例。

範例

>>> target = torch.ones([10, 64], dtype=torch.float32)  # 64 classes, batch size = 10
>>> output = torch.full([10, 64], 1.5)  # A prediction (logit)
>>> pos_weight = torch.ones([64])  # All weights are equal to 1
>>> criterion = torch.nn.BCEWithLogitsLoss(pos_weight=pos_weight)
>>> criterion(output, target)  # -log(sigmoid(1.5))
tensor(0.20...)

在上述範例中，pos_weight 張量的元素對應於多標籤二元分類情境中的 64 個不同類別。 pos_weight 中的每個元素旨在根據各個類別中負樣本和正樣本之間的不平衡來調整損失函數。這種方法在具有不同程度的類別不平衡的資料集中非常有用，確保損失計算能夠準確地考慮每個類別中的分佈情況。

參數

weight (Tensor, optional) – 手動調整每個批次元素損失的權重。如果給定，必須是大小為 nbatch 的 Tensor。
size_average (bool, optional) – 已棄用 (請參閱 reduction)。預設情況下，損失會針對批次中的每個損失元素進行平均。請注意，對於某些損失，每個樣本有多個元素。如果將 size_average 欄位設定為 False，則會將每個小批次的損失加總。當 reduce 為 False 時，此參數會被忽略。預設值： True
reduce (bool, optional) – 已棄用 (請參閱 reduction)。預設情況下，會根據 size_average 對每個小批次的觀察結果進行平均或加總。當 reduce 為 False 時，會改為傳回每個批次元素的損失，並忽略 size_average。預設值： True
reduction (str, optional) – 指定要應用於輸出的縮減方式： 'none' | 'mean' | 'sum'。 'none'：不應用任何縮減， 'mean'：輸出總和將除以輸出中的元素數量， 'sum'：輸出將被加總。注意： size_average 和 reduce 正在棄用中，在此期間，指定這兩個參數中的任何一個都會覆寫 reduction。預設值： 'mean'
pos_weight (Tensor, optional) – 正例的權重，將與目標廣播。必須是一個張量，其類別維度的大小與類別數相同。請密切注意 PyTorch 的廣播語義，以實現所需的運算。對於大小為 [B, C, H, W] 的目標 (其中 B 是批次大小)，大小為 [B, C, H, W] 的 pos_weight 將對批次的每個元素應用不同的 pos_weight，或者大小為 [C, H, W] 的 pos_weight 將對整個批次應用相同的 pos_weight。若要對 2D 多類別目標 [C, H, W] 的所有空間維度應用相同的正權重，請使用： [C, 1, 1]。預設值： None

形狀

輸入： $(*)$ ，其中 $*$ 表示任意數量的維度。

目標： $(*)$ ，與輸入形狀相同。

輸出：純量。如果 reduction 是 'none'，則 $(*)$ , 與輸入形狀相同。

範例

>>> loss = nn.BCEWithLogitsLoss()
>>> input = torch.randn(3, requires_grad=True)
>>> target = torch.empty(3).random_(2)
>>> output = loss(input, target)
>>> output.backward()

BCEWithLogitsLoss¶

文件

教學

資源