Sparse-Training wird durch Erhöhen von 损失loss
γ \gamma in erreichtBN
Der L1 des γ -Parameters正则,
entspricht den meisten Kanälenγ \gammaDer Wert von γ nähert sich und0
, sodass das Modell den Effekt der Sparseness erzielt:
Sparse-Training wird durch Erhöhen von 损失loss
γ \gamma in erreichtBN
Der L1 des γ -Parameters正则,
entspricht den meisten Kanälenγ \gammaDer Wert von γ nähert sich und0
, sodass das Modell den Effekt der Sparseness erzielt: