Chapter 8 μμλ model μ performance λ₯Ό μΈ‘μ νμκ³ νμ΅ λ°μ΄ν°μ ν μ€νΈ λ°μ΄ν° κ°μ ν° μ±λ₯ μ°¨μ΄κ° μ‘΄μ¬νλ€λ κ²μ νμΈνλ€. μ΄λ¬ν μ°¨μ΄μ μμΈμΌλ‘λ λ€μκ³Ό κ°λ€. (1) λͺ¨λΈμ΄ νμ΅νλ κ²μ true underlying function μ νμ΅νλ κ²μ΄ μλ νμ΅ λ°μ΄ν°μ νλ₯ μ νΉμ± (peculiarities) μ νμ΅νλ€. (Overfitting) (2) νμ΅ λ°μ΄ν°κ° μλ space μ λν΄μ λͺ¨λΈμ΄ μ μ½μ λ°μ§ μλλ€. μ΄λ‘ μΈν΄ optimal ν prediction μ λ΄μ§ λͺ»νλ€.
λ³Έ μ±ν°μμλ regularization techniques μ λν΄μ 곡λΆνλ€. μ΄λ training, test performance κ°μ gap μ μ€μ΄λ methods λ€μ μ§ν©μ΄λ€. μλ°ν λ§ν΄μ, regularization μ νΉμ ν parameters λ₯Ό μ ννλλ‘ loss μ λν΄μ§λ explicit ν loss term μ μλ―Ένλ€.
μ°λ¦¬λ κ°μ₯ μλ°ν μλ―Έμμμ regularization μμ μμνλ€. κ·Έλ¦¬κ³ SGD μ€μ€λ‘κ° νΉμ μ루μ
μ μ νΈνλμ§ λ³΄μΈλ€. μ΄λ implicit regularization
μΌλ‘ μλ €μλ€. λ€μμΌλ‘λ test performace λ₯Ό μ¦κ°μν¬ μ μλ early stopping
, ensemble
, dropout
, label smoothing
, transfer learning
λ±κ³Ό κ°μ ν΄λ¦¬μ€ν±ν λͺ κ°μ§ λ°©λ²μ μκ°νλ€.
μλμ κ°μ΄ lossλ₯Ό μ΅μννλ νλΌλ―Έν°, $\phi$λ₯Ό μ°Ύλλ€κ³ νμ.
μμ κ°μ mimization term μ νΉμ ν parameter λ‘ μ λνκΈ° μν΄μλ μλμ κ°μ΄ μΆκ°μ μΈ term μ lossμ μΆκ°ν΄μΌνλ€.
μ¬κΈ°μ $g[\phi]$ λ parameters κ° μνμ§ μλ λ°©ν₯μΌλ‘ νμ΅λ λ ν° κ°μ κ°λ scalar λ₯Ό return νλ€. $\lambda$λ μμμ΄λ©° training lossμ regularization term μ μλμ μΈ contribution μ μ μ΄νλ€. regularization term μ΄ μΆκ°λ loss ν¨μλ μΌλ°μ μΌλ‘ κΈ°μ‘΄μ loss ν¨μμλ λ€λ₯Έ minima λ₯Ό κ°λλ€. λ°λΌμ νμ΅μ κ²°κ³Όλ‘ λ€λ₯Έ parameters κ°μ κ°λλ‘ μλ ΄νλ€. μλ Fig. 9.1 c) λ μ΄λ₯Ό 보μΈλ€.
Regularization μ probabilistic ν κ΄μ μμ λ³Ό μ μλ€. μλ μμ maximum likelihood criterion μΌλ‘λΆν° μ»μ loss ν¨μμ΄λ€.
Regularization term μ μλμ κ°μ΄ dataλ₯Ό 보기 μ μ νλΌλ―Έν°μ λν knwoledgeμΈ prior, $Pr(\phi)$ λ‘ μ¬κΈΈ μ μλ€.
Negative log-likelihood loss function μΌλ‘ μκ°μ νλ€λ©΄, 9.4. μμ log λ₯Ό μμ°κ³ $-1$ μ κ³±νλ©΄ regularization term, $\lambda \times g[\phi] = -log[Pr(\phi)]$ μ κ°λ€.
μμ λ
Όμμμλ regularization term μ΄ βμ΄λ€β μ루μ
μ penalize ν΄μΌνλμ§μ λν μ§λ¬Έμ μ΄μ§ νΌν΄κ°λ€. λ΄λ΄λ·μ κ΅μ₯ν λ€μν μ΄ν리μΌμ΄μ
μ μ μ©λ μ μκΈ° λλ¬Έμ μΌλ°μ μΈ ννμ μ¬μ©νμλ€. κ°μ₯ λ리 μ¬μ©λλ regularization term μ parameteresμ κ°λ€μ μ κ³±μ ν© ($\phi^2$) μ penalize νλ L2 norm
μ΄λ€.
μ΄λ λν Tikhonov regularization
, ridge regression
νΉμ Frobenius norm regularization
μΌλ‘λ μλ €μ Έμλ€. μΌλ°μ μΌλ‘ L2 regularization μ λ΄λ΄λ·μμ bias κ° μλλΌ weights μ μ μ©λλ€ λ°λΌμ μ΄λ₯Ό weight decay
term μΌλ‘λ λΆλ₯Έλ€. weight μ κ°μ΄ μκ²λ μ λνλ©°, λ°λΌμ μΆλ ₯ ν¨μκ° λμ± smooth ν΄μ§λ€.