Chapter 8 μ—μ„œλŠ” model 의 performance λ₯Ό μΈ‘μ •ν•˜μ˜€κ³  ν•™μŠ΅ 데이터와 ν…ŒμŠ€νŠΈ 데이터 κ°„μ˜ 큰 μ„±λŠ₯ 차이가 μ‘΄μž¬ν•œλ‹€λŠ” 것을 ν™•μΈν–ˆλ‹€. μ΄λŸ¬ν•œ 차이의 μ›μΈμœΌλ‘œλŠ” λ‹€μŒκ³Ό κ°™λ‹€. (1) λͺ¨λΈμ΄ ν•™μŠ΅ν•˜λŠ” 것은 true underlying function 을 ν•™μŠ΅ν•˜λŠ” 것이 μ•„λ‹Œ ν•™μŠ΅ λ°μ΄ν„°μ˜ ν™•λ₯ μ  νŠΉμ„± (peculiarities) 을 ν•™μŠ΅ν•œλ‹€. (Overfitting) (2) ν•™μŠ΅ 데이터가 μ—†λŠ” space 에 λŒ€ν•΄μ„œ λͺ¨λΈμ΄ μ œμ•½μ„ 받지 μ•ŠλŠ”λ‹€. 이둜 인해 optimal ν•œ prediction 을 내지 λͺ»ν•œλ‹€.

λ³Έ μ±•ν„°μ—μ„œλŠ” regularization techniques 에 λŒ€ν•΄μ„œ κ³΅λΆ€ν•œλ‹€. μ΄λŠ” training, test performance κ°„μ˜ gap 을 μ€„μ΄λŠ” methods λ“€μ˜ 집합이닀. μ—„λ°€νžˆ λ§ν•΄μ„œ, regularization 은 νŠΉμ •ν•œ parameters λ₯Ό μ„ νƒν•˜λ„λ‘ loss 에 λ”ν•΄μ§€λŠ” explicit ν•œ loss term 을 μ˜λ―Έν•œλ‹€.

μš°λ¦¬λŠ” κ°€μž₯ μ—„λ°€ν•œ μ˜λ―Έμ—μ„œμ˜ regularization μ—μ„œ μ‹œμž‘ν•œλ‹€. 그리고 SGD μŠ€μŠ€λ‘œκ°€ νŠΉμ • μ†”λ£¨μ…˜μ„ μ„ ν˜Έν•˜λŠ”μ§€ 보인닀. μ΄λŠ” implicit regularization 으둜 μ•Œλ €μžˆλ‹€. λ‹€μŒμœΌλ‘œλŠ” test performace λ₯Ό μ¦κ°€μ‹œν‚¬ 수 μžˆλŠ” early stopping, ensemble, dropout, label smoothing, transfer learning λ“±κ³Ό 같은 νœ΄λ¦¬μŠ€ν‹±ν•œ λͺ‡ 가지 방법을 μ†Œκ°œν•œλ‹€.

9.1. Explicit Regularization

μ•„λž˜μ™€ 같이 lossλ₯Ό μ΅œμ†Œν™”ν•˜λŠ” νŒŒλΌλ―Έν„°, $\phi$λ₯Ό μ°ΎλŠ”λ‹€κ³  ν•˜μž.

Untitled

μœ„μ™€ 같은 mimization term 을 νŠΉμ •ν•œ parameter 둜 μœ λ„ν•˜κΈ° μœ„ν•΄μ„œλŠ” μ•„λž˜μ™€ 같이 좔가적인 term 을 loss에 μΆ”κ°€ν•΄μ•Όν•œλ‹€.

Untitled

μ—¬κΈ°μ„œ $g[\phi]$ λŠ” parameters κ°€ μ›ν•˜μ§€ μ•ŠλŠ” λ°©ν–₯으둜 ν•™μŠ΅λ  λ•Œ 큰 값을 κ°–λŠ” scalar λ₯Ό return ν•œλ‹€. $\lambda$λŠ” μ–‘μˆ˜μ΄λ©° training loss와 regularization term 의 μƒλŒ€μ μΈ contribution 을 μ œμ–΄ν•œλ‹€. regularization term 이 μΆ”κ°€λœ loss ν•¨μˆ˜λŠ” 일반적으둜 기쑴의 loss ν•¨μˆ˜μ™€λŠ” λ‹€λ₯Έ minima λ₯Ό κ°–λŠ”λ‹€. λ”°λΌμ„œ ν•™μŠ΅μ˜ 결과둜 λ‹€λ₯Έ parameters 값을 갖도둝 μˆ˜λ ΄ν•œλ‹€. μ•„λž˜ Fig. 9.1 c) λŠ” 이λ₯Ό 보인닀.

Untitled

9.1.1. Probabilistic Interpretation

Regularization 은 probabilistic ν•œ κ΄€μ μ—μ„œ λ³Ό 수 μžˆλ‹€. μ•„λž˜ 식은 maximum likelihood criterion μœΌλ‘œλΆ€ν„° 얻은 loss ν•¨μˆ˜μ΄λ‹€.

Untitled

Regularization term 은 μ•„λž˜μ™€ 같이 dataλ₯Ό 보기 μ „μ˜ νŒŒλΌλ―Έν„°μ— λŒ€ν•œ knwoledge인 prior, $Pr(\phi)$ 둜 μ—¬κΈΈ 수 μžˆλ‹€.

Untitled

Negative log-likelihood loss function 으둜 생각을 ν•œλ‹€λ©΄, 9.4. 식에 log λ₯Ό μ”Œμš°κ³  $-1$ 을 κ³±ν•˜λ©΄ regularization term, $\lambda \times g[\phi] = -log[Pr(\phi)]$ 와 κ°™λ‹€.

9.1.2. L2 Regularization

μ•žμ„  λ…Όμ˜μ—μ„œλŠ” regularization term 이 β€œμ–΄λ–€β€ μ†”λ£¨μ…˜μ„ penalize ν•΄μ•Όν•˜λŠ”μ§€μ— λŒ€ν•œ μ§ˆλ¬Έμ„ 살짝 ν”Όν•΄κ°”λ‹€. λ‰΄λŸ΄λ„·μ€ ꡉμž₯히 λ‹€μ–‘ν•œ μ–΄ν”Œλ¦¬μΌ€μ΄μ…˜μ— 적용될 수 있기 λ•Œλ¬Έμ— 일반적인 ν‘œν˜„μ„ μ‚¬μš©ν•˜μ˜€λ‹€. κ°€μž₯ 널리 μ‚¬μš©λ˜λŠ” regularization term 은 parameteres의 κ°’λ“€μ˜ 제곱의 ν•© ($\phi^2$) 을 penalize ν•˜λŠ” L2 norm 이닀.

Untitled

μ΄λŠ” λ˜ν•œ Tikhonov regularization, ridge regression ν˜Ήμ€ Frobenius norm regularization μœΌλ‘œλ„ μ•Œλ €μ Έμžˆλ‹€. 일반적으둜 L2 regularization 은 λ‰΄λŸ΄λ„·μ—μ„œ bias κ°€ μ•„λ‹ˆλΌ weights 에 μ μš©λœλ‹€ λ”°λΌμ„œ 이λ₯Ό weight decay term μœΌλ‘œλ„ λΆ€λ₯Έλ‹€. weight 의 값이 μž‘κ²Œλ” μœ λ„ν•˜λ©°, λ”°λΌμ„œ 좜λ ₯ ν•¨μˆ˜κ°€ λ”μš± smooth 해진닀.