Chapter 8 에서는 model 의 performance 를 측정하였고 학습 데이터와 테스트 데이터 간의 큰 성능 차이가 존재한다는 것을 확인했다. 이러한 차이의 원인으로는 다음과 같다. (1) 모델이 학습하는 것은 true underlying function 을 학습하는 것이 아닌 학습 데이터의 확률적 특성 (peculiarities) 을 학습한다. (Overfitting) (2) 학습 데이터가 없는 space 에 대해서 모델이 제약을 받지 않는다. 이로 인해 optimal 한 prediction 을 내지 못한다.

본 챕터에서는 regularization techniques 에 대해서 공부한다. 이는 training, test performance 간의 gap 을 줄이는 methods 들의 집합이다. 엄밀히 말해서, regularization 은 특정한 parameters 를 선택하도록 loss 에 더해지는 explicit 한 loss term 을 의미한다.

우리는 가장 엄밀한 의미에서의 regularization 에서 시작한다. 그리고 SGD 스스로가 특정 솔루션을 선호하는지 보인다. 이는 implicit regularization 으로 알려있다. 다음으로는 test performace 를 증가시킬 수 있는 early stopping, ensemble, dropout, label smoothing, transfer learning 등과 같은 휴리스틱한 몇 가지 방법을 소개한다.

9.1. Explicit Regularization

아래와 같이 loss를 최소화하는 파라미터, $\phi$를 찾는다고 하자.

Untitled

위와 같은 mimization term 을 특정한 parameter 로 유도하기 위해서는 아래와 같이 추가적인 term 을 loss에 추가해야한다.

Untitled

여기서 $g[\phi]$ 는 parameters 가 원하지 않는 방향으로 학습될 때 큰 값을 갖는 scalar 를 return 한다. $\lambda$는 양수이며 training loss와 regularization term 의 상대적인 contribution 을 제어한다. regularization term 이 추가된 loss 함수는 일반적으로 기존의 loss 함수와는 다른 minima 를 갖는다. 따라서 학습의 결과로 다른 parameters 값을 갖도록 수렴한다. 아래 Fig. 9.1 c) 는 이를 보인다.

Untitled

9.1.1. Probabilistic Interpretation

Regularization 은 probabilistic 한 관점에서 볼 수 있다. 아래 식은 maximum likelihood criterion 으로부터 얻은 loss 함수이다.

Untitled

Regularization term 은 아래와 같이 data를 보기 전의 파라미터에 대한 knwoledge인 prior, $Pr(\phi)$ 로 여길 수 있다.

Untitled

Negative log-likelihood loss function 으로 생각을 한다면, 9.4. 식에 log 를 씌우고 $-1$ 을 곱하면 regularization term, $\lambda \times g[\phi] = -log[Pr(\phi)]$ 와 같다.

9.1.2. L2 Regularization

앞선 논의에서는 regularization term 이 “어떤” 솔루션을 penalize 해야하는지에 대한 질문을 살짝 피해갔다. 뉴럴넷은 굉장히 다양한 어플리케이션에 적용될 수 있기 때문에 일반적인 표현을 사용하였다. 가장 널리 사용되는 regularization term 은 parameteres의 값들의 제곱의 합 ($\phi^2$) 을 penalize 하는 L2 norm 이다.

Untitled

이는 또한 Tikhonov regularization, ridge regression 혹은 Frobenius norm regularization 으로도 알려져있다. 일반적으로 L2 regularization 은 뉴럴넷에서 bias 가 아니라 weights 에 적용된다 따라서 이를 weight decay term 으로도 부른다. weight 의 값이 작게끔 유도하며, 따라서 출력 함수가 더욱 smooth 해진다.