Preface

이전의 챕터들에서 뉴럴넷, loss 함수 그리고 학습 알고리즘 등을 공부하였다. 이번 챕터에서는 학습된 모델의 성능을 평가하는 방법에 대해 공부한다. 충분한 capacity 를 갖는 모델은 학습 데이터셋에 대하여 완벽하게 fit 될 수 있다. 하지만 이러한 사실이 꼭 테스트 셋에 대하여 잘 generalize 했다고 보기 어렵다.

test errors의 세 가지 서로 다른 이유와 다음 세 가지 항목에 대한 이들의 상대적인 영향 (relative contributions) 도 살펴본다. [(1) task의 inherent uncertainty, (2) 학습 데이터의 양, (3) 모델의 선택]

8.1. Training a Simple Model

Untitled

Fig. 8.1에서 제시한 것과 같은 MNIST-1D 데이터셋을 가지고 모델의 성능을 측정해본다. 이들은 $0-9$ 의 digits에 대응되는 $y=\{0, ..., 9\}$ 로 구성된다. a) 는 각 digit의 예시 templates 이다. b) 는 해당 template을 랜덤하게 transform 한 것이며 c) 는 noise를 더했다. d) 는 이를 적절한 offset으로 총 40개로 잘라낸 것이다.

따라서 입력 dimension, $D_i=40$, 출력 dimension, $D_o=10$, hidden width $= 100$ 을 갖는 모델을 설계하고 출력값을 softmax 함수에 주어 최종적으로 확률값을 나타내도록 하였다. 이를 batch size = $100$, LR은 $0.1$ 을 총 $150$ epochs 만큼 학습시켰다. 그러면 약 4000 steps 쯤에 학습 데이터를 완벽하게 분류하며 loss는 거의 0에 수렴한다.

하지만 학습 데이터를 완벽하게 예측한다고 좋은 모델은 아니다. 모델은 학습 데이터를 아예 통째로 외워버릴 수 있으며 이럴 경우 새로운 데이터에 대해서 좋은 결과를 얻지 못한다.

따라서 모델의 “진짜” 성능을 측정하기 위해서 테스트 셋을 따로 분리해야한다. 이를 위해 약 1000개의 test sample을 생성하였다.

Untitled

Fig. 8.2 는 test set에 대한 학습 에러 및 loss를 나타낸 것이다. 학습 error 는 점점 감소하기는 하지만 40% 언저리에서 내려가지 못하고 있으며 train set 에 비하면 한참이나 크다. train set 에 대해서는 완벽하게 학습했지만 test set에 대해서는 잘 예측하지 못하므로 모델은 잘 generalized 되지 못하였다.

loss는 반면 어느 순간까지는 감소하다가 증가하게 된다. 하지만 학습 error 는 거의 그대로 유지된다. 이는 모델이 학습을 거듭할 수록 더 높은 confidence로 틀리기 때문에 발생하는 현상이다. 이는 확률을 1로 맞추기 위해 pre-activation 이 무한대로 커져야하는 softmax 함수의 부작용 때문에 발생한다.

8.2. Sources of Error

본 섹션에서는 모델이 generalize 에 실패했을 때 생기는 error 의 원인을 살펴본다. 직관을 높이기 위해 아주 간단한 예시를 든다.

Untitled

Fig. 8.3 은 ~~quasi-sinusoidal function~~ 을 보인다. 여기서 training set과 test set 을 $[0, 1]$ 에서 sampling 하며 고정된 variance 를 갖는 Gaussian noise를 더한다.

Untitled

이를 위해 Fig. 8.4 와 같은 아주 간단한 shallow neural network 를 학습시킨다. 여기서 문제를 더 쉽게 보기 위해 각 weights, biases 는 각 “joints” 들이 균등하게 고루 분포되도록 선택된다.

만약 3개의 joints 가 있다면 $0, \frac{1}{3}, \frac{2}{3}$ 이 되도록 한다. 그리고 적절한 optimization 을 통해 loss가 globabl minimum 에 도달하였다고 가정한다.