📚[6] Fitting Models

Take Home

모델을 학습하는 것은 파라미터, $\phi$ 에 대응하는 loss function, $L[\phi]$ 를 최소화하는 것으로 생각할 수 있다. Gradient Descent 는 현재 파라미터에서 계산되는 loss의 (해당 지점에서의 uphill) gradient를 계산하고 이의 반대방향인 downhill (gradient에 $\times -1$ 을 곱하면 됨.) 방향으로 파라미터를 업데이트 한다.
non-linear function 에 대한 loss는 non-convex일 확률이 아주아주 높다. 따라서 local-minima나 saddle points를 포함할 수 있다. Stochastic Gradient Descent (SGD) 는 이러한 문제를 어느 정도 해결할 수 있다.
SGD는 학습 데이터에서 중복을 허용하지 않게 몇몇 examples 를 샘플링한다. 이들을 batch 혹은 minibatch 라고 한다. 이 batch에 대하여 loss와 gradient를 계산한다. 이러한 접근은 gradient에 noise를 더한다고 볼 수 있고 이러한 과정에서 앞선 local minima, saddle points를 피하도록 하며 학습 데이터를 더 잘 일반화한다.
마지막으로 이러한 SGD 알고리즘에 momentum term 을 추가하는 것이 학습을 효과적으로 도울 수 있음을 보았고, Vanilla momentum, Nesterov Accelerated momentum, Adaptive Momentum Estimate (Adam) 까지 살펴보았다.

들어가기 앞서

Chapter 3, 4 에서는 SNN, DNN에 대하여 공부하였다. 이러한 모델들의 파라미터들이 어떤 함수를 나타내는 여러 개의 piecewise line function들로 표현된다. Chapter 5에서는 loss 에 대하여 공부하였다. 이는 학습 데이터에 대하여 ground truth (GT = 정답) 과 모델의 prediction 간의 mismatch 를 나타내는 하나의 스칼라 값이다.

loss는 모델의 파라미터에 따라 결정되는 값이고, 본 챕터에서는 loss가 최소값을 갖는 파라미터를 “어떻게 찾는지” 에 대하여 공부를 한다. 이러한 방법을 learning, training 혹은 fitting 이라고 한다.

먼저 파라미터의 값을 초기화하고 크게 다음과 같은 두 개의 스텝을 따른다.

파라미터에 대한 loss의 derivative(==미분) (gradient) 를 구한다.
앞서 구한 gradient 에 대하여 loss가 작아지도록 파라미터를 조정한다.

여러 반복 뒤에 loss function의 전반적인 minimum에 도달하기를 기도한다. (fitting은 샤머니즘의 영역..)

6.1 Gradient Descent

optimization algorithm 의 최종 목표는 바로 loss를 최소화하는 파라미터, $\hat{\phi}$를 찾는 것이다.

$$ \hat{\phi} = \displaystyle\argmin_{\phi}\bigg[L[\phi]\bigg], \\\text{Eq. 6.1} $$

다양한 optimization algorithm이 존재하지만 보통 neural network 를 학습하는 일반적인 방법은 먼저 파라미터의 값을 휴리스틱 (휴리스틱은 말이 좋아 휴리스틱이지 그냥 감으로 때려박는 것.) (initialization 에 대해서는 후술할 예정) 하게 initialization 하고 loss가 줄어드는 일련의 방법을 반복하여 (iterative) optimization 하는 것이다.

이러한 알고리즘 중에서 가장 심플한 방법은 gradient descent 이다. 이는 먼저 파라미터, $\phi = [\phi_0, \phi_1, ..., \phi_N]^T$ 로 초기화 하고 아래 두 step을 반복한다.

Step 1. $\phi$에 대한 loss의 gradient 를 계산한다.