📚[7] Gradients and Initialization

Take Home

Backpropagation Algorithm이 어떻게 동작하는지에 대한 이해
- Forward Pass 에서 결과값을 계산하고 저장함.
- Backward Pass 에서는 저장된 결과값을 chain rule 에 따라 아래와 같이 계산.
  
  ( ) 괄호 쳐진 부분은 Backward pass 에서 앞서 계산된 값들임. 따라서 괄호 밖에 있는 값들만 계산한다.
Parameter Initialization 은 학습이 안정적으로 되기 위해서 각 파라미터들이의 결과들이 비슷한 분포를 갖도록 초기화하는 방법임.

Fig 7.7. Weight Initialization. 모든 레이어의 D_h 가 100인 경우에 a) 는 forward pass 의 각 layer 별 activations의 크기를, b) 는 backward pass 의 gradients 의 크기를 시각적으로 표현한 것이다. 각 레이어의 weights의 분포가 2/D_h = 0.02 일 때 forward pass, backward pass에서의 activations, gradients 가 안정적으로 유지 되는 것을 볼 수 있다. 0.02 보다 작으면 vanishing gradient, 0.02 보다 크면 exploding gradient 문제가 발생할 수 있다.
- 학습이 불안정: → vanishing (or exploding) gradients problem
- 본 교재에서 제안한 방법: He Initialization

Priliminaries

chain rule
calaulation derivatives of vector and matrix

Abstract

이전에 Chatper 6 에서 iterative optimization algorithms 들을 공부하였다. 이들은 어떤 function의 최소값을 찾는 범용적인 접근법들이다. Neutral network의 관점에서는 input이 주어졌을 때 정확한 output을 예측하도록 loss를 최소화하는 파라미터를 찾는 것으로 볼 수 있다. 가장 기본적인 방법은 초기 파라미터를 랜덤하게 설정하고 loss를 최소화 하는 loss의 현재 파라미터에 대한 미분값, 즉 gradient를 계산한다.

본 챕터에서는 크게 두 가지 이슈를 중점적으로 다룬다.

Gradient를 그러면 어떻게 “효율적”으로 계산할 수 있는지?
Parameters를 어떻게 initialize 하면 좋을지?

7.1 Problem Definitions

다음과 같은 뉴럴넷, $\bold{f[x, \phi]}$, input, $\bold{x}$, 파라미터, $\phi$와 3개의 hidden layers,$\bold{h_1, h_2, h_3}$ 를 생각해보자.

Untitled

activation function, $\bold{a}[\bullet]$은 element-wisely 연산된다. $\phi = \{\bold{\beta_i, \Omega_i}\}_{i=1}^3$ 으로 정의된다. **$\beta$**는 vector bias, $\bold{\Omega}$ 는 weight matrix이다. 위 모델을 그림으로 표현하면 아래 Fig 7.1 와 같다.

Fig 7.1 Backpropagation forward pass.

label, $y_i$, prediction, $\bold{f[x_i, \phi]}$ 와의 distance인 $l_i = (f[\bold{x_i, \phi}] - y_i)^2$ 와 같이 $i$번째 데이터에 대한 loss, $l_i$ 를 계산할 수 있을 때 total loss는 아래와 같이 계산된다.

Untitled

본 챕터에서는 optimization algorithm으로 Stochastic Gradient Descent (SGD)를 사용한다.