📚[3] Shallow Neural Networks

Chapter 2에서는 1D linear regression 활용한 supervised learning 을 소개한다. 하지만 이러한 모델은 입력/출력의 관계를 하나의 “line” 으로만 표현한다. 본 챕터에서는 이러한 “lines” 는 “piecewise linear function(조각 선형함수?)” 로 표현될 수 있고, 이들은 임의의 복잡한 고차원의 입력/출력의 관계를 표현하기에 충분하다는 것을 보인다.

3.1. Neural network Example

Shallow neural networs 는 multivariate inputs $\bold{x}$를 output, $\bold{y}$ 에 맵핑하는 파라미터 $\phi$ 로 구성된 함수, $\bold{y=f[x, \phi]}$ 이다. 이들의 풀 정의는 3.4.에서 할거고 그 전에 먼저 scalar input, output, $x, y$, 를 맵핑하는 10개의 파라미터, $\{\phi_0, \phi_1, \phi_2, \phi_3, \theta_{10}, \theta_{11}, \theta_{20}, \theta_{21}, \theta_{30}, \theta_{31}\}$ 로 구성된 네트워크 $f[x, \phi]$ 를 통해 메인 아이디어를 소개한다. 먼저 아래와 같이 정의된다.

Untitled

위 식의 계산을 3단계로 나누어 볼 수있다.

입력 데이터의 3개의 linear functions, $(\theta_{10}+\theta_{11}x), (\theta_{20}+\theta_{21}x), (\theta_{30}+\theta_{31}x)$.
위에서 계산한 3개의 linear function을 activation function, $a[\bullet]$ 에 먹인다.

다양한 activation funcionts 중 일부
activation function을 통과한 3개의 중간 결과들을 $\phi_0, \phi_1, \phi_2, \phi_3$ 로 weighted sum 한다.

activation function으로는 다양한 선택지가 있는데, 우리는 그 중에서 rectified linear unit, ReLU를 사용한다. ReLU는 아래와 같이 정의된다.

Untitled

ReLU는 input이 0보다 작으면 0을, 그렇지 않으면 input 그대로를 return 한다. 첫 번째 식을 보면 어떤 식이 (family of equations) 입력/출력의 관계를 나타내는지 구분하기 어려운데, 그냥 모든 10개의 파라미터들에 대한 식, $\bold{\phi}$, 로 구성되어 입력/출력의 관계를 정의한다고 이해하도 좋다.

만약 우리가 모든 파라미터를 알고 있다면 $y$를 예측 (inference)할 수 있다. 그렇다면 주어진 dataset, $\{x_i, y_i\})_{i=1...I}$ 에 대해서 파라미터 $\phi$가 이들을 얼마나 잘 정의하는지에 대한 L2 Loss, $L[\phi]$도 구할 수 있다. 그리고 이러한 평가 지표에 따라 이러한 loss를 최소화 하는 최적의 파라미터, $\hat{\phi}$ 도 찾을 수 있다.

3.1.1. Neural Network Intuition

사실 첫번째 식은 최대 4개의 linear regions 을 가질 수 있는 continuous piecewise linear functions 을 나타낸다. 아래 Figure를 보라. (각각의 region을 하나의 member of family of equations으로 봐도 좋다.)

Untitled

왜 저렇게 되는지 설명하기 위해 첫번째 식을 2단계로 다시 나눈다. 먼저, 아래와 같은 중간 값들을 먼저 소개한다.

Untitled