Take Home

2개의 SNN을 합쳐놓았을 때, 첫 번째 SNN은 input space를 joints 에 따라 folds 함. 두 번째 SNN은 piece wise linear function (linear transformation) 을 적용하는데 두 번째 SNN을 통과한 함수는 앞서 첫 번째 SNN이 접어놓은 space에 복붙됨.
두 개의 SNN을 붙여놓은 DNN은 사실 2개의 hidden layers를 갖는 DNN으로 표현될 수 있음. ReLU activation은 입력을 clipping 하여 새로운 “joints” 를 추가한다.
SNN과 DNN을 비교하였다. 1) SNN, DNN 모두 충분한 capacity가 주어진다면 임의의 함수를 근사할 수 있고, 2) DNN은 같은 파라미터의 수로 훨씬 많은 linear regions를 만들어내며, 3) 어떤 함수들은 DNN으로 훨씬 효율적으로 나타낼 수 있다. 4) large, structured input에 대해서는 multi-layer를 갖는 network로 처리해야하며, 5) 실제로는 SNN보다 DNN이 대부분의 tasks 에서 SOTA를 달성하였다. 이유는 모르겠지만.

지난 챕터에서는 하나의 hidden layer만을 갖는 shallow neural networks (이하 SNN)를 다룸. 이번 챕터는 2개 이상의 hidden layer를 갖는 deep neural network (이하 DNN) 를 다룸. ReLU activation function 을 통해 shallow, neep neural networks는 input과 output 사이의 관계를 piecewise linear mapping으로 나타낸다.

hidden units의 수가 늘어날 수록, SNN은 표현력 (descriptive power)가 증가했다. 그리고 hidden units이 충분하면 이는 임의의 복잡한 고차원 함수를 나타낼 수 있다. 하지만 어떤 함수에 대해서는 필요한 hidden units의 수가 말도 안되게 증가한다. DNN은 같은 수의 파라미터를 가지고도 SNN 보다 더 많은 linear regions를 표현할 수 있다. 실용적인 측면에서, DNN은 더 다양한 family of functions을 표현할 수 있다.

4.1. Composing Neural Networks

DNN의 동작 원리를 이해하기 위해 두 개의 SNN을 첫 번째 SNN의 출력이 두 번째 SNN의 입력이 되도록 하는 2개의 SNN들로 합친다.

Figure 4.1.

                                                            Figure 4.1.

각 SNN은 3개의 hidden units를 갖는다고 하자. 첫번째 SNN은 아래와 같이 정의된다.:

Untitled

두 번째 SNN은 아래와 같이 정의된다.

Untitled

ReLU activation을 사용하기 때문에 두 SNN으로 정의한 DNN 모델은 family of piecewise linear functions을 나타낸다. 하지만 이렇게 표현된 모델의 linear regions의 수는 6개의 hidden units을 갖는 하나의 SNN보다 훨씬 많을 수 있다. 이를 보이기 위해 첫 번째 SNN 을 교대로 양수, 음수, 양수의 기울기를 갖는 regions로 생각해보자.

Figure 4.1.

                                                                 Figure 4.1.

(간단하게 예를 들기 위해 모든 공간을 $[-1,1]$ 에서만 고려한다.) Figure 4.1. b)를 보면 3개의 linear regions으로 나타나있고, 각 linear regions가 갖는 range에 속한 $x$는 각각 $y \in [-1,1]$ 로 맵핑된다. 그리고 $y$는 두 번째 SNN에서 정의된 함수처럼 $y \rightarrow y'$ 으로 맵핑된다.

정리하자면, 첫 번째 SNN은 아래와 같이 나타낼 수 있다. 3개의 맵핑으로 표현될 수 있다.

$$ \begin{align} x_1 \in [-1, 0] &\rightarrow y \in [-1, 1]\\ x_2 \in [0, 0.6] &\rightarrow y \in [-1, 1]\\ x_3 \in [0.6, 1] &\rightarrow y \in [-1, 1] \end{align} $$

두 번째 SNN은 $y \in [-1, 1] \rightarrow y'$(Figure 4.1. c) 을 맵핑하므로 두 SNN을 합친 DNN은 $[-1, 1]$ 범위에서 총 3개의 (적절한 값의 weight로 곱해진) Figure 4.1. c)와 같은 함수 모양을 볼 수 있다.