์ง๋ ์ฑํฐ์์๋ ํ๋์ hidden layer๋ง์ ๊ฐ๋ shallow neural networks (์ดํ SNN)๋ฅผ ๋ค๋ฃธ. ์ด๋ฒ ์ฑํฐ๋ 2๊ฐ ์ด์์ hidden layer๋ฅผ ๊ฐ๋ deep neural network (์ดํ DNN) ๋ฅผ ๋ค๋ฃธ. ReLU activation function ์ ํตํด shallow, neep neural networks๋ input๊ณผ output ์ฌ์ด์ ๊ด๊ณ๋ฅผ piecewise linear mapping์ผ๋ก ๋ํ๋ธ๋ค.
hidden units์ ์๊ฐ ๋์ด๋ ์๋ก, SNN์ ํํ๋ ฅ (descriptive power)๊ฐ ์ฆ๊ฐํ๋ค. ๊ทธ๋ฆฌ๊ณ hidden units์ด ์ถฉ๋ถํ๋ฉด ์ด๋ ์์์ ๋ณต์กํ ๊ณ ์ฐจ์ ํจ์๋ฅผ ๋ํ๋ผ ์ ์๋ค. ํ์ง๋ง ์ด๋ค ํจ์์ ๋ํด์๋ ํ์ํ hidden units์ ์๊ฐ ๋ง๋ ์๋๊ฒ ์ฆ๊ฐํ๋ค. DNN์ ๊ฐ์ ์์ ํ๋ผ๋ฏธํฐ๋ฅผ ๊ฐ์ง๊ณ ๋ SNN ๋ณด๋ค ๋ ๋ง์ linear regions๋ฅผ ํํํ ์ ์๋ค. ์ค์ฉ์ ์ธ ์ธก๋ฉด์์, DNN์ ๋ ๋ค์ํ family of functions์ ํํํ ์ ์๋ค.
DNN์ ๋์ ์๋ฆฌ๋ฅผ ์ดํดํ๊ธฐ ์ํด ๋ ๊ฐ์ SNN์ ์ฒซ ๋ฒ์งธ SNN์ ์ถ๋ ฅ์ด ๋ ๋ฒ์งธ SNN์ ์ ๋ ฅ์ด ๋๋๋ก ํ๋ 2๊ฐ์ SNN๋ค๋ก ํฉ์น๋ค.
Figure 4.1.
๊ฐ SNN์ 3๊ฐ์ hidden units๋ฅผ ๊ฐ๋๋ค๊ณ ํ์. ์ฒซ๋ฒ์งธ SNN์ ์๋์ ๊ฐ์ด ์ ์๋๋ค.:
๋ ๋ฒ์งธ SNN์ ์๋์ ๊ฐ์ด ์ ์๋๋ค.
ReLU activation์ ์ฌ์ฉํ๊ธฐ ๋๋ฌธ์ ๋ SNN์ผ๋ก ์ ์ํ DNN ๋ชจ๋ธ์ family of piecewise linear functions์ ๋ํ๋ธ๋ค. ํ์ง๋ง ์ด๋ ๊ฒ ํํ๋ ๋ชจ๋ธ์ linear regions์ ์๋ 6๊ฐ์ hidden units์ ๊ฐ๋ ํ๋์ SNN๋ณด๋ค ํจ์ฌ ๋ง์ ์ ์๋ค. ์ด๋ฅผ ๋ณด์ด๊ธฐ ์ํด ์ฒซ ๋ฒ์งธ SNN ์ ๊ต๋๋ก ์์, ์์, ์์์ ๊ธฐ์ธ๊ธฐ๋ฅผ ๊ฐ๋ regions๋ก ์๊ฐํด๋ณด์.
Figure 4.1.
(๊ฐ๋จํ๊ฒ ์๋ฅผ ๋ค๊ธฐ ์ํด ๋ชจ๋ ๊ณต๊ฐ์ $[-1,1]$ ์์๋ง ๊ณ ๋ คํ๋ค.) Figure 4.1. b)๋ฅผ ๋ณด๋ฉด 3๊ฐ์ linear regions์ผ๋ก ๋ํ๋์๊ณ , ๊ฐ linear regions๊ฐ ๊ฐ๋ range์ ์ํ $x$๋ ๊ฐ๊ฐ $y \in [-1,1]$ ๋ก ๋งตํ๋๋ค. ๊ทธ๋ฆฌ๊ณ $y$๋ ๋ ๋ฒ์งธ SNN์์ ์ ์๋ ํจ์์ฒ๋ผ $y \rightarrow y'$ ์ผ๋ก ๋งตํ๋๋ค.
์ ๋ฆฌํ์๋ฉด, ์ฒซ ๋ฒ์งธ SNN์ ์๋์ ๊ฐ์ด ๋ํ๋ผ ์ ์๋ค. 3๊ฐ์ ๋งตํ์ผ๋ก ํํ๋ ์ ์๋ค.
$$ \begin{align} x_1 \in [-1, 0] &\rightarrow y \in [-1, 1]\\ x_2 \in [0, 0.6] &\rightarrow y \in [-1, 1]\\ x_3 \in [0.6, 1] &\rightarrow y \in [-1, 1] \end{align} $$
๋ ๋ฒ์งธ SNN์ $y \in [-1, 1] \rightarrow y'$(Figure 4.1. c) ์ ๋งตํํ๋ฏ๋ก ๋ SNN์ ํฉ์น DNN์ $[-1, 1]$ ๋ฒ์์์ ์ด 3๊ฐ์ (์ ์ ํ ๊ฐ์ weight๋ก ๊ณฑํด์ง) Figure 4.1. c)์ ๊ฐ์ ํจ์ ๋ชจ์์ ๋ณผ ์ ์๋ค.