Take Home

  1. 2๊ฐœ์˜ SNN์„ ํ•ฉ์ณ๋†“์•˜์„ ๋•Œ, ์ฒซ ๋ฒˆ์งธ SNN์€ input space๋ฅผ joints ์— ๋”ฐ๋ผ folds ํ•จ. ๋‘ ๋ฒˆ์งธ SNN์€ piece wise linear function (linear transformation) ์„ ์ ์šฉํ•˜๋Š”๋ฐ ๋‘ ๋ฒˆ์งธ SNN์„ ํ†ต๊ณผํ•œ ํ•จ์ˆ˜๋Š” ์•ž์„œ ์ฒซ ๋ฒˆ์งธ SNN์ด ์ ‘์–ด๋†“์€ space์— ๋ณต๋ถ™๋จ.
  2. ๋‘ ๊ฐœ์˜ SNN์„ ๋ถ™์—ฌ๋†“์€ DNN์€ ์‚ฌ์‹ค 2๊ฐœ์˜ hidden layers๋ฅผ ๊ฐ–๋Š” DNN์œผ๋กœ ํ‘œํ˜„๋  ์ˆ˜ ์žˆ์Œ. ReLU activation์€ ์ž…๋ ฅ์„ clipping ํ•˜์—ฌ ์ƒˆ๋กœ์šด โ€œjointsโ€ ๋ฅผ ์ถ”๊ฐ€ํ•œ๋‹ค.
  3. SNN๊ณผ DNN์„ ๋น„๊ตํ•˜์˜€๋‹ค. 1) SNN, DNN ๋ชจ๋‘ ์ถฉ๋ถ„ํ•œ capacity๊ฐ€ ์ฃผ์–ด์ง„๋‹ค๋ฉด ์ž„์˜์˜ ํ•จ์ˆ˜๋ฅผ ๊ทผ์‚ฌํ•  ์ˆ˜ ์žˆ๊ณ , 2) DNN์€ ๊ฐ™์€ ํŒŒ๋ผ๋ฏธํ„ฐ์˜ ์ˆ˜๋กœ ํ›จ์”ฌ ๋งŽ์€ linear regions๋ฅผ ๋งŒ๋“ค์–ด๋‚ด๋ฉฐ, 3) ์–ด๋–ค ํ•จ์ˆ˜๋“ค์€ DNN์œผ๋กœ ํ›จ์”ฌ ํšจ์œจ์ ์œผ๋กœ ๋‚˜ํƒ€๋‚ผ ์ˆ˜ ์žˆ๋‹ค. 4) large, structured input์— ๋Œ€ํ•ด์„œ๋Š” multi-layer๋ฅผ ๊ฐ–๋Š” network๋กœ ์ฒ˜๋ฆฌํ•ด์•ผํ•˜๋ฉฐ, 5) ์‹ค์ œ๋กœ๋Š” SNN๋ณด๋‹ค DNN์ด ๋Œ€๋ถ€๋ถ„์˜ tasks ์—์„œ SOTA๋ฅผ ๋‹ฌ์„ฑํ•˜์˜€๋‹ค. ์ด์œ ๋Š” ๋ชจ๋ฅด๊ฒ ์ง€๋งŒ.

์ง€๋‚œ ์ฑ•ํ„ฐ์—์„œ๋Š” ํ•˜๋‚˜์˜ hidden layer๋งŒ์„ ๊ฐ–๋Š” shallow neural networks (์ดํ•˜ SNN)๋ฅผ ๋‹ค๋ฃธ. ์ด๋ฒˆ ์ฑ•ํ„ฐ๋Š” 2๊ฐœ ์ด์ƒ์˜ hidden layer๋ฅผ ๊ฐ–๋Š” deep neural network (์ดํ•˜ DNN) ๋ฅผ ๋‹ค๋ฃธ. ReLU activation function ์„ ํ†ตํ•ด shallow, neep neural networks๋Š” input๊ณผ output ์‚ฌ์ด์˜ ๊ด€๊ณ„๋ฅผ piecewise linear mapping์œผ๋กœ ๋‚˜ํƒ€๋‚ธ๋‹ค.

hidden units์˜ ์ˆ˜๊ฐ€ ๋Š˜์–ด๋‚  ์ˆ˜๋ก, SNN์€ ํ‘œํ˜„๋ ฅ (descriptive power)๊ฐ€ ์ฆ๊ฐ€ํ–ˆ๋‹ค. ๊ทธ๋ฆฌ๊ณ  hidden units์ด ์ถฉ๋ถ„ํ•˜๋ฉด ์ด๋Š” ์ž„์˜์˜ ๋ณต์žกํ•œ ๊ณ ์ฐจ์› ํ•จ์ˆ˜๋ฅผ ๋‚˜ํƒ€๋‚ผ ์ˆ˜ ์žˆ๋‹ค. ํ•˜์ง€๋งŒ ์–ด๋–ค ํ•จ์ˆ˜์— ๋Œ€ํ•ด์„œ๋Š” ํ•„์š”ํ•œ hidden units์˜ ์ˆ˜๊ฐ€ ๋ง๋„ ์•ˆ๋˜๊ฒŒ ์ฆ๊ฐ€ํ•œ๋‹ค. DNN์€ ๊ฐ™์€ ์ˆ˜์˜ ํŒŒ๋ผ๋ฏธํ„ฐ๋ฅผ ๊ฐ€์ง€๊ณ ๋„ SNN ๋ณด๋‹ค ๋” ๋งŽ์€ linear regions๋ฅผ ํ‘œํ˜„ํ•  ์ˆ˜ ์žˆ๋‹ค. ์‹ค์šฉ์ ์ธ ์ธก๋ฉด์—์„œ, DNN์€ ๋” ๋‹ค์–‘ํ•œ family of functions์„ ํ‘œํ˜„ํ•  ์ˆ˜ ์žˆ๋‹ค.

4.1. Composing Neural Networks

DNN์˜ ๋™์ž‘ ์›๋ฆฌ๋ฅผ ์ดํ•ดํ•˜๊ธฐ ์œ„ํ•ด ๋‘ ๊ฐœ์˜ SNN์„ ์ฒซ ๋ฒˆ์งธ SNN์˜ ์ถœ๋ ฅ์ด ๋‘ ๋ฒˆ์งธ SNN์˜ ์ž…๋ ฅ์ด ๋˜๋„๋ก ํ•˜๋Š” 2๊ฐœ์˜ SNN๋“ค๋กœ ํ•ฉ์นœ๋‹ค.

                                                                Figure 4.1.

                                                            Figure 4.1.

๊ฐ SNN์€ 3๊ฐœ์˜ hidden units๋ฅผ ๊ฐ–๋Š”๋‹ค๊ณ  ํ•˜์ž. ์ฒซ๋ฒˆ์งธ SNN์€ ์•„๋ž˜์™€ ๊ฐ™์ด ์ •์˜๋œ๋‹ค.:

Untitled

๋‘ ๋ฒˆ์งธ SNN์€ ์•„๋ž˜์™€ ๊ฐ™์ด ์ •์˜๋œ๋‹ค.

Untitled

ReLU activation์„ ์‚ฌ์šฉํ•˜๊ธฐ ๋•Œ๋ฌธ์— ๋‘ SNN์œผ๋กœ ์ •์˜ํ•œ DNN ๋ชจ๋ธ์€ family of piecewise linear functions์„ ๋‚˜ํƒ€๋‚ธ๋‹ค. ํ•˜์ง€๋งŒ ์ด๋ ‡๊ฒŒ ํ‘œํ˜„๋œ ๋ชจ๋ธ์˜ linear regions์˜ ์ˆ˜๋Š” 6๊ฐœ์˜ hidden units์„ ๊ฐ–๋Š” ํ•˜๋‚˜์˜ SNN๋ณด๋‹ค ํ›จ์”ฌ ๋งŽ์„ ์ˆ˜ ์žˆ๋‹ค. ์ด๋ฅผ ๋ณด์ด๊ธฐ ์œ„ํ•ด ์ฒซ ๋ฒˆ์งธ SNN ์„ ๊ต๋Œ€๋กœ ์–‘์ˆ˜, ์Œ์ˆ˜, ์–‘์ˆ˜์˜ ๊ธฐ์šธ๊ธฐ๋ฅผ ๊ฐ–๋Š” regions๋กœ ์ƒ๊ฐํ•ด๋ณด์ž.

                                                                     Figure 4.1.

                                                                 Figure 4.1.

(๊ฐ„๋‹จํ•˜๊ฒŒ ์˜ˆ๋ฅผ ๋“ค๊ธฐ ์œ„ํ•ด ๋ชจ๋“  ๊ณต๊ฐ„์„ $[-1,1]$ ์—์„œ๋งŒ ๊ณ ๋ คํ•œ๋‹ค.) Figure 4.1. b)๋ฅผ ๋ณด๋ฉด 3๊ฐœ์˜ linear regions์œผ๋กœ ๋‚˜ํƒ€๋‚˜์žˆ๊ณ , ๊ฐ linear regions๊ฐ€ ๊ฐ–๋Š” range์— ์†ํ•œ $x$๋Š” ๊ฐ๊ฐ $y \in [-1,1]$ ๋กœ ๋งตํ•‘๋œ๋‹ค. ๊ทธ๋ฆฌ๊ณ  $y$๋Š” ๋‘ ๋ฒˆ์งธ SNN์—์„œ ์ •์˜๋œ ํ•จ์ˆ˜์ฒ˜๋Ÿผ $y \rightarrow y'$ ์œผ๋กœ ๋งตํ•‘๋œ๋‹ค.

์ •๋ฆฌํ•˜์ž๋ฉด, ์ฒซ ๋ฒˆ์งธ SNN์€ ์•„๋ž˜์™€ ๊ฐ™์ด ๋‚˜ํƒ€๋‚ผ ์ˆ˜ ์žˆ๋‹ค. 3๊ฐœ์˜ ๋งตํ•‘์œผ๋กœ ํ‘œํ˜„๋  ์ˆ˜ ์žˆ๋‹ค.

$$ \begin{align} x_1 \in [-1, 0] &\rightarrow y \in [-1, 1]\\ x_2 \in [0, 0.6] &\rightarrow y \in [-1, 1]\\ x_3 \in [0.6, 1] &\rightarrow y \in [-1, 1] \end{align} $$

๋‘ ๋ฒˆ์งธ SNN์€ $y \in [-1, 1] \rightarrow y'$(Figure 4.1. c) ์„ ๋งตํ•‘ํ•˜๋ฏ€๋กœ ๋‘ SNN์„ ํ•ฉ์นœ DNN์€ $[-1, 1]$ ๋ฒ”์œ„์—์„œ ์ด 3๊ฐœ์˜ (์ ์ ˆํ•œ ๊ฐ’์˜ weight๋กœ ๊ณฑํ•ด์ง„) Figure 4.1. c)์™€ ๊ฐ™์€ ํ•จ์ˆ˜ ๋ชจ์–‘์„ ๋ณผ ์ˆ˜ ์žˆ๋‹ค.