Chapter 2์์๋ 1D linear regression ํ์ฉํ supervised learning ์ ์๊ฐํ๋ค. ํ์ง๋ง ์ด๋ฌํ ๋ชจ๋ธ์ ์ ๋ ฅ/์ถ๋ ฅ์ ๊ด๊ณ๋ฅผ ํ๋์ โlineโ ์ผ๋ก๋ง ํํํ๋ค. ๋ณธ ์ฑํฐ์์๋ ์ด๋ฌํ โlinesโ ๋ โpiecewise linear funcsion(์กฐ๊ฐ ์ ํํจ์?)โ ๋ก ํํ๋ ์ ์๊ณ , ์ด๋ค์ ์์์ ๋ณต์กํ ๊ณ ์ฐจ์์ ์ ๋ ฅ/์ถ๋ ฅ์ ๊ด๊ณ๋ฅผ ํํํ๊ธฐ์ ์ถฉ๋ถํ๋ค๋ ๊ฒ์ ๋ณด์ธ๋ค.
Shallow neural networs ๋ multivariate inputs $\bold{x}$๋ฅผ output, $\bold{y}$ ์ ๋งตํํ๋ ํ๋ผ๋ฏธํฐ $\phi$ ๋ก ๊ตฌ์ฑ๋ ํจ์, $\bold{y=f[x, \phi]}$ ์ด๋ค. ์ด๋ค์ ํ ์ ์๋ 3.4.์์ ํ ๊ฑฐ๊ณ ๊ทธ ์ ์ ๋จผ์ scalar input, output, $x, y$, ๋ฅผ ๋งตํํ๋ 10๊ฐ์ ํ๋ผ๋ฏธํฐ, $\{\phi_0, \phi_1, \phi_2, \phi_3, \theta_{10}, \theta_{11}, \theta_{20}, \theta_{21}, \theta_{30}, \theta_{31}\}$ ๋ก ๊ตฌ์ฑ๋ ๋คํธ์ํฌ $f[x, \phi]$ ๋ฅผ ํตํด ๋ฉ์ธ ์์ด๋์ด๋ฅผ ์๊ฐํ๋ค. ๋จผ์ ์๋์ ๊ฐ์ด ์ ์๋๋ค.
์ ์์ ๊ณ์ฐ์ 3๋จ๊ณ๋ก ๋๋์ด ๋ณผ ์์๋ค.
์ ๋ ฅ ๋ฐ์ดํฐ์ 3๊ฐ์ linear functions, $(\theta_{10}+\theta_{11}x), (\theta_{20}+\theta_{21}x), (\theta_{30}+\theta_{31}x)$.
์์์ ๊ณ์ฐํ 3๊ฐ์ linear function์ activation function
, $a[\bullet]$ ์ ๋จน์ธ๋ค.
๋ค์ํ activation funcionts ์ค ์ผ๋ถ
activation function์ ํต๊ณผํ 3๊ฐ์ ์ค๊ฐ ๊ฒฐ๊ณผ๋ค์ $\phi_0, \phi_1, \phi_2, \phi_3$ ๋ก weighted sum ํ๋ค.
activation function์ผ๋ก๋ ๋ค์ํ ์ ํ์ง๊ฐ ์๋๋ฐ, ์ฐ๋ฆฌ๋ ๊ทธ ์ค์์ rectified linear unit, ReLU๋ฅผ ์ฌ์ฉํ๋ค. ReLU๋ ์๋์ ๊ฐ์ด ์ ์๋๋ค.
ReLU๋ input์ด 0๋ณด๋ค ์์ผ๋ฉด 0์, ๊ทธ๋ ์ง ์์ผ๋ฉด input ๊ทธ๋๋ก๋ฅผ return ํ๋ค. ์ฒซ ๋ฒ์งธ ์์ ๋ณด๋ฉด ์ด๋ค ์์ด (family of equations) ์ ๋ ฅ/์ถ๋ ฅ์ ๊ด๊ณ๋ฅผ ๋ํ๋ด๋์ง ๊ตฌ๋ถํ๊ธฐ ์ด๋ ค์ด๋ฐ, ๊ทธ๋ฅ ๋ชจ๋ 10๊ฐ์ ํ๋ผ๋ฏธํฐ๋ค์ ๋ํ ์, $\bold{\phi}$, ๋ก ๊ตฌ์ฑ๋์ด ์ ๋ ฅ/์ถ๋ ฅ์ ๊ด๊ณ๋ฅผ ์ ์ํ๋ค๊ณ ์ดํดํ๋ ์ข๋ค.
๋ง์ฝ ์ฐ๋ฆฌ๊ฐ ๋ชจ๋ ํ๋ผ๋ฏธํฐ๋ฅผ ์๊ณ ์๋ค๋ฉด $y$๋ฅผ ์์ธก (inference)ํ ์ ์๋ค. ๊ทธ๋ ๋ค๋ฉด ์ฃผ์ด์ง dataset, $\{x_i, y_i\})_{i=1...I}$ ์ ๋ํด์ ํ๋ผ๋ฏธํฐ $\phi$๊ฐ ์ด๋ค์ ์ผ๋ง๋ ์ ์ ์ํ๋์ง์ ๋ํ L2 Loss, $L[\phi]$๋ ๊ตฌํ ์ ์๋ค. ๊ทธ๋ฆฌ๊ณ ์ด๋ฌํ ํ๊ฐ ์งํ์ ๋ฐ๋ผ ์ด๋ฌํ loss๋ฅผ ์ต์ํ ํ๋ ์ต์ ์ ํ๋ผ๋ฏธํฐ, $\hat{\phi}$ ๋ ์ฐพ์ ์ ์๋ค.
์ฌ์ค ์ฒซ๋ฒ์งธ ์์ ์ต๋ 4๊ฐ์ linear regions ์ ๊ฐ์ง ์ ์๋ continuous piecewise linear functions ์ ๋ํ๋ธ๋ค. ์๋ Figure๋ฅผ ๋ณด๋ผ. (๊ฐ๊ฐ์ region์ ํ๋์ member of family of equations์ผ๋ก ๋ด๋ ์ข๋ค.)
์ ์ ๋ ๊ฒ ๋๋์ง ์ค๋ช ํ๊ธฐ ์ํด ์ฒซ๋ฒ์งธ ์์ 2๋จ๊ณ๋ก ๋ค์ ๋๋๋ค. ๋จผ์ , ์๋์ ๊ฐ์ ์ค๊ฐ ๊ฐ๋ค์ ๋จผ์ ์๊ฐํ๋ค.
์ฐ๋ฆฌ๋ $h_1, h_2, h_3$๋ฅผ hidden units ๋ผ๊ณ ๋ถ๋ฅธ๋ค. ๋์งธ๋ก ์์ ๊ณ์ฐํ hidden units๋ค์ line functions๋ก ๊ณ์ฐํ์ฌ ์ต์ข ์ถ๋ ฅ์ ๊ณ์ฐํ๋ค.