์ด์ ์ ์ฑํฐ๋ค์์ ๋ด๋ด๋ท, loss ํจ์ ๊ทธ๋ฆฌ๊ณ ํ์ต ์๊ณ ๋ฆฌ์ฆ ๋ฑ์ ๊ณต๋ถํ์๋ค. ์ด๋ฒ ์ฑํฐ์์๋ ํ์ต๋ ๋ชจ๋ธ์ ์ฑ๋ฅ์ ํ๊ฐํ๋ ๋ฐฉ๋ฒ์ ๋ํด ๊ณต๋ถํ๋ค. ์ถฉ๋ถํ capacity
๋ฅผ ๊ฐ๋ ๋ชจ๋ธ์ ํ์ต ๋ฐ์ดํฐ์
์ ๋ํ์ฌ ์๋ฒฝํ๊ฒ fit
๋ ์ ์๋ค. ํ์ง๋ง ์ด๋ฌํ ์ฌ์ค์ด ๊ผญ ํ
์คํธ ์
์ ๋ํ์ฌ ์ generalize
ํ๋ค๊ณ ๋ณด๊ธฐ ์ด๋ ต๋ค.
test errors์ ์ธ ๊ฐ์ง ์๋ก ๋ค๋ฅธ ์ด์ ์ ๋ค์ ์ธ ๊ฐ์ง ํญ๋ชฉ์ ๋ํ ์ด๋ค์ ์๋์ ์ธ ์ํฅ (relative contributions) ๋ ์ดํด๋ณธ๋ค. [(1) task์ inherent uncertainty, (2) ํ์ต ๋ฐ์ดํฐ์ ์, (3) ๋ชจ๋ธ์ ์ ํ]
Fig. 8.1์์ ์ ์ํ ๊ฒ๊ณผ ๊ฐ์ MNIST-1D ๋ฐ์ดํฐ์ ์ ๊ฐ์ง๊ณ ๋ชจ๋ธ์ ์ฑ๋ฅ์ ์ธก์ ํด๋ณธ๋ค. ์ด๋ค์ $0-9$ ์ digits์ ๋์๋๋ $y=\{0, ..., 9\}$ ๋ก ๊ตฌ์ฑ๋๋ค. a) ๋ ๊ฐ digit์ ์์ templates ์ด๋ค. b) ๋ ํด๋น template์ ๋๋คํ๊ฒ transform ํ ๊ฒ์ด๋ฉฐ c) ๋ noise๋ฅผ ๋ํ๋ค. d) ๋ ์ด๋ฅผ ์ ์ ํ offset์ผ๋ก ์ด 40๊ฐ๋ก ์๋ผ๋ธ ๊ฒ์ด๋ค.
๋ฐ๋ผ์ ์ ๋ ฅ dimension, $D_i=40$, ์ถ๋ ฅ dimension, $D_o=10$, hidden width $= 100$ ์ ๊ฐ๋ ๋ชจ๋ธ์ ์ค๊ณํ๊ณ ์ถ๋ ฅ๊ฐ์ softmax ํจ์์ ์ฃผ์ด ์ต์ข ์ ์ผ๋ก ํ๋ฅ ๊ฐ์ ๋ํ๋ด๋๋ก ํ์๋ค. ์ด๋ฅผ batch size = $100$, LR์ $0.1$ ์ ์ด $150$ epochs ๋งํผ ํ์ต์์ผฐ๋ค. ๊ทธ๋ฌ๋ฉด ์ฝ 4000 steps ์ฏค์ ํ์ต ๋ฐ์ดํฐ๋ฅผ ์๋ฒฝํ๊ฒ ๋ถ๋ฅํ๋ฉฐ loss๋ ๊ฑฐ์ 0์ ์๋ ดํ๋ค.
ํ์ง๋ง ํ์ต ๋ฐ์ดํฐ๋ฅผ ์๋ฒฝํ๊ฒ ์์ธกํ๋ค๊ณ ์ข์ ๋ชจ๋ธ์ ์๋๋ค. ๋ชจ๋ธ์ ํ์ต ๋ฐ์ดํฐ๋ฅผ ์์ ํต์งธ๋ก ์ธ์๋ฒ๋ฆด ์ ์์ผ๋ฉฐ ์ด๋ด ๊ฒฝ์ฐ ์๋ก์ด ๋ฐ์ดํฐ์ ๋ํด์ ์ข์ ๊ฒฐ๊ณผ๋ฅผ ์ป์ง ๋ชปํ๋ค.
๋ฐ๋ผ์ ๋ชจ๋ธ์ โ์ง์งโ ์ฑ๋ฅ์ ์ธก์ ํ๊ธฐ ์ํด์ ํ ์คํธ ์ ์ ๋ฐ๋ก ๋ถ๋ฆฌํด์ผํ๋ค. ์ด๋ฅผ ์ํด ์ฝ 1000๊ฐ์ test sample์ ์์ฑํ์๋ค.
Fig. 8.2 ๋ test set์ ๋ํ ํ์ต ์๋ฌ ๋ฐ loss๋ฅผ ๋ํ๋ธ ๊ฒ์ด๋ค. ํ์ต error ๋ ์ ์ ๊ฐ์ํ๊ธฐ๋ ํ์ง๋ง 40% ์ธ์ ๋ฆฌ์์ ๋ด๋ ค๊ฐ์ง ๋ชปํ๊ณ ์์ผ๋ฉฐ train set ์ ๋นํ๋ฉด ํ์ฐธ์ด๋ ํฌ๋ค. train set ์ ๋ํด์๋ ์๋ฒฝํ๊ฒ ํ์ตํ์ง๋ง test set์ ๋ํด์๋ ์ ์์ธกํ์ง ๋ชปํ๋ฏ๋ก ๋ชจ๋ธ์ ์ generalized
๋์ง ๋ชปํ์๋ค.
loss๋ ๋ฐ๋ฉด ์ด๋ ์๊ฐ๊น์ง๋ ๊ฐ์ํ๋ค๊ฐ ์ฆ๊ฐํ๊ฒ ๋๋ค. ํ์ง๋ง ํ์ต error ๋ ๊ฑฐ์ ๊ทธ๋๋ก ์ ์ง๋๋ค. ์ด๋ ๋ชจ๋ธ์ด ํ์ต์ ๊ฑฐ๋ญํ ์๋ก ๋ ๋์ confidence๋ก ํ๋ฆฌ๊ธฐ ๋๋ฌธ์ ๋ฐ์ํ๋ ํ์์ด๋ค. ์ด๋ ํ๋ฅ ์ 1๋ก ๋ง์ถ๊ธฐ ์ํด pre-activation ์ด ๋ฌดํ๋๋ก ์ปค์ ธ์ผํ๋ softmax ํจ์์ ๋ถ์์ฉ ๋๋ฌธ์ ๋ฐ์ํ๋ค.
๋ณธ ์น์ ์์๋ ๋ชจ๋ธ์ด generalize ์ ์คํจํ์ ๋ ์๊ธฐ๋ error ์ ์์ธ์ ์ดํด๋ณธ๋ค. ์ง๊ด์ ๋์ด๊ธฐ ์ํด ์์ฃผ ๊ฐ๋จํ ์์๋ฅผ ๋ ๋ค.
Fig. 8.3 ์ quasi-sinusoidal function ์ ๋ณด์ธ๋ค. ์ฌ๊ธฐ์ training set๊ณผ test set ์ $[0, 1]$ ์์ sampling ํ๋ฉฐ ๊ณ ์ ๋ variance ๋ฅผ ๊ฐ๋ Gaussian noise๋ฅผ ๋ํ๋ค.
์ด๋ฅผ ์ํด Fig. 8.4 ์ ๊ฐ์ ์์ฃผ ๊ฐ๋จํ shallow neural network ๋ฅผ ํ์ต์ํจ๋ค. ์ฌ๊ธฐ์ ๋ฌธ์ ๋ฅผ ๋ ์ฝ๊ฒ ๋ณด๊ธฐ ์ํด ๊ฐ weights, biases ๋ ๊ฐ โjointsโ ๋ค์ด ๊ท ๋ฑํ๊ฒ ๊ณ ๋ฃจ ๋ถํฌ๋๋๋ก ์ ํ๋๋ค.
๋ง์ฝ 3๊ฐ์ joints ๊ฐ ์๋ค๋ฉด $0, \frac{1}{3}, \frac{2}{3}$ ์ด ๋๋๋ก ํ๋ค. ๊ทธ๋ฆฌ๊ณ ์ ์ ํ optimization ์ ํตํด loss๊ฐ globabl minimum ์ ๋๋ฌํ์๋ค๊ณ ๊ฐ์ ํ๋ค.