์ด์ ์ ์ฑํฐ๋ค์์ ๋ด๋ด๋ท, loss ํจ์ ๊ทธ๋ฆฌ๊ณ ํ์ต ์๊ณ ๋ฆฌ์ฆ ๋ฑ์ ๊ณต๋ถํ์๋ค. ์ด๋ฒ ์ฑํฐ์์๋ ํ์ต๋ ๋ชจ๋ธ์ ์ฑ๋ฅ์ ํ๊ฐํ๋ ๋ฐฉ๋ฒ์ ๋ํด ๊ณต๋ถํ๋ค. ์ถฉ๋ถํ capacity ๋ฅผ ๊ฐ๋ ๋ชจ๋ธ์ ํ์ต ๋ฐ์ดํฐ์
์ ๋ํ์ฌ ์๋ฒฝํ๊ฒ fit ๋ ์ ์๋ค. ํ์ง๋ง ์ด๋ฌํ ์ฌ์ค์ด ๊ผญ ํ
์คํธ ์
์ ๋ํ์ฌ ์ generalize ํ๋ค๊ณ ๋ณด๊ธฐ ์ด๋ ต๋ค.
test errors์ ์ธ ๊ฐ์ง ์๋ก ๋ค๋ฅธ ์ด์ ์ ๋ค์ ์ธ ๊ฐ์ง ํญ๋ชฉ์ ๋ํ ์ด๋ค์ ์๋์ ์ธ ์ํฅ (relative contributions) ๋ ์ดํด๋ณธ๋ค. [(1) task์ inherent uncertainty, (2) ํ์ต ๋ฐ์ดํฐ์ ์, (3) ๋ชจ๋ธ์ ์ ํ]

Fig. 8.1์์ ์ ์ํ ๊ฒ๊ณผ ๊ฐ์ MNIST-1D ๋ฐ์ดํฐ์ ์ ๊ฐ์ง๊ณ ๋ชจ๋ธ์ ์ฑ๋ฅ์ ์ธก์ ํด๋ณธ๋ค. ์ด๋ค์ $0-9$ ์ digits์ ๋์๋๋ $y=\{0, ..., 9\}$ ๋ก ๊ตฌ์ฑ๋๋ค. a) ๋ ๊ฐ digit์ ์์ templates ์ด๋ค. b) ๋ ํด๋น template์ ๋๋คํ๊ฒ transform ํ ๊ฒ์ด๋ฉฐ c) ๋ noise๋ฅผ ๋ํ๋ค. d) ๋ ์ด๋ฅผ ์ ์ ํ offset์ผ๋ก ์ด 40๊ฐ๋ก ์๋ผ๋ธ ๊ฒ์ด๋ค.
๋ฐ๋ผ์ ์ ๋ ฅ dimension, $D_i=40$, ์ถ๋ ฅ dimension, $D_o=10$, hidden width $= 100$ ์ ๊ฐ๋ ๋ชจ๋ธ์ ์ค๊ณํ๊ณ ์ถ๋ ฅ๊ฐ์ softmax ํจ์์ ์ฃผ์ด ์ต์ข ์ ์ผ๋ก ํ๋ฅ ๊ฐ์ ๋ํ๋ด๋๋ก ํ์๋ค. ์ด๋ฅผ batch size = $100$, LR์ $0.1$ ์ ์ด $150$ epochs ๋งํผ ํ์ต์์ผฐ๋ค. ๊ทธ๋ฌ๋ฉด ์ฝ 4000 steps ์ฏค์ ํ์ต ๋ฐ์ดํฐ๋ฅผ ์๋ฒฝํ๊ฒ ๋ถ๋ฅํ๋ฉฐ loss๋ ๊ฑฐ์ 0์ ์๋ ดํ๋ค.
ํ์ง๋ง ํ์ต ๋ฐ์ดํฐ๋ฅผ ์๋ฒฝํ๊ฒ ์์ธกํ๋ค๊ณ ์ข์ ๋ชจ๋ธ์ ์๋๋ค. ๋ชจ๋ธ์ ํ์ต ๋ฐ์ดํฐ๋ฅผ ์์ ํต์งธ๋ก ์ธ์๋ฒ๋ฆด ์ ์์ผ๋ฉฐ ์ด๋ด ๊ฒฝ์ฐ ์๋ก์ด ๋ฐ์ดํฐ์ ๋ํด์ ์ข์ ๊ฒฐ๊ณผ๋ฅผ ์ป์ง ๋ชปํ๋ค.
๋ฐ๋ผ์ ๋ชจ๋ธ์ โ์ง์งโ ์ฑ๋ฅ์ ์ธก์ ํ๊ธฐ ์ํด์ ํ ์คํธ ์ ์ ๋ฐ๋ก ๋ถ๋ฆฌํด์ผํ๋ค. ์ด๋ฅผ ์ํด ์ฝ 1000๊ฐ์ test sample์ ์์ฑํ์๋ค.

Fig. 8.2 ๋ test set์ ๋ํ ํ์ต ์๋ฌ ๋ฐ loss๋ฅผ ๋ํ๋ธ ๊ฒ์ด๋ค. ํ์ต error ๋ ์ ์ ๊ฐ์ํ๊ธฐ๋ ํ์ง๋ง 40% ์ธ์ ๋ฆฌ์์ ๋ด๋ ค๊ฐ์ง ๋ชปํ๊ณ ์์ผ๋ฉฐ train set ์ ๋นํ๋ฉด ํ์ฐธ์ด๋ ํฌ๋ค. train set ์ ๋ํด์๋ ์๋ฒฝํ๊ฒ ํ์ตํ์ง๋ง test set์ ๋ํด์๋ ์ ์์ธกํ์ง ๋ชปํ๋ฏ๋ก ๋ชจ๋ธ์ ์ generalized ๋์ง ๋ชปํ์๋ค.
loss๋ ๋ฐ๋ฉด ์ด๋ ์๊ฐ๊น์ง๋ ๊ฐ์ํ๋ค๊ฐ ์ฆ๊ฐํ๊ฒ ๋๋ค. ํ์ง๋ง ํ์ต error ๋ ๊ฑฐ์ ๊ทธ๋๋ก ์ ์ง๋๋ค. ์ด๋ ๋ชจ๋ธ์ด ํ์ต์ ๊ฑฐ๋ญํ ์๋ก ๋ ๋์ confidence๋ก ํ๋ฆฌ๊ธฐ ๋๋ฌธ์ ๋ฐ์ํ๋ ํ์์ด๋ค. ์ด๋ ํ๋ฅ ์ 1๋ก ๋ง์ถ๊ธฐ ์ํด pre-activation ์ด ๋ฌดํ๋๋ก ์ปค์ ธ์ผํ๋ softmax ํจ์์ ๋ถ์์ฉ ๋๋ฌธ์ ๋ฐ์ํ๋ค.
๋ณธ ์น์ ์์๋ ๋ชจ๋ธ์ด generalize ์ ์คํจํ์ ๋ ์๊ธฐ๋ error ์ ์์ธ์ ์ดํด๋ณธ๋ค. ์ง๊ด์ ๋์ด๊ธฐ ์ํด ์์ฃผ ๊ฐ๋จํ ์์๋ฅผ ๋ ๋ค.

Fig. 8.3 ์ quasi-sinusoidal function ์ ๋ณด์ธ๋ค. ์ฌ๊ธฐ์ training set๊ณผ test set ์ $[0, 1]$ ์์ sampling ํ๋ฉฐ ๊ณ ์ ๋ variance ๋ฅผ ๊ฐ๋ Gaussian noise๋ฅผ ๋ํ๋ค.

์ด๋ฅผ ์ํด Fig. 8.4 ์ ๊ฐ์ ์์ฃผ ๊ฐ๋จํ shallow neural network ๋ฅผ ํ์ต์ํจ๋ค. ์ฌ๊ธฐ์ ๋ฌธ์ ๋ฅผ ๋ ์ฝ๊ฒ ๋ณด๊ธฐ ์ํด ๊ฐ weights, biases ๋ ๊ฐ โjointsโ ๋ค์ด ๊ท ๋ฑํ๊ฒ ๊ณ ๋ฃจ ๋ถํฌ๋๋๋ก ์ ํ๋๋ค.
๋ง์ฝ 3๊ฐ์ joints ๊ฐ ์๋ค๋ฉด $0, \frac{1}{3}, \frac{2}{3}$ ์ด ๋๋๋ก ํ๋ค. ๊ทธ๋ฆฌ๊ณ ์ ์ ํ optimization ์ ํตํด loss๊ฐ globabl minimum ์ ๋๋ฌํ์๋ค๊ณ ๊ฐ์ ํ๋ค.