Preface

์ด์ „์˜ ์ฑ•ํ„ฐ๋“ค์—์„œ ๋‰ด๋Ÿด๋„ท, loss ํ•จ์ˆ˜ ๊ทธ๋ฆฌ๊ณ  ํ•™์Šต ์•Œ๊ณ ๋ฆฌ์ฆ˜ ๋“ฑ์„ ๊ณต๋ถ€ํ•˜์˜€๋‹ค. ์ด๋ฒˆ ์ฑ•ํ„ฐ์—์„œ๋Š” ํ•™์Šต๋œ ๋ชจ๋ธ์˜ ์„ฑ๋Šฅ์„ ํ‰๊ฐ€ํ•˜๋Š” ๋ฐฉ๋ฒ•์— ๋Œ€ํ•ด ๊ณต๋ถ€ํ•œ๋‹ค. ์ถฉ๋ถ„ํ•œ capacity ๋ฅผ ๊ฐ–๋Š” ๋ชจ๋ธ์€ ํ•™์Šต ๋ฐ์ดํ„ฐ์…‹์— ๋Œ€ํ•˜์—ฌ ์™„๋ฒฝํ•˜๊ฒŒ fit ๋  ์ˆ˜ ์žˆ๋‹ค. ํ•˜์ง€๋งŒ ์ด๋Ÿฌํ•œ ์‚ฌ์‹ค์ด ๊ผญ ํ…Œ์ŠคํŠธ ์…‹์— ๋Œ€ํ•˜์—ฌ ์ž˜ generalize ํ–ˆ๋‹ค๊ณ  ๋ณด๊ธฐ ์–ด๋ ต๋‹ค.

test errors์˜ ์„ธ ๊ฐ€์ง€ ์„œ๋กœ ๋‹ค๋ฅธ ์ด์œ ์™€ ๋‹ค์Œ ์„ธ ๊ฐ€์ง€ ํ•ญ๋ชฉ์— ๋Œ€ํ•œ ์ด๋“ค์˜ ์ƒ๋Œ€์ ์ธ ์˜ํ–ฅ (relative contributions) ๋„ ์‚ดํŽด๋ณธ๋‹ค. [(1) task์˜ inherent uncertainty, (2) ํ•™์Šต ๋ฐ์ดํ„ฐ์˜ ์–‘, (3) ๋ชจ๋ธ์˜ ์„ ํƒ]

8.1. Training a Simple Model

Untitled

Fig. 8.1์—์„œ ์ œ์‹œํ•œ ๊ฒƒ๊ณผ ๊ฐ™์€ MNIST-1D ๋ฐ์ดํ„ฐ์…‹์„ ๊ฐ€์ง€๊ณ  ๋ชจ๋ธ์˜ ์„ฑ๋Šฅ์„ ์ธก์ •ํ•ด๋ณธ๋‹ค. ์ด๋“ค์€ $0-9$ ์˜ digits์— ๋Œ€์‘๋˜๋Š” $y=\{0, ..., 9\}$ ๋กœ ๊ตฌ์„ฑ๋œ๋‹ค. a) ๋Š” ๊ฐ digit์˜ ์˜ˆ์‹œ templates ์ด๋‹ค. b) ๋Š” ํ•ด๋‹น template์„ ๋žœ๋คํ•˜๊ฒŒ transform ํ•œ ๊ฒƒ์ด๋ฉฐ c) ๋Š” noise๋ฅผ ๋”ํ–ˆ๋‹ค. d) ๋Š” ์ด๋ฅผ ์ ์ ˆํ•œ offset์œผ๋กœ ์ด 40๊ฐœ๋กœ ์ž˜๋ผ๋‚ธ ๊ฒƒ์ด๋‹ค.

๋”ฐ๋ผ์„œ ์ž…๋ ฅ dimension, $D_i=40$, ์ถœ๋ ฅ dimension, $D_o=10$, hidden width $= 100$ ์„ ๊ฐ–๋Š” ๋ชจ๋ธ์„ ์„ค๊ณ„ํ•˜๊ณ  ์ถœ๋ ฅ๊ฐ’์„ softmax ํ•จ์ˆ˜์— ์ฃผ์–ด ์ตœ์ข…์ ์œผ๋กœ ํ™•๋ฅ ๊ฐ’์„ ๋‚˜ํƒ€๋‚ด๋„๋ก ํ•˜์˜€๋‹ค. ์ด๋ฅผ batch size = $100$, LR์€ $0.1$ ์„ ์ด $150$ epochs ๋งŒํผ ํ•™์Šต์‹œ์ผฐ๋‹ค. ๊ทธ๋Ÿฌ๋ฉด ์•ฝ 4000 steps ์ฏค์— ํ•™์Šต ๋ฐ์ดํ„ฐ๋ฅผ ์™„๋ฒฝํ•˜๊ฒŒ ๋ถ„๋ฅ˜ํ•˜๋ฉฐ loss๋Š” ๊ฑฐ์˜ 0์— ์ˆ˜๋ ดํ•œ๋‹ค.

ํ•˜์ง€๋งŒ ํ•™์Šต ๋ฐ์ดํ„ฐ๋ฅผ ์™„๋ฒฝํ•˜๊ฒŒ ์˜ˆ์ธกํ•œ๋‹ค๊ณ  ์ข‹์€ ๋ชจ๋ธ์€ ์•„๋‹ˆ๋‹ค. ๋ชจ๋ธ์€ ํ•™์Šต ๋ฐ์ดํ„ฐ๋ฅผ ์•„์˜ˆ ํ†ต์งธ๋กœ ์™ธ์›Œ๋ฒ„๋ฆด ์ˆ˜ ์žˆ์œผ๋ฉฐ ์ด๋Ÿด ๊ฒฝ์šฐ ์ƒˆ๋กœ์šด ๋ฐ์ดํ„ฐ์— ๋Œ€ํ•ด์„œ ์ข‹์€ ๊ฒฐ๊ณผ๋ฅผ ์–ป์ง€ ๋ชปํ•œ๋‹ค.

๋”ฐ๋ผ์„œ ๋ชจ๋ธ์˜ โ€œ์ง„์งœโ€ ์„ฑ๋Šฅ์„ ์ธก์ •ํ•˜๊ธฐ ์œ„ํ•ด์„œ ํ…Œ์ŠคํŠธ ์…‹์„ ๋”ฐ๋กœ ๋ถ„๋ฆฌํ•ด์•ผํ•œ๋‹ค. ์ด๋ฅผ ์œ„ํ•ด ์•ฝ 1000๊ฐœ์˜ test sample์„ ์ƒ์„ฑํ•˜์˜€๋‹ค.

Untitled

Fig. 8.2 ๋Š” test set์— ๋Œ€ํ•œ ํ•™์Šต ์—๋Ÿฌ ๋ฐ loss๋ฅผ ๋‚˜ํƒ€๋‚ธ ๊ฒƒ์ด๋‹ค. ํ•™์Šต error ๋Š” ์ ์  ๊ฐ์†Œํ•˜๊ธฐ๋Š” ํ•˜์ง€๋งŒ 40% ์–ธ์ €๋ฆฌ์—์„œ ๋‚ด๋ ค๊ฐ€์ง€ ๋ชปํ•˜๊ณ  ์žˆ์œผ๋ฉฐ train set ์— ๋น„ํ•˜๋ฉด ํ•œ์ฐธ์ด๋‚˜ ํฌ๋‹ค. train set ์— ๋Œ€ํ•ด์„œ๋Š” ์™„๋ฒฝํ•˜๊ฒŒ ํ•™์Šตํ–ˆ์ง€๋งŒ test set์— ๋Œ€ํ•ด์„œ๋Š” ์ž˜ ์˜ˆ์ธกํ•˜์ง€ ๋ชปํ•˜๋ฏ€๋กœ ๋ชจ๋ธ์€ ์ž˜ generalized ๋˜์ง€ ๋ชปํ•˜์˜€๋‹ค.

loss๋Š” ๋ฐ˜๋ฉด ์–ด๋Š ์ˆœ๊ฐ„๊นŒ์ง€๋Š” ๊ฐ์†Œํ•˜๋‹ค๊ฐ€ ์ฆ๊ฐ€ํ•˜๊ฒŒ ๋œ๋‹ค. ํ•˜์ง€๋งŒ ํ•™์Šต error ๋Š” ๊ฑฐ์˜ ๊ทธ๋Œ€๋กœ ์œ ์ง€๋œ๋‹ค. ์ด๋Š” ๋ชจ๋ธ์ด ํ•™์Šต์„ ๊ฑฐ๋“ญํ•  ์ˆ˜๋ก ๋” ๋†’์€ confidence๋กœ ํ‹€๋ฆฌ๊ธฐ ๋•Œ๋ฌธ์— ๋ฐœ์ƒํ•˜๋Š” ํ˜„์ƒ์ด๋‹ค. ์ด๋Š” ํ™•๋ฅ ์„ 1๋กœ ๋งž์ถ”๊ธฐ ์œ„ํ•ด pre-activation ์ด ๋ฌดํ•œ๋Œ€๋กœ ์ปค์ ธ์•ผํ•˜๋Š” softmax ํ•จ์ˆ˜์˜ ๋ถ€์ž‘์šฉ ๋•Œ๋ฌธ์— ๋ฐœ์ƒํ•œ๋‹ค.

8.2. Sources of Error

๋ณธ ์„น์…˜์—์„œ๋Š” ๋ชจ๋ธ์ด generalize ์— ์‹คํŒจํ–ˆ์„ ๋•Œ ์ƒ๊ธฐ๋Š” error ์˜ ์›์ธ์„ ์‚ดํŽด๋ณธ๋‹ค. ์ง๊ด€์„ ๋†’์ด๊ธฐ ์œ„ํ•ด ์•„์ฃผ ๊ฐ„๋‹จํ•œ ์˜ˆ์‹œ๋ฅผ ๋“ ๋‹ค.

Untitled

Fig. 8.3 ์€ quasi-sinusoidal function ์„ ๋ณด์ธ๋‹ค. ์—ฌ๊ธฐ์„œ training set๊ณผ test set ์„ $[0, 1]$ ์—์„œ sampling ํ•˜๋ฉฐ ๊ณ ์ •๋œ variance ๋ฅผ ๊ฐ–๋Š” Gaussian noise๋ฅผ ๋”ํ•œ๋‹ค.

Untitled

์ด๋ฅผ ์œ„ํ•ด Fig. 8.4 ์™€ ๊ฐ™์€ ์•„์ฃผ ๊ฐ„๋‹จํ•œ shallow neural network ๋ฅผ ํ•™์Šต์‹œํ‚จ๋‹ค. ์—ฌ๊ธฐ์„œ ๋ฌธ์ œ๋ฅผ ๋” ์‰ฝ๊ฒŒ ๋ณด๊ธฐ ์œ„ํ•ด ๊ฐ weights, biases ๋Š” ๊ฐ โ€œjointsโ€ ๋“ค์ด ๊ท ๋“ฑํ•˜๊ฒŒ ๊ณ ๋ฃจ ๋ถ„ํฌ๋˜๋„๋ก ์„ ํƒ๋œ๋‹ค.

๋งŒ์•ฝ 3๊ฐœ์˜ joints ๊ฐ€ ์žˆ๋‹ค๋ฉด $0, \frac{1}{3}, \frac{2}{3}$ ์ด ๋˜๋„๋ก ํ•œ๋‹ค. ๊ทธ๋ฆฌ๊ณ  ์ ์ ˆํ•œ optimization ์„ ํ†ตํ•ด loss๊ฐ€ globabl minimum ์— ๋„๋‹ฌํ•˜์˜€๋‹ค๊ณ  ๊ฐ€์ •ํ•œ๋‹ค.