Backpropagation Algorithm์ด ์ด๋ป๊ฒ ๋์ํ๋์ง์ ๋ํ ์ดํด
Forward Pass ์์ ๊ฒฐ๊ณผ๊ฐ์ ๊ณ์ฐํ๊ณ ์ ์ฅํจ.
Backward Pass ์์๋ ์ ์ฅ๋ ๊ฒฐ๊ณผ๊ฐ์ chain rule ์ ๋ฐ๋ผ ์๋์ ๊ฐ์ด ๊ณ์ฐ.
( ) ๊ดํธ ์ณ์ง ๋ถ๋ถ์ Backward pass ์์ ์์ ๊ณ์ฐ๋ ๊ฐ๋ค์. ๋ฐ๋ผ์ ๊ดํธ ๋ฐ์ ์๋ ๊ฐ๋ค๋ง ๊ณ์ฐํ๋ค.
Parameter Initialization ์ ํ์ต์ด ์์ ์ ์ผ๋ก ๋๊ธฐ ์ํด์ ๊ฐ ํ๋ผ๋ฏธํฐ๋ค์ด์ ๊ฒฐ๊ณผ๋ค์ด ๋น์ทํ ๋ถํฌ๋ฅผ ๊ฐ๋๋ก ์ด๊ธฐํํ๋ ๋ฐฉ๋ฒ์.
Fig 7.7. Weight Initialization. ๋ชจ๋ ๋ ์ด์ด์ D_h ๊ฐ 100์ธ ๊ฒฝ์ฐ์ a) ๋ forward pass ์ ๊ฐ layer ๋ณ activations์ ํฌ๊ธฐ๋ฅผ, b) ๋ backward pass ์ gradients ์ ํฌ๊ธฐ๋ฅผ ์๊ฐ์ ์ผ๋ก ํํํ ๊ฒ์ด๋ค. ๊ฐ ๋ ์ด์ด์ weights์ ๋ถํฌ๊ฐ 2/D_h = 0.02 ์ผ ๋ forward pass, backward pass์์์ activations, gradients ๊ฐ ์์ ์ ์ผ๋ก ์ ์ง ๋๋ ๊ฒ์ ๋ณผ ์ ์๋ค. 0.02 ๋ณด๋ค ์์ผ๋ฉด vanishing gradient, 0.02 ๋ณด๋ค ํฌ๋ฉด exploding gradient ๋ฌธ์ ๊ฐ ๋ฐ์ํ ์ ์๋ค.
ํ์ต์ด ๋ถ์์ : โ vanishing (or exploding) gradients problem
๋ณธ ๊ต์ฌ์์ ์ ์ํ ๋ฐฉ๋ฒ: He Initialization
์ด์ ์ Chatper 6 ์์ iterative optimization algorithms ๋ค์ ๊ณต๋ถํ์๋ค. ์ด๋ค์ ์ด๋ค function์ ์ต์๊ฐ์ ์ฐพ๋ ๋ฒ์ฉ์ ์ธ ์ ๊ทผ๋ฒ๋ค์ด๋ค. Neutral network์ ๊ด์ ์์๋ input์ด ์ฃผ์ด์ก์ ๋ ์ ํํ output์ ์์ธกํ๋๋ก loss๋ฅผ ์ต์ํํ๋ ํ๋ผ๋ฏธํฐ๋ฅผ ์ฐพ๋ ๊ฒ์ผ๋ก ๋ณผ ์ ์๋ค. ๊ฐ์ฅ ๊ธฐ๋ณธ์ ์ธ ๋ฐฉ๋ฒ์ ์ด๊ธฐ ํ๋ผ๋ฏธํฐ๋ฅผ ๋๋คํ๊ฒ ์ค์ ํ๊ณ loss๋ฅผ ์ต์ํ ํ๋ loss์ ํ์ฌ ํ๋ผ๋ฏธํฐ์ ๋ํ ๋ฏธ๋ถ๊ฐ, ์ฆ gradient๋ฅผ ๊ณ์ฐํ๋ค.
๋ณธ ์ฑํฐ์์๋ ํฌ๊ฒ ๋ ๊ฐ์ง ์ด์๋ฅผ ์ค์ ์ ์ผ๋ก ๋ค๋ฃฌ๋ค.
๋ค์๊ณผ ๊ฐ์ ๋ด๋ด๋ท, $\bold{f[x, \phi]}$, input, $\bold{x}$, ํ๋ผ๋ฏธํฐ, $\phi$์ 3๊ฐ์ hidden layers,$\bold{h_1, h_2, h_3}$ ๋ฅผ ์๊ฐํด๋ณด์.
activation function, $\bold{a}[\bullet]$์ element-wisely ์ฐ์ฐ๋๋ค. $\phi = \{\bold{\beta_i, \Omega_i}\}_{i=1}^3$ ์ผ๋ก ์ ์๋๋ค. **$\beta$**๋ vector bias, $\bold{\Omega}$ ๋ weight matrix์ด๋ค. ์ ๋ชจ๋ธ์ ๊ทธ๋ฆผ์ผ๋ก ํํํ๋ฉด ์๋ Fig 7.1 ์ ๊ฐ๋ค.
Fig 7.1 Backpropagation forward pass.
label, $y_i$, prediction, $\bold{f[x_i, \phi]}$ ์์ distance์ธ $l_i = (f[\bold{x_i, \phi}] - y_i)^2$ ์ ๊ฐ์ด $i$๋ฒ์งธ ๋ฐ์ดํฐ์ ๋ํ loss, $l_i$ ๋ฅผ ๊ณ์ฐํ ์ ์์ ๋ total loss๋ ์๋์ ๊ฐ์ด ๊ณ์ฐ๋๋ค.
๋ณธ ์ฑํฐ์์๋ optimization algorithm์ผ๋ก Stochastic Gradient Descent (SGD)๋ฅผ ์ฌ์ฉํ๋ค.