residual connection
(skip connection) ๊ณผ batch normalization
์ ๋ํ์ฌ ๊ณต๋ถํ๋ค.Residual connection
๊ณผ batch normalization
์ ๊ฐ์ด ์ฌ์ฉํ์ฌ ๋ชจ๋ธ์ ๋์ฑ ๊น๊ฒ ์ค๊ณํ ์ ์์์ ๋ณด์ธ๋ค. ๋ํ ์ด๋ฅผ ํ์ฉํ U-Net
, Hourglass structure
๋ ์์๋ก ์ดํด๋ณธ๋ค.์ง๊ธ๊น์ง ๋ด์๋ networks๋ค์ ๋ชจ๋ Fig. 11์ Eq. 11.1 ์ ๊ฐ์ด sequential ํ๊ฒ ์ฐ์ฐํ์๋ค.
์ฐ๋ฆฌ๋ ์ํ๋ค๋ฉด ์ผ๋ง๋ ์ง layer๋ฅผ ๋ง์ด ์์ ์ ๋ง deepํ ๋ชจ๋ธ์ ์ค๊ณํ ์ ์๋ค. ๊ณผ VGGNet (18 layers) ์ด AlexNet (8 layers) ๋ณด๋ค ์ข์ ์ฑ๋ฅ์ ๋ธ ๊ฒ์ฒ๋ผ, deeperํ ๋ชจ๋ธ์ ๋ํ ๋ ์ข์ ์ฑ๋ฅ์ ๋ผ ๊ฒ์ด๋ผ๊ณ ๊ธฐ๋ํ ์ ์๋ค.
ํ์ง๋ง Fig. 11.2์์ ๋ณด์ด๋ ์คํ์ ์คํ๋ ค layer๋ฅผ ๊น๊ฒ ์์์ ๋ (56 layers) ์๊ฒ ์์ ๋ชจ๋ธ (20 layers) ๋ณด๋ค training, test ๋ชจ๋ ์์ ๋ ์์ข์ ์ฑ๋ฅ์ ๋ณด์์ ๋ณผ ์ ์๋ค.
์ด๋ฌํ ํ์์ ์์ธ์ ์์ง ๋ช ํํ ๋ฐํ์ง์ง ์์๋ค. ํ๊ฐ์ง ์ถ์ธก์ initialization ๋จ๊ณ์์, ๋ชจ๋ธ์ early layers์ parameters๋ฅผ update ํ ๋ loss gradients ๊ฐ ์์ธก ๋ถ๊ฐํ๊ฒ ๋ณํ๊ธฐ ๋๋ฌธ์ด๋ผ๊ณ ๋ณผ ์ ์๋ค. ์์ He initialization ๊ณผ ๊ฐ์ ๋ฐฉ๋ฒ์ผ๋ก parameters๋ฅผ ์ ์ ํ initialize ํ๋ฉด ํ์ง ์์์ ๋๋ณด๋ค gradient ์ ๋ณํ๊ฐ ๊ทธ๋ ๊ฒ ์ฌํ์ง ์๋ค.
ํ์ง๋ง, Gradient descent์ ๊ฐ์ finite ํ step์ ํฌ๊ธฐ๋ฅผ ๊ฐ๋ optimization algorithm๊ณผ ๋ฌ๋ฆฌ, ์ค์ gradient๋ parameters์ infinitesimal ํ ๊ตฌ๊ฐ ($\Delta x \rightarrow 0$) ์์์ ๊ธฐ์ธ๊ธฐ๋ฅผ ๊ตฌํ ๊ฒ์ด๋ค. ์๋ฌด๋ฆฌ step size ๋ฅผ ์ ์ ํํ๋๋ผ๋ loss surface๊ฐ step size ๋ณด๋ค ์์ ๊ณต๊ฐ์์ ๋ณ๋์ฑ์ด ํฌ๋ค๋ฉด, update ๋ parameters ๋ ์ ํ ์๋ฑํ ๊ณณ์ ๋๋ฌํ ์๋ ์๋ค.
early layers์์์ gradient ๊ฐ ์์ธก ๋ถ๊ฐ๋ฅํ๊ฒ ๋ณํด์ ๋ชจ๋ธ์ด ๊น์ด์ง ์ ์๋ค๋ ๊ฐ์ ์ ํ๋์ ๋ ์ด์ด๋ฅผ ๊ฐ๋ ๋ชจ๋ธ์ ๊ฐ์ง๊ณ ์ด๋ฅผ ๋ท๋ฐ์นจ ํ ์ ์๋ค.
Fig. 11.3a) ์ ํ๋์ ๋ ์ด์ด๋ฅผ ๊ฐ๋ ๋ชจ๋ธ์ ๊ฐ x๊ฐ์ ๋ํ gradient ์ด๋ค. $x$์ ๊ฐ์ ๋ฐ๋ผ gradient ์ ๋ณ๋์ฑ์ด ํฌ์ง ์๋ค. (๊ฐ $x$ ์์์ ๊ธฐ์ธ๊ธฐ๋ฅผ ๋ณด๋ฉด๋จ.). ๋ฐ๋ฉด, Fig. 11.3b)์์๋ 24๊ฐ์ ๋ ์ด์ด๋ฅผ ๊ฐ๋ ์๋์ ์ผ๋ก ๊น์ ๋คํธ์ํฌ๋ $x$๊ฐ ๋ณํจ์ ๋ฐ๋ผ gradient๊ฐ ์์ธก ๋ถ๊ฐํ๊ฒ ๋ณํ๋ ๊ฒ์ ๋ณผ ์ ์๋ค. ($x$์ ์์ ๋ณํ์๋ gradient ๊ฐ ํฐ ํญ์ผ๋ก ๋ณํ๊ธฐ ๋๋ฌธ์ parameter์ update๋ ๋ถ๊ท์น์ ์ผ๋ก ๋ ๊ฐ๋ฅ์ฑ์ด ๋๋ค๊ณ ๋ณผ ์ ์์ ๊ฒ ๊ฐ๋ค.)
์ด๋ฌํ gradient๋ค์ ๋ณํ์ autocorrelation ์ ๊ตฌํ๋ฉด Fig. 11.3c) ์ ๊ฐ์ด ๊ตฌํด๋ณผ ์ ์๋ค. layer๊ฐ ๊น์ด์ง ์๋ก $\Delta x$ ๊ฐ ์์ฃผ ์์ ๋๋ง autocorrelation ๊ฐ์ด ํฐ ๊ฒ์ ๋ณผ ์ ์๋ค. ์ด๋ฌํ ํ์์ shattered gradients phenomenon
์ด๋ผ๊ณ ํ๋ค.
Shattered gradient ๋ ๋ชจ๋ธ์ด ๊น์ด์ง ์๋กฃ early layers์ ๋ณํ๊ฐ output์ ๊ต์ฅํ ๋ณต์กํ ๋ฐฉ๋ฒ์ผ๋ก ๊ณ์ฐํ๊ธฐ ๋๋ฌธ์ ๋ฐ์ํ๋ค๊ณ ๋ณผ ์ ์๋ค.
Eq. 11.3 ์์๋ $\bold{f_1}$ ์ gradient ๋ฅผ ๊ณ์ฐํ๊ธฐ ์ํด์๋ $\bold{f_2, f_3, f_4}$ ์ gradient ๋ฅผ chain rule ์ ๋ฐ๋ผ ์์ฐจ์ ์ผ๋ก ๊ณฑํด์ผํ๋ค๋ ๊ฒ์ ๋ณผ ์ ์๋ค. ๋ฐ๋ผ์ $\bold{f_1}$ ์ ์ํฅ์ ์ฃผ๋ parameter ๋ฅผ update ํ๋ฉด $\bold{f_2, f_3, f_4}$ ์๋ ์ํฅ์ ์ค ์ ๋ฐ์ ์๋ค. ๊ฒฐ๊ณผ์ ์ผ๋ก ๋งค training example ์ ๋ํ์ฌ ๊ตฌํ gradient ๊ฐ ๊ต์ฅํ messy ํ ์ ๋ฐ์ ์์ ๊ฒ์ด๋ค.