local-minima
๋ saddle points
๋ฅผ ํฌํจํ ์ ์๋ค. Stochastic Gradient Descent (SGD) ๋ ์ด๋ฌํ ๋ฌธ์ ๋ฅผ ์ด๋ ์ ๋ ํด๊ฒฐํ ์ ์๋ค.batch
ํน์ minibatch
๋ผ๊ณ ํ๋ค. ์ด batch์ ๋ํ์ฌ loss์ gradient๋ฅผ ๊ณ์ฐํ๋ค. ์ด๋ฌํ ์ ๊ทผ์ gradient์ noise๋ฅผ ๋ํ๋ค๊ณ ๋ณผ ์ ์๊ณ ์ด๋ฌํ ๊ณผ์ ์์ ์์ local minima, saddle points๋ฅผ ํผํ๋๋ก ํ๋ฉฐ ํ์ต ๋ฐ์ดํฐ๋ฅผ ๋ ์ ์ผ๋ฐํํ๋ค.momentum term
์ ์ถ๊ฐํ๋ ๊ฒ์ด ํ์ต์ ํจ๊ณผ์ ์ผ๋ก ๋์ธ ์ ์์์ ๋ณด์๊ณ , Vanilla momentum, Nesterov Accelerated momentum, Adaptive Momentum Estimate (Adam) ๊น์ง ์ดํด๋ณด์๋ค.Chapter 3, 4 ์์๋ SNN, DNN์ ๋ํ์ฌ ๊ณต๋ถํ์๋ค. ์ด๋ฌํ ๋ชจ๋ธ๋ค์ ํ๋ผ๋ฏธํฐ๋ค์ด ์ด๋ค ํจ์๋ฅผ ๋ํ๋ด๋ ์ฌ๋ฌ ๊ฐ์ piecewise line function๋ค๋ก ํํ๋๋ค. Chapter 5์์๋ loss ์ ๋ํ์ฌ ๊ณต๋ถํ์๋ค. ์ด๋ ํ์ต ๋ฐ์ดํฐ์ ๋ํ์ฌ ground truth (GT = ์ ๋ต) ๊ณผ ๋ชจ๋ธ์ prediction ๊ฐ์ mismatch ๋ฅผ ๋ํ๋ด๋ ํ๋์ ์ค์นผ๋ผ ๊ฐ์ด๋ค.
loss๋ ๋ชจ๋ธ์ ํ๋ผ๋ฏธํฐ์ ๋ฐ๋ผ ๊ฒฐ์ ๋๋ ๊ฐ์ด๊ณ , ๋ณธ ์ฑํฐ์์๋ loss๊ฐ ์ต์๊ฐ์ ๊ฐ๋ ํ๋ผ๋ฏธํฐ๋ฅผ โ์ด๋ป๊ฒ ์ฐพ๋์งโ ์ ๋ํ์ฌ ๊ณต๋ถ๋ฅผ ํ๋ค. ์ด๋ฌํ ๋ฐฉ๋ฒ์ learning, training ํน์ fitting ์ด๋ผ๊ณ ํ๋ค.
๋จผ์ ํ๋ผ๋ฏธํฐ์ ๊ฐ์ ์ด๊ธฐํํ๊ณ ํฌ๊ฒ ๋ค์๊ณผ ๊ฐ์ ๋ ๊ฐ์ ์คํ ์ ๋ฐ๋ฅธ๋ค.
์ฌ๋ฌ ๋ฐ๋ณต ๋ค์ loss function์ ์ ๋ฐ์ ์ธ minimum์ ๋๋ฌํ๊ธฐ๋ฅผ ๊ธฐ๋ํ๋ค. (fitting์ ์ค๋จธ๋์ฆ์ ์์ญ..)
optimization algorithm ์ ์ต์ข ๋ชฉํ๋ ๋ฐ๋ก loss๋ฅผ ์ต์ํํ๋ ํ๋ผ๋ฏธํฐ, $\hat{\phi}$๋ฅผ ์ฐพ๋ ๊ฒ์ด๋ค.
$$ \hat{\phi} = \displaystyle\argmin_{\phi}\bigg[L[\phi]\bigg], \\\text{Eq. 6.1} $$
๋ค์ํ optimization algorithm์ด ์กด์ฌํ์ง๋ง ๋ณดํต neural network ๋ฅผ ํ์ตํ๋ ์ผ๋ฐ์ ์ธ ๋ฐฉ๋ฒ์ ๋จผ์ ํ๋ผ๋ฏธํฐ์ ๊ฐ์ ํด๋ฆฌ์คํฑ (ํด๋ฆฌ์คํฑ์ ๋ง์ด ์ข์ ํด๋ฆฌ์คํฑ์ด์ง ๊ทธ๋ฅ ๊ฐ์ผ๋ก ๋๋ ค๋ฐ๋ ๊ฒ.) (initialization ์ ๋ํด์๋ ํ์ ํ ์์ ) ํ๊ฒ initialization ํ๊ณ loss๊ฐ ์ค์ด๋๋ ์ผ๋ จ์ ๋ฐฉ๋ฒ์ ๋ฐ๋ณตํ์ฌ (iterative) optimization ํ๋ ๊ฒ์ด๋ค.
์ด๋ฌํ ์๊ณ ๋ฆฌ์ฆ ์ค์์ ๊ฐ์ฅ ์ฌํํ ๋ฐฉ๋ฒ์ gradient descent ์ด๋ค. ์ด๋ ๋จผ์ ํ๋ผ๋ฏธํฐ, $\phi = [\phi_0, \phi_1, ..., \phi_N]^T$ ๋ก ์ด๊ธฐํ ํ๊ณ ์๋ ๋ step์ ๋ฐ๋ณตํ๋ค.
Step 1. $\phi$์ ๋ํ loss์ gradient ๋ฅผ ๊ณ์ฐํ๋ค.