์์ 3๊ฐ์ ์ฑํฐ์์๋ linear regression, shallow network ๊ทธ๋ฆฌ๊ณ deep network์ ๋ํด ๊ณต๋ถํ๋ค. ๊ฐ ์ฑํฐ์์ input๊ณผ output์ ๋งตํํ๋ family of functions๋ฅผ ์ดํด๋ณด์๊ณ , ๊ฐ family of functions๋ ํ๋ผ๋ฏธํฐ $\phi$ ์ ์ํด ๊ฒฐ์ ๋๋ค. ์ด๋ฌํ ๋ชจ๋ธ๋ค์ ํ์ตํ๋ ๊ฒ์ ์ฐ๋ฆฌ๊ฐ ํ๊ณ ์ ํ๋ ๋ฌธ์ ์ ๋ํ์ฌ ๊ฐ๋ฅํ ์ต์ ์ โinput โ outputโ์ ๋งตํํ๋ ํ๋ผ๋ฏธํฐ $\phi$๋ฅผ ์ฐพ๋ ๊ฒ์ด๋ค. ๋ณธ ์ฑํฐ์์๋ โbest possibleโ ๋งตํ์ด ์๋ฏธํ๋ ๊ฒ์ด ๋ฌด์์ธ์ง๋ฅผ ์ ์ํ๋ค.
์ด๋ฌํ ์ ์๋ input/output pair๊ฐ ์๋ ํ๋ จ๋ฐ์ดํฐ, $\{ \bold{x_i, y_i} \}$ ๊ฐ ํ์ํ๋ค. loss function ํน์ cost function, $L[\phi]$๋ ํ์ต์ํค๋ ๋ชจ๋ธ์ prediction, $\bold{f[x_i, \phi]}$์ ์ด์ ๋์ํ๋ ground-truth, $\bold{y_i}$ ๊ฐ ์ผ๋ง๋ ์๋ก โ๋ค๋ฅธ์งโ์ ๋ํ ๊ฐ์ returnํ๋ค. ํ์ต ์ค์๋, ํ์ต ๋ฐ์ดํฐ์ input๊ณผ output์ ๋งตํ์ ๊ฐ๋ฅํํ loss๊ฐ ์ต์๊ฐ ๋๋๋กํ๋ ํ๋ผ๋ฏธํฐ $\phi$๋ฅผ ์ฐพ๋๋ค. ์ฑํฐ2์์ MSE Loss๋ฅผ ๋ณด์๋๋ฐ ์ด๊ฒ ์ ์ ์ ํ ํจ์์๋์ง๋ฅผ ์ดํด๋ณธ๋ค.
๋ณธ ์ฑํฐ๋ $\R$(์ค์)๋ฅผ ๊ฐ๋ ์ถ๋ ฅ์ ๋ํ์ฌ ์ MSE๋ฅผ ์ฌ์ฉํ๋์ง์ ๋ํด ์ค๋ช ํ๊ณ ๋ค๋ฅธ ํ์ ์ prediction์ ๋ํ loss function์ ์ค๊ณํ๋ ๋ฐฉ๋ฒ์ ์ ๊ณตํ๋ framework์ ์ ๊ณตํ๋ค.
๋ชจ๋ธ์ด ์ ๋ ฅ, $\bold{x}$๋ฅผ ๋ฐ์์ ์ถ๋ ฅ, $\bold{y}$๋ฅผ ์ง์ ๊ณ์ฐํ๋ ๊ด์ ์์ ์ถ๋ ฅ์ ๋ํ โํ๋ฅ ๋ถํฌโ๋ฅผ ์์ธกํ๋ ๊ด์ ์ผ๋ก ์ฎ๊ธด๋ค. ์ ๋ฆฌ ํ์๋ฉด, ์ถ๋ ฅ space์์ ์ ์๋ ํ๋ฅ ๋ถํฌ, $Pr(\bold{y|\theta})$ ์ ํ๋ผ๋ฏธํฐ, $\theta$๋ฅผ ์์ธกํ๋ ๋ชจ๋ธ, $\theta = f[\bold{x, \phi}]$ ๋ฅผ ์ค๊ณํ๋ค.
ํ๋ฅ ๋ถํฌ์ ๊ด์ ์์ ์ถ๋ ฅ์ ํด์ํ๊ธฐ ๋๋ฌธ์ ์์ฐ์ค๋ฝ๊ฒ ๋ชจ๋ธ์ ํ์ตํ๋ ๊ฒ์ likelihood ๋ฅผ ์ต๋ํํ๋ ๋ฐฉํฅ์ผ๋ก ์๊ฐํ ์ ์๋ค. ํ์ง๋ง ํธ์์, loss๋ฅผ minimize ํ๋ ๊ฒ์ด ์ผ๋ฐ์ ์ด๊ธฐ ๋๋ฌธ์ $-1$์ ๊ณฑํ์ฌ negative log-likelihood
๋ฅผ ์ต์ํํ์ฌ ๋ชจ๋ธ์ ํ์ตํ๋ค.
์ด๋ loss๋ฅผ ์ต์ํ ํ๋ค๋ ์ ์์ ์ธ์ด์ ์ผ๋ก conventional ํ ๋ฟ๋ง ์๋๋ผ precision์ด ์ ํ๋๋ ์ปดํจํฐ์์ ๊ณ์ฐ์ ์ ํ๋์์ ์ด์ ์ด ์๋ค.
์ด๋ฌํ ํ๋ฆ์์ ์์ฐ์ค๋ฝ๊ฒ MSE Loss๊ฐ negative log-likelihood criterion์ ์ผ์ข
์ด๋ผ๋ ๊ฒ์ ์ ๋ํ์๊ณ , ์ฌ๊ธฐ์๋ variance๊ฐ ๋์ผํ๋ค๋ ๊ฐ์ ์ด ์๋ค๋ ๊ฒ์ ์ํ์ ์ผ๋ก ๋ณด์ธ๋ค. variance ๊ฐ ์์์ธ ๋ชจ๋ธ์ homoscedastic
ํ๋ค๊ณ ํ๋ฉฐ, variance๊ฐ ์
๋ ฅ์ ๋ฐ๋ผ ๋ค๋ฅธ ๋ชจ๋ธ์ heteroscedastic
ํ๋ค๊ณ ํ๋ค.
๋ค์ํ ์ถ๋ ฅ, ๋ค์ํ tasks ์ ๋ํ์ฌ loss function์ ์ค๊ณํ๋ framework์ ๊ณต๋ถํ๋ค.
๋ง์ง๋ง์ผ๋ก Cross-Entropy Loss์ Negative log-likelihood criterion์ด ๋ณธ์ง์ ์ผ๋ก equivalence ํ๋ค๋ ๊ฒ์ ์ํ์ ๋ณด์ธ๋ค.
5.1์์๋ loss function์ ์ค๊ณํ๊ธฐ ์ํ ๊ธฐ์ด ๋จ๊ณ๋ฅผ ๊ณต๋ถํ๋ค. ๋ชจ๋ธ $\bold{f[x, \phi]}$ ๋ฅผ ์๊ฐํด๋ณด์. ์ง๊ธ๊น์ง๋ input $\bold{x}$์ ๋ํ์ฌ prediction, $\bold{y}$๋ฅผ โ์ง์ โ ๊ณ์ฐํ์๋ค. ์ง๊ธ๋ถํฐ๋ ์ฐ๋ฆฌ์ ๊ด์ ์ ์ฎ๊ฒจ ๋ชจ๋ธ์ input $\bold{x}$ ๊ฐ ์ฃผ์ด์ก์ ๋ ๊ฐ๋ฅํ ์ถ๋ ฅ $\bold{y}$์ ๋ํ conditional probability
, $Pr(\bold{y_i}|\bold{x_i})$ ๋ฅผ ๊ณ์ฐํ๋ ๊ฒ์ผ๋ก ๋ณธ๋ค.
์ด๋ฌํ ๊ด์ ์ โ๋๋์ฒด ์ด๋ป๊ฒ ๋ชจ๋ธ์ด ํ๋ฅ ๋ถํฌ๋ฅผ ๊ณ์ฐํ๋๋ฐ?โ ๋ผ๋ ์ง๋ฌธ์ ๋ณ๋๋ฐ ๋๋ต์ ๊ฐ๋จํ๋ค.,
์๋ฅผ ๋ค์ด, ์ฐ๋ฆฌ์ prediction ํ๊ณ ์ ํ๋ ์ถ๋ ฅ์ domain์ด ์ค์๋ผ๊ณ ํด๋ณด์ ($y \in \R$). ์ฌ๊ธฐ์ ์ฐ๋ฆฌ๋ univariate normal distribution (๊ณ ๋ฑํ์ ๋ ๋ฐฐ์ฐ๋ ์ผ๋ณ์ ๊ฐ์ฐ์์ ๋ถํฌ) ์ ์ ํํ ์ ์๋ค (step 1). ์ด๋ฌํ ๋ถํฌ๋ $\mathcal{N}(\mu, \sigma^2)$ ์ ๊ฐ์ด ๋ํ๋ด์ด์ง๋ค. ๋ชจ๋ธ์ ์ด๋ฌํ mean, $\mu$์ variance, $\sigma$๋ง์ ์์ธกํ๋ฉด ๋๋ค (step 2).