GANs๋ latent noise๋ฅผ ๋ฐ์ดํฐ๋ก transform ํ๋ generator๋ฅผ ํ์ตํ์ฌ training set๊ณผ ๊ตฌ๋ถํ ์ ์๋ ๊ฒฐ๊ณผ๋ฅผ ์์ฑํ๋ค. ์ฌ๊ธฐ์ generator๋ real ๋ฐ์ดํฐ์ fake(synthesized) ๋ฐ์ดํฐ๋ฅผ ๊ตฌ๋ถํ๋๋ก ํ์ต๋๋ discriminator๋ฅผ ์ฌ์ฉํ์ฌ ํ์ต๋๋ค. Generator๋ ์์ฑ๋ ๋ฐ์ดํฐ๊ฐ discriminator๊ฐ ๊ตฌ๋ถํ ์ ์์๋งํผ โrealโํ๊ฒ ๋ง๋ค๋๋ก ํ์ต๋๋ค.
์ด๋ฌํ ํ์ต ๋ฐฉ๋ฒ์ ๊ตฌํํ ์ค๋ฆฌ์ง๋ loss ํจ์๋ ์์ฑ๋ ๋ฐ์ดํฐ๊ฐ real์ธ์ง fake์ธ์ง ๊ตฌ๋ถํ๊ธฐ ์ฝ๋ค๋ฉด training signal์ด ์ฝํ๋ค๋ ๋ฌธ์ ๊ฐ ์์๋ค. ์ด๋ฌํ ๋ฌธ์ ๋ ์ผ๊ด์ฑ ์๋ training signal ์ ์ ๊ณตํ๋๋ก ๊ณ ์๋ Wasserstein GAN ์ฐ๊ตฌ๋ฅผ ์ด๋์ด๋๋ค.
๋ณธ ์ฑํฐ์์๋ ์ด๋ฏธ์ง๋ฅผ ์์ฑํ๋ ์ฌ๋ฌ CNN ๊ธฐ๋ฐ์ GAN ๋ชจ๋ธ๋ค์ ์ดํด๋ณด๊ณ progressive growing
, mini-batch discrimination
๊ทธ๋ฆฌ๊ณ truncation
๊ณผ ๊ฐ์ ์์ฑ๋ ์ด๋ฏธ์ง์ ํ์ง์ ํฅ์ ์ํค๋ ์ฌ๋ฌ ํธ๋ฆญ๋ค๋ ๊ณต๋ถํ๋ค. Conditional GAN
, CGAN
์ํคํ
์ฒ๋ ์ถ๋ ฅ ๊ฒฐ๊ณผ๋ฅผ ์ ์ด(e.g. ์์ฑํ object์ class)ํ ์ ์๋๋ก auxilary vector๋ฅผ ์ ์ํ๋ค. Image translation task๋ ์ด๋ฌํ **โconditionโ**์ ์ด๋ฏธ์ง์ ํํ๋ก ๋ฐ๊ณ noise๋ ๋ฌด์ํ๋ค. ์ฌ๊ธฐ์ discriminator๋ ์์ฑ๋ ์ด๋ฏธ์ง๊ฐ ๋์ฑ โrealisticโ ํ๋๋ก ํ์ตํ๋ loss term์ผ๋ก ์ฌ์ฉ๋๋ค.
๋ง์ง๋ง์ผ๋ก StyleGAN
์ ์๊ฐํ๋ค. ์ด๋ noise, ์ฆ latent variable ์ style๊ณผ noise๋ก ๋๋์ด ๊ฐ scale ๋ณ๋ก ์ ์ดํ๊ธฐ ์ํด ์ด๋ค์ ์ ์ ํ ํ์ฉํ๋ค.
Generative adversarial network
ํน์ GAN
์ ํ์ต ๋ฐ์ดํฐ์ ๊ตฌ๋ณํ๊ธฐ ์ด๋ ค์ด (indistinguishable) ์๋ก์ด ์ํ์ ์์ฑํ๋ unsupervised model์ด๋ค. GANs ๋ค์ ์๋ก์ด ์ํ๋ค์ ์์ฑํ๋ ๋ฉ์ปค๋์ฆ์ผ ๋ฟ์ด๊ณ ๋ชจ๋ธ๋ง๋ ๋ฐ์ดํฐ์ probability distribution ์ ๊ตฌํ์ง๋ ์๋๋ค. ๊ทธ๋์ ์๋ก์ด ๋ฐ์ดํฐ (data point) ๊ฐ ํ์ต ๋ฐ์ดํฐ์ ๋ถํฌ์ ์ํ๋์ง์ ๋ํ ํ๋ฅ ์ ๊ตฌํ ์ ์๋ค.
GAN์ ๋ฉ์ธ generator
๋คํธ์ํฌ๊ฐ random noise ๋ก๋ถํฐ output data space ๋ก์ ๋งตํ์ ํตํด ์๋ก์ด ๋ฐ์ดํฐ (e.g. ์ด๋ฏธ์ง) ๋ฅผ ์์ฑํ๋ค. ๋ง์ฝ discriminator
๊ฐ ์์ฑํ ๋ฐ์ดํฐ์ ํ์ต ๋ฐ์ดํฐ์ ๊ตฌ๋ถํ์ง ๋ชปํ๋ค๋ฉด ์์ฑ๋ ๋ฐ์ดํฐ๋ ๊ทธ๋ด๋ฏํ๊ฒ ์ (plausible) ์์ฑ๋ ๋ฐ์ดํฐ์ผ ๊ฒ์ด๋ค. ๋ง์ฝ discriminator ๊ฐ ์์ฑํ ๋ฐ์ดํฐ์ ํ์ต ๋ฐ์ดํฐ๋ฅผ ๊ตฌ๋ถํ ์ ์๋ค๋ฉด, ์ด๋ ์์ฑ๋ ๋ฐ์ดํฐ์ ํ์ง์ ํฅ์ ์ํค๋๋ก training signal ๋ก ์ฌ์ฉ๋๋ค. ์ด๋ฌํ ์์ด๋์ด๋ ๊ฐ๋จํ์ง๋ง GANs ์ ํ์ต์ํค๋ ๊ฒ์ ์ฝ์ง ์๋ค. ํ์ต ์๊ณ ๋ฆฌ์ฆ์ด ๋ถ์์ ํ ์ ์๊ณ ๋ง์ฝ GAN ์ด ์ถฉ๋ถํ plausible ํ ๋ฐ์ดํฐ๋ฅผ ์์ฑํ๋๋ผ๋ ์ด๋ฌํ ์ฌ์ค์ด GAN์ด ๊ฐ๋ฅํ โ๋ชจ๋ โ ๋ฐ์ดํฐ ์ํ์ ์์ฑํ ์ ์๋ค๊ณ ๋ณด์ฅํ๊ธฐ ์ด๋ ต๋ค.
GANs ์ ๋ค์ํ ์ข ๋ฅ์ ๋ฐ์ดํฐ์ ์ ์ฉ๋ ์ ์๋ค. ๊ฐ๋ น, audio, 3D model, text, video ๋ํ graph ๊ฐ ์๋ค. ํ์ง๋ง GANs ์ ์ค์ ์ด๋ฏธ์ง์ ๊ตฌ๋ถํ๊ธฐ ์ด๋ ค์ธ ์ ๋์ ์ด๋ฏธ์ง๋ฅผ ์์ฑํ์ฌ ์ด๋ฏธ์ง ๋๋ฉ์ธ์์ ๊ฐ์ฅ ํฐ ์ฑ๊ณต์ ๊ฑฐ๋์๋ค. ๋ณธ ์ฑํฐ๋ ์ด๋ฏธ์ง ๋๋ฉ์ธ์ ์์ฃผ๋ก ์ค๋ช ํ๋ค.
GAN์ ๋ชฉํ๋ real training data, $\{ \bold{x}_i \}$ ์ ๊ฐ์ distribution ์์ ๋ฝ์ ๋ฏํ ์๋ก์ด sample, $\{ \bold{x}_j^* \}$ ๋ฅผ ์์ฑํ๋ ๊ฒ์ด๋ค. ์๋ก์ด ์ํ ๋ฐ์ดํฐ, $\bold{x}_j^*$ ๋ ๋ค์๊ณผ ๊ฐ์ ๊ณผ์ ์ ๊ฑฐ์ณ ์์ฑ ๋๋ค.
latent variable
, $\bold{z}_j$ ๋ฅผ sampling ํ๊ณ generator
์ ์
๋ ฅ์ผ๋ก ์ฃผ์ด ์๋ก์ด ์ํ์ ์์ฑํ๋ค. $\bold{x}^* = g[\bold{z}_j^*; \theta]$ํ์ต ์์๋ ์ํ๋ง๋ ๋ฐ์ดํฐ, $\bold{x}_j^*$ ๊ฐ real data, $\bold{x}_i$ ์ ๋น์ทํ๊ฒ (โsimilarโ) ๋ณด์ด๋๋ก ํ๋ ํ๋ผ๋ฏธํฐ, $\theta$ ๋ฅผ ์ฐพ๋ ๊ฒ์ด๋ค. (See Fig. 14.2a)
Similarity ๋ ๋ค์ํ๊ฒ ์ ์๋ ์ ์์ง๋ง, GAN์ ์์ฑ๋ ์ํ์ ํต๊ณ์ ์ผ๋ก? (statistically) real data ์ ๊ตฌ๋ถํ ์ ์์ด์ผ ํ๋ค (indistinguishable) ๋ ์์น์ ๋ฐ๋ฅธ๋ค. ์ด๋ฅผ ์ํ์ฌ discriminator
๋ผ ๋ถ๋ฆฌ๋ ๋๋ฒ์งธ ๋คํธ์ํฌ, $f[\bullet, \phi]$ ๊ฐ ์๊ฐ๋์๋ค. Discriminator ์ ๋ชฉํ๋ input์ด real data ์ธ์ง ์์ฑ๋ ์ํ์ธ์ง๋ ๋ถ๋ฅํ๋ ๊ฒ์ด๋ค. ๋ง์ฝ real data โ generated sample ๋ฅผ ๊ตฌ๋ถํ ์ ์๋ค๋ฉด, ์ฐ๋ฆฌ๋ ์ฑ๊ณต์ ์ผ๋ก GAN์ ํ์ตํ๋ค๊ณ ๋ณผ ์ ์๋ค.
Fig. 15.1 ์ ์ด๋ฌํ ๊ณผ์ (scheme) ์ ๋ณด์ธ๋ค.