Take Home ๐Ÿ 

GANs๋Š” latent noise๋ฅผ ๋ฐ์ดํ„ฐ๋กœ transform ํ•˜๋Š” generator๋ฅผ ํ•™์Šตํ•˜์—ฌ training set๊ณผ ๊ตฌ๋ถ„ํ•  ์ˆ˜ ์—†๋Š” ๊ฒฐ๊ณผ๋ฅผ ์ƒ์„ฑํ•œ๋‹ค. ์—ฌ๊ธฐ์„œ generator๋Š” real ๋ฐ์ดํ„ฐ์™€ fake(synthesized) ๋ฐ์ดํ„ฐ๋ฅผ ๊ตฌ๋ถ„ํ•˜๋„๋ก ํ•™์Šต๋˜๋Š” discriminator๋ฅผ ์‚ฌ์šฉํ•˜์—ฌ ํ•™์Šต๋œ๋‹ค. Generator๋Š” ์ƒ์„ฑ๋œ ๋ฐ์ดํ„ฐ๊ฐ€ discriminator๊ฐ€ ๊ตฌ๋ถ„ํ•  ์ˆ˜ ์—†์„๋งŒํผ โ€œrealโ€ํ•˜๊ฒŒ ๋งŒ๋“ค๋„๋ก ํ•™์Šต๋œ๋‹ค.

์ด๋Ÿฌํ•œ ํ•™์Šต ๋ฐฉ๋ฒ•์„ ๊ตฌํ˜„ํ•œ ์˜ค๋ฆฌ์ง€๋„ loss ํ•จ์ˆ˜๋Š” ์ƒ์„ฑ๋œ ๋ฐ์ดํ„ฐ๊ฐ€ real์ธ์ง€ fake์ธ์ง€ ๊ตฌ๋ถ„ํ•˜๊ธฐ ์‰ฝ๋‹ค๋ฉด training signal์ด ์•ฝํ•˜๋‹ค๋Š” ๋ฌธ์ œ๊ฐ€ ์žˆ์—ˆ๋‹ค. ์ด๋Ÿฌํ•œ ๋ฌธ์ œ๋Š” ์ผ๊ด€์„ฑ ์žˆ๋Š” training signal ์„ ์ œ๊ณตํ•˜๋„๋ก ๊ณ ์•ˆ๋œ Wasserstein GAN ์—ฐ๊ตฌ๋ฅผ ์ด๋Œ์–ด๋ƒˆ๋‹ค.

๋ณธ ์ฑ•ํ„ฐ์—์„œ๋Š” ์ด๋ฏธ์ง€๋ฅผ ์ƒ์„ฑํ•˜๋Š” ์—ฌ๋Ÿฌ CNN ๊ธฐ๋ฐ˜์˜ GAN ๋ชจ๋ธ๋“ค์„ ์‚ดํŽด๋ณด๊ณ  progressive growing, mini-batch discrimination ๊ทธ๋ฆฌ๊ณ  truncation ๊ณผ ๊ฐ™์€ ์ƒ์„ฑ๋œ ์ด๋ฏธ์ง€์˜ ํ’ˆ์งˆ์„ ํ–ฅ์ƒ ์‹œํ‚ค๋Š” ์—ฌ๋Ÿฌ ํŠธ๋ฆญ๋“ค๋„ ๊ณต๋ถ€ํ•œ๋‹ค. Conditional GAN, CGAN ์•„ํ‚คํ…์ฒ˜๋Š” ์ถœ๋ ฅ ๊ฒฐ๊ณผ๋ฅผ ์ œ์–ด(e.g. ์ƒ์„ฑํ•  object์˜ class)ํ•  ์ˆ˜ ์žˆ๋„๋ก auxilary vector๋ฅผ ์ œ์•ˆํ•œ๋‹ค. Image translation task๋Š” ์ด๋Ÿฌํ•œ **โ€œconditionโ€**์„ ์ด๋ฏธ์ง€์˜ ํ˜•ํƒœ๋กœ ๋ฐ›๊ณ  noise๋Š” ๋ฌด์‹œํ•œ๋‹ค. ์—ฌ๊ธฐ์„œ discriminator๋Š” ์ƒ์„ฑ๋œ ์ด๋ฏธ์ง€๊ฐ€ ๋”์šฑ โ€œrealisticโ€ ํ•˜๋„๋ก ํ•™์Šตํ•˜๋Š” loss term์œผ๋กœ ์‚ฌ์šฉ๋œ๋‹ค.

๋งˆ์ง€๋ง‰์œผ๋กœ StyleGAN์„ ์†Œ๊ฐœํ•œ๋‹ค. ์ด๋Š” noise, ์ฆ‰ latent variable ์„ style๊ณผ noise๋กœ ๋‚˜๋ˆ„์–ด ๊ฐ scale ๋ณ„๋กœ ์ œ์–ดํ•˜๊ธฐ ์œ„ํ•ด ์ด๋“ค์„ ์ ์ ˆํžˆ ํ™œ์šฉํ•œ๋‹ค.

Preface

Generative adversarial network ํ˜น์€ GAN ์€ ํ•™์Šต ๋ฐ์ดํ„ฐ์™€ ๊ตฌ๋ณ„ํ•˜๊ธฐ ์–ด๋ ค์šด (indistinguishable) ์ƒˆ๋กœ์šด ์ƒ˜ํ”Œ์„ ์ƒ์„ฑํ•˜๋Š” unsupervised model์ด๋‹ค. GANs ๋“ค์€ ์ƒˆ๋กœ์šด ์ƒ˜ํ”Œ๋“ค์„ ์ƒ์„ฑํ•˜๋Š” ๋ฉ”์ปค๋‹ˆ์ฆ˜์ผ ๋ฟ์ด๊ณ  ๋ชจ๋ธ๋ง๋œ ๋ฐ์ดํ„ฐ์˜ probability distribution ์„ ๊ตฌํ•˜์ง€๋Š” ์•Š๋Š”๋‹ค. ๊ทธ๋ž˜์„œ ์ƒˆ๋กœ์šด ๋ฐ์ดํ„ฐ (data point) ๊ฐ€ ํ•™์Šต ๋ฐ์ดํ„ฐ์˜ ๋ถ„ํฌ์— ์†ํ•˜๋Š”์ง€์— ๋Œ€ํ•œ ํ™•๋ฅ ์„ ๊ตฌํ•  ์ˆ˜ ์—†๋‹ค.

GAN์€ ๋ฉ”์ธ generator ๋„คํŠธ์›Œํฌ๊ฐ€ random noise ๋กœ๋ถ€ํ„ฐ output data space ๋กœ์˜ ๋งตํ•‘์„ ํ†ตํ•ด ์ƒˆ๋กœ์šด ๋ฐ์ดํ„ฐ (e.g. ์ด๋ฏธ์ง€) ๋ฅผ ์ƒ์„ฑํ•œ๋‹ค. ๋งŒ์•ฝ discriminator ๊ฐ€ ์ƒ์„ฑํ•œ ๋ฐ์ดํ„ฐ์™€ ํ•™์Šต ๋ฐ์ดํ„ฐ์™€ ๊ตฌ๋ถ„ํ•˜์ง€ ๋ชปํ•œ๋‹ค๋ฉด ์ƒ์„ฑ๋œ ๋ฐ์ดํ„ฐ๋Š” ๊ทธ๋Ÿด๋“ฏํ•˜๊ฒŒ ์ž˜ (plausible) ์ƒ์„ฑ๋œ ๋ฐ์ดํ„ฐ์ผ ๊ฒƒ์ด๋‹ค. ๋งŒ์•ฝ discriminator ๊ฐ€ ์ƒ์„ฑํ•œ ๋ฐ์ดํ„ฐ์™€ ํ•™์Šต ๋ฐ์ดํ„ฐ๋ฅผ ๊ตฌ๋ถ„ํ•  ์ˆ˜ ์žˆ๋‹ค๋ฉด, ์ด๋Š” ์ƒ์„ฑ๋œ ๋ฐ์ดํ„ฐ์˜ ํ’ˆ์งˆ์„ ํ–ฅ์ƒ ์‹œํ‚ค๋„๋ก training signal ๋กœ ์‚ฌ์šฉ๋œ๋‹ค. ์ด๋Ÿฌํ•œ ์•„์ด๋””์–ด๋Š” ๊ฐ„๋‹จํ•˜์ง€๋งŒ GANs ์„ ํ•™์Šต์‹œํ‚ค๋Š” ๊ฒƒ์€ ์‰ฝ์ง€ ์•Š๋‹ค. ํ•™์Šต ์•Œ๊ณ ๋ฆฌ์ฆ˜์ด ๋ถˆ์•ˆ์ •ํ•  ์ˆ˜ ์žˆ๊ณ  ๋งŒ์•ฝ GAN ์ด ์ถฉ๋ถ„ํžˆ plausible ํ•œ ๋ฐ์ดํ„ฐ๋ฅผ ์ƒ์„ฑํ•˜๋”๋ผ๋„ ์ด๋Ÿฌํ•œ ์‚ฌ์‹ค์ด GAN์ด ๊ฐ€๋Šฅํ•œ โ€œ๋ชจ๋“ โ€ ๋ฐ์ดํ„ฐ ์ƒ˜ํ”Œ์„ ์ƒ์„ฑํ•  ์ˆ˜ ์žˆ๋‹ค๊ณ  ๋ณด์žฅํ•˜๊ธฐ ์–ด๋ ต๋‹ค.

GANs ์€ ๋‹ค์–‘ํ•œ ์ข…๋ฅ˜์˜ ๋ฐ์ดํ„ฐ์— ์ ์šฉ๋  ์ˆ˜ ์žˆ๋‹ค. ๊ฐ€๋ น, audio, 3D model, text, video ๋˜ํ•œ graph ๊ฐ€ ์žˆ๋‹ค. ํ•˜์ง€๋งŒ GANs ์€ ์‹ค์ œ ์ด๋ฏธ์ง€์™€ ๊ตฌ๋ถ„ํ•˜๊ธฐ ์–ด๋ ค์šธ ์ •๋„์˜ ์ด๋ฏธ์ง€๋ฅผ ์ƒ์„ฑํ•˜์—ฌ ์ด๋ฏธ์ง€ ๋„๋ฉ”์ธ์—์„œ ๊ฐ€์žฅ ํฐ ์„ฑ๊ณต์„ ๊ฑฐ๋‘์—ˆ๋‹ค. ๋ณธ ์ฑ•ํ„ฐ๋Š” ์ด๋ฏธ์ง€ ๋„๋ฉ”์ธ์„ ์œ„์ฃผ๋กœ ์„ค๋ช…ํ•œ๋‹ค.

15.1. Discrimination as a signal

GAN์˜ ๋ชฉํ‘œ๋Š” real training data, $\{ \bold{x}_i \}$ ์™€ ๊ฐ™์€ distribution ์—์„œ ๋ฝ‘์€ ๋“ฏํ•œ ์ƒˆ๋กœ์šด sample, $\{ \bold{x}_j^* \}$ ๋ฅผ ์ƒ์„ฑํ•˜๋Š” ๊ฒƒ์ด๋‹ค. ์ƒˆ๋กœ์šด ์ƒ˜ํ”Œ ๋ฐ์ดํ„ฐ, $\bold{x}_j^*$ ๋Š” ๋‹ค์Œ๊ณผ ๊ฐ™์€ ๊ณผ์ •์„ ๊ฑฐ์ณ ์ƒ์„ฑ ๋œ๋‹ค.

  1. ๊ฐ„๋‹จํ•œ base distribution (e.g. normal distribution) ์œผ๋กœ ๋ถ€ํ„ฐ latent variable, $\bold{z}_j$ ๋ฅผ sampling ํ•˜๊ณ 
  2. sampling ๋œ $\bold{z}_j$ ๋ฅผ ํŒŒ๋ผ๋ฏธํ„ฐ, $\bold{\theta}$ ๋ฅผ ๊ฐ–๋Š” generator ์— ์ž…๋ ฅ์œผ๋กœ ์ฃผ์–ด ์ƒˆ๋กœ์šด ์ƒ˜ํ”Œ์„ ์ƒ์„ฑํ•œ๋‹ค. $\bold{x}^* = g[\bold{z}_j^*; \theta]$

ํ•™์Šต ์‹œ์—๋Š” ์ƒ˜ํ”Œ๋ง๋œ ๋ฐ์ดํ„ฐ, $\bold{x}_j^*$ ๊ฐ€ real data, $\bold{x}_i$ ์™€ ๋น„์Šทํ•˜๊ฒŒ (โ€similarโ€) ๋ณด์ด๋„๋ก ํ•˜๋Š” ํŒŒ๋ผ๋ฏธํ„ฐ, $\theta$ ๋ฅผ ์ฐพ๋Š” ๊ฒƒ์ด๋‹ค. (See Fig. 14.2a)

Untitled

Similarity ๋Š” ๋‹ค์–‘ํ•˜๊ฒŒ ์ •์˜๋  ์ˆ˜ ์žˆ์ง€๋งŒ, GAN์€ ์ƒ์„ฑ๋œ ์ƒ˜ํ”Œ์€ ํ†ต๊ณ„์ ์œผ๋กœ? (statistically) real data ์™€ ๊ตฌ๋ถ„ํ•  ์ˆ˜ ์—†์–ด์•ผ ํ•œ๋‹ค (indistinguishable) ๋Š” ์›์น™์„ ๋”ฐ๋ฅธ๋‹ค. ์ด๋ฅผ ์œ„ํ•˜์—ฌ discriminator ๋ผ ๋ถˆ๋ฆฌ๋Š” ๋‘๋ฒˆ์งธ ๋„คํŠธ์›Œํฌ, $f[\bullet, \phi]$ ๊ฐ€ ์†Œ๊ฐœ๋˜์—ˆ๋‹ค. Discriminator ์˜ ๋ชฉํ‘œ๋Š” input์ด real data ์ธ์ง€ ์ƒ์„ฑ๋œ ์ƒ˜ํ”Œ์ธ์ง€๋Š” ๋ถ„๋ฅ˜ํ•˜๋Š” ๊ฒƒ์ด๋‹ค. ๋งŒ์•ฝ real data โ†” generated sample ๋ฅผ ๊ตฌ๋ถ„ํ•  ์ˆ˜ ์—†๋‹ค๋ฉด, ์šฐ๋ฆฌ๋Š” ์„ฑ๊ณต์ ์œผ๋กœ GAN์„ ํ•™์Šตํ–ˆ๋‹ค๊ณ  ๋ณผ ์ˆ˜ ์žˆ๋‹ค.

Fig. 15.1 ์€ ์ด๋Ÿฌํ•œ ๊ณผ์ • (scheme) ์„ ๋ณด์ธ๋‹ค.

Untitled