Preface

2-9 ์ฑ•ํ„ฐ์—์„œ๋Š” DNN ์„ ์œ„ํ•œ supervised learning ์„ ํ•˜๋Š” ๋ฐฉ๋ฒ•์— ๋Œ€ํ•ด ๊ณต๋ถ€ํ•˜์˜€๋‹ค. ํ•˜์ง€๋งŒ ๊ธฐ์กด์˜ ์ฑ•ํ„ฐ์—์„œ๋Š” ์ž…๋ ฅ๊ณผ ์ถœ๋ ฅ์„ ์—ฐ๊ฒฐํ•˜๋Š” ํ•˜๋‚˜์˜ ๋ฐฉ๋ฒ•์ธ fully-connected layers์— ๋Œ€ํ•ด์„œ๋งŒ ๋‹ค๋ฃจ์—ˆ๋‹ค. ์ฑ•ํ„ฐ 10-13 ์—์„œ๋Š” ์ฃผ๋กœ ์ด๋ฏธ์ง€ ํ”„๋กœ์„ธ์‹ฑ์— ์‚ฌ์šฉ๋˜๋Š” sparse connections, shared weights ๊ทธ๋ฆฌ๊ณ  parallel processing paths ๋“ฑ์„ ํฌํ•จํ•˜๋Š” ๋” ํŠน๋ณ„ํ•œ ์ปดํฌ๋„ŒํŠธ๋“ค์„ ์†Œ๊ฐœํ•œ๋‹ค.

์ด๋ฏธ์ง€๋Š” ํŠน๋ณ„ํ•œ ๋„คํŠธ์›Œํฌ ๊ตฌ์กฐ๋ฅผ ํ•„์š”๋กœํ•˜๋Š” 3๊ฐ€์ง€ ํŠน์„ฑ์ด ์žˆ๋‹ค.

  1. ์ด๋ฏธ์ง€๋Š” ๊ณ ์ฐจ์›์ด๋‹ค. ๋ถ„๋ฅ˜ ๋ฌธ์ œ์— ์‚ฌ์šฉ๋˜๋Š” ์ด๋ฏธ์ง€๋“ค์€ ๋ณดํ†ต 224 $\times$ 224 (=150,528) ์˜ ํฌ๊ธฐ๋ฅผ ๊ฐ–๋Š”๋‹ค. ๋ณดํ†ต hidden layer์˜ ํฌ๊ธฐ๋Š” ์ž…๋ ฅ์˜ ํฌ๊ธฐ๋ณด๋‹ค ํฐ๋ฐ ๋‘˜์ด ๊ฐ™๋‹ค๊ณ  ์ณ๊ณ  ํ•˜๋‚˜์˜ layer์˜ ํฌ๊ธฐ๋Š” $150,528^2 \sim 22,000,000,000$ ์— ํ•ด๋‹นํ•œ๋‹ค. ์ด๋Š” ํ•„์š”ํ•œ ๋ฐ์ดํ„ฐ, ๋ฉ”๋ชจ๋ฆฌ, ๊ณ„์‚ฐ์ƒ์—์„œ ๋ฌธ์ œ๊ฐ€ ๋ฐœ์ƒํ•œ๋‹ค.
  2. ์„œ๋กœ ๊ทผ์ฒ˜์— ์žˆ๋Š” ์ด๋ฏธ์ง€ ํ”ฝ์…€๋“ค์€ ํ†ต๊ณ„์ ์œผ๋กœ ๋น„์Šทํ•˜๋‹ค. ํ•˜์ง€๋งŒ fc layer ๋Š” โ€œ๊ทผ์ฒ˜โ€์— ์žˆ๋Š” ํ”ฝ์…€๋“ค์„ ๋”ฐ๋กœ ๋‹ค๋ฃจ์ง€ ์•Š๊ณ  ์ด๋ฏธ์ง€์— ์žˆ๋Š” ๋ชจ๋“  ํ”ฝ์…€๋“ค์˜ ์‚ฌ์ด๋ฅผ ๋™์ผํ•˜๊ฒŒ ๋‹ค๋ฃฌ๋‹ค.
  3. ์ด๋ฏธ์ง€๋Š” ๊ธฐํ•˜ํ•™์ ์ธ ๋ณ€ํ˜• (geometric transforms) ์„ ํ•˜๋”๋ผ๋„ ํ•ด๋‹น ์ด๋ฏธ์ง€์˜ ์˜๋ฏธ๋Š” ๋ณ€ํ•˜์ง€ ์•Š๋Š”๋‹ค. ์˜ˆ๋ฅผ ๋“ค์–ด ์–ด๋–ค ๋‚˜๋ฌด ์ด๋ฏธ์ง€๊ฐ€ ์žˆ์„ ๋•Œ ์™ผ์ชฝ์œผ๋กœ 4ํ”ฝ์…€ ์ด๋™ํ•ด๋„ ์—ฌ์ „ํžˆ ๋‚˜๋ฌด์ธ ์ด๋ฏธ์ง€์ด๋‹ค. ํ•˜์ง€๋งŒ ์ด๋Ÿฌํ•œ 4ํ”ฝ์…€์˜ ์ด๋™์€ ์ž…๋ ฅ์„ ์™„์ „ํžˆ ๋ฐ”๊พธ์–ด ๋†“๋Š”๋‹ค. ๋”ฐ๋ผ์„œ fc layer ๋Š” ์ด๋Ÿฌํ•œ ์ž‘์€ ๋ณ€ํ™”๋ผ๋„ ๋ชจ๋“  ํŒจํ„ด์„ ํ•™์Šตํ•ด์•ผํ•˜๊ธฐ ๋•Œ๋ฌธ์— ์ „ํ˜€ ํšจ์œจ์ ์ธ ๋ชจ๋ธ์ด ์•„๋‹ˆ๋‹ค.

Convolution layers ๋Š” ์ „์ฒด ์ด๋ฏธ์ง€๊ฐ€ ๊ณต์œ ํ•˜๋Š” ํŒŒ๋ผ๋ฏธํ„ฐ๋“ค๋กœ ๊ฐ ์ด๋ฏธ์ง€์˜ local region์„ ๋…๋ฆฝ์ ์œผ๋กœ ํ”„๋กœ์„ธ์‹ฑํ•œ๋‹ค. ์ด๋Š” ์ฃผ๋ณ€์˜ ํ”ฝ์…€๋“ค์˜ spatial relationship ์„ ์ด์šฉํ•˜์—ฌ fc layer๋ณด๋‹ค ๋” ์ ์€ ํŒŒ๋ผ๋ฏธํ„ฐ๋ฅผ ์‚ฌ์šฉํ•˜๋ฉฐ, ๋ชจ๋“  ์ด๋ฏธ์ง€์— ์†ํ•ด ์žˆ๋Š” ๊ฐ๊ฐ์˜ ํ”ฝ์…€๋“ค์— ๋Œ€ํ•ด ๋‹ค์‹œ ํ•™์Šตํ•  ํ•„์š”๊ฐ€ ์—†๋‹ค. convolutional layers๋ฅผ ์ฃผ๋กœ ๊ฐ–๋Š” ๋„คํŠธ์›Œํฌ๋ฅผ convolutional neural network, CNN ์ด๋ผ๊ณ  ํ•œ๋‹ค.

10.1. Invariance and Equivariance

์•ž์„œ ์ด๋ฏธ์ง€๊ฐ€ transformation ์— ๋Œ€ํ•ด ์•ˆ์ •์ ์ด๋ผ๋Š” (์˜๋ฏธ๊ฐ€ ๋ณ€ํ•˜์ง€ ์•Š์Œ) ์‚ฌ์‹ค์„ ๋ณด์•˜๋‹ค. ๋ณธ ์„น์…˜์—์„  ์œ„ ์•„์ด๋””์–ด๋ฅผ ์ˆ˜ํ•™์ ์œผ๋กœ ๋ช…ํ™•ํžˆ ์งš๊ณ  ๋„˜์–ด๊ฐ€๊ณ ์ž ํ•œ๋‹ค.

์ด๋ฏธ์ง€, $\bold{x}$ ์˜ ํ•จ์ˆ˜, $\bold{f}[\bold{x}]$๋Š” transform, $\bold{t}[\bold{x}]$ ์— ๋Œ€ํ•ด ๋‹ค์Œ์„ ๋งŒ์กฑํ•˜๋ฉด invariant ํ•˜๋‹ค๊ณ  ํ•œ๋‹ค.

Untitled

ํ•œ ๋งˆ๋””๋กœ ์ž…๋ ฅ ์ด๋ฏธ์ง€ $\bold{x}$ ๋‚˜ transformed ๋œ ์ด๋ฏธ์ง€, $\bold{t}[\bold{x}]$ ๊ฐ€ (์˜ˆ๋ฅผ ๋“ค์–ด,) ์ด๋ฏธ์ง€ ๋ถ„๋ฅ˜์—์„œ ๊ฐ™์€ ๊ฒฐ๊ณผ๋ฅผ ๋‚ด์•ผํ•œ๋‹ค๋Š” ๊ฒƒ์ด๋‹ค. (Fig. 10.1.) ((a), b) ๋‚˜ โ€œmountainโ€ ์œผ๋กœ ๊ฐ™์•„์•ผํ•จ. )

Untitled

๋ชจ๋ธ $\bold{f}[\bold{x}]$๋Š” ์–ด๋–ค ์ด๋ฏธ์ง€๋ฅผ ์›€์ง์ด๋˜ (translated), ๋Œ๋ฆฌ๋˜ (rotated), ๋’ค์ง‘๋˜ (flipped) ํ˜น์€ ์™€ํ•‘ (warpping) ์„ ํ•˜๋˜ ์›๋ณธ ์ด๋ฏธ์ง€์™€ ๊ฐ™์€ objects ๋ฅผ ํฌํ•จํ•œ ๊ฒƒ์œผ๋กœ ์ธ์‹ํ•ด์•ผํ•œ๋‹ค.

๋˜ํ•œ ์•„๋ž˜ ์‹์„ ๋งŒ์กฑํ•˜๋ฉด ๋ชจ๋ธ, $\bold{f}[\bold{x}]$ ๋Š” transform, $\bold{t}[\bold{x}]$์— ๋Œ€ํ•˜์—ฌ equivariant ํ˜น์€ covariant ํ•˜๋‹ค๊ณ  ํ•œ๋‹ค.

Untitled

ํ•œ ๋งˆ๋””๋กœ, transform์„ ํ•œ ์ด๋ฏธ์ง€๋ฅผ ๋ชจ๋ธ์— ๋„ฃ์€ ๊ฒฐ๊ณผ์™€ ์›๋ณธ ์ด๋ฏธ์ง€๋ฅผ ๋„ฃ๊ณ  transform์„ ํ•œ ๊ฒฐ๊ณผ๊ฐ€ ๊ฐ™์•„์•ผํ•œ๋‹ค๋Š” ๊ฒƒ์ด๋‹ค. Fig. 10.1. ์„ ๋ณด๋ฉด c) ๋Š” ์›๋ณธ ์ด๋ฏธ์ง€, $\bold{x}$, e) ๋Š” $\bold{x}$๋ฅผ ์ž…๋ ฅ์œผ๋กœ ๋ฐ›์€ segmentation model์˜ ๊ฒฐ๊ณผ, $\bold{f}[\bold{x}]$, d)๋Š” transoformed image, $\bold{t}[\bold{x}]$, f) ๋Š” $\bold{f}[\bold{t}[\bold{x}]]$ ์ด๋‹ค.

์œ„ ์˜ˆ์‹œ์˜ segmentation model ์ธ $\bold{f}[\bold{x}]$๋Š” equivariant ํ˜น์€ covariant ํ•˜๋‹ค. Eq. 10.2. ์˜ ์ขŒ๋ณ€์€ e) โ†’ f), ์šฐ๋ณ€์€ d) โ†’ f) ๋กœ ๋‘˜์ด ๊ฐ™๊ธฐ ๋•Œ๋ฌธ์ด๋‹ค.

10.2. Convolutional Networks d for 1D Inputs