Preface

2-9 챕터에서는 DNN 을 위한 supervised learning 을 하는 방법에 대해 공부하였다. 하지만 기존의 챕터에서는 입력과 출력을 연결하는 하나의 방법인 fully-connected layers에 대해서만 다루었다. 챕터 10-13 에서는 주로 이미지 프로세싱에 사용되는 sparse connections, shared weights 그리고 parallel processing paths 등을 포함하는 더 특별한 컴포넌트들을 소개한다.

이미지는 특별한 네트워크 구조를 필요로하는 3가지 특성이 있다.

이미지는 고차원이다. 분류 문제에 사용되는 이미지들은 보통 224 $\times$ 224 (=150,528) 의 크기를 갖는다. 보통 hidden layer의 크기는 입력의 크기보다 큰데 둘이 같다고 쳐고 하나의 layer의 크기는 $150,528^2 \sim 22,000,000,000$ 에 해당한다. 이는 필요한 데이터, 메모리, 계산상에서 문제가 발생한다.
서로 근처에 있는 이미지 픽셀들은 통계적으로 비슷하다. 하지만 fc layer 는 “근처”에 있는 픽셀들을 따로 다루지 않고 이미지에 있는 모든 픽셀들의 사이를 동일하게 다룬다.
이미지는 기하학적인 변형 (geometric transforms) 을 하더라도 해당 이미지의 의미는 변하지 않는다. 예를 들어 어떤 나무 이미지가 있을 때 왼쪽으로 4픽셀 이동해도 여전히 나무인 이미지이다. 하지만 이러한 4픽셀의 이동은 입력을 완전히 바꾸어 놓는다. 따라서 fc layer 는 이러한 작은 변화라도 모든 패턴을 학습해야하기 때문에 전혀 효율적인 모델이 아니다.

Convolution layers 는 전체 이미지가 공유하는 파라미터들로 각 이미지의 local region을 독립적으로 프로세싱한다. 이는 주변의 픽셀들의 spatial relationship 을 이용하여 fc layer보다 더 적은 파라미터를 사용하며, 모든 이미지에 속해 있는 각각의 픽셀들에 대해 다시 학습할 필요가 없다. convolutional layers를 주로 갖는 네트워크를 convolutional neural network, CNN 이라고 한다.

10.1. Invariance and Equivariance

앞서 이미지가 transformation 에 대해 안정적이라는 (의미가 변하지 않음) 사실을 보았다. 본 섹션에선 위 아이디어를 수학적으로 명확히 짚고 넘어가고자 한다.

이미지, $\bold{x}$ 의 함수, $\bold{f}[\bold{x}]$는 transform, $\bold{t}[\bold{x}]$ 에 대해 다음을 만족하면 invariant 하다고 한다.

Untitled

한 마디로 입력 이미지 $\bold{x}$ 나 transformed 된 이미지, $\bold{t}[\bold{x}]$ 가 (예를 들어,) 이미지 분류에서 같은 결과를 내야한다는 것이다. (Fig. 10.1.) ((a), b) 나 “mountain” 으로 같아야함. )

Untitled

모델 $\bold{f}[\bold{x}]$는 어떤 이미지를 움직이던 (translated), 돌리던 (rotated), 뒤집던 (flipped) 혹은 와핑 (warpping) 을 하던 원본 이미지와 같은 objects 를 포함한 것으로 인식해야한다.

또한 아래 식을 만족하면 모델, $\bold{f}[\bold{x}]$ 는 transform, $\bold{t}[\bold{x}]$에 대하여 equivariant 혹은 covariant 하다고 한다.

Untitled

한 마디로, transform을 한 이미지를 모델에 넣은 결과와 원본 이미지를 넣고 transform을 한 결과가 같아야한다는 것이다. Fig. 10.1. 을 보면 c) 는 원본 이미지, $\bold{x}$, e) 는 $\bold{x}$를 입력으로 받은 segmentation model의 결과, $\bold{f}[\bold{x}]$, d)는 transoformed image, $\bold{t}[\bold{x}]$, f) 는 $\bold{f}[\bold{t}[\bold{x}]]$ 이다.

위 예시의 segmentation model 인 $\bold{f}[\bold{x}]$는 equivariant 혹은 covariant 하다. Eq. 10.2. 의 좌변은 e) → f), 우변은 d) → f) 로 둘이 같기 때문이다.

10.2. Convolutional Networks d for 1D Inputs