Chapter 10에서는 convolution operation 을 사용하여 각 이미지의 패치를 shared parameters로 processing 하는 방법을 공부하였다.
본 챕터에서는 Transformer 를 소개함. 원래는 NLP tasks 를 위한 모델임. Language datasets은 사실 이미지 datasets의 특성과 맞물리는 부분이 있다. 예를 들어, 입력 variable의 dimension 이 크고, 각 포지션마다 확률적 특성이 비슷하다. 또한 각 포지션에서 “dog” 란 단어를 새로 학습할 필요가 없다. (positional invariance)

12.1. Processing Text Data

Untitled

위 예제를 보면 크게 세가지를 알 수 있음.

입력이 너무 커서 FC layer를 쓰기 어렵다.
- 위 예시에는 37개의 단어로 이루어져있다. 각 단어를 임베딩으로 추출하면 각각 1024의 dimension을 갖는 vector가 되고, $37\times 1024 = 37888$ 이므로 단어 하나가 늘 때마다 입력의 크기가 빠르게 증가함을 알 수 있다. 보통 입력은 수 백, 수 천 단어의 입력을 가지므로 FC layer를 사용하는 것이 어려울 수 있음. (e.g. 메모리 부족, 긴 연산 시간)
입력의 길이가 다를 수 있어서 FC layer 를 쓰기 어렵다.
- FC layer 를 사용하기 위해서는 정해진 입력, 출력의 크기를 알아야 한다. 하지만 입력의 길이는 매번 달라질 수 있으므로 FC 를 쓰기 어려움
→ 때문에 CNN과 같이 parameters를 share 해야함을 시사한다.
text는 모호하다. (e.g. it 이 restaurant 을 의미하는지 vegetarian 을 의미하는지 문맥에 따라 다름.)
- 사람은 it 이라는 단어가 어떤 단어에 attention 해야하는지 안다.
→ 이는 language model 도 각 단어 사이에 모종의 connection 을 학습해야함을 알 수 있다.

12.2. Dot-Product Self-Attention

앞선 섹션에서 text를 processing 하는 모델은 다음과 같은 특징을 가져야 한다고 하였다.

Transformer 는 앞선 두 가지의 특성을 dot-product self-attention 을 사용함으로 두 마리의 토끼를 잡았다.

self-attention 함수, $\bold{sa}[\bullet]$ 은 $N$개의 embeddings, $\bold{x_1, ..., x_N}$ 을 입력으로 받아 같은 갯수의 vector 들을 출력해야한다. 먼저 values 를 계산해야함. 이는 아래와 같음.

Untitled

self-attention 의 결과의 $n$번째 row는 다음과 같이 계산된다.

Untitled

scalar 값, $a[\bold{x}_m, \bold{x}_n]$ 을 attention 이라고 부른다. 이는 n번째 입력 값이 m번째 입력 값에 얼마나 집중하는지를 나타낸다.

Untitled