🛠️Transformer Implementation

Overview

모델 구현을 기가 막히게 정리해둔 포스팅이 있어 이를 참고하여 모델 구현 능력도 기를 겸 번역과 시행 착오등을 정리하고자 한다.

본 포스팅에서는 Multi-Headed Attention (MHA) 를 구현할 예정이다. 클론 코딩 하기보다는 from scratch로 하나하나 구현하고 뜯어본다. 본 포스팅의 목적은 다음과 같다.

본 튜토리얼은 “Attention is All You Need” 라는 논문을 참조하여 작성된 튜토리얼이다. 또 다른 포스팅 도 가능하다면 참조하면 좋다.

후술할 MHA를 구현하고 이를 간단한 Auto Regression task에도 적용하는 코드를 제공한다.

<aside> 💡 Auto Regression 이란, “나는 사과를 좋아해” 라는 문장을 입력하면 “나는 사과를 좋아해” 라는 단어를 출력하도록 하는 task이다.

Transformer는 이러한 학습을 통해 각 단어와 단어 (정확하게는 각 임베딩과 임베딩) 간의 관계를 학습한다.

</aside>

MHA + transformer 구현

Positional encoding