๋ชจ๋ธ ๊ตฌํ์ ๊ธฐ๊ฐ ๋งํ๊ฒ ์ ๋ฆฌํด๋ ํฌ์คํ ์ด ์์ด ์ด๋ฅผ ์ฐธ๊ณ ํ์ฌ ๋ชจ๋ธ ๊ตฌํ ๋ฅ๋ ฅ๋ ๊ธฐ๋ฅผ ๊ฒธ ๋ฒ์ญ๊ณผ ์ํ ์ฐฉ์ค๋ฑ์ ์ ๋ฆฌํ๊ณ ์ ํ๋ค.
๋ณธ ํฌ์คํ ์์๋ Multi-Headed Attention (MHA) ๋ฅผ ๊ตฌํํ ์์ ์ด๋ค. ํด๋ก ์ฝ๋ฉ ํ๊ธฐ๋ณด๋ค๋ from scratch๋ก ํ๋ํ๋ ๊ตฌํํ๊ณ ๋ฏ์ด๋ณธ๋ค. ๋ณธ ํฌ์คํ ์ ๋ชฉ์ ์ ๋ค์๊ณผ ๊ฐ๋ค.
๋ณธ ํํ ๋ฆฌ์ผ์ โAttention is All You Needโ ๋ผ๋ ๋ ผ๋ฌธ์ ์ฐธ์กฐํ์ฌ ์์ฑ๋ ํํ ๋ฆฌ์ผ์ด๋ค. ๋ ๋ค๋ฅธ ํฌ์คํ ๋ ๊ฐ๋ฅํ๋ค๋ฉด ์ฐธ์กฐํ๋ฉด ์ข๋ค.
ํ์ ํ MHA๋ฅผ ๊ตฌํํ๊ณ ์ด๋ฅผ ๊ฐ๋จํ Auto Regression task์๋ ์ ์ฉํ๋ ์ฝ๋๋ฅผ ์ ๊ณตํ๋ค.
<aside>
๐ก Auto Regression
์ด๋, โ๋๋ ์ฌ๊ณผ๋ฅผ ์ข์ํดโ ๋ผ๋ ๋ฌธ์ฅ์ ์
๋ ฅํ๋ฉด โ๋๋ ์ฌ๊ณผ๋ฅผ ์ข์ํดโ ๋ผ๋ ๋จ์ด๋ฅผ ์ถ๋ ฅํ๋๋ก ํ๋ task์ด๋ค.
Transformer๋ ์ด๋ฌํ ํ์ต์ ํตํด ๊ฐ ๋จ์ด์ ๋จ์ด (์ ํํ๊ฒ๋ ๊ฐ ์๋ฒ ๋ฉ๊ณผ ์๋ฒ ๋ฉ) ๊ฐ์ ๊ด๊ณ๋ฅผ ํ์ตํ๋ค.
</aside>
Tutorial 5: Transformers and Multi-Head Attention โ PyTorch Lightning 2.1.4 documentation
labml.ai Annotated PyTorch Paper Implementations
MHA + transformer ๊ตฌํ
Positional encoding