Transformer
๋ฅผ ์๊ฐํจ. ์๋๋ NLP tasks ๋ฅผ ์ํ ๋ชจ๋ธ์. Language datasets์ ์ฌ์ค ์ด๋ฏธ์ง datasets์ ํน์ฑ๊ณผ ๋ง๋ฌผ๋ฆฌ๋ ๋ถ๋ถ์ด ์๋ค. ์๋ฅผ ๋ค์ด, ์
๋ ฅ variable์ dimension ์ด ํฌ๊ณ , ๊ฐ ํฌ์ง์
๋ง๋ค ํ๋ฅ ์ ํน์ฑ์ด ๋น์ทํ๋ค. ๋ํ ๊ฐ ํฌ์ง์
์์ โdogโ ๋ ๋จ์ด๋ฅผ ์๋ก ํ์ตํ ํ์๊ฐ ์๋ค. (positional invariance)์ ์์ ๋ฅผ ๋ณด๋ฉด ํฌ๊ฒ ์ธ๊ฐ์ง๋ฅผ ์ ์ ์์.
์ ๋ ฅ์ด ๋๋ฌด ์ปค์ FC layer๋ฅผ ์ฐ๊ธฐ ์ด๋ ต๋ค.
์ ๋ ฅ์ ๊ธธ์ด๊ฐ ๋ค๋ฅผ ์ ์์ด์ FC layer ๋ฅผ ์ฐ๊ธฐ ์ด๋ ต๋ค.
โ ๋๋ฌธ์ CNN๊ณผ ๊ฐ์ด parameters๋ฅผ share ํด์ผํจ์ ์์ฌํ๋ค.
text๋ ๋ชจํธํ๋ค. (e.g. it ์ด restaurant ์ ์๋ฏธํ๋์ง vegetarian ์ ์๋ฏธํ๋์ง ๋ฌธ๋งฅ์ ๋ฐ๋ผ ๋ค๋ฆ.)
โ ์ด๋ language model ๋ ๊ฐ ๋จ์ด ์ฌ์ด์ ๋ชจ์ข ์ connection ์ ํ์ตํด์ผํจ์ ์ ์ ์๋ค.
์์ ์น์ ์์ text๋ฅผ processing ํ๋ ๋ชจ๋ธ์ ๋ค์๊ณผ ๊ฐ์ ํน์ง์ ๊ฐ์ ธ์ผ ํ๋ค๊ณ ํ์๋ค.
Transformer ๋ ์์ ๋ ๊ฐ์ง์ ํน์ฑ์ dot-product self-attention
์ ์ฌ์ฉํจ์ผ๋ก ๋ ๋ง๋ฆฌ์ ํ ๋ผ๋ฅผ ์ก์๋ค.
self-attention ํจ์, $\bold{sa}[\bullet]$ ์ $N$๊ฐ์ embeddings, $\bold{x_1, ..., x_N}$ ์ ์ ๋ ฅ์ผ๋ก ๋ฐ์ ๊ฐ์ ๊ฐฏ์์ vector ๋ค์ ์ถ๋ ฅํด์ผํ๋ค. ๋จผ์ values ๋ฅผ ๊ณ์ฐํด์ผํจ. ์ด๋ ์๋์ ๊ฐ์.
self-attention ์ ๊ฒฐ๊ณผ์ $n$๋ฒ์งธ row๋ ๋ค์๊ณผ ๊ฐ์ด ๊ณ์ฐ๋๋ค.
scalar ๊ฐ, $a[\bold{x}_m, \bold{x}_n]$ ์ attention
์ด๋ผ๊ณ ๋ถ๋ฅธ๋ค. ์ด๋ n๋ฒ์งธ ์
๋ ฅ ๊ฐ์ด m๋ฒ์งธ ์
๋ ฅ ๊ฐ์ ์ผ๋ง๋ ์ง์คํ๋์ง๋ฅผ ๋ํ๋ธ๋ค.