728x90
Ape
-
LLM Positional Encoding 방법 정리 (Absolute, Relative, Rotary, ... )AI/NLP 2024. 4. 22. 10:26
LLM Positional Encoding 방법 정리 (Absolute, Relative, Rotary, ... ) Absolute Positional Encoding (APE) Vanilla Transformer 모델에서 input sequence의 순서 정보를 유지하기 위해서 사용 RNN 계열과 달리 Transformer 구조는 모든 input token이 병렬적으로 들어가기 때문에 positional information이 없으면 input token들은 그냥 BoW처럼 취급된다 위와 같이, encoder와 decoder stack 이전에 들어갈 input embedding들에 element-wise addition을 해준다 Vanilla Transformer 모델에서는 Sine과 Cosine 함수..