728x90
Unigram
-
LLM Tokenization 방법 정리 (BytePair, WordPiece, Unigram, SentencePiece)AI/NLP 2024. 4. 22. 10:25
LLM Tokenization 방법 정리 (BytePair, WordPiece, SentencePiece) Tokenization이란 input text sequence를 Token이라는 더 작은 부분으로 변환하는 과정이다 가장 단순한 Tokenization 방법은 공백을 기준으로 나누는 거겠지만, 이는 OOV(out of vocabulary) 문제를 일으킨다 이 문제를 해결하기 위해 Subword 기반의 Tokenization를 많이 사용하고 있으며, 이때 훈련 데이터에 없는 단어 등 기존에 보지 못했던 단어들에 대해서도 유연하게 대처할 수 있다 아래는 Subword 기반의 Tokenization 기법들을 살펴본다 BytePairEncoding 원래 데이터 압축 알고리즘의 한 유형으로, 자주 나타나는 ..