-
NLP 논문 공부 순서 (2023.12 업데이트)AI/NLP 2022. 2. 4. 21:01728x90
2023.12.27 업데이트
- ChatGPT도 등장한지 벌써 1년이나 되었습니다. GPT-3과 ChatGPT 이후로 NLP 분야에서도 흐름이 엄청 빠르게 바뀌었기 때문에 예전에 기록해두었던 논문 목록을 업데이트 하면 좋을 것 같다는 생각에 추가해두었습니다.
- 'NLP 논문 공부 순서'로 블로그 유입이 많기도 하고, 여쭤보시는 분들도 있어서 저의 경우 NLP 공부를 어떻게 했었는지 (학부생 시절) 몇 자 적습니다. 궁금한 점 있으면 댓글로 남겨주셔도 됩니다!
1. 아예 인공지능 분야에 대해서 모르는 분이시라면
머신러닝, 수학부터 차근차근 공부하시다가 딥러닝 공부하시는 게 좋을 것 같습니다. 딥러닝도 비전이나 자연어처리, 음성 처리 등 다양한 분야가 있다보니 먼저 기초부터 단단히 하시고 세부 분야로 파시는 게 중요할 것 같아요.
2. 이런 단계가 지나신 분이라면
NLP 공부를 시작하셔도 될 것 같은데요. NLP의 전통적인 논문과 위키독스 사이트들을 병행!!해서 보시는 게 좋을 듯 합니다.
추천드리는 위키독스, 깃북 페이지는 아래와 같습니다.
- https://wikidocs.net/book/2788 (딥러닝)
- https://wikidocs.net/book/2155 (자연어처리)
- https://kh-kim.github.io/nlp_with_deep_learning_blog/ (자연어처리)
- https://wikidocs.net/book/8056 (Transformers 라이브러리, 맨 마지막에 공부할 것)
- https://tutorials.pytorch.kr/beginner/text_sentiment_ngrams_tutorial.html (파이토치 공식 도큐먼트)
위의 위키독스 페이지들과 제가 정리해둔 논문들 (꼭 원문과 코드도 볼 것) 같이 보시면 좋습니다.
3. 만약에 논문을 좀 읽어본 경험이 있으시다면 (ex. 비전 분야를 파다가 NLP로 넘어왔다거나)
가장 최근에 나온 NLP Survey Paper를 읽어보시면 좋을 것 같습니다.
- https://arxiv.org/abs/2303.18223
- https://arxiv.org/pdf/2402.06196.pdf
블로그에 논문 정리도 올릴 겸 복습도 할겸 자연어처리 논문 리스트를 정리해보았다!
* RNN 계열의 Model들 : 고정된 크기의 context vector 사용 / 단어의 순서를 학습
1. RNN : Recurrent neural network based language model (2010) (처음 등장은 1986)
2. LSTM : Long Short Term Memory Recurrent Neural Network Architectures for Large Scale Acoustic Modeling (2014) (처음 등장은 1997)
3. GRU : Learning Phrase Representation using RNN Encoder-Decoder for Stistical Machine Translation (2014)
4. Seq2Seq : Sequence to Sequence Learning with Neural Networks (2014)
* Attention Mechanism 등장 : 입력 시퀀스 전체에서 정보 추출하는 방향으로 발전 (Context Vector 고정되지 않음)
5. Attention : Neural Machine Translation by Jointly Learning to Align and Translate (2015)
6. Transformer : Attention is All You Need (2017)
https://asidefine.tistory.com/153
* Word Embedding : 단어를 임의의 벡터로 표현하는 방식
7. Word2Vec : Efficient Estimation of Word Representations in Vector Space (2013)
8. GloVe : Global Vectors for Word Representation (2014)
9. FastText : Enriching Word Vectors with Subword Information (2016)
10. ELMo : Deep contextualized word representations (2018)
https://asidefine.tistory.com/152
https://asidefine.tistory.com/154
https://asidefine.tistory.com/166
* Transformer Architecture 기반의 Pretrained Language Model들 / 단어의 순서(위치 정보/Positional Encoding 등)를 한번에 넣어 병렬로 처리
11. GPT-1 : Improving Language Understanding by Generative Pre-Training (2018)
12. BERT : Pre-training of Deep Bidirectional Transformers for Language Understanding (2018)
13. GPT-2 : Language Models are Unsupervised Multitask Learners (2018)
14. RoBERTa : RoBERTa: A Robustly Optimized BERT Pretraining Approach (2019)
15. ALBERT: A Lite BERT for Self-supervised Learning of Language Representations (2019)16. ELECTRA : Pre-training Text Encoders as Discriminators Rather Than Generators (2020)
17. XLNet : Generalized Autoregressive Pretraining for Language Understanding (2019)
objective function에 따라 pre-trained language models은 세가지 카테고리로 나눌 수 있다.
unidirectional language model - Natural Language Generation - e.g. GPT
bidirectional language model - Natural Language Understand - e.g. BERT
hybrid language model - combining the first two paradigm - e.g. XLNet, UniLMhttps://asidefine.tistory.com/181
https://asidefine.tistory.com/178
* 여기까지가 Fig. Language Model의 발전 과정에서의 Pretrained Laguage Model들이다.
추가 논문들
* Large Language Model 모델들
18. Exploring the Limits of Transfer Learning with a Unified Text-to-Text Transformer (2019) - T5 논문
19. GPT-3 : Language Models are Few-Shot Learners (2020)
20. Training language models to follow instructions with human feedback (2022) - InstructGPT 논문
21. FINETUNED LANGUAGE MODELS ARE ZERO-SHOT LEARNERS (2022) - FLAN 논문
22. LLaMA: Open and Efficient Foundation Language Models (2023) - LLaMA 논문
https://asidefine.tistory.com/238
+) Llama 2: Open Foundation and Fine-Tuned Chat Models (2023)
+) GPT-4 Technical Report (2023)
* Parameter-Efficient Fine Tuning (PeFT) : LLM fine-tuning하는 method 중 하나
23. LoRA: Low-Rank Adaptation of Large Language Models (2021)
24. GPT Understands, Too (2021) : Prefix Tuning
+) P-Tuning: Prompt Tuning Can Be Comparable to Fine-tuning Across Scales and Tasks : P-tuning v2 논문
25. Towards a Unified View of Parameter-Efficient Transfer Learning (2022) : Adapter
+) LLM-Adapters: An Adapter Family for Parameter-Efficient Fine-Tuning of Large Language Models (2023)
* Quantization 논문
26. LLM.int8(): 8-bit Matrix Multiplication for Transformers at Scale (2022)
27. QLoRA: Efficient Finetuning of Quantized LLMs (2023)
728x90'AI > NLP' 카테고리의 다른 글