-
[2023 Spring NLP Seminar] BART: Denoising Sequence-to-Sequence Pre-training for NaturalLanguage Generation, Translation, and Comprehension (ACL 2020)AI/NLP 2023. 3. 21. 22:31728x90
[2023 Spring NLP Seminar] BART: Denoising Sequence-to-Sequence
Pre-training for NaturalLanguage Generation, Translation, and Comprehension (ACL 2020)내 머릿속 BART 이전에 정리했던 대표적인 LM 논문들 (BERT / RoBERTa / GPT-1 / GPT-2 / GPT-3 )
https://asidefine.tistory.com/181
GPT-1 / BERT / GPT-2 간단 정리
GPT-1 / BERT / GPT-2 간단 정리 [논문 목록] GPT-1 : Improving Language Understanding by Generative Pre-Training (2018) BERT : Pre-training of Deep Bidirectional Transformers for Language Understanding (2018) GPT-2 : Language Models are Unsupervised
asidefine.tistory.com
https://asidefine.tistory.com/178
RoBERTa: A Robustly Optimized BERT Pretraining Approach 정리
RoBERTa: A Robustly Optimized BERT Pretraining Approach 정리 들어가기 전에.... https://asidefine.tistory.com/181 GPT-1 / BERT / GPT-2 간단 정리 GPT-1 / BERT / GPT-2 간단 정리 [논문 목록] GPT-1 : Improving Language Understanding by Gener
asidefine.tistory.com
https://asidefine.tistory.com/192
[Story Generation Study Week 01 : Fundamental of Text Generation] GPT-3 : Language Models are Few-Shot Learners (2020) Review
[Story Generation Study Week 01 : Fundamental of Text Generation] GPT-3 : Language Models are Few-Shot Learners (2020) Review [Story Generation Study Week 01 : Fundamental of Text Generation] GPT-1: Improving Language Understanding by Generative Pre-Traini
asidefine.tistory.com
Abstract / Introduction
- Background
- Self Supervised Learning Method은 NLP 분야에서 놀라운 성과를 이룸
- 가장 성공적인 방법은 Masked language model의 변형으로, 무작위 단어 집합을 마스킹하여 텍스트를 복원하는 방식으로 훈련
- Limitation
- 그러나 이러한 방법들은 일부 특정한 유형의 end-task에만 초점을 맞추고 있어 적용 범위가 제한적
- Our Approach
- 이 논문에서는 Bidirectional/Auto-regressive Transformer를 결합한 BART 모델을 제안합니다.
- BART는 매우 다양한 end task에 적용 가능한 seq2seq 모델로, (1) 임의의 arbitrary noising function을 사용하여 텍스트를 손상시킨 다음, (2) 해당 문장을 복원하는 모델을 사전 훈련
- 이를 통해 the original word masking 및next sentence prediction과 같은 기존의 objectives뿐만 아니라 문장 전체 길이와 관련된 더 긴 범위의 transformation을 수행하도록 함
- BART는 Generation task에서 특히 효과적이며 이외에도 comprehension task에서 잘 작동함
- 이 논문에서는 Bidirectional/Auto-regressive Transformer를 결합한 BART 모델을 제안합니다.
- Result
- GLUE 및 SQuAD와 같은 벤치마크에서 RoBERTa와 성능이 비슷하며,
- 요약, 질의 응답 및 대화 추론 작업에서 새로운 최고 성능 달성
- 이를 통해 BART는 사전 훈련된 타겟 언어 모델로 사용될 수 있는 방식으로 기계 번역에 새로운 방법을 제시
- 이 논문은 이러한 효과를 더 잘 이해하기 위해 다른 최근 training objectives을 복제하는 실험을 수행하며, 데이터 및 최적화 parameter와 같은 여러 가지 요인에 대한 제어를 수행
https://aclanthology.org/2020.acl-main.703/
BART: Denoising Sequence-to-Sequence Pre-training for Natural Language Generation, Translation, and Comprehension
Mike Lewis, Yinhan Liu, Naman Goyal, Marjan Ghazvininejad, Abdelrahman Mohamed, Omer Levy, Veselin Stoyanov, Luke Zettlemoyer. Proceedings of the 58th Annual Meeting of the Association for Computational Linguistics. 2020.
aclanthology.org
발표 이후
machine translation을 향상하기 위해서 pre-trained representations를 사용하는 몇 연구들이 있었다- 가장 큰 향상은, pre-training을 source와 target languages 모두에 하는 것
- 하지만 이는 관심 있는 모든 languages를 pretraining하는 것을 필요로 한다는 한계가 있음
- 다른 연구는 encoder가 pre-trained representations를 사용했을 때
- 하지만 decoder에서의 gain이 부족하다는 한계
그래서 본 논문에서는 BART가 machine translation decoders를 향상하는데 쓰일 수 있음을 입증했다
- 1) documents를 corrupting하고 2) decoder의 output과 original document 사이의 reconstruction loss를 optimizing하는 과정에서 훈련
- 특정 noising 방식에만 적용 가능했던 이전의 denosing autoencoders와 달리, any type of document corruption이 가능
- 그래서 논문에서는 이전 제시 방법과 새로운 방법들에 대해서 몇 실험을 진행함
- Token Masking
- Token Deletion
- Text Infilling
- Sentence Permutation
- Document Rotation
- 사용 방법
- 같은 input을 encoder, decoder에 넣어주고,
- decoder token의 final hidden state는 새로운 multi-class linear classifier에 fed
- 해당 방법은 BERT에서의 CLS token과 관련이 있다
- 하지만, BART의 경우 Encoder만 사용하는 BERT와 달리, CLS 토큰 역할을 하는 <s> 토큰+ 전체 문장의 입력을 Decoder에 넣어주어 사용 !
- 다시 말하자면 BERT는 Encoding을 통해 <CLS>에 전체 문장에 정보가 잘 녹아드니까, 그 <CLS>랑 기존 input token들과 함께 decoding해서 더 잘 학습하기 위함임 !
아무래도 auto-regressive하게 Decoder까지 사용하니까 Generation Task도 특히 더 잘하더라 ~!
효림님 발표
[NLP23-1_2] BART: Denoising Sequence-to-Sequence Pre-training for Natural Language Generation, Translation, and Comprehension(20
BART denoising autoencoder, for pretraining sequence-to-sequence modelstrain1) corrupting text with an arbitrary noising function, 2) learning a mode
velog.io
728x90'AI > NLP' 카테고리의 다른 글
- Background