-
[2023 Spring NLP Seminar] BART: Denoising Sequence-to-Sequence Pre-training for NaturalLanguage Generation, Translation, and Comprehension (ACL 2020)AI/NLP 2023. 3. 21. 22:31728x90
[2023 Spring NLP Seminar] BART: Denoising Sequence-to-Sequence
Pre-training for NaturalLanguage Generation, Translation, and Comprehension (ACL 2020)이전에 정리했던 대표적인 LM 논문들 (BERT / RoBERTa / GPT-1 / GPT-2 / GPT-3 )
https://asidefine.tistory.com/181
https://asidefine.tistory.com/178
https://asidefine.tistory.com/192
Abstract / Introduction
- Background
- Self Supervised Learning Method은 NLP 분야에서 놀라운 성과를 이룸
- 가장 성공적인 방법은 Masked language model의 변형으로, 무작위 단어 집합을 마스킹하여 텍스트를 복원하는 방식으로 훈련
- Limitation
- 그러나 이러한 방법들은 일부 특정한 유형의 end-task에만 초점을 맞추고 있어 적용 범위가 제한적
- Our Approach
- 이 논문에서는 Bidirectional/Auto-regressive Transformer를 결합한 BART 모델을 제안합니다.
- BART는 매우 다양한 end task에 적용 가능한 seq2seq 모델로, (1) 임의의 arbitrary noising function을 사용하여 텍스트를 손상시킨 다음, (2) 해당 문장을 복원하는 모델을 사전 훈련
- 이를 통해 the original word masking 및next sentence prediction과 같은 기존의 objectives뿐만 아니라 문장 전체 길이와 관련된 더 긴 범위의 transformation을 수행하도록 함
- BART는 Generation task에서 특히 효과적이며 이외에도 comprehension task에서 잘 작동함
- 이 논문에서는 Bidirectional/Auto-regressive Transformer를 결합한 BART 모델을 제안합니다.
- Result
- GLUE 및 SQuAD와 같은 벤치마크에서 RoBERTa와 성능이 비슷하며,
- 요약, 질의 응답 및 대화 추론 작업에서 새로운 최고 성능 달성
- 이를 통해 BART는 사전 훈련된 타겟 언어 모델로 사용될 수 있는 방식으로 기계 번역에 새로운 방법을 제시
- 이 논문은 이러한 효과를 더 잘 이해하기 위해 다른 최근 training objectives을 복제하는 실험을 수행하며, 데이터 및 최적화 parameter와 같은 여러 가지 요인에 대한 제어를 수행
https://aclanthology.org/2020.acl-main.703/
발표 이후
machine translation을 향상하기 위해서 pre-trained representations를 사용하는 몇 연구들이 있었다- 가장 큰 향상은, pre-training을 source와 target languages 모두에 하는 것
- 하지만 이는 관심 있는 모든 languages를 pretraining하는 것을 필요로 한다는 한계가 있음
- 다른 연구는 encoder가 pre-trained representations를 사용했을 때
- 하지만 decoder에서의 gain이 부족하다는 한계
그래서 본 논문에서는 BART가 machine translation decoders를 향상하는데 쓰일 수 있음을 입증했다
- 1) documents를 corrupting하고 2) decoder의 output과 original document 사이의 reconstruction loss를 optimizing하는 과정에서 훈련
- 특정 noising 방식에만 적용 가능했던 이전의 denosing autoencoders와 달리, any type of document corruption이 가능
- 그래서 논문에서는 이전 제시 방법과 새로운 방법들에 대해서 몇 실험을 진행함
- Token Masking
- Token Deletion
- Text Infilling
- Sentence Permutation
- Document Rotation
- 사용 방법
- 같은 input을 encoder, decoder에 넣어주고,
- decoder token의 final hidden state는 새로운 multi-class linear classifier에 fed
- 해당 방법은 BERT에서의 CLS token과 관련이 있다
- 하지만, BART의 경우 Encoder만 사용하는 BERT와 달리, CLS 토큰 역할을 하는 <s> 토큰+ 전체 문장의 입력을 Decoder에 넣어주어 사용 !
- 다시 말하자면 BERT는 Encoding을 통해 <CLS>에 전체 문장에 정보가 잘 녹아드니까, 그 <CLS>랑 기존 input token들과 함께 decoding해서 더 잘 학습하기 위함임 !
아무래도 auto-regressive하게 Decoder까지 사용하니까 Generation Task도 특히 더 잘하더라 ~!
효림님 발표
728x90'AI > NLP' 카테고리의 다른 글
- Background