ABOUT ME

-

Today
-
Yesterday
-
Total
-
  • Cross-lingual Language Model Pretraining (NeurIPS, 2019) 정리
    AI/NLP 2022. 12. 6. 15:53
    728x90

     

    Cross-lingual Language Model Pretraining (NeurIPS, 2019) 정리

     

     

    목차 

     

    • What is MLLMs and why we use it ?
    • How are MLLMs built ? (in terms of XLM)
    • Results and analysis (in terms of XLM)
    • Studies After XLM

     

     

    What is MLLMs and why we use it ?

     

     

    • MLLMs (Multilingual Language Model)이란 ?
      • A single model that can handle multiple languages simultaneously
    • Why We Use it ?
      • Leading to many language specific BERTs
        • KoBERT (Korean) / FlauBERT (French) / AfriBERT (Afrikaans) ….
      • Limiting advances in NLP to English and a few high resource languages which have the necessary data and computational resources

     

    • 최근 3년간 다양한 MLLMs들이 제시됨
      • ACL / EMNLP 최근 2~3개년 논문 list up 결과
    • 약 300편의 Cross/Multilingual 관련 논문 게재될 정도로 관심 받고 있음

     

     

    How are MLLMs built ? (in terms of XLM)

     

     

    • In most Cases
      • Architecture
        • Input Layer – Subword Tokenzier : BPE, Wordpiece, ...
          • The input to the MLM is a sequence of tokens. The token input comes from a one-hot representation of a finite vocabulary, which is typically a subword vocabulary. This vocabulary is generally learnt from a concatenation of monolingual data from various languages using algorithms like BPE (Sennrich et al., 2016b), wordpiece (Wu et al., 2016) or sentencePiece (Kudo and Richardson, 2018a).
        • Transformer Layer  
          • A typical MLLM comprises the encoder of the transformer network and contains a stack of N layers with each layer containing k attention heads followed by a feedforward neural network. For every token in the input sequence, an attention head computes an embedding using an attention weighted linear combination of the representations of all the other tokens in the sentence. The embeddings from all the attention heads are then concatenated and passed through a feedforward network to produce a d dimensional embedding for each input token. As shown in Table 1, existing MLLMs may differ in the choice of N, k and d.
        • Output Layer – CLS Token / The outputs of the last transformer layer
          • The outputs of the last transformer layer are typically used as contextual representations for each token, while the embedding corresponding to the [CLS] token is considered to be the embedding of the entire input text. Alternatively, the text embedding can also be computed via pooling operations on the token embeddings. The output layer contains simple linear transformation followed by a softmax that takes as input a token embedding from the last transformer layer and outputs a probability distribution over the tokens in the vocabulary.
      • Training Objective Functions ✨
        • Monolingual Objectives – 하나의 언어로만 이뤄진 코퍼스
          • MLM, CLM, MRTD, …
        • Parallel-corpora Objectives -  한 언어의 텍스트와 그것을 다른 언어로 번역한 텍스트가 정렬된 형태로 이루어지는 코퍼스
          • TLM, CAMLM, CLMLM, XLCO, HICTL, CLSA, TRTD, … 

     

     

    • In terms of XLM
      • Cross-lingual Language Model Pretraining (NeurIPS, 2019)
        • a.k.a XLM (== cross-lingual language models)
        • FAIR (Facebook AI Research) 팀에서 개발 중  
      • Language model pretraining:
        • CLM / MLM / TLM
      • Fine-tuning

     

     

    • Input
      • BPE 사용
      • 언어 별로 Training set으로 학습 뒤, train/valid/test files에 BPE tokenization 적용
      • 언어간 같은 단어(숫자나 고유명사 등)은 공유

     

    • Training Objective Functions 3가지✨
      • Monolingual Objectives [unsupervised learning/단일 언어 코퍼스 있는 경우]
        • CLM (Causal Language Modeling)
        • MLM (Masked Language Modeling)
      • Parallel-corpora Objective [supervised learning/병렬 코퍼스 있는 경우]
        • TLM (Translation Language Modeling)

     

     

    1.  Monolingual Objectives [unsupervised learning/단일 언어 코퍼스 있는 경우]
     
     
    • CLM (Causal Language Modeling)
      • 이전 단어들로부터 다음 단어를 예측하는 방식으로 단방향 언어 모델
        • 트랜스포머의 경우, 이전의 hidden state을 현재 배치로 전달하여 배치의 첫 번째 단어에 컨텍스트를 제공할 수 있다. 그러나 이 기술은 cross-lingual setting으로 확장되지 않으므로 단순성을 위해 각 배치의 첫 번째 단어를 컨텍스트 없이 그대로 둔다
      • Transformer Decoder 사용한 LM
        • 예측한 토큰이 다시 입력으로 들어가며 반복해서 토큰을 생성하기 때문입니다. 이를 자동회귀(auto regression)라 부른다
        • GPT-2BERT 차이 똑같이, CLMgeneration task에 적합하고, MLMNLU task에 적합하다는 Survey 논문
          • Unlike MLM, CLM has access to just unidirectional context. Given the success of MLM based language models for NLU applications, CLM has fallen out of favour and is currently used for pretraining NLG models where only unidirectional context is available for generation.

     

     

    • MLM (Masked Language Modeling)
      •  단일 언어를 대상으로 입력 문장 토큰의 15%를 마스킹 하고, 마스킹된 토큰을 맞추도록 학습한다. 
      • BERT와 동일한 방식으로 학습
        • 입력 텍스트의 15%의 단어를 랜덤으로 선택 후,
        • 80%의 단어들은 [MASK]로 변경
        • 10%의 단어들은 랜덤으로 단어 변경
        • 10%의 단어들은 동일하게

     

     

     

    2.  Parallel-corpora Objective [supervised learning/병렬 코퍼스 있는 경우]

     

    • TLM (Translation Language Modeling)
      • 병렬 말뭉치에서 원본 문장과 번역 문장을 이용 (같은 의미를 가지는 언어가 다른 두 개의 문장)
        •  병렬 데이터셋이 있을 때 소스 문장과 타깃 문장을 한 입력 데이터에 합쳐서 구성한다. 
      • 각 문장의 Position Embedding은 각각 문장 시작점을 ‘0’으로 함
      • an extension of MLM -> 전체 문장에 랜덤으로 Mask를 씌움
        • 병렬 데이터 간 상호 보완적으로 언어모델을 학습해서 Cross-linguality를 증가시킬 수 있다
        • XLM의 핵심
        • 영어 문장에서 마스킹된 단어를 예측하기 위해 모델은 주변 영어 단어나 프랑스어 번역에 주의를 기울여서 모델이 영어와 프랑스어 표현을 정렬하도록 권장할 수 있다. 특히, 이 모델은 영어 단어가 복면된 영어 단어를 추론하기에 충분하지 않은 경우 프랑스어 문맥을 활용할 수 있다

     

     

    • Cross-lingual language model pretraining
      • 3개의 방법으로 pretraining 진행 : CLM, MLM, CLM used in combination with TLM
        • CLM, MLM
          • 여러 개의 monolingual corpora 합쳐서
          • 같은 배치 내에서는 같은 언어만
        • CLM used in combination with TLM
          • 같은 배치 내에서는 같은 언어 쌍이 나오도록 함

     

     

    Results and analysis (in terms of XLM)

     

    아래의 5가지 경우에 대해 실험
    1. Cross-lingual classification
    2. Unsupervised machine translation
    3. Supervised machine translation
    4. Low-resource language model
    5. Unsupervised cross-lingual word embeddings

     

     

    1. Cross-lingual classification
      • Cross-lingual natural language inference (XNLI) dataset 사용
      • Pre-training , 영어 NLI 학습 셋으로 fine-tuning 진행 + 마지막 단에 CLF layer 추가
      • 15개 언어에 대해 XNLI 테스트
      • Our fully unsupervised MLM method sets a new state of the art on zero-shot cross-lingual classification and significantly outperforms the supervised approach of Artetxe(아르테트세) and Schwenk (2018) which uses 223 million of parallel sentences.
    2. Unsupervised machine translation
      • WMT 14/16 Dataset 사용
      • Transformer Encoder-Decoder Cross-Lingual LM 방법으로 학습 후 사용
      • EncoderDecoder 각각 CLM, MLM의 조합으로 다양하게 실험한 결과 MLM으로 구성된 EncoderDecoder 조합이 가장 좋은 성능을 보임
      • CLM 방식은 언어를 생성하는 태스크인 NLG(Natural Language Generation)에서 좋은 성능을 보이지만,
        언어를 이해하는 태스크인 NLU(Natural Language Understanding)에서는 좋은 성능을 보이지 못함
    3.  Supervised machine translation
      • WMT 16 Dataset 사용
      • 단방향 / 양방향 / 양방향 + Backtranslation
        • MLM 방식과 Back-translation(bidirectional)을 조합한 방법이 월등히 성능이 좋음
        • Back Translation이란 기존의 훈련된 반대 방향 번역기를 사용해 단일 언어 코퍼스에 대한 번역을 진행해서 pseudo/합성synthetic 병렬 코퍼스를 만든 후, 이것을 기존 양방향 병렬 코퍼스에 추가하여 훈련에 사용하는 방식이다.
    4. Low-resource language model
      • Wikipedia에는 네팔어가 100k 문장이 존재한다. 하지만 힌디어는 네팔어보다 66배 정도 많다.
      • 두 언어는 매우 유사해서 80%정도의 BPE vocabulary 공유한다.
    5. Unsupervised cross-lingual word embeddings
      • 서로 다른 언어일 지라도 같은 공간에 맵핑하고자 하는 연구  저자가 이전 연구에서 쓴 논문(‘Word Translation Without Parallel Data’, ICLR 2018, MUSE, FAIR)

     

     

     

     

     


    Parallel corpus의 부족으로 인해 겪는 가장 기본적인 문제중에 하나는, 디코더인 타깃 언어의 언어모델(Language Model, LM)의 성능 저하를 생각해볼 수 있습니다. 즉, 다량의 monlingual corpus를 수집하여 풍부한 표현을 학습할 수 있는 언어모델에 비해, parallel corpus만을 활용한 경우에는 훨씬 빈약한 표현만을 배울 수 밖에 없습니다. 따라서, 소스 언어 문장으로부터 타깃 언어 문장으로 가는 translation model(TM)의 성능 자체도 문제가 될테지만, 번역에 필요한 정보를 바탕으로 완성된 문장을 만들어내는 능력도 부족할 것 입니다.

    이때, TM의 성능 저하는 parallel corpus의 부족과 직접적으로 연관이 있지만, LM의 성능 저하는 monolingual corpus를 통해 개선을 꾀해볼 수 있을 것 같습니다. 하지만 예전 Statistical Machine Translation (SMT)의 경우에는 보통 TM과 LM이 명시적으로 따로 존재하였기 때문에 monolingual corpus를 통한 LM의 성능 개선을 쉽게 시도할 수 있었지만, NMT에선 end-to-end 모델로 이루어져 있으므로 LM이 명시적으로 분리되어 있지 않아 어려움이 있습니다. BT는 이러한 상황에서 디코더의 언어모델의 성능을 올리기 위한 (+ 추가적으로 TM의 성능 개선도 약간 기대할 수 있는) 방법을 제안합니다.

    보통 번역기를 개발할 경우, 한 쌍의 번역 모델이 자연스럽게 나오게 됩니다. 왜냐하면 우리는 parallel corpus를 통해 번역기를 개발하므로, 두 방향의 번역기를 학습할 수 있기 때문입니다. 이때 Back-Translation이라는 이름에서 볼 수 있듯이, BT는 반대쪽 모델을 타깃 모델을 개선하는데 활용합니다.

     

     

     

    Studies After XLM

     

    • XLM-RoBERTa (Unsupervised cross-lingual representation learning at scale, ACL 2020)
      • XLM보다 더 큰 규모의 Corpus CommonCrawl data 사용 (2.5TB)+ RoBERTa 사용
    • XLM-RoBERTa XL / XLM-RoBERTa XXL (Larger-Scale Transformers for Multilingual Masked Language Modeling, RepL4NLP 2021)
      • 모델 사이즈 키움 (각각 3.5B and 10.7B parameters)
    • RemBERT (Rethinking embedding coupling in pre-trained language models, ICLR 2021) 
      • 저자의 오피셜) mBERT의 큰 버전이다 (tokenizerAlbert와 유사)

     

     

     

    Appendix : How many languages can we use ?  

     

     

    • The XLM-17 model includes these languages:
      • en-fr-es-de-it-pt-nl-sv-pl-ru-ar-tr-zh-ja-ko-hi-vi
    • The XLM-100 model includes these languages:
      • en-es-fr-de-zh-ru-pt-it-ar-ja-id-tr-nl-pl-simple-fa-vi-sv-ko-he-ro-no-hi-uk-cs-fi-hu-th-da-ca-el-bg-sr-ms-bn-hr-sl-zh_yue-az-sk-eo-ta-sh-lt-et-ml-la-bs-sq-arz-af-ka-mr-eu-tl-ang-gl-nn-ur-kk-be-hy-te-lv-mk-zh_classical-als-is-wuu-my-sco-mn-ceb-ast-cy-kn-br-an-gu-bar-uz-lb-ne-si-war-jv-ga-zh_min_nan-oc-ku-sw-nds-ckb-ia-yi-fy-scn-gan-tt-am

     

     

    Appendix : BERT vs XLM-en  

     

    • RoBERTa 논문처럼 BERT에서 NSP 뺐을 때 더 성능 좋았음 
    • Our implementation does not use the next-sentence prediction task and has only 12 layers but higher capacity
    • Overall, our model achieves a better performance than the original BERT on all GLUE tasks 

     

     

    Appendix : XLM-R의 CommonCrawl vs XLM의 Wiki-100 

     

     

    Appendix : XLM vs XLM-R vs XLM-R-XL vs XLM-R-XXL

     

     

     

     

    Reference

     

    A Primer on Pretrained Multilingual Language Models

    https://arxiv.org/abs/2107.00676

     

    A Primer on Pretrained Multilingual Language Models

    Multilingual Language Models (\MLLMs) such as mBERT, XLM, XLM-R, \textit{etc.} have emerged as a viable option for bringing the power of pretraining to a large number of languages. Given their success in zero-shot transfer learning, there has emerged a lar

    arxiv.org

     

    728x90
Designed by Tistory.