-
NLP Benchmark Datasets 정리 (GLUE / SQuAD/RACE)AI/NLP 2022. 2. 4. 20:32728x90
NLP task 정리 (GLUE / SQuAD/RACE)
자연어처리 논문들에서 많이 보이는 Benchmark Dataset들에 대해서 틈틈이 정리해보려고 한다.
GLUE
모델을 설계할 때 가장 중요한 것 중 하나는 '모델을 어떻게 평가할 것인가'입니다. 이에 맞게 테스트셋을 구축하고 테스트셋에 대한 평가 지표를 체계적으로 설계함으로써 원하는 태스크에 대한 모델의 성능을 적절하게 평가할 수 있습니다.
평가 방법이 비교적 명확하고 표준화 되어 있는 CV와는 달리 NLP의 경우에는 언어와 태스크에 따른 모델 평가 방법이 제대로 표준화되어 있지 않았습니다. 또한 전이 학습(Transfer Learning)과 관련한 연구가 활발히 NLP에 적용됨에 따라 특정 문제만을 해결하기 위한 Single task model들과 달리, 자연어의 일반화된 이해, 즉 NLP의 여러 가지 task들 모두를 얼마나 잘 학습하는지 확인하기 위한 방법이 필요했습니다.
이를 위해서 2019년 BERT 페이퍼가 발표되면서 GLUE benchmark가 등장하였고, 이는 현재 영어 관련 NLP 태스크 평가 방법의 표준이 되었다고 합니다.
GLUE는 총 11개의 task로 구성되었으며 각 task는 언어의 특정한 성질을 평가하기 위한 목적으로 만들어졌고, 최종 점수는 각 task 별 점수의 평균 값을 가져갑니다.
GLUE 내의 Task는 11개가 있습니다.
- Quora Question Pairs (QQP, 문장 유사도 평가)
- Question NLI (QNLI, 자연어 추론)
- The Stanford Sentiment Treebank (SST, 감성 분석)
- The Corpus of Linguistic Acceptability (CoLA, 언어 수용성)
- Semantic Textual Simiilarity Benchmark (STS-B, 문장 유사도 평가)
- Microsoft Research Paraphrase Corpus (MRPC, 문장 유사도 평가)
- Recognizing Textual Entailment (RTE, 자연어 추론)
- SQUAD 1.1 / 2.0 (질의응답)
- MultiNLI Matched (자연어 추론)
- MultiNLI Mismatched (자연어 추론)
- Winograd NLI (자연어 추론)
Reference
https://huffon.github.io/2019/11/16/glue/
https://daebaq27.tistory.com/64
https://vanche.github.io/NLP_Pretrained_Model_BERT(2)/
SQuAD
SQuAD란 Stanford Question Answering Dataset의 준말로, 스탠포드 대학의 NLP 그룹에서 크라우드 소싱을 통해 만든 536개의 위키피디아 아티글에 대한 107,785개의 질문-대답 데이터셋입니다.
Stanford Question Answering Dataset (SQuAD)은 일련의 Wikipedia 기사에서 크라우드 워커가 제기 한 질문으로 구성된 독해 이해 데이터 세트입니다. 모든 질문에 대한 답은 해당하는 읽기 구절의 텍스트 또는 범위입니다. 500개 이상의 기사에 100,000개 이상의 질문 - 응답 쌍이 있습니다.
Reference
https://rajpurkar.github.io/SQuAD-explorer/
https://tensorflow.blog/2016/06/20/squad-stanford-question-answering-dataset/
RACE
728x90'AI > NLP' 카테고리의 다른 글
GPT-1 / BERT / GPT-2 간단 정리 (0) 2022.02.07 NLP 논문 공부 순서 (2023.12 업데이트) (0) 2022.02.04 RoBERTa: A Robustly Optimized BERT Pretraining Approach 정리 (0) 2022.02.04 Word Embedding 3 : Deep Contextualized Word Representations (ELMo) 정리 (0) 2022.01.17 Word Embedding 01 (One-hot Encoding / Word2Vec ) 정리 (0) 2021.12.31