-
[2023 Spring NLP Seminar] Types of Out-of-Distribution Texts and How to Detect Them (EMNLP 2021)AI/NLP 2023. 4. 26. 11:06728x90
[2023 Spring NLP Seminar]
Types of Out-of-Distribution Texts and How to Detect Them (EMNLP 2021)Abstract + Introduction
기존 연구의 한계:
이전 연구에서는 OOD 예제를 감지하는 것이 중요하다는 것에는 합의가 있었으나, OOD 예제의 분포 변화에 대한 공식적인 정의 및 탐지 방법에 대해 합의가 없었다. 이러한 논란은 OOD 감지 분야의 발전을 제한하는 한계점으로 작용하였다.
본 논문의 접근방법:
본 연구에서는 OOD 예제를 배경 변화(background shift)와 의미 변화(semantic shift)를 나타내는 두 가지 유형으로 구분하였다. 또한, OOD 감지의 두 가지 대표적인 방법인 보정(calibration)과 밀도 추정(density estimation, 텍스트 분야에서는 언어 모델링)의 성능을 비교 분석하였다. 인-분포와 OOD 영어 자연어 이해 데이터셋 14쌍을 대상으로 실험을 수행하였으며, 이를 통해 두 방법이 각 유형의 OOD 데이터에서 서로 다른 동작을 한다는 것을 발견하였다.
결과:
본 연구에서는 밀도 추정 방법이 배경 변화 환경에서 일관되게 더 우수한 성능을 보였으며, 의미 변화 환경에서는 더 낮은 성능을 보였다. 또한, 도전 데이터에서 두 방법 모두 예제를 탐지하지 못하는 경향을 보였는데, 이는 이러한 예제가 다른 유형의 OOD 데이터를 구성한다는 것을 나타낸다. 따라서, 본 연구 결과는 OOD 감지 방법의 차이를 설명하는 분류법을 제시하면서도, 시험 시간에 예상되는 OOD 데이터 유형을 대상으로하는 감지기를 만들기 위해 보다 명확한 OOD 정의가 필요하다는 요구를 제기한다.발표 들은 후
# Background
- NLP 모델은 training과 test의 distribution이 같을 때 당연히 잘 작동
- 하지만, 모델이 실제 환경에 배포될 때 훈련 데이터와 다른 분포의 OOD(out-of-distribution) 예제를 만나는 것이 일반적임
- distribution이 다르면, 모델들은 신뢰할 수 없거나 치명적인 예측을 할 가능성이 높음
# In this Paper
- NLP 문제에서 일반적인 분포 변화의 유형에 따라 OOD 예제를 분류
- 구체적으로, 입력(예: 영화 리뷰)은
- 1) 서로 다른 레이블에서 불변인 background features(예: 장르)과
- 2) 예측 작업에서 구별력이 있는 semantic features(예: 감성 단어)으로 표현될 수 있다고 가정
- 구체적으로, 입력(예: 영화 리뷰)은
-
- 따라서 test time 때 주요한 변화로 특징화되는 두 가지 유형의 OOD 예제를 고려
- background와 semantic features
- 따라서 test time 때 주요한 변화로 특징화되는 두 가지 유형의 OOD 예제를 고려
# Results
- 두 방법 간의 선택은 또한 test time 때 예상한 분포로 만들어질 수 있음
- calibration을 semantic shift 탐지가 더 중요할 때 쓰기
- density estimation을 background shift를 탐지할 때 쓰기
# 효림님 발표
https://velog.io/@gyfla1512/NLP-23-1-Types-of-Out-of-Distribution-Texts-and-How-to-Detect-Them
https://arxiv.org/abs/2109.06827
728x90'AI > NLP' 카테고리의 다른 글