-
[2023 Spring Lab Seminar] Learning Transferable Visual Models From Natural Language Supervision (ICML, 2021)AI/Multimodal 2023. 6. 20. 16:08728x90
[2023 Spring Lab Seminar]
Learning Transferable Visual Models
From Natural Language Supervision
(ICML, 2021)요약
Approach
- Natural Lanuage Supervision
- 라벨링이 필요 없다 그렇기 때문에 방대한 양의 데이터
- Creating a sufficiently large dataset
- WIT(WebImageText)라는 새로운 데이터셋 제안
- Pretraining Method
- CLIP : Contrastive Language-Image Pre-Training
- N개의 이미지와 N개의 텍스트의 쌍을 갖고 와서 dot product !
- 유사한 것들은 크게, 다른 것들은 작게 해서 임베딩 공간에
- zero shot inference : prompt engineering
- 일반적으로 Image classification task의 class는 단일 라벨로 구성되어 있지만, CLIP의 text data는 짧은 문장으로 구성되어 있다
- 단일 라벨의 경우, 충분한 semantic 정보를 포함하지 못 할 뿐만 아니라 다의성을 가질 문제도 존재하기 때문에 약간의 수정을 거쳐 text encoder에 삽입하게 된다
- text prompt의 문장 형식을 조정하는 것이라는 맥락에서 'Prompt Engineering'이라는 표현 사용
- 일반적으로 Image classification task의 class는 단일 라벨로 구성되어 있지만, CLIP의 text data는 짧은 문장으로 구성되어 있다
- zero shot transfer
- emotion recognition 관련한 애들은 잘한다 - 자연어가 도움이 되기 때문에
- 위성 사진 같은 애들은 너무 추상적이라 못함
- representation learning
- image
- robustness to natural distribution shift
https://arxiv.org/abs/2103.00020
728x90'AI > Multimodal' 카테고리의 다른 글
- Natural Lanuage Supervision