AI/Multimodal
-
[2023 Lab Seminar] BLIP: Bootstrapping Language-Image Pre-training for Unified Vision-Language Understanding and Generation (ICML, 2022)AI/Multimodal 2023. 10. 3. 19:19
[2023 Lab Seminar] BLIP: Bootstrapping Language-Image Pre-training for Unified Vision-Language Understanding and Generation (ICML, 2022) Introduction : Vision-Language Pretraining (VLP) 먼저 Vision-Language에 대해서 생소하실 수 있는 분들을 위해서 한 번 짚고 넘어가자면, Vision-Language Pretraining(VLP)은 컴퓨터 비전과 자연어 처리를 결합한 인공지능 모델을 사전 학습하는 방법입니다. BERT, OpenAI GPT 등 기존 연구들은 대규모 텍스트 데이터를 모아 사전학습 후 미세조정(pre-training and fine-t..
-
[2023 Spring Lab Seminar] Learning Transferable Visual Models From Natural Language Supervision (ICML, 2021)AI/Multimodal 2023. 6. 20. 16:08
[2023 Spring Lab Seminar] Learning Transferable Visual Models From Natural Language Supervision (ICML, 2021) 요약 Approach Natural Lanuage Supervision 라벨링이 필요 없다 그렇기 때문에 방대한 양의 데이터 Creating a sufficiently large dataset WIT(WebImageText)라는 새로운 데이터셋 제안 Pretraining Method CLIP : Contrastive Language-Image Pre-Training N개의 이미지와 N개의 텍스트의 쌍을 갖고 와서 dot product ! 유사한 것들은 크게, 다른 것들은 작게 해서 임베딩 공간에 zero shot..
-
[2023 Winter Multimodal Seminar 4.Transference 2) Transfer] Multimodal Few-Shot Learning with Frozen Language Models 논문 리뷰 (NeurIPS, 2021)AI/Multimodal 2023. 2. 20. 13:51
[2023 Winter Multimodal Seminar 4.Transference 2) Transfer] Multimodal Few-Shot Learning with Frozen Language Models 논문 리뷰 (NeurIPS, 2021) 본 포스팅은 딥마인드에서 발표한 Frozen Method에 대해서 알아본다 딥마인드, 많이 들어보셨죠 ? 데미스 허사비스(Demis Hassabis), 셰인 레그(Shane Legg), 무스타파 술레이만(Mustafa Suleyman)의 세 명이 2010년 딥마인드 테크놀로지(DeepMind Technologies)라는 이름으로 처음 공동 창업하였다. 현재와 같이 이름이 바뀌게 된 것은 2014년 구글에 인수되면서부터이다. 구글 X 소속이었으나 2015년 구글..
-
[Related Works] Vision-Language TransformerAI/Multimodal 2023. 2. 13. 14:23
Multimodal transformers have made significant progress over the past few years, by pre-trained on large scale image and text pairs, then finetuned on downstream tasks. VisualBERT (Li et al., 2019), Unicoder-VL (Li et al., 2020a), NICE (Chen et al., 2021b), and VL-BERT (Su et al., 2020) propose the single-stream architecture to work on both images and text. ViLBERT (Lu et al., 2019) and LXMERT (T..
-
[2023 Winter Multimodal Seminar 3. Reasoning 1) Structure Modeling] Memory Fusion Network for Multi-view Sequential Learning 리뷰 (AAAI, 2018, Oral)AI/Multimodal 2023. 1. 25. 11:09
[2023 Winter Multimodal Seminar 3. Reasoning 1) Structure Modeling] Memory Fusion Network for Multi-view Sequential Learning 리뷰 (AAAI, 2018) 목차 0. 들어가기 전에 ... Reasoning이란 ? 1. Introduction 2. Methods 3. Experiments 4. Results 5. Conclusion 6. Code Review 0. 들어가기 전에 ... Reasoning이란 ? Reasoning은 일반적으로 task에 대한 여러 inferential steps를 통해 multimodal evidence로부터 knowledge을 구성하는 것을 목표로 한다 세부 챌린지로는 Struc..
-
[2023 Winter Multimodal Seminar 1. Representation 1) Fusion] Tensor Fusion Network for Multimodal Sentiment Analysis 리뷰 (EMNLP, 2017, Oral)AI/Multimodal 2023. 1. 5. 16:56
[2023 Winter Multimodal Seminar 1. Representation 1) Fusion] Tensor Fusion Network for Multimodal Sentiment Analysis 리뷰 (EMNLP, 2017, Oral) 목차 0. 들어가기 전에... : Representation Fusion 1. Introduction 2. Dataset : CMU-MOSI Dataset 3. Method : Tensor Fusion Network 4. Experiments 5. Qualitative Analysis 6. Conclusion 7. Code Review 0. 들어가기 전에... : Representation Fusion Multimodal의 Core Challenge는 위와 ..
-
[2023 Winter Multimodal Seminar] 0. Core research challenges in multimodal learningAI/Multimodal 2023. 1. 5. 14:56
[2023 Winter Multimodal Seminar] 0. Core research challenges in multimodal learning 이번 방학에는 Multimodal에 대해서 함께 공부해보려고 한다 ! 어디서부터 시작해야 될 지 모르겠던 찰나에, CMU에서 공개된 Multimodal Machine Learning Lecture가 있어서 이를 참고하여 스터디를 구성해보았다. 목차 0. Core research challenges in multimodal learning 1. Representation 2. Alignment 3. Reasoning 4. Generation 5. Transference 6. Quantification 0. Core research challenges in m..