-
[Multimodal/VLM] A Survey of State of the Art Large Vision Language Models: Alignment, Benchmark, Evaluations and Challenges (25.01)AI/Multimodal 2025. 8. 10. 11:16728x90
[Multimodal/VLM] A Survey of State of the Art Large Vision Language Models:
Alignment, Benchmark, Evaluations and Challenges (25.01)+) GPT 5의 Deep Research가 필요한 부분 보충해줌
http://arxiv.org/abs/2501.02189
A Survey of State of the Art Large Vision Language Models: Alignment, Benchmark, Evaluations and Challenges
Multimodal Vision Language Models (VLMs) have emerged as a transformative topic at the intersection of computer vision and natural language processing, enabling machines to perceive and reason about the world through both visual and textual modalities. For
arxiv.org
VLM 아키텍처의 진화

- 1세대 : "Train from scratch"
- CLIP이나 BLIP으로 대표되는 "train from scratch"들은 vision encoder와 text encoder가 분리된 형태로 구성되어 있고,
- +) 까마득한 먼 옛날에 정리한 BLIP (https://asidefine.tistory.com/239)
- 동일한 임베딩 공간에서의 alignment를 위해서 Contrastive Learning을 Objective로 사용한다
- CLIP이나 BLIP으로 대표되는 "train from scratch"들은 vision encoder와 text encoder가 분리된 형태로 구성되어 있고,
- 2세대 : "Use Pre-trained LLM as a Backbone"
- LLaVA나 Qwen-VL와 같은 최근 모델에서는 Pretrained LLM을 Backbone으로 사용하고 있음
- Visual Feature의 경우는 MLP로 구성된 Projection Layer를 거쳐서 LLM의 Embedding space와 Align된다
- 그래서 최근의 VLM의 구성요소는 :
- 1. Vision Encoder : 이미지를 벡터(토큰 시퀀스)로 변환
- 예: CLIP ViT, EVA, SigLIP, Swin Transformer 등
- 2. Text Encoder/LLM
- 멀티모달 토큰을 받아 reasoning, captioning, QA 등을 수행
- 3. Cross Modality Alignment Mechanism
- 4. Projection Layer (Adapter, Projector)
- 고차원 시각적 표현을 텍스트 모달리티와 호환되는 컴팩트한 임베딩 토큰으로 변환
- Vision encoder 출력과 LLM 입력 차원을 맞춰주는 변환기
- Vision encoder 출력과 LLM 입력 차원을 맞춰주는 변환기
- 프로젝터는
- 1) cross modal objective를 최적화하기 위해 모델의 나머지 부분과 공동으로 훈련되거나,
- 2) 사전 훈련된 지식을 보존하기 위해 LLM과 같은 모델의 특정 부분을 고정할 수 있음
- LLaVA, Qwen2-VL, ....
- 1. Vision Encoder : 이미지를 벡터(토큰 시퀀스)로 변환
MultiModal 모델의 구분과 Fusion 방식
멀티모달 모델의 태생은 1) 본디 VLM으로 태어났는지, 아니면 2) 나중에 마개조 당했는지에 따라 나뉜다
Native Multimodal 아키텍처 설계 초기부터 이미지·텍스트(그리고 일부는 오디오) 처리를 통합적으로 고려한 모델 LLaMA 4, Gemini, Qwen2.5-Omni Bolt-on 원래 텍스트 전용 LLM에 Vision Encoder + Projection Layer를 덧붙여 멀티모달 기능 추가 LLaVA, MiniGPT-4, BLIP-2, Qwen2.5-VL, DeepSeek-VL v2, Kimi-VL, GPT-4(Vision) 멀티모달 모델 설계에서 중요한 건 이미지와 텍스트를 어떻게 합치느냐임
Dual Encoder 이미지와 텍스트 인코더가 독립적으로 작동함(초기 상호작용 없음).
각각이 공유 공간에서 임베딩을 생성하고, 모델은 이미지와 텍스트 임베딩 간의 유사성을 측정하는 방법을 학습함. 이는 대조 목표를 통해 이미지와 캡션 임베딩을 정렬하도록 훈련된 CLIP과 같은 모델에서 사용됨.세밀한 cross-modal reasoning 어려움 CLIP, BLIP Bolt-on Vision Encoder 출력 → Projection Layer → LLM 입력으로 삽입 (이미지 토큰을 LLM 토큰 시퀀스에 추가) 기존 LLM 재사용, 구현 용이 모달리티 간 깊은 상호작용 부족 BLIP-2, LLaVA-1.5, Qwen2.5-VL Early Fusion Vision + Language를 transformer 레벨에서 초기에 통합
예를 들어, 텍스트 토큰과 이미지 패치가 연결되어 둘 다에 대해 어텐션을 적용하
는 단일 트랜스포머에 입력될 수 있음.
이러한 초기 융합은 양식 간의 풍부한 상호작용을 허용함(텍스트가 특정 이미지 영역에 주의를 기울일 수 있음 등). 이는 세부적인 추론과 생성에 유용함.
하지만 처음부터 통합된 다중모달 트랜스포머를 훈련하는 것은 복잡하고 자원 집약적임.깊은 cross-modal 학습 가능 학습/데이터 비용 큼 Kosmos-2, Flamingo, Gemma3, Unified Encoder-Decoder 모든 모달리티를 같은 토크나이저·모델로 처리 궁극적인 통합 가능성 토크나이징 설계 난이도 Qwen2.5-Omni, Gemini 1.5 Objectives
1. 이미지-텍스트 대조(ITC) 학습
- 해당하는 이미지와 텍스트를 공유 임베딩 공간에서 가깝게 배치
- 일치하지 않는 쌍은 멀어지게 만드는 훈련
- InfoNCE 대조 손실 주로 사용
- 예시: CLIP - 올바른 이미지-캡션 쌍 유사성 최대화, 잘못된 쌍 최소화
- 결과: 제로샷 인식 가능한 모델 생성
2. 이미지-텍스트 매칭(ITM)
- 이진 분류 작업 (일치 vs 불일치)
- 캡션이 이미지를 올바르게 설명하는지 예측
- ALBEF, BLIP 등에서 활용
- 세밀한 정렬 학습에 도움
3. 마스크된 언어/이미지 모델링
- 마스크된 언어 모델링(MLM): 이미지 보고 마스크된 단어 예측
- 마스크된 이미지 모델링(MIM): 텍스트로 마스크된 이미지 패치 예측
- 예시: FLAVA - MLM, MIM, 다중모달 마스킹 조합 사용
- 이미지와 텍스트 공동 이해 개발
4. 이미지 캡셔닝 사전 훈련
- 이미지가 주어졌을 때 텍스트 설명 생성 훈련
- 조건부 언어 모델로 취급
- 예시: SimVLM, CoCa, BLIP
- BLIP의 2단계 접근: Captioner + 필터 → 자체 데이터 부트스트랩
5. 지시 조정(다중모달)
- 이미지 + 사용자 쿼리 → 답변 형태로 훈련
- 상호작용적이고 도움이 되는 VLM 제작
- 예시: LLaVA - GPT-4 생성 158K QA 쌍 활용
- 인간 주석 또는 강한 모델에서 증류
6. 감독된 미세 조정(SFT)
- 특정 다운스트림 작업에 대한 기존 미세 조정
- 예시: VQAv2 데이터셋에서 미세 조정
- 장점: 특정 애플리케이션 적응
- 단점: 모델을 좁게 만들거나 제로샷 능력 손실 가능
7. 인간 피드백 정렬 - RLHF와 DPO
- RLHF: 인간 피드백으로 강화 학습, PPO 알고리즘 사용
- DPO: 직접 선호 최적화, 더 안정적 접근법
- 바람직하지 않은 행동 줄이기
- 예시: IDEFICS, Moonshot Kimi-VL
8. 다중작업 학습
- 여러 목표나 작업 동시 훈련
- 가중 손실 합 최소화
- 예시: OFA - 캡셔닝, VQA, 시각적 그라운딩, 이미지 생성 통합
- 더 다재다능한 모델 생성
주요 손실 함수
손실 유형별 분류
- 대조 손실: ITC용 (InfoNCE 손실)
- 이진 교차 엔트로피: ITM 분류용
- 교차 엔트로피: 캡션 생성, 마스크된 토큰 예측용
- 강화 학습 손실: RLHF/DPO 정렬용
다중 손실 접근법
- 예시: ALBEF - 3가지 손실 조합
- 이미지-텍스트 대조 손실
- 이미지-텍스트 매칭 손실
- 마스크된 언어 모델링 손실
VLM 아키텍처와 기술의 이정표
비전-언어 모델은 최근 몇 년간 빠르게 발전했음. 여기서는 초기 시스템부터 최신 최첨단 모델까지 대표적인 모델들의 발전 과정을 개략적으로 설명하고 그들의 혁신을 강조함:
1. 초기 교차 모달 모델들 (2021년 이전): VisualBERT, ViLBERT 등
거대한 다중모달 모델의 시대 이전에, 연구자들은 2010년대 말에 텍스트 모델을 이미지를 처리하도록 확장하기 시작했음. VisualBERT(2019)는 영역 기반 시각적 특징(CNN 탐지기에서)을 BERT 모델에 삽입하고 마스크된 언어와 이미지-텍스트 매칭 손실로 훈련했음. 본질적으로 탐지된 이미지 영역을 문장의 추가 "단어"로 취급했음. ViLBERT(2019)와 LXMERT(2019)는 공동 어텐션 레이어를 통해 상호작용하는 별도의 비전과 텍스트 트랜스포머를 가진 투-스트림 접근법을 취했고, 관계 학습을 가능하게 했음(텍스트의 언급에 해당하는 객체처럼). 이러한 모델들은 비교적 작은 데이터(COCO, Visual Genome 등)에서 VQA와 캡셔닝에 적용되어 괜찮은 성공을 거두었지만, BERT 크기 아키텍처의 용량과 사전 계산된 영역 특징의 필요성으로 제한되었음.
2. 대조 학습 혁명: CLIP과 Align (2021)
분수령이 된 순간은 OpenAI의 CLIP(2021)와 함께 왔음. CLIP는 웹에서 수집한 4억 개의 이미지-캡션 쌍을 사용하고 듀얼-인코더(이미지용 ViT, 텍스트용 트랜스포머)를 훈련하여 어떤 캡션이 어떤 이미지와 맞는지 예측했음(대조 손실). 결과는 뛰어난 제로샷 능력을 가진 모델이었음: 미세 조정 없이도, CLIP는 단순히 이미지를 각 클래스의 텍스트 라벨과 비교하여 이미지를 분류할 수 있었고, 종종 ImageNet에서 전통적인 감독 모델과 일치하거나 능가했음. CLIP는 효과적으로 이미지와 텍스트를 위한 풍부한 공유 의미 공간을 학습했음. 그 성공은 규모(4억 개의 노이즈가 많은 데이터)와 대조 학습의 힘을 보여줬음. 비슷한 시기에, Google의 ALIGN과 LiT가 유사한 접근법을 따랐음(ALIGN은 더 큰 데이터셋인 수십억 쌍을 사용). 하지만 이러한 모델들은 생성적이지 않았음 – 새로운 캡션을 생성할 수 없고, 임베딩하고 비교만 할 수 있었음. 하지만 많은 후속 VLM의 기초가 되었음(종종 비전 인코더 구성 요소로서). CLIP의 영향은 엄청남: 많은 후속 모델들이 CLIP(또는 그 변형들)를 사전 훈련된 비전 백본으로 사용함. 예를 들어, LLaVA(2023)는 단순히 CLIP의 비전 인코더를 가져와 언어 모델에 연결했고, CLIP의 견고한 시각적 이해에 의존했음. 또한, CLIP의 데이터셋(또는 LAION 같은 그 파생물들)이 새로운 모델들을 훈련하는 기반이 되었음.
3. 다중모달 융합 모델들: ALBEF, SimVLM, OFA, FLAVA (2021–2022)
연구자들은 곧 검색 중심 모델을 넘어 이미지에 대한 언어를 이해하고 생성하는 모델들로 이동했음. ALBEF(ICCV 2021)는 그러한 모델 중 하나였고, 이미지와 텍스트 인코더 위에 다중모달 트랜스포머를 도입했음. ALBEF는 대조적 정렬(CLIP처럼)과 융합 인코딩의 조합을 사용했음: 먼저 전역 임베딩을 정렬한 다음, 교차 어텐션을 통해 토큰 수준 특징을 융합했음. 그렇게 함으로써, ALBEF는 검색을 처리할 수 있고 또한 VQA나 캡셔닝에 적합한 표현을 생성할 수 있었음. "융합 전 정렬"의 가치를 보여줬음 – 대조 손실을 사용하여 양식들이 대략 정렬되도록 보장한 다음, 더 깊은 융합으로 정제함.
BLIP(2022)는 훈련 데이터를 부트스트랩하여 이 아이디어를 개선했음. BLIP는 이미지에 대한 합성 캡션을 생성하는 캡셔닝 모델과 나쁜 (이미지, 캡션) 쌍을 필터링하는 필터링 모델을 훈련했음. 이를 통해 원래 캡션을 넘어 더 넓은 범위의 웹 이미지를 활용할 수 있었음. BLIP의 아키텍처는 이미지 인코더, 텍스트 인코더, 그리고 텍스트 디코더를 포함하여 하나의 프레임워크에서 이해와 생성 작업을 모두 가능하게 했음. VQA, 캡셔닝을 위해 미세 조정될 수 있었고 또는 캡션을 직접 생성하는 데 사용될 수도 있었음. BLIP는 이 다중작업 사전 훈련(ITC, ITM, MLM, 캡셔닝 모두 하나에서) 때문에 작업들에서 강한 성능을 보여줬음. 그 후속 버전인 BLIP-2(2023)는 다른 방향을 택했음(곧 논의됨).
OFA(One-for-All, 2022)는 Microsoft에서 나온 것으로 많은 작업(이미지 캡셔닝, VQA, 시각적 그라운딩, 심지어 텍스트 전용 작업)을 단일 시퀀스-투-시퀀스 트랜스포머로 통합했음. 모든 작업을 다중모달 입력의 시퀀스를 입력받아 시퀀스 출력을 생성하도록 훈련하는 것으로 취급했음. 아키텍처를 통합하고 다양한 작업에서 훈련함으로써, OFA는 여러 벤치마크에서 동시에 최첨단을 달성했음. 이 범용 다중작업 다중모달 모델의 개념은 후의 "Omni-모델" 아이디어의 전조였음.
또 다른 주목할 만한 2022년 모델은 Flamingo(DeepMind, 2022)였음 – CNN 인코더에서 시각적 토큰을 수집하는 교차 어텐션 레이어가 삽입된 LLM(Chinchilla 기반). Flamingo의 설계는 이미지와 텍스트 쌍의 시퀀스를 받아 텍스트 생성을 계속할 수 있게 하여 다중모달 작업에서 퓨샷 학습을 가능하게 했음. 핵심은 이미지 특징을 언어 모델의 여러 지점에서 공급될 수 있는 작은 토큰 세트로 줄이는 Perceiver Resampler였음. 대용량의 이미지/비디오와 텍스트 말뭉치(YT 클립과 대본 등)에서 훈련된 Flamingo는 강한 퓨샷 VQA와 캡셔닝을 보여줬음 – 맥락에서 몇 가지 예시를 주면 기울기 업데이트 없이 새로운 이미지에서 잘 수행할 수 있었음. Flamingo는 오픈소스되지 않았지만, 그 아이디어는 OpenFlamingo 같은 오픈 프로젝트에 영향을 주었고, 퓨샷 다중모달 학습을 위해 사전 훈련된 LLM과 학습된 시각적 인터페이스를 결합하는 효과를 보여줬음.
SimVLM(2021)도 빠른 언급을 받을 만함: 생성적 비전-언어 모델을 스케일링하는 초기 예시였음. 이미지-캡션 쌍을 이미지를 구분하는 특별한 토큰이 있는 "긴 문장"으로 취급하고, 캡션을 예측하도록 트랜스포머를 훈련했음(언어 모델링). 단순했지만, 스케일되고(18억 매개변수) 18억 이미지-텍스트 쌍에서 훈련됐을 때, 캡셔닝에서 SOTA를 달성하고 VQA에서 경쟁력 있는 결과를 얻었음. SimVLM의 단순함(왼쪽에서 오른쪽으로의 디코더만)은 Google의 PaLI 시리즈 같은 후의 생성적 접근법에 영향을 주었음.
FLAVA(2022)는 진정한 다중모달 기초 모델이 되려고 시도한 연구 모델이었음 – 별도의 이미지와 텍스트 인코더와 다중모달 인코더를 가지고 있었고, 단일모달과 다중모달 데이터 모두에서 손실의 칵테일(ITC, ITM, 마스크된 이미지, 마스크된 텍스트)로 훈련되었음. FLAVA는 이미지 전용 작업과 이미지+텍스트 작업 모두에서 좋은 성능을 내는 것을 목표로 했음. 규모는 적당했지만, 순수 비전, 순수 언어, 그리고 비전-언어 작업에서 괜찮은 단일 모델의 가능성을 보여줬음 – 어떤 양식이든 소비하는 "잡식성" 모델을 향한 아이디어.
4. 대규모 언어 모델로의 연결: BLIP-2, MiniGPT-4, LLaVA (2023)
2023년은 고정된 LLM과 비전을 연결하는 접근법의 급증을 보았고, GPT-3, OPT, 또는 LLaMA 같은 모델의 놀라운 언어 능력을 활용했음. 일반적인 레시피는: LLM을 그대로 유지하고(지식과 언어적 유창함을 보존하기 위해), 시각적 정보를 그것에 공급하는 경량 모듈을 훈련하는 것이었음.
주요 예시는 BLIP-2(2023)임. BLIP-2는 비전 인코더와 LLM 사이에 위치하는 작은 Querying 트랜스포머(Q-Former)를 도입했음. Q-Former는 이미지 인코더의 출력(예: ViT 특징)에 어텐션하는 학습 가능한 쿼리 벡터 세트를 가진 트랜스포머임. 이미지-텍스트 쌍에 대한 훈련을 통해, 이러한 쿼리들은 이미지에서 가장 현저한 정보를 추출하는 방법을 학습함. 결과적인 쿼리 임베딩은 선형적으로 LLM의 토큰 임베딩 공간으로 투영되고 고정된 LLM(OPT나 Flan-T5 같은)에 공급됨. 본질적으로, BLIP-2는 "통역사" 역할을 함: 시각적 콘텐츠를 LLM이 이해할 수 있는 언어 친화적 임베딩으로 번역함. 이를 통해 BLIP-2는 처음부터 대규모 모델을 공동 훈련해야 하는 필요 없이 LLM의 장점(예: 상식, 유창한 생성)을 활용할 수 있었음. BLIP-2는 전체 다중모달 훈련이 필요로 하는 것보다 훨씬 적은 계산을 사용하면서 캡셔닝과 심지어 일부 추론 작업에서 강한 결과를 달성했음.
이 패러다임을 따라, 많은 "GPT-4 비전 대안"들이 오픈소스 커뮤니티에서 등장했음:
LLaVA(2023년 4월): LLaVA(Large Language and Vision Assistant)는 CLIP ViT-L 인코더(고정)와 LLaMA-7B 언어 모델을 가져와서, 1024-D 이미지 특징을 4096-D 언어 모델 임베딩 공간으로 매핑하는 간단한 선형 레이어를 추가했음. 이 최소한의 통합 후에, LLaVA는 이미지에 대한 생성된 QA 쌍에서 미세 조정되었음. 결과는 인상적이었음 – 비교적 적은 데이터로 그리고 처음부터 새로운 기초를 훈련하지 않고 만들어진 괜찮은 다중모달 채팅 모델. LLaVA는 기본적으로 "최소한의 접착제"의 효과를 보여줬음: 선형 투영이 CLIP와 LLaMA를 작동하는 VQA 모델로 결합하기에 충분했음. 그 오픈 릴리스는 많은 파생물을 촉발했음.
MiniGPT-4(2023): 이름에도 불구하고, 이것은 실제로 GPT-4가 아니라 Vicuna 개성을 가진 7B LLaMA 모델이었음. CLIP ViT-L과 쌍을 이루고 단지 ~1-2백만 매개변수의 투영 레이어 하나만 있었음. MiniGPT-4도 두 구성 요소를 고정하고 약 500만 이미지-텍스트 쌍에서 그 단일 선형 레이어를 훈련한 다음, 작은 고품질 이미지 설명 세트에서 2단계 조정을 수행했음. 이 작은 적응으로, MiniGPT-4는 놀랍도록 고급스러운 이미지 설명을 생성할 수 있었음(예: 밈 설명). 하지만 더 복잡한 추론이나 세부적인 계산에서는 어려움을 겪었고, 더 큰 규모의 다중모달 훈련 없는 제로샷 전이의 한계를 나타냈음.
PaLM-E(2023): Google의 PaLM-E는 LLM-비전 통합에 다른 경로를 택했음. 대규모 사전 훈련된 언어 모델(PaLM)을 센서 임베딩(이미지, 로봇 등에서)을 텍스트 입력 시퀀스에 앞에 붙여 확장했음. PaLM-E는 로봇 센서 데이터와 이미지에서 훈련된 점이 주목할 만하며, 언어 모델은 대부분 고정되어 있었음. "E"는 체화(embodied)를 의미함. 적절한 인터페이스가 주어진다면 LLM이 여러 양식에 대한 일반적인 추론 엔진 역할을 할 수 있음을 보여줬음. PaLM-E는 언어를 통해 로봇 작업을 수행할 수 있었고, 단지 시각적 관찰을 프롬프트에 공급하는 것만으로. 이것은 다시 거대한 LLM이 비교적 작은 다중모달 미세 조정이 유용한 비전 기술을 부여할 수 있을 만큼 강력한 추론 사전을 가지고 있다는 것을 강화함.
Flamingo와 OpenFlamingo (재방문): Flamingo의 LLM 중간 레이어에 시각적 정보를 인터리빙하는 접근법도 "볼트-온" 방법으로 간주될 수 있음(단일 투영보다는 더 얽혀있지만). OpenFlamingo(LLaMA를 사용한 오픈 구현)가 이를 재현하려고 시도했음. 더 간단한 선형 레이어만큼 널리 성공적이지는 않았지만, 이러한 접근법들은 이미지가 여러 지점에서 텍스트와 맥락에서 처리될 수 있게 하여 잠재적으로 더 나은 세밀한 그라운딩으로 이어질 수 있음.
요약하면, 2023년의 트렌드는 모두 기존 LLM을 활용하는 것이었음. 처음부터 100억 매개변수 다중모달 모델을 훈련하는 것(극도로 비싸니까) 대신, 이미 똑똑한 10B 언어 모델을 사용하고 그것에게 보는 방법만 가르치면 어떨까? 이것은 BLIP-2, LLaVA, MiniGPT-4뿐만 아니라 유사한 청사진을 따르는 수많은 다른 모델들(종종 기발한 이름들을 가진)의 등장을 가져왔음(예: Otter, PandaGPT, X-LLM… 목록이 매주 늘어남). 이들은 어떤 비전 인코더(CLIP vs. 다른 것들), 어떤 LLM(LLaMA vs. Falcon 등), 그리고 연결이 어떻게 만들어지는지(선형 vs. 작은 트랜스포머 vs. 어댑터 모듈)의 세부사항에서 다르지만, 일반적인 철학은 공유됨.
5. 일반주의 다중모달 모델을 향해: 최신 오픈소스 VLM들 (2023년 말–2024년)
오픈소스 커뮤니티와 산업 연구소들은 VLM 능력을 최첨단에 가깝게 밀어붙이기 위해 빠르게 반복하고 있음. 최근 모델들과 그들을 차별화하는 것들을 강조해보자:
Qwen-VL(2023): Qwen-VL은 Alibaba의 Qwen LLM(7B/14B 매개변수 모델)의 비전-언어 버전임. Qwen-VL과 그 채팅 변형인 Qwen-VL-Chat은 캡셔닝, VQA, 심지어 대화와 같은 작업에서의 강한 성능으로 주목받았음. 기술적으로, Qwen-VL은 이미지 인코더로 비전 트랜스포머를 사용하고 텍스트용으로 Qwen 언어 모델을 사용함; 아마도 인터리빙 접근법이나 게이트된 교차 어텐션을 사용할 것임(논문의 세부사항은 비전 인코더가 부분적으로 훈련됨을 시사). 몇 가지 두드러진 특징: 다국어 이미지-텍스트 데이터(주로 영어와 중국어)에서 훈련되어 여러 언어로 응답할 수 있음. 또한 여러 이미지를 동시에 처리할 수 있음 – 훈련 중에 관련 맥락과 함께 여러 이미지가 주어져 모델이 이미지들을 비교하거나 추론할 수 있게 함. 더욱이, 많은 전임자들보다 높은 해상도 이미지를 받아들여 더 나은 세밀한 인식을 제공함. 이 모든 것이 2023년 말 오픈 모델들 중 최첨단 결과를 가져왔고, Qwen-VL은 종종 그 크기에 대해 MME와 MMBench 같은 벤치마크에서 정상을 차지했음. 본질적으로 많은 평가 스위트에서 GPT-4V 성능의 ~70-80%에 도달하는 오픈 7B 모델이 보여줘서 GPT-4와의 격차를 좁혔음.
LLaVA-1.5(2023년 10월): 이것은 개선된 LLaVA임. 팀은 이미지 인코더를 CLIP ViT-L/336(더 높은 해상도 능력)으로 업그레이드하고 간단한 선형 투영을 약간 더 깊은 MLP 투영으로 교체했음. 이러한 겉보기에 사소한 변화들이 성능을 눈에 띄게 향상시켰는데, 모델이 더 많은 시각적 세부사항을 활용하고 언어 공간으로의 더 나은 매핑을 할 수 있었기 때문임. LLaVA-1.5는 또한 2단계에서 학술 VQA 데이터셋(VQAv2, ScienceQA 등)에 대한 추가 훈련을 포함했음. 결과는 벤치마크 점수의 큰 개선이었음 – 저자들은 LLaVA-1.5가 그 크기의 오픈 모델에 대해 ~11개의 다중모달 벤치마크에서 새로운 최첨단을 달성하여 원래 LLaVA를 크게 능가한다고 보고함. 본질적으로, 비전을 언어에 연결하는 "볼트"(투영)를 미세 조정하고 더 많은 감독 데이터를 추가함으로써, 모델 크기를 증가시키지 않고도 성능 경계를 밀어붙였음.
LLaVA-OneVision(2024년 8월): 이것은 많은 비전 작업을 위한 단일 모델이 목표였던 흥미로운 개발임. LLaVA-OneVision(LLaVA 팀에서)은 "단일 이미지, 다중 이미지, 비디오라는 세 가지 시나리오에서 동시에 오픈 모델의 성능을 밀어붙이는 첫 번째 단일 모델"로 설명됨. 즉, 하나의 모델이 표준 이미지 Q&A, 다중 이미지 추론(예: 두 이미지 비교), 그리고 심지어 비디오 이해를 처리할 수 있음. 비전 작업 전이라는 아이디어를 활용함: 이미지에서 훈련한 다음 비디오 프레임을 여러 이미지처럼 취급하여 비디오에서 강한 제로샷 결과를 보여줌. 내부적으로, LLaVA-OneVision은 더 강한 비전 인코더(Google의 고성능 ViT인 SigLIP)를 사용하고 신중히 통합된 훈련 데이터("LLaVA-NeXT" 시리즈)와 함께 Qwen-7B 언어 모델을 기반으로 함(프로젝트 페이지에 따르면). 교차 모달 전이를 보여줌: 이미지에서 학습한 지식이 명시적인 비디오 훈련 없이도 모델이 비디오에서 잘 수행하도록 도왔는데, 이는 놀라운 능력임. LLaVA-OneVision은 본질적으로 별도의 전문화된 모델을 갖는 것보다는 하나의 네트워크에서 비전 작업(그리고 심지어 양식들)을 통합하는 방향으로의 한 걸음을 표시함.
PaLI와 PaLI-X/Gemini, 그리고 PaLI-Gemma2(2023–24): Google은 다중모달 모델에서도 활발히 활동하고 있음. PaLI(2022)는 100개 이상의 언어에서 100억 개의 이미지-텍스트 쌍에서 훈련된 대규모 다국어 비전-언어 모델(최대 17B 매개변수)이었음. 인코더-디코더 아키텍처(비전 인코더, 텍스트 디코더)를 사용했고 비영어를 포함한 많은 캡셔닝과 VQA 벤치마크에서 최첨단을 달성했음. 그 후속인 PaLI-X는 더욱 확장됨(~80B 매개변수 사용 보고). 하지만 이들은 주로 연구 모델이었고, 릴리스되지 않았음. 2023년에, Google은 Gemini(곧 출시될 다중모달 모델)를 발표했고 준비 과정에서 Gemma를 릴리스했음 – 같은 기술로 구축된 더 작은 오픈소스 모델 패밀리. Gemma 2와 Gemma 3는 텍스트 전용 언어 모델(2B, 6B, 12B 등의 크기)로 효율적이고 비전으로 확장 가능하도록 의도됨. PaliGemma 2(2024년 12월)는 SigLIP 비전 인코더(CLIP와 유사)와 Gemma 2 언어 모델을 결합한 오픈 VLM임. 3B, 10B, 28B 매개변수 변형으로 제공되며 다국어 이미지-텍스트 데이터 혼합(WebLI 등)에서 훈련됨. 아키텍처는 이미지 인코더의 출력이 텍스트 디코더(Gemma)에 공급되는 인코더-디코더로, PaLI와 매우 유사하지만 축소된 버전임. "경량"임에도 불구하고, PaliGemma 2 모델들은 고품질이고 유연함 – 여러 이미지 해상도를 지원하고 캡셔닝이나 VQA 같은 작업을 위해 쉽게 미세 조정될 수 있음. Google은 심지어 뛰어난 세부 캡셔닝 능력을 보여주는 미세 조정된 모델들의 예시(긴 이미지 설명 데이터셋인 DOCCI에서)도 제공했음. 본질적으로, PaliGemma 2는 허용적인 라이선싱과 함께 커뮤니티를 위한 PaLI 같은 모델을 민주화하려는 Google의 시도임. 한편, Gemma 3(2025)는 비전을 더 네이티브하게 통합할 것으로 예상됨(Google 블로그는 Gemma 3가 기본 모델 자체에 비전-언어 지원을 포함하여 다중모달 작업을 위해 더 "자원 친화적"으로 만든다고 암시). Gemma 3의 세부사항이 아직 나오고 있지만, 통합된 다중모달 기본 모델의 산업 트렌드와 일치함.
DeepSeek-VL과 DeepSeek-VL2(2024): DeepSeek는 "실제 세계 비전-언어 이해"에 초점을 맞춘 또 다른 오픈 이니셔티브임. 첫 번째 DeepSeek-VL(2024년 3월)과 그 후속인 DeepSeek-VL2는 대규모로 전문가 혼합을 채택했음. 실제로, DeepSeek-VL2는 특히 상당한 성능 향상을 달성하기 위해 MoE 트랜스포머를 사용함 – Kimi-VL과 정신적으로 유사하지만 아마도 다른 세부사항들과 함께(DeepSeek는 또한 RLHF를 위한 GRPO와 같은 일부 새로운 정렬 기술을 개척한 것으로도 알려져 있음). 이러한 모델들은 OCR, 세부 Q&A 등과 같은 실용적인 작업에서 강한 성능을 강조하고, VLM을 효율적으로 확장하는 유망한 경로로서 MoE를 강조함. DeepSeek의 최신 "R1" 대규모 언어 모델과 VL 모델들은 추론 벤치마크에서 최고 폐쇄 모델들과 경쟁적이라고 언급되어, 오픈 연구가 따라잡고 있음을 강조함.
6. 2025년
1. Gemma 3 – Google DeepMind (2025)
📌 기술적 개선점
- 멀티모달 통합: Gemma 시리즈 최초 이미지 입력 지원 (SigLIP Vision Encoder 탑재)
- Pan&Scan 알고리즘: 고해상도 이미지(비정형 크기) → 896×896로 잘라 처리, 세부 정보 이해 강화
- MultiModal Projector: 이미지 → 256개의 소프트 토큰으로 압축, 추론 속도 향상
- Local-Global Attention (5:1): 장문 입력(128K 토큰) 메모리 절감
- QK-Norm: 기존 soft-capping 대체, 정확도+속도 개선
- 다국어 성능 향상: Gemini와 동일한 26만 어휘 토크나이저, 병렬·다국어 데이터 비중 확대
🛠 멀티모달 구조
- Bolt-on 후기 융합
- SigLIP ViT → 4096 패치 토큰 생성 → 선형 투사 → LLM 임베딩 차원 맞춤
- 압축된 256개 이미지 토큰을 <img> 위치에 삽입, 텍스트와 함께 autoregressive 처리
- 비전 인코더와 언어 디코더 분리, 이미지 정보는 LLM 입력 토큰 시퀀스에 지연 결합
2. Qwen 2.5-Omni – Alibaba (2025)
📌 기술적 개선점
- 완전 통합형 멀티모달: 텍스트·이미지·음성·동영상 4모달 입력 + 텍스트·음성 동시 출력
- TMRoPE: 비디오·오디오 시간축 정렬을 위한 위치 인코딩
- Thinker–Talker 이중 디코더:
- Thinker: 텍스트 생성
- Talker: Thinker 은닉 상태로부터 TTS 음성 토큰 생성
- 스트리밍 대응: 블록단위 인코딩, 슬라이딩 윈도우 TTS
🛠 멀티모달 구조
- 멀티 인코더 + 멀티 디코더
- 이미지: CLIP계 ViT 인코더 + 프로젝션 → LLM 입력
- 음성: Conformer 기반 오디오 인코더 + 프로젝션 → LLM 입력
- 비디오: 시간블록 단위 프레임 처리, 오디오 토큰과 교차배열
- 언어 디코더(Thinker)는 통합 Transformer, Talker는 TTS 전용 디코더
- Bolt-on 기반이지만 시간축 정렬(TMRoPE)로 멀티모달 시퀀스 처리
3. Kimi-VL – Moonshot AI (2025)
📌 기술적 개선점
- MoE Transformer: DeepSeek-VL2 계열, 추론 시 일부 전문가만 활성화 → 효율 극대화
- MoonViT: 네이티브 고해상도(최대 4K) 이미지 인코더, 계층적 어텐션으로 연산비 절감
- 128K 컨텍스트: 장문 멀티모달 입력 지원
- 에이전트 기능: OSWorld 등 도구 사용, JSON·좌표 출력 가능
- Thinking 버전: 장문 CoT 튜닝으로 멀티모달 수학·추론 벤치마크 SOTA
🛠 멀티모달 구조
- Vision Transformer(MoonViT) + MoE 언어 디코더
- ViT 패치 토큰 → 선형 투사 → LLM 입력
- Bolt-on 후기 융합, 멀티 이미지·영상 입력 지원
- 고해상도와 초장문 멀티모달 reasoning에 최적화
4. SmolVLM – HuggingFace (2025)
📌 기술적 개선점
- 초경량 VLM: 0.256B~2.2B 파라미터, 엣지 디바이스 구동 가능 (256M 모델, <1GB VRAM)
- 대형 모델 대비 비슷하거나 우수한 성능 (Idefics 80B 초월)
- 토큰 압축 전략:
- 큰 패치 사이즈
- Pixel-shuffle 유사 연산으로 토큰 수 감소
- 멀티모달 데이터 최적화: 소형 모델용 데이터셋 재설계
- 비디오 이해 가능: 동일 파이프라인으로 프레임 처리
🛠 멀티모달 구조
- 경량 ViT/ConvNeXt → 피처맵 생성 → 공간→채널 재배열 → 토큰 수 감소
- MLP 프로젝션 → 텍스트 토큰과 concat/교차배열
- Bolt-on 후기 융합 구조, 효율 극대화 설계
728x90'AI > Multimodal' 카테고리의 다른 글
- 1세대 : "Train from scratch"