분류 전체보기
-
[ASR Study] 0. Introduction : Automatic Speech Recognition 개요AI/Speech 2024. 1. 13. 22:40
[ASR Study] 0. Introduction : Automatic Speech Recognition 개요 Automatic Speech Recognition (ASR, 자동 음성 인식) 정의 음성 신호(acoustic signal)를 단어(word) 혹은 음소(phoneme) 시퀀스로 변환하는 시스템 사람 말소리를 텍스트로 바꾸는 모델(Speech to Text model) 종류 음향 모델(Acoustic Model) 기존: 히든 마코프 모델(Hidden Markov Model), 가우시안 믹스처 모델(Gaussian Mixture Model), ... 최근: 딥러닝 기반 기법들 언어 모델(Language Model) 기존: 통계 기반 n-gram 모델 최근: 딥러닝 기반 기법들 원리 음성 신호 X..
-
[ASR Study] wav2vec: Unsupervised pre-training for speech recognition (Interspeech, 2019)AI/Speech 2024. 1. 13. 16:08
[ASR Study] wav2vec: Unsupervised pre-training for speech recognition (Interspeech, 2019) word2vec과 비슷한 본 모델의 이름에서 느낌이 오듯이, 임베딩을 잘 뽑기 위한 모델이라 생각하면 되겠다 Introduction 기존 연구들과 그 한계 현재 ASR SOTA 모델들은 대량의 transcribed audio data가 필요하다 하지만, labeled data는 부족 Key Idea 데이터 양이 충분할 때, general representation을 학습하는 것 (=pretraining) 데이터 양이 부족할 때, downstream task에 대한 성능을 높이는 것 (=fine-tuning) Unsupervised Learning..
-
[2023 Lab Seminar] BLIP: Bootstrapping Language-Image Pre-training for Unified Vision-Language Understanding and Generation (ICML, 2022)AI/Multimodal 2023. 10. 3. 19:19
[2023 Lab Seminar] BLIP: Bootstrapping Language-Image Pre-training for Unified Vision-Language Understanding and Generation (ICML, 2022) Introduction : Vision-Language Pretraining (VLP) 먼저 Vision-Language에 대해서 생소하실 수 있는 분들을 위해서 한 번 짚고 넘어가자면, Vision-Language Pretraining(VLP)은 컴퓨터 비전과 자연어 처리를 결합한 인공지능 모델을 사전 학습하는 방법입니다. BERT, OpenAI GPT 등 기존 연구들은 대규모 텍스트 데이터를 모아 사전학습 후 미세조정(pre-training and fine-t..
-
[2023 Summer Lab Seminar] FLAN: FINETUNED LANGUAGE MODELS ARE ZERO-SHOT LEARNERS (ICLR, 2022)AI/NLP 2023. 9. 28. 14:49
[2023 Summer Lab Seminar] FINETUNED LANGUAGE MODELS ARE ZERO-SHOT LEARNERS (ICLR, 2022) 이 논문은 “Instruction Tuning”이라는, in-context learning과 Reinforcement Learning from Human Feedback (RLHF) 사이에 제시된, 다운스트림 태스크에 대한 학습 방식을 제시한 논문입니다. 다음과 같은 순서로 소개해드리겠습니다. 먼저 Introduction에서 최근 fine-tuning 외의 LLM을 학습하는 방식들에 대해서 설명을 드리고, 오늘 핵심적으로 말씀드릴 Instruction Tuning에 대해서 소개하고자 합니다. Instruction Tuning의 학습 방법을 말씀드리고..
-
[2023 Spring Lab Seminar] Learning Transferable Visual Models From Natural Language Supervision (ICML, 2021)AI/Multimodal 2023. 6. 20. 16:08
[2023 Spring Lab Seminar] Learning Transferable Visual Models From Natural Language Supervision (ICML, 2021) 요약 Approach Natural Lanuage Supervision 라벨링이 필요 없다 그렇기 때문에 방대한 양의 데이터 Creating a sufficiently large dataset WIT(WebImageText)라는 새로운 데이터셋 제안 Pretraining Method CLIP : Contrastive Language-Image Pre-Training N개의 이미지와 N개의 텍스트의 쌍을 갖고 와서 dot product ! 유사한 것들은 크게, 다른 것들은 작게 해서 임베딩 공간에 zero shot..
-
[2023 Spring Lab Seminar] Sequential Modelling of the Evolution of Word Representations for Semantic Change Detection (EMNLP, 2022)AI/NLP 2023. 5. 23. 18:34
Sequential Modelling of the Evolution of Word Representations for Semantic Change Detection (EMNLP, 2022) 요약: 이 논문은 시간이 지남에 따라 의미가 변화한 단어를 식별하는 작업인 '의미 변화 감지'에 관한 것 본 연구에서는 단어 벡터의 시퀀셜 모델 세 가지 변형을 제안하여 시간에 따른 단어 표현의 변화를 효과적으로 고려 가상 및 실제 데이터에 대해 다양한 설정에서의 광범위한 실험을 통해 단어 벡터의 시퀀셜 모델링이 의미 변화 감지에 있어 중요성을 보여줌 마지막으로, 다양한 접근 방식을 정량적으로 비교하여 단어 표현의 시간적 모델링이 성능적으로 명확한 이점을 제공하는 것을 입증 기존 연구: 기존의 연구들은 단어의 벡터 표..
-
[2023 Spring NLP Seminar] On Transferability of Prompt Tuning for Natural Language Processing (NAACL 2022)AI/NLP 2023. 5. 10. 11:07
[2023 Spring NLP Seminar ] On Transferability of Prompt Tuning for Natural Language Processing (NAACL 2022) Abstract + Introduction 기존 연구 동향: 기존의 pre-trained language models (PLMs)은 파라미터 수가 매우 많아서 fine-tuning에는 많은 계산 자원과 시간이 필요했다. 이러한 문제를 해결하기 위해 Prompt Tuning (PT)이라는 새로운 방법이 제안되었다. PT는 매우 큰 PLMs를 활용하여 매우 적은 수의 소프트 프롬프트(prompt)만을 조정하여 전체 파라미터 fine-tuning 수행 결과와 비교 가능한 성능을 달성하는 방법이다. 기존 연구들의 한계: ..
-
[2023 Spring Lab Seminar] DDIM: Denoising Diffusion Implicit Model (ICLR, 2021)AI/Computer Vision 2023. 5. 9. 18:15
[2023 Spring Lab Seminar] DDIM: Denoising Diffusion Implicit Model (ICLR, 2021) Generative model : Diffusion Model DIffusion (forward process) -> : 이미지에 고정된(fixed) 정규 분포(=Gaussian분포)로 생성된 Noise가 더해지고 Sampling (reverse process)