Speech
-
[ASR Study] 1. 음성학(Phonetics)과 음운론(Phonology)AI/Speech 2024. 1. 13. 23:09
[ASR Study] 1. 음성학(Phonetics)과 음운론(Phonology) 음성학(Phonetics) 말소리의 실체에 물리적으로 접근하여 기술하고 분석하는 분야 물리적인 말소리의 생성과 음향 및 인지에 초점 세부 분야 조음음성학 : 말소리가 만들어지는 과정에 대한 연구 분야. 개별 언어의 말소리를 만들어 내기 위해 우리 몸의 어떤 기관의 어떤 부분을 어떤 모양으로 움직이는가 하는 점을 연구. 음향음성학 : 말소리의 물리적 특성을 연구하는 분야. 음향분석기 등을 이용하여 발음을 하는 기관들의 움직임에 따라 달라지는 말소리의 음파를 분석하고 연구. 청취음성학 : 말소리를 인지하는 과정에 대한 연구 분야. 말소리가 귀를 통과하는 과정과 뇌에서 그것을 해석하는 과정을 연구. 공기를 통하여 전달되는 말소리..
-
[ASR Study] 0. Introduction : Automatic Speech Recognition 개요AI/Speech 2024. 1. 13. 22:40
[ASR Study] 0. Introduction : Automatic Speech Recognition 개요 Automatic Speech Recognition (ASR, 자동 음성 인식) 정의 음성 신호(acoustic signal)를 단어(word) 혹은 음소(phoneme) 시퀀스로 변환하는 시스템 사람 말소리를 텍스트로 바꾸는 모델(Speech to Text model) 종류 음향 모델(Acoustic Model) 기존: 히든 마코프 모델(Hidden Markov Model), 가우시안 믹스처 모델(Gaussian Mixture Model), ... 최근: 딥러닝 기반 기법들 언어 모델(Language Model) 기존: 통계 기반 n-gram 모델 최근: 딥러닝 기반 기법들 원리 음성 신호 X..
-
[ASR Study] wav2vec: Unsupervised pre-training for speech recognition (Interspeech, 2019)AI/Speech 2024. 1. 13. 16:08
[ASR Study] wav2vec: Unsupervised pre-training for speech recognition (Interspeech, 2019) word2vec과 비슷한 본 모델의 이름에서 느낌이 오듯이, 임베딩을 잘 뽑기 위한 모델이라 생각하면 되겠다 Introduction 기존 연구들과 그 한계 현재 ASR SOTA 모델들은 대량의 transcribed audio data가 필요하다 하지만, labeled data는 부족 Key Idea 데이터 양이 충분할 때, general representation을 학습하는 것 (=pretraining) 데이터 양이 부족할 때, downstream task에 대한 성능을 높이는 것 (=fine-tuning) Unsupervised Learning..