Speech Recognition
-
[ASR Study] Speech and speaker recognition from raw waveform with sincnet (SLT, 2018)AI/Speech 2024. 2. 8. 10:07
[ASR Study] Speech and speaker recognition from raw waveform with sincnet (SLT, 2018) CNN architecture 에 sinc function을 추가하여 Speaker recognition에 특화 기존에 사용하던 FBANK나 MFCC 상수(많은 튜닝이 필요)를 사용하는 대신, Raw Waveform을 직접 feed로 사용하여 학습 화자(speaker)가 누구(index)인지 맞추는 과정에서 SincNet이 학습 시간 도메인의 입력 음성 신호 x에 싱크 함수로 컨볼루션 연산을 적용 싱크 함수를 유한한 길이로 자르고 이를 푸리에 변환을 하면, 이상적인 bandpass filter의 모양(사각형)에서 점점 멀어지게 됨 우리가 원하는 주파수 ..
-
[ASR Study] 2. Acoustic Feature Extraction - Fourier Transform과 MFCCAI/Speech 2024. 1. 13. 23:10
[ASR Study] 2. Acoustic Feature Extraction - Fourier Transform과 MFCC MFCC 기존 시스템은 물론 최근 엔드투엔드(end-to-end) 기반 모델에 이르기까지 음성 인식 시스템에 널리 쓰이는 피처 음성 인식과 관련해 불필요한 정보는 버리고 중요한 특질만 남긴 것 뉴럴네트워크 기반 피처 추출 방식과는 달리 음성 도메인의 지식과 공식에 기반한 추출 방법 음성 입력이 주어지면 피처가 고정된(deterministic) 형태 푸리에 변환(Fourier Transform)을 기반으로 함 시간과 주파수 도메인 관련 함수를 이어주는 수학적인 연산 음성 신호의 스펙트럼 분석 등에 필수적 푸리에 변환(Fourier Transform) Fourier Transform 시..
-
[ASR Study] 0. Introduction : Automatic Speech Recognition 개요AI/Speech 2024. 1. 13. 22:40
[ASR Study] 0. Introduction : Automatic Speech Recognition 개요 Automatic Speech Recognition (ASR, 자동 음성 인식) 정의 음성 신호(acoustic signal)를 단어(word) 혹은 음소(phoneme) 시퀀스로 변환하는 시스템 사람 말소리를 텍스트로 바꾸는 모델(Speech to Text model) 종류 음향 모델(Acoustic Model) 기존: 히든 마코프 모델(Hidden Markov Model), 가우시안 믹스처 모델(Gaussian Mixture Model), ... 최근: 딥러닝 기반 기법들 언어 모델(Language Model) 기존: 통계 기반 n-gram 모델 최근: 딥러닝 기반 기법들 원리 음성 신호 X..