728x90
Sincnet
-
[ASR Study] Speech and speaker recognition from raw waveform with sincnet (SLT, 2018)AI/Speech 2024. 2. 8. 10:07
[ASR Study] Speech and speaker recognition from raw waveform with sincnet (SLT, 2018) CNN architecture 에 sinc function을 추가하여 Speaker recognition에 특화 기존에 사용하던 FBANK나 MFCC 상수(많은 튜닝이 필요)를 사용하는 대신, Raw Waveform을 직접 feed로 사용하여 학습 화자(speaker)가 누구(index)인지 맞추는 과정에서 SincNet이 학습 시간 도메인의 입력 음성 신호 x에 싱크 함수로 컨볼루션 연산을 적용 싱크 함수를 유한한 길이로 자르고 이를 푸리에 변환을 하면, 이상적인 bandpass filter의 모양(사각형)에서 점점 멀어지게 됨 우리가 원하는 주파수 ..