-
[ASR Study] Speech and speaker recognition from raw waveform with sincnet (SLT, 2018)AI/Speech 2024. 2. 8. 10:07728x90
[ASR Study] Speech and speaker recognition from raw waveform with sincnet (SLT, 2018)
- CNN architecture 에 sinc function을 추가하여 Speaker recognition에 특화
- 기존에 사용하던 FBANK나 MFCC 상수(많은 튜닝이 필요)를 사용하는 대신, Raw Waveform을 직접 feed로 사용하여 학습
- 화자(speaker)가 누구(index)인지 맞추는 과정에서 SincNet이 학습
- 시간 도메인의 입력 음성 신호 x에 싱크 함수로 컨볼루션 연산을 적용
- 싱크 함수를 유한한 길이로 자르고 이를 푸리에 변환을 하면, 이상적인 bandpass filter의 모양(사각형)에서 점점 멀어지게 됨
- 우리가 원하는 주파수 영역대 정보는 덜 캐치하게 되고, 버려야 하는 주파수 영역대 정보도 일부 캐치
- 이를 해결하기 위해 Window 적용!
- 해당 필터에 윈도우 함수를 써서 양끝을 스무딩한다는 개념
- Hamming Window -> 이거 배웠죠?
- 중심 주파수 영역대는 잘 캐치하고 그 외 주파수 영역대는 무시하게 됨
- 즉, 유한한 길이의 싱크 함수를 사용하더라도 해밍 윈도우 기법을 사용하면 원하는 주파수 영역대 정보를 잘 살리고, 버려야 할 주파수 영역대 정보는 잘 버리는 보완책이 될 수 있다
- 해밍 윈도우를 싱크 함수에 적용 - 컨볼루션 필터의 양끝을 스무딩함
- 장점
- Fast Convergence
- Few Parameters
- Computational Efficiency
- Interpretability
- 결과
- Dataset : TIMIT / Librispeech
- 200ms 길이의 청크로 분할 (10ms의 overlap)
- Filter analysis
- SincNet 의 Filter Sum이 CNN에 비해 Pitch 와 Formant 주파수에 높은 비중
- Speaker Identification
- SincNet 이 MFCC, FBANK, Raw 데이터를 이용한 Neural Net 보다 전체적으로 더 좋은 성능
- 마지막 layer의 결과값의 cos 거리를 이용하는 d-vector 방법이 일반적인 classification에 사용되는 DNN-class 방법보다 높은 ERR
728x90'AI > Speech' 카테고리의 다른 글