[ASR Study] Speech and speaker recognition from raw waveform with sincnet (SLT, 2018)

AI/Speech

[ASR Study] Speech and speaker recognition from raw waveform with sincnet (SLT, 2018)

땽뚕 2024. 2. 8. 10:07

728x90

[ASR Study] Speech and speaker recognition from raw waveform with sincnet (SLT, 2018)

CNN architecture 에 sinc function을 추가하여 Speaker recognition에 특화
기존에 사용하던 FBANK나 MFCC 상수(많은 튜닝이 필요)를 사용하는 대신, Raw Waveform을 직접 feed로 사용하여 학습

화자(speaker)가 누구(index)인지 맞추는 과정에서 SincNet이 학습
시간 도메인의 입력 음성 신호 x에 싱크 함수로 컨볼루션 연산을 적용
- 싱크 함수를 유한한 길이로 자르고 이를 푸리에 변환을 하면, 이상적인 bandpass filter의 모양(사각형)에서 점점 멀어지게 됨
- 우리가 원하는 주파수 영역대 정보는 덜 캐치하게 되고, 버려야 하는 주파수 영역대 정보도 일부 캐치
- 이를 해결하기 위해 Window 적용!
  - 해당 필터에 윈도우 함수를 써서 양끝을 스무딩한다는 개념
  - Hamming Window -> 이거 배웠죠?

중심 주파수 영역대는 잘 캐치하고 그 외 주파수 영역대는 무시하게 됨
- 즉, 유한한 길이의 싱크 함수를 사용하더라도 해밍 윈도우 기법을 사용하면 원하는 주파수 영역대 정보를 잘 살리고, 버려야 할 주파수 영역대 정보는 잘 버리는 보완책이 될 수 있다
해밍 윈도우를 싱크 함수에 적용 - 컨볼루션 필터의 양끝을 스무딩함
장점
- Fast Convergence
- Few Parameters
- Computational Efficiency
- Interpretability

결과
- Dataset : TIMIT / Librispeech
- 200ms 길이의 청크로 분할 (10ms의 overlap)
- Filter analysis
  - SincNet 의 Filter Sum이 CNN에 비해 Pitch 와 Formant 주파수에 높은 비중
- Speaker Identification
  - SincNet 이 MFCC, FBANK, Raw 데이터를 이용한 Neural Net 보다 전체적으로 더 좋은 성능
  - 마지막 layer의 결과값의 cos 거리를 이용하는 d-vector 방법이 일반적인 classification에 사용되는 DNN-class 방법보다 높은 ERR

728x90