AI/Speech

[ASR Study] Speech and speaker recognition from raw waveform with sincnet (SLT, 2018)

땽뚕 2024. 2. 8. 10:07
728x90

 

 

 

[ASR Study] Speech and speaker recognition from raw waveform with sincnet (SLT, 2018)

 

 

 

  • CNN architecture 에 sinc function을 추가하여 Speaker recognition에 특화
  • 기존에 사용하던 FBANK나 MFCC 상수(많은 튜닝이 필요)를 사용하는 대신, Raw Waveform을 직접 feed로 사용하여 학습

 

 

 

 

  • 화자(speaker)가 누구(index)인지 맞추는 과정에서 SincNet이 학습
  • 시간 도메인의 입력 음성 신호  x에 싱크 함수로 컨볼루션 연산을 적용
    • 싱크 함수를 유한한 길이로 자르고 이를 푸리에 변환을 하면, 이상적인 bandpass filter의 모양(사각형)에서 점점 멀어지게 됨
    • 우리가 원하는 주파수 영역대 정보는 덜 캐치하게 되고, 버려야 하는 주파수 영역대 정보도 일부 캐치
    • 이를 해결하기 위해 Window 적용!
      • 해당 필터에 윈도우 함수를 써서 양끝을 스무딩한다는 개념
      • Hamming Window -> 이거 배웠죠?

 

 

 

 

 

  • 중심 주파수 영역대는 잘 캐치하고 그 외 주파수 영역대는 무시하게 됨
    • 즉, 유한한 길이의 싱크 함수를 사용하더라도 해밍 윈도우 기법을 사용하면 원하는 주파수 영역대 정보를 잘 살리고, 버려야 할 주파수 영역대 정보는 잘 버리는 보완책이 될 수 있다
  • 해밍 윈도우를 싱크 함수에 적용 - 컨볼루션 필터의 양끝을 스무딩함 
  • 장점 
    • Fast Convergence
    • Few Parameters
    • Computational Efficiency
    • Interpretability

 

 

 

 

 

 

 

 

  • 결과 
    • Dataset : TIMIT /  Librispeech
    •  200ms 길이의 청크로 분할 (10ms의 overlap)
    • Filter analysis
      • SincNet 의 Filter Sum이 CNN에 비해 Pitch 와 Formant 주파수에 높은 비중
    • Speaker Identification
      • SincNet 이 MFCC, FBANK, Raw 데이터를 이용한 Neural Net 보다 전체적으로 더 좋은 성능
      • 마지막 layer의 결과값의 cos 거리를 이용하는 d-vector 방법이 일반적인 classification에 사용되는 DNN-class 방법보다 높은 ERR

 

 

728x90