AI/Speech

[ASR Study] 0. Introduction : Automatic Speech Recognition 개요

땽뚕 2024. 1. 13. 22:40
728x90

 

 

 

[ASR Study] 0. Introduction : Automatic Speech Recognition 개요

 

 

 

 

Automatic Speech Recognition (ASR, 자동 음성 인식)

 

정의

 

  • 음성 신호(acoustic signal)를 단어(word) 혹은 음소(phoneme) 시퀀스로 변환하는 시스템
  •  사람 말소리를 텍스트로 바꾸는 모델(Speech to Text model)

 

 

종류  

 

 

  •  음향 모델(Acoustic Model)
    • 기존: 히든 마코프 모델(Hidden Markov Model), 가우시안 믹스처 모델(Gaussian Mixture Model), ... 
    • 최근: 딥러닝 기반 기법들 
  • 언어 모델(Language Model)
    • 기존: 통계 기반 n-gram 모델
    • 최근: 딥러닝 기반 기법들

 

 

 

원리

 

  • 음성 신호  X( x1,x2,…,xt)에 대해 가장 그럴듯한(likely) 음소/단어 시퀀스  Y( y1,y2,…,yn)를 추정
  • 수식 1 : P(Y|X) 바로 추정하는 방식 Ŷ =argmaxP(Y|X) 
    • P(Y|X)를 최대화하는 음소/단어 시퀀스 Y를 추론(inference)하는 데에 있음
    • 한계: X의 분포 모름  -> X의 범위가 Y에 비해 현저히 크며, P(X|Y)의 경우에는 Y를 한정지을 수 있기 때문

  • 수식 2 : 베이즈 정리 활용해서 다양한 변이형 커버하는 모델 만들고자 함 
    • P(X) : 베이즈 정리에서 evidence라고 불림 
      • Y의 모든 경우의 수에 해당하는 X의 발생 확률 -> 추정하기 어려움

 

  • 수식 3: inference 과정에서 입력 신호 X는 Y와 관계없이 고정되어 있음 
    • 따라서 추론과정에서 P(X)를 계산에서 생략할 수 있음
    • Y 의 후보 시퀀스가 2가지(Y1,Y2)뿐이라면 수식3처럼 예측 결과(Y1)를 만들 때 분자만 고려하면 됨 
     

  • 수식 4: 최종적인 음성 인식 모델 
    • 두 가지 부분으로 이뤄짐 - 수식4 우변의 첫번째 항 P(X|Y)는 음향 모델(Acoustic Model),  P(Y)는 언어 모델(Language Model)로 불림
      • P(X|Y) : 음향 모델은 ‘음소/단어 시퀀스’와 ‘입력 음성 신호’가 어느 정도 관계를 맺고 있는지 추출
      • P(Y) : 언어 모델은 해당 음소/단어 시퀀스가 얼마나 자연스러운지 확률값 형태

 

 

 

 

전통적인 음성 인식 모델의 구조 

 

HMM, GMM 기반 음성인식 모델

  • 음향 모델(Acoustic Model) 
    • P(X|Y)를 반환 
    • 음소(또는 단어) 시퀀스  Y가 주어졌을 때 입력 음성 신호 시퀀스  X가 나타날 확률을 부여한다
    • 음성 신호와 음소(또는 단어)와의 관계를 표현(represent the relationship between an audio signal and the phonemes or other linguistic units that make up speech)하는 역할
    • 히든 마코프 모델(Hidden Markov Model, HMM)과 가우시안 믹스처 모델(Gaussian Mixture Model, GMM) 조합이 자주 사용됨

 

  • 언어 모델(Language Model)
    • 음소(또는 단어) 시퀀스  Y가 얼마나 그럴듯한지(likely)에 관한 정보, 즉  P(Y)를 반환
    •  음소(또는 단어) 시퀀스에 대한 확률 분포(a probability distribution over sequences of words)
    • 통계 기반 n-gram 모델이 자주 쓰임 

 

 

 

딥러닝 기반 음성인식 모델

  • 최근엔 딥러닝 기반의 컴포넌트 사용
    • 위 그림보다 한발 더 나아가 수식1의  P(Y|X) 을 바로 추정하는 엔드투엔드(end-to-end) 자동 음성 인식 모델 역시 제안

 

 

Acoustic Features

 

 

 

1. MFCC

  • 기존 자동 음성 인식 모델의 주요 컴포넌트인 ‘HMM+GMM’이 사용하는 음향 특징(Acoustic Feture)
  • 사람이 잘 인식하는 말소리 특성을 부각시키고 그렇지 않은 특성은 생략하거나 감소시킨 피처(feature)
  • 룰 기반의 피쳐 - 연구자들이 한땀한땀 만들어낸 룰(rule)에 기반한 피처

 

MFCC 추출 과정

 

 

2. 딥러닝 기반의 음향 특징 

 

  • 음향 특징 추출도 딥러닝으로 대체되는 추세
  • Wav2Vec, SincNet 등 다양한 기법이 제시
  • 예시 : SincNet
    • 입력 음성 신호에 다양한 싱크 함수(sinc function)을 통과시켜 문제 해결에 도움이 되는 주파수 영역대를 부각시키고 나머지는 버림
    • 이때 각 싱크 함수가 주로 관장하는 주파수 영역대가 학습 대상(trainable parameter)이 됨
    • 딥러닝 기반 음향 특징 추출 기법들은 그 과정이 결정적(deterministic)이지 않고 확률적(probabilistic)임

 

 

 

 

 

References

 

https://ratsgo.github.io/speechbook/docs/introduction

 

Introduction

articles about speech recognition

ratsgo.github.io

 

728x90