ABOUT ME

-

Today
-
Yesterday
-
Total
-
  • [ASR Study] 0. Introduction : Automatic Speech Recognition 개요
    AI/Speech 2024. 1. 13. 22:40
    728x90

     

     

     

    [ASR Study] 0. Introduction : Automatic Speech Recognition 개요

     

     

     

     

    Automatic Speech Recognition (ASR, 자동 음성 인식)

     

    정의

     

    • 음성 신호(acoustic signal)를 단어(word) 혹은 음소(phoneme) 시퀀스로 변환하는 시스템
    •  사람 말소리를 텍스트로 바꾸는 모델(Speech to Text model)

     

     

    종류  

     

     

    •  음향 모델(Acoustic Model)
      • 기존: 히든 마코프 모델(Hidden Markov Model), 가우시안 믹스처 모델(Gaussian Mixture Model), ... 
      • 최근: 딥러닝 기반 기법들 
    • 언어 모델(Language Model)
      • 기존: 통계 기반 n-gram 모델
      • 최근: 딥러닝 기반 기법들

     

     

     

    원리

     

    • 음성 신호  X( x1,x2,…,xt)에 대해 가장 그럴듯한(likely) 음소/단어 시퀀스  Y( y1,y2,…,yn)를 추정
    • 수식 1 : P(Y|X) 바로 추정하는 방식 Ŷ =argmaxP(Y|X) 
      • P(Y|X)를 최대화하는 음소/단어 시퀀스 Y를 추론(inference)하는 데에 있음
      • 한계: X의 분포 모름  -> X의 범위가 Y에 비해 현저히 크며, P(X|Y)의 경우에는 Y를 한정지을 수 있기 때문

    • 수식 2 : 베이즈 정리 활용해서 다양한 변이형 커버하는 모델 만들고자 함 
      • P(X) : 베이즈 정리에서 evidence라고 불림 
        • Y의 모든 경우의 수에 해당하는 X의 발생 확률 -> 추정하기 어려움

     

    • 수식 3: inference 과정에서 입력 신호 X는 Y와 관계없이 고정되어 있음 
      • 따라서 추론과정에서 P(X)를 계산에서 생략할 수 있음
      • Y 의 후보 시퀀스가 2가지(Y1,Y2)뿐이라면 수식3처럼 예측 결과(Y1)를 만들 때 분자만 고려하면 됨 
       

    • 수식 4: 최종적인 음성 인식 모델 
      • 두 가지 부분으로 이뤄짐 - 수식4 우변의 첫번째 항 P(X|Y)는 음향 모델(Acoustic Model),  P(Y)는 언어 모델(Language Model)로 불림
        • P(X|Y) : 음향 모델은 ‘음소/단어 시퀀스’와 ‘입력 음성 신호’가 어느 정도 관계를 맺고 있는지 추출
        • P(Y) : 언어 모델은 해당 음소/단어 시퀀스가 얼마나 자연스러운지 확률값 형태

     

     

     

     

    전통적인 음성 인식 모델의 구조 

     

    HMM, GMM 기반 음성인식 모델

    • 음향 모델(Acoustic Model) 
      • P(X|Y)를 반환 
      • 음소(또는 단어) 시퀀스  Y가 주어졌을 때 입력 음성 신호 시퀀스  X가 나타날 확률을 부여한다
      • 음성 신호와 음소(또는 단어)와의 관계를 표현(represent the relationship between an audio signal and the phonemes or other linguistic units that make up speech)하는 역할
      • 히든 마코프 모델(Hidden Markov Model, HMM)과 가우시안 믹스처 모델(Gaussian Mixture Model, GMM) 조합이 자주 사용됨

     

    • 언어 모델(Language Model)
      • 음소(또는 단어) 시퀀스  Y가 얼마나 그럴듯한지(likely)에 관한 정보, 즉  P(Y)를 반환
      •  음소(또는 단어) 시퀀스에 대한 확률 분포(a probability distribution over sequences of words)
      • 통계 기반 n-gram 모델이 자주 쓰임 

     

     

     

    딥러닝 기반 음성인식 모델

    • 최근엔 딥러닝 기반의 컴포넌트 사용
      • 위 그림보다 한발 더 나아가 수식1의  P(Y|X) 을 바로 추정하는 엔드투엔드(end-to-end) 자동 음성 인식 모델 역시 제안

     

     

    Acoustic Features

     

     

     

    1. MFCC

    • 기존 자동 음성 인식 모델의 주요 컴포넌트인 ‘HMM+GMM’이 사용하는 음향 특징(Acoustic Feture)
    • 사람이 잘 인식하는 말소리 특성을 부각시키고 그렇지 않은 특성은 생략하거나 감소시킨 피처(feature)
    • 룰 기반의 피쳐 - 연구자들이 한땀한땀 만들어낸 룰(rule)에 기반한 피처

     

    MFCC 추출 과정

     

     

    2. 딥러닝 기반의 음향 특징 

     

    • 음향 특징 추출도 딥러닝으로 대체되는 추세
    • Wav2Vec, SincNet 등 다양한 기법이 제시
    • 예시 : SincNet
      • 입력 음성 신호에 다양한 싱크 함수(sinc function)을 통과시켜 문제 해결에 도움이 되는 주파수 영역대를 부각시키고 나머지는 버림
      • 이때 각 싱크 함수가 주로 관장하는 주파수 영역대가 학습 대상(trainable parameter)이 됨
      • 딥러닝 기반 음향 특징 추출 기법들은 그 과정이 결정적(deterministic)이지 않고 확률적(probabilistic)임

     

     

     

     

     

    References

     

    https://ratsgo.github.io/speechbook/docs/introduction

     

    Introduction

    articles about speech recognition

    ratsgo.github.io

     

    728x90
Designed by Tistory.