- lexical access
- 사람은 음성을 단어 단위로 인식한다
- 특성
- frequency : 사람은 빈도 높은 단어를 빠르게 인식합니다. 고빈도 단어는 노이즈가 심한 환경에서도, 작은 말소리로도 정확하게 알아차릴 수 있습니다.
- parallelism : 여러 단어(예컨대 두 명 이상의 화자가 발화)를 한번에 알아들을 수 있습니다.
- cue-based processing : 인간의 음성 인식은 다양한 단서(cue)에 기반합니다.
-
[ASR Study] 1. 음성학(Phonetics)과 음운론(Phonology)AI/Speech 2024. 1. 13. 23:09728x90
[ASR Study] 1. 음성학(Phonetics)과 음운론(Phonology)
- 음성학(Phonetics)
- 말소리의 실체에 물리적으로 접근하여 기술하고 분석하는 분야
- 물리적인 말소리의 생성과 음향 및 인지에 초점
- 세부 분야
- 조음음성학 : 말소리가 만들어지는 과정에 대한 연구 분야. 개별 언어의 말소리를 만들어 내기 위해 우리 몸의 어떤 기관의 어떤 부분을 어떤 모양으로 움직이는가 하는 점을 연구.
- 음향음성학 : 말소리의 물리적 특성을 연구하는 분야. 음향분석기 등을 이용하여 발음을 하는 기관들의 움직임에 따라 달라지는 말소리의 음파를 분석하고 연구.
- 청취음성학 : 말소리를 인지하는 과정에 대한 연구 분야. 말소리가 귀를 통과하는 과정과 뇌에서 그것을 해석하는 과정을 연구. 공기를 통하여 전달되는 말소리의 파형은 청자의 귀로 들어오면 고막을 울리고 이 고막의 울림이 속귀 안의 세포들을 진동시키는데, 이 진동이 신경을 거쳐 뇌에 이르면, 말소리가 전달하고자 하는 ‘의미’가 해석된다.
- 음운론(Phonology)
- 말소리의 물리적 실체를 직접 다루지 않고, 언어 사용자의 머릿속에 있는 말소리에 대한 지식을 체계적으로 기술하고 설명하는 분야
- 개별 언어들에서 사용되는 말소리의 특질과 그 언어 사용자가 가지고 있는 말소리에 대한 지식
- 설명 방법은 다분히 심리적이고 추상적
- 음운론에서 설명하고자 하는 지식이 인간의 머릿속에 있기 때문
Acoustic Phonetics
- Wave
- Digitalization
- Sampling
- Quantization
- Encoding
- Loudness
- Pitch
- Vowels
- The Source-Filter Model
Wave (파동)
- 정의
- 반복적으로 진동(oscillate)하는 신호(singal)
- 분류
- 하나의 웨이브인 단순파(simple wave)
- 여러 웨이브로 구성된 복합파(complex wave)
- 용어
- 음압(sound pressure)
- 진동판의 떨림이 전기 신호를 얼마나 강하게 혹은 약하게 하는지 정도
- 진폭(amplitude)
- 웨이브의 최대값
- 사이클(cycle)
- 패턴의 반복
- 주기(period 혹은 wavelength)
- 한 사이클을 도는 데 걸리는 시간
- 붉은색 실선으로 표시된 구간의 파란색 실선의 웨이브가 사이클 1회를 구성
- 주파수(frequency)
- 1초에 몇 번 주기가 반복되는지(cycles per second) = 헤르츠(hertz, 줄여서 Hz)라고 표기
- 주기와 주파수 간 관계
- 음압(sound pressure)
Digitization
- 위의 웨이브는 기본적으로 아날로그(analog) 형태 - 연속적인(continous) 값 가짐
- 이런 신호를 컴퓨터가 처리하게 하려면 디지털(digital)로 바꿔줘야 함
- Digitalization의 과정
- Step 1. Sampling
- Step 2. Quantization
- Step 3. Encoding
- Step 1. Sampling
- 일정한 시간 간격마다 음성 신호를 샘플해서 연속 신호(continous signal)을 이산 신호(discrete signal)로 변환
- Sampling rate : 1초에 몇 번 샘플하는지 나타내는 지표
- 1초에 4만4100번 샘플한다면 sampling rate fs는 44100, 또는 44.1KHz
- 44.1KHz의 샘플링된 신호는 1초에 44100개의 실수(real number)로 구성
- 나이퀴스트 정리(Nyquist Theorem) : 샘플링된 신호(그림3)로부터 원래 신호(그림2)으로 복원 시에 사용되는 정리
- 원래 신호가 가진 최대 주파수의 2배 이상으로 샘플링하면 원래 신호를 충분히 재생할 수 있다는 정리
- 보통 인간의 가청 주파수 영역대는 20~20000Hz
- 40000Hz 이상의 sample rate로 샘플링을 실시하면 사람이 들을 수 있는 거의 모든 소리를 복원할 수 있다는 것
- 목표 음성 신호의 최대 주파수(20000Hz)를 나이퀴스트 주파수
- 원래 신호가 가진 최대 주파수의 2배 이상으로 샘플링하면 원래 신호를 충분히 재생할 수 있다는 정리
- Step 2. Quantization
- 샘플링된 신호에 양자화(quantization)을 실시하는 과정
- 양자화란 실수 범위의 이산 신호를 정수(integer) 이산 신호로 바꾸는 걸 의미
- 8비트 양자화를 실시한다면 실수 범위의 이산 신호가 -128~127의 정수로
- 16비트 양자화를 한다면 실수 범위의 이산 신호가 -32768~32767 정수로 변환
- 양자화 비트 수(Quantization Bit Depth)가 커질 수록 원래 음성 신호의 정보 손실을 줄일 수 있지만 그만큼 저장 공간이 늘어나는 단점
- 압신(companding) 기법
- 양자화 실시에 따른 정보 손실을 양자화 잡음(noise) 줄이기 위해
- 압축(compression)과 신장(expanding)을 동시에 일컫는 용어
- μ-law 사용
- 그림 4
- 압신 기법을 전혀 쓰지 않을 경우(no companding) 양자화 이전과 이후의 신호 범위가 선형 관계를 이룸
- μ -law로 압신을 하면 입력 신호의 값이 작으면 조밀하게 양자화가 되고, 신호의 값이 크면 듬성듬성 양자화가 되고 있음을 확인
- 진폭(amplitude)이 작은 입력 신호에 대해서는 양자화 계단 크기(Quantization Step Size)를 적게 하고, 진폭이 큰 경우에는 양자화 계단 크기를 크게 하는 것이라는 이야기입니다(비선형 압신)
- 사람은 진폭이 작은 신호는 세밀히 인식하고, 진폭이 큰 신호는 상대적으로 덜 세밀하게 인식하는 경향이 있다
- 따라서 μ -law는 사람의 소리 인식에 유리한 압신 방법
- 그림 4
- Step 3. Encoding
- 정보 소스를 디지털 형식으로 변환, 압축, 저장하는 일련의 과정
- 지금까지 처리한 입력 신호를 전송 혹은 처리가 가능한 형태의 파일로 바꿈
- wav, flac, mp3 ....
Loudness
- 어떤 소리가 크다 혹은 작다를 느끼는 것
- 해당 음성 신호의 파워(power)와 관계가 있음
- 파워는 신호의 진폭(amplitude)과 직접 관련이 있음
- 그렇다고, loudness와 파워(power)의 관계는 선형(linear)은 아님
- 파워가 작은 음성 신호는 파워가 큰 신호에 비해 좀 더 세밀히 인식한다
- 사람은 특정 주파수 영역대의 신호는 상대적으로 큰 소리로 인식한다
- loudness는 파워와만 관계를 지니는 것이 아니라 주파수와도 관련이 있다는 것
Pitch
- 말소리의 높낮이
- 입력 음성 신호의 주파수와 관련
- 인간은 1000Hz 이상의 고주파 소리에 대해서는 저주파 음성 대비 세밀하게 인식하지 못한다
- 대체적으로 사람은 100Hz에서 1000Hz에 이르는 구간의 소리는 주파수가 커질 수록 피치 역시 높아진다고 느끼는 경향
- 1000Hz 이상의 구간에서는 주파수와 피치 인식 사이의 관계가 로그 형태를 띈다고 함
- 1000Hz 이상의 구간에서는 주파수가 100배 정도 되어야 높낮이 차이를 2배라고 느끼는 정도
- mel scale
- 전체 주파수 영역대를 사람이 인식하는 피치의 단계로 나눠보기
- 사람이 분간을 잘하는 1000Hz 이하 저주파 영역대는 멜 스케일이 거의 선형에 가깝도록 세밀하게,
- 분간을 덜 잘하는 고주파 영역대는 멜 스케일이 듬성듬성하게 변화
Vowels
- 모음 (<-> 자음 consonant)
- 모음(vowel)이 자음(consonant)보다 좀 더 진폭이 크고 그 패턴이 규칙적인 경향
- 모음은 음절(syllable)의 핵(nucleus) 역할
- 모음 없이는 음절을 구성할 수 없음
- 모음 iy(시간 도메인의 웨이브)에 푸리에 변환(Fourier Transform)을 수행해 주파수 도메인으로 변환하면 아래의 그림이 나옴
- 아래 그림처럼 특정 시점의 입력 음성 신호를 주파수 도메인으로 변환한 것을 스펙트럼(spectrum)
- 아래 그림에서 음향 에너지가 몰려있는 각각의 봉우리를 포만트(Formant)
- 포만트는 모음의 특질을 구성하는 중요 요소
- 사람들은 포만트가 같으면 동일한 모음으로, 포만트가 서로 다르면 서로 다른 모음이라고 인식하기 때문
The Source-Filter Model
- 음성학에서 사람의 말소리(특히 모음)가 생성되는 과정을 모델링한 이론
- 사람의 성문(glottis)을 소스, 혀 입술 등 조음 기관을 필터로 봄
- 위의 그림에 따르자면, 모음 iy, ae, uw는 같은 소스로부터 파생되었지만 조음 방법에 따라(즉 필터가 바뀜에 따라) 말소리가 달라지고 있음
- 실제 소리를 내어서 발음해보면 혀나 입술 모양 등만 바뀔 뿐 성문에서 나오는 소리는 동일하다는 것을 알 수 있음
- 모든 사람은 각기 다른 소스를 가지고 있음
- 같은 사람이 내는 소리(fundamental frequency와 밀접한 관련)는 거의 비슷
- 혀 입술 잇몸 등 조음 기관들도 주파수를 가지고 있음
- 성문에서 발생한 소스가 필터를 지나면서 특정 주파수가 증폭되거나 감쇄되는 현상이 일어납니다(공명 resonance)
- 이 과정에서 모음의 특질을 결정하는 포만트가 형성
- 소스가 다르면 음색이나 피치가 달라지고, 필터가 다르면 모음의 종류가 달라지는 것을 확인할 수 있음
Phonology
- Consonants & Vowels : 인간의 발성 및 조음 기관, 말소리의 생성 과정, 자음(Consonants)과 모음(Vowels) 등
- Phonemes & Syllables : 음성 인식의 기본 단위인 음소(Phonemes)와 음절(Syllables)
- Pronunciation Variation : 기저형(Underlying Form)과 표면형(Surface Form), 음운 변동(Pronunciation Variation)
자음(Consonants)과 모음(Vowels)
- 자음
- 조음(발음) 위치나 방법 등에 따라 분류
- 조음 방법
- 파열음 : 기류를 조음 기관의 어떤 위치에서 완전히 막았다가 일시에 터뜨리면서 내는 자음. 이 자음류가 발음되는 과정을 보면 조음 위치에서 조음 기관이 떨어져서 기류의 통로가 열려 있다가 막히는 폐쇄 단계가 있는데 이 때문에 폐쇄음이라고 부르기도 합니다.
- 파찰음 : 기류의 흐름을 완전히 막았다가 파열(터뜨림)과 마찰이 거의 동시에 일어나는 자음.
- 마찰음 : 기류가 조음 기관의 어느 지점을 지날 때 그 통로를 아주 좁혀서 기류의 마찰로 소리를 내는 자음.
- 비음 : 기류가 비강으로 흐르는 자음. 비음을 제외한 모든 자음을 구강음이라고 합니다.
- 유음 : 기류가 물 흐르듯이 발음되는 자음. 유음은 자음 가운데 공기의 흐름이 장애를 가장 적게 받으면서 발음되는 음입니다.
- 기류에 따라
- 기류가 비강, 구강, 인두강 안에서 자유롭게 흐르는 자음을 공명음
- 공명음은 유음과 비음, 모든 모음
- 그 이외의 자음을 장애음
- 기류가 비강, 구강, 인두강 안에서 자유롭게 흐르는 자음을 공명음
- 조음(발음) 위치나 방법만으론 자음 모두 구분할 수 없음 - 예사소리(평음)에 대비되는 된소리(경음), 거센소리(격음) 등
- 된소리(경음) : 예사소리와 동일한 조음 위치와 조음 방법으로 발음하면서 후두를 더 긴장시켜 성문을 강하게 폐쇄하여 발음하는 자음.
- 거센소리(격음) : 예사소리보다 후두의 성문 아래에서 더 많은 공기를 압축했다가 내보내면서 발음하는 자음.
- 모음
- 기류가 아무 장애 없이 조음 기관을 통과하면서 만들어지는 소리
- 혀의 높이, 혀의 앞뒤 위치, 입술의 모양에 따라 분류 가능
- (1) 혀의 앞뒤 위치 : 혀의 몸을 입의 앞쪽이나 뒤쪽으로 옮겨 위치시킴으로써, 기류가 흘러 나오는 혀의 몸 뒷부분에 만들어지는 공간의 크기와 모양이 바뀝니다.
- 전설모음 : 혀의 앞부분이 경구개에 접근한 상태에서 발음되는 모음.
- 후설모음 : 혀의 가운데가 입천장의 중앙부에 접근하거나 혀의 뒷부분이 연구개에 접근한 상태에서 발음되는 모음
- (2) 혀의 높이 : 혀의 최고점의 높이에 따라 기류가 통과하는 통로의 크기가 넓어지거나 좁아집니다.
- 고모음 : 혀의 표면이 마찰을 일으키지 않을 정도로 입천장에 접근한 상태에서 발음되는 모음. 입이 닫히므로 폐모음이라고도 합니다.
- 중모음 : 혀의 높이가 고모음을 발음할 때보다는 낮고 저모음을 발음할 때보다는 높은 상태에서 발음되는 모음.
- 저모음 : 혀가 구개에서 가장 멀어진 상태에서 발음되는 모음. 입이 열리므로 개모음이라고도 합니다.
- (3) 입술의 모양 : 입술을 둥글게 내밀면 이와 입술 사이에 기류가 흘러나가는 통로인 순강이 만들어집니다.
- 원순모음 : 입술을 둥글게 오므린 상태에서 발음되는 모음.
- 평순모음 : 입술을 평평하게 편 상태에서 발음하는 모음.
- (1) 혀의 앞뒤 위치 : 혀의 몸을 입의 앞쪽이나 뒤쪽으로 옮겨 위치시킴으로써, 기류가 흘러 나오는 혀의 몸 뒷부분에 만들어지는 공간의 크기와 모양이 바뀝니다.
음소(Phonemes)와 음절(Syllables)
- 음소(Phoneme)
- 특정 언어에서 하나의 소리로 인식되며 단어의 뜻을 구별해주는 말소리의 최소 단위인 추상적인 단위
- 동일한 위치에 있는 하나의 음만 다르면서 그것이 속한 단어의 의미가 구별될 때 그 차이가 나는 음성들은 각각 음소의 자격을 갖게 됨
- 최소대립쌍
- 단어의 동일한 위치에서 단 하나의 소리만 다른 단어의 쌍
- 예시 : 불이 났다. 뿔이 났다. 풀이 났다.
- 변이음
- 음소는 주위의 음성적 환경의 영향을 받아 변함
- 개별 언어의 화자가 인식하지 못하는 음소의 변화 == 변이
- 경우
- ㅂ, ㄷ, ㄱ, ㅈ가 유성음 사이에서는 유성음으로, 그 외 위치에서는 무성음으로 실현 : 감기의 첫번째 ㄱ은 [k], 두번째 ㄱ은 [g]
- ㅂ, ㄷ, ㄱ가 초성 자리에서는 파열음으로, 종성 자리에서는 비파열음으로 실현 : 밥의 초성과 종성 비교
- (ㅅ, ㅆ, ㄴ, ㄹ) + (이, 야, 여, 여, 유 등)일 때는 경구개음으로, 그 외에는 치조음으로 실현 : 사와 시, 훌륭의 두번째 ㄹ과 달의 ㄹ 비교
- 음절
- 일상적인 언어생활의 음성언어에서 홀로 발화될 수 있는 최소의 단위
- 한국어에서는 단모음(Vowel)이 있어야 음절이 이루어지므로 단모음을 성절음(syllabic)이라 함
- 음절
- 성절음만으로도 성립할 수 있으며
- 단모음 앞에 활음(Glide)이 오거나 자음(Consonant)이 모음의 앞뒤에 결합하여 성립되기도
- 성절음인 모음의 앞에 오는 자음을 초성(onset)
- 음절말의 자음을 종성(coda)
- 단모음(성절음) 혹은 이중모음(단모음+활음)을 종성 혹은 음절핵(nucleus)
- 운소
- 단어의 의미를 분화하는 데 관여하는 음소 이외의 운율적 특징
- 분절음에 얹혀서 사용되기 때문에 초분절음(suprasegmental phoneme)이라고도 불림
- 소리의 높낮이, 길이, 세기 등
- 지금까지 다룬 자음, 모음 등의 음소들은 연속적인 실제 발음과는 달리 각각 독립된 단위로 인식되는 분절적인 요소이기 때문에 분절음(segment)
음운 변동(Pronunciation Variation)
- 대치
- 자음동화 현상
- 유음화, 비음화, 조음위치동화, 구개음화 등
- 선행 또는 후행하는 자음과 발음이 비슷해짐
- 구분
- 조음방법동화
- 인접하고 있는 소리의 영향으로 조음 방법이 바뀌는 동화
- 유음화나 비음화
- 조음위치동화
- 인접하고 있는 소리의 영향으로 조음 위치가 바뀌는 동화
- 양순음화와 연구개음화
- 조음방법동화
- 자음동화 현상
- 탈락
- 원래 있었던 소리가 삭제되는 현상
- 자음군단순화, ‘ㅎ’ 탈락, 어간말 ‘으’ 탈락, 동모음탈락, 활음탈락 등
- 자음군 단순화
- 명사 어간 또는 동사나 형용사 어간의 말음이 자음 둘로 이뤄진 자음군일 때 그러한 자음군이 음절말 위치에 오면 두 자음 중에 하나가 탈락
- 예시
- 앉-다 → 안따, 많-네 → 만네
- 외곬-만 → 외골만, 핥-다 → 할따, 뚫-는 → 뚤른
- 넋-도 → 넉또
- 값-도 → 갑또, 없다 → 업따
- 삶-도 → 삼도, 젊-다 → 점따
- 여덟-도 → 여덜도, 넓-다 → 널따
- 읊-다 → 읍따, 읊-고 → 읍꼬
- 읽-게 → 일께, 읽-다 → 익따
- ㅎ 탈락
- 공명음과 모음 사이에서 ㅎ가 탈락하는 현상
- 예시
- 놓-아 → 노아, 많-아 → 마나, 닳-아 → 다라
- 공부-하다 → 공부아다, 피곤-하다 → 피고나다
- 어간말 으 탈락
- 으로 끝나는 동사나 형용사 어간의 말음 으는 모음으로 시작하는 어미 -아/어 앞에서 탈락
- 예시
- 쓰-어 → 써
- 고프-아 → 고파
- 동모음 탈락
- 동사나 형용사 어간의 말음 ‘아/어’는 어미 ‘-아/어’ 앞에서 탈락
- 예시
- 가-아 → 가
- 서-어 → 서
- 놀라-아 → 놀라
- 활음탈락
- 특정 자음과 이중모음의 연쇄에서 이중모음을 구성하는 활음이 삭제되는 현상
- 예시
- 지-어 → 져 → 저, 찌-어 → 쪄 → 쩌, 치-어 → 쳐 → 처
- 보-아 → 봐 → 바, 붓-어 → 부-어 → 붜 → 버
- 첨가
- 없던 소리가 삽입되는 현상
- ‘ㄴ’ 첨가와 활음첨가가 대표적
- ‘ㄴ’ 첨가 예시
- 솜-이불 → 솜니불
- 색-연필 → 색년필 → 생년필
- 솔-잎 → 솔닙 → 솔립
- 물-약 → 물냑 → 물략
- 활음첨가 예시
- 피-어 → 피여, 뛰-어 → 뛰여
- 보-아 → 보아 → 보와, 두-어 → 두어 → 두워
- 축약
- 둘 이상의 소리가 합쳐져 하나의 새로운 소리가 되는 현상
- ㅎ 축약이 대표적
- ㅎ와 평음(ㄱ, ㄷ, ㅂ, ㅈ)의 연쇄에서 두 소리가 합쳐져 격음(ㅋ, ㅌ, ㅍ, ㅊ)으로 되는 현상
- 예시
- 놓-고 → 노코
- 않-던 → 안턴
- 닳-지 → 달치
- 떡-하다 → 떠카다
- 옷 한 벌 → 오탄벌
- 산업-혁명 → 사너평명
Recognition by Humans
- cue-based processing - 사람이 말소리를 알아듣기 위해 사용하는 단서들
- acoustic cues : 음성적 특징
- 포만트(formant)나 성대진동 개시 시간(voice onset time) 등
- 포만트란 스펙트럼에서 음향 에너지가 몰려 있는 봉우리를 가리킴
- 어떤 주파수 영역대에서 형성되어 있는지에 따라 사람은 말소리를 다르게 인식
- 성대진동 개시 시간은 무성폐쇄음(예: ㅍ)의 개방 단계 후에 후행하는 모음을 위해 성대가 진동하는 시간 사이의 기간
- 말소리에서 유성자음(예: ㅂ)과 무성자음을 식별하는 중요한 단서
- 포만트란 스펙트럼에서 음향 에너지가 몰려 있는 봉우리를 가리킴
- 포만트(formant)나 성대진동 개시 시간(voice onset time) 등
- lexical cues : 어휘
- 음소 복원 현상(Phonemic restoration effect)
- 단어를 이루는 음소(phoneme) 가운데 하나를 기침 소리로 대체하더라도 해당 음소를 들은 것으로 인식
- 음소 복원 현상(Phonemic restoration effect)
- visual cues : 시각적 단서
- 입 모양 등
- 맥거크 효과(McGurk effect)
- 입모양 또는 기타 다른 감각 정보의 영향으로 실제와는 다른 소리로 지각되는 현상
- ga라는 음절(syllable)을 발음하는 영상을 보여주면서도 ba라는 소리를 들려주면 da라고 알아듣는 식
- 기타 : 최근에 들었던 단어 영향
- 의미론적 단어 연상(semantic word association)이나 반복 점화(repetition priming) 등
- 의미론적 단어 연상은 사람이 최근에 들었던 단어 가운데 의미상 유사한 단어를 더 빨리 알아듣는 현상을 의미
- 반복 점화는 어떤 자극이 반복돼 해당 자극의 이후 경험이 뇌에서 빨리 처리되는 걸 가리킴
- 의미론적 단어 연상(semantic word association)이나 반복 점화(repetition priming) 등
- acoustic cues : 음성적 특징
- on-line processing
- 인간의 말소리 인식은 그때그때 실시간으로 진행
- 단어 세그먼트(word segmentation), 구문 분석(parsing), 그리고 해당 문장에 대한 해석(interpretation)에 이르기까지 전 과정을 250ms 안에 처리한다는 이야기
References
https://ratsgo.github.io/speechbook/docs/phonetics
https://ratsgo.github.io/speechbook/docs/phonetics/acoustic
https://ratsgo.github.io/speechbook/docs/phonetics/humans
728x90'AI > Speech' 카테고리의 다른 글
- 음성학(Phonetics)