[go: up one dir, main page]
More Web Proxy on the site http://driver.im/

KR100198476B1 - 노이즈에 견고한 스펙트럼 포락선 양자화기 및 양자화 방법 - Google Patents

노이즈에 견고한 스펙트럼 포락선 양자화기 및 양자화 방법 Download PDF

Info

Publication number
KR100198476B1
KR100198476B1 KR1019970015044A KR19970015044A KR100198476B1 KR 100198476 B1 KR100198476 B1 KR 100198476B1 KR 1019970015044 A KR1019970015044 A KR 1019970015044A KR 19970015044 A KR19970015044 A KR 19970015044A KR 100198476 B1 KR100198476 B1 KR 100198476B1
Authority
KR
South Korea
Prior art keywords
lsfs
line
unit
quantization unit
linked
Prior art date
Application number
KR1019970015044A
Other languages
English (en)
Other versions
KR19980077793A (ko
Inventor
김무영
조용덕
김홍국
Original Assignee
윤종용
삼성전자주식회사
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 윤종용, 삼성전자주식회사 filed Critical 윤종용
Priority to KR1019970015044A priority Critical patent/KR100198476B1/ko
Priority to US09/060,345 priority patent/US6275796B1/en
Publication of KR19980077793A publication Critical patent/KR19980077793A/ko
Application granted granted Critical
Publication of KR100198476B1 publication Critical patent/KR100198476B1/ko

Links

Images

Classifications

    • HELECTRICITY
    • H03ELECTRONIC CIRCUITRY
    • H03MCODING; DECODING; CODE CONVERSION IN GENERAL
    • H03M7/00Conversion of a code where information is represented by a given sequence or number of digits to a code where the same, similar or subset of information is represented by a different sequence or number of digits
    • H03M7/30Compression; Expansion; Suppression of unnecessary data, e.g. redundancy reduction
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/06Determination or coding of the spectral characteristics, e.g. of the short-term prediction coefficients
    • G10L19/07Line spectrum pair [LSP] vocoders

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Theoretical Computer Science (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Abstract

본 발명은 음성신호 최적 부호화에 관한 것으로, 특히 채널 에러가 발생하지 않은 경우 클린 환경이나 배경 노이즈가 있는 환경 모두에서 만족할만한 성능을 나타내며, 채널 에러가 발생한 경우에도 그 파급이 몇개의 프레임내에서 제한되도록 채널 에러의 파급을 효과적으로 차단함으로써, 배경 노이즈 환경이나 채널 노이즈 환경에서도 견고한 성능을 나타내도록 제안함을 특징으로 하는 노이즈에 견고한 스펙트럼 포락선 양자화기 및 양자화 방법에 관한 것이다.

Description

노이즈에 견고한 스펙트럼 포락선 양자화기 및 양자화 방법
본 발명은 음성신호 최적 부호화에 관한 것으로, 특히 채널 에러가 발생하지 않은 경우 클린 환경이나 배경 노이즈가 있는 환경 모두에서 만족할만한 성능을 나타내며, 채널 에러가 발생한 경우에도 그 파급이 몇개의 프레임내에서 제한되도록 채널 에러의 파급을 효과적으로 차단함으로써, 배경 노이즈 환경이나 채널 노이즈 환경에서도 견고한 성능을 나타내도록 한, 노이즈에 견고한 스펙트럼 포락선 양자화기 및 양자화 방법에 관한 것이다.
최근 들어 미국, 일본 및 유럽 등지에서는 음성 부호화기의 표준화가 진행되고 있다. 표준화에 참가한 대부분의 부호화기들은 음성을 스펙트럼 포락선과 여기신호로 나누어 표현하고, 각각을 양자화하여 해당 비트 스트림을 전송하는 방식을 채택하고 있다.
따라서, 최소한의 비트로 스펙트럼 포락선을 표현하는 양자화기의 설계 방법이 필수적이다.
스펙트럼 포락선을 표현하기 위해서는 선형 예측 부호화(Linear Predictive Coding 이하 LPC 라 칭함) 계수를 추출하고, 이를 효율적으로 양자화하기 위하여 선 스펙트럼 주파수(Line Spectrum Frequencies 이하 LSFs 라 칭함)로 변환한다.
선 스펙트럼 주파수(LSFs)의 양자화를 위해 팔리월(Paliwal)과 아탈(Atal)은 분리 벡터 양자화기(Split-Vector Quantizer 이하 SVQ 라 칭함)를 제안하였다.(Efficient Vector Quantization of LPC Parameters at 24bits/frame. IEEE Trans, Speech, audio processing. vol.1, no.1, pp.3-14, Jan. 1993. 참조)
이 방식에서는 10차 선 스펙트럼 주파수(LSFs)를 2개나 3개의 부벡터로 나누어 각각을 별도로 양자화함으로써, 24 비트/프레임[bits/frame] 에서 만족할만한 성능을 얻었다.
한편, 상기 분리 벡터 양자화기(SVQ)의 성능을 향상시키기 위해 프레임간의 상관관계(interframe correlation)를 이용한 예측 분리벡터 양자화기(Predictive Split-Vector Quantizer 이하 PSVQ 라 칭함)가 1995년 9월 25일자로 국내 출원된 특허 95-31676 에 제안되었다.
하지만, 이 방법은 채널 에러가 발생했을 때, 그 오차가 다음 프레임으로 계속해서 파급되어지는 단점이 있었다.
오차의 파급을 막기위해서, 드 마르카(de Marca)는 분리 벡터 양자화기(SVQ)와 예측 분리벡터 양자화기(PSVQ)를 홀수, 짝수번째 프레임에 번갈아 사용하는 방법을 제안하였지만, 이 방식은 채널 에러가 발생하지 않을 경우 예측 분리벡터 양자화기(PSVQ)에 비해서 성능 저하가 많았다.
이에 본 발명은 상기한 바와 같은 종래의 제 문제점을 해소시키기 위하여 창안된 것으로, 채널 에러가 발생하지 않은 경우 클린 환경이나 배경 노이즈가 있는 환경 모두에서 만족할만한 성능을 나타내며, 채널 에러가 발생한 경우에도 그 파급이 몇개의 프레임내에서 제한되도록 채널 에러의 파급을 효과적으로 차단함으로써, 배경 노이즈 환경이나 채널 노이즈 환경에서도 견고한 성능을 나타내도록 한 노이즈에 견고한 스펙트럼 포락선 양자화기 및 양자화 방법을 제공하는데 그 목적이 있다.
본 발명의 다른 목적은, 배경 노이즈 환경에서 1비트만을 추가함으로써 만족할만한 성능을 얻을 수 있는 양자화기 및 양자화 방법을 제공함에 있다.
본 발명의 제 1 목적을 위해서 기존의 분리벡터 양자화기(SVQ)나 예측 분리벡터 양자화기(PSVQ)보다 성능이 뛰어난 링크된 분리벡터 양자화기(Linked Split - Vector Quantizer 이하 LSVQ 라 칭함)와 예측 링크된 분리벡터 양자화기(Predictive Linked Split - Vector Quantizer 이하 PLSVQ 라 칭함)를 사용하였다.
또한, 채널 에러의 파급을 효과적으로 차단하기 위하여 링크된 분리벡터 양자화기(LSVQ)와 예측 링크된 분리벡터 양자화기(PLSVQ)를 상황에 맞추어 사용하는 스위치 예측(Switched - Prediction) 기법을 사용하였으며, 배경 노이즈에도 견고하도록 설계하였다.
도 1 은 본 발명에 의한 노이즈에 견고한 스펙트럼 포락선 양자화기의 일실시 예시도,
도 2 는 도 1 에 따른 노이즈에 견고한 스펙트럼 포락선 양자화 방법의 동작 순서도,
도 3 은 본 발명에 의한 노이즈에 견고한 스펙트럼 포락선 양자화기의 다른 실시 예시도,
도 4 는 도 3 에 따른 노이즈에 견고한 스펙트럼 포락선 양자화 방법의 동작 순서도이다.
* 도면의 주요부분에 대한 부호의 설명
10, 20 : 선스펙트럼주파수 입력부
11 : 링크된 분리벡터 양자화부
12, 24 : 예측 링크된 분리벡터 양자화부
13, 25 : 에러 선택부
14, 26 : 선스펙트럼주파수 복호화부
15, 27 : 승산 제어부 16, 28 : 신호 지연부
21 : 클린환경 양자화부 22 : 바블 노이즈 양자화부
23 : 카 노이즈 양자화부
이하 본 발명을 첨부한 예시 도면을 참조하여 자세히 설명한다.
상기한 바와 같은 제 1 목적을 달성하기 위한 본 발명은, 선형 예측 부호화(LPC) 계수를 N차의 선 스펙트럼 주파수(LSFs) 계수로 변환하여 현재 프레임의 선 스펙트럼 주파수(LSFs)를 입력하는 선스펙트럼주파수 입력부(10)와, 상기 선스펙트럼주파수 입력부(10)로부터 입력된 선 스펙트럼 주파수(LSFs)를 벡터 양자화하는 링크된 분리벡터 양자화부(11) , 상기 선스펙트럼주파수 입력부(10)로부터 입력된 선 스펙트럼 주파수(LSFs)를 과거 값과의 차를 구하여 벡터 양자화하는 예측 링크된 분리벡터 양자화부(12) , 상기 링크된 분리벡터 양자화부(11) 또는 예측 링크된 분리벡터 양자화부(12)로 부터 양자화된 선 스펙트럼 주파수(LSFs)의 에러 값을 비교하여 에러가 적은 코드북 인덱스를 선택하고, 선택된 코드북 인덱스를 모드 비트로 전송하는 에러 선택부(13) , 상기 에러 선택부(13)로 부터 선택되어 전송된 모드 비트에 해당하는 코드북 인덱스에 의해 양자화된 선 스펙트럼 주파수(LSFs)를 산출하는 선스펙트럼주파수 복호화부(14) , 상기 선스펙트럼주파수 복호화부(14)를 통하여 복호화된 선 스펙트럼 주파수(LSFs)에 예측 계수를 곱셈 연산하는 승산 제어부(15) 및 , 상기 승산 제어부(15)를 통하여 곱셈 연산된 값을 저장한 후, 다음 프레임의 예측 링크된 분리벡터 양자화부(12)로 입력하기 위하여 한 프레임 지연시키는 신호 지연부(16)를 포함하여 구성함을 특징으로 한다.
상기 제 1 목적에 따른 본 발명의 양자화 방법은, 선스펙트럼주파수 입력부를 통하여 현재 프레임의 선 스펙트럼 주파수(LSFs)를 입력하는 제 1 단계와, 입력된 선 스펙트럼 주파수(LSFs)를 링크된 분리벡터 양자화부를 통하여 벡터 양자화됨과 아울러, 예측 링크된 분리벡터 양자화부를 통하여 과거 값과의 차를 구하여 벡터 양자화하는 제 2 단계 , 에러 선택부에서 상기와 같이 링크된 분리벡터 양자화부와 예측 링크된 분리벡터 양자화부를 통하여 각각 양자화된 코드북의 에러 값을 비교하는 제 3 단계 , 에러 값을 비교함으로써 에러가 적은 코드북 인덱스를 선택하고, 선택된 코드북 인덱스를 1비트 모드로 전송하는 제 4 단계 , 선스펙트럼주파수 복호화부를 통하여 상기 에러 선택부로 부터 선택되어 전송된 모드 비트에 해당하는 코드북 인덱스에 의해 양자화된 선 스펙트럼 주파수(LSFs)를 복호화하는 제 5 단계 , 승산 제어부에서 상기 선스펙트럼주파수 복호화부에서 복호화된 선 스펙트럼 주파수(LSFs)를 예측 계수와 곱셈 연산하는 제 6 단계 , 다음 프레임의 예측 링크된 분리벡터 양자화부를 위해 입력 선 스펙트럼 주파수(LSFs)에서 상기 곱셈 연산 값(양자화된 LSFs
Figure kpo00001
예측 계수)을 뺄셈 연산하여 저장하는 제 7 단계 및 , 신호 지연부를 통하여 상기 선스펙트럼주파수 입력부로부터 다음 프레임의 선 스펙트럼 주파수(LSFs)가 입력될때까지 한 프레임만큼 지연시키는 제 8 단계를 포함하여 이루어짐을 특징으로 한다.
상기의 제 2 목적을 달성하기 위한 본 발명은, 선형 예측 부호화(LPC) 계수를 N차의 선 스펙트럼 주파수(LSFs) 계수로 변환하여 현재 프레임의 선 스펙트럼 주파수(LSFs)를 입력하는 선스펙트럼주파수 입력부(20)와, 상기 선스펙트럼주파수 입력부(20)로부터 입력된 선 스펙트럼 주파수(LSFs)를 클린 음성 환경에서 벡터 양자화하는 클린환경 양자화부(21) , 상기 선스펙트럼주파수 입력부(20)로부터 입력된 선 스펙트럼 주파수(LSFs)를 바블 노이즈 환경에서 벡터 양자화하는 바블 노이즈 양자화부(22) , 상기 선스펙트럼주파수 입력부(20)로부터 입력된 선 스펙트럼 주파수(LSFs)를 카 노이즈 환경에서 벡터 양자화하는 카 노이즈 양자화부(23) , 상기 선스펙트럼주파수 입력부(20)로부터 입력된 선 스펙트럼 주파수(LSFs)를 모든 환경에서 과거 값과의 차를 구하여 벡터 양자화하는 예측 링크된 분리벡터 양자화부(24) , 상기 클린환경 양자화부(21), 바블 노이즈 양자화부(22), 카 노이즈 양자화부(23) 및 예측 링크된 분리벡터 양자화부(24)를 통하여 양자화된 선 스펙트럼 주파수(LSFs)의 에러 값을 비교하여 에러가 적은 코드북 인덱스를 선택하고, 선택된 코드북 인덱스를 모드 비트로 전송하는 에러 선택부(25) , 상기 에러 선택부(25)로 부터 선택되어 전송된 모드 비트에 해당하는 코드북 인덱스에 의해 양자화된 선 스펙트럼 주파수(LSFs)를 산출하는 선스펙트럼주파수 복호화부(26) , 상기 선스펙트럼주파수 복호화부(26)를 통하여 복호화된 선 스펙트럼 주파수(LSFs)에 예측 계수를 곱셈 연산하는 승산 제어부(27) 및 , 상기 승산 제어부(27)를 통하여 승산 제어된 값을 저장한 후, 다음 프레임의 예측 링크된 분리벡터 양자화부(24)로 입력하기 위하여 한 프레임 지연시키는 신호 지연부(28)를 포함하여 구성함을 특징으로 한다.
상기의 제 2 목적에 따른 본 발명의 또 다른 양자화 방법은, 선스펙트럼주파수 입력부를 통하여 현재 프레임의 선 스펙트럼 주파수(LSFs)를 입력하는 제 1 단계와, 입력된 선 스펙트럼 주파수(LSFs)를 클린 음성만으로 트레이닝된 클린환경 양자화부와, 바블 노이즈 음성(Babble Noised speech)만으로 트레이닝된 링크된 바블 노이즈 양자화부, 카 노이즈 음성(Car Noised speech)만으로 트레이닝된 카 노이즈 양자화부, 그리고 상기 세가지 종류의 모든 데이터로 트레이닝함으로써 어떤 환경에서든지 스펙트럼 변이가 적은 구간에서는 중요한 역할을 하게되는 예측 링크된 분리벡터 양자화부를 통하여 각각 양자화하는 제 2 단계 , 에러 선택부를 통하여 각각 양자화된 코드북의 에러 값을 비교하는 제 3 단계 , 에러 값을 비교함으로써 클린환경 양자화부의 에러 값이 최소인 경우 상기 클린환경 양자화부의 코드북 인덱스를 선택하고, 선택된 코드북 인덱스를 2비트 모드로 전송하는 제 4 단계 , 상기 클린환경 양자화부의 에러 값이 최소가 아닌 경우, 바블 노이즈 양자화부의 에러 값이 최소인가를 판별하여, 상기 바블 노이즈 양자화부의 에러 값이 최소인 경우 상기 바블 노이즈 양자화부의 코드북 인덱스를 선택하고, 선택된 코드북 인덱스를 2비트 모드로 전송하는 제 5 단계 , 상기 바블 노이즈 양자화부의 에러 값이 최소가 아닌 경우, 카 노이즈 양자화부의 에러 값이 최소인가를 판별하여, 상기 카 노이즈 양자화부의 에러 값이 최소인 경우 상기 카 노이즈 양자화부의 코드북 인덱스를 선택하고, 선택된 코드북 인덱스를 2비트 모드로 전송하는 제 6 단계 , 상기 카 노이즈 양자화부의 에러 값이 최소가 아닌 경우, 예측 링크된 분리벡터 양자화부의 에러 값이 최소인가를 판별하여, 상기 예측 링크된 분리벡터 양자화부의 에러 값이 최소인 경우 상기 예측 링크된 분리벡터 양자화부의 코드북 인덱스를 선택하고, 선택된 코드북 인덱스를 2비트 모드로 전송하는 제 7 단계 , 선스펙트럼주파수 복호화부를 통하여 상기 에러 선택부로 부터 선택되어 전송된 모드 비트에 해당하는 코드북 인덱스에 의해 양자화된 선 스펙트럼 주파수(LSFs)를 복호화하는 제 8 단계 , 승산 제어부에서 상기 선스펙트럼주파수 복호화부에서 복호화된 선 스펙트럼 주파수(LSFs)를 예측 계수와 곱셈 연산하는 제 9 단계 , 다음 프레임의 예측 링크된 분리벡터 양자화부를 위해 입력 선 스펙트럼 주파수(LSFs)에서 상기 곱셈 연산 값(복호화된 LSFs
Figure kpo00002
예측 계수)을 뺄셈 연산하여 저장하는 제 10 단계 및 , 신호 지연부를 통하여 상기 선스펙트럼주파수 입력부로부터 다음 프레임의 선 스펙트럼 주파수(LSFs)가 입력될때까지 한 프레임만큼 지연시키는 제 11 단계를 포함하여 이루어짐을 특징으로 한다.
본 발명의 제 1 목적에 따른 노이즈에 견고한 스펙트럼 포락선 양자화기의 작동 원리를 상세히 설명하면 다음과 같다.
먼저, 선스펙트럼주파수 입력부(10)를 통하여 선형 예측 부호화(LPC) 계수가 N차의 선 스펙트럼 주파수(LSFs) 계수로 변환되어 현재 프레임에 입력되는 선 스펙트럼 주파수(LSFs)는, 링크된 분리벡터 양자화부(11)를 통하여 벡터 양자화됨과 아울러, 예측 링크된 분리벡터 양자화부(12)를 통하여 과거 값과의 차를 구하여 벡터 양자화된다.
상기와 같이 링크된 분리벡터 양자화부(11)와 예측 링크된 분리벡터 양자화부(12)를 통하여 각각 양자화된 코드북은, 에러 선택부(13)에서 가중 유클리드 거리척도(weighted Euclidean distance measure)를 사용하여 에러 값을 비교함으로써 에러가 적은 코드북 인덱스(codebook index)를 선택하고, 선택된 코드북 인덱스를 1비트 모드(mode)로 전송한다.
따라서, 상기 링크된 분리벡터 양자화부(11)와 예측 링크된 분리벡터 양자화부(12) 중 어떤 것이 사용되어졌는지가 모드 비트에 의해서 전송되며, 해당하는 코드북 인덱스도 전송되어진다.
선스펙트럼주파수 복호화부(14)는 상기 에러 선택부(13)로 부터 선택되어 전송된 모드 비트에 해당하는 코드북 인덱스에 의해 양자화된 선 스펙트럼 주파수(LSFs)를 복호화한다.
상기 선스펙트럼주파수 복호화부(14)에서 복호화된 선 스펙트럼 주파수(LSFs)는, 승산 제어부(15)에서 예측 계수(Prediction Coefficients)와 곱셈 연산된 후, 신호 지연부(16)로 출력된다.
상기 신호 지연부(16)는 상기 승산 제어부(15)를 통하여 곱셈 연산된 값(복호화된 LSFs
Figure kpo00003
예측 계수)을 저장시킨 후, 상기 선스펙트럼주파수 입력부(10)로부터 다음 프레임의 선 스펙트럼 주파수(LSFs) 입력시 한 프레임만큼 지연된 연산 값(입력 LSFs - 복호화된 LSFs
Figure kpo00004
예측 계수)을 상기 예측 링크된 분리벡터 양자화부(12)로 입력시킨다.
상기한 구성의 양자화기에 따른 양자화 방법은 도 2 에 도시한 바와 같이, 선스펙트럼주파수 입력부(10)를 통하여 현재 프레임의 선 스펙트럼 주파수(LSFs)를 입력하는 제 1 단계(S1)와, 입력된 선 스펙트럼 주파수(LSFs)를 링크된 분리벡터 양자화부(11)를 통하여 벡터 양자화함과 아울러, 예측 링크된 분리벡터 양자화부(12)를 통하여 과거 값과의 차를 구하여 벡터 양자화하는 제 2 단계(S2) , 에러 선택부(13)에서 상기와 같이 링크된 분리벡터 양자화부(11)와 예측 링크된 분리벡터 양자화부(12)를 통하여 각각 양자화된 코드북의 에러 값을 비교하는 제 3 단계(S3) , 에러 값을 비교함으로써 에러가 적은 코드북 인덱스(I1 또는 I2)를 선택하고, 선택된 코드북 인덱스(I1 또는 I2)를 1비트 모드(M1 또는 M2)로 전송하는 제 4 단계(S4) , 선스펙트럼주파수 복호화부(14)를 통하여 상기 에러 선택부(13)로 부터 선택되어 전송된 모드 비트(M1 또는 M2)에 해당하는 코드북 인덱스(I1 또는 I2)에 의해 양자화된 선 스펙트럼 주파수(LSFs)를 복호화하는 제 5 단계(S5) , 승산 제어부(15)에서 상기 선스펙트럼주파수 복호화부(14)에서 복호화된 선 스펙트럼 주파수(LSFs)를 예측 계수와 곱셈 연산하는 제 6 단계(S6) , 다음 프레임의 예측 링크된 분리벡터 양자화부(12)를 위해 입력 선 스펙트럼 주파수(LSFs)에서 상기 곱셈 연산 값(복호화된 LSFs
Figure kpo00005
예측 계수)을 뺄셈 연산하여 저장하는 제 7 단계(S7) 및 , 신호 지연부(16)를 통하여 상기 선스펙트럼주파수 입력부(10)로부터 다음 프레임의 선 스펙트럼 주파수(LSFs)가 입력될때까지 한 프레임만큼 지연시키는 제 8 단계(S8)로 순차 동작한다.
이하에서 본 발명에 대해 일실시예를 들어 설명한다.
즉, 하나의 프레임이 10차의 선 스펙트럼 주파수(LSFs)로 이루어져 있다고 가정하고, 상기 10차 선 스펙트럼 주파수(LSFs)를 하위(lower), 중위(middle), 및 상위(upper) 3개의 부벡터로 나누어 다음과 같이 표기한다.
{ (
Figure kpo00006
1,
Figure kpo00007
,
Figure kpo00008
) (
Figure kpo00009
4,
Figure kpo00010
Figure kpo00011
) (
Figure kpo00012
7,
Figure kpo00013
Figure kpo00014
Figure kpo00015
) }
선 스펙트럼 주파수(LSFs)의 프레임간 상관 관계를 이용한 양자화기는 다음과 같은 두가지 단점을 가지고 있다.
(1) 임의의 프레임에서 채널 에러가 발생한 경우, 그 에러가 마지막 프레임까지 파급된다.
(2) 연속된 두 프레임의 스펙트럼 변화가 크면, 프레임간의 상관 관계가 적으므로 상관 관계를 이용하지 않는 정적(static) 양자화기보다 성능이 떨어질 수 있다.
이런 문제점은 정적인 양자화기와 동적인 양자화기를 상황에 따라 선택하여 사용함으로써 해결할 수 있다.
임의의 프레임이 스펙트럼상에서 변화가 적은 경우는 프레임간 상관 관계를 이용한 동적인 양자화기를 사용하고, 변화가 큰 경우는 프레임내의 상관 관계만을 이용한 정적인 양자화기를 사용하는 것이다.
양자화기의 선택 기준은 다음과 같은 가중 유클리드 거리척도(weighted Euclidean distance measure)를 사용한다.
Figure kpo00016
여기서
Figure kpo00017
는 양자화되기 전의 원래 선 스펙트럼 주파수(LSFs)이고,
Figure kpo00018
는 양자화된 후에 얻게되는 코드북내에 보관된 코드 벡터의 값이다.
Figure kpo00019
Figure kpo00020
는 각각
Figure kpo00021
Figure kpo00022
의 i번째 선 스펙트럼 주파수(LSFs)이다.
i번째 선 스펙트럼 주파수(LSFs)의 가변 가중치 함수(variable weight function)는 다음과 같이 나타낸다.
Figure kpo00023
여기서,
Figure kpo00024
= 0 이고,
Figure kpo00025
=
Figure kpo00026
이다.
이 함수는 포만트 주파수(formant frequencies)에 가중치를 두어, 이 함수를 사용하지 않은 경우에 비해서 음질을 향상시킨다.
이와 같이 스위치 예측(Switched Prediction) 기법을 사용함으로써 채널 에러의 파급을 단지 몇 개의 프레임내로 제한할 수 있다.
즉, 동적인 양자화기에서 정적인 양자화기로 스위치됨으로써 파급되어져온 채널 에러가 더 이상 진행하지 못하게 할 수 있다.
본 발명에서는 정적인 양자화기로는 링크된 분리벡터 양자화기(LSVQ)를 사용하였고, 동적인 양자화기로는 예측 링크된 분리벡터 양자화기(PLSVQ)를 사용하여 그 이름을 스위치 예측 링크된 분리벡터 양자화기(Switched Prediction - Linked Split Vector Quantizer 이하 SP-LSVQ 라 칭함)라 명명한다.
이것은 기존의 정적인 양자화기로는 분리벡터 양자화기(SVQ)를 사용하고, 동적인 양자화기로는 예측 분리벡터 양자화기(PSVQ)를 사용하는 스위치 예측 분리벡터 양자화기(SP-SVQ)와 비교될 수 있다.
Figure kpo00027
Figure kpo00028
표 1 은 기존 양자화기의 성능을 나타낸 것으로, 분리벡터 양자화기(SVQ)와 예측 분리벡터 양자화기(PSVQ)에 비해서 링크된 분리벡터 양자화기(LSVQ)와 예측 링크된 분리벡터 양자화기(PLSVQ) 각각의 평균 스펙트럼 왜곡(Avg. SD) 값이 더 낮음을 알 수 있다.
표 2 는 19 비트/프레임(bits/frame)에서 스위치 예측 분리벡터 양자화기(SP-SVQ)와 스위치 예측 링크된 분리벡터 양자화기(SP-LSVQ)의 성능을 비교하고 있다.
상기 표(표 1, 표 2)에 나타나 있듯이 19 비트/프레임 (bits/frame) 스위치 예측 링크된 분리벡터 양자화기(SP-LSVQ)는, 클린 음성 환경에서 24 비트/프레임 (bits/frame) 분리벡터 양자화기(SVQ)에 비해서 우수한 성능을 나타냈다.
그리고, 21 비트/프레임 (bits/frame) 예측 분리벡터 양자화기(PSVQ), 예측 링크된 분리벡터 양자화기(PLSVQ)에 비해서 우수한 성능을 나타냈으며, 19 비트/프레임 (bits/frame) 스위치 예측 분리벡터 양자화기(SP-SVQ)에 비해서 우수한 성능을 나타냈다.
또한, 동일한 비트/프레임 (bits/frame)에서 바블 노이즈(Babble Noise)와 카 노이즈(Car Noise) 환경에서도 스위치 예측 분리벡터 양자화기(SP-SVQ)에 비해서 우수한 성능을 나타내었다.
상기와 같이 클린 음성 환경에서 스위치 예측 링크된 분리벡터 양자화기(SP-LSVQ)는 19 비트/프레임 (bits/frame)에서 만족할만한 성능을 나타냈다.
하지만, 배경 노이즈(Background Noise) 환경에서 만족할만한 성능을 얻기위해서는 3비트에서 4비트가 더 요구되었다.
본 발명의 제 2 목적은 상기한 문제점을 해소하기 위한 것으로서, 이의 상세한 설명은 아래와 같다.
코드북들이 클린 음성만으로 트레이닝된 기존 양자화기의 경우, 선 스펙트럼 주파수(LSFs) 벡터가 많이 분포하는 구간은 코드 벡터가 지나치게 많이 형성되지만, 선 스펙트럼 주파수(LSFs) 벡터가 성기게 분포하는 구간은 코드 벡터가 거의 형성되지 않는다.
따라서, 성기게 분포하는 구간의 선 스펙트럼 주파수(LSFs)가 양자화기에 입력된 경우, 코드북은 큰 오차를 만들어 낸다.
이 문제점은 다양한 배경 노이즈 환경에서 데이터를 수집하여 코드북을 트레이닝함으로써 해결된다.
본 발명의 제 2 목적에 의한 양자화기의 동작을 살펴보면 다음과 같다.
선스펙트럼주파수 입력부(20)를 통하여 선형 예측 부호화(LPC) 계수를 N차의 선 스펙트럼 주파수(LSFs) 계수로 변환하여 현재 프레임에 입력된 선 스펙트럼 주파수(LSFs)는, 클린 음성 환경에서 43.4% 프레임이 클린 음성만으로 트레이닝된 클린환경 양자화부(21)를 통하여 선택되어진다.
또한, 46.6% 프레임이 예측 링크된 분리벡터 양자화부(24)에 의해 선택되고, 나머지 프레임이 바블 노이즈 양자화부(22)와 카 노이즈 양자화부(23)의 다른 두 코드북에 의해서 선택되어진다.
즉, 다른 환경에서 트레이닝된 두 개의 코드북이 10.0%의 프레임을 양자화함으로써, 클린 음성 환경에서 선 스펙트럼 주파수(LSFs)가 성기게 분포하는 구간을 보충해준다.
한편, 상기와 같이 클린 음성만으로 트레이닝된 클린환경 양자화부(21)와, 바블 노이즈 음성(Babble Noised speech)만으로 트레이닝된 링크된 바블 노이즈 양자화부(22), 카 노이즈 음성(Car Noised speech)만으로 트레이닝된 카 노이즈 양자화부(23), 그리고 상기 세가지 종류의 모든 데이터로 트레이닝함으로써 어떤 환경에서든지 스펙트럼 변이가 적은 구간에서는 중요한 역할을 하게되는 예측 링크된 분리벡터 양자화부(24)를 통하여 각각 양자화된 코드북은, 에러 선택부(25)에서 상기 네가지 코드북에 대하여 가중 유클리드 거리척도(weighted Euclidean distance measure)를 사용하여 에러 값을 비교함으로써, 에러가 적은 코드북 인덱스(codebook index)가 선택되며, 코드북의 종류는 2 비트를 써서 표현한다.
또한, 상기 클린환경 양자화부(21)와 바블 노이즈 양자화부(22) 및 카 노이즈 양자화부(23)로 구성된 세 개의 링크된 분리벡터 양자화기(LSVQ)와, 예측 링크된 분리벡터 양자화부(24)의 예측 링크된 분리벡터 양자화기(PLSVQ) 중 어떤 것이 사용되어졌는지가 2비트의 모드(mode) 비트에 의해서 전송되며, 해당하는 코드북 인덱스도 전송되어진다.
상기와 같이 전송된 2비트의 모드(mode) 비트에 의해 선스펙트럼주파수 복호화부(26)는, 상기 에러 선택부(25)로 부터 선택되어 전송된 모드 비트에 해당하는 코드북 인덱스에 따른 선 스펙트럼 주파수(LSFs)를 복호화한다.
상기 선스펙트럼주파수 복호화부(26)에서 복호화된 선 스펙트럼 주파수(LSFs)는, 승산 제어부(27)에서 예측 계수(Prediction Coefficients)와 곱셈 연산된 후, 신호 지연부(28)로 출력된다.
상기 신호 지연부(28)는 상기 승산 제어부(27)를 통하여 곱셈 연산된 값(복호화된 LSFs
Figure kpo00029
예측 계수)을 저장시킨 후, 상기 선스펙트럼주파수 입력부(20)로부터 다음 프레임의 선 스펙트럼 주파수(LSFs) 입력시 한 프레임만큼 지연된 연산 값(입력 LSFs - 복호화된 LSFs
Figure kpo00030
예측 계수)을 상기 예측 링크된 분리벡터 양자화부(24)로 입력시킨다.
상기한 양자화기에 따른 양자화 방법은 도 4 에 도시한 바와 같이, 선스펙트럼주파수 입력부(20)를 통하여 현재 프레임의 선 스펙트럼 주파수(LSFs)를 입력하는 제 1 단계(S10)와, 입력된 선 스펙트럼 주파수(LSFs)를 클린 음성만으로 트레이닝된 클린환경 양자화부(21)와, 바블 노이즈 음성(Babble Noised speech)만으로 트레이닝된 링크된 바블 노이즈 양자화부(22), 카 노이즈 음성(Car Noised speech)만으로 트레이닝된 카 노이즈 양자화부(23), 그리고 상기 세가지 종류의 모든 데이터로 트레이닝함으로써 어떤 환경에서든지 스펙트럼 변이가 적은 구간에서는 중요한 역할을 하게되는 예측 링크된 분리벡터 양자화부(24)를 통하여 각각 양자화하는 제 2 단계(S20) , 에러 선택부(25)를 통하여 각각 양자화된 코드북의 에러 값을 비교하는 제 3 단계(S30) , 에러 값을 비교함으로써 클린환경 양자화부(21)의 에러 값(E1)이 최소인 경우, 상기 클린환경 양자화부(21)의 코드북 인덱스(I1)를 선택하고, 선택된 코드북 인덱스(I1)를 2비트 모드(M1)로 전송하는 제 4 단계(S40) , 상기 클린환경 양자화부(21)의 에러 값(E1)이 최소가 아닌 경우, 바블 노이즈 양자화부(22)의 에러 값(E2)이 최소인가를 판별하여, 상기 바블 노이즈 양자화부(22)의 에러 값(E2)이 최소인 경우, 상기 바블 노이즈 양자화부(22)의 코드북 인덱스(I2)를 선택하고, 선택된 코드북 인덱스(I2)를 2비트 모드(M2)로 전송하는 제 5 단계(S50) , 상기 바블 노이즈 양자화부(22)의 에러 값(E2)이 최소가 아닌 경우, 카 노이즈 양자화부(23)의 에러 값(E3)이 최소인가를 판별하여, 상기 카 노이즈 양자화부(23)의 에러 값(E3)이 최소인 경우, 상기 카 노이즈 양자화부(23)의 코드북 인덱스(I3)를 선택하고, 선택된 코드북 인덱스(I3)를 2비트 모드(M3)로 전송하는 제 6 단계(S60) , 상기 카 노이즈 양자화부(23)의 에러 값(E3)이 최소가 아닌 경우, 예측 링크된 분리벡터 양자화부(24)의 에러 값(E4)이 최소인가를 판별하여, 상기 예측 링크된 분리벡터 양자화부(24)의 에러 값(E4)이 최소인 경우, 상기 예측 링크된 분리벡터 양자화부(24)의 코드북 인덱스(I4)를 선택하고, 선택된 코드북 인덱스(I4)를 2비트 모드(M4)로 전송하는 제 7 단계(S70) , 선스펙트럼주파수 복호화부(26)를 통하여 상기 에러 선택부(25)로 부터 선택되어 전송된 모드 비트(M1, M2, M3, M4 중 하나)에 해당하는 코드북 인덱스(I1, I2, I3, I4 중 하나)에 의해 양자화된 선 스펙트럼 주파수(LSFs)를 복호화하는 제 8 단계(S80) , 승산 제어부(27)에서 상기 선스펙트럼주파수 복호화부(26)에서 복호화된 선 스펙트럼 주파수(LSFs)를 예측 계수와 곱셈 연산하는 제 9 단계(S90) , 다음 프레임의 예측 링크된 분리벡터 양자화부(24)를 위해 입력 선 스펙트럼 주파수(LSFs)에서 상기 곱셈 연산 값(복호화된 LSFs
Figure kpo00031
예측 계수)을 뺄셈 연산하여 저장하는 제 10 단계(S100) 및 , 신호 지연부(28)를 통하여 상기 선스펙트럼주파수 입력부(20)로부터 다음 프레임의 선 스펙트럼 주파수(LSFs)가 입력될때까지 한 프레임만큼 지연시키는 제 11 단계(S110)로 순차 동작한다.
본 발명에 의한 양자화기의 성능을 측정하기 위해, NATC(NTT Advanced Technology Cooperation) 회사의 음성 데이터 베이스를 사용하였다.
본 실험에서 트레이닝 데이터로 사용한 NATC 데이터베이스의 한국어 음성은, 4명의 남성과 4명의 여성이 각 사람마다 서로 다른 12개의 문장을 8초씩 발음하며, 각 문장에 대해서 클린 음성(clean speech). 바블 노이즈 음성(Babble Noised speech), 카 노이즈 음성(Car Noised speech) 환경을 적용시킨 총 2304초( 8명
Figure kpo00032
12문장
Figure kpo00033
8초
Figure kpo00034
3가지 환경 = 2304초)의 음성 데이터로 구성되어 있다.
공정한 평가를 위하여, 테스트 음성은 NATC 데이터베이스의 영어 음성으로, 4명의 남성과 4명의 여성이 각 사람마다 서로 다른 12개의 문장을 8초씩 발음하며, 각 문장에 대해서 클린 음성(clean speech). 바블 노이즈 음성(Babble Noised speech), 카 노이즈 음성(Car Noised speech) 환경을 적용시킨 총 2304초( 8명
Figure kpo00035
12문장
Figure kpo00036
8초
Figure kpo00037
3가지 환경 = 2304초)의 음성 데이터로 구성하였다.
음성 데이터는 20ms 마다 자기상관함수(autocorrelation method)에 근거한 10차 선형 예측 부호화(LPC) 분석을 거쳤으며, 다시 선 스펙트럼 주파수(LSFs)로 변환되었다.
선 스펙트럼 주파수(LSFs)는 효율적인 양자화를 위해서 3,3,4 차원을 갖는 3개의 부벡터로 분리되었다.
성능 평가는 스펙트럼 왜곡(Spectral Distortion 이하 SD 라 칭함) 측정법을 사용하였다.
i 번째 프레임의 스펙트럼 왜곡(SD)은 다음과 같다.
Figure kpo00038
여기서, Pj는 원래 선 스펙트럼 주파수(LSFs)의 파워 스펙트럼(power spectrum of the original LSFs)을 나타내며,
Figure kpo00039
는 양자화된 선 스펙트럼 주파수(LSFs)의 파워 스펙트럼(power spectrum of the quantized LSFs)을 나타낸다.
또한, a 및 b는 파워 스펙트럼을 비교한 구간을 나타내는 것으로, 사람 귀의 특성에 맞춰서 a는 125[Hz]가 선택되었고, b는 3400[Hz]가 선택되었다.
표 3 은 본 발명의 제 2 목적에 따른 20 비트/프레임(bits/frame)에서의 노이즈 로버스트 스위치 예측 링크된 분리벡터 양자화기(Noise Robust - Switched Prediction - Linked Split Vector Quantizer 이하 NR-SP-LSVQ 라 칭함)의 성능을 나타내고 있다.
Figure kpo00040
20 비트/프레임(bits/frame)에서도 스위치 예측 분리벡터 양자화기(SP-SVQ)는 배경 노이즈 환경에서 평균 스펙트럼 왜곡(Avg. SD)이 1[dB]를 훨씬 넘어서고 있다.
반면에, 노이즈 로버스트 스위치 예측 링크된 분리벡터 양자화기(NR-SP-LSVQ)는 거의 1[dB]를 나타낸다.
클린 음성에 대해서도 스위치 예측 분리벡터 양자화기(SP-SVQ)보다 좋은 성능을 나타내므로, 19 비트/프레임(bits/frame)에서도 1[dB]의 평균 스펙트럼 왜곡(Avg. SD)을 얻을 수 있을것으로 추측된다.
또한, 구조적인 특성상 정적인 양자화기가 스위치 예측 분리벡터 양자화기(SP-SVQ)에 비해 더 많은 부분을 차지하므로, 채널 에러의 전파도 더 효율적으로 차단할 수 있다.
실험적으로, 스위치 예측 분리벡터 양자화기(SP-SVQ)가 정적인 양자화기를 47.9% 사용함에 반해, 노이즈 로버스트 스위치 예측 링크된 분리벡터 양자화기(NR-SP-LSVQ)는 53.4%를 사용함을 알 수 있었다.
따라서, 상기 표(표 3)에 나타나 있듯이 노이즈 로버스트 스위치 예측 링크된 분리벡터 양자화기(NR-SP-LSVQ)는 스위치 예측 분리벡터 양자화기(SP-SVQ)에 비해서 클린 및 배경 노이즈, 채널 노이즈 환경 모두에 대해서 우수한 성능을 나타냈다.
이상에서 상세히 설명한 바와 같이 본 발명은, 20 비트/프레임 (bits/frame)에서 채널 에러가 발생하지 않은 경우 클린 음성 및 배경 노이즈 환경 모두에 대해서 우수한 성능을 나타내며, 채널 에러가 발생한 경우에도 그 파급이 몇개의 프레임내에서 제한되도록 채널 에러의 파급을 효과적으로 차단하고, 채널 에러의 전파를 효과적으로 차단차단함으로써 배경 노이즈 환경이나 채널 노이즈 환경에서도 견고한 성능을 나타낸다.

Claims (4)

  1. 선형 예측 부호화(LPC) 계수를 N차의 선 스펙트럼 주파수(LSFs) 계수로 변환하여 현재 프레임의 선 스펙트럼 주파수(LSFs)를 입력하는 선스펙트럼주파수 입력부(10)와, 상기 선스펙트럼주파수 입력부(10)로부터 입력된 선 스펙트럼 주파수(LSFs)를 벡터 양자화하는 링크된 분리벡터 양자화부(11) , 상기 선스펙트럼주파수 입력부(10)로부터 입력된 선 스펙트럼 주파수(LSFs)를 과거 값과의 차를 구하여 벡터 양자화하는 예측 링크된 분리벡터 양자화부(12) , 상기 링크된 분리벡터 양자화부(11) 및 예측 링크된 분리벡터 양자화부(12)로 부터 양자화된 선 스펙트럼 주파수(LSFs)의 에러 값을 비교하여 에러가 적은 코드북 인덱스를 선택하고, 선택된 코드북 인덱스를 모드 비트로 전송하는 에러 선택부(13) , 상기 에러 선택부(13)로 부터 선택되어 전송된 모드 비트에 해당하는 코드북 인덱스에 의해 양자화된 선 스펙트럼 주파수(LSFs)를 산출하는 선스펙트럼주파수 복호화부(14) , 상기 선스펙트럼주파수 복호화부(14)를 통하여 복호화된 선 스펙트럼 주파수(LSFs)에 예측 계수를 곱셈 연산하는 승산 제어부(15) 및 , 상기 승산 제어부(15)를 통하여 곱셈 연산된 값을 저장한 후, 다음 프레임의 예측 링크된 분리벡터 양자화부(12)로 입력하기 위하여 한 프레임 지연시키는 신호 지연부(16)를 포함하는, 음성신호를 최적 부호화하기 위하여 최소한의 비트로 스펙트럼 포락선을 표현하는, 노이즈에 견고한 스펙트럼 포락선 양자화기.
  2. 선스펙트럼주파수 입력부(10)를 통하여 현재 프레임의 선 스펙트럼 주파수(LSFs)를 입력하는 제 1 단계(S1)와, 입력된 선 스펙트럼 주파수(LSFs)를 링크된 분리벡터 양자화부(11)를 통하여 벡터 양자화됨과 아울러, 예측 링크된 분리벡터 양자화부(12)를 통하여 과거 값과의 차를 구하여 벡터 양자화하는 제 2 단계(S2) , 에러 선택부(13)에서 상기와 같이 링크된 분리벡터 양자화부(11)와 예측 링크된 분리벡터 양자화부(12)를 통하여 각각 양자화된 코드북의 에러 값을 비교하는 제 3 단계(S3) ,
    에러 값을 비교함으로써 에러가 적은 코드북 인덱스(I1 또는 I2)를 선택하고, 선택된 코드북 인덱스(I1 또는 I2)를 1비트 모드(M1 또는 M2)로 전송하는 제 4 단계(S4) , 선스펙트럼주파수 복호화부(14)를 통하여 상기 에러 선택부(13)로 부터 선택되어 전송된 모드 비트(M1 또는 M2)에 해당하는 코드북 인덱스(I1 또는 I2)에 의해 양자화된 선 스펙트럼 주파수(LSFs)를 복호화하는 제 5 단계(S5) , 승산 제어부(15)에서 상기 선스펙트럼주파수 복호화부(14)에서 복호화된 선 스펙트럼 주파수(LSFs)를 예측 계수와 곱셈 연산하는 제 6 단계(S6) , 다음 프레임의 예측 링크된 분리벡터 양자화부(12)를 위해 입력 선 스펙트럼 주파수(LSFs)에서 상기 곱셈 연산 값(복호화된 LSFs
    Figure kpo00041
    예측 계수)을 뺄셈 연산하여 저장하는 제 7 단계(S7) 및 , 신호 지연부(16)를 통하여 상기 선스펙트럼주파수 입력부(10)로부터 다음 프레임의 선 스펙트럼 주파수(LSFs)가 입력될때까지 한 프레임만큼 지연시키는 제 8 단계(S8)를 포함하는, 음성신호를 최적 부호화하기 위하여 최소한의 비트로 스펙트럼 포락선을 표현하는, 노이즈에 견고한 스펙트럼 포락선 양자화 방법.
  3. 선형 예측 부호화(LPC) 계수를 N차의 선 스펙트럼 주파수(LSFs) 계수로 변환하여 현재 프레임의 선 스펙트럼 주파수(LSFs)를 입력하는 선스펙트럼주파수 입력부(20)와, 상기 선스펙트럼주파수 입력부(20)로부터 입력된 선 스펙트럼 주파수(LSFs)를 클린 음성 환경에서 벡터 양자화하는 클린환경 양자화부(21) , 상기 선스펙트럼주파수 입력부(20)로부터 입력된 선 스펙트럼 주파수(LSFs)를 바블 노이즈 환경에서 벡터 양자화하는 바블 노이즈 양자화부(22) , 상기 선스펙트럼주파수 입력부(30)로부터 입력된 선 스펙트럼 주파수(LSFs)를 카 노이즈 환경에서 벡터 양자화하는 카 노이즈 양자화부(23) , 상기 선스펙트럼주파수 입력부(20)로부터 입력된 선 스펙트럼 주파수(LSFs)를 모든 환경에서 과거 값과의 차를 구하여 벡터 양자화하는 예측 링크된 분리벡터 양자화부(24) , 상기 클린환경 양자화부(21), 바블 노이즈 양자화부(22), 카 노이즈 양자화부(23) 및 예측 링크된 분리벡터 양자화부(24)를 통하여 양자화된 선 스펙트럼 주파수(LSFs)의 에러 값을 비교하여 에러가 적은 코드북 인덱스를 선택하고, 선택된 코드북 인덱스를 모드 비트로 전송하는 에러 선택부(25) , 상기 에러 선택부(25)로 부터 선택되어 전송된 모드 비트에 해당하는 코드북 인덱스에 의해 양자화된 선 스펙트럼 주파수(LSFs)를 산출하는 선스펙트럼주파수 복호화부(26) , 상기 선스펙트럼주파수 복호화부(26)를 통하여 복호화된 선 스펙트럼 주파수(LSFs)에 예측 계수를 곱셈 연산하는 승산 제어부(27) 및 , 상기 승산 제어부(27)를 통하여 승산 제어된 값을 저장한 후, 다음 프레임의 예측 링크된 분리벡터 양자화부(24)로 입력하기 위하여 한 프레임 지연시키는 신호 지연부(28)를 포함하는, 음성신호를 최적 부호화하기 위하여 최소한의 비트로 스펙트럼 포락선을 표현하는, 노이즈에 견고한 스펙트럼 포락선 양자화기.
  4. 선스펙트럼주파수 입력부(20)를 통하여 현재 프레임의 선 스펙트럼 주파수(LSFs)를 입력하는 제 1 단계(S10)와, 입력된 선 스펙트럼 주파수(LSFs)를 클린 음성만으로 트레이닝된 클린환경 양자화부(21)와, 바블 노이즈 음성(Babble Noised speech)만으로 트레이닝된 링크된 바블 노이즈 양자화부(22), 카 노이즈 음성(Car Noised speech)만으로 트레이닝된 카 노이즈 양자화부(23), 그리고 상기 세가지 종류의 모든 데이터로 트레이닝함으로써 어떤 환경에서든지 스펙트럼 변이가 적은 구간에서는 중요한 역할을 하게되는 예측 링크된 분리벡터 양자화부(24)를 통하여 각각 양자화하는 제 2 단계(S20) , 에러 선택부(25)를 통하여 각각 양자화된 코드북의 에러 값을 비교하는 제 3 단계(S30) , 에러 값을 비교함으로써 클린환경 양자화부(21)의 에러 값(E1)이 최소인 경우, 상기 클린환경 양자화부(21)의 코드북 인덱스(I1)를 선택하고, 선택된 코드북 인덱스(I1)를 2비트 모드(M1)로 전송하는 제 4 단계(S40) , 상기 클린환경 양자화부(21)의 에러 값(E1)이 최소가 아닌 경우, 바블 노이즈 양자화부(22)의 에러 값(E2)이 최소인가를 판별하여, 상기 바블 노이즈 양자화부(22)의 에러 값(E2)이 최소인 경우, 상기 바블 노이즈 양자화부(22)의 코드북 인덱스(I2)를 선택하고, 선택된 코드북 인덱스(I2)를 2비트 모드(M2)로 전송하는 제 5 단계(S50) , 상기 바블 노이즈 양자화부(22)의 에러 값(E2)이 최소가 아닌 경우, 카 노이즈 양자화부(23)의 에러 값(E3)이 최소인가를 판별하여, 상기 카 노이즈 양자화부(23)의 에러 값(E3)이 최소인 경우, 상기 카 노이즈 양자화부(23)의 코드북 인덱스(I3)를 선택하고, 선택된 코드북 인덱스(I3)를 2비트 모드(M3)로 전송하는 제 6 단계(S60) ,
    상기 카 노이즈 양자화부(23)의 에러 값(E3)이 최소가 아닌 경우, 예측 링크된 분리벡터 양자화부(24)의 에러 값(E4)이 최소인가를 판별하여, 상기 예측 링크된 분리벡터 양자화부(24)의 에러 값(E4)이 최소인 경우, 상기 예측 링크된 분리벡터 양자화부(24)의 코드북 인덱스(I4)를 선택하고, 선택된 코드북 인덱스(I4)를 2비트 모드(M4)로 전송하는 제 7 단계(S70) , 선스펙트럼주파수 복호화부(26)를 통하여 상기 에러 선택부(25)로 부터 선택되어 전송된 모드 비트(M1, M2, M3, M4 중 하나)에 해당하는 코드북 인덱스(I1, I2, I3, I4 중 하나)에 의해 양자화된 선 스펙트럼 주파수(LSFs)를 복호화하는 제 8 단계(S80) , 승산 제어부(27)에서 상기 선스펙트럼주파수 복호화부(26)에서 복호화된 선 스펙트럼 주파수(LSFs)를 예측 계수와 곱셈 연산하는 제 9 단계(S90) , 다음 프레임의 예측 링크된 분리벡터 양자화부(24)를 위해 입력 선 스펙트럼 주파수(LSFs)에서 상기 곱셈 연산 값(복호화된 LSFs
    Figure kpo00042
    예측 계수)을 뺄셈 연산하여 저장하는 제 10 단계(S100) 및 , 신호 지연부(28)를 통하여 상기 선스펙트럼주파수 입력부(20)로부터 다음 프레임의 선 스펙트럼 주파수(LSFs)가 입력될때까지 한 프레임만큼 지연시키는 제 11 단계(S110)를 포함하는, 음성신호를 최적 부호화하기 위하여 최소한의 비트로 스펙트럼 포락선을 표현하는, 노이즈에 견고한 스펙트럼 포락선 양자화 방법.
KR1019970015044A 1997-04-23 1997-04-23 노이즈에 견고한 스펙트럼 포락선 양자화기 및 양자화 방법 KR100198476B1 (ko)

Priority Applications (2)

Application Number Priority Date Filing Date Title
KR1019970015044A KR100198476B1 (ko) 1997-04-23 1997-04-23 노이즈에 견고한 스펙트럼 포락선 양자화기 및 양자화 방법
US09/060,345 US6275796B1 (en) 1997-04-23 1998-04-15 Apparatus for quantizing spectral envelope including error selector for selecting a codebook index of a quantized LSF having a smaller error value and method therefor

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1019970015044A KR100198476B1 (ko) 1997-04-23 1997-04-23 노이즈에 견고한 스펙트럼 포락선 양자화기 및 양자화 방법

Publications (2)

Publication Number Publication Date
KR19980077793A KR19980077793A (ko) 1998-11-16
KR100198476B1 true KR100198476B1 (ko) 1999-06-15

Family

ID=19503612

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1019970015044A KR100198476B1 (ko) 1997-04-23 1997-04-23 노이즈에 견고한 스펙트럼 포락선 양자화기 및 양자화 방법

Country Status (2)

Country Link
US (1) US6275796B1 (ko)
KR (1) KR100198476B1 (ko)

Families Citing this family (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20010051980A1 (en) * 2000-06-01 2001-12-13 Raciborski Nathan F. Preloading content objects on content exchanges
US7003454B2 (en) * 2001-05-16 2006-02-21 Nokia Corporation Method and system for line spectral frequency vector quantization in speech codec
EP1292036B1 (en) * 2001-08-23 2012-08-01 Nippon Telegraph And Telephone Corporation Digital signal decoding methods and apparatuses
ATE381091T1 (de) * 2002-04-22 2007-12-15 Nokia Corp Erzeugung von lsf-vektoren
KR100647290B1 (ko) * 2004-09-22 2006-11-23 삼성전자주식회사 합성된 음성의 특성을 이용하여 양자화/역양자화를선택하는 음성 부호화/복호화 장치 및 그 방법
US8010349B2 (en) * 2004-10-13 2011-08-30 Panasonic Corporation Scalable encoder, scalable decoder, and scalable encoding method
KR100721537B1 (ko) * 2004-12-08 2007-05-23 한국전자통신연구원 광대역 음성 부호화기의 고대역 음성 부호화 장치 및 그방법
US20090198491A1 (en) * 2006-05-12 2009-08-06 Panasonic Corporation Lsp vector quantization apparatus, lsp vector inverse-quantization apparatus, and their methods
EP1970900A1 (en) * 2007-03-14 2008-09-17 Harman Becker Automotive Systems GmbH Method and apparatus for providing a codebook for bandwidth extension of an acoustic signal
JP5159279B2 (ja) * 2007-12-03 2013-03-06 株式会社東芝 音声処理装置及びそれを用いた音声合成装置。
CN102623012B (zh) * 2011-01-26 2014-08-20 华为技术有限公司 矢量联合编解码方法及编解码器

Family Cites Families (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5012518A (en) * 1989-07-26 1991-04-30 Itt Corporation Low-bit-rate speech coder using LPC data reduction processing
US4975956A (en) * 1989-07-26 1990-12-04 Itt Corporation Low-bit-rate speech coder using LPC data reduction processing
WO1992006470A1 (en) * 1990-09-28 1992-04-16 N.V. Philips' Gloeilampenfabrieken A method of, and system for, coding analogue signals
US5680508A (en) * 1991-05-03 1997-10-21 Itt Corporation Enhancement of speech coding in background noise for low-rate speech coder
EP1107231B1 (en) * 1991-06-11 2005-04-27 QUALCOMM Incorporated Variable rate vocoder
TW224191B (ko) * 1992-01-28 1994-05-21 Qualcomm Inc
US5495555A (en) * 1992-06-01 1996-02-27 Hughes Aircraft Company High quality low bit rate celp-based speech codec
US5734789A (en) * 1992-06-01 1998-03-31 Hughes Electronics Voiced, unvoiced or noise modes in a CELP vocoder
US5732389A (en) 1995-06-07 1998-03-24 Lucent Technologies Inc. Voiced/unvoiced classification of speech for excitation codebook selection in celp speech decoding during frame erasures
US5699485A (en) * 1995-06-07 1997-12-16 Lucent Technologies Inc. Pitch delay modification during frame erasures
US5664055A (en) * 1995-06-07 1997-09-02 Lucent Technologies Inc. CS-ACELP speech compression system with adaptive pitch prediction filter gain based on a measure of periodicity

Also Published As

Publication number Publication date
US6275796B1 (en) 2001-08-14
KR19980077793A (ko) 1998-11-16

Similar Documents

Publication Publication Date Title
USRE49363E1 (en) Variable bit rate LPC filter quantizing and inverse quantizing device and method
JP2971266B2 (ja) 低遅延celp符号化方法
JP3346765B2 (ja) 音声復号化方法及び音声復号化装置
KR20050061615A (ko) 손실 프레임을 처리하기 위한 음성 통신 시스템 및 방법
KR20120125513A (ko) 일반 오디오 및 음성 프레임들을 포함하는 오디오 신호를 위한 인코더
JP2004526213A (ja) 音声コーデックにおける線スペクトル周波数ベクトル量子化のための方法およびシステム
KR100198476B1 (ko) 노이즈에 견고한 스펙트럼 포락선 양자화기 및 양자화 방법
KR20120109600A (ko) 스위칭가능한 모델 코어를 이용하는 내장된 스피치 및 오디오 코딩
JPH02155313A (ja) 符号化方法
US20090204394A1 (en) Decoding method and device
JPH08272395A (ja) 音声符号化装置
US8473284B2 (en) Apparatus and method of encoding/decoding voice for selecting quantization/dequantization using characteristics of synthesized voice
EP2127088B1 (en) Audio quantization
US6101464A (en) Coding and decoding system for speech and musical sound
EP0557940A2 (en) Speech coding system
CA2219358A1 (en) Speech signal quantization using human auditory models in predictive coding systems
Ohmuro et al. Vector quantization of LSP parameters using moving average interframe prediction
Taniguchi et al. Multimode coding: application to CELP
So et al. Efficient vector quantisation of line spectral frequencies using the switched split vector quantiser.
Ojala et al. Variable model order LPC quantization
JPH09134198A (ja) 音声復号化装置
KR19980076955A (ko) 음성 선스펙트럼 주파수의 부호화/복호화 장치 및 그 방법
JPH0969000A (ja) 音声パラメータ量子化装置
JPH10105196A (ja) 音声符号化装置
Kataoka et al. A 6.4-kbit/s variable-bit-rate extension to the G. 729 (CS-ACELP) speech coder

Legal Events

Date Code Title Description
A201 Request for examination
E701 Decision to grant or registration of patent right
GRNT Written decision to grant
FPAY Annual fee payment

Payment date: 20080115

Year of fee payment: 10

LAPS Lapse due to unpaid annual fee