[go: up one dir, main page]
More Web Proxy on the site http://driver.im/

KR100367267B1 - 멀티모드 음성 부호화 장치 및 복호화 장치 - Google Patents

멀티모드 음성 부호화 장치 및 복호화 장치 Download PDF

Info

Publication number
KR100367267B1
KR100367267B1 KR10-2000-7004235A KR20007004235A KR100367267B1 KR 100367267 B1 KR100367267 B1 KR 100367267B1 KR 20007004235 A KR20007004235 A KR 20007004235A KR 100367267 B1 KR100367267 B1 KR 100367267B1
Authority
KR
South Korea
Prior art keywords
mode
decoding
encoding
speech
signal
Prior art date
Application number
KR10-2000-7004235A
Other languages
English (en)
Other versions
KR20010031251A (ko
Inventor
에하라히로유키
Original Assignee
마츠시타 덴끼 산교 가부시키가이샤
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 마츠시타 덴끼 산교 가부시키가이샤 filed Critical 마츠시타 덴끼 산교 가부시키가이샤
Publication of KR20010031251A publication Critical patent/KR20010031251A/ko
Application granted granted Critical
Publication of KR100367267B1 publication Critical patent/KR100367267B1/ko

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • G10L19/18Vocoders using multiple modes
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)
  • Transmission Systems Not Characterized By The Medium Used For Transmission (AREA)
  • Analogue/Digital Conversion (AREA)

Abstract

양자화한 보컬 트랙트 파라미터의 정적 및 동적 특징을 이용하여 음원 정보를 멀티 모드로 부호화하여, 복호기측에서도 멀티모드의 후처리를 실행하는 것에 의해, 무성 음성 구간 및 정상 잡음 구간의 품질을 개선한다.

Description

멀티모드 음성 부호화 장치 및 복호화 장치{MULTIMODE SPEECH ENCODER AND DECODER}
디지털 이동 통신이나 음성 축적의 분야에서는, 전파나 기억 매체의 유효 이용을 위해 음성 정보를 압축하여, 고능률로 부호화하기 위한 음성 부호화 장치가 사용되고 있다. 그 중에서도 CELP(Code Excited Linear Prediction : 부호 여진 선형 예측 부호화) 방식을 베이스로 한 방식이 중·저 비트 레이트에 있어서 널리 실용화되어 있다. CELP의 기술에 대해서는, M. R. Schroeder and B. S. Atal : "Code-Excited Linear Prediction(CELP) : High-quality Speech at Very Low Bit Rates", Proc. ICASSP-85,25.1.1, pp.937-940, 1985"에 표시되어 있다.
CELP형 음성 부호화 방식은, 음성을 임의의 일정한 프레임 길이(5ms∼50ms정도)로 나누어, 각 프레임마다 음성의 선형 예측을 실행하여, 프레임마다의 선형 예측에 의한 예측 잔차(여진 신호)를 기지의 파형으로 이루어지는 적응 부호 벡터와 잡음 부호 벡터를 이용하여 부호화하는 것이다. 적응 부호 벡터는 과거에 생성한 구동 음원 벡터를 저장하고 있는 적응 부호 리스트로부터, 잡음 부호 벡터는 미리 준비된 정해진 수의 정해진 형상을 갖는 벡터를 저장하고 있는 잡음 부호 리스트로부터 선택되어 사용된다. 잡음 부호 리스트에 저장되는 잡음 부호 벡터에는, 랜덤인 잡음 계열의 벡터나 얼마간의 펄스를 상이한 위치에 배치함으로써 생성되는 벡터 등이 이용된다.
CELP 부호화 장치에서는, 입력된 디지털 신호를 이용하여 LPC의 분석·양자화와 피치 탐색과 잡음 부호 리스트 탐색과 이득 부호 리스트 탐색이 실행되어, 양자화 LPC 부호(L)와 피치 주기(P)와 잡음 부호 리스트 인덱스(S)와 이득 부호 리스트 인덱스(G)가 복호기에 전송된다.
그러나, 상기 종래의 음성 부호화 장치에 있어서는, 1종류의 잡음 부호 리스트에서 유성 음성이나 무성 음성 외에 배경 잡음 등에 대해서도 대응하지 않으면 안 되고, 이들 모든 입력 신호를 고품질로 부호화하는 것은 곤란하다.
발명의 개시
본 발명의 목적은, 모드 정보를 새롭게 전송하지 않고 음원 부호화의 멀티모드화를 도모할 수 있어, 특히 유성 구간/무성 구간의 판정에 덧붙여 음성 구간/비음성 구간의 판정을 실행하는 것도 가능하고, 멀티모드화에 의한 부호화/복호화 성능의 개선도를 보다 높이는 것을 가능하게 한 멀티모드 음성 부호화 장치 및 음성 복호화 장치를 제공하는 것이다.
본 발명에 있어서는, 스펙트럼 특성을 나타내는 양자화 파라미터의 정적/동적 특징을 이용한 모드 판정을 실행하고, 음성 구간/비음성 구간, 유성 구간/무성 구간을 나타내는 모드 판정 결과에 근거하여 구동 음원의 부호화에 이용하는 각종 부호 리스트의 모드를 전환한다. 또한, 본 발명에 있어서는, 부호화시에 사용한 모드 정보를 복호화시에 이용하여 복호화에 이용하는 각종 부호 리스트의 모드를 전환한다.
본 발명은, 음성 신호를 부호화하여 전송하는 이동 통신 시스템 등에 있어서의 저 비트 레이트 음성 부호화 장치, 특히 음성 신호를 보컬 트랙트(Vocal Tract) 정보와 음원 정보로 분리하여 표현하는 CELP(Code Excited Linear Prediction)형 음성 부호화 장치 등에 관한 것이다.
도 1은, 본 발명의 실시예 1에 있어서의 음성 부호화 장치의 구성을 나타내는 블록도이고,
도 2는, 본 발명의 실시예 2에 있어서의 음성 복호화 장치의 구성을 나타내는 블럭도이며,
도 3은, 본 발명의 실시예 1에 있어서의 음성 부호화 처리의 플로우차트이고,
도 4는, 본 발명의 실시예 2에 있어서의 음성 복호화 처리의 플로우차트이며,
도 5a는, 본 발명의 실시예 3에 있어서의 음성 신호 송신 장치의 구성을 나타내는 블럭도이고,
도 5b는, 본 발명의 실시예 3에 있어서의 음성 신호 수신 장치의 구성을 나타내는 블럭도이며,
도 6은, 본 발명의 실시예 4에 있어서의 모드 선택기의 구성을 나타내는 블럭도이고,
도 7은, 본 발명의 실시예 5에 있어서의 멀티모드 후처리기의 구성을 나타내는 블럭도이며,
도 8은, 본 발명의 실시예 4에 있어서의 전단의 멀티모드 후처리의 플로우차트이고,
도 9는, 본 발명의 실시예 4에 있어서의 후단의 멀티모드 후처리의 플로우차트이며,
도 10은, 본 발명의 실시예 4에 있어서의 멀티모드 후처리의 전체의 플로우차트이고,
도 11은, 본 발명의 실시예 5에 있어서의 전단의 멀티모드 후처리의 플로우차트이며,
도 12는, 본 발명의 실시예 5에 있어서의 후단의 멀티모드 후처리의 플로우차트이다.
발명을 실시하기 위한 최선의 형태
이하, 본 발명의 실시예에 있어서의 음성 부호화 장치 등에 대해, 도 1 내지 도 9를 이용하여 설명한다.
(실시예 1)
도 1은, 본 발명의 실시예 1에 관한 음성 부호화 장치의 구성을 나타내는 블럭도이다.
디지탈화된 음성 신호 등으로 이루어지는 입력 데이터가 전처리기(101)에 입력된다. 전처리기(101)는, 고역 통과 필터나 밴드 패스 필터 등을 이용하여 직류 성분의 커트나 입력 데이터의 대역 제한 등을 실행하여 LPC 분석기(102)와 가산기(106)에 출력한다. 또, 이 전처리기(101)에서 아무것도 처리를 실행하지 않더라도 후속하는 부호화 처리는 가능하나, 전술한 바와 같은 처리를 행한 방법이 부호화 성능을 향상한다.
LPC 분석기(102)는, 선형 예측 분석을 실행하여 선형 예측 계수(LPC)를 산출하여 LPC 양자화기(103)에 출력한다.
LPC 양자화기(103)는, 입력한 LPC를 양자화하며, 양자화 후의 LPC를 합성 필터(104)와 모드 선택기(105)에, 또한, 양자화 LPC를 표현하는 부호 L을 복호기에 각각 출력한다. 또, LPC의 양자화는 보간 특성이 양호한 LSP(Line Spectrum Pair : 선 스펙트럼쌍)로 변환하여 실행하는 것이 일반적이다.
합성 필터(104)는, LPC 양자화기(103)로부터 입력한 양자화 LPC를 이용하여 LPC 합성 필터를 구축한다. 이 합성 필터에 대하여 가산기(114)로부터 출력되는 구동 음원 신호를 입력으로서 필터 처리를 실행하여 합성 신호를 가산기(106)에 출력한다.
모드 선택기(105)는, LPC 양자화기(103)로부터 입력한 양자화 LPC를 이용하여 잡음 부호 리스트(109)의 모드를 결정한다.
여기서, 모드 선택기(105)는, 과거에 입력한 양자화 LPC의 정보도 축적하고 있고, 프레임간에 있어서의 양자화 LPC의 변동의 특징과 현 프레임에 있어서의 양자화 LPC의 특징의 쌍방을 이용하여 모드의 선택을 실행한다. 이 모드는 적어도 2종류 이상이고, 예컨대 유성 음성부에 대응하는 모드와 무성 음성부 및 정상 잡음부 등에 대응하는 모드로 이루어진다. 또한, 모드의 선택에 이용하는 정보는 양자화 LPC 그 자체일 필요는 없고, 양자화 LSP나 반사 계수나 선형 예측 잔차 파워 등의 파라미터로 변환한 것을 이용한 방법이 효과적이다.
가산기(106)는, 전처리기(101)로부터 입력되는 전처리 후의 입력 데이터와 합성 신호의 오차를 산출하여, 청각 가중치 필터(107)에 출력한다.
청각 가중치 필터(107)는, 가산기(106)에서 산출된 오차에 대하여 청각적인 가중치 부여를 실행하여 오차 최소화기(108)에 출력한다.
오차 최소화기(108)는, 잡음 부호 리스트 인덱스 Si와 적응 부호 리스트 인덱스(피치 주기) Pi와 이득 부호 리스트 인덱스 Gi를 조정하면서 각각 잡음 부호 리스트(109)와 적응 부호 리스트(110)와 이득 부호 리스트(111)에 출력하여, 청각 가중치 필터(107)로부터 입력되는 청각적 가중치 부여된 오차가 최소로 되도록 잡음 부호 리스트(109)와 적응 부호 리스트(110)와 이득 부호 리스트(111)가 생성하는 잡음 부호 벡터와 적응 부호 벡터와 잡음 부호 리스트 이득 및 적응 부호 리스트 이득을 각각 결정하여, 잡음 부호 벡터를 표현하는 부호 S와 적응 부호 벡터를 표현하는 P와 이득 정보를 표현하는 부호 G를 각각 복호기에 출력한다.
잡음 부호 리스트(109)는, 미리 정해진 개수의 형상이 상이한 잡음 부호 벡터가 저장되어 있고, 오차 최소화기(108)로부터 입력되는 잡음 부호 벡터의 인덱스 Si에 의해서 지정되는 잡음 부호 벡터를 출력한다. 또한, 이 잡음 부호 리스트(109)는 적어도 2종류 이상의 모드를 갖고 있고, 예컨대 유성 음성부에 대응하는 모드에서는 보다 펄스적인 잡음 부호 벡터를 생성하고, 무성 음성부나 정상 잡음부 등에 대응하는 모드에서는 보다 잡음적인 잡음 부호 벡터를 생성하는 구조로 되어 있다. 잡음 부호 리스트(109)로부터 출력되는 잡음 부호 벡터는 상기 2종류 이상의 모드 중 모드 선택기(105)에서 선택된 1개의 모드로부터 생성되어, 승산기(112)에서 잡음 부호 리스트 이득 Gs가 곱해진 후에 가산기(114)에 출력된다.
적응 부호 리스트(110)는, 과거에 생성한 구동 음원 신호를 차차 갱신하면서 버퍼링하고 있고, 오차 최소화기(108)로부터 입력되는 적응 부호 리스트 인덱스(피치 주기(피치 래그)) Pi를 이용하여 적응 부호 벡터를 생성한다. 적응 부호 리스트(110)에서 생성된 적응 부호 벡터는 승산기(113)에서 적응 부호 리스트 이득 Ga가 곱해진 후에 가산기(114)에 출력된다.
이득 부호 리스트(111)는, 적응 부호 리스트 이득 Ga와 잡음 부호 리스트 이득 Gs의 세트(이득 벡터)를 미리 정해진 개수만큼 저장하고 있어, 오차 최소화기(108)로부터 입력되는 이득 부호 리스트 인덱스 Gi에 의해서 지정되는 이득 벡터의 적응 부호 리스트 이득 성분 Ga를 승산기(113)에, 잡음 부호 리스트 이득 성분 Gs를 승산기(112)에 각각 출력한다. 또, 이득 부호 리스트는 다단 구성으로 하면 이득 부호 리스트에 필요한 메모리량이나 이득 부호 리스트 탐색에 요하는 연산량의 삭감이 가능하다. 또한, 이득 부호 리스트에 할당되는 비트수가 충분하면, 적응 부호 리스트 이득과 잡음 부호 리스트 이득을 독립하여 스칼라 양자화하는 것도 행할 수 있다.
가산기(114)는, 승산기(112 및 113)로부터 입력되는 잡음 부호 벡터와 적응 부호 벡터의 가산을 실행하여 구동 음원 신호를 생성하고, 합성 필터(104) 및 적응 부호 리스트(110)에 출력한다.
또, 본 실시예에 있어서는, 멀티모드화되어 있는 것은 잡음 부호 리스트(109)뿐이지만, 적응 부호 리스트(110) 및 이득 부호 리스트(111)를 멀티모드화하는 것에 의해 품질 개선을 더 실행하는 것도 가능하다.
다음에 도 3을 참조하여 상기 실시예에 있어서의 음성 부호화 방법의 처리 흐름을 나타낸다. 본 설명에 있어서는, 음성 부호화 처리를 미리 정해진 시간 길이의 처리 단위(프레임 : 시간 길이로 해서 수십밀리초 정도)마다 처리를 실행하며, 1 프레임을 다시 정수개의 짧은 처리 단위(서브 프레임)마다 처리를 실행하는 예를 나타낸다.
단계(이하, ST로 생략함)(301)에 있어서, 적응 부호 리스트의 내용, 합성 필터 메모리, 입력 버퍼 등의 모든 메모리를 클리어한다.
다음에, ST(302)에서 디지탈화된 음성 신호 등의 입력 데이터를 1 프레임분 입력하여, 고역 통과 필터 또는 밴드 패스 필터 등을 가하는 것에 의해 입력 데이터의 오프셋 제거나 대역 제한을 실행한다. 전처리 후의 입력 데이터는 입력 버퍼에 버퍼링되어, 이후의 부호화 처리에 이용된다.
다음에, ST(303)에 있어서, LPC 분석(선형 예측 분석)이 행해져서, LPC 계수(선형 예측 계수)가 산출된다.
다음에, ST(304)에 있어서, ST(303)에서 산출된 LPC 계수의 양자화가 실행된다. LPC 계수의 양자화 방법은 여러가지 제안되어 있지만, 보간 특성이 양호한 LSP 파라미터로 변환하여 다단 벡터 양자화나 프레임간 상관을 이용한 예측 양자화를 적용하면 효율적으로 양자화할 수 있다. 또한, 예컨대 1 프레임이 2개의 서브 프레임으로 분할되어 처리되는 경우에는, 제 2 서브 프레임의 LPC 계수를 양자화하고, 제 1 서브 프레임의 LPC 계수는 직전 프레임에 있어서의 제 2 서브 프레임의 양자화 LPC 계수와 현 프레임에 있어서의 제 2 서브 프레임의 양자화 LPC 계수를 이용하여 보간 처리에 의해서 결정하는 것이 일반적이다.
다음에, ST(305)에 있어서, 전처리 후의 입력 데이터에 청각 가중치 부여를 실행하는 청각 가중치 필터를 구축한다.
다음에, ST(306)에 있어서, 구동 음원 신호로부터 청각 가중치 영역의 합성 신호를 생성하는 청각 가중치 합성 필터를 구축한다. 이 필터는, 합성 필터와 청각 가중치 필터를 종속 접속한 필터이며, 합성 필터는 ST(304)에서 양자화된 양자화 LPC 계수를 이용하여 구축되고, 청각 가중치 필터는 ST(303)에서 산출된 LPC 계수를 이용하여 구축된다.
다음에, ST(307)에서, 모드의 선택이 실행된다. 모드의 선택은 ST(304)에서 양자화된 양자화 LPC 계수의 동적 및 정적 특징을 이용하여 실행된다. 구체적으로는, 양자화 LSP의 변동이나 양자화 LPC 계수로부터 산출되는 반사 계수나 예측 잔차 파워 등을 이용한다. 본 단계에서 선택된 모드에 따라서 잡음 부호 리스트의 탐색이 실행된다. 본 단계에서 선택되는 모드는 적어도 2종류 이상이고, 예컨대 유성 음성 모드와 무성 음성 및 정상 잡음 모드의 2 모드 구성 등이 고려된다.
다음에, ST(308)에 있어서, 적응 부호 리스트의 탐색이 실행된다. 적응 부호 리스트의 탐색은, 전처리 후의 입력 데이터에 청각 가중치 부여를 행한 파형에 가장 가깝게 되는 청각 가중치 합성 파형이 생성되는 적응 부호 벡터를 탐색하는 것이고, 전처리 후의 입력 데이터를 ST(305)에서 구축된 청각 가중치 필터에서 필터링한 신호와 적응 부호 리스트로부터 페치한 적응 부호 벡터를 구동 음원 신호로서 ST(306)에서 구축된 청각 가중치 합성 필터에서 필터링한 신호의 오차가 최소로 되도록, 적응 부호 벡터를 페치하는 위치를 결정한다.
다음에, ST(309)에 있어서, 잡음 부호 리스트의 탐색이 실행된다. 잡음 부호 리스트의 탐색은, 전처리 후의 입력 데이터에 청각 가중치 부여를 실행한 파형에 가장 가깝게 되는 청각 가중치 합성 파형이 생성되는 구동 음원 신호를 생성하는 잡음 부호 벡터를 선택하는 것이고, 구동 음원 신호가 적응 부호 벡터와 잡음 부호 벡터를 가산하여 생성되는 것을 고려한 탐색이 실행된다. 따라서, 이미 ST(308)에서 결정된 적응 부호 벡터와 잡음 부호 리스트에 저장되어 있는 잡음 부호 벡터를 가산하여 구동 음원 신호를 생성하고, 생성된 구동 음원 신호를 ST(306)에서 구축된 청각 가중치 합성 필터에서 필터링한 신호와 전처리 후의 입력 데이터를 ST(305)에서 구축된 청각 가중치 필터에서 필터링한 신호의 오차가 최소로 되도록, 잡음 부호 리스트 중에서 잡음 부호 벡터를 선택한다. 또한, 잡음 부호 벡터에 대하여 피치 주기화 등의 처리를 실행하는 경우는, 그 처리도 고려한 탐색이 실행된다. 또한, 이 잡음 부호 리스트는 적어도 2종류 이상의 모드를 갖고 있고, 예컨대 유성 음성부에 대응하는 모드에서는 보다 펄스적인 잡음 부호 벡터를 저장하고 있는 잡음 부호 리스트를 이용하여 탐색이 실행되어, 무성 음성부나 정상 잡음부 등에 대응하는 모드에서는 보다 잡음적인 잡음 부호 벡터를 저장하고 있는 잡음 부호 리스트를 이용하여 탐색이 실행된다. 탐색시에 어느 모드의 잡음 부호 리스트를 이용할 지는, ST(307)에서 선택된다.
다음에, ST(310)에 있어서, 이득 부호 리스트의 탐색이 실행된다. 이득 부호 리스트의 탐색은, 이미 ST(308)에서 결정된 적응 부호 벡터와 ST(309)에서 결정된 잡음 부호 벡터의 각각에 대하여 곱하는 적응 부호 리스트 이득과 잡음 부호 리스트 이득의 세트를 이득 부호 리스트 중에서 선택하는 것이고, 적응 부호 리스트 이득 승산 후의 적응 부호 벡터와 잡음 부호 이득 승산 후의 잡음 부호 벡터를 가산하여 구동 음원 신호를 생성하고, 생성한 구동 음원 신호를 ST(306)에서 구축된 청각 가중치 합성 필터에서 필터링한 신호와 전처리 후의 입력 데이터를 ST(305)에서 구축된 청각 가중치 필터에서 필터링한 신호의 오차가 최소로 되는 적응 부호 리스트 이득과 잡음 부호 리스트 이득의 세트를 이득 부호 리스트 중에서 선택한다.
다음에, ST(311)에서, 구동 음원 신호가 생성된다. 구동 음원 신호는, ST(308)에서 선택된 적응 부호 벡터에 ST(310)에서 선택된 적응 부호 리스트 이득을 곱한 벡터와, ST(309)에서 선택된 잡음 부호 벡터에 ST(310)에서 선택된 잡음부호 리스트 이득을 곱한 벡터를 가산하여 생성된다.
다음에, ST(312)에 있어서, 서브 프레임 처리의 루프로 이용되는 메모리의 갱신이 실행된다. 구체적으로는, 적응 부호 리스트의 갱신이나 청각 가중치 필터 및 청각 가중치 합성 필터의 상태 갱신 등이 실행된다.
상기 ST(305∼312)는 서브 프레임 단위의 처리이다.
다음에, ST(313)에 있어서, 프레임 처리의 루프로 이용되는 메모리의 갱신이 실행된다. 구체적으로는, 전처리기에서 이용되는 필터의 상태 갱신이나 양자화 LPC 계수 버퍼의 갱신(LPC의 프레임간 예측 양자화를 실행하고 있는 경우)이나 입력 데이터 버퍼의 갱신 등이 실행된다.
다음에, ST(314)에 있어서, 부호화 데이터의 출력이 실행된다. 부호화 데이터는 전송되는 형태에 따라 비트 스트림화나 다중화 처리 등이 실행되어 전송로에 송출된다.
상기 ST(302∼304 및 313∼314)가 프레임 단위의 처리이다. 또한, 프레임 단위 및 서브 프레임 단위의 처리는 입력 데이터가 없어질 때까지 반복하여 실행된다.
(실시예 2)
도 2는, 본 발명의 실시예 2에 관한 음성 복호화 장치의 구성을 나타내는 블록도이다.
부호기로부터 전송된, 양자화 LPC를 표현하는 부호 L과 잡음 부호 벡터를 표현하는 부호 S와 적응 부호 벡터를 표현하는 부호 P와 이득 정보를 표현하는 부호 G가, 각각 LPC 복호기(201)와 잡음 부호 리스트(203)와 적응 부호 리스트(204)와 이득 부호 리스트(205)에 입력된다.
LPC 복호기(201)는, 부호 L로부터 양자화 LPC를 복호하여, 모드 선택기(202)와 합성 필터(209)에 각각 출력한다.
모드 선택기(202)는, LPC 복호기(201)로부터 입력한 양자화 LPC를 이용하여 잡음 부호 리스트(203) 및 후처리기(211)의 모드를 결정하여, 모드 정보 M을 잡음 부호 리스트(203) 및 후처리기(211)에 각각 출력한다. 또, 모드 선택기(202)는 과거에 입력한 양자화 LPC의 정보도 축적하고 있고, 프레임간에 있어서의 양자화 LPC의 변동의 특징과 현 프레임에 있어서의 양자화 LPC의 특징의 쌍방을 이용하여 모드의 선택을 실행한다. 이 모드는 적어도 2종류 이상이고, 예컨대 유성 음성부에 대응하는 모드와 무성 음성부에 대응하는 모드와 정상 잡음부 등에 대응하는 모드로 이루어진다. 또한, 모드의 선택에 이용하는 정보는 양자화 LPC 그 자체일 필요는 없고, 양자화 LSP나 반사 계수나 선형 예측 잔차 파워 등의 파라미터로 변환한 것을 이용한 방법이 효과적이다.
잡음 부호 리스트(203)는, 미리 정해진 개수의 형상이 상이한 잡음 부호 벡터가 저장되어 있고, 입력한 부호 S를 복호하여 얻어지는 잡음 부호 리스트 인덱스에 의해서 지정되는 잡음 부호 벡터를 출력한다. 또한, 이 잡음 부호 리스트(203)는 적어도 2종류 이상의 모드를 갖고 있고, 예컨대 유성 음성부에 대응하는 모드에서는 보다 펄스적인 잡음 부호 벡터를 생성하고, 무성 음성부나 정상 잡음부 등에대응하는 모드에서는 보다 잡음적인 잡음 부호 벡터를 생성하는 구조로 되어 있다. 잡음 부호 리스트(203)로부터 출력되는 잡음 부호 벡터는 상기 2종류 이상의 모드 중 모드 선택기(202)에서 선택된 하나의 모드로부터 생성되어, 승산기(206)에서 잡음 부호 리스트 이득 Gs가 곱해진 후에 가산기(208)에 출력된다.
적응 부호 리스트(204)는, 과거에 생성한 구동 음원 신호를 차차 갱신하면서 버퍼링하고 있어, 입력한 부호 P를 복호하여 얻어지는 적응 부호 리스트 인덱스(피치 주기(피치 래그))를 이용하여 적응 부호 벡터를 생성한다. 적응 부호 리스트(204)에서 생성된 적응 부호 벡터는 승산기(207)에서 적응 부호 리스트 이득 Ga가 곱해진 후에 가산기(208)에 출력된다.
이득 부호 리스트(205)는, 적응 부호 리스트 이득 Ga와 잡음 부호 리스트 이득 Gs의 세트(이득 벡터)를 미리 정해진 개수만큼 저장하고 있어, 입력한 부호 G를 복호하여 얻어지는 이득 부호 리스트 인덱스에 의해서 지정되는 이득 벡터의 적응 부호 리스트 이득 성분 Ga를 승산기(207)에, 잡음 부호 리스트 이득 성분 Gs를 승산기(206)에 각각 출력한다.
가산기(208)는, 승산기(206 및 207)로부터 입력되는 잡음 부호 벡터와 적응 부호 벡터의 가산을 실행하여 구동 음원 신호를 생성하고, 합성 필터(209) 및 적응 부호 리스트(204)에 출력한다.
합성 필터(209)는, LPC 복호기(201)로부터 입력한 양자화 LPC를 이용하여 LPC 합성 필터를 구축한다. 이 합성 필터에 대하여 가산기(208)로부터 출력되는 구동 음원 신호를 입력으로서 필터 처리를 실행하여 합성 신호를 후치 필터(210)에출력한다.
후치 필터(210)는, 합성 필터(209)로부터 입력한 합성 신호에 대하여, 피치강조, 특성 주파수 영역 강조, 스펙트럼 경사 보정, 이득 조정 등의 음성 신호의 주관적 품질을 개선시키기 위한 처리를 실행하여, 후처리기(211)에 출력한다.
후처리기(211)는, 후치 필터(210)로부터 입력한 신호에 대하여, 진폭 스펙트럼의 프레임간 평활화 처리, 위상 스펙트럼의 랜덤화 처리 등의 정상 잡음부의 주관 품질을 개선시키기 위한 처리를, 모드 선택기(202)로부터 입력되는 모드 정보 M을 이용하여 적응적으로 실행한다. 예컨대, 유성 음성부나 무성 음성부에 대응하는 모드에서는 상기 평활화 처리나 랜덤화 처리는 거의 실행하지 않고, 정상 잡음부 등에 대응하는 모드에서는 상기 평활화 처리나 랜덤화 처리를 적응적으로 실행한다. 후처리 후의 신호는 디지탈화된 복호 음성 신호 등의 출력 데이터로서 출력된다.
또, 본 실시예에 있어서는, 모드 선택기(202)로부터 출력되는 모드 정보 M은, 잡음 부호 리스트(203)의 모드 전환과 후처리기(211)의 모드 전환의 쌍방으로 이용되는 구성으로 했지만, 어느 한쪽만의 모드 전환에 이용하더라도 효과를 얻을 수 있다. 이 경우, 어느 한쪽만이 멀티모드 처리로 된다.
다음에 도 4를 참조하여 상기 실시예에 있어서의 음성 복호화 방법의 처리 흐름을 나타낸다. 본 설명에 있어서는, 음성 부호화 처리를 미리 정해진 시간 길이의 처리 단위(프레임 : 시간 길이로 해서 수십밀리초 정도)마다 처리를 실행하여, 1 프레임을 다시 정수개의 짧은 처리 단위(서브 프레임)마다 처리를 실행하는예를 나타낸다.
ST(401)에 있어서, 적응 부호 리스트의 내용, 합성 필터 메모리, 출력 버퍼 등의 모든 메모리를 클리어한다.
다음에, ST(402)에 있어서, 부호화 데이터가 복호된다. 구체적으로는, 다중화되어 있는 수신 신호의 분리화나 비트 스트림화되어 있는 수신 신호를 양자화 LPC 계수와 적응 부호 벡터와 잡음 부호 벡터와 이득 정보를 각각 표현하는 부호로 각각 변환한다.
다음에, ST(403)에 있어서, LPC 계수를 복호한다. LPC 계수는, ST(402)에서 얻어진 양자화 LPC 계수를 표현하는 부호로부터, 실시예 1에 나타낸 LPC 계수의 양자화 방법의 역순서에 의해서 복호된다.
다음에, ST(404)에 있어서, ST(403)에서 복호된 LPC 계수를 이용하여 합성 필터가 구축된다.
다음에, ST(405)에 있어서, ST(403)에서 복호된 LPC 계수의 정적 및 동적 특징을 이용하여, 잡음 부호 리스트 및 후처리의 모드 선택이 실행된다. 구체적으로는, 양자화 LSP의 변동이나 양자화 LPC 계수로부터 산출되는 반사 계수나 예측 잔차 파워 등을 이용한다. 본 단계에 있어서 선택된 모드에 따라서 잡음 부호 리스트의 복호 및 후처리가 실행된다. 이 모드는 적어도 2종류 이상이고, 예컨대 유성 음성부에 대응하는 모드와 무성 음성부에 대응하는 모드와 정상 잡음부 등에 대응하는 모드로 이루어진다.
다음에, ST(406)에 있어서, 적응 부호 벡터가 복호된다. 적응 부호 벡터는,적응 부호 벡터를 표현하는 부호로부터 적응 부호 벡터를 적응 부호 리스트로부터 페치하는 위치를 복호하여 그 위치로부터 적응 부호 벡터를 페치하는 것에 의해, 복호된다.
다음에, ST(407)에 있어서, 잡음 부호 벡터가 복호된다. 잡음 부호 벡터는, 잡음 부호 벡터를 표현하는 부호로부터 잡음 부호 리스트 인덱스를 복호하여 그 인덱스에 대응하는 잡음 부호 벡터를 잡음 부호 리스트로부터 취출하는 것에 의해, 복호된다. 잡음 부호 벡터의 피치 주기화 등을 적용할 때는, 또한 피치 주기화 등을 행한 후의 것이 복호 잡음 부호 벡터로 된다. 또한, 이 잡음 부호 리스트는 적어도 2종류 이상의 모드를 갖고 있고, 예컨대 유성 음성부에 대응하는 모드에서는 보다 펄스적인 잡음 부호 벡터를 생성하고, 무성 음성부나 정상 잡음부 등에 대응하는 모드에서는 보다 잡음적인 잡음 부호 벡터를 생성하게 되어 있다.
다음에, ST(408)에 있어서, 적응 부호 리스트 이득과 잡음 부호 리스트 이득이 복호된다. 이득 정보를 나타내는 부호로부터 이득 부호 리스트 인덱스를 복호하여 이 인덱스로 표시되는 적응 부호 리스트 이득과 잡음 부호 리스트 이득의 세트를 이득 부호 리스트 중에서 취출하는 것에 의해, 이득 정보가 복호된다.
다음에, ST(409)에 있어서, 구동 음원 신호가 생성된다. 구동 음원 신호는, ST(406)에서 선택된 적응 부호 벡터에 ST(408)에서 선택된 적응 부호 리스트 이득을 곱한 벡터와, ST(407)에서 선택된 잡음 부호 벡터에 ST(408)에서 선택된 잡음 부호 리스트 이득을 곱한 벡터를 가산하여 생성된다.
다음에, ST(410)에 있어서, 복호 신호가 합성된다. ST(409)에서 생성된 구동 음원 신호를, ST(404)에서 구축된 합성 필터에서 필터링함으로써, 복호 신호가 합성된다.
다음에, ST(411)에 있어서, 복호 신호에 대하여 후치 필터 처리가 실행된다. 후치 필터 처리는, 피치 강조 처리나 특성 주파수 영역 강조 처리나 스펙트럼 경사 보정 처리나 이득 조정 처리 등의 복호 신호, 특히 복호 음성 신호의 주관적 품질을 개선하기 위한 처리로 이루어져 있다.
다음에, ST(412)에 있어서, 후치 필터 처리 후의 복호 신호에 대하여 최종적인 후처리가 실행된다. 이 후처리는, 주로 진폭 스펙트럼의 (서브) 프레임간 평활화 처리나 위상 스펙트럼의 랜덤화 처리 등의 복호 신호에 있어서의 정상 잡음 부분의 주관적 품질을 개선하기 위한 처리로 이루어져 있고, ST(405)에서 선택된 모드에 대응한 처리를 실행한다. 예를 들어, 유성 음성부나 무성 음성부에 대응하는 모드에서는 상기 평활화 처리나 랜덤화 처리는 거의 실행되지 않고, 정상 잡음부 등에 대응하는 모드에서는 상기 평활화 처리나 랜덤화 처리가 적응적으로 실행되게 되어 있다. 본 단계에서 생성되는 신호가 출력 데이터로 된다.
다음에, ST(413)에 있어서, 서브 프레임 처리의 루프에서 이용되는 메모리의 갱신이 실행된다. 구체적으로는, 적응 부호 리스트의 갱신이나 후치 필터 처리에 포함되는 각 필터의 상태 갱신 등이 실행된다.
상기 ST(404∼413)는 서브 프레임 단위의 처리이다.
다음에, ST(414)에 있어서, 프레임 처리의 루프에서 이용되는 메모리의 갱신이 실행된다. 구체적으로는, 양자화(복호) LPC 계수 버퍼의 갱신(LPC의 프레임간예측 양자화를 실행하고 있는 경우)이나 출력 데이터 버퍼의 갱신 등이 실행된다.
상기 ST(402∼403 및 414)은 프레임 단위의 처리이다. 또한, 프레임 단위의 처리는 부호화 데이터가 없어질 때까지 반복하여 실행된다.
(실시예 3)
도 5는 실시예 1의 음성 부호화 장치 또는 실시예 2의 음성 복호화 장치를 구비한 음성 신호 송신기 및 수신기를 나타낸 블럭도이다. 도 5a는 송신기, 도 5b는 수신기를 나타낸다.
도 5a의 음성 신호 송신기에서는, 음성이 음성 입력 장치(501)에 의해서 전기적 아날로그 신호로 변환되어, A/D 변환기(502)에 출력된다. 아날로그 음성 신호는 A/D 변환기(502)에 의해서 디지털 음성 신호로 변환되어, 음성 부호화기(503)에 출력된다. 음성 부호화기(503)는 음성 부호화 처리를 실행하여, 부호화한 정보를 RF 변조기(504)에 출력한다. RF 변조기는 부호화된 음성 신호의 정보를 변조·증폭·부호 확산 등의 전파로서 송출하기 위한 조작을 실행하여, 송신 안테나(505)에 출력한다. 마지막으로 송신 안테나(505)로부터 전파(RF 신호)(506)가 송출된다.
한편, 도 5b의 수신기에 있어서는, 전파(RF 신호)(506)를 수신 안테나(507)에서 수신하며, 수신 신호는 RF 복조기(508)에 보내어진다. RF 복조기(508)는 부호 역확산·복조 등 전파 신호를 부호화 정보로 변환하기 위한 처리를 실행하여, 부호화 정보를 음성 복호화기(509)에 출력한다. 음성 복호화기(509)는, 부호화 정보의 복호 처리를 실행하여 디지털 복호 음성 신호를 D/A 변환기(510)에 출력한다. D/A 변환기(510)는 음성 복호화기(509)로부터 출력된 디지털 복호 음성 신호를 아날로그 복호 음성 신호로 변환하여 음성 출력 장치(511)에 출력한다. 마지막으로 음성 출력 장치(511)가 전기적 아날로그 복호 음성 신호를 복호 음성으로 변환하여 출력한다.
상기 송신 장치 및 수신 장치는 휴대 전화 등의 이동 통신 기기의 이동기 또는 기지국 장치로서 이용하는 것이 가능하다. 또, 정보를 전송하는 매체는 본 실시예에서 나타내었던 전파에 한하지 않고, 광 신호 등을 이용하는 것도 가능하고, 또한 유선의 전송로를 사용하는 것도 가능하다.
또, 상기 실시예 1에 나타낸 음성 부호화 장치 및 상기 실시예 2에 나타낸 음성 복호화 장치 및 상기 실시예 3에 나타낸 송신 장치 및 송수신 장치는, 자기 디스크, 광 자기 디스크, ROM 카트리지 등의 기록 매체에 소프트웨어로서 기록하여 실현하는 것도 가능하고, 그 기록 매체를 사용하는 것에 의해, 이러한 기록 매체를 사용하는 퍼스널 컴퓨터 등에 의해 음성 부호화 장치/복호화 장치 및 송신 장치/수신 장치를 실현할 수 있다.
(실시예 4)
실시예 4는, 상술한 실시예 1, 2에 있어서의 모드 선택기(105, 202)의 구성 예를 나타낸 예이다.
도 6에 실시예 4에 관한 모드 선택기의 구성을 나타낸다.
본 실시예에 관한 모드 선택기는, 양자화 LSP 파라미터의 동적 특징을 추출하는 동적 특징 추출부(601)와, 양자화 LSP 파라미터의 정적 특징을 추출하는 제 1, 제 2 정적 특징 추출부(602, 603)를 구비한다.
동적 특징 추출부(601)는, AR형 평활화부(604)에 양자화 LSP 파라미터를 입력하여 평활화 처리를 실행한다. AR형 평활화부(604)에서는, 처리 단위 시간마다 입력되는 각 다음 양자화 LSP 파라미터를 시계열 데이터로서 수학식 (1)에 나타내는 평활화 처리를 실행한다.
Ls[i] : i차의 평활화 양자화 LSP 파라미터
L[i]: i차의 양자화 LSP 파라미터
α: 평활화 계수
M : LSP 분석 차수
또한, 수학식 (1)식에 있어서, α의 값은 0.7 정도로 설정하여, 각각 강한 평활화가 되지 않도록 한다. 상기 수학식 (1)에서 구한 평활화한 양자화 LSP 파라미터는 지연부(605)를 경유하여 가산기(606)에 입력되는 것과 직접 가산기(606)에 입력되는 것으로 분기된다.
지연부(605)는, 입력한 평활화한 양자화 LSP 파라미터를 1 처리 단위 시간만큼 지연시켜 가산기(606)에 출력한다.
가산기(606)는, 현재의 처리 단위 시간에 있어서의 평활화된 양자화 LSP 파라미터와 하나 이전의 처리 단위 시간에 있어서의 평활화된 양자화 LSP 파라미터가 입력된다. 이 가산기(606)에 있어서, 현재의 처리 단위 시간에 있어서의 평활화 양자화 LSP 파라미터와 하나 이전의 처리 단위 시간에 있어서의 평활화 양자화 LSP 파라미터의 차를 산출한다. 이 차는 LSP 파라미터의 각 차수마다 산출된다. 가산기(606)에 의한 산출 결과는 2 자승 산출부(607)에 출력한다.
2 자승 산출부(607)는, 현재의 처리 단위 시간에 있어서의 평활화된 양자화 LSP 파라미터와 하나 이전의 처리 단위 시간에 있어서의 평활화된 양자화 LSP 파라미터의 차수마다의 차의 2 자승을 계산한다.
동적 특징 추출부(601)에서는, AR형 평활화부(604)와 병렬로 지연부(608)에도 양자화 LSP 파라미터를 입력하고 있다. 지연부(608)에서는, 1 처리 단위 시간만큼 지연시켜, 스위치(609)를 거쳐서 AR형 평균치 산출부(611)에 출력한다.
스위치(609)는, 지연부(610)로부터 출력되는 모드 정보가 잡음 모드였던 경우에 닫히고, 지연부(608)로부터 출력되는 양자화 LSP 파라미터를 AR형 평균치 산출부(611)에 입력하도록 동작한다.
지연부(610)는, 모드 판정부(621)로부터 출력되는 모드 정보를 입력하여, 1 처리 단위 시간만큼 지연시켜, 스위치(609)에 출력한다.
AR형 평균치 산출부(611)는, AR형 평활화부(604)와 마찬가지로 수학식 (1)에 근거하여 잡음 구간에 있어서의 평균적 LSP 파라미터를 산출하여, 가산기(612)에 출력한다. 단, 수학식 (1)에 있어서의 α의 값은, 0.05 정도로 하여, 지극히 강한 평활화 처리를 실행하는 것에 의해, LSP 파라미터의 장시간 평균을 산출한다.
가산기(612)는, 현재의 처리 단위 시간에 있어서의 양자화 LSP 파라미터와, AR형 평균치 산출부(611)에 의해서 산출된 잡음 구간에 있어서의 평균적 양자화 LSP 파라미터의 차를 각 차수마다 산출하여, 2 자승 산출부(613)에 출력한다.
2 자승 산출부(613)는, 가산기(612)로부터 출력된 양자화 LSP 파라미터의 차분 정보를 입력하고, 각 차수의 2 자승을 산출하여, 음성 구간 검출부(619)에 출력한다.
이상의 (604)로부터 (613)까지의 요소에 의해서, 양자화 LSP 파라미터의 동적 특징 추출부(601)가 구성된다.
제 1 정적 특징 추출부(602)는, 선형 예측 잔차 파워 산출부(614)에 있어서 양자화 LSP 파라미터로부터 선형 예측 잔차 파워를 산출한다. 또한, 인접 LSP 간격 산출부(615)에 있어서, 수학식 (2)에 도시하는 바와 같이 양자화 LSP 파라미터의 인접하는 차수마다 간격을 산출한다.
L[i]: i차의 양자화 LSP 파라미터
인접 LSP 간격 산출부(615)의 산출값은 분산값 산출부(616)에 인가된다. 분산값 산출부(616)는, 인접 LSP 간격 산출부(615)로부터 출력된 양자화 LSP 파라미터 간격의 분산값을 산출한다. 분산값을 산출할 때, 모든 LSP 파라미터 간격 데이터를 이용하지 않고서, 저역단(Ld[1])의 데이터를 제외하는 것에 의해, 최저역 이외의 부분에 존재하는 스펙트럼의 산골짜기의 특징을 반영할 수 있다. 저역이 상승하고 있는 특성을 갖는 정상 잡음에 대하여, 고역 통과 필터를 통과시킨 경우, 필터의 차단 주파수 부근에 스펙트럼의 산이 항상 있을 수 있기 때문에, 이러한 스펙트럼의 산의 정보를 제거하는 효과가 있다. 즉, 입력 신호의 스펙트럼 포락의 산골짜기의 특징을 추출할 수 있어, 음성 구간일 가능성이 높은 구간을 검출하기 위한 정적 특징을 추출할 수 있다. 또한, 이 구성에 의하면, 정밀도 양호하게 음성 구간과 정상 잡음 구간의 분할을 실행할 수 있다.
이상의 (614, 615, 616)의 요소에 의해서, 양자화 LSP 파라미터의 제 1 정적 특징 추출부(602)가 구성된다.
또한, 제 2 정적 특징 추출부(603)에서는, 반사 계수 산출부(617)가 양자화 LSP 파라미터를 반사 계수로 변환하여, 유성/무성 판정부(620)에 출력한다. 이와 동시에 선형 예측 잔차 파워 산출부(618)가, 양자화 LSP 파라미터로부터 선형 예측잔차 파워를 산출하여, 유성/무성 판정부(620)에 출력한다.
또한, 선형 예측 잔차 파워 산출부(618)는, 선형 예측 잔차 파워 산출부(614)와 동일한 것이기 때문에, (614)와 (618)은 공용시키는 것이 가능하다.
이상의 (617)과 (618)의 요소에 의해서, 양자화 LSP 파라미터의 제 2 정적 특징 추출부(603)가 구성된다.
동적 특징 추출부(601) 및 제 1 정적 특징 추출부(602)의 출력은 음성 구간 검출부(619)에 인가된다. 음성 구간 검출부(619)는, 2 자승 산출부(607)로부터 평활화 양자화 LSP 파라미터의 변동량을 입력하여, 2 자승 산출부(613)로부터 잡음 구간의 평균적 양자화 LSP 파라미터와 현재의 양자화 LSP 파라미터의 거리를 입력하고, 선형 예측 잔차 파워 산출부(614)로부터 양자화 선형 예측 잔차 파워를 입력하며, 분산값 산출부(616)로부터 인접 LSP 간격 데이터의 분산 정보를 입력한다. 그리고, 이들 정보를 이용하여, 현재의 처리 단위 시간에 있어서의 입력 신호(또는 복호 신호)가 음성 구간인지 여부의 판정을 실행하여, 판정 결과를 모드 판정부(621)에 출력한다. 보다 구체적인 음성 구간인지 여부의 판정 방법은, 도 8을 이용하여 후술한다.
한편, 제 2 정적 특징 추출부(603)의 출력은 유성/무성 판정부(620)에 인가된다. 유성/무성 판정부(620)는, 반사 계수 산출부(617)로부터 입력한 반사 계수와, 선형 예측 잔차 파워 산출부(618)로부터 입력한 양자화 선형 예측 잔차 파워를 각각 입력한다. 그리고, 이들 정보를 이용하여, 현재의 처리 단위 시간에 있어서의 입력 신호(또는 복호 신호)가 유성 구간인지 무성 구간인지의 판정을 실행하여, 판정 결과를 모드 판정부(621)에 출력한다. 보다 구체적인 유음/무음 판정 방법은, 도 9를 이용하여 후술한다.
모드 판정부(621)는, 음성 구간 검출부(619)로부터 출력되는 판정 결과와, 유성/무성 판정부(620)로부터 출력되는 판정 결과를 각각 입력하고, 이들 정보를 이용하여 현재의 처리 단위 시간에 있어서의 입력 신호(또는 복호 신호)의 모드를 결정하여 출력한다. 보다 구체적인 모드의 분류 방법은 도 10을 이용하여 후술한다.
또, 본 실시예에 있어서는, 평활화부나 평균치 산출부에 AR형의 것을 이용했지만, 그 이외의 방법을 이용하여 평활화나 평균치 산출을 실행하는 것도 가능하다.
다음에, 도 8을 참조하여, 상기 실시예에 있어서의 음성 구간 판정 방법의 상세에 대하여 설명한다.
우선, ST(801)에 있어서, 제 1 동적 파라미터(Para1)를 산출한다. 제 1 동적 파라미터의 구체적 내용은, 처리 단위 시간마다의 양자화 LSP 파라미터의 변동량이며,
수학식 (3)에 표시되는 것이다.
LSi(t) : 시각 t에 있어서의 평활화 양자화 LSP
다음에, ST(802)에 있어서, 제 1 동적 파라미터가 미리 정해져 있는 임계값 Th1보다 큰 지의 여부를 체크한다. 임계 Th1을 초과하고 있는 경우는, 양자화 LSP 파라미터의 변동량이 크기 때문에, 음성 구간으로 판정한다. 한편, 임계값 Th1 이하의 경우는, 양자화 LSP 파라미터의 변동량이 작기 때문에, ST(803)로 진행하여, 별도의 파라미터를 이용한 판정 처리의 ST로 진행해 간다.
ST(802)에 있어서, 제 1 동적 파라미터가 임계값 Th1 이하의 경우는, ST(803)로 진행하여, 과거에 어느만큼 정상 잡음 구간으로 판정되었는지를 나타내는 카운터의 수를 체크한다. 카운터는 초기값이 0으로, 본 모드 판정 방법에 의해서 정상 잡음 구간으로 판정된 처리 단위 시간마다 1씩 증분된다. ST(803)에 있어서, 카운터의 수가, 미리 설정되어 있는 임계값 ThC 이하의 경우는, ST(804)로 진행하여, 정적 파라미터를 이용하여 음성 구간인지 여부의 판정을 실행한다. 한편, 임계값 ThC를 초과하고 있는 경우는, ST(806)로 진행하여, 제 2 동적 파라미터를 이용하여 음성 구간인지 여부의 판정을 실행한다.
ST(804)에서는 2종류의 파라미터를 산출한다. 1개는 양자화 LSP 파라미터로부터 산출되는 선형 예측 잔차 파워이며(Para3), 이미 1개는 양자화 LSP 파라미터의 인접 차수의 차분 정보의 분산이다(Para4). 선형 예측 잔차 파워는, 양자화 LSP 파라미터를 선형 예측 계수로 변환하여, 레빈슨-더빈(Levinson-Durbin)의 알고리즘인 관계식을 이용하는 것에 의해, 구할 수 있다. 선형 예측 잔차 파워는 유성부보다 무성부 쪽이 커지는 경향이 알려져 있기 때문에, 유성/무성의 판정 기준으로서 이용할 수 있다. 양자화 LSP 파라미터의 인접 차수의 차분 정보는 수학식(2)에 나타낸 것으로, 이들의 데이터 분산을 요구한다. 단, 잡음의 종류나 대역 제한이 걸리는 것에 의해서는, 저역에 스펙트럼의 산(피크)이 존재하기 때문에, 저역단의 인접 차수의 차분 정보(수학식 (2)에서, i = 1)는 이용하지 않고서, 수학식 (2)에서, i = 2 내지 M-1(M은 분석 차수)까지의 데이터를 이용하여 분산을 구하는 쪽이 좋다. 음성 신호에 있어서는, 전화 대역(200Hz∼3.4kHz)내에 3개 정도의 특성 주파수 영역을 가지기 때문에, LSP의 간격이 좁은 부분과 넓은 부분이 얼마간 있고, 간격의 데이터 분산이 커지는 경향이 있다. 한편, 정상 노이즈에서는, 특성 주파수 영역 구조를 가지지 않기 때문에, LSP의 간격은 비교적 등간격인 것이 많고, 상기 분산은 작아지는 경향이 있다. 이 성질을 이용하여, 음성 구간인지 여부의 판정을 실행하는 것이 가능하다. 단, 전술한 바와 같이 잡음의 종류 등에 따라서는, 저역에 스펙트럼의 산(피크)을 갖는 경우가 있고, 이러한 경우는 가장 저역측의 LSP 간격이 좁게 되기 때문에, 모든 인접 LSP 차분 데이터를 이용하여 분산을 구하면, 특성 주파수 영역 구조의 유무에 의한 차가 작아져서, 판정 정밀도가 낮게 된다. 따라서, 저역단의 인접 LSP 차분 정보를 제외하고 분산을 구하는 것에 의해, 이러한 정밀도 열화를 회피한다. 단, 이러한 정적 파라미터는, 동적 파라미터에 비교하면 판정 능력이 낮기 때문에, 보조적인 정보로서 이용하는 것이 좋다. ST(804)에서 산출된 2종류의 파라미터는 ST(805)에서 이용된다.
다음에, ST(805)에 있어서, ST(804)에서 산출된 2종류의 파라미터를 이용한 임계값 처리가 실행된다. 구체적으로는 선형 예측 잔차 파워(Para3)가 임계값 Th3보다 작고, 또한, 인접 LSP 간격 데이터의 분산(Para4)이 임계값 Th4보다 큰 경우에, 음성 구간으로 판정한다. 그 이외의 경우는, 정상 잡음 구간(비음성 구간)으로 판정한다. 정상 잡음 구간으로 판정된 경우는, 카운터의 값을 1 늘린다.
ST(806)에 있어서는, 제 2 동적 파라미터(Para2)가 산출된다. 제 2 동적 파라미터는 과거의 정상 잡음 구간에 있어서의 평균적인 양자화 LSP 파라미터와 현재의 처리 단위 시간에 있어서의 양자화 LSP 파라미터의 유사도를 나타내는 파라미터이며, 구체적으로는 수학식 (4)에 도시한 바와 같이, 상기 2종류의 양자화 LSP 파라미터를 이용하여 각 차수마다 차분값을 구하여, 2 자승을 구한 것이다. 구해진 제 2 동적 파라미터는, ST(807)에서 임계값 처리에 이용된다.
Li(t) : 시각 t에 있어서의 양자화 LSP
LAi : 잡음 구간의 평균 양자화 LSP
다음에, ST(807)에 있어서, 제 2 동적 파라미터가 임계값 Th2을 초과하고 있는지 여부의 판정이 실행된다. 임계값 Th2을 초과하면, 과거의 정상 잡음 구간에 있어서의 평균적인 양자화 LSP 파라미터의 유사도가 낮기 때문에, 음성 구간으로 판정하고, 임계값 Th2 이하이면, 과거의 정상 잡음 구간에 있어서의 평균적인 양자화 LSP 파라미터의 유사도가 높기 때문에, 정상 잡음 구간으로 판정한다. 정상 잡음 구간으로 판정된 경우는, 카운터의 값을 1 늘린다.
다음에, 도 9를 참조하여 상기 실시예에 있어서의 유성 무성 구간 판정 방법의 상세에 대하여 설명한다.
우선, ST(901)에서, 현재의 처리 단위 시간에 있어서의 양자화 LSP 파라미터로부터 1차의 반사 계수를 산출한다. 반사 계수는, LSP 파라미터를 선형 예측 계수로 변환하여 산출된다.
다음에, ST(902)에 있어서, 상기 반사 계수가 제 1 임계값 Th1을 초과하고 있는지 여부의 판정이 실행된다. 임계값 Th1을 초과하고 있으면, 현재의 처리 단위 시간은 무성 구간으로 판정하여 유성 무성 판정 처리를 종료하고, 임계값 Th1 이하이면, 또한 유성 무성 판정의 처리를 계속한다.
ST(902)에 있어서 무성으로 판정되지 않은 경우는, ST(903)에 있어서, 상기 반사 계수가 제 2 임계값 Th2을 초과하고 있는지 여부의 판정이 실행한다. 임계값 Th2을 초과하고 있으면, ST(905)로 진행하고, 임계값 Th2 이하이면, ST(904)로 진행한다.
ST(903)에 있어서, 상기 반사 계수가 제 2 임계값 Th2 이하이었던 경우는, ST(904)에 있어서, 상기 반사 계수가 제 3 임계값 Th3을 초과하고 있는지 여부의 판정이 실행된다. 임계값 Th3을 초과하고 있으면, ST(907)로 진행하고, 임계값 Th3 이하이면, 유성 구간으로 판정하여 유성 무성 판정 처리를 종료한다.
ST(903)에 있어서, 상기 반사 계수가 제 2 임계값 Th2을 초과하는 경우는, ST(905)에 있어서, 선형 예측 잔차 파워가 산출된다. 선형 예측 잔차 파워는, 양자화 LSP를 선형 예측 계수로 변환하고 나서 산출된다.
ST(905)에 이어서, ST(906)에 있어서, 상기 선형 예측 잔차 파워가 임계값 Th4을 초과하고 있는지 여부의 판정이 실행된다. 임계값 Th4을 초과하고 있으면, 무성 구간으로 판정하여 유성 무성 판정 처리를 종료하고, 임계값 Th4 이하이면, 유성 구간으로 판정하여 유성 무성 판정 처리를 종료한다.
ST(904)에 있어서, 상기 반사 계수가 제 3 임계값 Th3을 초과한 경우는, ST(907)에 있어서, 선형 예측 잔차 파워가 산출된다.
ST(907)에 이어서, ST(908)에 있어서, 상기 선형 예측 잔차 파워가 임계값 Th5을 초과하고 있는지 여부의 판정이 실행된다. 임계값 Th5를 초과하고 있으면, 무성 구간으로 판정하여 유성 무성 판정 처리를 종료하고, 임계값 Th5 이하이면,유성 구간으로 판정하여 유성 무성 판정 처리를 종료한다.
다음에 도 10을 참조하여, 모드 판정부(621)에 이용된다. 모드 판정 방법에 대하여 설명한다.
우선, ST(1001)에 있어서, 음성 구간 검출 결과가 입력되는, 본 단계는 음성 구간 검출 처리를 실행하는 블록 그 자체이더라도 무방하다.
다음에, ST(1002)에 있어서, 음성 구간인지 여부의 판정 결과에 근거하여 정상 잡음 모드라고 판정하는지의 여부가 결정된다. 음성 구간인 경우는, ST(1003)로 진행하여, 음성 구간이 아닌(정상 잡음 구간임) 경우에는, 정상 잡음 모드라고 하는 모드 판정 결과를 출력하여, 모드 판정 처리를 종료한다.
ST(1002)에 있어서, 정상 잡음 구간 모드가 아니다라고 판정된 경우는, 계속해서 ST(1003)에 있어서, 유성 무성 판정 결과의 입력을 실행한다. 본 단계는 유성 무성 판정 처리를 실행하는 블록 그 자체이더라도 무방하다.
ST(1003)에 이어서, ST(1004)에 있어서, 유성 무성 판정 결과에 근거하여 유성 구간 모드인지, 무성 구간 모드인지의 모드 판정이 실행된다. 유성 구간인 경우에는, 유성 구간 모드라고 하는 모드 판정 결과를 출력하여 모드 판정 처리를 종료하고, 무성 구간인 경우에는, 무성 구간 모드라고 하는 모드 판정 결과를 출력하여 모드 판정 처리를 종료한다. 이상과 같이, 음성 구간 검출 결과와 유성 무성 판정 결과를 이용하여, 현재의 처리 단위 블럭에 있어서의 입력 신호(또는 복호 신호)의 모드를 3개의 모드로 분류한다.
(실시예 5)
도 7은, 본 발명의 실시예 5에 관한 후처리기의 구성을 나타내는 블럭도이다. 본 후처리기는, 실시예 4에 나타낸 모드 판정기와 조합하여, 실시예 2에 나타낸 음성 신호 복호 장치에서 사용하는 것이다. 도 7에 나타내는 후처리기는, 모드 전환 스위치(705, 708, 707, 711), 진폭 스펙트럼 평활화부(706), 위상 스펙트럼 랜덤화부(709, 710), 임계값 설정부(703, 716)를 각각 구비한다.
가중치 합성 필터(701)는, 상기 음성 복호 장치의 LPC 복호기(201)로부터 출력되는 복호 LPC를 입력하여 청각 가중치 합성 필터를 구축하고, 상기 음성 복호 장치의 합성 필터(209) 또는 후치 필터(210)로부터 출력되는 합성 음성 신호에 대하여 가중치 필터 처리를 실행하여, FFT 처리부(702)에 출력한다.
FFT 처리부(702)는, 가중치 합성 필터(701)로부터 출력된 가중치 처리 후의 복호 신호의 FFT 처리를 실행하여, 진폭 스펙트럼 WSAi를 제 1 임계값 설정부(703)와 제 1 진폭 스펙트럼 평활화부(706)와 제 1 위상 스펙트럼 랜덤화부(709)에, 각각 출력한다.
제 1 임계값 설정부(703)는, FFT 처리부(702)에서 산출된 진폭 스펙트럼의 평균치를 전체 주파수 성분을 이용하여 산출하고, 이 평균치를 기준으로 하여 임계값 Th1을, 제 1 진폭 스펙트럼 평활화부(706)와 제 1 위상 스펙트럼 랜덤화부(709)에, 각각 출력한다.
FFT 처리부(704)는, 상기 음성 복호 장치의 합성 필터(209) 또는 후치 필터(210)로부터 출력되는 합성 음성 신호의 FFT 처리를 실행하여, 진폭 스펙트럼을, 모드 전환 스위치(705, 712), 가산기(715), 제 2 위상 스펙트럼 랜덤화부(710)에, 위상 스펙트럼을, 모드 전환 스위치(708)에, 각각 출력한다.
모드 전환 스위치(705)는, 상기 음성 복호 장치의 모드 선택기(202)로부터 출력되는 모드 정보(Mode)와, 상기 가산기(715)로부터 출력되는 차분 정보(Diff)를 입력하고, 현재의 처리 단위 시간에 있어서의 복호 신호가 음성 구간인지 정상 잡음 구간인지의 판정을 실행하여, 음성 구간으로 판정한 경우는, 모드 전환 스위치(707)에 접속하고, 정상 잡음 구간으로 판정한 경우는, 제 1 진폭 스펙트럼 평활화부(706)에 접속한다.
제 1 진폭 스펙트럼 평활화부(706)는, 모드 전환 스위치(705)를 거쳐서, FFT 처리부(704)로부터 진폭 스펙트럼 SAi를 입력하고, 별도 입력한 제 1 임계값 Th1와 가중치 진폭 스펙트럼 WSAi에 의해서 결정되는 주파수 성분에 대하여 평활화 처리를 실행하여, 모드 전환 스위치(707)에 출력한다. 평활화하는 주파수 성분의 결정 방법은, 가중치 진폭 스펙트럼 WSAi가 제 1 임계값 Th1 이하인지 여부에 의해서, 결정된다. 즉, WSAi가 Th1 이하인 주파수 성분 i에 대해서만 진폭 스펙트럼 SAi의 평활화 처리가 실행된다. 이 평활화 처리에 의해서, 정상 잡음 구간에 있어서의, 부호화 왜곡에 기인하는 진폭 스펙트럼의 시간적 불연속성이 완화된다. 이 평활화 처리를, 예컨대 수학식 (1)과 같은 AR형으로 행한 경우의 계수 α는, FFT 점수 128점, 처리 단위 시간 10ms의 경우에, O.1 정도로 설정할 수 있다.
모드 전환 스위치(707)는, 모드 전환 스위치(705)와 마찬가지로 해서, 상기 음성 복호 장치의 모드 선택기(202)로부터 출력되는 모드 정보(Mode)와, 상기 가산기(715)로부터 출력되는 차분 정보(Diff)를 입력하고, 현재의 처리 단위 시간에 있어서의 복호 신호가 음성 구간인지 정상 잡음 구간인지의 판정을 실행하여, 음성 구간으로 판정한 경우는, 모드 전환 스위치(705)에 접속하고, 정상 잡음 구간으로 판정한 경우는, 제 1 진폭 스펙트럼 평활화부(706)에 접속한다. 상기 판정 결과는, 모드 전환 스위치(705)의 판정 결과와 동일하다. 모드 전환 스위치(707)의 다른쪽 단부는 IFFT 처리부(720)에 접속된다.
모드 전환 스위치(708)는, 모드 전환 스위치(705)와 연동하여 전환되는 스위치이며, 상기 음성 복호 장치의 모드 선택기(202)로부터 출력되는 모드 정보(Mode)와, 상기 가산기(715)로부터 출력되는 차분 정보(Diff)를 입력하고, 현재의 처리 단위 시간에 있어서의 복호 신호가 음성 구간인지 정상 잡음 구간인지의 판정을 실행하여, 음성 구간으로 판정한 경우는, 제 2 위상 스펙트럼 랜덤화부(710)에 접속하고, 정상 잡음 구간으로 판정한 경우는, 제 1 위상 스펙트럼 랜덤화부(709)에 접속한다. 상기 판정 결과는, 모드 전환 스위치(705)의 판정 결과와 동일하다. 즉, 모드 전환 스위치(705)가 제 1 진폭 스펙트럼 평활화부(706)에 접속되어 있는 경우는, 모드 전환 스위치(708)는 제 1 위상 스펙트럼 랜덤화부(709)에 접속되어 있고, 모드 전환 스위치(705)가 모드 전환 스위치(707)에 접속되어 있는 경우는, 모드 전환 스위치(708)는 제 2 위상 스펙트럼 랜덤화부(710)에 접속되어 있다.
제 1 위상 랜덤화부(709)는, 모드 전환 스위치(708)를 거쳐서, FFT 처리부(704)로부터 출력되는 위상 스펙트럼 SPi를 입력하고, 별도 입력한 제 1 임계값 Th1과 가중치 진폭 스펙트럼 WSAi에 의해서 결정되는 주파수 성분에 대하여랜덤화 처리를 실행하여, 모드 전환 스위치(711)에 출력한다. 랜덤화하는 주파수 성분의 결정 방법은, 상기 제 1 진폭 스펙트럼의 평활화부(706)에 있어서 평활화를 실행하는 주파수 성분을 결정하는 방법과 동일하다. 즉, WSAi가 Th1 이하인 주파수 성분에 대해서만 위상 스펙트럼 SPi의 랜덤화 처리가 실행된다.
제 2 위상 스펙트럼 랜덤화부(710)는, 모드 전환 스위치(708)를 거쳐서, FFT 처리부(704)로부터 출력되는 위상 스펙트럼 SPi를 입력하고, 별도 입력한 제 2 임계값 Th2i와 진폭 스펙트럼 SAi에 의해서 결정되는 주파수 성분에 대하여 랜덤화 처리를 실행하여, 모드 전환 스위치(711)에 출력한다. 랜덤화하는 주파수 성분의 결정 방법은, 상기 제 1 위상 스펙트럼 랜덤화부(709)와 마찬가지이다. 즉, SAi가 Th2i 이하인 주파수 성분 i에 대해서만 위상 스펙트럼 SPi의 랜덤화 처리가 실행된다.
모드 전환 스위치(711)는, 모드 전환 스위치(707)와 연동하고 있어, 모드 전환 스위치(707)와 마찬가지로 하여, 상기 음성 복호 장치의 모드 선택기(202)로부터 출력되는 모드 정보(Mode)와, 상기 가산기(715)로부터 출력되는 차분 정보(Diff)를 입력하고, 현재의 처리 단위 시간에 있어서의 복호 신호가 음성 구간인지 정상 잡음 구간인지의 판정을 실행하여, 음성 구간으로 판정한 경우는, 제 2 위상 스펙트럼 랜덤화부(710)에 접속하고, 정상 잡음 구간으로 판정한 경우는, 제 1 위상 스펙트럼 랜덤화부(709)에 접속한다. 상기 판정 결과는, 모드 전환 스위치(708)의 판정 결과와 동일하다. 모드 전환 스위치(711)의 다른쪽 단부는 IFFT 처리부(720)에 접속되어 있다.
모드 전환 스위치(712)는, 모드 전환 스위치(705)와 마찬가지로 하여, 상기 음성 복호 장치의 모드 선택기(202)로부터 출력되는 모드 정보(Mode)와, 상기 가산기(715)로부터 출력되는 차분 정보(Diff)를 입력하고, 현재의 처리 단위 시간에 있어서의 복호 신호가 음성 구간인지 정상 잡음 구간인지의 판정을 실행하여, 음성 구간이 아니다(정상 잡음 구간임)라고 판정한 경우는, 스위치를 접속하고, 제 2 진폭 스펙트럼 평활화부(713)에, FFT 처리부(704)로부터 출력되는 진폭 스펙트럼 SAi를 출력한다. 음성 구간이라고 판정한 경우는, 모드 전환 스위치(712)는, 개방되어, 제 2 진폭 스펙트럼 평활화부(713)에, 진폭 스펙트럼 SAi는 출력되지 않는다.
제 2 진폭 스펙트럼 평활화부(713)는, 모드 전환 스위치(712)를 거쳐서, FFT 처리부(704)로부터 출력되는 진폭 스펙트럼 SAi를 입력하여, 전체 주위파수 대역 성분에 대하여 평활화 처리를 실행한다. 이 평활화 처리에 의해, 정상 잡음 구간에 있어서의 평균적인 진폭 스펙트럼을 얻을 수 있다. 이 평활화 처리는, 제 1 진폭 스펙트럼 평활화부(706)에서 실행되는 처리와 마찬가지이다. 또한, 모드 전환 스위치(712)가 개방되어 있는 때에는, 본 처리부에서 처리는 실행되지 않고, 마지막으로 처리가 실행하여졌을 때의 정상 잡음 구간의 평활화 진폭 스펙트럼 SSAi가 출력된다. 제 2 진폭 스펙트럼 평활화 처리부(713)에 의해서 평활화된 진폭 스펙트럼 SSAi는 지연부(714), 제 2 임계값 설정부(716), 모드 전환 스위치(718)에 각각 출력된다.
지연부(714)는, 제 2 진폭 스펙트럼 평활화부(713)로부터 출력되는 SSAi를 입력하여, 1 처리 단위 시간만큼 지연시켜, 가산기(715)에 출력한다.
가산기(715)는, 1 처리 단위 시간 이전의 정상 잡음 구간 평활화 진폭 스펙트럼 SSAi와 현재의 처리 단위 시간에 있어서의 진폭 스펙트럼 SAi의 거리 Diff를 산출하여, 모드 전환 스위치(705, 707, 708, 711, 712, 718, 719)에 각각 출력한다.
제 2 임계값 설정부(716)는, 제 2 진폭 스펙트럼 평활화부(713)로부터 출력되는, 정상 잡음 구간 평활화 진폭 스펙트럼 SSAi를 기준으로서 임계값 Th2i를 설정하여, 제 2 위상 스펙트럼 랜덤화부(710)에 출력한다.
랜덤 위상 스펙트럼 생성부(717)는, 랜덤하게 생성한 위상 스펙트럼을, 모드 전환 스위치(719)에 출력한다.
모드 전환 스위치(718)는, 모드 전환 스위치(712)와 마찬가지로 하여, 상기 음성 복호 장치의 모드 선택기(202)로부터 출력되는 모드 정보(Mode)와, 상기 가산기(715)로부터 출력되는 차분 정보(Diff)를 입력하고, 현재의 처리 단위 시간에 있어서의 복호 신호가 음성 구간인지 정상 잡음 구간인지의 판정을 실행하여, 음성 구간으로 판정한 경우는, 스위치를 접속하고, 제 2 진폭 스펙트럼 평활화부(713)의 출력을, IFFT 처리부(720)에 출력한다. 음성 구간이 아니다(정상 잡음 구간임)라고 판정한 경우는, 모드 전환 스위치(719)는, 개방되어, 제 2 진폭 스펙트럼 평활화부(713)의 출력은, IFFT 처리부(720)에 출력되지 않는다.
모드 전환 스위치(719)는, 모드 전환 스위치(718)와 연동하여 전환되고, 모드 전환 스위치(718)와 마찬가지로 하여, 상기 음성 복호 장치의 모드 선택기(202)로부터 출력되는 모드 정보(Mode)와, 상기 가산기(715)로부터 출력되는 차분정보(Diff)를 입력하고, 현재의 처리 단위 시간에 있어서의 복호 신호가 음성 구간인지 정상 잡음 구간인지의 판정을 실행하여, 음성 구간으로 판정한 경우는, 스위치를 접속하고, 랜덤 위상 생성부(717)의 출력을, IFFT 처리부(720)에 출력한다. 음성 구간이 아니다(정상 잡음 구간임)라고 판정한 경우는, 모드 전환 스위치(719)는, 개방되어, 랜덤 위상 생성부(717)의 출력은, IFFT 처리부(720)에 출력되지 않는다.
IFFT 처리부(720)는, 모드 전환 스위치(707)로부터 출력되는 진폭 스펙트럼과, 모드 전환 스위치(711)로부터 출력되는 위상 스펙트럼과, 모드 전환 스위치(718)로부터 출력되는 진폭 스펙트럼과, 모드 전환 스위치(719)로부터 출력되는 위상 스펙트럼을 각각 입력하고, 역FFT 처리를 실행하여, 후처리 후의 신호를 출력한다. 모드 전환 스위치(718, 719)가 개방되어 있는 경우는, 모드 전환 스위치(707)로부터 입력되는 진폭 스펙트럼과, 모드 전환 스위치(711)로부터 입력되는 위상 스펙트럼을, FFT의 실부 스펙트럼과 허부 스펙트럼으로 변환하고, 역FFT 처리를 실행하여, 결과의 실부를 시간 신호로서 출력한다. 한편, 모드 전환 스위치(718, 717)가 접속되어 있는 경우는, 모드 전환 스위치(707)로부터 입력되는 진폭 스펙트럼과, 모드 전환 스위치(711)로부터 입력되는 위상 스펙트럼을, 제 1 실부 스펙트럼과 제 1 허부 스펙트럼으로 변환한 것에 덧붙여, 모드 전환 스위치(718)로부터 입력되는 진폭 스펙트럼과, 모드 전환 스위치(719)로부터 입력되는 위상 스펙트럼을, 제 2 실부 스펙트럼과 제 2 허부 스펙트럼으로 변환한 것을 가산하여, 역FFT 처리를 실행한다. 즉, 제 1 실부 스펙트럼과 제 2 실부 스펙트럼을 가산한 것을 제 3 실부 스펙트럼으로 하고, 제 1 허부 스펙트럼과 제 2 허부 스펙트럼을 가산한 것을 제 3 허부 스펙트럼이라고 하면, 제 3 실부 스펙트럼과 제 3 허부 스펙트럼을 이용하여 역FFT 처리를 실행한다. 상기 스펙트럼의 가산시에는, 제 2 실부 스펙트럼 및 제 2 허부 스펙트럼은, 정수배 혹은 적응적으로 제어되는 변수에 의해서 감쇠된다. 예컨대, 상기 스펙트럼 벡터의 가산에 있어서, 제 2 실부 스펙트럼은 0.25배된 후에, 제 1 실부 스펙트럼과 가산되고, 제 2 허부 스펙트럼은 0.25배된 후에, 제 1 허부 스펙트럼과 가산되며, 제 3 실부 스펙트럼 및 제 3 허부 스펙트럼이 각각 얻어진다.
다음에, 도 11 및 도 12를 이용하여 상기 후처리 방법에 대하여 설명한다. 도 11은 본 실시예에 있어서의 후처리 방법의 구체적 처리를 나타내는 플로우차트 이다.
우선, ST(1101)에 있어서, 청각 가중치 부여를 한 입력 신호(복호 음성 신호)의 FFT 대수 진폭 스펙트럼(WSAi)을 계산한다.
다음에, ST(1102)에 있어서, 제 1 임계값 Th1을 계산한다. Th1은, WSAi의 평균치에 정수 k1을 가한 것이다. k1의 값은 경험적으로 결정하고, 예컨대, 상용 대수 영역에서 0.4 정도이다. FFT 점수를 N으로 하고, FFT 진폭 스펙트럼을 WSAi (i = 1, 2,. . . N)으로 하면, WSAi는 I = N/2와 I = N/2 + 1를 경계로 대칭으로 되기 때문에, N/2개의 WSAi의 평균치를 계산하면, WSAi의 평균치를 구할 수 있다.
다음에, ST(1103)에 있어서, 청각 가중치 부여를 하지 않는 입력 신호(복호 음성 신호)의 FFT 대수 진폭 스펙트럼(SAi)과 FFT 위상 스펙트럼(SPi)을 계산한다.
다음에, ST(1104)에 있어서, 스펙트럼 변동(Diff)을 계산한다. 스펙트럼 변동은, 과거에 정상 잡음 구간으로 판정된 구간에 있어서의 평균적인 FFT 대수 진폭 스펙트럼(SSAi)을 현재의 FFT 대수 진폭 스펙트럼(SAi)으로부터 감하여, 얻어진 잔차 스펙트럼의 총합이다. 본 단계에 있어서 구해지는 스펙트럼 변동 Diff는, 현재의 파워가 정상 잡음 구간의 평균적인 파워와 비교하여 커지고 있는지의 여부를 판정하기 위한 파라미터로, 커지고 있으면, 정상 잡음 성분과는 상이한 신호가 존재하는 구간이며, 정상 잡음 구간은 아니라고 판단할 수 있다.
다음에, ST(1105)에 있어서, 과거에 정상 잡음 구간이라고 판정된 회수를 나타내는 카운터를 체크한다. 카운터의 수가, 일정값 이상, 즉 과거에 있는 정도 안정하여 정상 잡음 구간으로 판정되어 있는 경우는, ST(1107)로 진행하고, 그렇지 않은 경우, 즉 과거에 정상 잡음 구간으로 판정된 것이 그다지 없는 경우는, ST(1106)로 진행한다. ST(1106)와 ST(1107)의 상위함은, 스펙트럼 변동(Diff)을 판정 기준에 이용할지 이용하지 않을지의 차이이다. 스펙트럼 변동(Diff)은 과거에 정상 잡음 구간으로 판정된 구간에 있어서의 평균적인 FFT 대수 진폭 스펙트럼(SSAi)을 이용하여 산출된다. 이러한 평균적인 FFT 대수 진폭 스펙트럼(SSAi)을 구하는 데에는, 과거에 임의의 정도의 충분한 시간 길이의 정상적 잡음 구간이 필요하게 되기 때문에, ST(1105)를 마련하여, 과거에 충분한 시간 길이의 정상적 잡음 구간이 없는 경우는, 잡음구간의 평균적 FFT 대수 진폭 스펙트럼(SSAi)이 충분히 평균화되어 있지 않다고 생각되기 때문에, 스펙트럼 변동(Diff)을 이용하지 않는 ST(1106)로 진행하도록 하고 있다. 카운터의 초기값은 0이다.
다음에, ST(1106) 또는 ST(1107)에 있어서, 정상 잡음 구간인지 여부의 판정이 실행된다. ST(1106)에서는, 음성 복호 장치에 있어서 이미 결정되어 있는 음원 모드가 정상 잡음 구간 모드인 경우를 정상 잡음 구간으로 판정하고, ST(1107)에서는, 음성 복호 장치에 있어서 이미 결정되어 있는 음원 모드가 정상 잡음 구간 모드이고 또한, ST(1104)에서 계산된 진폭 스펙트럼 변동(Diff)이 임계값 k3 이하인 경우를 정상 잡음 구간으로 판정한다. ST(1106) 또는 ST(1107)에 있어서, 정상 잡음 구간으로 판정된 경우는, ST(1108)로 진행하고, 정상 잡음 구간이 아니다, 즉 음성 구간이라고 판정된 경우는, ST(1113)로 진행한다.
정상 잡음 구간으로 판정된 경우는, 다음에, ST(1108)에 있어서, 정상 잡음 구간의 평균적 FFT 대수 스펙트럼(SSAi)을 구하기 위한 평활화 처리가 실행된다. ST(1108)의 식에서, β는 0.0∼1.0 범위의 평활화의 강도를 나타내는 정수로, FFT 점수 128 점, 처리 단위 시간 10ms(8kHz 샘플링으로 80 점)의 경우에는, β= 0.1 정도로 좋다. 이 평활화 처리는, 모든 대수 진폭 스펙트럼(SAi, i = 1,…N, N은 FFT 점수)에 대하여 실행된다.
다음에, ST(1109)에 있어서, 정상 잡음 구간의 진폭 스펙트럼의 변동을 매끄러운 모양으로 하기 위한 FFT 대수 진폭 스펙트럼의 평활화 처리가 실행한다. 이 평활화 처리는, ST(1108)의 평활화 처리와 마찬가지이지만, 모든 대수 진폭 스펙트럼(SAi)에 대하여 실행하는 것은 아니고, 청각 가중치 대수 진폭 스펙트럼(WSAi)이 임계값 Th1보다 작은 주파수 성분 i에 대해서만 실행된다. ST(1109)의 식에 있어서의 γ는, ST(1108)에 있어서의 β와 마찬가지이고, 동일한 값이라도 좋다.ST(1109)에서, 부분적으로 평활화된 대수 진폭 스펙트럼 SSA2i가 얻어진다.
다음에, ST(1110)에서, FFT 위상 스펙트럼의 랜덤화 처리가 실행된다. 이 랜덤화 처리는, ST(1109)의 평활화 처리와 마찬가지로, 주파수 선택적으로 실행된다. 즉, ST(1109)와 마찬가지로, 청각 가중치 대수 진폭 스펙트럼(WSAi)이 임계값 Th1보다 작은 주파수 성분 i에 대해서만 실행된다. 여기서, Th1은 ST(1109)과 동일한 값으로 좋지만, 보다 양호한 주관 품질이 얻어지도록 조정된 상이한 값으로 설정하더라도 좋다. 또한, ST(1110)에 있어서의 random(i)는 난수적으로 생성한 --2π∼+2π범위의 수치이다. random(i)의 생성은, 매번 새롭게 난수를 생성하더라도 좋지만, 연산량을 절약하는 경우는, 미리 생성한 난수를 테이블에 유지해 놓고, 처리 단위 시간마다, 테이블의 내용을 순회시켜 이용하는 것도 가능하다. 이 경우, 테이블의 내용을 그대로 이용하는 경우와, 테이블의 내용을 오리지날의 FFT 위상 스펙트럼에 가산하여 이용하는 경우가 고려된다.
다음에, ST(1111)에 있어서, FFT 대수 진폭 스펙트럼과 FFT 위상 스펙트럼으로부터, 복소 FFT 스펙트럼을 생성한다. 실부는 FFT 대수 진폭 스펙트럼 SSA2i를 대수 영역으로부터 선형 영역으로 되돌린 후에, 위상 스펙트럼 RSP2i의 여현을 곱하여 구해진다. 허부는 FFT 대수 진폭 스펙트럼 SSA2i를 대수 영역으로부터 선형 영역으로 되돌린 후에, 위상 스펙트럼 RSP2i의 정현을 곱하여 구해진다.
다음에, ST(1112)에 있어서, 정상 잡음 구간으로 판정된 구간의 카운터를 1늘린다.
한편, ST(1106) 또는 (1107)에 있어서, 음성 구간(정상 잡음 구간이 아님)으로 판정된 경우는, 다음에, ST(1113)에 있어서, FFT 대수 진폭 스펙트럼 SAi가 평활화 대수 스펙트럼 SSA2i에 복사된다. 즉, 대수 진폭 스펙트럼의 평활화 처리는 실행하지 않는다.
다음에, ST(1114)에 있어서, FFT 위상 스펙트럼의 랜덤화 처리가 실행된다. 이 랜덤화 처리는, ST(1110)의 경우와 마찬가지로 하여, 주파수 선택적으로 실행된다. 단, 주파수 선택에 이용되는 임계값은 Th1이 아니라, 과거에 ST(1108)에서 구해지고 있는 SSAi에 정수 k4를 가한 것을 이용한다. 이 임계값은 도 6에 있어서의 제 2 임계값 Th2i에 상당한다. 즉, 정상 잡음 구간에 있어서의 평균적인 진폭 스펙트럼보다 작은 진폭 스펙트럼으로 되어 있는 주파수 성분만, 위상 스펙트럼의 랜덤화를 실행한다.
다음에, ST(1115)에 있어서, FFT 대수 진폭 스펙트럼과 FFT 위상 스펙트럼으로부터, 복소 FFT 스펙트럼을 생성한다. 실부는 FFT 대수 진폭 스펙트럼 SSA2i를 대수 영역으로부터 선형 영역으로 되돌린 후에, 위상 스펙트럼 RSP2i의 여현을 곱한 것과, FFT 대수 진폭 스펙트럼 SSAi를 대수 영역으로부터 선형 영역으로 되돌린 후에, 위상 스펙트럼 random2(i)의 여현을 곱한 것에, 정수 k5를 곱한 것을 가산하여 구해진다. 허부는 FFT 대수 진폭 스펙트럼 SSA2i를 대수 영역으로부터 선형 영역으로 되돌린 후에, 위상 스펙트럼 RSP2i의 정현을 곱한 것과, FFT 대수 진폭 스펙트럼 SSAi를 대수 영역으로부터 선형 영역으로 되돌린 후에, 위상 스펙트럼 random2(i)의 정현을 곱한 것에, 정수 k5를 곱한 것을 가산하여 구해진다. 정수 k5는 0.0∼1.0 범위로, 보다 구체적으로는, 0.25 정도로 설정된다. 또, k5는 적응적으로 제어된 변수라도 좋다. k5배한, 평균적인 정상 잡음을 중첩함으로써, 음성 구간에 있어서의 배경 정상 잡음의 주관적 품질이 향상할 수 있다. random2(i)는, random(i)와 마찬가지의 난수이다.
다음에, ST(1116)에 있어서, ST(1111) 또는 (1115)에서 생성된 복소 FFT 스펙트럼(Re(S2)i, Im(S2)i)의 역FFT를 실행하여, 복소수(Re(s2)i, Im(s2)i)를 얻는다.
마지막으로, ST(1117)에 있어서, 역FFT에 의해서 얻어진 복소수의 실부 Re(s2)i를 출력 신호로서 출력한다.
본 발명의 멀티모드 음성 부호화 장치에 의하면, 제 1 부호화부의 부호화 결과를 이용하여, 제 2 부호화부의 부호화 모드를 결정하기 때문에, 모드를 나타내기 위한 새로운 정보를 부가하는 일 없이 제 2 부호화부의 멀티모드화를 행할 수 있어, 부호화 성능을 향상할 수 있다.
이 구성에 있어서는, 모드 전환부가, 음성 스펙트럼 특성을 나타내는 양자화 파라미터를 이용하여 구동 음원을 부호화하는 제 2 부호화부의 모드 전환을 실행하는 것에 의해, 스펙트럼 특성을 나타내는 파라미터와 구동 음원을 나타내는 파라미터를 독립적으로 부호화하는 형태의 음성 부호화 장치에 있어서, 새로운 전송 정보를 늘리는 일없이 구동 음원의 부호화를 멀티모드화를 할 수 있어, 부호화 성능을 향상할 수 있다.
이 경우, 모드 전환에 동적 특징을 이용하는 것에 의해 정상 잡음부의 검출을 할 수 있게 되기 때문에, 구동 음원 부호화의 멀티모드화에 의해 정상 잡음부에대한 부호화 성능을 개선할 수 있다.
또한, 이 경우, 모드 전환부가, 양자화 LSP 파라미터를 이용하여 구동 음원을 부호화하는 처리부의 모드 전환을 실행하는 것에 의해, 스펙트럼 특성을 나타내는 파라미터로서 LSP 파라미터를 이용하고 있는 CELP 방식에 간단히 적용할 수 있고, 또한, 주파수 영역의 파라미터인 LSP 파라미터를 이용하기 때문에 스펙트럼의 정상성의 판정을 양호하게 실행할 수 있어, 정상 잡음에 대한 부호화 성능을 개선할 수 있다.
또한, 이 경우, 모드 전환부에서, 양자화 LSP의 정상성을 과거 및 현재의 양자화 LSP 파라미터를 이용하여 판정하고, 현재의 양자화 LSP를 이용하여 유성성을 판정하며, 이들 판정 결과에 근거하여 구동 음원을 부호화하는 처리부의 모드 전환을 실행하는 것에 의해, 구동 음원의 부호화를 정상 잡음부와 무성 음성부와 유성 음성부로 전환하여 실행할 수 있어, 각 부에 대응한 구동 음원의 부호화 모드를 준비함으로써 부호화 성능을 개선할 수 있다.
본 발명의 음성 복호화 장치에 있어서는, 복호 신호의 파워가 갑자기 커지는 경우를 검출할 수 있기 때문에, 상술한 음성 구간을 검출하는 처리부에 의한 검출 오류가 발생한 경우에 대응할 수 있다.
또한, 본 발명의 음성 복호화 장치에 있어서는, 동적 특징을 이용하는 것에 의해 정상 잡음부의 검출을 할 수 있게 되기 때문에, 구동 음원 부호화의 멀티모드화에 의해 정상 잡음부에 대한 부호화 성능을 개선할 수 있다.
이상 설명한 바와 같이, 본 발명에 의하면, 스펙트럼 특성을 나타내는 파라미터의 양자화 데이터에 있어서의 정적 및 동적 특징을 이용하여 음원 부호화 및/또는 복호 후처리의 모드 전환을 실행하는 구성이기 때문에, 모드 정보를 새롭게 전송하는 일없이 음원 부호화의 멀티모드화를 도모할 수 있다. 특히 유성 구간/무성 구간의 판정에 덧붙여 음성 구간/비음성 구간의 판정을 실행하는 것도 가능하므로, 멀티모드화에 의한 부호화 성능의 개선도를 보다 높이는 것을 가능하게 한 음성 부호화 장치 및 음성 복호화 장치를 제공할 수 있다.
본 명세서는, 1998년 8월 21일 출원의 특허 출원 평 10-236147 호 및 1998년 9월 21일 출원의 특허 출원 평 10-266883호에 근거한다. 그 내용을 전부 여기에 포함시켜 놓는다.
본 발명은, 디지털 무선 통신 시스템에 있어서의 통신 단말 장치나 기지국 장치에서 유효하게 적용할 수 있다.

Claims (28)

  1. 음성 신호를 분석해서 얻어지는 LSP 파라미터를 부호화하는 제 1 부호화 수단과,
    상기 음성 신호에 포함되는 음원 정보를 나타내는 적어도 1 종류 이상의 파라미터를 몇개의 모드로 부호화 가능한 제 2 부호화 수단과,
    상기 제 1 부호화 수단에서 부호화된 양자화 LSP 파라미터의 동적 특징에 근거하여 상기 제 2 부호화 수단의 모드 전환을 실행하는 모드 전환 수단과,
    상기 제 1, 제 2 부호화 수단에 의해서 부호화된 복수 종류의 파라미터 정보에 의해서 입력 음성 신호를 합성하는 합성 수단
    을 포함하는 멀티모드 음성 부호화 장치.
  2. 제 1 항에 있어서,
    상기 제 2 부호화 수단은, 구동 음원을 몇개의 부호화 모드로 부호화 가능한 부호화 수단으로 구성되고, 상기 모드 전환 수단은, 음성의 스펙트럼 특성을 나타내는 양자화 파라미터를 이용하여 상기 제 2 부호화 수단의 부호화 모드를 전환하는 멀티모드 음성 부호화 장치.
  3. 제 2 항에 있어서,
    상기 모드 전환 수단은, 음성의 스펙트럼 특성을 나타내는 양자화 파라미터의 정적 특징 및 동적 특징을 이용하여 상기 제 2 부호화 수단의 부호화 모드를 전환하는 멀티모드 음성 부호화 장치.
  4. 제 2 항에 있어서,
    상기 모드 전환 수단은, 양자화 LSP 파라미터를 이용하여, 상기 제 2 부호화 수단의 부호화 모드를 전환하는 멀티모드 음성 부호화 장치.
  5. 제 4 항에 있어서,
    상기 모드 전환 수단은, 양자화 LSP 파라미터의 정적 및 동적 특징을 이용하여, 상기 제 2 부호화 수단의 부호화 모드를 전환하는 멀티모드 음성 부호화 장치.
  6. 제 4 항에 있어서,
    상기 모드 전환 수단은, 양자화 LSP 파라미터의 정상성을 과거 및 현재의 양자화 LSP 파라미터를 이용하여 판정하는 수단과,
    현재의 양자화 LSP 파라미터를 이용하여 유성성을 판정하는 수단을 포함하며,
    상기 판정 결과에 근거하여 상기 제 2 부호화 수단의 부호화 모드를 전환하는 멀티모드 음성 부호화 장치.
  7. 음성 신호를 분석해서 얻어지는 LSP 파라미터를 복호화하는 제 1 복호화 수단과,
    상기 음성 신호에 포함되는 음원 정보를 나타내는 적어도 1종류 이상의 파라미터를 몇개의 부호화 모드로 복호화 가능한 제 2 복호화 수단과,
    상기 제 1 복호화 수단에서 복호화된 양자화 LSP 파라미터의 동적 특징에 근거하여 상기 제 2 복호화 수단의 부호화 모드의 전환을 실행하는 모드 전환 수단과,
    상기 제 1, 제 2 복호화 수단에 의해서 복호화된 복수 종류의 파라미터 정보에 의해서 음성 신호를 복호하는 합성 수단
    을 포함하는 멀티모드 음성 복호화 장치.
  8. 제 7 항에 있어서,
    상기 제 2 복호화 수단은, 구동 음원을 몇개의 복호화 모드로 복호화 가능한 복호화 수단으로 구성되고, 상기 모드 전환 수단은, 음성의 스펙트럼 특성을 나타내는 양자화 파라미터를 이용하여 상기 제 2 복호화 수단의 복호화 모드를 전환하는 멀티모드 음성 복호화 장치.
  9. 제 8 항에 있어서,
    상기 모드 전환 수단은, 음성의 스펙트럼 특성을 나타내는 양자화 파라미터의 정적 및 동적 특징을 이용하여, 상기 제 2 복호화 수단의 복호화 모드를 전환하는 멀티모드 음성 복호화 장치.
  10. 제 8 항에 있어서,
    상기 모드 전환 수단은, 양자화 LSP 파라미터를 이용하여, 상기 제 2 복호화 수단의 복호화 모드를 전환하는 멀티모드 음성 복호화 장치.
  11. 제 10 항에 있어서,
    상기 모드 전환 수단은, 양자화 LSP 파라미터의 정적 및 동적 특징을 이용하여, 상기 제 2 복호화 수단의 복호화 모드를 전환하는 멀티모드 음성 복호화 장치.
  12. 제 10 항에 있어서,
    상기 모드 전환 수단은, 양자화 LSP 파라미터의 정상성을 과거 및 현재의 양자화 LSP 파라미터를 이용하여 판정하는 수단과,
    현재의 양자화 LSP 파라미터를 이용하여 유성성을 판정하는 수단을 포함하며,
    상기 판정 결과에 근거하여 상기 제 2 복호화 수단의 복호화 모드를 전환하는 멀티모드 음성 복호화 장치.
  13. 제 7 항에 있어서,
    상기 판정 결과에 근거하여 복호 신호에 대한 후처리의 전환을 실행하는 멀티모드 음성 복호화 장치.
  14. 양자화 LSP 파라미터의 프레임간 변화를 산출하는 수단과,
    양자화 LSP 파라미터가 정상적인 프레임에 있어서의 평균적 양자화 LSP 파라미터를 산출하는 수단과,
    상기 평균적 양자화 LSP 파라미터와 현재의 양자화 LSP 파라미터의 거리를 산출하는 수단
    을 포함하는 양자화 LSP 파라미터의 동적 특징 추출기.
  15. 양자화 LSP 파라미터를 정규화 선형 예측 잔차 파워로 변환하는 수단과,
    최저역을 제외한 인접하는 양자화 LSP 파라미터의 간격을 산출하는 수단
    을 포함하는 양자화 LSP 파라미터의 정적 특징 추출기.
  16. 복호 LSP 파라미터를 이용하여 음성 구간인지의 여부의 판정을 실행하는 판정 수단과,
    신호의 고속 퓨리에 변환 처리를 실행하는 FFT 처리 수단과,
    상기 고속 퓨리에 변환 처리에 의해서 얻어진 위상 스펙트럼을 상기 판정 수단의 판정 결과에 따라 랜덤화하는 위상 스펙트럼 랜덤화 수단과,
    상기 고속 퓨리에 변환 처리에 의해서 얻어진 진폭 스펙트럼을 상기 판정 결과에 따라 평활화하는 진폭 스펙트럼 평활화 수단과,
    상기 위상 스펙트럼 랜덤화 수단에 의해서 랜덤화된 위상 스펙트럼과 상기 진폭 스펙트럼 평활화 수단에 의해서 평활화된 위상 스펙트럼의 역고속 퓨리에 변환 처리를 실행하는 IFFT 처리 수단
    을 포함하는 멀티모드 후처리기.
  17. 제 16 항에 있어서,
    음성 구간에서는 과거의 비음성 구간에 있어서의 평균적 진폭 스펙트럼을 이용하여 랜덤화하는 위상 스펙트럼의 주파수를 결정하고, 비음성 구간에서는 청각 가중치 영역에 있어서의 전체 주파수의 진폭 스펙트럼의 평균치를 이용하여 랜덤화하는 위상 스펙트럼과 평활화하는 진폭 스펙트럼의 주파수를 결정하는 멀티모드 후처리기.
  18. 제 16 항에 있어서,
    음성 구간에서는 과거의 비음성 구간에 있어서의 평균적 진폭 스펙트럼을 이용하여 생성한 잡음을 중첩하는 멀티모드 후처리기.
  19. 음성 신호를 전기적 신호로 변환하는 음성 입력 장치와,
    이 음성 입력 장치로부터 출력되는 신호를 디지털 신호로 변환하는 A/D 변환기와,
    이 A/D 변환기로부터 출력되는 디지털 신호의 부호화를 실행하는 멀티모드 음성 부호화 장치와,
    이 멀티모드 음성 부호화 장치로부터 출력되는 부호화 정보에 대하여 변조처리 등을 실행하는 RF 변조기와,
    이 RF 변조기로부터 출력된 신호를 전파로 변환하여 송신하는 송신 안테나를 포함하며,
    상기 멀티모드 음성 부호화 장치는,
    음성 신호에 포함되는 보컬 트랙트 정보를 나타내는 적어도 1종류 이상의 파라미터를 부호화하는 제 1 부호화 수단과,
    상기 음성 신호에 포함되는 음원 정보를 나타내는 적어도 1종류 이상의 파라미터를 몇개의 모드로 부호화 가능한 제 2 부호화 수단과,
    상기 제 1 부호화 수단에서 부호화된 특정 파라미터의 동적 특징에 근거하여 상기 제 2 부호화 수단의 모드 전환을 실행하는 모드 전환 수단과,
    상기 제 1, 제 2 부호화 수단에 의해서 부호화된 복수 종류의 파라미터 정보에 의해서 입력 음성 신호를 합성하는 합성 수단
    을 포함하는 음성 신호 송신 장치.
  20. 수신 전파를 수신하는 수신 안테나와,
    이 수신 안테나에서 수신한 신호의 복조 처리를 실행하는 RF 복조기와,
    이 RF 복조기에 의해서 얻어진 정보의 복호화를 실행하는 멀티모드 음성 복호화 장치와,
    이 멀티모드 음성 복호화 장치에 의해서 복호된 디지털 음성 신호를 D/A 변환하는 D/A 변환기와,
    이 D/A 변환기에 의해서 출력되는 전기적 신호를 음성 신호로 변환하는 음성 출력 장치를 포함하며,
    상기 멀티모드 음성 복호화 장치는,
    음성 신호에 포함되는 보컬 트랙트 정보를 나타내는 적어도 1종류 이상의 파라미터를 복호화하는 제 1 복호화 수단과,
    상기 음성 신호에 포함되는 음원 정보를 나타내는 적어도 1종류 이상의 파라미터를 몇 개의 부호화 모드로 복호화 가능한 제 2 복호화 수단과,
    상기 제 1 복호화 수단에서 복호화된 특정 파라미터의 동적 특징에 근거하여 상기 제 2 복호화 수단의 부호화 모드의 전환을 실행하는 모드 전환 수단과,
    상기 제 1, 제 2 복호화 수단에 의해서 복호화된 복수 종류의 파라미터 정보에 의해서 음성 신호를 복호하는 합성 수단
    을 포함하는 음성 신호 수신 장치.
  21. 컴퓨터에,
    양자화 LSP 파라미터의 정상성을 과거 및 현재의 양자화 LSP 파라미터를 이용하여 판정하는 순서와,
    현재의 양자화 LSP 파라미터를 이용하여 유성성을 판정하는 순서와,
    상기 순서에 의해서 판정된 결과에 근거하여 구동 음원을 부호화하는 순서의모드 전환을 실행하는 순서
    를 실행시키기 위한 프로그램을 기록한 기계 판독 가능한 기억 매체.
  22. 컴퓨터에,
    양자화 LSP 파라미터의 정상성을 과거 및 현재의 양자화 LSP 파라미터를 이용하여 판정하는 순서와,
    현재의 양자화 LSP를 이용하여 유성성을 판정하는 순서와,
    상기 순서에 의해서 판정된 결과에 근거하여 구동 음원을 복호화하는 순서의 모드 전환을 실행하는 순서와,
    상기 순서에 의해서 판정된 결과에 근거하여 복호 신호에 대한 후처리 순서의 전환을 실행하는 순서
    를 실행시키기 위한 프로그램을 기록한 기계 판독 가능한 기억 매체.
  23. 음성의 스펙트럼 특성을 나타내는 양자화 파라미터의 정적 및 동적 특징을 이용하여 구동 음원을 부호화하는 모드의 모드 전환을 실행하는 멀티모드 음성 부호화 방법.
  24. 음성의 스펙트럼 특성을 나타내는 양자화 파라미터의 정적 및 동적 특징을 이용하여 구동 음원을 복호화하는 모드의 모드 전환을 실행하는 멀티모드 음성 복호화 방법.
  25. 제 24 항에 있어서,
    복호 신호에 대한 후처리를 실행하는 공정과,
    모드 정보에 근거하여 상기 후처리 공정의 전환을 실행하는 공정
    을 포함하는 멀티모드 음성 복호화 방법.
  26. 양자화 LSP 파라미터의 프레임간 변화를 산출하는 공정과,
    양자화 LSP 파라미터가 정상적인 프레임에 있어서의 평균적 양자화 LSP 파라미터를 산출하는 공정과,
    상기 평균적 양자화 LSP 파라미터와 현재의 양자화 LSP 파라미터의 거리를 산출하는 공정
    을 포함하는 양자화 LSP 파라미터의 동적 특징 추출 방법.
  27. 양자화 LSP 파라미터로부터 선형 예측 잔차 파워를 산출하는 공정과,
    인접하는 차수의 양자화 LSP 파라미터의 간격을 산출하는 공정
    을 포함하는 양자화 LSP 파라미터의 정적 특징 추출 방법.
  28. 복호 LSP 파라미터를 이용하여 음성 구간인지의 여부의 판정을 실행하는 판정 공정과,
    신호의 고속 퓨리에 변환 처리를 실행하는 FFT 처리 공정과,
    상기 고속 퓨리에 변환 처리에 의해서 얻어진 위상 스펙트럼을 상기 판정 공정에 있어서의 판정 결과에 따라 랜덤화하는 위상 스펙트럼 랜덤화 공정과,
    상기 FFT 처리에 의해서 얻어진 진폭 스펙트럼을 상기 판정 결과에 따라 평활화하는 진폭 스펙트럼 평활화 공정과,
    상기 위상 스펙트럼 랜덤화 공정에서 랜덤화된 위상 스펙트럼과 상기 진폭 스펙트럼 평활화 공정에서 평활화된 위상 스펙트럼의 역FFT 처리를 실행하는 IFFT 처리 공정
    을 포함하는 멀티모드 후처리 방법.
KR10-2000-7004235A 1998-08-21 1999-08-20 멀티모드 음성 부호화 장치 및 복호화 장치 KR100367267B1 (ko)

Applications Claiming Priority (4)

Application Number Priority Date Filing Date Title
JP23614798 1998-08-21
JP98-236147 1998-08-21
JP26688398A JP4308345B2 (ja) 1998-08-21 1998-09-21 マルチモード音声符号化装置及び復号化装置
JP98-266883 1998-09-21

Publications (2)

Publication Number Publication Date
KR20010031251A KR20010031251A (ko) 2001-04-16
KR100367267B1 true KR100367267B1 (ko) 2003-01-14

Family

ID=26532515

Family Applications (1)

Application Number Title Priority Date Filing Date
KR10-2000-7004235A KR100367267B1 (ko) 1998-08-21 1999-08-20 멀티모드 음성 부호화 장치 및 복호화 장치

Country Status (10)

Country Link
US (1) US6334105B1 (ko)
EP (1) EP1024477B1 (ko)
JP (1) JP4308345B2 (ko)
KR (1) KR100367267B1 (ko)
CN (1) CN1236420C (ko)
AU (1) AU748597B2 (ko)
BR (1) BR9906706B1 (ko)
CA (1) CA2306098C (ko)
SG (1) SG101517A1 (ko)
WO (1) WO2000011646A1 (ko)

Families Citing this family (41)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7072832B1 (en) 1998-08-24 2006-07-04 Mindspeed Technologies, Inc. System for speech encoding having an adaptive encoding arrangement
US7167828B2 (en) 2000-01-11 2007-01-23 Matsushita Electric Industrial Co., Ltd. Multimode speech coding apparatus and decoding apparatus
DE10026872A1 (de) * 2000-04-28 2001-10-31 Deutsche Telekom Ag Verfahren zur Berechnung einer Sprachaktivitätsentscheidung (Voice Activity Detector)
US6728669B1 (en) * 2000-08-07 2004-04-27 Lucent Technologies Inc. Relative pulse position in celp vocoding
JP3467469B2 (ja) 2000-10-31 2003-11-17 Necエレクトロニクス株式会社 音声復号装置および音声復号プログラムを記録した記録媒体
JP3558031B2 (ja) * 2000-11-06 2004-08-25 日本電気株式会社 音声復号化装置
KR100566163B1 (ko) * 2000-11-30 2006-03-29 마츠시타 덴끼 산교 가부시키가이샤 음성 복호화 장치, 음성 복호화 방법 및 프로그램을기록한 기록 매체
JP3566220B2 (ja) 2001-03-09 2004-09-15 三菱電機株式会社 音声符号化装置、音声符号化方法、音声復号化装置及び音声復号化方法
US20020147585A1 (en) * 2001-04-06 2002-10-10 Poulsen Steven P. Voice activity detection
JP4231987B2 (ja) * 2001-06-15 2009-03-04 日本電気株式会社 音声符号化復号方式間の符号変換方法、その装置、そのプログラム及び記憶媒体
JP2003044098A (ja) * 2001-07-26 2003-02-14 Nec Corp 音声帯域拡張装置及び音声帯域拡張方法
KR20050025583A (ko) * 2002-07-08 2005-03-14 코닌클리케 필립스 일렉트로닉스 엔.브이. 오디오 처리
US7658816B2 (en) * 2003-09-05 2010-02-09 Tokyo Electron Limited Focus ring and plasma processing apparatus
KR20050049103A (ko) * 2003-11-21 2005-05-25 삼성전자주식회사 포만트 대역을 이용한 다이얼로그 인핸싱 방법 및 장치
JP4698593B2 (ja) * 2004-07-20 2011-06-08 パナソニック株式会社 音声復号化装置および音声復号化方法
KR100677126B1 (ko) * 2004-07-27 2007-02-02 삼성전자주식회사 레코더 기기의 잡음 제거 장치 및 그 방법
US8265929B2 (en) * 2004-12-08 2012-09-11 Electronics And Telecommunications Research Institute Embedded code-excited linear prediction speech coding and decoding apparatus and method
US8233636B2 (en) 2005-09-02 2012-07-31 Nec Corporation Method, apparatus, and computer program for suppressing noise
KR100647336B1 (ko) * 2005-11-08 2006-11-23 삼성전자주식회사 적응적 시간/주파수 기반 오디오 부호화/복호화 장치 및방법
US8352254B2 (en) * 2005-12-09 2013-01-08 Panasonic Corporation Fixed code book search device and fixed code book search method
CN101145345B (zh) * 2006-09-13 2011-02-09 华为技术有限公司 音频分类方法
CN101145343B (zh) * 2006-09-15 2011-07-20 展讯通信(上海)有限公司 一种用于音频处理框架中的编码和解码方法
JP5050698B2 (ja) * 2007-07-13 2012-10-17 ヤマハ株式会社 音声処理装置およびプログラム
EP3288029A1 (en) * 2008-01-16 2018-02-28 III Holdings 12, LLC Vector quantizer, vector inverse quantizer, and methods therefor
EP2109096B1 (en) * 2008-09-03 2009-11-18 Svox AG Speech synthesis with dynamic constraints
WO2010032405A1 (ja) * 2008-09-16 2010-03-25 パナソニック株式会社 音声分析装置、音声分析合成装置、補正規則情報生成装置、音声分析システム、音声分析方法、補正規則情報生成方法、およびプログラム
KR102296955B1 (ko) * 2010-07-02 2021-09-01 돌비 인터네셔널 에이비 선택적인 베이스 포스트 필터
WO2012005211A1 (ja) * 2010-07-05 2012-01-12 日本電信電話株式会社 符号化方法、復号方法、符号化装置、復号装置、プログラム、及び記録媒体
US9531344B2 (en) 2011-02-26 2016-12-27 Nec Corporation Signal processing apparatus, signal processing method, storage medium
ES2575693T3 (es) 2011-11-10 2016-06-30 Nokia Technologies Oy Un método y un aparato para detectar tasa de muestreo de audio
JP6300031B2 (ja) * 2012-11-27 2018-03-28 日本電気株式会社 信号処理装置、信号処理方法、および信号処理プログラム
JP6350871B2 (ja) * 2012-11-27 2018-07-04 日本電気株式会社 信号処理装置、信号処理方法、および信号処理プログラム
AU2014211520B2 (en) * 2013-01-29 2017-04-06 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Low-frequency emphasis for LPC-based coding in frequency domain
US9728200B2 (en) * 2013-01-29 2017-08-08 Qualcomm Incorporated Systems, methods, apparatus, and computer-readable media for adaptive formant sharpening in linear prediction coding
TWI615834B (zh) * 2013-05-31 2018-02-21 Sony Corp 編碼裝置及方法、解碼裝置及方法、以及程式
CN110875048B (zh) * 2014-05-01 2023-06-09 日本电信电话株式会社 编码装置、及其方法、记录介质
US10049684B2 (en) * 2015-04-05 2018-08-14 Qualcomm Incorporated Audio bandwidth selection
CN108028045A (zh) 2015-07-06 2018-05-11 诺基亚技术有限公司 用于音频信号解码器的位错误检测器
JP6803241B2 (ja) * 2017-01-13 2020-12-23 アズビル株式会社 時系列データ処理装置および処理方法
CN109887519B (zh) * 2019-03-14 2021-05-11 北京芯盾集团有限公司 提高语音信道数据传输准确性的方法
CN116806000B (zh) * 2023-08-18 2024-01-30 广东保伦电子股份有限公司 一种多通道任意扩展的分布式音频矩阵

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH06118993A (ja) * 1992-10-08 1994-04-28 Kokusai Electric Co Ltd 有声/無声判定回路

Family Cites Families (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4802221A (en) * 1986-07-21 1989-01-31 Ncr Corporation Digital system and method for compressing speech signals for storage and transmission
IL84948A0 (en) * 1987-12-25 1988-06-30 D S P Group Israel Ltd Noise reduction system
JPH0398318A (ja) * 1989-09-11 1991-04-23 Fujitsu Ltd 音声符号化方式
EP1239456A1 (en) * 1991-06-11 2002-09-11 QUALCOMM Incorporated Variable rate vocoder
US5734789A (en) * 1992-06-01 1998-03-31 Hughes Electronics Voiced, unvoiced or noise modes in a CELP vocoder
JPH06180948A (ja) * 1992-12-11 1994-06-28 Sony Corp ディジタル信号処理装置又は方法、及び記録媒体
JPH08506434A (ja) * 1993-11-30 1996-07-09 エイ・ティ・アンド・ティ・コーポレーション 通信システムにおける伝送ノイズ低減
US5602961A (en) * 1994-05-31 1997-02-11 Alaris, Inc. Method and apparatus for speech compression using multi-mode code excited linear predictive coding
GB2290201B (en) 1994-06-09 1998-03-04 Motorola Ltd Communications system
TW271524B (ko) * 1994-08-05 1996-03-01 Qualcomm Inc
JPH08179796A (ja) * 1994-12-21 1996-07-12 Sony Corp 音声符号化方法
JP3747492B2 (ja) * 1995-06-20 2006-02-22 ソニー株式会社 音声信号の再生方法及び再生装置
US5956674A (en) * 1995-12-01 1999-09-21 Digital Theater Systems, Inc. Multi-channel predictive subband audio coder using psychoacoustic adaptive bit allocation in frequency, time and over the multiple channels
JPH10143195A (ja) 1996-11-14 1998-05-29 Olympus Optical Co Ltd ポストフィルタ
US6055619A (en) * 1997-02-07 2000-04-25 Cirrus Logic, Inc. Circuits, system, and methods for processing multiple data streams

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH06118993A (ja) * 1992-10-08 1994-04-28 Kokusai Electric Co Ltd 有声/無声判定回路

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
Technical Report of IEICE SP95-80에 실린 "Multi-mode CELP Codec using short-term characteristics of speech"(1995년 ) *

Also Published As

Publication number Publication date
US6334105B1 (en) 2001-12-25
EP1024477B1 (en) 2017-03-15
AU748597B2 (en) 2002-06-06
JP2002023800A (ja) 2002-01-25
WO2000011646A1 (fr) 2000-03-02
SG101517A1 (en) 2004-01-30
AU5442899A (en) 2000-03-14
BR9906706B1 (pt) 2015-02-10
BR9906706A (pt) 2000-08-08
KR20010031251A (ko) 2001-04-16
CA2306098A1 (en) 2000-03-02
CN1275228A (zh) 2000-11-29
JP4308345B2 (ja) 2009-08-05
CN1236420C (zh) 2006-01-11
CA2306098C (en) 2005-07-12
EP1024477A4 (en) 2002-04-24
EP1024477A1 (en) 2000-08-02

Similar Documents

Publication Publication Date Title
KR100367267B1 (ko) 멀티모드 음성 부호화 장치 및 복호화 장치
RU2262748C2 (ru) Многорежимное устройство кодирования
CA2722110C (en) Apparatus and method for speech coding
US6574593B1 (en) Codebook tables for encoding and decoding
US7167828B2 (en) Multimode speech coding apparatus and decoding apparatus
US7013269B1 (en) Voicing measure for a speech CODEC system
US20060206317A1 (en) Speech coding apparatus and speech decoding apparatus
KR100488080B1 (ko) 멀티모드 음성 인코더
US6047253A (en) Method and apparatus for encoding/decoding voiced speech based on pitch intensity of input speech signal
US20040049380A1 (en) Audio decoder and audio decoding method
US7050968B1 (en) Speech signal decoding method and apparatus using decoded information smoothed to produce reconstructed speech signal of enhanced quality
EP1619666B1 (en) Speech decoder, speech decoding method, program, recording medium
JP4954310B2 (ja) モード判定装置及びモード判定方法
JP2003044099A (ja) ピッチ周期探索範囲設定装置及びピッチ周期探索装置
JP4295372B2 (ja) 音声符号化装置
JP3785363B2 (ja) 音声信号符号化装置、音声信号復号装置及び音声信号符号化方法
CA2513842C (en) Apparatus and method for speech coding
Ma et al. A kalman filter with a perceptual post-filter to enhance speech degraded by colored noise
JP2002244700A (ja) 音声符号化装置、音声符号化方法および記憶素子

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant
FPAY Annual fee payment

Payment date: 20121203

Year of fee payment: 11

FPAY Annual fee payment

Payment date: 20131202

Year of fee payment: 12

FPAY Annual fee payment

Payment date: 20141203

Year of fee payment: 13

FPAY Annual fee payment

Payment date: 20151118

Year of fee payment: 14

FPAY Annual fee payment

Payment date: 20161123

Year of fee payment: 15

FPAY Annual fee payment

Payment date: 20171114

Year of fee payment: 16

FPAY Annual fee payment

Payment date: 20181121

Year of fee payment: 17

EXPY Expiration of term