KR20140022813A

KR20140022813A - 허프만 부호화를 실행하기 위한 장치 및 방법

Info

Publication number: KR20140022813A
Application number: KR1020137025124A
Authority: KR
Inventors: 종시안 리우; 콕 셍 총; 마사히로 오시키리
Original assignee: 파나소닉 주식회사
Priority date: 2011-04-20
Filing date: 2012-03-12
Publication date: 2014-02-25
Also published as: ES2765527T3; RU2585990C2; CA3051552C; PL3096315T3; CN104485111A; EP3096315A2; CN103415884B; US20190122682A1; CN104485111B; EP4322161A2; KR101959698B1; EP3096315A3; KR20190028569A; JP2016170428A; US9881625B2; US20180166086A1; US10515648B2; JP6321072B2; CA2832032C; JP2018112759A

Abstract

오디오 신호의 부호화 및 복호를 위해서 허프만 부호화를 실행하는 장치 및 방법을 도입하는 것. 본 발명에서는, 허프만 테이블의 설계를, 대규모의 입력 시퀀스 데이터베이스를 이용하여, 오프 라인에서 행할 수 있다. 허프만 부호화를 위한 양자화 인덱스(또는 차분 인덱스)의 범위가 식별된다. 각 범위값에 대해서, 동일한 범위를 가지는 모든 입력 신호가 모아져, 범위내의 양자화 인덱스(또는 차분 인덱스)의 각 값의 확률 분포가 계산된다. 각 범위값에 대해서, 1개의 허프만 테이블이, 확률에 따라 설계된다.

Description

허프만 부호화를 실행하기 위한 장치 및 방법{DEVICE AND METHOD FOR EXECUTION OF HUFFMAN CODING}

본 발명은, 허프만 부호화(Huffman coding)를 사용하는, 오디오/음성 부호화 장치, 오디오/음성 복호 장치, 및 오디오/음성 부호화 방법 및 복호 방법에 관한 것이다.

신호 압축에서는, 허프만 부호화가 널리 사용되고, 가변장(可變長)(VL) 부호 테이블(허프만 테이블)을 사용해서 입력 신호를 부호화한다. 허프만 부호화는, 통계적 분포가 일양적(一樣)이지 않은 입력 신호에 대해서, 고정장(固定長)(FL) 부호화보다 효율적이다.

허프만 부호화에서는, 허프만 테이블은, 입력 신호의 각 취할 수 있는 값의 추정 출현 확률에 기초한 특정 방법으로 도출된다. 부호화할 때, 각 입력 신호값은, 허프만 테이블내의 특정한 가변장 부호에 매핑된다.

허프만 부호화에서는, 통계적으로 출현 가능성이 보다 높은 신호값을, (상대적으로 적은 비트를 사용하는) 상대적으로 짧은 VL부호를 사용해서 부호화하고, 반대로, 통계적으로 낮은 빈도로 출현하는 신호값을, (상대적으로 보다 많은 비트를 사용하는) 상대적으로 긴 VL부호를 사용해서 부호화함으로써, 입력 신호를 부호화하는데 사용되는 비트의 총 수를 삭감할 수 있다.

ITU－T권고G.719 (06/2008) 「Low－complexity, full－band audio coding for high－quality, conｖersational applications

그러나, 오디오 신호 부호화 등, 몇가지 응용예에서는, 신호 통계가, 1조(組)의 오디오 신호와 다른 1조의 오디오 신호에서 현저하게 다른 것이 있다. 동일한 1조의 오디오 신호내에서 조차도 그러하다.

오디오 신호의 통계가, 사전 정의된 허프만 테이블의 통계로부터 크게 다른 경우, 신호의 부호화를 최적하게 행할 수 없다. 다른 통계를 가지는 오디오 신호를 부호화할 경우, 허프만 부호화에 의한 비트 소비 쪽이, 고정장 부호화에 의한 비트 소비보다 훨씬 많아지는 일이 있다.

한가지 가능한 해결책은, 허프만 부호화와 고정장 부호화의 양쪽을 부호화에 포함시켜, 소비하는 비트가 적은 쪽의 부호화 방법을 선택하는 것이다. 엔코더에 있어서 어느 쪽 부호화 방법이 선택되었는지를 나타내기 위해서, 1개의 플래그(flag) 신호가 디코더 측에 전송된다. 이 해결책은, 새롭게 표준화 된 ITU－T음성 코덱 G.719에 있어서 이용되고 있다.

이 해결책은, 허프만 부호화가 고정장 부호화보다 많은 비트를 소비하는 몇가지 대단히 극단적인 시퀀스일 경우에, 문제를 해결한다. 그러나, 허프만 테이블과는 다른 통계를 가지지만 여전히 허프만 부호화를 선택하는 다른 입력 신호에 대해서는, 이 해결책은, 여전히 최적이지는 않다.

ITU－T에 의해 표준화 된 음성 코덱 G.719에서는, 놈 팩터(norm factor)의 양자화 인덱스의 부호화에 있어서, 허프만 부호화가 사용된다.

G.719의 구조가, 도1에 표시되어 있다.

엔코더(encoder) 측에서는, 48kHz에서 샘플링된 입력 신호가, 과도(過渡) 상태 검출기(101)에 의해 처리된다. 과도 상태의 검출에 따라서, 고주파수 분해능 변환 또는 저주파수 분해능 변환(102)이, 입력 신호 프레임에 적용된다. 획득된 스펙트럼 계수는, 길이가 동일하지 않은 대역에 그룹화된다. 각 대역의 놈(norm)이, 추정되어(103), 모든 대역의 놈으로 되어있는, 결과 스펙트럼 포락선이, 양자화되어 부호화된다(104). 그 후, 계수가, 양자화된 놈에 의해 정규화된다(105). 양자화된 놈은, 적응 스펙트럼 가중치에 기초하여, 다시 조정되어(106), 비트 할당을 위한 입력으로서 사용된다(107). 정규화된 스펙트럼 계수는, 각 주파수 대역에 할당된 비트에 기초하여, 격자 벡터 양자화되어, 부호화된다(108). 부호화되지 않은 스펙트럼 계수의 레벨이, 추정되어, 부호화되어(109), 디코더에 전송된다. 부호화된 스펙트럼 계수와 부호화된 놈의 양쪽 양자화 인덱스에 허프만 부호화가 적용된다.

디코더측에서는, 프레임 구성을, 즉, 정상인지, 그렇지 않으면 과도인지를 나타내는 과도 플래그가 맨먼저 복호된다. 스펙트럼 포락선이, 복호되어, 동일 비트 이그젝트(bit exact）한 놈 조정 및 비트 할당 알고리즘이, 정규화된 변환계수의 양자화 인덱스를 복호하는데 필수의 비트 할당을 재계산하기 위해서, 디코더에 있어서 사용된다. 역양자화(112) 후, (0비트가 할당된) 저주파수의 부호화되지 않은 스펙트럼 계수가, 수취한 스펙트럼 계수(비(非) 0비트가 할당된 스펙트럼 계수)로 구축된, 스펙트럼 필(spectral－fill) 코드북을 사용함으로써, 재생성된다(113). 재생성된 계수의 레벨을 조정하기 위해서, 노이즈 레벨 조정 인덱스가 사용된다. 고주파수의 부호화되지 않은 스펙트럼 계수는, 대역폭 확장을 사용해서 재생성된다. 복호된 스펙트럼 계수와 재생성된 스펙트럼 계수는, 조합되어, 정규화된 스펙트럼을 만든다. 복호된 스펙트럼 포락선이 적용되어, 복호된 풀 밴드 스펙트럼을 만든다(114). 마지막으로, 역변환(115)이 적용되어, 시간 영역 복호 신호를 회복한다. 이것은, 정상 모드일 경우는 역수정 이산 코사인 변환을 적용함으로써, 또는 과도 모드일 경우는 보다 고분해능의 시간 분해능 변환의 역변환을 적용함으로써 실행된다.

엔코더(104)에서는, 스펙트럼 서브밴드의 놈 팩터가, 3dB의 스텝을 40개 이용하는 일양(一樣) 대수 스칼라 양자화기를 이용하여, 스칼라 양자화(量子化)된다. 대수 양자화기의 코드북 엔트리가, 도2에 나타나 있다. 코드북을 보고 알 수 있는 것처럼, 놈 팩터의 범위는,［2^－2.5, 2¹⁷］이고, 인덱스가 증가함에 따라, 값은 감소한다.

놈 팩터의 양자화 인덱스의 부호화가, 도3에 나타나 있다. 합계 44개의 서브밴드가 존재하고, 그것에 대응하여, 44개의 놈 팩터가 존재한다. 제1 서브밴드의 경우, 놈 팩터는, 최초의 32개의 코드북 엔트리를 사용해서 양자화되지만(301), 다른 놈 팩터는, 도2에 나타나는 40개의 코드북 엔트리를 이용해서 스칼라 양자화된다(302). 제1 서브밴드의 놈 팩터의 양자화 인덱스는, 5비트를 이용하여 직접적으로 부호화되지만(303), 다른 서브밴드의 인덱스는, 차분(差分) 부호화에 의해 부호화된다. 차분 인덱스는, 이하의 수학식을 사용해서 도출된다(304).

[수 1]

Diff_index(n) =Index(n)-Index(n-1)+15, n∈[1,43]...(식1)

차분 인덱스는, 2개의 가능한 방법에 의해, 즉, 고정장 부호화(305)와 허프만 부호화(306)에 의해 부호화된다. 차분 인덱스를 위한 허프만 테이블이, 도4에 나타나 있다. 이 테이블에는, 인접 서브밴드 사이의 급격한 에너지 변화의 가능성을 고려에 넣은, 0에서 31까지의, 합계 32개의 엔트리가 존재한다.

그러나, 오디오 입력 신호의 경우, 청각 마스킹(聽覺masking)이라고 하는 이름의 물리 현상이 존재한다. 청각 마스킹은, 1개의 음(音)의 지각이 다른 소리의 존재에 의해 영향을 받는 경우에 발생한다. 예로서 주파수가 유사한 2개의 신호가, 즉, 1kHz에 강력한 스파이크가 1개와, 1.1kHz에 보다 낮은 레벨의 톤이 1개, 동시에 존재하는 경우, 1.1kHz의 보다 낮은 레벨의 톤은, 1kHz에 강력한 스파이크가 존재하기 때문에, 마스크된다(알아 듣을 수 없다).

음을, 다른 음(마스킹 음)이 존재할 때에, 지각 가능하게 하는데 필요로 하는 음압 레벨은, 오디오 부호화에 있어서, 마스킹 임계값으로서 정의된다. 마스킹 임계값은, 주파수, 마스킹 음의 음압 레벨에 의존한다. 2개의 음이 유사한 주파수를 가질 경우, 마스킹 효과는 크고, 마스킹 임계값도 크다. 마스킹 음이 커다란 음압 레벨을 가질 경우, 다른 음에 대해서 강력한 마스킹 효과를 가지며, 마스킹 임계값도 크다.

상기의 청각 마스킹 이론에 의하면, 1개의 서브밴드가 대단히 큰 에너지를 가질 경우, 다른 서브밴드에 대해서, 특히 인접 서브밴드에 대해서, 큰 마스킹 효과를 가진다. 그 경우, 다른 서브밴드의, 특히 인접 서브밴드의, 마스킹 임계값은 크다.

인접 서브밴드내의 음 성분이, (마스킹 임계값보다 작은) 약간의 양자화 오차 밖에 가지지않을 경우, 이 서브밴드 내의 음 성분의 열화를, 청취자는 지각할 수가 없다.

양자화 오차가 마스킹 임계값을 밑도는 한, 이 서브밴드의, 분해능이 대단히 높은 놈 팩터를 부호화할 필요는 없다.

본 발명에서는, 오디오 신호 부호화 시에, 허프만 테이블을 생성하기 위해서, 또 허프만 테이블을 1조의 사전(事前) 정의된 테이블로부터 선택하기 위해서, 오디오 신호 특성을 이용하는, 장치 및 방법이 제공된다.

간략하게 말하면, 차분 인덱스의 범위를 좁히기 위해, 청각 마스킹 특성이 이용되고, 그 결과, 부호화를 위해, 보다 소수의 부호어를 가지는 허프만 테이블을 설계하여, 사용할 수가 있다. 허프만 테이블이 보다 소수의 부호어를 갖기 때문에, 길이가 보다 짧은(보다 소수의 비트 밖에 소비하지 않는) 부호 코드를 설계하는 것이 가능하다. 이렇게 함으로써, 차분 인덱스를 부호화하기 위한 전체적 비트 소비를 저감할 수 있다.

보다 소수의 비트 밖에 소비하지 않는 허프만 부호를 채용함으로써, 차분 인덱스를 부호화하기 위한 전체적 비트 소비를 저감할 수 있다.

도 1은 ITU－T G.719의 프레임 워크(framework)를 나타내는 도면
도 2는 놈 팩터 양자화를 위한 코드북를 나타내는 도면
도 3은 놈 팩터 양자화 및 부호화의 프로세스를 나타내는 도면
도 4는 놈 팩터 인덱스 부호화를 위해 사용되는 허프만 테이블을 나타내는 도면
도 5는 본 발명을 채용하는 프레임 워크를 나타내는 도면
도 6a은 사전 정의된 허프만 테이블의 일례를 나타내는 도면
도 6b는 사전 정의된 허프만 테이블의 일례를 나타내는 도면
도 7은 마스킹 곡선의 도출을 나타내는 도면
도 8은 어떻게 해서 차분 인덱스의 범위를 좁히는지를 나타내는 도면
도 9는 어떻게 해서 인덱스의 변경을 행하는지를 나타내는 흐름도
도 10은 어떻게 하면 허프만 테이블을 설계할 수 있는지를 나타내는 도면
도 11은 본 발명의 실시형태 2의 프레임 워크를 나타내는 도면
도 12는 본 발명의 실시형태 3의 프레임 워크를 나타내는 도면
도 13은 본 발명의 실시형태 4의 엔코더를 나타내는 도면
도 14는 본 발명의 실시형태 4의 디코더를 나타내는 도면

본 발명의 주요한 원리가, 도5부터 도12의 도움을 빌려, 본 섹션에서 설명된다. 당업자이면, 본 발명의 주지로부터 일탈하는 일 없이, 본 발명을 변경하여, 적합화 할 수가 있다. 설명을 용이하게 하기 위해서, 도면이 제공된다.

(실시형태 1)

도5는, 본 발명의 코덱(codec)을 나타내고 있고, 본 발명의 코덱은, 본 발명의 고안을 허프만 부호화에 적용하는, 엔코더 및 디코더를 구비한다.

도5에 나타나는 엔코더에서는, 서브밴드의 에너지가, 심리 음향 모델(501)에 의해 처리되어, 마스킹 임계값 Mask(n)을 도출한다. 도출된 Mask(n)에 따라, 양자화 오차가 마스킹 임계값을 밑도는 서브밴드의 놈 팩터의 양자화 인덱스가, 차분 인덱스의 범위를 보다 작게 할 수 있도록 변경된다(502).

변경된 인덱스의 차분 인덱스가, 이하의 수학식에 따라 계산된다.

[수 2]

Diff_index(n) =New_Index(n)-New_Index(n-1)+15, n∈[1,43]...(식2)

허프만 부호화의 차분 인덱스의 범위는, 이하의 수학식에 나타나는 것처럼 식별된다(504).

[수 3]

범위=[Min(Diff_index(n)), Max(Diff_index(n))]...(식3)

범위의 값에 따라서, 1조의 사전 정의된 허프만 테이블 중의, 그 특정 범위를 위해 설계된 허프만 테이블이, 차분 인덱스의 부호화(506)를 위해서 선택된다(505). 예로서 입력 프레임의 모든 차분 인덱스 중에서, 최소값이 12, 최대값이 18인 경우, 범위=［12, 18］이다. ［12, 18］을 위해서 설계된 허프만 테이블이, 부호화를 위한 허프만 테이블로서 선택된다.

이 1조의 사전 정의된 허프만 테이블은, 차분 인덱스의 범위에 따라 설계되고(자세한 것은 뒷 부분에서 설명됨), 구성된다. 선택된 허프만 테이블을 나타내는 플래그 신호와, 부호화 인덱스가, 디코더 측에 전송된다.

허프만 테이블을 선택하기 위한 다른 방법은, 모든 허프만 테이블을 사용해서, 전부의 비트 소비를 계산하고, 그 후, 비트를 가장 조금 밖에 소비하지 않는 허프만 테이블을 선택하는 것이다.

예로서 4개 1조인 사전 정의된 허프만 테이블이, 도6에 나타나 있다. 이 예에서는, 4개의 사전 정의된 허프만 테이블이 존재하고, 각각,［13, 17］,［12, 18］,［11, 19］, 및 ［10, 20］의 범위를 커버한다. 표6.1은, 플래그 신호와, 대응하는 허프만 테이블의 범위를 나타내고 있다. 표6.2는,［13, 17］의 범위내의 모든 값에 대한 허프만 부호를 나타내고 있다. 표6.3은,［12, 18］의 범위내의 모든 값에 대한 허프만 부호를 나타내고 있다. 표6.4는,［11, 19］의 범위내의 모든 값에 대한 허프만 부호를 나타내고 있다. 표6.5는, ［10, 20］의 범위내의 모든 값에 대한 허프만 부호를 나타내고 있다.

도6의 허프만 코드북을, 도4에 나타난 원래의 허프만 테이블과 비교해 보면, 동일한 값의 허프만 코드북이, 보다 소수의 비트 밖에 소비하고 있지 않는 것을 알 수 있다. 이것이 비트를 절약하는 방법에 대한 설명이다.

도5에 나타나는 디코더에서는, 플래그 신호에 따라서, 대응하는 허프만 테이블이, 차분 인덱스의 복호(508)를 위해서 선택된다(507). 차분 인덱스는, 이하의 수학식에 따라, 놈 팩터의 양자화 인덱스를 재구성하기 위해서 사용된다.

[수 4]

Diff_index(n) =Index(n) +Index(n-1)-15, n∈[1,43]...(식4)

도7은, 입력 신호의 마스킹 곡선의 도출을 나타내고 있다. 맨먼저, 서브밴드의 에너지가 계산되고, 이 에너지를 이용하여, 입력 신호의 마스킹 곡선이 도출된다. 마스킹 곡선의 도출은, MPEG AAC 코덱에 있어서의 마스킹 곡선 도출 방법 등, 종래 기술의 몇가지 기존 기술을 이용할 수 있다.

도8은, 어떻게 해서 차분 인덱스의 범위를 좁히는지를 나타내고 있다. 맨먼저, 마스킹 임계값과 서브밴드의 양자화 오차 에너지 사이의 비교가 행해진다. 양자화 오차 에너지가 마스킹 임계값을 밑도는 서브밴드에 대해서는, 인덱스가, 인접 서브밴드에 보다 가까운 값으로 변경되지만, 음 품질에 영향이 미치지 않도록, 대응하는 양자화 오차 에너지가 마스킹 임계값을 넘지 않는 변경이 보증된다. 변경 후, 인덱스의 범위를 좁힐 수 있다. 이것을 이하에서 설명한다.

도8에 나타나는 것처럼, 서브밴드 0, 2, 및 4에 대해서는, 양자화 오차 에너지가 마스킹 임계값을 밑돌기때문에, 인덱스가, 인접 인덱스에 보다 가까워지도록 변경된다.

인덱스의 변경은, 이하와 같이 행할 수 있다(서브밴드 2를 예로서 사용한다). 도2에 나타나는 것처럼, 큰 인덱스는, 보다 작은 에너지에 대응하고, 그 경우, Index(1)은, Index(2)보다 작다. Index(2)의 변경은, 실제로는, 그 값을 감소시키는 것이다. 그것은, 도9에 나타나는 것처럼 행할 수 있다.

서브밴드 1 및 3에 대해서는, 에너지가 마스킹 임계값을 웃돌기 때문에, 인덱스는, 변경되지 않는다. 그 경우, 차분 인덱스는, 중앙에 보다 가까워진다. 서브밴드 1을 예로서 사용한다.

[수 5]

Diff_index(1) =Index(1)-Index(0)+15, n∈[1,43] ... (식 5)

[수 6]

New_Diff_index(1) =New_Index(1)-New_Index(0)+15, n∈[1,43]

... (식6)

[수 7]

∵New_index(1)-New_Index(0)<Index(1)-Index(0)∴New_diff_Index(1)-15<Diff_Index(1)-15 ... (식 7)

본 발명에서는, 허프만 테이블의 설계는, 대규모의 입력 시퀀스 데이터베이스를 이용하여, 오프라인에서 행할 수 있다. 이 프로세스는, 도10에 있어서 표시되어 있다.

서브밴드의 에너지는, 심리 음향 모델(1001)에 의해 처리되어, 마스킹 임계값 Mask(n)을 도출한다. 도출된 Mask(n)에 따라, 양자화 오차 에너지가 마스킹 임계값을 밑도는 서브밴드의 놈 팩터의 양자화 인덱스가, 차분 인덱스의 범위를 보다 작게 할 수 있도록 변경된다(1002).

변경된 인덱스의 차분 인덱스가 계산된다(1003).

허프만 부호화를 위한 차분 인덱스의 범위가 식별된다(1004). 각 범위값에 대해서, 동일한 범위를 가지는 모든 입력 신호가 모아져, 범위내의 차분 인덱스의 각 값의 확률 분포가 계산된다.

각 범위값에 대해서, 1개의 허프만 테이블이, 확률에 따라 설계된다. 허프만 테이블을 설계하기 위해서, 여기서는, 몇가지의 종래의 허프만 테이블 설계 방법을 사용할 수 있다.

(실시형태 2)

이 실시형태에서는, 비트 절약을 유지할 수 있지만, 차분 인덱스를 원래의 값에 보다 가까운 값으로 회복하는 방법이 도입된다.

도11에 나타나는 것처럼, 1105에 있어서, 허프만 테이블이 선택된 후, 원래의 양자화 인덱스 사이의 차분 인덱스가 계산된다. 선택된 허프만 테이블에 있어서, 원래의 차분 인덱스와 새로운 차분 인덱스가, 동일한 비트를 소비하는지 어떤지, 그것들이 비교된다.

선택된 허프만 테이블에 있어서, 원래의 차분 인덱스와 새로운 차분 인덱스가, 동일 수의 비트를 소비할 경우, 변경된 차분 인덱스가, 원래의 차분 인덱스로 회복된다. 원래의 차분 인덱스와 새로운 차분 인덱스가, 동일 수의 비트를 소비하지 않을 경우, 원래의 차분 인덱스에 가장 가깝고, 동일 수의 비트를 소비하는, 허프만 테이블내의 부호어가, 회복된 차분 인덱스로서 선택된다.

이 실시형태의 이점은, 놈 팩터의 양자화 오차를 보다 작게 할 수 있지만, 비트 소비는 실시형태 1과 동일하다는 것이다.

(실시형태 3)

이 실시형태에서는, 심리 음향 모델의 사용을 회피하고, 무엇인가의 에너지비 임계값만을 사용하는 방법이 도입된다.

도12에 표시되는 것처럼, 마스킹 임계값을 도입하기 위해서, 심리 음향 모델을 사용하는 대신에, 서브밴드의 에너지와 사전 정의된 에너지비 임계값이, 그 특정 서브밴드의 양자화 인덱스를 변경해야하는 지 어떤지를 판정하기 위해서 사용된다(1201). 이하의 수학식에 나타나는 것처럼, 현재의 서브밴드와 인접 서브밴드 사이의 에너지비가 임계값을 밑도는 경우, 현재의 서브밴드는 그다지 중요하다고는 간주되지 않고, 현재의 서브밴드의 양자화 인덱스를 변경할 수 있다.

[수 8]

Energy(n)/Energy(n-1)<Threshold&& Energy(n)/Energy(n+1)<Thres

hold...(식 8)

양자화 인덱스의 변경은, 이하의 수학식에 나타나는 것처럼, 행할 수 있다.

[수 9]

여기서,

NF_{New_index(n)}는, 변경된 양자화 인덱스를 사용하는 서브밴드 n의 복호된 놈 팩터를 의미하고,

NF_index(n)는, 원래의 양자화 인덱스를 사용하는 서브밴드n의 복호된 놈 팩터를 의미하고,

Energy(n-1)은, 서브밴드n-1의 에너지를 의미하고,

Energy(n)은,서브밴드 n의 에너지를 의미하고,

Energy(n+1)은, 서브밴드n+1의 에너지를 의미한다.

이 실시형태의 이점은, 대단히 복합적인 복잡도가 높은 심리 음향 모델을 회피할 수 있다는 것이다.

(실시형태 4)

이 실시형태에서는, 차분 인덱스의 범위를 좁히면서도, 차분 인덱스를 완전하게 재구성할 수 있는 방법이 도입된다.

도13에 나타나는 것처럼, 차분 인덱스가, 이하의 수학식에 따라, 원래의 양자화 인덱스로부터 도출된다(1301).

[수 10]

Diff_index(n)=Index(n)-Index(n-1)+15 ...(식 10)

여기서, Diff_index(n)은, 서브밴드 n의 차분 인덱스를 의미하고, index(n)은, 서브밴드 n의 양자화 인덱스를 의미하고, index(n-1)은, 서브밴드 n－1의 양자화 인덱스를 의미한다.

차분 인덱스의 범위를 축소하기 위해서, 몇가지 차분 인덱스의 값을 변경하기 위한 모듈이 실시된다(1302).

변경은, 선행 서브밴드의 차분 인덱스의 값과 임계값에 따라 행해진다.

(n≥1일 경우에) 차분 인덱스를 변경하기 위한 1가지 방법은, 이하의 수학식에 나타나는 것처럼 행할 수 있고, 제1의 차분 인덱스는, 디코더 측에 있어서 완전한 재구성을 달성하기 위해서 변경되지 않는다.

[수 11]

if Diff_index(n-1)>(15+Threshold),Diff index_new(n) =Diff_index(n) +Diff_index(n-1)-(15+Threshold);else if Diff_index(n-1)<(15-Thres hold),Diff index_new(n) =Diff_index(n) +Diff_index(n-1)-(15-Thres hold);otherwiseDiff index_new(n) =Diff_index(n)...(식 11)

여기서, n≥1이고, Diff_index(n)은, 서브밴드 n의 차분 인덱스를 의미하고, Diff_index(n-1)은, 서브밴드 n－1의 차분 인덱스를 의미하고, Diff_index_new(n)은, 서브밴드 n의 새로운 차분 인덱스를 의미하고, Threshold는, 차분 인덱스의 변경을 행해야 할지 어떨지를 검사하기 위한 값을 의미한다.

이 변경이 차분 인덱스의 범위를 축소할 수 있는 이유는, 다음과 같이 설명된다. 즉, 오디오/음성 신호의 경우, 1개의 주파수 대역으로부터 다른 주파수 대역으로 옮김에 따라서, 에너지가 변동하는 것은 사실이다. 그러나, 통상은 인접 주파수 대역으로부터의 급격한 에너지 변화는 일어나지 않는 것이 관찰된다. 1개의 주파수 대역으로부터 다른 주파수 대역으로 옮김에 따라서, 에너지는 서서히 증가, 또는 감소한다. 에너지를 나타내는 놈 팩터도 서서히 변화한다. 놈 팩터의 양자화 인덱스도 서서히 변화하고, 그 경우, 차분 인덱스는 작은 범위내에서 변동한다.

급격한 에너지 변화는, 큰 에너지를 가지는 몇가지 주요한 음 성분이, 주파수 대역에 있어서 영향을 나타내기 시작했을 때, 또는 그러한 영향이 쇠약해지기 시작했을 때에 한해서 발생한다. 에너지를 나타내는 놈 팩터도, 선행 주파수 대역으로부터의 급격한 변화를 가지고, 놈 팩터의 양자화 인덱스도, 갑자기, 큰 값으로 증가, 또는 감소한다. 그 경우, 대단히 큰, 또는 대단히 작은 차분 인덱스가 초래된다.

예로서 주파수 서브밴드 n에 있어서 커다란 에너지를 가지는 1개의 주요한 음 성분이 존재한다고 가정한다. 주파수 서브밴드 (n－1) 및 (n＋1)에 있을 동안은, 주요한 음 성분은 존재하지 않는다. 그 경우, 도2의 허프만 테이블에 의하면, Index(n)은, 매우 작은 값을 가지지만, Index(n－1) 및 Index(n＋1)은, 매우 큰 값을 가진다. 그 경우, 수학식(10)에 의하면, Diff＿index(n)은, 매우 작고((15－Threshold)보다 작음), Diff＿index(n＋1)은, 매우 크다. 수학식(11)의 변경이 행해질 경우, 이하의 수학식(12)에 의하면, 차분 인덱스의 상한을 필시 낮출 수 있고, 따라서, 차분 인덱스의 범위를 좁힐 수 있다.

[수 12]

∵Diff index_new(n-1)<(15-Threshold);∴Diff index(n-1)-(15-Thres hold)<0∵Diff index_new(n) =Diff_index(n) +Diff_index(n-1)- (15-Threshold)∴Diff index_new(n)<Diff_index(n) ...(식 12)

도14에 나타나는 것처럼, 디코더측에서는, 차분 인덱스를 완전하게 재구성하기 위해서, 「차분 인덱스의 재구성」이라는 이름의 1개의 모듈(1403)이 실시된다. 재구성은, 선행 서브밴드의 차분 인덱스의 값과 임계값에 따라서 행해진다. 디코더에 있어서의 임계값은, 엔코더에 있어서 사용된 임계값과 동일하다.

엔코더에 있어서의 변경에 대응하는, (n≥1일 경우에) 차분 인덱스를 재구성하기 위한 방법은, 이하의 수학식에 나타나는 것처럼 행할 수 있고, 제1의 차분 인덱스는, 엔코더 측에 있어서 변경되지 않기 때문에, 직접 수취된다.

[수 13]

if Diff_index(n-1)>(15+Threshold),Diff index(n) =Diff_index_new(n)

-Diff_index(n-1)+(15+Threshold);else if Diff_index(n-1)<(15-Thres hold),Diff index(n) =Diff_index_new(n)-Diff_index(n-1)+(15-Thres

hold);otherwiseDiff index(n) =Diff_index_new(n) ...(식 13)

여기서, n≥1이고, Diff_index(n)은, 서브밴드 n의 차분 인덱스를 의미하고, Diff_index(n-1)은, 서브밴드 n－1의 차분 인덱스를 의미하고, Diff_index_new(n)은, 서브밴드 n의 새로운 차분 인덱스를 의미하고, Threshold는, 차분 인덱스의 재구성을 행해야 할지 어떤지를 검사하기 위한 값을 의미한다.

위의 수학식(11) 및 수학식(13)에 나타나는 것처럼, 차분 인덱스의 변경을 행해야 할지 어떨지, 또 얼마만큼의 변경을 행해야 하는지는 모두, 선행 주파수 대역의 차분 인덱스에 의존한다. 선행 주파수 대역의 차분 인덱스를 완전하게 재구성할 수 있는 경우, 현재의 차분 인덱스도 완전하게 재구성할 수 있다.

위의 수학식(11) 및 수학식(13)에 나타나는 것처럼, 제1의 차분 인덱스는, 엔코더 측에 있어서 변경되지 않고, 직접 수취되어, 완전하게 재구성할 수 있고, 그 후, 제2의 차분 인덱스는, 제1의 차분 인덱스의 값에 따라 재구성할 수 있고, 그 후, 제3의 차분 인덱스, 제4의 차분 인덱스, 그 이후의 인덱스도, 동일한 절차를 밟음으로써, 모든 차분 인덱스를 완전하게 재구성할 수 있다.

이 실시형태의 이점은, 차분 인덱스의 범위를 축소할 수 있으면서, 디코더 측에 있어서, 차분 인덱스를 여전히 완전하게 재구성할 수 있다는 것이다. 따라서, 양자화 인덱스의 비트 이그잭트니스(bit exactness)를 보지(保持)하면서, 비트 효율을 개선할 수 있다.

또, 본 발명이 하드웨어에 의해 구성되는 케이스가, 상기의 실시형태를 이용해 설명되어 있지만, 본 발명은, 하드웨어와 조합된 소프트웨어에 의해 실시할 수도 있다.

상기의 실시형태의 설명에 있어서 이용된 각 기능 블록은, 집적회로에 의해 구성되는 LSI로서 일반적으로 실시할 수 있다. 이들은, 개개의 칩으로 할 수 있고, 또는 부분적 혹은 전체적으로 단일 칩상에 포함할 수 있다. 여기에서는, 「LSI」가 채용되어 있지만, 이것은, 다른 집적도에 따라, 「IC」, 「시스템 LSI」, 「슈퍼 LSI」, 또는 「울트라 LSI」라고 불리는 일도 있다.

또, 회로 집적의 방법은, LSI에 한정되지 않고, 전용 회로 또는 범용 프로세서를 사용하는 실시도 가능하다. LSI 제조 후, LSI내의 회로 셀의 접속 및 설정을 재구성할 수 있는, FPGA(필드 프로그래머블 게이트 어레이) 또는 재구성 가능 프로세서의 이용도 가능하다.

또, 반도체 기술 또는 다른 파생 기술의 진보 결과, LSI에 대체되는 집적회로 기술이 출현했을 경우, 그 기술을 사용해서 기능 블록 통합을 실행하는 것도 당연히 가능하다. 바이오 테크놀로지(Biotechnology)의 이용도 가능하다.

2011년 4월 20일에 출원한 특허출원 2011－94295 및 2011년 6월 15일에 출원한 특허출원 2011－133432의 일본 출원에 포함되는 명세서, 도면 및 요약서의 개시 내용은, 모두 본원에 원용된다.

[산업상의 이용 가능성]

본 발명에 의한, 부호화 장치, 복호 장치, 및 부호화 방법 및 복호 방법은, 무선 통신 단말장치, 이동 통신 시스템내의 기지국 장치, 전화 회의 단말장치, TV 회의 단말장치, 및 보이스 오버 인터넷 프로토콜(VOIP) 단말장치에 적용 가능하다.

101 과도 상태 검출기
102 변환
103 놈 추정
104 놈 양자화 및 부호화
105 스펙트럼 정규화
106 놈 조정
107 비트 할당
108 격자 벡터 양자화 및 부호화
109 노이즈 레벨 조정
110 다중화
111 역다중화
112 격자 복호
113 스펙트럼 필 생성기
114 포락선 정형
115 역변환
301 스칼라 양자화(32개의 스텝)
302 스칼라 양자화(40개의 스텝)
303 직접적 전송(5비트)
304 차분
305 고정장 부호화
306 허프만 부호화
501 심리 음향 모델
502 인덱스의 변경
503 차분
504 범위의 검사
505 허프만 부호 테이블의 선택
506 허프만 부호화
507 허프만 테이블의 선택
508 허프만 복호
509 합산
1001 심리 음향 모델
1002 인덱스의 변경
1003 차분
1004 범위의 검사
1005 확률
1006 허프만 부호의 도출
1101 심리 음향 모델
1102 인덱스 변경
1103 차분
1104 범위의 검사
1105 허프만 부호 테이블의 선택
1106 차분
1107 차분 인덱스의 회복
1108 허프만 부호화
1201 인덱스의 변경
1202 차분
1203 범위의 검사
1204 허프만 부호 테이블의 선택
1205 허프만 부호화
1301 차분
1302 차분 인덱스의 변경
1303 범위의 검사
1304 허프만 부호 테이블의 선택
1305 허프만 부호화
1401 허프만 부호 테이블의 선택
1402 허프만 부호화
1403 차분 인덱스의 재구성
1404 합산

Claims

시간 영역 입력 신호를 주파수 영역 신호로 변환하는 변환부와,
입력 신호의 주파수 스펙트럼을 복수의 서브밴드로 분할하는 대역 분할부와,
각 서브밴드의 에너지 레벨을 나타내는 놈 팩터를 도출하는 놈 팩터 계산부와,
상기 놈 팩터를 양자화하는 양자화부와,
양자화 인덱스를 변경하는 인덱스 변경부와,
몇가지의 사전 정의된 허프만 테이블 중에서 허프만 테이블을 선택하는 허프만 테이블 선택부와,
상기 선택된 허프만 테이블을 사용해서, 상기 인덱스를 부호화하는 허프만 부호화부와,
상기 선택된 허프만 테이블을 나타내는 플래그 신호를 전송하는 플래그 신호 전송 세션(session)을 구비하는,
오디오/음성 부호화 장치.
청구항 1에 있어서,
상기 인덱스 변경부가,
각 서브밴드의 상기 에너지를 계산하는 에너지 계산부와,
각 서브밴드의 마스킹 임계값을 도출하는 심리 음향 모델부와,
양자화 오차가 상기 도출된 마스킹 임계값을 밑도는 서브밴드를 식별하는 검사부와,
상기 식별된 서브밴드의 인덱스를 변경하는 인덱스 변경부이며, 상기 변경이, 상기 식별된 서브밴드의 인덱스를 그 인접 서브밴드의 인덱스에 보다 가깝게 하는 한편으로, 새로운 인덱스의 양자화 오차가, 여전히 상기 도출된 마스킹 임계값을 밑도는 것이 보증되는, 인덱스 변경부를 구비하는,
오디오/음성 부호화 장치.
청구항 1에 있어서,
상기 인덱스 변경부가,
각 서브밴드의 상기 에너지를 계산하는 에너지 계산부와, 에너지가 인접 서브밴드의 에너지의 일정한 퍼센티지를 밑도는 서브밴드를 식별하는 검사부와,
상기 식별된 서브밴드의 인덱스를 변경하는 인덱스 변경부이며, 상기 변경이, 상기 식별된 서브밴드의 인덱스를 그 인접 서브밴드의 인덱스에 보다 가깝게 하는, 인덱스 변경부를 구비하는,
오디오/음성 부호화 장치.
청구항 1에 있어서,
상기 허프만 테이블 선택이,
상기 인덱스의 범위를 계산하는 범위 계산부와,
상기 계산된 범위를 위해서 사전 정의된 허프만 테이블을 선택하는 허프만 테이블 선택부를 구비하는,
오디오/음성 부호화 장치.
청구항 1에 있어서,
상기 허프만 테이블 선택이,
모든 상기 사전 정의된 허프만 테이블의 비트 소비를 계산하는 비트 소비 계산부와,
소비하는 비트가 가장 적은 허프만 테이블을 선택하는 허프만 테이블 선택부를 구비하는,
오디오/음성 부호화 장치.
청구항 1에 있어서,
상기 허프만 부호화부가,
상기 변경된 인덱스 값을, 동일 수의 비트를 소비하지만, 원래의 인덱스에 보다 가까운 값으로 회복하는 인덱스 회복부와,
상기 회복된 인덱스를 부호화하는 허프만 부호화부를 구비하는,
오디오/음성 부호화 장치.
청구항 1에 있어서,
상기 허프만 부호화부가,
현재의 서브밴드와 선행 서브밴드 간의 차분 인덱스를 계산하는 차분 인덱스 계산부와,
상기 차분 인덱스를 부호화하는 허프만 부호화부를 구비하는,
오디오/음성 부호화 장치.
시간 영역 입력 신호를 주파수 영역 신호로 변환하는 변환부와,
입력 신호의 주파수 스펙트럼을 복수의 서브밴드로 분할하는 대역 분할부와,
각 서브밴드의 에너지 레벨을 나타내는 놈 팩터를 도출하는 놈 팩터 계산부와,
상기 놈 팩터를 양자화하는 양자화부와,
현재의 서브밴드와 선행 서브밴드 사이의 차분 인덱스를 계산하는 차분 인덱스 계산부와,
상기 차분 인덱스의 범위를 축소하기 위해서, 상기 차분 인덱스를 변경하는 차분 인덱스 변경부이며, 상기 변경이, 상기 선행 서브밴드의 차분 인덱스가 정의된 범위를 웃돌았을, 또는 밑돌았을 경우에 한하여, 차분 인덱스에 대해서 행해지는, 차분 인덱스 변경부와,
몇가지의 사전 정의된 허프만 테이블 중에서 허프만 테이블을 선택하는 허프만 테이블 선택부와,
상기 선택된 허프만 테이블을 사용해서, 상기 차분 인덱스를 부호화하는 허프만 부호화부와,
상기 선택된 허프만 테이블을 나타내는 플래그 신호를 전송하는 플래그 신호 전송부를 구비하는,
오디오/음성 부호화 장치.
청구항 8에 있어서,
상기 차분 인덱스 변경부가,
상기 선행 서브밴드의 상기 차분 인덱스와 상기 정의된 범위에 대응하는 경계 사이의 차분에 따라, 오프셋(offset)값을 계산하는 오프셋값 계산부와,
상기 선행 서브밴드의 상기 차분 인덱스가 상기 정의된 범위를 밑돌았을 경우에, 현재의 차분 인덱스로부터 상기 오프셋값을 감산하고, 상기 선행 서브밴드의 상기 차분 인덱스가 상기 정의된 범위를 웃돌았을 경우에, 현재의 차분 인덱스에 상기 오프셋값을 가산하는, 변경부를 구비하는,
오디오/음성 부호화 장치.
선택된 허프만 테이블을 나타내는 플래그 신호를 복호하는 플래그 신호 복호 세션과,
상기 플래그 신호에 따라, 허프만 테이블을 선택하는 허프만 테이블 선택부와,
상기 선택된 허프만 테이블을 사용해서, 인덱스를 복호하는 허프만 복호부와,
놈 팩터를 역양자화하는 역양자화부와,
상기 놈 팩터를 이용해서 스펙트럼 계수를 재구성하는 계수 재구성부와,
주파수 영역 입력 신호를 시간 영역 신호로 변환하는 변환부를 구비하는,
오디오/음성 복호 장치.
청구항 10에 있어서,
상기 허프만 복호부가,
차분 인덱스를 복호하는 허프만 복호부와,
상기 복호된 차분 인덱스를 사용해서, 양자화 인덱스를 계산하는 인덱스 계산부를 구비하는,
오디오/음성 복호 장치.
청구항 10에 있어서,
상기 허프만 복호부가,
차분 인덱스를 복호하는 허프만 복호부와,
상기 차분 인덱스의 값을 재구성하는 차분 인덱스 재구성부이며, 상기 재구성이, 선행 서브밴드의 차분 인덱스가 정의된 범위를 웃돌았을, 또는 밑돌았을 경우에 한해서, 차분 인덱스에 대해서 행해지는, 차분 인덱스 재구성부와,
상기 복호된 차분 인덱스를 사용해서, 양자화 인덱스를 계산하는 인덱스 계산부를 구비하는,
오디오/음성 복호 장치.
청구항 12에 있어서,
상기 차분 인덱스 재구성부가,
상기 선행 서브밴드의 상기 차분 인덱스와 상기 정의된 범위에 대응하는 경계 사이의 차분에 따라서, 오프셋값을 계산하는 오프셋값 계산부와,
상기 선행 서브밴드의 상기 차분 인덱스가 상기 정의된 범위를 밑돌았을 경우에, 현재의 차분 인덱스로부터 상기 오프셋값을 감산하고, 상기 선행 서브밴드의 상기 차분 인덱스가 상기 정의된 범위를 웃돌았을 경우에, 현재의 차분 인덱스에 상기 오프셋값을 가산하는, 변경부를 구비하는,
오디오/음성 복호 장치.