[go: up one dir, main page]
More Web Proxy on the site http://driver.im/

KR20070011100A - 다채널 오디오 코딩에서 오디오 신호의 에너지 보정방법 및그 보정을 위한 부호화된 오디오 신호 생성방법 - Google Patents

다채널 오디오 코딩에서 오디오 신호의 에너지 보정방법 및그 보정을 위한 부호화된 오디오 신호 생성방법 Download PDF

Info

Publication number
KR20070011100A
KR20070011100A KR1020060055012A KR20060055012A KR20070011100A KR 20070011100 A KR20070011100 A KR 20070011100A KR 1020060055012 A KR1020060055012 A KR 1020060055012A KR 20060055012 A KR20060055012 A KR 20060055012A KR 20070011100 A KR20070011100 A KR 20070011100A
Authority
KR
South Korea
Prior art keywords
energy
information
band
correction
energy correction
Prior art date
Application number
KR1020060055012A
Other languages
English (en)
Inventor
방희석
오현오
김동수
임재현
Original Assignee
엘지전자 주식회사
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 엘지전자 주식회사 filed Critical 엘지전자 주식회사
Publication of KR20070011100A publication Critical patent/KR20070011100A/ko

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/008Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Mathematical Physics (AREA)
  • Stereophonic System (AREA)

Abstract

본 발명은 다채널 오디오 코딩에서 오디오 신호의 에너지 보정방법을 제공하기 위한 것으로, 에너지 보정정보를 이용하여 다채널 오디오 신호의 에너지를 보정하는 방법에 있어서, 에너지 보정정보를 해석하는 단계와; 다채널 오디오 신호를 디코딩 할 때, 상기 해석된 정보를 적용 가능한 값으로 변환하는 단계와; 변환된 값을 이용하여 다채널 오디오 신호를 디코딩 할 때, 보정을 수행하는 단계를 포함한다.
다채널, 멀티채널, multi-channel, 에너지, 레벨, 보상, 보정

Description

다채널 오디오 코딩에서 오디오 신호의 에너지 보정방법 및 그 보정을 위한 부호화된 오디오 신호 생성방법{METHODS FOR ENERGY COMPENSATION FOR MULTI-CHANNEL AUDIO CODING AND METHODS FOR GENERATING ENCODED AUDIO SIGNAL FOR THE COMPENSATION}
도 1은 본 발명에 일실시예에 의한 다채널 오디오 코딩에서 오디오 신호의 에너지 보정방법을 이용하여 오디오 신호를 디코딩하는 디코딩 장치의 블록 구성도이고,
도 2는 도 1에 도시된 다채널 디코더의 상세 블록도이고,
도 3은 본 발명의 일실시예에 의한 다채널 오디오 코딩에서 오디오 신호의 에너지 보정방법을 이용하여 오디오 신호를 인코딩하는 인코딩 장치의 블록 구성도이고,
도 4와 도 5는 본 발명의 일실시예에 의한 부호화된 오디오 신호의 생성방법에 의해 생성된 비트 스트림의 구조도이다.
* 도면의 주요 부분에 대한 부호의 설명 *
10: 신호 분리부 20: 오디오 디코더
30: 다채널 디코더 31: 고주파 밴드 에너지 보상부
32: 전체 밴드 에너지 보상부 33: 다채널 생성부
50: 공간 인코더 60: 공간 비트 스트림 생성부
70: 에너지 보상 결정부 100: 오디오 비트 스트림
110: 다운믹스 비트 스트림 120: 에너지 보정정보
130: 공간정보 140: 에너지 보정 데이터
150: 다채널 오디오 신호 160: 다운믹스 오디오 신호
170: 다운믹스 신호정보
본 발명은 다채널(멀티채널, Mult-Channel) 오디오 코딩에 관한 것으로, 특히 다채널 신호의 에너지 보정을 수행하는 에너지 보정방법 및 그 보정을 위한 오디오 신호 생성방법에 관한 것이다.
최근에 디지털 오디오 신호에 대한 다양한 코딩기술 및 방법들이 개발되고 있으며, 이와 관련된 제품들이 생산되고 있다. 또한 멀티채널 오디오 신호의 공간 정보를 이용하여 모노 또는 스테레오 오디오 신호를 디코딩 단계에서 멀티채널로 바꾸는 코딩방법들이 개발되고 있으며, 이에 대한 제품이 실용화되고 있다.
그러나 상기와 같은 제품들을 이용한 멀티 채널 오디오 신호 처리 기법은 신호 처리과정에서 데이터량을 줄일 수 있다는 장점은 있지만 특정 채널 또는 특정 주파수 밴드에서 시간에 따라 신호의 왜곡이 발생한다는 문제점이 있었다.
이에 본 발명은 상기와 같은 종래의 제반 문제점을 해결하기 위해 제안된 것으로, 본 발명의 목적은 다채널 오디오 신호 코딩 방법에 대해, 다운믹스 신호 및 공간정보(spatial cue)로 다채널 신호를 재구성 하는 과정에서 발생하는 채널별, 주파수별 왜곡을 원신호와 다운믹스(down-mix)된 신호 또는 원신호와 최종 출력된 신호와의 차이를 바탕으로 구한 에너지 보정정보를 다채널 오디오 코딩에서 오디오 신호의 에너지 보정방법을 제공하는데 있다.
또한, 상기와 같은 보정을 위해 에너지 보정정보를 포함하여 부호화된 오디오를 생성하는 방법을 제공하는 것을 본 발명의 또다른 목적으로 하고 있다.
본 발명에 따른 다채널 오디오 코딩에서 오디오 신호의 에너지 보정방법은 에너지 보정정보를 이용하여 다채널 오디오 신호의 에너지를 보정하는 방법에 있어서, 상기 에너지 보정정보를 해석하는 단계와; 상기 다채널 오디오 신호를 디코딩 할 때, 상기 해석된 정보를 적용 가능한 값으로 변환하는 단계와; 상기 변환된 값을 이용하여 다채널 오디오 신호를 디코딩 할 때, 다채널 오디오 신호의 에너지 보정을 수행하는 단계를 포함한다.
또한, 본 발명에 따른 다채널 오디오 코딩에서 오디오 신호의 에너지 보정방법은 다채널 오디오 입력신호를 인코딩 할 때, 상기 다채널 오디오 입력신호를 다운믹스한 다운믹스 신호와 상기 다채널 오디오 입력신호간의 에너지 차이를 이용하여 에너지 보정정보를 구하는 단계와; 상기 구해진 에너지 보정정보와 공간정보를 결합하고, 결합된 결과를 이용하여 에너지를 보정하는 단계를 포함하여 수행될 수 도 있다.
한편, 본 발명에 따른 부호화된 오디오 신호 생성방법은 다채널 오디오 코딩에서 다채널 오디오 입력신호를 다운믹스하고, 상기 다채널 오디오 입력신호에서 공간정보를 추출하여, 상기 다운믹스 신호와 공간정보로 부호화된 오디오 신호를 생성하는 방법에 있어서, 상기 부호화된 오디오 신호는 에너지 보정정보를 포함하되, 상기 에너지 보정정보는 에너지 보정을 수행할 것인지 여부를 표현하거나, 에너지 보정을 수행할 경우 이전의 프레임의 에너지 보정정보를 그대로 사용할 것인지 아니면 새로운 에너지 보정정보를 사용할 것인지를 표시하는 플래그 정보와; 에너지 보정을 수행할 밴드에 대한 정보를 표시하는 보정수행 밴드 정보와; 및 상기 보정수행 밴드에 에너지 보정의 정도를 표시하는 보정수준 정보가 포함된다.
이하, 상기와 같은 본 발명, 다채널 오디오 코딩에서 오디오 신호의 에너지 보정방법 및 그 보정을 위한 부호화된 오디오 신호 생성방법의 기술적 사상에 따른 일실시예를 도면을 참조하여 설명하면 다음과 같다.
도 1은 본 발명에 일실시예에 의한 다채널 오디오 코딩에서 오디오 신호의 에너지 보정방법을 이용하여 오디오 신호를 디코딩하는 디코딩 장치의 블록 구성도로서, 도시된 디코딩 장치는 신호 분리부(10)와 오디오 디코더(20)와, 다채널 디코더(30)와, 에너지 레벨 보상부(40)로 구성된다.
이에 도시된 바와 같이, 에너지 보정정보가 포함된 오디오 비트 스트림(100)이 신호 분리부(10)에 인가되면, 상기 신호 분리부(10)에서는 상기 오디오 비트 스트림(100)에서 다운믹스 비트 스트림(110), 에너지 보정정보(120), 공간정보(130) 를 각각 별개로 추출하여 출력한다. 다운믹스 비트 스트림(110)의 일례로 모노 또는 스테레오 비트 스트림 등이 있다.
그리고 다운믹스 비트 스트림(110)은 오디오 디코더(20)로 인가되어 다운믹스 오디오 신호(160)로 출력된다. 오디오 디코더(20)에는 AAC(Advenced Audio Coding)나 MP3 등이 있다. 또한, 오디오 디코더(20)에서 다운믹스 오디오 신호(160)와는 별개로 다채널 오디오 신호(150)의 생성을 위해 다운믹스 신호정보(170)를 출력하기도 한다. 다운믹스 신호정보(170)라 함은 오디오 디코더(20)에서 복호할 때, 발생하는 정보를 말한다. 예를 들어, QMF(Quadrature Mirror Filter), MDCT(Modified Discrete Cosine Transform), PCM(Pulse Code Modulation) 등의 변환과정에서 발생하는 정보라고 할 수 있다.
한편, 다채널 디코더(30)에서는 오디오 디코더(20)에서 인가된 다운믹스 신호정보(170)와 신호 분리부(10)에서 인가된 공간정보(130)를 종합하여 다채널 오디오 신호(150)를 출력한다. 이 경우 신호 분리부(10)에서 추출된 에너지 보정정보(120)는 에너지 레벨 보상부(40)로 인가된 후, 다채널 디코더(30)에 적용할 수 있는 적절한 값(140, 에너지 보정 데이터)으로 변환되어 다채널 오디오 디코더(30)로 입력된다. 그러면 다채널 오디오 디코더(30)에서 보정을 수행하여 다채널 오디오 신호(150)를 출력하게 된다. 에너지 레벨 보상부(40)에서는 에너지 보정정보(120)를 해석하여 다채널 디코더(30)에 적용 가능한 값(140)으로 변환하여 출력하는데, 이 때, 에너지 보정정보를 해석하는 방법은 다양하게 존재하지만 다음과 같은 방법이 예가 될 수 있다.
에너지 레벨 보상부(40)로 전송된 에너지 보정정보(120)에 처리를 하지 않고 그대로 해석하거나, 에너지 보정정보(120)를 시간축 상에서 스무딩(smoothing)기법을 적용하거나, 에너지 보정정보(120)를 시간축 상에서 인터폴레이션(interpolation)기법을 적용할 수 있다. 또한, 에너지 보정정보(120)를 밴드사이에서 스무딩기법을 적용하거나, 에너지 보정정보(120)를 밴드사이에서 인터폴레이션기법 등이 적용될 수 있다.
스무딩(smoothing)은 로패스필터(lowpass filter) 등을 사용하는 방법으로 분산되어 존재하는 값 사이를 부드럽게 매꾸게 하는 것을 말한다. 하지만 분산되어 존재하고 있는 값 자체도 영향을 받아 그 값이 약간 변하기도 한다.
그리고 인터폴레이션(interpolation)의 경우 분산되어 존재하는 값 사이를 부드럽게 매꾸는 것은 스무딩과 유사하지만 분산되어 존재하는 값 자체는 변하지 않는다. 스무딩과 인터폴레이션은 모두 광의의 스무딩(smoothing)기법의 한 종류라 볼 수 있다. 단지 에너지 보정정보(120)를 해석하는 방법에 있어서의 구체적 적용을 로패스필터(lowpass filter)를 사용하여 할 수도 있고 인터폴레이션을 사용하여 할 수도 있다는 것을 예시한 것이다.
또한, 에너지 보정정보(120)를 시간축 상에서 스무딩기법을 적용하거나, 에너지 보정정보(120)를 시간축 상에서 인터폴레이션기법을 적용한다는 말은 다음과 같이 풀이될 수 있다.
특정 시간에 밴드는 저밴드에서 고밴드까지 여러개의 밴드가 있고, 이 밴드 중 특정 밴드의 값이 시간에 따라 변하게 될 때 이를 시간상에서 부드럽게 한다는 것이다.
또한, 에너지 보정정보(120)를 밴드사이에서 스무딩기법을 적용하거나, 에너지 보정정보(120)를 밴드사이에서 인터폴레이션기법을 적용한다는 말은 특정 시간에서 저밴드에서 고밴드까지의 보정값을 부드럽게 한다는 것이다.
그리고 MPEG Surround에 사용되는 밴드들은 각 밴드별로 레졸루션(Resolution)이 다르고 사용용도도 다르기 때문에, 에너지 보정정보(120)를 해석하여 다채널 디코더(30)에 적용 가능한 값으로 변환을 하여 도메인별로 적용할 수 있다. 예를 들면, 서브밴드 도메인에서 적용하거나, 하이브리드 밴드 도메인에서 적용하거나, QMF(Quadrature Mirror Filter) 밴드 도메인에서 적용하는 것이다. 에너지 보정정보(120)를 공간정보(130) 값에 적용할 수도 있다.
도 2는 도 1에 도시된 다채널 디코더의 상세 블록도로 도시된 다채널 디코더는 고주파 밴드 에너지 보상부(31)와, 전체 밴드 에너지 보상부(32)와, 다채널 생성부(33)로 구성된다.
이에 도시된 바와 같이, 본 발명의 일실시예에 의한 다채널 오디오 코딩에서 오디오 신호의 에너지 보정하는 방법은 에너지 보정정보 데이터(140)를 고주파 밴드 에너지 보상부(31)로 인가하여 고주파 밴드에만 보정을 수행하여 다채널 생성부(33)에서 다채널 오디오 신호(150)를 출력하게 하는 방법이 있고, 에너지 보정정보 데이터(140)를 전체 밴드 에너지 보상부(32)로 인가하여 전체 밴드에 보정을 수행하여 다채널 생성부(33)에서 다채널 오디오 신호(150)를 출력할 수도 있다. 이 경우 고주파 밴드만을 특별히 언급한 이유는 고주파 대역에서 상대적으로 왜곡이 많이 발생되기 때문이다.
도 3은 본 발명의 일실시예에 의한 다채널 오디오 코딩에서 오디오 신호의 에너지 보정방법을 이용하여 오디오 신호를 인코딩하는 인코딩 장치의 블록 구성도로서, 공간 인코더(50)와, 에너지 보상 결정부(70)와, 비트 스트림 생성부(60)로 구성된다.
이에 도시된 바와 같이, 다채널 오디오 입력신호(200)는 공간 인코더(50)로 인가되고, 인가된 다채널 오디오 입력신호(200)는 다운믹스되어 다운믹스 오디오 신호(210)로 출력된다. 다운믹스 오디오 신호(210)의 일예에는 모노 오디오 신호 또는 스테레오 오디오 신호 등이 있다.
또한, 공간 인코더(50)에서는 다채널 오디오 입력신호(200)를 인가받아 공간정보(220)를 추출해 낸다. 그리고 에너지 보상 결정부(70)에서는 에너지 보정수행 여부를 결정하여 에너지 보정정보(230)를 출력한다.
에너지 보상 결정부(70)에서는 다양한 방법으로 에너지 보정정보(230)를 출력하여 공간 비트 스트림 생성부(60)로 인가시킨다. 그러면 공간 비트 스트림 생성부(60)에서 에너지 보정정보(230)와 공간정보(220)를 하나의 비트열로 결합하여 공간 비트 스트림(240)을 출력한다.
다운믹스 오디오 신호(210)와 다채널 오디오 입력신호(200)를 비교하여 두 신호간의 에너지 차이에 대한 정보가 에너지 보정정보(230)가 될 수 있다.
구체적으로 해당 신호(다채널 오디오 입력신호(200)와 다운믹스 오디오 신호(210))를 적절한 밴드범위로 나누고, 각각의 밴드 에너지를 전체 밴드 에너지로 나누어 정규화(normalize)하고, 정규화된 각 밴드의 에너지 값들의 비로 두 신호간의 에너지 차이를 구할 수 있다.
밴드범위를 적절하게 나누는 방법은 다양하다. 예를 들면 저주파는 촘촘하게, 고주파는 상대적으로 듬성듬성하게 나눌 수 있다. 또한 등가사각대역폭(EBR, Equivalent Rectangular Bandwith) 스케일(scale)로 나누는 방법이 있다.
또한, 에너지 보정정보(230)를 구하는 방법은 다음과 같다.
우선, 다채널 오디오 입력신호(200)와 다운믹스 오디오 신호(210)의 각 밴드에 대하여 전체 에너지에 대한 각 밴드의 에너지 크기의 비(편의상 '제1에너지 크기 비'라 한다)를 구한다. 그리고 각 밴드 내에서의 다채널 오디오 입력신호(200)와 다운믹스 오디오 신호(210)의 에너지 크기의 비(편의상 '제2에너지 크기 비'라 한다)를 구하여, 제1에너지 크기 비와 제2에너지 크기 비를 종합한 것을 에너지 보정정보(230)로 사용한다.
여기서 종합한다는 말의 의미는 제1에너지 크기 비와 제2에너지 크기 비를 더하는 연산을 포함할 수도 있고, 각 경우에 따라 테이블(table)을 형성하는 것을 포함할 수도 있다. 이는 실험결과에 의해 구체적으로 구해질 수 있다.
또한, 공간 비트 스트림(240)에는 각 밴드의 전체 밴드에 대한 상대적인 에너지 크기의 정도에 따라 또는 각 밴드에 있어서 다채널 오디오 입력신호(200)와 다운믹스 오디오 신호(210)의 차이의 정도에 따라 에너지 보정정보(230)가 포함될 수도 그렇지 않을 수도 있다. 예를 들어, 해당 밴드의 에너지가 절대적으로 작은 양이라면 그것은 무시할 수도 있기에 그 밴드에 대해서는 에너지 보상을 해주지 않 을 수 있다. 또한, 전체 에너지가 아주 작은 경우, 예를 들어 아주 작은 소리는 에너지 보정을 한 효과가 없기 때문에 보정을 수행하지 않을 수도 있다. 물론 다채널 오디오 입력신호(200)와 다운믹스 오디오 신호(210)의 차이가 무시할 정도로 작은 경우에도 보정을 수행하지 않을 수 있다. 이렇듯 에너지 보정을 선택적으로 수행하는 이유는 사람의 귀가 모든 음성을 인지하는 것이 아니라 선택적으로 인지하기 때문이다. 따라서 사람의 귀로 인지하지 못하는 에너지 차이 또는 절대적인 에너지 양이 작은 경우에는 굳이 에너지 보정정보(230)를 추가하는 단계를 생략하여 다채널 데이터 량을 줄일 수 있다.
구체적으로 각 밴드의 전체 밴드에 대한 상대적인 에너지 크기가 일정값(기준값)을 넘는 경우는 에너지 보정정보(230)를 공간 비트 스트림(240)에 추가되게 하고, 그렇지 않은 경우에는 추가되지 않게 하는 방법을 취할 수 있다.
또한, 각 밴드에 있어서 다채널 오디오 입력신호(200)와 다운믹스 오디오 신호(210)의 차이가 일정값(기준값)을 넘는 경우는 에너지 보정정보(230)를 공간 비트 스트림(240)에 추가되게 하고, 그렇지 않은 경우에는 추가되지 않게 하는 방법을 취할 수도 있다.
또한, 에너지 보정정보(230)를 추가하는 순간을 정하는 비율의 값과 에너지 보정정보(230)의 추가가 중단되는 순간을 정하는 값을 다른 값으로 하여 시간에 따라 보정수행 정보의 추가와 중단이 심하게 반복되지 않게 하는 방법을 취할 수도 있다.
또한, 공간 비트 스트림(240)에는 각 밴드의 전체 밴드에 대한 상대적인 에 너지 크기의 정도와 각 밴드에 있어서 다채널 오디오 입력신호(200)와 다운믹스 오디오 신호(210)의 차이의 정도를 종합한 정보에 따라 에너지 보정정보(230)가 포함될 수도 그렇지 않을 수도 있다.
그러한 예로 각 밴드의 전체 밴드에 대한 상대적인 에너지 크기의 정도에 해당하는 인자와 각 밴드에 있어서 다채널 오디오 입력신호(200)와 다운믹스 오디오 신호(210)의 차이의 정도에 해당하는 인자 중 한 가지 인자만 보정을 해야 할 기준 비율을 넘고, 다른 한 가지 인자는 기준 비율을 넘지 못할 경우에는 다른 조건 인자를 정의하고, 이에 따라 보정수행 정보를 추가하는 방법을 취할 수 있다.
예를 들어, 한 가지 인자는 기준을 넘고, 다른 한 가지는 기준을 넘지 못한 경우, 그 둘의 값을 더한 값을 또다른 인자로 정의하여, 그 또다른 인자의 값이 일정 기준을 넘는 경우에 에너지 보정정보(230)를 공간 비트 스트림(240)에 추가하는 방법을 예로 들 수 있다.
이하, 본 발명의 또다른 일실시예인 부호화된 오디오 신호의 생성방법을 설명하기로 한다.
도 4와 도 5는 본 발명의 일실시예에 의한 부호화된 오디오 신호의 생성방법에 의해 생성된 비트 스트림의 구조도이다.
도시된 바와 같이, 다채널 오디오 신호를 처리하는 과정에서 신호의 왜곡이 발생하는 경우에 에너지 보정정보를 이용하여 신호의 에너지 보정을 하는 경우 그 보정을 위해 에너지 보정정보를 비트열에 삽입하는 방법이 취해진다. 이 경우 상기 비트열에 포함된 에너지 보정정보에는 다음과 같은 정보들이 포함된다.
상기 비트열에 삽입된 에너지 보정정보는 플래그 정보(200)와, 보정수행 밴드 정보(210)와, 보정수준 정보(220)로 구성될 수 있다. 플래그 정보(200)는 에너지 보정을 수행할 것인지 여부를 표현하거나, 에너지 보정을 수행할 경우 이 전 프레임의 에너지 보정정보를 그대로 사용할 것인지 아니면 새로운 에너지 보정정보를 사용할 것인지가 표시된다. 그리고 보정수행 밴드 정보(210)에는 보정을 수행할 밴드에 대한 정보가 표시된다. 보정수준 정보(220)에는 에너지 보정의 정도가 표시된다.
이 경우, 에너지 보정을 수행할지 말지는 다음과 같은 방법으로 행하여질 수 있다. 예를 들면, 어떤 기준 에너지를 정하고, 그 기준 에너지와 비교하여 기준 비율 이하로 에너지 차이가 발생하면 에너지 보정을 수행하지 않고, 그 이상으로 발생하면 에너지 보정을 수행하는 방법이 있다. 이와 같은 방법이 행해질 수 있는 이유는 기준 에너지 비율 이하로 에너지 차이가 발생했을 때는 신호의 왜곡이 미미하하기에 그 차이를 무시하여도 귀로 들었을 때는 별반 차이가 없기 때문이다.
또한, 보정수행 밴드 정보(210)에는 각각의 밴드에 대하여 보정을 수행할지 여부, 보정을 수행할 밴드의 시작과 끝, 보정을 수행할 밴드의 시작값, 보정을 수행할 밴드의 끝 값 중 적어도 하나가 포함될 수 있다.
또한, 보정수준 정보(220)에는 보정을 수행할 각각의 밴드에 대한 에너지 보정 값, 에너지 보정을 수행하는 밴드 전체에 대한 하나의 값, 에너지 보정을 수행하는 밴드들에 대한 하나의 기울기 값, 에너지 보정을 수행하는 밴드들에 대한 보정값 인터폴레이션을 위한 몇 개의 값 중 적어도 하나를 포함되는 것이 바람직하 다.
에너지 보정정보를 비트열에 삽입하는 방법의 일례로 에너지 보정을 수행할 경우에 있어 이 전 프레임의 보정정보를 그대로 사용할 때는 플래그 정보를 0으로 표시하고, 새로운 보정정보를 사용할 경우는 플래그 정보를 1로 표시하는 방법이 있다.
또한, 보정을 수행할 밴드의 시작점을 두 곳으로 구분하여, 어느 한 시작점부터 보정이 수행되게 하기 위해서는 보정수행 밴드 정보(210)를 0으로 표시하고, 또다른 한 시작점으로부터 보정을 수행하기 위해서는 보정수행 밴드 정보를 1로 표시하여 비트열에 삽입하는 방법이 있다. 예를 들어, 10번 밴드부터 보정수행을 할 때는 보정수행 밴드 정보(210)를 0으로 표시하고, 보정수행을 15번 밴드부터 수행할 때는 보정수행 밴드 정보(210)를 1로 표시할 수 있다. 상기와 같은 방법이 수행될 수 있는 이유는 둘 중의 하나의 경우로 대략적인 모델링이 가능하기 때문이다.
또한, 본 발명의 일실시예에 의한 보정정보를 비트열에 삽입하는 방법은 채널별로 구분되어지는 방법을 취할 수도 있다.
예를 들어, 도 5에 도시된 바와 같이, 보정수행 밴드 정보와 보정수준 정보를 둘로 구분하여, 왼쪽 채널에 적용할 때는 band information 1(310), Energy level information 1(320)에 해당 비트을 삽입하고, 오른쪽 채널에 적용할 때는 band information 2(310′), Energy level information 2(320′) 해당비트를 삽입하는 방법이 적용되어질 수 있다. 이 경우 센터 채널에 적용되는 보정값은 왼쪽 채널과 오른쪽 채널에 적용되는 보정값의 합의 1/2이 된다. 예를 들면, 왼쪽채널의 보정값이 3이고, 오른쪽 채널의 보정값이 6인 경우 센터채널에는 (3+6)/2= 4.5가 보정값으로 적용된다는 의미이다.
또한, 플래그 정보(200, 300)를 1로 표시한 경우에 있어, 보정을 수행하지 않는 경우는 보정수준 정보(210, 310, 310′)를 0으로 표시하고, 끝 밴드에서의 에너지 차이가 1.5dB가 되도록 선형적(Linear)으로 감쇄하고자 할 경우는 보정수준 정보(210, 310, 310′)를 1로 표시하며, 끝 밴드에서의 에너지 차이가 3dB가 되도록 선형적(Linear)으로 감쇄하고자 할 경우는 보정수준 정보(210, 310, 310′)를 2로 표시하여 비트열에 삽입할 수 있다. 상기와 같이, 에너지 감쇄를 1.5dB와 3dB의 두 가지로 구분하여 선형적(linear)으로 감쇄하는 이유는 더 자세히 나누어 감쇄할 수도 있지만, 그렇게 되면 비트 수가 너무 많이 쓰이게 되므로 최소비트에서 모델링하기 위해서이다. 또한, 선형적으로 감쇄하는 것은 에너지가 주파수와의 관계에서 선형성을 가질 때가 종종 있기 때문이다.
또한, 끝 밴드에서의 에너지 차이를 1.5dB, 3dB외에 더 자세히 나눌 필요가 있을 경우, 보정수준 정보(210, 310, 310′)를 3으로 표시하여 저장(Reserved)해 놓을 수도 있다.
또한, 상기 플래그 정보, 보정수행 밴드 정보, 보정수준 정보를 독립적으로 표시하지 않고 둘 또는 셋을 묶어서 하나의 값으로 표시하여 비트열에 삽입할 수도 있다.
이상에서 본 발명의 바람직한 실시예를 설명하였으나, 본 발명은 다양한 변화와 변경 및 균등물을 사용할 수 있다. 본 발명은 상기 실시예를 적절히 변형하여 동일하게 응용할 수 있음이 명확하다. 따라서 상기 기재 내용은 하기 특허청구범위의 한계에 의해 정해지는 본 발명의 범위를 한정하는 것이 아니다.
이상에서 살펴본 바와 같이, 본 발명에 의한 다채널 오디오 코딩에서 오디오 신호의 에너지 보정방법 및 그 보정을 위한 부호화된 오디오 신호 생성방법은 다채널 신호를 재구성 하는 과정에서 발생하는 채널별, 주파수별 왜곡을 에너지 보정정보를 이용하여 보상할 수 있는 효과가 있다.

Claims (19)

  1. 에너지 보정정보를 이용하여 다채널 오디오 신호의 에너지를 보정하는 방법에 있어서,
    (a) 상기 에너지 보정정보를 해석하는 단계와;
    (b) 상기 다채널 오디오 신호를 디코딩 할 때, 상기 해석된 정보를 적용 가능한 값으로 변환하는 단계와;
    (c) 상기 변환된 값을 이용하여 다채널 오디오 신호를 디코딩 할 때, 다채널 오디오 신호의 에너지 보정을 수행하는 단계를 포함하는 것을 특징으로 하는 다채널 오디오 코딩에서 오디오 신호의 에너지 보정방법.
  2. 제 1 항에 있어서,
    상기 (a)단계는 상기 에너지 보정정보에 처리를 하지 않는 그대로의 해석, 상기 에너지 보정정보를 시간축 상에서 스무딩 기법을 적용, 상기 에너지 보정정보를 시간축 상에서 인터폴레이션 기법을 적용, 상기 에너지 보정정보를 밴드 사이에서 스무딩 기법을 적용, 상기 에너지 보정정보를 밴드 사이에서 인터폴레이션 기법을 적용 중 적어도 하나를 이용하는 것을 특징으로 하는 다채널 오디오 코딩에서 오디오 신호의 에너지 보정방법.
  3. 제 1 항에 있어서,
    상기 (b)단계는 상기 해석된 정보를 서브밴드 도메인, 하이브리드 밴드 도메인, QMF 밴드 도메인 중 적어도 어느 한 도메인에 적용 가능한 값으로 변환하는 것을 특징으로 하는 다채널 오디오 코딩에서 오디오 신호의 에너지 보정방법.
  4. 제 1 항에 있어서,
    상기 (b)단계는 상기 해석된 정보를 공간정보에 적용 가능한 값으로 변환하는 것을 특징으로 하는 다채널 오디오 코딩에서 오디오 신호의 에너지 보정방법.
  5. 제 1 항에 있어서,
    상기 에너지 보정방법은 상기 에너지 보정정보를 고주파 밴드에만 적용하여 에너지 보정을 수행하는 것을 특징으로 하는 다채널 오디오 코딩에서 오디오 신호의 에너지 보정방법.
  6. 제 1 항에 있어서,
    상기 에너지 보정방법은 상기 에너지 보정정보를 전체 밴드에 적용하여 에너지 보정을 수행하는 것을 특징으로 하는 다채널 오디오 코딩에서 오디오 신호의 에너지 보정방법.
  7. (a) 다채널 오디오 입력신호를 인코딩 할 때, 상기 다채널 오디오 입력신호를 다운믹스한 다운믹스 신호와 상기 다채널 오디오 입력신호간의 에너지 차이를 이용하여 에너지 보정정보를 구하는 단계와;
    (b) 공간정보와 상기 구해진 에너지 보정정보를 결합하고, 결합된 결과를 이용하여 에너지를 보정하는 단계를 포함하는 것을 특징으로 하는 다채널 오디오 코딩에서 오디오 신호의 에너지 보정방법.
  8. 제 7 항에 있어서,
    상기 (a)단계는 상기 다운믹스 신호와 상기 다채널 오디오 입력신호를 밴드별로 나누고, 상기 나눠진 밴드의 에너지를 전체 밴드 에너지로 나누어 정규화한 후, 정규화된 밴드의 에너지 값들의 비율로 에너지 보정정보를 구하는 것을 특징으로 하는 다채널 오디오 코딩에서 오디오 신호의 에너지 보정방법.
  9. 제 7 항 또는 제 8 항에 있어서,
    상기 (a)단계는 상기 나눠진 다채널 오디오 입력신호와 상기 다운믹스 신호의 밴드에 대하여 전체 에너지에 대한 나눠진 밴드의 에너지 크기의 비와, 상기 나눠진 밴드 내에서의 다채널 오디오 신호와 다운믹스 신호의 에너지 크기의 비를 구하고, 상기 두 에너지 크기의 비를 종합한 것을 에너지 보정정보로 산출하는 것을 특징으로 하는 다채널 오디오 코딩에서 오디오 신호의 에너지 보정방법.
  10. 제 9 항에 있어서,
    상기 (b)단계는 상기 에너지 보정정보를 상기 공간정보와 결합할 것인지 여 부를 판별하는 단계가 선행되어, 상기 에너지 보정정보와 공간정보와의 결합이 허가된 경우만 에너지를 보정하는 것을 특징으로 하는 다채널 오디오 코딩에서 오디오 신호의 에너지 보정방법.
  11. 제 10 항에 있어서,
    상기 에너지 보정정보와 공간정보와의 결합의 허가는 상기 나눠진 밴드의 전체 밴드에 대한 상대적인 에너지 크기에 따라 결정되는 것을 특징으로 하는 다채널 오디오 코딩에서 오디오 신호의 에너지 보정방법.
  12. 제 10 항에 있어서,
    상기 에너지 보정정보와 공간정보와의 결합의 허가는 상기 나눠진 밴드의 다채널 오디오 입력신호와 상기 다운믹스 신호의 에너지 차이에 따라 결정되는 것을 특징으로 하는 다채널 오디오 코딩에서 오디오 신호의 에너지 보정방법.
  13. 제 10 항에 있어서,
    상기 에너지 보정정보와 공간정보와의 결합의 허가는 상기 나눠진 밴드의 전체 밴드에 대한 상대적인 에너지 크기와 상기 나눠진 밴드의 다채널 오디오 입력신호와 상기 다운믹스 신호의 에너지 차이를 종합한 결과에 따라 결정되는 것을 특징으로 하는 다채널 오디오 코딩에서 오디오 신호의 에너지 보정방법.
  14. 제 11 항에 있어서,
    상기 나눠진 밴드의 전체 밴드에 대한 상대적인 에너지 크기가 소정 값을 넘는 경우에만 상기 에너지 보정정보와 공간정보와의 결합을 허가하는 것을 특징으로 하는 다채널 오디오 코딩에서 오디오 신호의 에너지 보정방법.
  15. 제 12 항에 있어서,
    상기 나눠진 밴드의 다채널 오디오 입력신호와 상기 다운믹스 신호의 에너지 차이가 소정 값을 넘는 경우에만 상기 에너지 보정정보와 공간정보와의 결합을 허가하는 것을 특징으로 하는 다채널 오디오 코딩에서 오디오 신호의 에너지 보정방법.
  16. 제 13 항에 있어서,
    상기 나눠진 밴드의 전체 밴드에 대한 상대적인 에너지 크기와 상기 나눠진 밴드의 다채널 오디오 입력신호와 상기 다운믹스 신호의 에너지 차이를 합한 것이 소정 값을 넘는 경우에만 상기 에너지 보정정보와 공간정보와의 결합을 허가하는 것을 특징으로 하는 다채널 오디오 코딩에서 오디오 신호의 에너지 보정방법.
  17. 다채널 오디오 코딩에서 다채널 오디오 입력신호를 다운믹스하고, 상기 다채널 오디오 입력신호에서 공간정보를 추출하여, 상기 다운믹스 신호와 공간정보로 부호화된 오디오 신호를 생성하는 방법에 있어서,
    상기 부호화된 오디오 신호는 에너지 보정정보를 포함하되, 상기 에너지 보정정보는 에너지 보정을 수행할 것인지 여부를 표현하거나, 에너지 보정을 수행할 경우 이전의 프레임의 에너지 보정정보를 그대로 사용할 것인지 아니면 새로운 에너지 보정정보를 사용할 것인지를 표시하는 플래그 정보와;
    에너지 보정을 수행할 밴드에 대한 정보를 표시하는 보정수행 밴드 정보와; 및
    상기 보정수행 밴드에 에너지 보정의 정도를 표시하는 보정수준 정보가 포함되는 것을 특징으로 하는 부호화된 오디오 신호 생성방법.
  18. 제 17 항에 있어서,
    상기 보정수행 밴드 정보에 표시되는 정보는 밴드에 대한 에너지 보정 유무, 보정을 수행할 밴드의 시작과 끝, 보정을 수행할 밴드의 시작값, 보정을 수행할 밴드의 끝 값 중 적어도 하나를 포함하는 것을 특징으로 하는 부호화된 오디오 신호 생성방법.
  19. 제 17 항에 있어서,
    상기 보정수준 정보에 표시되는 정보는 보정을 수행할 밴드에 대한 에너지 보정 값, 에너지 보정을 수행하는 밴드 전체에 대한 하나의 값, 에너지 보정을 수행하는 밴드들에 대한 하나의 기울기 값, 에너지 보정을 수행하는 밴드들에 대한 보정값 인터폴레이션을 위한 소정 개수의 값 중 적어도 하나를 포함하는 것을 특징 으로 하는 부호화된 오디오 신호 생성방법.
KR1020060055012A 2005-07-18 2006-06-19 다채널 오디오 코딩에서 오디오 신호의 에너지 보정방법 및그 보정을 위한 부호화된 오디오 신호 생성방법 KR20070011100A (ko)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US69988005P 2005-07-18 2005-07-18
US60/699,880 2005-07-18

Publications (1)

Publication Number Publication Date
KR20070011100A true KR20070011100A (ko) 2007-01-24

Family

ID=38012178

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020060055012A KR20070011100A (ko) 2005-07-18 2006-06-19 다채널 오디오 코딩에서 오디오 신호의 에너지 보정방법 및그 보정을 위한 부호화된 오디오 신호 생성방법

Country Status (1)

Country Link
KR (1) KR20070011100A (ko)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2008133400A1 (en) * 2007-04-30 2008-11-06 Samsung Electronics Co., Ltd. Method and apparatus for encoding and decoding high frequency band
US8204756B2 (en) 2007-02-14 2012-06-19 Lg Electronics Inc. Methods and apparatuses for encoding and decoding object-based audio signals

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8204756B2 (en) 2007-02-14 2012-06-19 Lg Electronics Inc. Methods and apparatuses for encoding and decoding object-based audio signals
US8234122B2 (en) 2007-02-14 2012-07-31 Lg Electronics Inc. Methods and apparatuses for encoding and decoding object-based audio signals
US8271289B2 (en) 2007-02-14 2012-09-18 Lg Electronics Inc. Methods and apparatuses for encoding and decoding object-based audio signals
US8296158B2 (en) 2007-02-14 2012-10-23 Lg Electronics Inc. Methods and apparatuses for encoding and decoding object-based audio signals
US8417531B2 (en) 2007-02-14 2013-04-09 Lg Electronics Inc. Methods and apparatuses for encoding and decoding object-based audio signals
US8756066B2 (en) 2007-02-14 2014-06-17 Lg Electronics Inc. Methods and apparatuses for encoding and decoding object-based audio signals
US9449601B2 (en) 2007-02-14 2016-09-20 Lg Electronics Inc. Methods and apparatuses for encoding and decoding object-based audio signals
WO2008133400A1 (en) * 2007-04-30 2008-11-06 Samsung Electronics Co., Ltd. Method and apparatus for encoding and decoding high frequency band
US8560304B2 (en) 2007-04-30 2013-10-15 Samsung Electronics Co., Ltd. Method and apparatus for encoding and decoding high frequency band
USRE47824E1 (en) 2007-04-30 2020-01-21 Samsung Electronics Co., Ltd. Method and apparatus for encoding and decoding high frequency band

Similar Documents

Publication Publication Date Title
US20240347067A1 (en) Post-processor, pre-processor, audio encoder, audio decoder and related methods for enhancing transient processing
JP4934427B2 (ja) 音声信号復号化装置及び音声信号符号化装置
KR101976757B1 (ko) 포스트 다운믹스 신호를 지원하는 다객체 오디오 부호화 장치 및 복호화 장치
JP3878952B2 (ja) オーディオ信号コーディング中にノイズ置換を信号で知らせる方法
US8060042B2 (en) Method and an apparatus for processing an audio signal
CA2589623C (en) Temporal envelope shaping for spatial audio coding using frequency domain wiener filtering
KR101108061B1 (ko) 신호 처리 방법 및 이의 장치
KR20050021484A (ko) 오디오 코딩
KR101231063B1 (ko) 고품질 모드 mpeg 서라운드 디코더
KR20100095586A (ko) 신호 처리 방법 및 장치
KR20230020553A (ko) 스테레오 오디오 인코더 및 디코더
KR20080093342A (ko) 스테레오 신호 및 멀티 채널 신호 부호화 및 복호화 방법및 장치
CN109410966B (zh) 音频编码器和解码器
TWI521502B (zh) 多聲道音訊的較高頻率和降混低頻率內容的混合編碼
MX2014010098A (es) Control de coherencia de fase para señales armonicas en codecs de audio perceptual.
KR20070011100A (ko) 다채널 오디오 코딩에서 오디오 신호의 에너지 보정방법 및그 보정을 위한 부호화된 오디오 신호 생성방법
Jianxin et al. low bit rate audio coder based on DRA
AU2012205170B2 (en) Temporal Envelope Shaping for Spatial Audio Coding using Frequency Domain Weiner Filtering
KR20090122145A (ko) 신호의 처리 방법 및 장치
Aggrawal et al. New Enhancements for Improved Image Quality and Channel Separation in the Immersive Sound Field Rendition (ISR) Parametric Multichannel Audio Coding System

Legal Events

Date Code Title Description
WITN Withdrawal due to no request for examination