KR20150032614A

KR20150032614A - 오디오 부호화방법 및 장치, 오디오 복호화방법 및 장치, 및 이를 채용하는 멀티미디어 기기

Info

Publication number: KR20150032614A
Application number: KR20137025181A
Authority: KR
Inventors: 문한길; 김현욱; 이남숙; 오은미
Original assignee: 삼성전자주식회사
Priority date: 2012-06-04
Filing date: 2013-06-04
Publication date: 2015-03-27
Also published as: EP2860729A1; US20140046670A1; WO2013183928A1; CN104718572B; CN104718572A; JP2015525374A; EP2860729A4

Abstract

오디오신호 부호화방법은 프레임 단위로 주파수 해상도를 보상시키기 위하여 변형된 시간 영역의 신호를 생성하는 단계; 50% 미만의 오버랩 구간을 갖도록 설계되는 윈도우를 이용하여 상기 변형된 시간 영역의 신호에 대하여 분석 윈도윙을 수행하는 단계; 및 상기 분석 윈도윙이 수행된 시간 영역의 신호를 주파수 영역의 신호로 변환하는 단계를 포함하고, 오디오신호 복호화방법은 비트스트림으로부터 복호화된 주파수 영역의 신호에 대하여 서브밴드 단위로 주파수 빈들을 역머징시켜 주파수 해상도를 복원하는 단계; 상기 해상도가 복원된 주파수 영역의 신호를 시간 영역의 신호로 역변환하는 단계; 및 50% 미만의 오버랩 구간을 갖도록 설계되는 윈도우를 이용하여 상기 시간 영역의 신호에 대하여 합성 윈도윙을 수행하는 단계를 포함한다.

Description

오디오 부호화방법 및 장치, 오디오 복호화방법 및 장치, 및 이를 채용하는 멀티미디어 기기{Audio encoding method and apparatus, audio decoding method and apparatus, and multimedia device employing the same}

본 발명은 오디오 신호의 부호화 및 복호화에 관한 것으로서, 좀 더 구체적으로는 시간 영역의 오디오 신호를 변환하고 부호화하여 주파수 영역의 변환계수를 생성하고, 주파수 영역의 변환계수를 복호화하고 역변환하여 시간 영역의 오디오 신호로 복원하는 방법 및 장치, 및 이를 채용하는 멀티미디어 기기에 관한 것이다.

최근 들어, VOIP(Voice Over Internet Protocol) 혹은 텔레컨퍼런싱 등과 같은 인터넷 기반 음성 통신 서비스뿐 아니라 클라우드 컴퓨팅과 같은 새로운 A/V 서비스에 대한 수요가 급증하고 있다. 이와 같이 미디어와 사용자간, 예를 들어 서버-클라이언트 환경에서의 인터랙티비티를 제공하는 새로운 A/V 서비스는 사용자의 몰입을 위하여 시간 지연을 줄일 필요가 있다.

그런데, 저지연과 고음질은 사실상 트레이드 오프 관계에 있다. 따라서, 새로운 A/V 서비스를 적절히 지원하기 위해서는, 사용자가 처해 있는 환경에 대응하여 복원 음질의 열화를 최소화시키면서 저지연을 달성하거나, 일정한 복원 음질을 유지하면서 저지연을 달성하거나, 복원 음질을 개선시키는 것과 동시에 저지연을 달성할 필요성이 크게 대두되고 있다.

본 발명의 기술적 과제는 오디오 신호의 부호화 및 복호화 과정에서 시간-주파수 변환 처리/역변환 처리를 효과적으로 적용하는 방법 및 장치와 이를 채용하는 멀티미디어 기기를 제공하는 데 있다.

본 발명의 기술적 과제는 시간-주파수 변환 처리/역변환 처리를 수행함에 있어서 불필요한 지연이 발생하지 않도록 하는 방법 및 장치와 이를 채용하는 멀티미디어 기기를 제공하는 데 있다.

본 발명의 기술적 과제는 시간-주파수 변환 처리/역변환 처리를 수행함에 있어서 감소된 오버랩 구간을 사용하여 처리지연을 줄이면서 복원 음질을 향상시킬 수 있는 방법 및 장치와 이를 채용하는 멀티미디어 기기를 제공하는 데 있다.

본 발명의 일실시 형태는 오디오신호 부호화방법으로서, 프레임 단위로 주파수 해상도를 보상시키기 위하여 변형된 시간 영역의 신호를 생성하는 단계; 50% 미만의 오버랩 구간을 갖도록 설계되는 윈도우를 이용하여 상기 변형된 시간 영역의 신호에 대하여 분석 윈도윙을 수행하는 단계; 및 상기 분석 윈도윙이 수행된 시간 영역의 신호를 주파수 영역의 신호로 변환하는 단계를 포함할 수 있다.

상기 오디오신호 부호화방법은 상기 주파수 해상도를 향상시키기 위하여, 상기 주파수 영역의 신호에 대하여 서브밴드 단위로 저주파수 대역으로 주파수 빈들을 머징시키는 단계를 더 포함할 수 있다.

상기 오디오신호 부호화방법은 시간-주파수 해상도를 향상시키기 위하여, 상기 주파수 영역의 신호의 특성에 대응하여 서브밴드 단위로 서로 다른 블록 사이즈를 적용하는 단계를 더 포함할 수 있다.

상기 변형된 시간영역의 신호를 생성하는 단계는 프레임 단위로 주기적인 성분을 강조하면서 상기 주기적인 성분들 사이의 성분을 감쇠시킬 수 있다.

상기 분석 윈도윙을 수행하는 단계는 서로 다른 길이를 가지면서 오버랩 구간에서 완전 복원이 가능하도록 윈도우 계수가 0인 구간을 제외하고 동일한 오버랩 구간을 가지도록 설계되는 적어도 두가지의 윈도우를 적용할 수 있다.

본 발명의 다른 실시 형태는 오디오신호 복호화방법으로서, 비트스트림으로부터 복호화된 주파수 영역의 신호에 대하여 서브밴드 단위로 주파수 빈들을 역머징시켜 주파수 해상도를 복원하는 단계; 상기 해상도가 복원된 주파수 영역의 신호를 시간 영역의 신호로 역변환하는 단계; 및 50% 미만의 오버랩 구간을 갖도록 설계되는 윈도우를 이용하여 상기 시간 영역의 신호에 대하여 합성 윈도윙을 수행하는 단계를 포함할 수 있다.

상기 오디오신호 복호화방법은 상기 합성 윈도윙이 수행된 시간 영역의 신호에 대하여 부호화과정에서 수행된 프리 필터링에 대응되는 포스트 필터링을 수행하여 해상도 보상 이전의 오디오신호를 복원하는 단계를 더 포함할 수 있다.

상기 합성 윈도윙을 수행하는 단계는 서로 다른 길이를 가지면서 오버랩 구간에서 완전 복원이 가능하도록 윈도우 계수가 0인 구간을 제외하고 동일한 오버랩 구간을 가지도록 설계되는 적어도 두가지의 윈도우를 적용할 수 있다.

본 발명의 다른 실시 형태는 오디오신호 부호화장치로서, 프레임 단위로 주파수 해상도를 보상시키기 위하여 변형된 시간 영역의 신호를 생성하는 프리 필터링부; 50% 미만의 오버랩 구간을 갖도록 설계되는 윈도우를 이용하여 상기 변형된 시간 영역의 신호에 대하여 분석 윈도윙을 수행하는 분석 윈도윙부; 상기 분석 윈도윙이 수행된 시간 영역의 신호를 주파수 영역의 신호로 변환하는 변환부; 및 상기 주파수 해상도를 향상시키기 위하여, 상기 주파수 영역의 신호에 대하여 서브밴드 단위로 저주파수 대역으로 주파수 빈들을 머징시키는 해상도 향상부를 포함할 수 있다.

본 발명의 다른 실시 형태는 오디오신호 복호화장치로서, 비트스트림으로부터 복호화된 주파수 영역의 신호에 대하여 서브밴드 단위로 주파수 빈들을 역머징시켜 주파수 해상도를 복원하는 해상도 복원부; 상기 해상도가 복원된 주파수 영역의 신호를 시간 영역의 신호로 역변환하는 역변환부; 50% 미만의 오버랩 구간을 갖도록 설계되는 윈도우를 이용하여 상기 시간 영역의 신호에 대하여 합성 윈도윙을 수행하는 합성 윈도윙부; 및 상기 합성 윈도윙이 수행된 시간 영역의 신호에 대하여 부호화과정에서 수행된 프리 필터링에 대응되는 포스트 필터링을 수행하여 해상도 보상 이전의 오디오신호를 복원하는 포스트 필터링부를 포함할 수 있다.

본 발명의 다른 실시 형태는 멀티미디어 기기로서, 오디오신호와 부호화된 비트스트림 중 적어도 하나를 수신하거나, 부호화된 오디오 신호와 복원된 오디오 중 적어도 하나를 송신하는 통신부; 및 비트스트림으로부터 복호화된 주파수 영역의 신호에 대하여 서브밴드 단위로 주파수 빈들을 역머징시켜 주파수 해상도를 복원하고, 상기 해상도가 복원된 주파수 영역의 신호를 시간 영역의 신호로 역변환하고, 50% 미만의 오버랩 구간을 갖도록 설계되는 윈도우를 이용하여 상기 시간 영역의 신호에 대하여 합성 윈도윙을 수행하는 복호화 모듈을 포함할 수 있다.

상기 멀티미디어 기기는 프레임 단위로 주파수 해상도를 보상시키기 위하여 변형된 시간 영역의 신호를 생성하고, 50% 미만의 오버랩 구간을 갖도록 설계되는 윈도우를 이용하여 상기 변형된 시간 영역의 신호에 대하여 분석 윈도윙을 수행하고, 상기 분석 윈도윙이 수행된 시간 영역의 신호를 주파수 영역의 신호로 변환하는 부호화 모듈을 더 포함할 수 있다.

본 발명에 의하면, 오디오 신호의 부호화 및 복호화 과정에서 시간-주파수 변환 처리/역변환 처리를 효과적으로 적용할 수 있다.

본 발명에 의하면, 시간-주파수 변환 처리/역변환 처리를 수행함에 있어서 불필요한 지연이 발생하지 않도록 할 수 있다.

본 발명에 의하면, 시간-주파수 변환 처리/역변환 처리를 수행함에 있어서 감소된 오버랩 구간을 사용하여 처리 지연을 줄이면서 복원 음질을 향상시킬 수 있다.

본 발명에 의하면, 고성능의 오디오 코덱의 시간 지연을 줄일 수 있기 때문에 양방향 통신에서 시간-주파수 변환 처리/역변환 처리를 사용할 수 있다.

본 발명에 의하면, 고음질의 오디오 코덱에서 추가적인 시간 지연없이 시간-주파수 변환 처리/역변환 처리를 사용할 수 있다.

본 발명에 의하면, 기존의 오디오 코덱에서 다른 구성요소의 수정 혹은 변형없이 시간-주파수 변환 처리/역변환 처리와 관련된 시간 지연을 감소시킬 수 있다.

도 1은 본 발명의 일실시예에 따른 오디오 부호화장치의 구성을 나타낸 블록도이다.
도 2는 본 발명의 일실시예에 따른 오디오 복호화장치의 구성을 나타낸 블록도이다.
도 3a 및 도 3b는 본 발명에서 적용된 프리 필터 혹은 포스트 필터의 필터 응답 예를 설명하는 도면이다.
도 4는 본 발명에서 적용되는 윈도우의 예를 설명하는 도면이다.
도 5a 내지 도 5c는 도 4에 도시된 윈도우를 사용하는 경우 부호화 및 복호화에 의해 발생하는 시간 지연을 설명하는 도면이다.
도 6a 내지 도 6c는 본 발명에서 적용되는 다양한 윈도우의 예를 설명하기 위한 도면이다.
도 7은 도 6에 도시된 윈도우가 각 프레임에 적용된 예를 설명하는 도면이다.
도 8a 및 도 8b는 본 발명에서 적용된 해상도 향상의 개념을 설명하는 도면이다.
도 9는 본 발명의 일실시예에 따른 오디오 부호화방법의 동작을 나타낸 플로우챠트이다.
도 10은 본 발명의 일실시예에 따른 오디오 복호화장치의 동작을 나타낸 플로우챠트이다.
도 11은 본 발명의 일실시예에 따른 멀티미디어 기기의 구성을 나타낸 블록도이다.
도 12는 본 발명의 다른 실시예에 따른 멀티미디어 기기의 구성을 나타낸 블록도이다.
도 13은 본 발명의 다른 실시예에 따른 멀티미디어 기기의 구성을 나타낸 블록도이다.

이하, 도면을 참조하여 본 발명의 실시 형태에 대하여 구체적으로 설명하기로 한다. 실시예를 설명함에 있어, 관련된 공지 구성 또는 기능에 대한 구체적인 설명이 요지를 흐릴 수 있다고 판단되는 경우에는 그 상세한 설명은 생략하기로 한다.

어떤 구성요소가 다른 구성요소에 연결되어 있다거나 접속되어 있다고 언급된 때에는, 그 다른 구성요소에 직접적으로 연결되어 있거나 또는 접속되어 있을 수도 있으나, 중간에 다른 구성요소가 존재할 수도 있다고 이해되어야 할 것이다.

제1, 제2 등의 용어는 다양한 구성요소들을 설명하는데 사용될 수 있지만, 상기 구성요소들은 상기 용어들에 의해 한정되어서는 안된다. 상기 용어들은 하나의 구성요소를 다른 구성요소로부터 구별하는 목적으로만 사용될 수 있다.

실시예에 나타나는 구성부들은 서로 다른 특징적인 기능들을 나타내기 위해 독립적으로 도시되는 것으로, 각 구성부들이 분리된 하드웨어나 하나의 소프트웨어 구성 단위로 이루어짐을 의미하지 않는다. 각 구성부는 설명의 편의상 각각의 구성부로 나열한 것으로, 각 구성부 중 적어도 두 개의 구성부가 합쳐져 하나의 구성부로 이루어지거나, 하나의 구성부가 복수개의 구성부로 나뉘어져 기능을 수행할 수 있다.

현재, 다수의 코덱 기술이 오디오 신호의 부호화/복호화에 이용되고 있다. 각 코덱 기술은 소정의 오디오 신호에 적합한 특성을 가지고, 해당 오디오 신호에 최적화되어 있기도 하다. 그 중에서도 MDCT(Modified Discrete Cosine Transform)가 사용되는 코덱으로는 MPEG의 AAC(Advanced Audio Coding) 시리즈, G.722.1, G.929.1, G.718, G.711.1, G.722 SWB, G.729.1/G718 SWB(Super Wide Band), G.722 SWB등이 있으며, 이들 코덱은 MDCT가 적용되는 필터 뱅크와 심리 음향 모델을 결합하여 부호화하는 지각적 코딩(perceptual coding) 방식에 기반하고 있다. MDCT는 오버랩 앤드 애드(overlap-and-add) 방식을 이용하여 시간 영역의 신호를 효과적으로 복원할 수 있다는 장점 때문에 오디오 코덱에서 널리 사용되고 있다.

이와 같이, MDCT를 이용한 다양한 코덱이 사용되고 있지만, 각 코덱은 구현하고자 하는 효과를 얻기 위해, 서로 다른 구조를 가지기도 한다. 예를 들어, MPEG의 ACC 시리즈는 MDCT(필터 뱅크)와 심리음향모델을 결합하여 부호화를 수행하며, 그 중 ACC-ELD(AAC-Enhanced Low Delay)는 저지연을 가지는 MDCT(필터 뱅크)를 이용하여 부호화를 수행한다. 또한, G.722.1은 전체 대역에 MDCT을 적용하여 그 계수를 양자화하며, G.718 WB(Wide Band)는 계층형 광대역(WB) 코덱 및 초광대역(SWB) 코덱에서 기본 코어의 양자화 오차를 입력으로 MDCT 기반의 향상 계층(enhanced layer)으로 부호화한다. 그 외에, EVRC(Enhanced Variable Rate Codec)-WB, G.729.1, G.718, G.711.1, G.718/G.729.1 SWB 등은 계층형 광대역 코덱 및 초광대역 코덱에서, 대역 분할된 신호를 입력으로 MDCT 기반의 향상 계층(enhanced layer)로 부호화한다.

도 1은 본 발명의 일실시예에 따른 오디오 부호화장치(100)의 구성을 나타낸 블록도이다.

도 1에 도시된 오디오 부호화장치(100)는 프리 필터링부(110), 분석 윈도윙부(120), 변환부(130), 해상도 향상부(140) 및 부호화부(150)를 포함할 수 있다. 부가경로(160)는 신호의 길이, 윈도우의 종류, 비트 할당 등 부호화를 위하여 필요로 하는 다양한 파라미터들이 부호화장치(100)의 각 구성부(110~150)에 전달될 수 있다. 실시예에서는 부가경로(160)가 존재하여 각 구성부(110~150)의 동작에 필요한 부가정보가 전달되도록 도시하였으나, 이는 설명의 편의를 위한 것으로서 별도의 부가경로(160)없이 도시된 각 구성부의 동작 순서를 따라서 신호와 함께 부가정보가 각 구성부 즉, 프리 필터링부(110), 분석 윈도윙부(120), 변환부(130), 해상도 향상부(140) 및 부호화부(150)에 순차적으로 전달될 수도 있다. 한편, 각 구성요소는 적어도 하나의 모듈로 일체화되어 적어도 하나의 프로세서(미도시)로 구현될 수 있다. 여기서, 오디오는 음악 혹은 음성, 혹은 음악과 음성의 혼합신호를 의미할 수 있다.

도 1을 참조하면, 프리 필터링부(110)는 프레임 단위로 입력된 오디오 신호에 대하여 주기적인 성분을 검출하여 별도의 파라미터 형태로 표현하고 주기적인 성분이 제거된 변형된 오디오 신호를 생성할 수 있다. 여기서, 프레임은 통상적인 프레임, 프레임의 하위 프레임인 서브 프레임 혹은 서브 프레임의 하위 프레임을 지칭할 수 있다. 실시예에 따르면, 주기적인 성분은 피치와 같은 하모닉 성분을 포함할 수 있다. 주기적인 성분으로 피치를 예로 들 경우, 프리 필터링부(110)는 공지된 다양한 피치 검출 알고리즘을 이용하여 피치를 검출하고, 검출된 피치의 위치 및 진폭을 고려하여 필터계수를 설계하여 입력된 오디오 신호에 적용할 수 있다. 프리 필터링 처리는 모든 프레임에 대하여 적용하거나, 일차적으로 주기적인 성분이 검출된 프레임에 대하여 적용할 수 있다. 검출된 피치의 위치 및 진폭과 관련된 필터계수 및 파라미터는 비트스트림에 포함되어 전송될 수 있다.

분석 윈도윙부(120)는 프리 필터링부(110)로부터 제공되는 변형된 오디오 신호에 대하여 분석 윈도윙을 수행할 수 있다. 실시예에 따르면, 적용되는 윈도우는 50% 미만의 오버랩 구간을 가질 수 있다. 또한, 동일한 길이를 갖는 두개의 윈도우가 오버랩되거나, 서로 다른 길이를 갖는 두가지 윈도우가 오버랩되는 경우, 완전 복원(perfect reconstruction) 조건을 만족시키기 위하여 윈도우 계수가 0인 구간을 제외하고 오버랩 구간의 길이가 동일해지도록 설정할 수 있다. 이에 대해서는 도 4 내지 도 7을 참조하여 후술하기로 한다.

변환부(130)는 분석 윈도윙부(120)에서 윈도윙 처리가 수행된 시간 영역의 오디오 신호를 변환하여 주파수 영역의 변환계수를 생성할 수 있다. 변환 처리에는 DCT, MDCT(Modified Discrete Cosine Transform) 혹은 FFT(Fast Fourier Transform)를 사용할 수 있으나, 이에 한정되는 것은 아니다.

해상도 향상부(140)는 변환부(130)에서 생성되는 주파수 영역의 변환계수에 대하여 서브 밴드 단위로 시간-주파수 해상도를 조정할 수 있다. 예를 들어 톤 성분 혹은 스테이셔너리 성분과 트랜지언트 성분이 공존하는 프레임에 대하여 톤 성분 혹은 스테이셔너리 성분은 상대적으로 긴 블록 사이즈가 적용되고, 트랜지언트 성분은 상대적으로 짧은 블록 사이즈가 적용되도록 설정할 수 있다. 그 결과, 톤 성분 혹은 스테이셔너리 성분에 대해서는 주파수 해상도가 증가하는 한편 시간 해상도는 감소되고, 트랜지언트 성분에 대해서는 주파수 해상도는 감소되는 한편 시간 해상도는 증가되므로 신호 특성에 적응적인 해상도가 얻어질 수 있다. 적용된 블록 사이즈에 대한 정보는 비트스트림에 포함될 수 있다. 또한, 해상도 향상부(140)는 서브밴드 단위로 저주파수 대역 혹은 고주파수 대역으로 주파수 빈들을 머징시킬 수 있다. 각 서브밴드에 존재하는 주파수 빈들을 머징시키기 위하여 랭크 2ⁿ인 왈쉬 매트릭스(Walsh matrix)를 사용할 수 있다. 왈쉬 매트릭스는 랭크 2ⁿ인 하다마드 매트릭스(Hadamard matrix)로부터 도출될 수 있다. 실시예에 따르면, 해상도 향상부(140)는 각 서브밴드 단위로, 저주파수 대역으로 주파수 빈들을 머징시킴으로써 프레임 전체적으로 저주파수 대역의 주파수 해상도를 향상시킬 수 있다. 각 서브밴드에 존재하는 주파수 빈들을 머징시키기 위하여 공지된 다른 매트릭스를 사용할 수도 있다. 주파수 빈들의 머징에 사용된 매트릭스에 대한 정보는 비트스트림에 포함될 수 있다.

부호화부(150)는 해상도 향상부(140)에서 해상도가 조정된 변환계수들에 대하여 양자화를 포함하는 부호화 처리를 수행할 수 있다. 부호화부(150)에서 부호화된 결과와 복호화를 위하여 필요로 하는 부호화 파라미터는 비트스트림을 형성하고, 비트스트림은 소정의 저장매체에 저장되거나 채널을 통하여 전송될 수 있다.

실시예에 따르면, 프리 필터링부(110)와 해상도 향상부(140)가 모두 사용될 수도 있고, 부호화장치 혹은 복호화장치가 탑재되는 기기의 용도에 대응하여 적어도 하나가 사용될 수 있으며, 이를 위하여 사용자의 선택을 필요로 하는 경우 별도의 절환부가 제공될 수도 있다. 선택적으로 사용된 경우에는, 복호화장치에서 대응하는 처리가 수행될 수 있도록 비트스트림의 헤더에 프리 필터링 처리 여부 혹은 해상도 향상 처리 여부와 관련된 플래그를 부가할 수 있다.

한편, 다른 실시예에 따르면 분석 윈도윙부(120)에서 기존의 AAC 코덱에서와 동일한 윈도우를 적용하는 한편, 프리 필터링부(110)와 해상도 향상부(140)를 추가적으로 포함시키고, 모두 혹은 선택적으로 동작시켜 복원 음질의 향상을 도모할 수 있다.

한편, 다른 실시예에 따르면, 분석 윈도윙부(120)에서 단일한 종류의 윈도우 예를 들면 후술하는 숏 윈도우 혹은 롱 윈도우를 적용하는 한편, 프리 필터링부(110)와 해상도 향상부(140)를 추가적으로 포함시키고, 모두 혹은 선택적으로 동작시켜 복원 음질의 향상을 도모할 수 있다.

도 2는 본 발명의 일실시예에 따른 오디오 복호화장치의 구성을 나타낸 블록도이다.

도 2에 도시된 오디오 복호화장치(200)는 복호화부(210), 해상도 복원부(220), 역변환부(230), 합성 윈도윙부(240) 및 포스트 필터링부(250)를 포함할 수 있다. 부가경로(260)는 신호의 길이, 윈도우의 종류, 비트 할당 등 복호화를 위하여 필요로 하는 다양한 파라미터들이 복호화장치(200)의 각 구성부(210~250)에 전달될 수 있다. 실시예에서는 부가경로(260)가 존재하여 각 구성부(210~250)의 동작에 필요한 부가정보가 전달되도록 도시하였으나, 이는 설명의 편의를 위한 것으로서 별도의 부가경로(260)없이 도시된 각 구성부의 동작 순서를 따라서 신호와 함께 부가정보가 각 구성부 즉, 복호화부(210), 해상도 복원부(220), 역변환부(230), 합성 윈도윙부(240) 및 포스트 필터링부(250) 에 순차적으로 전달될 수도 있다. 각 구성요소는 적어도 하나의 모듈로 일체화되어 적어도 하나의 프로세서(미도시)로 구현될 수 있다. 여기서, 오디오는 음악 혹은 음성, 혹은 음악과 음성의 혼합신호를 의미할 수 있다.

도 2를 참조하면, 복호화부(210)는 비트스트림을 수신하여 역양자화를 수행하여 주파수 영역의 변환계수들을 얻을 수 있다.

해상도 복원부(220)는 복호화부(210)로부터 제공되는 주파수 영역의 변환계수들에 대하여 서브밴드 단위로 주파수 빈들을 역머징시켜 해상도를 복원시킬 수 있다. 이를 위하여, 부호화장치(100)의 해상도 향상부(140)에서 주파수 빈들의 머징에 사용된 매트릭스의 역매트릭스를 사용할 수 있다.

역변환부(230)는 해상도 복원부(220)에 의해 해상도가 복원된 주파수 영역의 변환계수들을 역변환하여 시간 영역의 신호를 생성할 수 있다. 이를 위하여 부호화장치(100)의 변환부(130)에서 사용된 변환 처리에 대응되는 역변환 처리가 수행될 수 있다. 예를 들어, 부호화장치(100)의 변환부(130)에서 MDCT가 적용된 경우 역변환부(230)는 주파수 영역의 변환계수에 IMDCT를 적용하여 시간 영역의 신호로 변화할 수 있다

합성 윈도윙부(240)는 역변환부(230)로부터 제공되는 시간 영역의 신호에 대하여 합성 윈도윙을 수행할 수 있다. 이를 위하여, 부호화장치(100)의 분석 윈도윙부(120)에서 적용된 윈도우와 동일한 윈도우를 적용할 수 있다. 합성 윈도윙부(240)는 합성 윈도우가 적용된 시간 영역의 신호에 대하여 오버랩 앤드 애드 처리를 수행하여 시간 영역의 신호를 복원할 수 있다.

포스트 필터링부(250)는 합성 윈도윙부(240)로부터 제공되는 시간 영역의 신호에 대하여 포스트 필터링을 수행하여 부호화장치(100)에서의 프리 필터링 이전의 신호로 복원할 수 있다. 이를 위하여, 부호화장치(100)에서의 프리 필터링부(110)에서 사용된 프리 필터에 대응되는 포스트 필터를 사용할 수 있다. 즉, 이에 따르면 부호화장치(100)에서 제거된 주기적인 성분이 전송된 파라미터에 의해 복원될 수 있다.

실시예에 따르면, 해상도 복원부(220)와 포스트 필터링부(250)는 모두 사용될 수도 있고, 선택적으로 사용될 수도 있다. 예를 들면, 비트스트림의 헤더에 포함된 프리 필터링 처리 여부 혹은 해상도 향상 처리 여부와 관련된 플래그를 참조하여 선택적으로 사용할 수 있다.

한편, 다른 실시예에 따르면 합성 윈도윙부(240)에서 부호화장치(100)에 대응되도록 기존의 AAC 코덱에서와 동일한 윈도우를 적용하는 한편, 해상도 복원부(220)와 포스트 필터링부(250)를 추가적으로 포함시키고, 모두 혹은 선택적으로 동작시켜 복원 음질의 향상을 도모할 수 있다.

한편, 다른 실시예에 따르면, 합성 윈도윙부(240)에서 부호화장치(100)에 대응되도록 단일한 종류의 윈도우 예를 들면 후술하는 숏 윈도우 혹은 롱 윈도우를 적용하는 한편, 해상도 복원부(220)와 포스트 필터링부(250)를 추가적으로 포함시키고, 모두 혹은 선택적으로 동작시켜 복원 음질의 향상을 도모할 수 있다.

도 3은 본 발명에서 적용된 프리 필터 혹은 포스트 필터의 필터 응답 예를 설명하는 도면으로서, (a)는 pole-zero 콤 필터로 구현된 프리 필터의 필터 응답, (b)는 (a)의 프리 필터에 대응되는 포스트 필터의 필터 응답을 각각 나타낸다. 도 3의 (a)는 부호화장치, 도 3의 (b)는 복호화장치에서 사용될 수 있다.

도 3의 (a)에 도시된 바와 같은 프리 필터의 전달 함수(H_pre(z))와 도 3의 (b)에 도시된 바와 같은 포스트 필터의 전달 함수(H_post(z))는 하기 수학식 1에서와 같이 나타낼 수 있다.

여기서, a, b 는 각각 콤 필터를 구현할 때 사용된 승산기의 승수를 나타낸다.

실시예에서는 프리 필터 및 포스트 필터를 pole-zero 콤 필터로 구현하였으나, 이에 한정되는 것은 아니다.

이와 같이 부호화장치에서는 프리 필터를 사용하여 오디오 신호에 포함되어 있는 주기적인 성분, 예를 들면 피치와 같은 하모닉 성분을 강조하기 위하여 주기적인 성분들 사이의 노이즈 성분을 감쇠시킴으로써, 변형된 오디오신호를 생성할 수 있다. 부호화장치에서는 변형된 오디오 신호에 대하여 전반적인 부호화 처리가 수행될 수 있다. 한편, 복호화장치에서는 비트스트림에 대한 전반적인 복호화 처리를 수행한 다음, 프리 필터에 대응되는 포스트 필터를 사용하여 프리 필터링 이전의 오디오 신호로 복원시킬 수 있다. 그 결과, 짧은 오버랩 구간의 윈도우를 사용하더라도 주파수 해상도를 향상시킬 수 있게 되어 복원된 오디오 신호의 지각적 품질의 열화를 방지할 수 있다.

도 4는 본 발명에서 적용되는 50% 미만의 오버랩 구간을 갖는 윈도우의 예를 설명하는 도면이다.

도 4를 참조하면, 윈도우는 0의 윈도우 계수를 갖는 제1 및 제2 제로 구간(a1, a2), 제1 및 제2 에지구간(W₁, W₂), 1의 윈도우 계수를 갖는 제1 및 제2 유니티 구간(b1, b2)으로 구성될 수 있다. 동일한 두개의 윈도우를 적용하는 경우, 윈도우(410)의 제2 에지구간(W₂)과 윈도우(430)의 제1 에지구간(W₁)이 오버랩될 수 있다. 이때, 제1 및 제2 에지구간(W₁, W₂)은 하기 수학식 2에 기재된 윈도우 함수(W(n))로부터 하기 수학식 3에서와 같이 나타낼 수 있다.

여기서 n은 샘플수로 0,...,2L-1의 값을 가지며, L은 오버랩 구간의 길이로서, 예를 들면 128 샘플을 나타낸다.

윈도우 함수(W(n))가 정현파 형태이기 때문에, 제1 및 제2 에지구간(W₁, W₂)은 하기 수학식 4 의 조건을 만족할 경우 오버랩 구간에서 완전 복원(perfect reconstruction)을 보장해 줄 수 있다.

한편, 상기 수학식 4의 조건을 만족하기 위해서는 윈도우의 제1 및 제2 제로구간(a1,a2)과 제1 및 제2 유니트 구간(b1,b2)은 다음 수학식 5로 나타낼 수 있다.

여기서, F는 윈도우의 프레임 사이즈를 나타내고, L은 오버랩 구간의 길이를 나타낸다.

이에 따르면, 윈도우의 프레임 사이즈가 1024 샘플인 경우 오버랩 구간의 길이가 128 샘플이므로, 제1 및 제2 제로구간(a1,a2)과 제1 및 제2 유니트 구간(b1,b2)는 448 샘플이 될 수 있다.

도 5는 도 4에 도시된 윈도우를 사용하는 경우 부호화 및 복호화에 의해 발생하는 시간 지연을 설명하는 도면이다.

도 5의 (a)는 부호화장치에 입력되는 오디오 신호를 나타내고, 도 5의 (b)는 부호화장치에 의해 수행되는 시간-주파수 변환을 나타내고, 도 5의 (c)는 복호화장치에 의해 수행되는 시간-주파수 역변환을 나타낸다.

일반적인 AAC 코덱에서는 부호화장치가 현재 프레임(510)에 적용할 윈도우(530)를 결정하기 위해 룩 어헤드(look-ahead) 샘플을 필요로 하였으나, 실시예에 따르면, 서로 다른 윈도우들간의 오버랩 구간의 길이를 모두 동일하게 설정함으로써, 현재 프레임(510)에 적용할 윈도우(530)를 결정하기 위한 룩 어헤드 샘플을 필요로 하지 않는다. 그 결과, 도 5의 (a)에 도시된 부호화장치에서는 시간-주파수 변환시 룩 어헤드 샘플에 의한 시간 지연이 발생하지 않는다.

한편 복호화장치를 살펴보면, 현재 프레임(510)을 시간-주파수 역변환하기 위하여 현재 프레임(510)과 오버랩되는 다음 프레임을 기다려야 한다. 일반적인 AAC 코덱에서는 오버랩 구간의 길이가 1024 샘플이므로 1024 샘플만큼의 시간 지연이 발생한다. 실시예에 따르면, 서로 다른 윈도우들간의 오버랩 구간의 길이를 128 샘플이라 할 경우 128 샘플만큼의 시간 지연이 발생할 수 있다.

또한, 현재 프레임(510)이 오디오 신호의 최초 프레임인 경우, 복호화장치는 기존 AAC 코덱에서와 마찬가지로 현재 프레임(510)을 처리하기 위한 1024 샘플의 시간 지연을 필요로 한다.

결론적으로 실시예에 따르면, 부호화 및 복호화에 의한 시간 지연(D)은 오버랩 구간에 의한 지연 및 현재 프레임(510)에 의한 지연을 포함하며, 샘플링 레이트를 48kHz라 할 때, 총 시간 지연은 24ms가 발생한다. 반면, 기존의 AAC 코덱의 부호화 및 복호화에 의한 시간 지연은 룩 어헤드 샘플에 의한 지연, 오버랩 구간에 의한 지연 및 현재 프레임(510)에 의한 자연을 포함하며, 샘플링 레이트를 48kHz라 할 때, 총 시간 지연은 54.7ms가 발생한다.

도 6은 본 발명에서 적용되는 다양한 윈도우의 예를 설명하기 위한 도면으로서, (a)는 숏 윈도우(short window)(이하 제1 윈도우라 칭함), (b)는 롱 윈도우(long window)(이하 제2 윈도우라 칭함), (c)는 미디엄 윈도우(medium window)(이하 제3 윈도우라 칭함)를 나타낸다. 여기서, 제2 윈도우는 도 4에 도시된 윈도우에 대응될 수 있다. 실시예에 따르면, 제1 윈도우와 제2 윈도우의 길이는 AAC 코덱에서 사용되는 숏 윈도우와 롱 윈도우의 길이와 동일하게 설정할 수 있다. 구체적으로, AAC 코덱을 예로 들면, 한 프레임의 길이가 1024 샘플인 경우, 숏 윈도우의 길이는 256 샘플이고, 롱 윈도우의 길이는 2048 샘플일 수 있으나, 당업자에게 자명한 범위내에서 다양하게 변경될 수 있다. 또한, 제3 윈도우는 제1 윈도우보다는 길고 제2 윈도우보다는 짧은 범위내에서, 오디오 신호의 특성에 따라서 다양한 길이를 갖도록 설계될 수 있다.

도 6의 (a)를 참조하면, 제1 윈도우는 0의 윈도우 계수를 갖는 제로 구간과 1의 윈도우 계수를 갖는 유니티 구간 없이 형성될 수 있다. 한편, 도 6의 (b)를 참조하면, 제2 윈도우는 50% 미만의 오버랩 구간을 가질 수 있다. 구체적으로, 제2 윈도우는 도 4에서와 같이 0의 윈도우 계수를 갖는 제1 및 제2 제로 구간(a1,a2) 및 1의 윈도우 계수를 갖는 제1 및 제2 유니티 구간(b1,b2)을 포함할 수 있다. 한편, 도 6의 (c)를 참조하면, 제3 윈도우는 제2 윈도우와 마찬가지로 50% 미만의 오버랩 구간을 가질 수 있다. 구체적으로, 제3 윈도우는 제1 및 제2 제로 구간(c1,c2), 및 제1 및 제2 유니티 구간(d1,d2)를 포함할 수 있다.

실시예에 따르면, 제3 윈도우는 제1 윈도우보다는 길고 제2 윈도우보다는 짧은 범위내에서 상기 수학식 5를 만족하도록 설계될 수 있다.

하기의 표 1은 제1 윈도우의 프레임 사이즈가 128 샘플이고, 제2 윈도우의 프레임 사이즈가 1024 샘플인 경우, 서로 다른 6가지의 제3 윈도우의 프레임 사이즈에 따른 제1 및 제2 제로구간과 제1 및 제2 유니트 구간의 길이를 나타낸 것이다.

일실시예에 따르면, 프레임의 길이, 제1 윈도우의 길이, 제2 윈도우의 길이, 및 제3 윈도우의 길이는 모두 2의 k 승으로 설정될 수 있다. 그 결과, 부호화 및 복호화에 필요로 하는 계산량을 감소시킬 수 있다.

도 7은 도 6에 도시된 각 윈도우(710, 720, 730, 740, 750)가 프레임에 적용된 예를 설명하는 도면이다. 프레임(N-1)은 제2 윈도우(720)가, 프레임(N)은 제1 윈도우(710)와 제3 윈도우(730)가, 프레임(N+1)은 두개의 제3 윈도우(740,750)가, 프레임(N+2)는 8개의 제1 윈도우(710)가 적용된 예를 보여준다.

실시예에 따르면 윈도우 계수가 0인 구간을 제외하고, 윈도우들 사이의 오버랩 구간의 길이가 모두 동일하도록 설정함으로써, 제1 윈도우(710)와 제2 윈도우(720)를 연결하는 롱 스타트 윈도우(long start window)와 롱 스톱 윈도우(long stop window)와 같은 트랜지션 윈도우를 필요로 하지 않게 된다. 그 결과, 윈도우 스위칭에 따른 시간 지연을 줄일 수 있다. 구체적으로, 제1 윈도우(710), 제2 윈도우(720), 제3 윈도우(730, 740, 750) 사이의 오버랩 구간의 길이는 제1 윈도우(710)의 길이의 1/2로 설정될 수 있다. AAC 코덱에서와 같이 제1 윈도우(710)의 길이가 256 샘플일 경우 제1 윈도우(710), 제2 윈도우(720), 제3 윈도우(730, 740, 750) 사이의 오버랩 구간의 길이는 128 샘플이 될 수 있다. 이와 같이, 윈도우들 사이의 오버랩 구간의 길이가 AAC 코덱에 비해 매우 작아지므로 오버랩 처리에 의한 시간 지연이 감소될 수 있다.

한편, 실시예에 따르면 트랜지언트가 존재하는 프레임의 경우, 프레임(N+2)에서와 같이 프레임 전체에 대하여 8개의 제1 윈도우를 적용할 수 있다. 다른 실시예에 따르면, 프레임(N)에서와 같이 트랜지언트 구간(t1)에 대하여 제1 윈도우(710)를 적용하고, 나머지 구간은 길이가 조정된 제3 윈도우(730)가 제1 윈도우(710)와 오버랩되도록 적용할 수 있다.

한편, 실시예에 따르면 신호의 특성이 변화하는 구간(t2)이 존재하는 프레임의 경우, 트랜지언트 구간(t1)이 존재하는 프레임에서와 같이 제1 윈도우와 제3 윈도우를 적용하거나, 2개의 제3 윈도우(740, 750)을 적용할 수 있다. 여기서, 신호의 특성은 오디오 신호의 주파수, 톤(tone), 세기 등을 포함할 수 있다. 신호의 특성이 변화하는 구간(t2)의 길이가 매우 짧으면, 두개의 제3 윈도우가 오버랩되도록 하여 부호화 효율을 향상시킬 수 있다. 이때, 하나의 제3 윈도우의 길이가 결정되면, 나머지 하나의 제3 윈도우의 길이는, 2 개의 제3 윈도우(740, 750)의 프레임 사이즈의 합이 제2 윈도우(720)의 프레임 사이즈와 동일하게 되도록 결정될 수 있다. 여기서, 제3 윈도우의 형태 또한 제2 윈도우와 마찬가지로 시간-주파수 변환의 완전 복원(perfect reconstruction) 조건을 만족하도록 결정될 수 있다.

도 8은 본 발명에 적용된 해상도 향상의 개념을 설명하는 도면으로서, (a)는 기존의 전체 밴드에 대하여 블록 사이즈가 적용된 예, (b)는 실시예에 따라서 서브 밴드 단위로 블록 사이즈가 적용된 예를 보여준다.

도 9는 본 발명의 일실시예에 따른 오디오 부호화방법의 동작을 나타낸 플로우챠트이다.

도 9를 참조하면, 910 단계에서는 프레임 단위로 시간영역의 신호를 수신할 수 있다.

920 단계에서는 수신된 시간영역의 신호에 대하여 프리 필터링을 수행할 수 있다. 이를 위하여, 오디오 신호에 대하여 중요하거나 지각적인 정보를 싣고 있는 하모닉 성분과 같은 주기적인 성분을 추출하고, 추출된 주기적인 성분을 강조하는 반면 주기적인 성분들 사이의 노이즈 성분을 감쇠시킬 수 있는 프리 필터를 사용할 수 있다. 프리 필터의 필터계수는 추출된 주기적인 성분의 위치 및 진폭에 따라서 결정될 수 있다. 프리 필터의 필터 계수는 미리 실험 혹은 시뮬레이션을 통하여 미리 결정되어 매 프레임에 대하여 적용될 수 있다.

930 단계에서는 프리 필터링 처리가 수행되어 변형된 시간영역의 신호에 대하여 분석 윈도윙을 수행할 수 있다. 분석 윈도윙을 위하여 도 6의 (a) 내지 (c)에 도시된 한가지 윈도우 혹은 두가지의 윈도우가 각 프레임에 적용될 수 있다.

940 단계에서는 분석 윈도윙 처리가 수행된 시간영역의 신호를 변환하여 주파수 영역의 변환계수들을 생성할 수 있다.

950 단계에서는 주파수 영역의 변환계수들에 대하여 시간-주파수 해상도 향상 처리를 수행할 수 있다. 이때, 신호의 특성에 적응적인 블록 사이즈를 적용하여 신호의 특성에 따라서 시간 해상도 혹은 주파수 해상도를 향상시키거나, 서브 밴드 단위로 저주파수 대역으로 주파수 빈들을 머징시켜 주파수 해상도를 향상시킬 수 있다.

960 단계에서는 해상도 향상 처리가 수행된 주파수 영역의 변환계수들을 양자화 및 엔트로피 부호화하고, 복호화에 필요한 파라미터들과 함께 다중화하여 비트스트림을 생성할 수 있다.

여기서, 920 단계와 950 단계는 모두 수행되거나, 선택적으로 수행될 수 있다.

도 10은 본 발명의 일실시예에 따른 오디오 복호화장치의 동작을 나타낸 플로우챠트이다.

도 10을 참조하면, 1010 단계에서는 비트스트림을 수신하여 역다중화하여 부호화된 주파수 영역의 변환계수와 복호화에 필요한 파라미터를 추출할 수 있다.

1020 단계에서는 1010 단계에서 제공되는 주파수 영역의 변환계수들에 대하여 엔트로피 복호화 및 역양자화를 수행할 수 있다. 이때 서브 밴드 단위로 서로 다른 블록 사이즈가 할당된 경우, 블록 사이즈에 대응하여 엔트로피 복호화 및 역양자화를 수행할 수 있다.

1030 단계에서는 역양자화된 주파수 영역의 변환계수들에 대하여 부호화장치에서의 해상도 향상 처리시 사용된 매트릭스의 역 매트릭스를 사용하여 해상도 향상 처리 이전의 상태로 해상도를 복원할 수 있다.

1040 단계에서는 해상도가 복원된 주파수 영역의 변환계수를 역변환하여 시간 영역의 신호를 생성할 수 있다.

1050 단계에서는 시간 영역의 신호에 대하여 합성 윈도윙을 수행할 수 있다. 이때, 각 프레임에 대하여 부호화장치에서의 분석 윈도윙에 사용된 윈도우와 동일한 윈도우를 적용할 수 있다. 합성 윈도윙 처리는 오버랩 앤드 애드 처리를 포함할 수 있다.

1060 단계에서는 부호화장치에서의 프리 필터링 이전의 상태로 복원시키기 위하여, 합성 윈도윙이 수행된 시간 영역의 신호에 대하여 포스트 필터링을 수행할 수 있다.

여기서, 1030 단계와 1060 단계는 부호화장치에서의 처리 여부에 대응하여 선택적으로 혹은 모두 수행될 수 있다.

상기한 실시예들은 바람직하게로는 MPEG(Moving Picture Expert Group) AAC(Advanced Audio Coding), MPEG AAC-LD(Low Delay) 혹은 MPEG AAC-ELD(Enhanced Low Delay)를 채용하는 코어 코더에 적용될 수 있으나, 변환 부호화를 채용하는 모든 코덱에 적용될 수 있다.

도 11은 본 발명의 일실시예에 따른 부호화모듈을 포함하는 멀티미디어 기기의 구성을 나타낸 블록도이다.

도 11에 도시된 멀티미디어 기기(1100)는 통신부(1110)와 부호화모듈(1130)을 포함할 수 있다. 또한, 부호화 결과 얻어지는 오디오 비트스트림의 용도에 따라서, 오디오 비트스트림을 저장하는 저장부(1150)을 더 포함할 수 있다. 또한, 멀티미디어 기기(1100)는 마이크로폰(1170)을 더 포함할 수 있다. 즉, 저장부(1150)와 마이크로폰(1170)은 옵션으로 구비될 수 있다. 한편, 도 11에 도시된 멀티미디어 기기(1100)는 임의의 복호화모듈(미도시), 예를 들면 일반적인 복호화 기능을 수행하는 복호화모듈 혹은 본 발명의 일실시예에 따른 복호화모듈을 더 포함할 수 있다. 여기서, 부호화모듈(1130)은 멀티미디어 기기(1100)에 구비되는 다른 구성요소(미도시)와 함께 일체화되어 적어도 하나 이상의 프로세서(미도시)로 구현될 수 있다.

도 11을 참조하면, 통신부(1110)는 외부로부터 제공되는 오디오와 부호화된 비트스트림 중 적어도 하나를 수신하거나, 복원된 오디오와 부호화모듈(1130)의 부호화결과 얻어지는 오디오 비트스트림 중 적어도 하나를 송신할 수 있다.

통신부(1110)는 무선 인터넷, 무선 인트라넷, 무선 전화망, 무선 랜(LAN), 와이파이(Wi-Fi), 와이파이 다이렉트(WFD, Wi-Fi Direct), 3G(Generation), 4G(4 Generation), 블루투스(Bluetooth), 적외선 통신(IrDA, Infrared Data Association), RFID(Radio Frequency Identification), UWB(Ultra WideBand), 지그비(Zigbee), NFC(Near Field Communication)와 같은 무선 네트워크 또는 유선 전화망, 유선 인터넷과 같은 유선 네트워크를 통해 외부의 멀티미디어 기기 혹은 서버와 데이터를 송수신할 수 있도록 구성된다.

부호화모듈(1130)은 일실시예에 따르면, 통신부(1110) 혹은 마이크로폰(1170)을 통하여 제공되는 시간 영역의 신호를 프레임 단위로 주파수 해상도를 보상시키기 위하여 변형된 시간 영역의 신호를 생성하고, 50% 미만의 오버랩 구간을 갖도록 설계되는 윈도우를 이용하여 변형된 시간 영역의 신호에 대하여 분석 윈도윙을 수행하고, 분석 윈도윙이 수행된 시간 영역의 신호를 주파수 영역의 신호로 변환할 수 있다. 또한, 주파수 해상도를 향상시키기 위하여, 주파수 영역의 신호에 대하여 서브밴드 단위로 저주파수 대역으로 주파수 빈들을 머징시킬 수 있다. 또한, 시간-주파수 해상도를 향상시키기 위하여, 주파수 영역의 신호의 특성에 대응하여 서브밴드 단위로 서로 다른 블록 사이즈를 적용할 수 있다. 변형된 시간영역의 신호는 프레임 단위로 주기적인 성분을 강조하면서 상기 주기적인 성분들 사이의 성분을 감쇠시켜 생성할 수 있다. 또한, 분석 윈도윙을 수행함에 있어서, 서로 다른 길이를 가지면서 오버랩 구간에서 완전 복원이 가능하도록 동일한 오버랩 구간을 가지도록 설계되는 적어도 두가지의 윈도우를 적용할 수 있다.

저장부(1150)는 멀티미디어 기기(1100)의 운용에 필요한 다양한 프로그램을 저장할 수 있다.

마이크로폰(1170)은 사용자 혹은 외부의 오디오신호를 부호화모듈(930)로 제공할 수 있다.

도 12는 본 발명의 일실시예에 따른 복호화모듈을 포함하는 멀티미디어 기기의 구성을 나타낸 블록도이다.

도 12에 도시된 멀티미디어 기기(1200)는 통신부(1210)와 복호화모듈(1230)을 포함할 수 있다. 또한, 복호화 결과 얻어지는 복원된 오디오신호의 용도에 따라서, 복원된 오디오신호를 저장하는 저장부(1250)을 더 포함할 수 있다. 또한, 멀티미디어 기기(1200)는 스피커(1270)를 더 포함할 수 있다. 즉, 저장부(1250)와 스피커(1270)는 옵션으로 구비될 수 있다. 한편, 도 12에 도시된 멀티미디어 기기(1200)는 임의의 부호화모듈(미도시), 예를 들면 일반적인 부호화 기능을 수행하는 부호화모듈 혹은 본 발명의 일실시예에 따른 부호화모듈을 더 포함할 수 있다. 여기서, 복호화모듈(1230)은 멀티미디어 기기(1200)에 구비되는 다른 구성요소(미도시)와 함께 일체화되어 적어도 하나의 이상의 프로세서(미도시)로 구현될 수 있다.

도 12를 참조하면, 통신부(1210)는 외부로부터 제공되는 부호화된 비트스트림과 오디오 신호 중 적어도 하나를 수신하거나 복호화 모듈(1230)의 복호화결과 얻어지는 복원된 오디오 신호와 부호화결과 얻어지는 오디오 비트스트림 중 적어도 하나를 송신할 수 있다. 한편, 통신부(1210)는 도 11의 통신부(1110)와 실질적으로 유사하게 구현될 수 있다.

복호화 모듈(1230)은 일실시예에 따르면, 통신부(1210)를 통하여 제공되는 비트스트림을 수신하고, 비트스트림으로부터 복호화된 주파수 영역의 신호에 대하여 서브밴드 단위로 주파수 빈들을 역머징시켜 주파수 해상도를 복원하고, 해상도가 복원된 주파수 영역의 신호를 시간 영역의 신호로 역변환하고, 50% 미만의 오버랩 구간을 갖도록 설계되는 윈도우를 이용하여 시간 영역의 신호에 대하여 합성 윈도윙을 수행할 수 있다. 또한, 합성 윈도윙이 수행된 시간 영역의 신호에 대하여 부호화과정에서 수행된 프리 필터링에 대응되는 포스트 필터링을 수행하여 해상도 보상 이전의 오디오신호를 복원할 수 있다. 또한, 합성 윈도윙을 수행함에 있어서, 서로 다른 길이를 가지면서 오버랩 구간에서 완전 복원이 가능하도록 동일한 오버랩 구간을 가지도록 설계되는 적어도 두가지의 윈도우를 적용할 수 있다.

저장부(1250)는 복호화 모듈(1230)에서 생성되는 복원된 오디오신호를 저장할 수 있다. 한편, 저장부(1250)는 멀티미디어 기기(1200)의 운용에 필요한 다양한 프로그램을 저장할 수 있다.

스피커(1270)는 복호화 모듈(1230)에서 생성되는 복원된 오디오신호를 외부로 출력할 수 있다.

도 13은 본 발명의 일실시예에 따른 부호화모듈과 복호화모듈을 포함하는 멀티미디어 기기의 구성을 나타낸 블록도이다.

도 13에 도시된 멀티미디어 기기(1300)는 통신부(1310), 부호화모듈(1320)과 복호화모듈(1330)을 포함할 수 있다. 또한, 부호화 결과 얻어지는 오디오 비트스트림 혹은 복호화 결과 얻어지는 복원된 오디오신호의 용도에 따라서, 오디오 비트스트림 혹은 복원된 오디오신호를 저장하는 저장부(1340)을 더 포함할 수 있다. 또한, 멀티미디어 기기(1300)는 마이크로폰(1350) 혹은 스피커(1360)를 더 포함할 수 있다. 여기서, 부호화모듈(1320)과 복호화모듈(1330)은 멀티미디어 기기(1300)에 구비되는 다른 구성요소(미도시)와 함께 일체화되어 적어도 하나 이상의 프로세서(미도시)로 구현될 수 있다.

도 13에 도시된 각 구성요소는 도 11에 도시된 멀티미디어 기기(1100)의 구성요소 혹은 도 12에 도시된 멀티미디어 기기(1200)의 구성요소와 중복되므로, 그 상세한 설명은 생략하기로 한다.

도 11 내지 도 13에 도시된 멀티미디어 기기(1100, 1200, 1300)에는, 전화, 모바일 폰 등을 포함하는 음성통신 전용단말, TV, MP3 플레이어 등을 포함하는 방송 혹은 음악 전용장치, 혹은 음성통신 전용단말과 방송 혹은 음악 전용장치의 융합 단말장치, 텔레컨퍼런싱 혹은 인터랙션 시스템의 사용자 단말이 포함될 수 있으나, 이에 한정되는 것은 아니다. 또한, 멀티미디어 기기(1100, 1200, 1300)는 클라이언트, 서버 혹은 클라이언트와 서버 사이에 배치되는 변환기로서 사용될 수 있다.

한편, 멀티미디어 기기(1100, 1200, 1300)가 예를 들어 모바일 폰인 경우, 도시되지 않았지만 키패드 등과 같은 유저 입력부, 유저 인터페이스 혹은 모바일 폰에서 처리되는 정보를 디스플레이하는 디스플레이부, 모바일 폰의 전반적인 기능을 제어하는 프로세서를 더 포함할 수 있다. 또한, 모바일 폰은 촬상 기능을 갖는 카메라부와 모바일 폰에서 필요로 하는 기능을 수행하는 적어도 하나 이상의 구성요소를 더 포함할 수 있다.

한편, 멀티미디어 기기(1100, 1200, 1300)가 예를 들어 TV인 경우, 도시되지 않았지만 키패드 등과 같은 유저 입력부, 수신된 방송정보를 디스플레이하는 디스플레이부, TV의 전반적인 기능을 제어하는 프로세서를 더 포함할 수 있다. 또한, TV는 TV에서 필요로 하는 기능을 수행하는 적어도 하나 이상의 구성요소를 더 포함할 수 있다.

상기 실시예들에 따른 방법은 컴퓨터에서 실행될 수 있는 프로그램으로 작성가능하고, 컴퓨터로 읽을 수 있는 기록매체를 이용하여 상기 프로그램을 동작시키는 범용 디지털 컴퓨터에서 구현될 수 있다. 또한, 상술한 본 발명의 실시예들에서 사용될 수 있는 데이터 구조, 프로그램 명령, 혹은 데이터 파일은 컴퓨터로 읽을 수 있는 기록매체에 다양한 수단을 통하여 기록될 수 있다. 컴퓨터로 읽을 수 있는 기록매체는 컴퓨터 시스템에 의하여 읽혀질 수 있는 데이터가 저장되는 모든 종류의 저장 장치를 포함할 수 있다. 컴퓨터로 읽을 수 있는 기록매체의 예로는 하드 디스크, 플로피 디스크 및 자기 테이프와 같은 자기 매체(magnetic media), CD-ROM, DVD와 같은 광기록 매체(optical media), 플롭티컬 디스크(floptical disk)와 같은 자기-광 매체(magneto-optical media), 및 롬(ROM), 램(RAM), 플래시 메모리 등과 같은 프로그램 명령을 저장하고 수행하도록 특별히 구성된 하드웨어 장치가 포함될 수 있다. 또한, 컴퓨터로 읽을 수 있는 기록매체는 프로그램 명령, 데이터 구조 등을 지정하는 신호를 전송하는 전송 매체일 수도 있다. 프로그램 명령의 예로는 컴파일러에 의해 만들어지는 것과 같은 기계어 코드뿐만 아니라 인터프리터 등을 사용해서 컴퓨터에 의해서 실행될 수 있는 고급 언어 코드를 포함할 수 있다.

이상과 같이 본 발명의 일실시예는 비록 한정된 실시예와 도면에 의해 설명되었으나, 본 발명의 일실시예는 상기 설명된 실시예에 한정되는 것은 아니며, 이는 본 발명이 속하는 분야에서 통상의 지식을 가진 자라면 이러한 기재로부터 다양한 수정 및 변형이 가능하다. 따라서, 본 발명의 스코프는 전술한 설명이 아니라 특허청구범위에 나타나 있으며, 이의 균등 또는 등가적 변형 모두는 본 발명 기술적 사상의 범주에 속한다고 할 것이다.

Claims

프레임 단위로 주파수 해상도를 보상시키기 위하여 변형된 시간 영역의 신호를 생성하는 단계;
50% 미만의 오버랩 구간을 갖도록 설계되는 윈도우를 이용하여 상기 변형된 시간 영역의 신호에 대하여 분석 윈도윙을 수행하는 단계; 및
상기 분석 윈도윙이 수행된 시간 영역의 신호를 변환하여 주파수 영역의 변환계수들을 생성하는 단계를 포함하는 오디오신호 부호화방법.
제1 항에 있어서, 상기 방법은 상기 주파수 해상도를 향상시키기 위하여, 상기 주파수 영역의 변환계수들에 대하여 서브밴드 단위로 저주파수 대역으로 주파수 빈들을 머징시키는 단계를 더 포함하는 오디오 신호 부호화방법.
제1 항 또는 제2 항에 있어서, 상기 방법은 시간-주파수 해상도를 향상시키기 위하여, 상기 주파수 영역의 변환계수들의 특성에 대응하여 서브밴드 단위로 서로 다른 블록 사이즈를 적용하는 단계를 더 포함하는 오디오 신호 부호화방법.
제1 항에 있어서, 상기 변형된 시간영역의 신호를 생성하는 단계는 프레임 단위로 주기적인 성분들을 제거하는 오디오신호 부호화방법.
제1 항에 있어서, 상기 분석 윈도윙을 수행하는 단계는 서로 다른 길이를 가지면서 오버랩 구간에서 완전 복원이 가능하도록 윈도우 계수가 0인 구간을 제외하고 동일한 오버랩 구간을 가지도록 설계되는 적어도 두가지의 윈도우를 적용하는 오디오신호 부호화방법.
서로 다른 길이를 가지면서 동일한 오버랩 구간을 가지도록 설계되는 적어도 두가지의 윈도우를 이용하여, 시간 영역의 신호에 대하여 프레임 단위로 분석 윈도윙을 수행하는 단계;
상기 분석 윈도윙이 수행된 시간 영역의 신호를 주파수 영역의 신호로 변환하는 단계; 및
주파수 해상도를 향상시키기 위하여, 상기 주파수 영역의 신호에 대하여 서브밴드 단위로 저주파수 대역으로 주파수 빈들을 머징시키는 단계를 포함하는 오디오신호 부호화방법.
제6 항에 있어서, 상기 방법은 시간-주파수 해상도를 향상시키기 위하여, 상기 주파수 영역의 신호의 특성에 대응하여 서브밴드 단위로 서로 다른 블록 사이즈를 적용하는 단계를 더 포함하는 오디오 신호 부호화방법.
제7 항에 있어서, 상기 프레임 단위로 주기적인 성분을 강조하기 위하여 상기 주기적인 성분들을 제거시켜 변형된 시간영역의 신호를 생성하고, 상기 변형된 시간영역의 신호를 상기 시간영역의 신호 대신 상기 분석 윈도윙을 위하여 제공하는 단계를 더 포함하는 오디오신호 부호화방법.
비트스트림으로부터 복호화된 주파수 영역의 신호에 대하여 서브밴드 단위로 주파수 빈들을 역머징시켜 주파수 해상도를 복원하는 단계;
상기 해상도가 복원된 주파수 영역의 신호를 시간 영역의 신호로 역변환하는 단계; 및
50% 미만의 오버랩 구간을 갖도록 설계되는 윈도우를 이용하여 상기 시간 영역의 신호에 대하여 합성 윈도윙을 수행하는 단계를 포함하는 오디오신호 복호화방법.
제9 항에 있어서, 상기 방법은 상기 합성 윈도윙이 수행된 시간 영역의 신호에 대하여 부호화과정에서 수행된 프리 필터링에 대응되는 포스트 필터링을 수행하여 해상도 보상 이전의 오디오신호를 복원하는 단계를 더 포함하는 오디오신호 복호화방법.
제9 항에 있어서, 상기 합성 윈도윙을 수행하는 단계는 서로 다른 길이를 가지면서 오버랩 구간에서 완전 복원이 가능하도록 윈도우 계수가 0인 구간을 제외하고 동일한 오버랩 구간을 가지도록 설계되는 적어도 두가지의 윈도우를 적용하는 오디오신호 복호화방법.
프레임 단위로 주파수 해상도를 보상시키기 위하여 변형된 시간 영역의 신호를 생성하는 프리 필터링부;
50% 미만의 오버랩 구간을 갖도록 설계되는 윈도우를 이용하여 상기 변형된 시간 영역의 신호에 대하여 분석 윈도윙을 수행하는 분석 윈도윙부;
상기 분석 윈도윙이 수행된 시간 영역의 신호를 주파수 영역의 신호로 변환하는 변환부; 및
상기 주파수 해상도를 향상시키기 위하여, 상기 주파수 영역의 신호에 대하여 서브밴드 단위로 저주파수 대역으로 주파수 빈들을 머징시키는 해상도 향상부를 포함하는 오디오신호 부호화장치.
제12 항에 있어서, 상기 해상도 향상부는 시간-주파수 해상도를 향상시키기 위하여, 상기 주파수 영역의 신호의 특성에 대응하여 서브밴드 단위로 서로 다른 블록 사이즈를 적용하는 오디오 신호 부호화장치.
제12 항에 있어서, 상기 분석 윈도윙부는 서로 다른 길이를 가지면서 오버랩 구간에서 완전 복원이 가능하도록 윈도우 계수가 0인 구간을 제외하고 동일한 오버랩 구간을 가지도록 설계되는 적어도 두가지의 윈도우를 적용하는 오디오신호 부호화장치.
비트스트림으로부터 복호화된 주파수 영역의 신호에 대하여 서브밴드 단위로 주파수 빈들을 역머징시켜 주파수 해상도를 복원하는 해상도 복원부;
상기 해상도가 복원된 주파수 영역의 신호를 시간 영역의 신호로 역변환하는 역변환부;
50% 미만의 오버랩 구간을 갖도록 설계되는 윈도우를 이용하여 상기 시간 영역의 신호에 대하여 합성 윈도윙을 수행하는 합성 윈도윙부; 및
상기 합성 윈도윙이 수행된 시간 영역의 신호에 대하여 부호화과정에서 수행된 프리 필터링에 대응되는 포스트 필터링을 수행하여 해상도 보상 이전의 오디오신호를 복원하는 포스트 필터링부를 포함하는 오디오신호 복호화장치.
제16 항에 있어서, 상기 합성 윈도윙부는 서로 다른 길이를 가지면서 오버랩 구간에서 완전 복원이 가능하도록 윈도우 계수가 0인 구간을 제외하고 동일한 오버랩 구간을 가지도록 설계되는 적어도 두가지의 윈도우를 적용하는 오디오신호 복호화장치.
오디오신호와 부호화된 비트스트림 중 적어도 하나를 수신하거나, 부호화된 오디오 신호와 복원된 오디오 중 적어도 하나를 송신하는 통신부; 및
비트스트림으로부터 복호화된 주파수 영역의 신호에 대하여 서브밴드 단위로 주파수 빈들을 역머징시켜 주파수 해상도를 복원하고, 상기 해상도가 복원된 주파수 영역의 신호를 시간 영역의 신호로 역변환하고, 50% 미만의 오버랩 구간을 갖도록 설계되는 윈도우를 이용하여 상기 시간 영역의 신호에 대하여 합성 윈도윙을 수행하는 복호화 모듈을 포함하는 멀티미디어 기기.
제17 항에 있어서, 상기 멀티미디어 기기는 프레임 단위로 주파수 해상도를 보상시키기 위하여 변형된 시간 영역의 신호를 생성하고, 50% 미만의 오버랩 구간을 갖도록 설계되는 윈도우를 이용하여 상기 변형된 시간 영역의 신호에 대하여 분석 윈도윙을 수행하고, 상기 분석 윈도윙이 수행된 시간 영역의 신호를 주파수 영역의 신호로 변환하는 부호화 모듈을 더 포함하는 멀티미디어 기기.
제18 항에 있어서, 상기 분석 윈도윙 및 합성 윈도윙은 서로 다른 길이를 가지면서 오버랩 구간에서 완전 복원이 가능하도록 윈도우 계수가 0인 구간을 제외하고 동일한 오버랩 구간을 가지도록 설계되는 적어도 두가지의 윈도우를 적용하여 수행되는 멀티미디어 기기.
제1 항 내지 제11 항 중 어느 한 항에 기재된 방법을 실행시킬 수 있는 컴퓨터로 읽을 수 있는 기록매체.