[go: up one dir, main page]
More Web Proxy on the site http://driver.im/

KR101423737B1 - 오디오 신호의 디코딩 방법 및 장치 - Google Patents

오디오 신호의 디코딩 방법 및 장치 Download PDF

Info

Publication number
KR101423737B1
KR101423737B1 KR1020110005956A KR20110005956A KR101423737B1 KR 101423737 B1 KR101423737 B1 KR 101423737B1 KR 1020110005956 A KR1020110005956 A KR 1020110005956A KR 20110005956 A KR20110005956 A KR 20110005956A KR 101423737 B1 KR101423737 B1 KR 101423737B1
Authority
KR
South Korea
Prior art keywords
audio signal
smoothing
frequency band
decoding
decoded audio
Prior art date
Application number
KR1020110005956A
Other languages
English (en)
Other versions
KR20110085939A (ko
Inventor
양희식
이미숙
김현우
성종모
배현주
이병선
Original Assignee
한국전자통신연구원
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 한국전자통신연구원 filed Critical 한국전자통신연구원
Publication of KR20110085939A publication Critical patent/KR20110085939A/ko
Application granted granted Critical
Publication of KR101423737B1 publication Critical patent/KR101423737B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/08Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters
    • G10L19/10Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters the excitation function being a multipulse excitation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/08Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters
    • G10L19/093Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters using sinusoidal excitation models
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • G10L19/18Vocoders using multiple modes
    • G10L19/24Variable rate codecs, e.g. for generating different qualities using a scalable representation such as hierarchical encoding or layered encoding

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Quality & Reliability (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Abstract

본 발명은 오디오 신호의 디코딩 방법 및 장치에 관한 것이다. 본 발명의 일 실시예에 따르면, 하나 이상의 정현 펄스를 이용하는 계층형 정현 펄스 코딩을 통해 인코딩된 오디오 신호를 디코딩하는 방법은, 상기 인코딩된 오디오 신호를 디코딩하는 단계, 상기 계층형 정현 펄스 코딩의 계층 구조에 따라, 상기 디코딩된 오디오 신호의 평활화 주파수 대역을 설정하는 단계, 상기 평활화 주파수 대역을 하나 이상의 서브 대역으로 나누는 단계, 및 상기 서브 대역별로 상기 디코딩된 오디오 신호를 평활화하는 단계를 포함한다. 본 발명에 의하면, 하나 이상의 정현 펄스를 이용하는 계층형 정현 펄스 코딩을 통해 인코딩된 오디오 신호를 디코딩함에 있어서, 평활화를 수행할 주파수 대역을 가변적으로 설정함으로써 디코딩에 소요되는 연산량을 줄이고, 합성된 신호의 품질을 높일 수 있는 효과가 있다.

Description

오디오 신호의 디코딩 방법 및 장치{METHOD AND APPARATUS FOR DECODING AUDIO SIGNAL}
본 발명은 오디오 신호의 디코딩 방법 및 장치에 관한 것으로, 더욱 상세하게는 하나 이상의 정현 펄스(sinusoidal pulse)를 이용하는 계층형 정현 펄스 코딩(Layered Sinusoidal Pulse Coding)을 통해 인코딩된 오디오 신호를 디코딩하는 방법 및 장치에 관한 것이다.
통신 기술의 발달과 함께 데이터 전송을 위한 대역폭이 증가하면서, 고품질 통신 서비스에 대한 사용자의 요구가 점차 증가하고 있다. 고품질의 음성 및 오디오 통신 서비스를 제공하기 위해서는 음성 및 오디오 신호를 효과적으로 압축(인코딩)하고 복원(디코딩)할 수 있는 코딩기술이 필수적이다.
지금까지의 통신 서비스는 협대역 코덱을 중심으로 개발되어 왔으나, VoIP의 활성화로 인해 광대역 코덱에 대한 관심도 높아지고 있다. 최근에는 하나의 코덱으로 협대역(NarrowBand: NB, 300~3,400 Hz), 광대역(WideBand: WB, 50~7,000 Hz) 및 초광대역(SuperWideBand: SWB, 50~14,000 Hz) 신호를 처리하는 확장코덱 기술에 대한 연구가 활발히 진행되고 있다. ITU-T G.729.1은 대표적인 확장코덱으로, 협대역 코덱인 G.729를 기반으로 하는 광대역 확장코덱이다. 이 코덱은 8 kbit/s에서 G.729와 비트스트림 레벨의 호환성을 제공하고, 12 kbit/s에서는 보다 향상된 품질의 협대역 신호를 제공한다. 그리고 14 kbit/s부터 32 kbit/s에서는 2 kbit/s의 비트율 확장성을 가지고 광대역 신호를 코딩하며, 비트율의 증가에 따라 출력신호의 품질도 좋아지는 특성을 가진다.
이와 같은 확장코덱에서는 대역폭과 비트율 확장성 제공을 위해 일반적으로 계층형 코딩 구조를 채택한다. 계층형 코딩 구조에서는 주파수 대역에 따라서 서로 다른 코딩방식을 적용할 수 있다. 일반적으로 상위계층에서는 음성 이외의 신호에 대한 성능을 높이기 위해 주파수 영역 코딩방식을 적용한다. 주파수 영역 변환방식으로는 주로 MDCTMDCT(Modified Discrete Cosine Transform)가 사용되며, MDCT 계수 코딩에는 gain-shape VQ, AVQ, 그리고 정현 펄스 코딩 알고리즘 등이 사용된다.
본 발명은 하나 이상의 정현 펄스를 이용하는 계층형 정현 펄스 코딩을 통해 인코딩된 오디오 신호를 디코딩함에 있어서, 평활화를 수행할 주파수 대역을 가변적으로 설정함으로써 디코딩에 소요되는 연산량을 줄이고, 합성된 신호의 품질을 높일 수 있는 방법 및 장치를 제공하는 것을 목적으로 한다.
본 발명의 목적들은 이상에서 언급한 목적으로 제한되지 않으며, 언급되지 않은 본 발명의 다른 목적 및 장점들은 하기의 설명에 의해서 이해될 수 있고, 본 발명의 실시예에 의해 보다 분명하게 이해될 것이다. 또한, 본 발명의 목적 및 장점들은 특허 청구 범위에 나타낸 수단 및 그 조합에 의해 실현될 수 있음을 쉽게 알 수 있을 것이다.
이러한 목적을 달성하기 위한 본 발명은 하나 이상의 정현 펄스를 이용하는 계층형 정현 펄스 코딩을 통해 인코딩된 오디오 신호를 디코딩하는 방법에 있어서, 상기 인코딩된 오디오 신호를 디코딩하는 단계, 상기 계층형 정현 펄스 코딩의 계층 구조에 따라, 상기 디코딩된 오디오 신호의 평활화 주파수 대역을 설정하는 단계, 상기 평활화 주파수 대역을 하나 이상의 서브 대역으로 나누는 단계, 및 상기 서브 대역별로 상기 디코딩된 오디오 신호를 평활화하는 단계를 포함한다.
또한, 본 발명은 하나 이상의 정현 펄스를 이용하는 계층형 정현 펄스 코딩을 통해 인코딩된 오디오 신호를 디코딩하는 장치에 있어서, 상기 인코딩된 오디오 신호를 디코딩하는 디코딩부, 상기 계층형 정현 펄스 코딩의 계층 구조에 따라, 상기 디코딩된 오디오 신호의 평활화 주파수 대역을 설정하는 평활화 주파수 대역 설정부, 및 상기 평활화 주파수 대역을 하나 이상의 서브 대역으로 나누고, 상기 서브 대역별로 상기 디코딩된 오디오 신호를 평활화하는 평활화부를 포함한다.
전술한 바와 같은 본 발명에 의하면, 하나 이상의 정현 펄스를 이용하는 계층형 정현 펄스 코딩을 통해 인코딩된 오디오 신호를 디코딩함에 있어서, 평활화를 수행할 주파수 대역을 가변적으로 설정함으로써 디코딩에 소요되는 연산량을 줄이고, 합성된 신호의 품질을 높일 수 있는 장점이 있다.
도 1은 기존 협대역 코덱과의 호환성을 제공하는 초광대역 확장코덱의 구조.
도 2는 G.729.1의 임베디드 계층형 비트스트림 형식.
도 3은 본 발명의 실시예에 따른 오디오 신호 디코딩 장치의 구조.
도 4는 본 발명의 실시예에 따른 오디오 신호 디코딩 방법을 나타내는 흐름도.
도 5는 7-14kHz에 해당하는 280개의 MDCT 계수를 인코딩하기 위하여 두 개의 계층에 걸쳐 정현 펄스 코딩을 적용한 예제.
도 6은 본 발명에 의한 오디오 디코딩 방법을 수행하지 않았을 때와 수행했을 때의 결과를 비교하기 위한 그래프.
도 7은 본 발명의 다른 실시예에 따른 오디오 신호 디코딩 방법을 나타내는 흐름도.
전술한 목적, 특징 및 장점은 첨부된 도면을 참조하여 상세하게 후술되며, 이에 따라 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자가 본 발명의 기술적 사상을 용이하게 실시할 수 있을 것이다. 본 발명을 설명함에 있어서 본 발명과 관련된 공지 기술에 대한 구체적인 설명이 본 발명의 요지를 불필요하게 흐릴 수 있다고 판단되는 경우에는 상세한 설명을 생략한다. 이하, 첨부된 도면을 참조하여 본 발명에 따른 바람직한 실시예를 상세히 설명하기로 한다. 도면에서 동일한 참조부호는 동일 또는 유사한 구성요소를 가리키는 것으로 사용된다.
도 1은 기존 협대역 코덱과의 호환성을 제공하는 초광대역 확장코덱의 구조를 나타낸다.
일반적으로 확장코덱은 입력 신호를 여러 개의 주파수 대역으로 분리한 후에 각 주파수 대역의 신호를 인코딩 또는 디코딩하는 구조를 갖는다. 도 1을 참조하면, 입력된 신호는 1차 저대역 통과 필터(102) 및 1차 고대역 통과 필터(104)에 의해 필터링된다. 1차 저대역 통과 필터(102)는 필터링 및 다운 샘플링을 수행하여 입력 신호 중 저대역 신호 A(0-8kHz)를 출력한다. 그리고 1차 고대역 통과 필터(104)는 필터링 및 다운 샘플링을 수행하여 입력 신호 중 고대역 신호 B(8-16kHz)를 출력한다.
1차 저대역 통과 필터(102)에서 출력된 저대역 신호 A는 2차 저대역 통과 필터(106) 및 2차 저대역 통과 필터(108)에 입력된다. 2차 저대역 통과 필터(106)는 필터링 및 다운 샘플링을 수행하여 저-저대역 신호 A1(0-4kHz)을 출력하고, 2차 저대역 통과 필터(108)는 필터링 및 다운 샘플링을 수행하여 저-고대역 신호 A2(4-8kHz)를 출력한다.
결국, 협대역 코딩 모듈(110)은 저-저대역 신호 A1을 코딩하고, 광대역 확장코딩 모듈(112)은 저-고대역 신호 A2 및 저-저대역 신호 A1 중 협대역 코딩 모듈(110)이 표현하지 못한 신호를 코딩한다. 그리고 초광대역 확장코딩 모듈(114)은 고대역 신호 B 및 저대역 신호 A 중 협대역 코딩 모듈(110)과 광대역 확장코딩 모듈(112)이 표현하지 못한 신호를 코딩한다. 따라서 협대역 코딩 모듈(110)의 출력 신호만을 디코딩할 경우에는 협대역 신호를 합성할 수 있고, 세 모듈의 출력 신호를 모두 디코딩할 경우에는 초광대역 신호를 합성할 수 있다.
도 1에 도시된 바와 같은 가변대역 확장 코덱의 대표적인 예로서, 협대역 코덱인 G.729를 기반으로 하는 계층형 구조의 ITU-T G.729.1을 들 수 있다. G.729.1은 총 12개의 계층으로 구성되는데, 계층 1에서는 8 kbit/s의 비트율로 G.729와 비트스트림 레벨에서 호환성을 제공하고, 계층 2(12 kbit/s)에서는 계층 1보다 좋은 품질의 협대역 신호를 제공한다. 그리고 계층 3(14 kbit/s)부터 계층 12(32 kbit/s)에서는 광대역 신호를 코딩하는데, 비트율을 2 kbit/s 단위로 변경할 수 있으며, 계층(비트율)의 증가에 따라 합성된 신호의 품질도 좋아진다. 도 2는 G.729.1의 임베디드 계층형 비트스트림 형식을 나타낸다.
이와 같은 가변대역 확장 코덱에서는 주파수 대역에 따라 동일한 코딩방식 또는 다른 코딩방식을 적용할 수 있다. 예를 들면, 협대역 신호는 계층 1과 2에서 ACELP(Algebraic Code Excited Linear Prediction) 방식으로 코딩하고, 계층 1과 2에서 표현하지 못한 협대역 신호 및 저-고대역 신호는 MDCT(Modified Discrete Cosine Transform) 영역으로 변환하여 코딩할 수 있다. 또한, 고대역 신호는 MDCT 영역으로 변환하여 코딩할 수 있다.
MDCT 영역 코딩 방식의 경우, 시간 영역 신호에 MDCT 변환을 적용한 후 얻어진 MDCT 계수에 대한 정보를 코딩한다. 이때, MDCT 계수를 여러 개의 서브 대역으로 나누어서 각 서브 대역의 게인(gain)과 세이프(shape)를 코딩하거나, ACELP 또는 정현 펄스 코딩 방식 등을 이용하여 코딩하기도 한다. 정현 펄스 코딩에서는 합성된 신호의 품질에 영향을 주는 MDCT 계수의 위치, 크기 및 부호 정보를 코딩한다.
일반적으로 가변대역 확장 코덱에서는 여러 개의 비트율을 제공하기 위해 계층 구조의 코딩방식을 취한다. 예를 들어, 협대역 코덱에서 처리하지 못한 신호와 고-저대역 신호를 코딩하는데 총 20 kbit/s의 신호를 사용할 경우, 한꺼번에 20 kbit/s를 사용하는 것이 아니라 각 계층당 2 kbit/s의 신호를 나누어 할당한다. 이로써 2 kbit/s 단위로 비트율을 제어할 수 있게 된다. 2 kbit/s씩 여러 계층으로 나누어 코딩할 경우, 주파수 대역을 여러 개의 서브 대역으로 나눈 후 일부 서브대역을 2 kbit/s로 부호화할 수도 있고, 전체 주파수 대역을 2 kbit/s로 부화한 후에 다시 오차 신호를 구하여 2 kbit/s로 부호화할 수도 있다. 코덱의 구조, 계산량, 음질 등을 고려하여 적당한 방식이 선택될 수 있다.
전술한 가변대역 확장 코덱의 예와 같이 정현 펄스 코딩 기법을 이용하여 신호를 모델링할 때 비트율이 제한되어 있다면, 인간의 청각 특성을 고려하여 서브 대역 별 중요도에 따라 비트 할당을 달리할 수 있다. 이러한 구조는 비트율 대비 음질 측면에서 매우 효율적이지만, 비트가 상대적으로 적게 할당된 서브 대역에서 양자화 오류가 발생하면 양자화 스텝 차이로 인한 음질 열화가 일어날 가능성이 크다. 특히, 주파수 전 대역에서 시간축 변화도가 적은 신호, 예를 들면 피아노, 바이올린 등의 악기 신호들을 정현 펄스 코딩할 경우, 전 대역에 걸친 펄스들의 부호, 크기 및 위상의 시간축 변화도가 매우 적어야 한다. 하지만, 비트 할당이 적어 양자화 스텝이 큰 특정 서브 대역에서 양자화 오류가 발생하면, 합성 신호 전체의 음질이 열화될 수 있다.
시간축 불연속성으로 인해 합성 신호의 음질 열화가 예측될 경우, 시간축 평활화 기법 또는 시간축 변화특성을 반영한 코딩 기법을 이용하여 불연속성을 보상하고 음질을 향상시킨다. 정현 펄스 코딩 방식에서 시간축 변화특성을 반영한 기법의 예로서, 신호를 댐피드 시누소이드(Damped Sinusoid)로 모델링하고, 슬라이딩 윈도우(Sliding Window) ESPRIT(Estimation of Signal Parameter via Rotational Invariance Techniques) 기법을 이용하여 시간축 변화특성을 추정하는 방법이 있다. 댐피드 시누소이드(Damped Sinusoid) 모델링 기법은 예의 악기 신호가 최초 음이 발생 한 후 점차 감쇄해 간다는 가정 하에 신호를 정현 펄스와 감쇄 파라미터들로 모델링하는 방법이다. 그리고 슬라이딩 윈도우 ESPRIT 기법은 인접한 분석 프레임들과의 상관관계에 기반하여 감쇄 파라미터 벡터를 추정하는 방법이다.
시간축 연속성이 있는 신호의 서브 대역별 특성을 반영하여 정현 펄스 코딩을 하는 경우, 특히 전술한 가변대역 확장 코덱의 예와 같이 서브 대역별 비트할당을 달리하는 경우에, 기존 방식처럼 전 대역 신호를 일괄적으로 평활화하는 기법을 적용하게 되면 경우에 따라서 불필요한 서브 대역까지 평활화될 수 있고, 결과적으로 음질 저하를 유발할 수 있다. 특히, 서브 대역별 시간축 변화특성이 다른 신호에서는 이러한 음질 열화가 두드러지게 나타난다. 전술한 댐피드 시누소이드(Damped Sinusoid) 모델링 기법과 같이 시간축 변화특성을 서브 대역 별로 추정할 수 있는 기법을 사용하면 기존의 평활화 방법이 가지는 단점을 해결하고 음질 향상을 도모할 수 있으나, 연산복잡도가 크게 증가한다는 단점이 있다.
본 발명은 이와 같은 문제점을 해결하기 위한 것으로, 하나 이상의 정현 펄스를 이용하는 계층형 정현 펄스 코딩을 통해 인코딩된 오디오 신호를 디코딩함에 있어서, 평활화를 수행할 주파수 대역을 가변적으로 설정함으로써 디코딩에 소요되는 연산량을 줄이고, 합성된 신호의 품질을 높일 수 있는 방법 및 장치에 관한 것이다.
낮은 연산 복잡도가 요구되는 경우, 연산 복잡도가 높은 기존의 시간축 모델링 기법은 사용되기 어렵다. 또한, 시간축 연속성을 갖는 오디오 신호를 인코딩할 때, 기존의 전대역 일괄 평활화 방법을 사용하면 음질이 열화될 수 있다. 따라서 본 발명은 연산량의 증가를 최소화하면서, 기존 평활화 방법에서 발생 가능한 양자화 오류로 인한 불연속성을 방지하여, 합성 신호의 품질을 높이는 것을 목적으로 한다.
본 발명의 오디오 디코딩 방법 및 장치는 가변 대역 확장 코덱 및 계층형 정현 펄스 코딩 방법을 이용하여 인코딩된 오디오 신호에 적용된다. 이하에서 설명하는 본 발명의 실시예는 도 1에 도시된 가변 대역 확장 코덱을 이용하여 인코딩된 오디오 신호를 디코딩하는 경우를 가정하여 설명된다. 이때, 도 1의 코덱에 입력되는 오디오 신호의 고대역 신호는 초광대역 확장 코딩 모듈(114)에서 MDCT에 의해 MDCT 계수로 변환되고, 이 MDCT 계수는 여러 개의 서브 대역으로 나누어진 후 게인(gain) 및 세이프(shape)의 코딩을 통해 전체 고대역 신호로 합성된다. 그리고 합성 신호의 품질에 영향을 미치는 MDCT 계수를 보다 정확히 표현하기 위하여, 입력된 오디오 신호와 전술한 게인(gain) 및 세이프(shape)를 이용하여 합성된 신호와의 차이를 나타내는 차이 신호(residual signal)를 정현 펄스(sinusoidal pulse) 코딩한다. 이때에 이용되는 정현 펄스 코딩은 4 kbit/s 또는 8 kbit/s 단위로 비트율 조정이 가능한 계층형 구조를 갖는다.
전술한 가변 대역 확장 코덱과 같이 서브 대역별로 비트 할당을 달리하는 구조의 정현 펄스 코딩을 이용하는 경우, 본 발명은 디코딩 시 정현 펄스 신호의 지정된 주파수 대역에서 서브 대역별로 시간축에 따른 평활화를 수행함으로써, 연산량을 최대한 줄이면서 합성된 신호의 품질을 높인다. 본 발명에 의하면, 평활화를 수행할 주파수 대역을 계층 구조에 따라 가변적으로 지정함으로써 연산량의 감소효과를 극대화할 수 있다.
도 3은 본 발명의 실시예에 따른 오디오 신호 디코딩 장치의 구조를 나타낸다.
먼저, 도 1에 도시된 바와 같은 가변 대역 확장 코덱 및 계층형 정현 펄스 코딩을 통해 인코딩된 오디오 신호는 디코딩부(302)에 입력된다. 디코딩부(302)는 입력된 인코딩된 오디오 신호를 디코딩하여 출력한다.
디코딩부(302)에서 출력된 디코딩된 오디오 신호는 평활화 주파수 대역 설정부(304)에 입력된다. 평활화 주파수 대역 설정부(304)는 인코딩 시 이용된 계층형 정현 펄스 코딩의 계층 구조에 따라, 디코딩된 오디오 신호의 평활화가 적용될 주파수 대역을 설정한다.
이때, 평활화 주파수 대역 설정부(304)는 전술한 계층형 정현 펄스 코딩에서, 입력된 오디오 신호를 인코딩할 때 서브 대역 별로 할당된 비트 수에 따라 평활화 주파수 대역을 가변적으로 설정할 수 있다. 도 1에 도시된 바와 같은 가변 대역 확장 코덱을 이용하여 오디오 신호를 인코딩할 때, 각각의 서브 대역을 보면 비트 할당이 선형적으로 증가하는 것이 아니라 코딩 방식에 따라 비선형적으로 비트 할당이 증가하거나 임의의 시점에서 수렴하게 된다. 따라서 평활화 주파수 대역 설정부(304)는 평활화가 적용될 주파수 대역을 설정할 때 인코딩 시의 비트 할당 방식을 반영할 수 있다. 즉, 인코딩 시 비트 할당이 충분히 이루어진 대역에는 평활화를 적용하지 않음으로써 신호의 시간축 변화를 보다 잘 표현할 수 있다.
또한, 평활화 주파수 대역 설정부(304)는 인코딩된 오디오 신호의 정적 특성에 따라, 평활화 주파수 대역을 설정할 수 있다. 여기서, 인코딩된 오디오 신호의 정적 특성은 해당 오디오 신호의 시간축 변화도의 크기를 의미한다.
평활화 주파수 대역 설정부(304)에 의해 평활화가 적용될 주파수 대역이 결정되면, 평활화부(306)는 결정된 평활화 주파수 대역을 주파수 대역별 특성에 따라 하나 이상의 서브 대역으로 나눈다. 그리고 나누어진 서브 대역별로, 디코딩된 오디오 신호를 평활화한다. 이때, 오디오 신호의 인코딩에 이용된 정현 펄스의 부호, 이득계수 및 위치 또한 평활화될 수 있다.
한편, 본 발명에 의한 오디오 신호 디코딩 장치는 지연 버퍼(308)를 더 포함할 수 있다. 지연 버퍼(308)에는 시간축 평활화를 위하여 이전 프레임의 오디오 신호가 저장된다. 평활화부(306)는 지연 버퍼(308)에 저장된 이전 프레임의 오디오 신호를 참조하여 현재 프레임의 오디오 신호를 평활화할 수 있다.
도 4는 본 발명의 실시예에 따른 오디오 신호 디코딩 방법을 나타내는 흐름도이다.
먼저, 하나 이상의 정현 펄스를 이용하는 계층형 정현 펄스 코딩을 통해 인코딩된 오디오 신호를 디코딩한다(S402). 그리고 계층형 정현 펄스 코딩의 계층 구조에 따라, 디코딩된 오디오 신호의 평활화 주파수 대역을 설정한다(S404).
이때, 계층형 정현 펄스 코딩에서 오디오 신호를 인코딩할 때 서브 대역 별로 할당된 비트 수에 따라, 평활화 주파수 대역을 가변적으로 설정할 수 있다. 또한, 인코딩된 오디오 신호의 정적 특성에 따라 평활화 주파수 대역을 설정할 수 있다.
그리고 나서, 설정된 평활화 주파수 대역을 하나 이상의 서브 대역으로 나누고(S406), 디코딩된 오디오 신호를 서브 대역별로 평활화한다(S408). 이때, 미리 저장된 디코딩된 오디오의 이전 프레임의 오디오 신호를 참조하여 현재 프레임의 디코딩된 오디오 신호를 평활화할 수 있다. 또한, 단계(S408)에서, 오디오 신호의 인코딩에 이용된 정현 펄스의 부호, 이득계수 및 위치가 평활화될 수 있다.
이하에서는 도 1에 도시된 바와 같은 가변 대역 확장 코덱을 이용하여 고대역(7-14kHz) 신호를 MDCT 영역으로 변환하고 정현 펄스 코딩을 적용한 신호를 디코딩하는 실시예를 통해 본 발명의 오디오 신호 디코딩 방법에 대해 설명한다.
도 5는 7-14kHz에 해당하는 280개의 MDCT 계수를 인코딩하기 위하여 두 개의 계층에 걸쳐 정현 펄스 코딩을 적용한 예제이다. 도 5에서, 첫 번째 계층에서는 정현 펄스의 개수 N 및 코딩 대역을 가변적으로 설정하여 코딩하고, 두 번째 계층에서는 고정된 서브 대역에서 고정된 개수의 펄스를 이용하여 코딩이 이루어진다.
도 5에 도시된 바와 같은 계층형 정현 펄스 코딩을 통해 인코딩된 오디오 신호가 입력되어 디코딩된 후, 본 발명에서는 다음과 같이 평활화 주파수 대역이 설정될 수 있다. 예를 들어, 첫 번째 계층에서 정현 펄스 개수 N이 4인 경우, 도 3의 평활화 주파수 대역 설정부(304)는 평활화 주파수 대역을 64-280(8.6-14kHz)로 설정하고 N=6인 경우 평활화 주파수 대역 설정부(304)는 평활화 주파수 대역을 96-280(9.4-14kHz)으로 설정할 수 있다. 즉, 본 발명에서는 상위 계층으로 갈수록 비트가 충분히 할당되는 서브 대역이 존재하고, 그러한 경우 양자화 오류가 제거될 것이라는 가정하여 해당 대역에 대한 평활화를 배제하는 것이다. 이로써 평활화에 소요되는 연산량을 줄일 수 있는 장점이 있다.
평활화 주파수 대역 설정부(304)가 전술한 예와 같이 평활화 주파수 대역을 설정하면, 평활화부(306)는 인코딩 시 이용되었던 코딩 방법 및 오디오 신호의 특성 등을 고려하여, 설정된 평활화 주파수 대역을 하나 이상의 서브 대역으로 나눈다. 그리고 나서 평활화부(306)는 서브 대역별로 평활화를 수행한다. 이때, 평활화부(306)는 지연 버퍼(308)에 저장된 이전 프레임의 신호를 참조하여 평활화를 수행할 수 있다. 여기서, 신호의 평활화는 부호를 포함한 이득 계수의 평활화 및 펄스 위치의 평활화를 모두 포함한다. 이와 같이 서브 대역별로 시간축 평활화를 수행함으로써, 각 서브 대역별 시간축 특성을 최대한 반영할 수 있고, 결과적으로 디코딩된 오디오 신호의 음질을 높일 수 있다. 한편, 도 4에 도시된 바와 같이 32(0.8Hz)의 크기로 서브 대역이 나누어져 인코딩이 수행된 경우, 평활화부(306)는 이와 동일한 크기로 평활화 주파수 대역을 서브 대역으로 나눌 수 있다.
도 6은 본 발명에 의한 오디오 디코딩 방법을 수행하지 않았을 때와 수행했을 때의 결과를 비교하기 위한 그래프이다. 도 6에서, 가로 축은 시간을, 세로 축은 주파수를 각각 나타낸다. 도 6의 (a)는 본 발명에 의한 오디오 디코딩 방법을 수행하지 않았을 때의 신호를, (b)는 본 발명에 의한 오디오 디코딩 방법이 적용된 신호를 각각 나타낸다. (a)의 신호는 타원으로 표시된 부분에서 양자화 오류로 인하여 시간축 불연속성이 두드러지게 나타난다. 하지만, (b)에서는 이러한 부분이 많이 제거되어 결과적으로 음질이 향상되었음을 알 수 있다.
도 7은 본 발명의 다른 실시예에 따른 오디오 신호 디코딩 방법을 나타내는 흐름도이다.
먼저, 인코딩된 오디오 신호를 입력받는다(S702). 그리고 나서, 인코딩된 오디오 신호를 디코딩한다(S704).
그 다음, 인코딩 시 인코딩된 오디오 신호에 할당된 비트 수에 따라, 디코딩된 오디오 신호의 평활화 주파수 대역을 설정한다(S706). 전술한 바와 같이, 본 발명에서는 상위 계층으로 갈수록 비트가 충분히 할당되는 서브 대역이 존재하고, 그러한 경우 양자화 오류가 제거될 것이라는 가정하여 해당 대역에 대한 평활화를 배제하는 것이다. 이로써 평활화에 소요되는 연산량을 줄일 수 있는 장점이 있다.
마지막으로, 단계(S706)에서 설정된 평활화 주파수 대역에 대하여 디코딩된 오디오 신호를 평활화한다(S708). 이때, 단계(S708)에서는 설정된 평활화 주파수 대역을 하나 이상의 서브 대역으로 나누고, 이 서브 대역에 대하여 평활화를 수행할 수 있다. 전술한 바와 같이, 서브 대역별로 시간축 평활화를 수행함으로써, 각 서브 대역별 시간축 특성을 최대한 반영할 수 있고, 결과적으로 디코딩된 오디오 신호의 음질을 높일 수 있다. 또한, 단계(S708)에서 평활화를 수행할 때, 미리 저장된 디코딩된 오디오의 이전 프레임의 오디오 신호를 참조하여 디코딩된 오디오 신호를 평활화할 수 있다.
전술한 바와 같은 본 발명의 오디오 신호 디코딩 방법 및 장치에 따르면, 계층형 정현 펄스 코딩방식을 이용하여 인코딩된 오디오 신호를 디코딩할 때, 서브 대역별 코딩 방식 및 신호 특성을 반영하여 평활화 주파수 대역을 먼저 설정하고, 설정된 평활화 주파수 대역을 하나 이상의 서브 대역으로 나눈 후 서브 대역별로 시간축에 대한 평활화가 적용된다. 이로써 기존의 전대역 평활화 방식에 비해 연산량이 적어지고, 결과적으로 합성 신호의 품질을 높일 수 있다.
전술한 본 발명은, 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자에게 있어 본 발명의 기술적 사상을 벗어나지 않는 범위 내에서 여러 가지 치환, 변형 및 변경이 가능하므로 전술한 실시예 및 첨부된 도면에 의해 한정되는 것이 아니다.

Claims (13)

  1. 하나 이상의 정현 펄스(sinusoidal pulse)를 이용하는 계층형 정현 펄스 코딩을 통해 인코딩된 오디오 신호를 디코딩하는 방법에 있어서,
    상기 인코딩된 오디오 신호를 디코딩하는 단계;
    상기 계층형 정현 펄스 코딩의 계층 구조에 따라, 상기 디코딩된 오디오 신호의 평활화 주파수 대역을 설정하는 단계;
    상기 평활화 주파수 대역을 하나 이상의 서브 대역으로 나누는 단계; 및
    상기 서브 대역별로 상기 디코딩된 오디오 신호를 평활화하는 단계
    를 포함하는 오디오 신호의 디코딩 방법.
  2. 제1항에 있어서,
    상기 평활화 주파수 대역을 설정하는 단계는,
    상기 계층형 정현 펄스 코딩에서 오디오 신호를 인코딩할 때 서브 대역 별로 할당된 비트 수에 따라, 상기 평활화 주파수 대역을 가변적으로 설정하는 단계
    를 포함하는 오디오 신호의 디코딩 방법.
  3. 제1항에 있어서,
    상기 평활화 주파수 대역을 설정하는 단계는,
    상기 인코딩된 오디오 신호의 정적 특성에 따라, 상기 평활화 주파수 대역을 설정하는 단계
    를 포함하는 오디오 신호의 디코딩 방법.
  4. 제1항에 있어서,
    상기 디코딩된 오디오 신호를 평활화하는 단계는,
    미리 저장된 이전 프레임의 디코딩된 오디오 신호를 참조하여 상기 디코딩된 오디오 신호를 평활화하는 단계
    를 포함하는 오디오 신호의 디코딩 방법.
  5. 제1항에 있어서,
    상기 디코딩된 오디오 신호를 평활화하는 단계는,
    오디오 신호의 인코딩에 이용된 정현 펄스의 부호, 이득계수 및 위치를 평활화하는 단계
    를 포함하는 오디오 신호의 디코딩 방법.
  6. 하나 이상의 정현 펄스를 이용하는 계층형 정현 펄스 코딩을 통해 인코딩된 오디오 신호를 디코딩하는 장치에 있어서,
    상기 인코딩된 오디오 신호를 디코딩하는 디코딩부;
    상기 계층형 정현 펄스 코딩의 계층 구조에 따라, 상기 디코딩된 오디오 신호의 평활화 주파수 대역을 설정하는 평활화 주파수 대역 설정부; 및
    상기 평활화 주파수 대역을 하나 이상의 서브 대역으로 나누고, 상기 서브 대역별로 상기 디코딩된 오디오 신호를 평활화하는 평활화부
    를 포함하는 오디오 신호의 디코딩 장치.
  7. 제6항에 있어서,
    상기 평활화 주파수 대역 설정부는,
    상기 계층형 정현 펄스 코딩에서 오디오 신호를 인코딩할 때 서브 대역 별로 할당된 비트 수에 따라, 상기 평활화 주파수 대역을 가변적으로 설정하는, 오디오 신호의 디코딩 장치.
  8. 제6항에 있어서,
    상기 평활화 주파수 대역 설정부는,
    상기 인코딩된 오디오 신호의 정적 특성에 따라, 상기 평활화 주파수 대역을 설정하는, 오디오 신호의 디코딩 장치.
  9. 제6항에 있어서,
    이전 프레임의 디코딩된 오디오 신호를 저장하는 지연 버퍼를 더 포함하고,
    상기 평활화부는,
    상기 지연 버퍼에 미리 저장된 상기 이전 프레임의 디코딩된 오디오 신호를 참조하여 상기 디코딩된 오디오 신호를 평활화하는, 오디오 신호의 디코딩 장치.
  10. 제6항에 있어서,
    상기 평활화부는,
    오디오 신호의 인코딩에 이용된 정현 펄스의 부호, 이득계수 및 위치를 평활화하는, 오디오 신호의 디코딩 장치.
  11. 인코딩된 오디오 신호를 입력받는 단계;
    상기 인코딩된 오디오 신호를 디코딩하는 단계;
    인코딩 시 상기 인코딩된 오디오 신호에 할당된 비트 수에 따라, 상기 디코딩된 오디오 신호의 평활화 주파수 대역을 설정하는 단계; 및
    상기 평활화 주파수 대역에 대하여 상기 디코딩된 오디오 신호를 평활화하는 단계
    를 포함하는 오디오 신호의 디코딩 방법.
  12. 제11항에 있어서,
    상기 디코딩된 오디오 신호를 평활화하는 단계는,
    상기 평활화 주파수 대역을 하나 이상의 서브 대역으로 나누는 단계; 및
    상기 서브 대역 별로 상기 디코딩된 오디오 신호를 평활화하는 단계
    를 포함하는 오디오 신호의 디코딩 방법.
  13. 제11항에 있어서,
    상기 디코딩된 오디오 신호를 평활화하는 단계는,
    미리 저장된 이전 프레임의 디코딩된 오디오를 참조하여 상기 디코딩된 오디오 신호를 평활화하는 단계
    를 포함하는 오디오 신호의 디코딩 방법.
KR1020110005956A 2010-01-21 2011-01-20 오디오 신호의 디코딩 방법 및 장치 KR101423737B1 (ko)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
KR20100005775 2010-01-21
KR1020100005775 2010-01-21

Publications (2)

Publication Number Publication Date
KR20110085939A KR20110085939A (ko) 2011-07-27
KR101423737B1 true KR101423737B1 (ko) 2014-07-24

Family

ID=44209719

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020110005956A KR101423737B1 (ko) 2010-01-21 2011-01-20 오디오 신호의 디코딩 방법 및 장치

Country Status (4)

Country Link
US (1) US9111535B2 (ko)
EP (1) EP2357649B1 (ko)
JP (1) JP2011150347A (ko)
KR (1) KR101423737B1 (ko)

Families Citing this family (20)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2010134757A2 (ko) * 2009-05-19 2010-11-25 한국전자통신연구원 계층형 정현파 펄스 코딩을 이용한 오디오 신호의 인코딩 및 디코딩 방법 및 장치
JP5754899B2 (ja) 2009-10-07 2015-07-29 ソニー株式会社 復号装置および方法、並びにプログラム
KR101591704B1 (ko) * 2009-12-04 2016-02-04 삼성전자주식회사 스테레오 신호로부터 보컬 신호를 제거하는 방법 및 장치
JP5609737B2 (ja) 2010-04-13 2014-10-22 ソニー株式会社 信号処理装置および方法、符号化装置および方法、復号装置および方法、並びにプログラム
JP5850216B2 (ja) 2010-04-13 2016-02-03 ソニー株式会社 信号処理装置および方法、符号化装置および方法、復号装置および方法、並びにプログラム
JP6075743B2 (ja) 2010-08-03 2017-02-08 ソニー株式会社 信号処理装置および方法、並びにプログラム
JP5707842B2 (ja) 2010-10-15 2015-04-30 ソニー株式会社 符号化装置および方法、復号装置および方法、並びにプログラム
PL2791937T3 (pl) * 2011-11-02 2016-11-30 Wytworzenie rozszerzenia pasma wysokiego sygnału dźwiękowego o poszerzonym paśmie
US20130315402A1 (en) * 2012-05-24 2013-11-28 Qualcomm Incorporated Three-dimensional sound compression and over-the-air transmission during a call
EP2830061A1 (en) 2013-07-22 2015-01-28 Fraunhofer Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for encoding and decoding an encoded audio signal using temporal noise/patch shaping
JP6531649B2 (ja) 2013-09-19 2019-06-19 ソニー株式会社 符号化装置および方法、復号化装置および方法、並びにプログラム
US20150149157A1 (en) * 2013-11-22 2015-05-28 Qualcomm Incorporated Frequency domain gain shape estimation
JP6593173B2 (ja) 2013-12-27 2019-10-23 ソニー株式会社 復号化装置および方法、並びにプログラム
WO2016142002A1 (en) 2015-03-09 2016-09-15 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Audio encoder, audio decoder, method for encoding an audio signal and method for decoding an encoded audio signal
US10580422B2 (en) 2016-12-16 2020-03-03 Telefonaktiebolaget Lm Ericsson (Publ) Methods, encoder and decoder for handling envelope representation coefficients
US10586546B2 (en) 2018-04-26 2020-03-10 Qualcomm Incorporated Inversely enumerated pyramid vector quantizers for efficient rate adaptation in audio coding
US10573331B2 (en) * 2018-05-01 2020-02-25 Qualcomm Incorporated Cooperative pyramid vector quantizers for scalable audio coding
US10734006B2 (en) 2018-06-01 2020-08-04 Qualcomm Incorporated Audio coding based on audio pattern recognition
US11264015B2 (en) 2019-11-21 2022-03-01 Bose Corporation Variable-time smoothing for steady state noise estimation
US11374663B2 (en) * 2019-11-21 2022-06-28 Bose Corporation Variable-frequency smoothing

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20090234644A1 (en) 2007-10-22 2009-09-17 Qualcomm Incorporated Low-complexity encoding/decoding of quantized MDCT spectrum in scalable speech and audio codecs
US20100228557A1 (en) 2007-11-02 2010-09-09 Huawei Technologies Co., Ltd. Method and apparatus for audio decoding
US20110002266A1 (en) 2009-05-05 2011-01-06 GH Innovation, Inc. System and Method for Frequency Domain Audio Post-processing Based on Perceptual Masking

Family Cites Families (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5495552A (en) * 1992-04-20 1996-02-27 Mitsubishi Denki Kabushiki Kaisha Methods of efficiently recording an audio signal in semiconductor memory
JP3371462B2 (ja) * 1992-04-20 2003-01-27 三菱電機株式会社 オーディオ信号記録・再生装置
JP3751225B2 (ja) 2001-06-14 2006-03-01 松下電器産業株式会社 オーディオ帯域拡張装置
US20040002856A1 (en) * 2002-03-08 2004-01-01 Udaya Bhaskar Multi-rate frequency domain interpolative speech CODEC system
US7069212B2 (en) * 2002-09-19 2006-06-27 Matsushita Elecric Industrial Co., Ltd. Audio decoding apparatus and method for band expansion with aliasing adjustment
US7983922B2 (en) 2005-04-15 2011-07-19 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Apparatus and method for generating multi-channel synthesizer control signal and apparatus and method for multi-channel synthesizing
TR201821299T4 (tr) 2005-04-22 2019-01-21 Qualcomm Inc Kazanç faktörü yumuşatma için sistemler, yöntemler ve aparat.
JP4963955B2 (ja) * 2006-12-28 2012-06-27 シャープ株式会社 信号処理方法、信号処理装置及びプログラム
CN101925953B (zh) * 2008-01-25 2012-06-20 松下电器产业株式会社 编码装置、解码装置以及其方法
WO2009116280A1 (ja) * 2008-03-19 2009-09-24 パナソニック株式会社 ステレオ信号符号化装置、ステレオ信号復号装置およびこれらの方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20090234644A1 (en) 2007-10-22 2009-09-17 Qualcomm Incorporated Low-complexity encoding/decoding of quantized MDCT spectrum in scalable speech and audio codecs
US20100228557A1 (en) 2007-11-02 2010-09-09 Huawei Technologies Co., Ltd. Method and apparatus for audio decoding
US20110002266A1 (en) 2009-05-05 2011-01-06 GH Innovation, Inc. System and Method for Frequency Domain Audio Post-processing Based on Perceptual Masking

Also Published As

Publication number Publication date
EP2357649A1 (en) 2011-08-17
US9111535B2 (en) 2015-08-18
KR20110085939A (ko) 2011-07-27
US20110178807A1 (en) 2011-07-21
JP2011150347A (ja) 2011-08-04
EP2357649B1 (en) 2012-12-19

Similar Documents

Publication Publication Date Title
KR101423737B1 (ko) 오디오 신호의 디코딩 방법 및 장치
KR102063900B1 (ko) 프레임 에러 은닉방법 및 장치와 오디오 복호화방법 및 장치
CA2609539C (en) Audio codec post-filter
RU2488897C1 (ru) Кодирующее устройство, декодирующее устройство и способ
JP4861196B2 (ja) Acelp/tcxに基づくオーディオ圧縮中の低周波数強調の方法およびデバイス
KR101139172B1 (ko) 스케일러블 음성 및 오디오 코덱들에서 양자화된 mdct 스펙트럼에 대한 코드북 인덱스들의 인코딩/디코딩을 위한 기술
KR101425944B1 (ko) 디지털 오디오 신호에 대한 향상된 코딩/디코딩
JP5547081B2 (ja) 音声復号化方法及び装置
KR102063902B1 (ko) 프레임 에러 은닉방법 및 장치와 오디오 복호화방법 및 장치
KR101703810B1 (ko) 디지털 오디오 신호들의 계층적 코딩/디코딩을 개선하기 위한 향상 코딩/ 디코딩에서의 비트들의 할당
WO2009113316A1 (ja) 符号化装置、復号装置およびこれらの方法
KR102105305B1 (ko) 계층형 정현파 코딩을 이용한 오디오 신호의 인코딩 및 디코딩 방법 및 장치
US9830920B2 (en) Method and apparatus for polyphonic audio signal prediction in coding and networking systems
KR101698371B1 (ko) 디지털 오디오 신호들의 개선된 코딩/디코딩
MX2013004673A (es) Codificación de señales de audio genéricas a baja tasa de bits y a retardo bajo.
WO2011045926A1 (ja) 符号化装置、復号装置およびこれらの方法
US20170206905A1 (en) Method, medium and apparatus for encoding and/or decoding signal based on a psychoacoustic model

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
LAPS Lapse due to unpaid annual fee