[go: up one dir, main page]
More Web Proxy on the site http://driver.im/

KR101373004B1 - 고주파수 신호 부호화 및 복호화 장치 및 방법 - Google Patents

고주파수 신호 부호화 및 복호화 장치 및 방법 Download PDF

Info

Publication number
KR101373004B1
KR101373004B1 KR1020070109823A KR20070109823A KR101373004B1 KR 101373004 B1 KR101373004 B1 KR 101373004B1 KR 1020070109823 A KR1020070109823 A KR 1020070109823A KR 20070109823 A KR20070109823 A KR 20070109823A KR 101373004 B1 KR101373004 B1 KR 101373004B1
Authority
KR
South Korea
Prior art keywords
frequency signal
noise
signal
high frequency
floor level
Prior art date
Application number
KR1020070109823A
Other languages
English (en)
Other versions
KR20090043983A (ko
Inventor
주기현
오은미
성호상
김중회
김미영
Original Assignee
삼성전자주식회사
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 삼성전자주식회사 filed Critical 삼성전자주식회사
Priority to KR1020070109823A priority Critical patent/KR101373004B1/ko
Priority to US12/256,704 priority patent/US8321229B2/en
Priority to EP08167938A priority patent/EP2056294B1/en
Publication of KR20090043983A publication Critical patent/KR20090043983A/ko
Priority to US13/684,879 priority patent/US9177569B2/en
Application granted granted Critical
Publication of KR101373004B1 publication Critical patent/KR101373004B1/ko
Priority to US14/879,853 priority patent/US9818429B2/en
Priority to US15/810,636 priority patent/US10255928B2/en

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/93Discriminating between voiced and unvoiced parts of speech signals
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/06Determination or coding of the spectral characteristics, e.g. of the short-term prediction coefficients
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/08Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters
    • G10L19/12Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters the excitation function being a code excitation, e.g. in code excited linear prediction [CELP] vocoders
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/038Speech enhancement, e.g. noise reduction or echo cancellation using band spreading techniques

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Quality & Reliability (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Abstract

본 발명은 오디오 신호를 부호화하거나 복호화하는 방법 및 장치에 관한 것으로, 고주파수 신호를 부호화하거나 복호화하는데 이용되는 노이즈-플로어 레벨(noise-floor level)을 신호에 포함된 유성음 또는 무성음의 정도에 따라 갱신하여 부호화하거나 복호화한다.

Description

고주파수 신호 부호화 및 복호화 장치 및 방법{Apparatus and method for encoding and decoding high frequency signal}
본 발명은 오디오 신호를 부호화하거나 복호화하는 방법 및 장치에 관한 것으로, 보다 상세하게는 기 설정된 주파수 보다 큰 영역에 마련된 고주파수 신호를 부호화하거나 복호화하는 장치 및 방법에 관한 것이다.
음성 신호(speech signal) 또는 음악 신호(music signal) 등과 같은 오디오 신호를 소정의 주파수를 기준으로 분할하여 소정의 주파수 보다 작은 영역에 마련된 저주파수 신호와 소정의 주파수 보다 큰 영역에 마련된 고주파수 신호로 분류할 수 있다. 고주파수 신호는 저주파수 신호에 비하여 인간의 청각 특성상 인지하는 데 상대적으로 중요하지 않기 때문에 오디오 신호를 부호화함에 있어서 적은 비트만 할당하는 것이 일반적이다. 이러한 개념을 이용하여 오디오 신호를 부호화/복호화하는 기술의 예로 SBR(Spectral Band Replication)이 있다. SBR은 부호화기에서 저주파수 신호를 이용하여 고주파수 신호를 부호화하고 복호화기에서 복호화된 저주파수 신호를 이용하여 고주파수 신호를 복호화한다. 만일 단순히 저주파수 신호를 이용하여 고주파수 신호를 동일하게 생성하여 복호화할 경우 원 신호의 고주 파수 신호와 신호 특성의 차이가 발생하여 음질이 크게 저하된다.
그러므로 SBR에서 적응적 화이트닝 필터(adaptive whitening filter) 또는 노이즈-플로어(noise-floor)를 이용함으로써 원 신호와 복원된 고주파수 신호 사이에 발생하는 신호 특성의 차이를 감소시킨다. 첫째, 적응적 화이트닝 필터는 복원될 고주파수 신호가 토널(tonal)하지만 노이즈 성향이 강할 경우 역-필터링(inverse-filtering)을 적용하여 고주파수 신호의 노이즈 성향을 변경한다. 둘째, 노이즈-플로어는 복원될 고주파수 신호와 원 신호 사이의 토널리티(tonality) 차이를 감소시키기 위하여 노이즈를 부가한다.
본 발명이 이루고자 하는 기술적 과제는, 기 설정된 주파수 보다 큰 영역에 마련된 고주파수 신호를 부호화하거나 복호화하는 방법 및 장치를 제공하는 것이다.
상기의 과제를 이루기 위한 본 발명에 의한 고주파수 신호 부호화 방법은, 기 설정된 주파수 보다 큰 영역에 마련된 고주파수 신호의 노이즈-플로어 레벨(noise-floor level)을 계산하는 단계; 상기 고주파수 신호에 포함된 유성음 또는 무성음의 정도를 계산하여 상기 계산된 노이즈-플로어 레벨을 갱신하는 단계; 및 상기 갱신된 노이즈-플로어 레벨을 부호화하는 단계를 포함하는 것을 특징으로 한다.
상기의 과제를 이루기 위한 본 발명에 의한 고주파수 신호 복호화 방법은, 기 설정된 주파수 보다 큰 주파수 영역에 마련된 고주파수 신호의 노이즈-플로어 레벨을 복호화하는 단계; 기 설정된 주파수 보다 작은 영역에 마련된 저주파수 신호에 포함된 유성음 또는 무성음의 정도를 계산하여 상기 복호화된 노이즈-플로어 레벨을 갱신하는 단계; 및 상기 갱신된 노이즈-플로어 레벨에 따라 노이즈 신호를 생성하는 단계를 포함하는 것을 특징으로 한다.
상기의 과제를 이루기 위한 본 발명에 의한 기록 매체는, 기 설정된 주파수 보다 큰 영역에 마련된 고주파수 신호의 노이즈-플로어 레벨을 계산하는 단계; 상기 고주파수 신호에 포함된 유성음 또는 무성음의 정도를 계산하여 상기 계산된 노이즈-플로어 레벨을 갱신하는 단계; 및 상기 갱신된 노이즈-플로어 레벨을 부호화 하는 단계를 포함한 발명을 컴퓨터에서 실행시키기 위한 프로그램을 기록한 컴퓨터로 읽을 수 있다.
상기의 과제를 이루기 위한 본 발명에 의한 고주파수 신호 부호화 장치는, 기 설정된 주파수 보다 큰 영역에 마련된 고주파수 신호의 노이즈-플로어 레벨을 계산하는 계산부; 및 상기 고주파수 신호에 포함된 유성음 또는 무성음의 정도를 계산하여 상기 계산된 노이즈-플로어 레벨을 갱신하는 갱신부; 및 상기 갱신된 노이즈-플로어 레벨을 부호화하는 부호화부를 포함하는 것을 특징으로 한다.
상기의 과제를 이루기 위한 본 발명에 의한 고주파수 신호 복호화 장치는, 기 설정된 주파수 보다 큰 영역에 마련된 고주파수 신호의 노이즈-플로어 레벨을 복호화하는 복호화부; 기 설정된 주파수 보다 작은 영역에 마련된 저주파수 신호에 포함된 유성음 또는 무성음의 정도를 계산하여 상기 복호화된 노이즈-플로어 레벨을 갱신하는 갱신부; 및 상기 갱신된 노이즈-플로어 레벨에 따라 노이즈 신호를 생성하는 노이즈 생성부를 포함하는 것을 특징으로 한다.
이하, 첨부된 도면들을 참조하여 본 발명에 따른 고주파수 신호 부호화 및 복호화 장치 및 방법의 실시예에 대해 상세히 설명한다.
부호화 장치
도 1은 본 발명에 의한 고주파수 신호 부호화 장치에 대한 일 실시예를 블록도로 도시한 것으로서, 고주파수 신호 부호화 장치는 노이즈-플로어 레벨 계산부(100), 보이싱 레벨 계산부(110) 및 노이즈-플로어 레벨 갱신부(120)를 포함하여 이루어진다.
노이즈-플로어 레벨 계산부(100, noise-floor level calculating unit)는 기 설정된 주파수 보다 큰 영역에 마련된 고주파수 신호의 노이즈-플로어 레벨(noise-floor level)을 계산한다. 여기서, 노이즈-플로어 레벨은 복호화기에서 복원되는 고주파수 신호에 부가될 노이즈의 양을 말한다.
노이즈-플로어 레벨 계산부(100)에서는 노이즈-플로어 레벨을 신호의 스펙트럼에서 최저 포인트들에 의해 결정되는 스펙트럴 포락선(spectral envelope)과 신호의 스펙트럼에서 최고 포인트들에 의해 결정되는 스펙트럴 포락선 사이의 차이값으로 계산할 수 있다.
또한, 노이즈-플로어 레벨 계산부(100)에서는 노이즈-플로어 레벨을 고주파수 신호의 토널리티(tonality)와 고주파수 신호를 부호화하는 데 이용되는 기 설정된 주파수 보다 작은 영역에 마련된 저주파수 신호의 토널리티를 비교하여 노이즈-플로어 레벨을 계산할 수도 있다. 이러한 방식으로 노이즈-플로어 레벨 계산부(100)에서 노이즈-플로어 레벨을 계산할 경우, 저주파수 신호의 토널리티가 고주파수 신호의 토널리티 보다 클수록 복호화기에서 고주파수 신호에 노이즈를 많이 부가하도록 노이즈-플로어 레벨을 계산한다.
보이싱 레벨 계산부(110, voicing level calculating unit)는 저주파수 신호의 보이싱 레벨(voicing level)을 계산한다. 여기서, 보이싱 레벨은 신호에 포함된 유성음 또는 무성음의 정도를 말한다. 다시 말하면, 보이싱 레벨은 신호가 유성음 또는 무성음에 가까운 정도를 말한다. 이하에서는 보이싱 레벨은 신호가 유 성음에 가까운 정보라고 가정하고 실시예를 설명하기로 한다.
보이싱 레벨 계산부(110)에서는 피치 상관도(pitch correlation) 또는 피치 예측 이득값(pitch prediction gain)을 이용하여 보이싱 레벨을 계산할 수 있다. 보이싱 레벨 계산부(110)는 피치 상관도 또는 피치 이득값 등을 입력받아 신호에 포함된 유성음의 정도를 0 내지 1 사이로 정규화하여 보이싱 레벨을 계산할 수 있다. 예를 들어, 보이싱 레벨 계산부(110)는 개루프 피치 상관도(open loop pitch correlation)을 이용하여 다음 기재된 수학식 1에 의해 보이싱 레벨을 계산할 수 있다.
[수학식 1]
VoicingLevel=1/(OpenLoopPitchCorrelation)
여기서, 'VoicingLevel'은 보이싱 레벨 계산부(110)에서 계산된 보이싱 레벨이고, 'OpenLoopPitchCorrelation'은 개루프 피치 상관도를 말한다.
노이즈-플로어 레벨 갱신부(120)는 보이싱 레벨 계산부(110)에서 계산된 보이싱 레벨을 이용하여 노이즈-플로어 레벨 계산부(100)에서 계산된 노이즈-플로어 레벨을 갱신한다. 보다 상세하게 설명하면, 노이즈-플로어 레벨 갱신부(120)는 보이싱 레벨 계산부(110)에서 계산된 보이싱 레벨이 유성음의 정도가 높다고 나타낼수록 노이즈-플로어 레벨 계산부(100)에서 계산된 노이즈-플로어 레벨을 감소시키고, 보이싱 레벨 계산부(110)에서 계산된 보이싱 레벨이 무성음의 정도가 높다고 나타낼수록 노이즈-플로어 레벨 계산부(100)에서 계산된 노이즈-플로어 레벨을 조절하지 않는다. 예를 들어, 노이즈-플로어 레벨 갱신부(120)는 다음 기재된 수학 식 2에 의해 보이싱 레벨 계산부(110)에서 계산된 보이싱 레벨을 이용하여 노이즈-플로어 레벨 계산부(100)에서 계산된 노이즈-플로어 레벨을 갱신한다.
[수학식 2]
NewNoiseFloorLevel=NoiseFoorLevel*(1-VoicingLevel/2)
여기서, 'NewNoiseFloorLevel'은 노이즈-플로어 레벨 갱신부(120)에서 갱신된 노이즈-플로어 레벨이고, 'NoiseFloorLevel'은 노이즈-플로어 레벨 계산부(100)에서 계산된 노이즈-플로어 레벨이며, 'VoicingLevel'은 보이싱 레벨 계산부(110)에서 유성음에 가까운 정규화된 정도가 계산된 보이싱 레벨을 말한다.
음성 신호를 부호화하거나 복호화할 경우 기존의 SBR 기술에서 고주파수 신호를 복호화함에 있어서 과도하게 노이즈를 부가하므로 유성음 구간에서 잡음이 발생하게 되는 문제점을 갖는다. 다시 말해, 음성 신호는 특성상 유성음 구간이 저주파수 신호의 경우 토널(tonal)한 특성이 강하고 고주파수 신호의 경우 노이즈 성향이 강하기 때문에 기존의 SBR 기술에서는 노이즈를 상당히 많이 부가한다. 그러나 본 발명의 실시예에 따르면 노이즈-플로어 레벨 계산부(100)에서 계산된 노이즈-플로어 레벨을 노이즈-플로어 레벨 갱신부(120)에서 갱신함으로써 유성음 구간에서 잡음이 감소되는 효과를 갖는다.
노이즈-플로어 레벨 부호화부(130)는 노이즈-플로어 레벨 갱신부(120)에서 갱신된 노이즈-플로어 레벨을 부호화한다.
포락선 추출부(140)는 고주파수 신호의 포락선을 표현할 수 있는 파라미터를 추출한다. 예를 들어, 포락선 추출부(140)는 고주파수 신호의 각 서브-밴드(sub- band)별 에너지 값을 계산한다.
도 2는 본 발명에 의한 고주파수 신호 부호화 장치의 실시예를 적용하여 오디오 신호를 부호화하는 장치에 대한 일 실시예를 블록도로 도시한 것으로서, 상기 오디오 신호를 부호화하는 장치는 필터뱅크 분석부(200), 다운-샘플링부(210), CELP 부호화부(220), 고주파수신호 부호화부(230) 및 다중화부(240)를 포함하여 이루어진다.
필터뱅크 분석부(200)는 필터뱅크 분석(filterbank analysis)를 수행하여 입력단자 IN을 통해 입력된 음성(speech) 신호 또는 음악(music) 신호와 같은 오디오 신호를 주파수 도메인과 시간 도메인으로 동시에 표현할 수 있도록 변환한다. 필터뱅크 분석부(200)는 QMF(Quadrature Mirror Filterbank)와 같은 필터뱅크를 사용하여 구현할 수 있다. 그러나 필터뱅크 분석부(200)에서 반드시 주파수 도메인과 시간 도메인을 모두 표현해야 하는 것은 아니다. 필터뱅크 분석부(200)에서는 FFT(Fast Fourier Transform) 또는 MDCT(Modified Discrete Cosine Transform)와 같은 필터뱅크를 이용하여 오디오 신호를 주파수 도메인으로만 변환하여 실시할 수도 있다.
다운-샘플링부(210, down-sampling unit)는 입력단자 IN을 통해 입력된 오디오 신호를 기 설정된 샘플링 레이트(sampling rate)로 다운 샘플링(down-sampling)한다. 여기서, 기 설정된 샘플링 레이트는 CELP(Coded-Excited Linear Prediction) 방식에 의해 부호화하는 데 적합한 샘플링 레이트일 수 있다. 또한, 다운-샘플링부(210)에서 다운-샘플링함에 있어서, 기 설정된 주파수 보다 작은 신 호에서만 샘플링(sampling)함으로써 저주파수 신호만 샘플링할 수 있다.
CELP 부호화부(220)는 다운-샘플링부(210)에서 다운-샘플링된 저주파수 신호를 CELP 방식에 의해 부호화한다. 여기서, CELP 방식은 신호에서 음성을 분석하여 음성의 특징을 제거한 후 그 오차 신호를 코드북(codebook)에 의해 부호화하는 방식을 말한다. 그러나 CELP 부호화부(220)는 CELP 방식에 한정하여 실시해야 하는 것은 아니며 시간 도메인에서 오디오 신호를 부호화하는 모든 방식으로 실시할 수 있다.
고주파수신호 부호화부(230)는 필터뱅크 분석부(200)에서 변환된 신호 가운데 기 설정된 주파수 보다 큰 영역에 마련된 고주파수 신호를 SBR(Spectral Band Replication) 방식에 의해 저주파수 신호를 이용하여 부호화한다. 다시 말하면, 고주파수신호 부호화부(230)는 복호화기에서 복호화된 저주파수 신호를 기 설정된 주파수 보다 큰 영역에 그대로 복사하거나 기 설정된 주파수를 기준으로 폴딩(folding)하여 생성된 신호에 부가될 노이즈의 양인 노이즈-플로어 레벨을 부호화한다. 도 1에서 고주파수신호 부호화부(230)의 실시예에 해당하는 고주파수 신호 부호화 장치를 도시하고 있으며 그 상세한 설명은 전술하였다. 도 1에 도시된 고주파수 신호 부호화 장치의 실시예에서 입력단자 IN 1에는 도 2의 필터뱅크 분석부(200)에서 변환된 신호가 입력되며, 입력단자 IN 2에는 도 2의 다운-샘플링부(210)에서 다운-샘플링된 신호 또는 CELP 부호화부(220)에서 부호화하는 과정에서 생성되는 피치 상관도 또는 피치 예측 이득값 등과 같은 파라미터가 입력된다. 또한, 출력단자 OUT 1에서는 보이싱 레벨(voicing level)을 이용함으로써 갱신되어 부호화된 노이즈-플로어 레벨이 출력되고, 출력단자 OUT 2에서는 고주파수 신호의 포락선을 표현할 수 있는 파라미터가 출력된다.
다중화부(240)는 고주파수신호 부호화부(230)에서 갱신되어 부호화된 노이즈-플로어 레벨와 고주파수 신호의 포락선을 표현할 수 있는 파라미터 및 CELP 부호화부(220)에서 부호화된 결과를 포함하여 다중화함으로써 비트스트림을 생성하여 출력단자 OUT을 통해 출력한다.
도 3은 본 발명에 의한 고주파수 신호 부호화 장치의 실시예를 적용하여 오디오 신호를 부호화하는 장치에 대한 일 실시예를 블록도로 도시한 것으로서, 상기 오디오 신호를 부호화하는 장치는 필터뱅크 분석부(200), 다운-샘플링부(210), CELP 부호화부(220), 고주파수신호 부호화부(230) 및 다중화부(240)를 포함하여 이루어진다.
필터뱅크 분석부(300)는 필터뱅크 분석(filterbank analysis)를 수행하여 입력단자 IN을 통해 입력된 음성(speech) 신호 또는 음악(music) 신호와 같은 스테레오에 해당하는 오디오 신호를 주파수 도메인과 시간 도메인으로 동시에 표현할 수 있도록 변환한다. 필터뱅크 분석부(300)는 QMF(Quadrature Mirror Filterbank)와 같은 필터뱅크를 사용하여 구현할 수 있다. 그러나 필터뱅크 분석부(300)에서 반드시 주파수 도메인과 시간 도메인을 모두 표현해야 하는 것은 아니다. 필터뱅크 분석부(300)에서는 FFT(Fast Fourier Transform) 또는 MDCT(Modified Discrete Cosine Transform)와 같은 필터뱅크를 이용하여 오디오 신호를 주파수 도메인으로만 변환하여 실시할 수도 있다.
파라메트릭 스테레오 부호화부(310, parametric stereo encoding unit)는 복호화기에서 모노 신호를 스테레오 신호로 업믹싱(upmixing)할 수 있는 파라미터(들)를 필터뱅크 분석부(300)에서 변환된 신호에서 추출하여 부호화하고, 필터뱅크 분석부(300)에서 변환된 신호를 모노 신호로 다운믹싱(downmixing)한다. 여기서, 파라미터의 예로 CLD(Channel Level Difference), ICC(Inter Channel Correlation) 등이 있다.
필터뱅크 합성부(320)는 필터뱅크 분석부(300)에서 수행하는 변환의 역과정으로써 필터뱅크 합성(filterbank synthesis)를 수행하여 파라메트릭 스테레오 부호화부(310)에서 다운믹싱된 신호를 시간 도메인으로 역변환한다. 필터뱅크 합성부(320)는 QMF(Quadrature Mirror Filterbank)와 같이 주파수 도메인과 시간 도메인으로 동시에 표현된 신호를 시간 도메인으로 역변환하는 필터뱅크를 사용하여 구현할 수 있다. 또한, 필터뱅크 합성부(320)에서는 IFFT(Inverse Fast Fourier Transform) 또는 IMDCT(Inverse Modified Discrete Cosine Transform)와 같은 필터뱅크를 이용하여 주파수 도메인으로만 표현된 신호를 시간 도메인으로 역변환할 수도 있다.
다운-샘플링부(330, down-sampling unit)는 필터뱅크 합성부(320)에서 역변환된 신호를 기 설정된 샘플링 레이트(sampling rate)로 다운 샘플링(down-sampling)한다. 여기서, 기 설정된 샘플링 레이트는 CELP(Coded-Excited Linear Prediction) 방식에 의해 부호화하는 데 적합한 샘플링 레이트일 수 있다. 또한, 다운-샘플링부(330)에서 다운-샘플링함에 있어서, 기 설정된 주파수 보다 작은 신 호에서만 샘플링(sampling)함으로써 저주파수 신호만 샘플링할 수 있다. 그러나 다운-샘플링부(330)를 반드시 포함하여 실시해야 하는 것은 아니며, 필터뱅크 합성부(320)가 다운-샘플링부(330)에서 수행하는 기능까지 포함하여 실시할 수 있다.
CELP 부호화부(340)는 다운-샘플링부(330)에서 다운-샘플링된 저주파수 신호를 CELP 방식에 의해 부호화한다. 여기서, CELP 방식은 신호에서 음성을 분석하여 음성의 특징을 제거한 후 그 오차 신호를 코드북(codebook)에 의해 부호화하는 방식을 말한다. 그러나 CELP 부호화부(340)는 CELP 방식에 한정하여 실시해야 하는 것은 아니며 시간 도메인에서 오디오 신호를 부호화하는 모든 방식으로 실시할 수 있다.
고주파수신호 부호화부(350)는 파라메트릭 스테레오 부호화부(310)에서 다운믹싱된 신호 가운데 기 설정된 주파수 보다 큰 영역에 마련된 고주파수 신호를 저주파수 신호를 이용하여 부호화한다. 다시 말하면, 고주파수신호 부호화부(350)는 복호화기에서 복호화된 저주파수 신호를 기 설정된 주파수 보다 큰 영역에 그대로 복사하거나 기 설정된 주파수를 기준으로 폴딩(folding)하여 생성된 신호에 부가될 노이즈의 양인 노이즈-플로어 레벨을 부호화한다. 도 1에서 고주파수신호 부호화부(230)의 일 실시예에 해당하는 고주파수 신호 부호화 장치를 도시하고 있으며 그 상세한 설명은 전술하였다. 도 1에 도시된 고주파수 신호 부호화 장치의 실시예에서 입력단자 IN 1에는 도 3의 파라메트릭 스테레오 부호화부(310)에서 다운믹싱된 신호가 입력되며, 입력단자 IN 2에는 도 3의 다운-샘플링부(330)에서 다운-샘플링된 신호 또는 도 3의 CELP 부호화부(340)에서 부호화하는 과정에서 생성되는 피치 상관도 또는 피치 예측 이득값 등과 같은 파라미터가 입력된다. 또한, 출력단자 OUT 1에서는 보이싱 레벨(voicing level)을 이용함으로써 갱신되어 부호화된 노이즈-플로어 레벨이 출력되고, 출력단자 OUT 2에서는 고주파수 신호의 포락선을 표현할 수 있는 파라미터가 출력된다.
다중화부(360)는 파라메트릭 스테레오 부호화부(310)에서 부호화된 파라미터(들), 고주파수신호 부호화부(350)에서 갱신되어 부호화된 노이즈-플로어 레벨와 고주파수 신호의 포락선을 표현할 수 있는 파라미터 및 CELP 부호화부(340)에서 부호화된 결과를 포함하여 다중화함으로써 비트스트림을 생성하여 출력단자 OUT을 통해 출력한다.
도 4는 본 발명에 의한 고주파수 신호 부호화 장치의 실시예를 적용하여 오디오 신호를 부호화하는 장치에 대한 일 실시예를 블록도로 도시한 것으로서, 오디오 신호를 부호화하는 장치는 필터뱅크 분석부(400), 고주파수신호 부호화부(410), 다운-샘플링부(420), 주파수도메인 부호화부(430) 및 다중화부(440)를 포함하여 이루어진다.
필터뱅크 분석부(400)는 필터뱅크 분석(filterbank analysis)를 수행하여 입력단자 IN을 통해 입력된 음성(speech) 신호 또는 음악(music) 신호와 같은 오디오 신호를 주파수 도메인과 시간 도메인으로 동시에 표현할 수 있도록 변환한다. 필터뱅크 분석부(400)는 QMF(Quadrature Mirror Filterbank)와 같은 필터뱅크를 사용하여 구현할 수 있다. 그러나 필터뱅크 분석부(400)에서 반드시 주파수 도메인과 시간 도메인을 모두 표현해야 하는 것은 아니다. 필터뱅크 분석부(400)에서는 FFT(Fast Fourier Transform) 또는 MDCT(Modified Discrete Cosine Transform)와 같은 필터뱅크를 이용하여 오디오 신호를 주파수 도메인으로만 변환하여 실시할 수도 있다.
고주파수신호 부호화부(410)는 필터뱅크 분석부(400)에서 변환된 신호 가운데 기 설정된 주파수 보다 큰 영역에 마련된 고주파수 신호를 기 설정된 주파수 보다 작은 영역에 마련된 저주파수 신호를 이용하여 부호화한다. 다시 말하면, 고주파수신호 부호화부(410)는 복호화기에서 복호화된 저주파수 신호를 기 설정된 주파수 보다 큰 영역에 그대로 복사하거나 기 설정된 주파수를 기준으로 폴딩(folding)하여 생성된 신호에 부가될 노이즈의 양인 노이즈-플로어 레벨을 부호화한다. 도 1에서 고주파수신호 부호화부(410)의 일 실시예에 해당하는 고주파수 신호 부호화 장치를 도시하고 있으며 그 상세한 설명은 전술하였다. 도 1에 도시된 고주파수 신호 부호화 장치의 실시예에서 입력단자 IN 1 및 IN 2에는 필터뱅크 분석부(400)에서 변환된 신호가 입력된다. 또한, 출력단자 OUT 1에서는 보이싱 레벨(voicing level)을 이용함으로써 갱신되어 부호화된 노이즈-플로어 레벨이 출력되고, 출력단자 OU 2에서는 고주파수 신호의 포락선을 표현할 수 있는 파라미터가 출력된다.
다운-샘플링부(420, down-sampling unit)는 입력단자 IN을 통해 입력된 오디오 신호를 기 설정된 샘플링 레이트(sampling rate)로 다운 샘플링(down-sampling)한다. 여기서, 기 설정된 샘플링 레이트는 CELP(Coded-Excited Linear Prediction) 방식에 의해 부호화하는 데 적합한 샘플링 레이트일 수 있다. 또한, 다운-샘플링부(420)에서 다운-샘플링함에 있어서, 기 설정된 주파수 보다 작은 신 호에서만 샘플링(sampling)함으로써 저주파수 신호만 샘플링할 수 있다.
주파수도메인 부호화부(430)는 다운-샘플링부(420)에서 다운 샘플링된 저주파수 신호를 주파수 도메인에서 부호화한다. 예를 들어, 주파수도메인 부호화부(430)에서는 다운-샘플링부(420)에서 다운 샘플링된 저주파수 신호를 주파수 도메인으로 변환한 후 양자화하고 엔트로피(entropy) 부호화한다.
다중화부(440)는 고주파수신호 부호화부(410)에서 갱신되어 부호화된 노이즈-플로어 레벨과 고주파수 신호의 포락선을 표현할 수 있는 파라미터 및 주파수도메인 부호화부(430)에서 부호화된 결과를 포함하여 다중화함으로써 비트스트림을 생성하여 출력단자 OUT을 통해 출력한다.
도 5는 본 발명에 의한 고주파수 신호 부호화 장치의 실시예를 적용하여 오디오 신호를 부호화하는 장치에 대한 일 실시예를 블록도로 도시한 것으로서, 상기 오디오 신호를 부호화하는 장치는 필터뱅크 분석부(500), 다운-샘플링부(510), 적응적 저주파수신호 부호화부(520), 고주파수신호 부호화부(530) 및 다중화부(540)를 포함하여 이루어진다.
필터뱅크 분석부(500)는 필터뱅크 분석(filterbank analysis)를 수행하여 입력단자 IN을 통해 입력된 음성(speech) 신호 또는 음악(music) 신호와 같은 오디오 신호를 주파수 도메인과 시간 도메인으로 동시에 표현할 수 있도록 변환한다. 필터뱅크 분석부(500)는 QMF(Quadrature Mirror Filterbank)와 같은 필터뱅크를 사용하여 구현할 수 있다. 그러나 필터뱅크 분석부(500)에서 반드시 주파수 도메인과 시간 도메인을 모두 표현해야 하는 것은 아니다. 필터뱅크 분석부(500)에서는 FFT(Fast Fourier Transform) 또는 MDCT(Modified Discrete Cosine Transform)와 같은 필터뱅크를 이용하여 오디오 신호를 주파수 도메인으로만 변환하여 실시할 수도 있다.
다운-샘플링부(510, down-sampling unit)는 입력단자 IN을 통해 입력된 오디오 신호를 기 설정된 샘플링 레이트(sampling rate)로 다운 샘플링(down-sampling)한다. 여기서, 기 설정된 샘플링 레이트는 CELP(Coded-Excited Linear Prediction) 방식에 의해 부호화하는 데 적합한 샘플링 레이트일 수 있다. 또한, 다운-샘플링부(510)에서 다운-샘플링함에 있어서, 기 설정된 주파수 보다 작은 신호에서만 샘플링(sampling)함으로써 저주파수 신호만 샘플링할 수 있다.
적응적 저주파수신호 부호화부(520)는 CELP에 의해 부호화하는 방식 및 주파수 도메인에서 부호화하는 방식 가운데 기 설정된 기준에 따라 선택하여 다운-샘플링부(210)에서 다운-샘플링된 저주파수 신호를 부호화한다. 여기서, CELP에 의해 부호화하는 방식은 신호에서 음성을 분석하여 음성의 특징을 제거한 후 그 오차 신호를 코드북(codebook)에 의해 부호화하는 방식을 말한다. 또한, 주파수 도메인에서 부호화하는 방식의 예로 오디오 신호를 주파수 도메인으로 변환한 후 양자화하고 엔트로피(entropy) 부호화할 수 있다.
그리고 적응적 저주파수신호 부호화부(520)는 다운-샘플링부(210)에서 다운-샘플링된 저주파수 신호의 각 서브-밴드(sub-band)가 CELP에 의해 부호화하는 방식 및 주파수 도메인에서 부호화하는 방식 가운데 어느 방식에 의해 부호화되었는지 여부를 나타내는 정보를 부호화한다.
고주파수신호 부호화부(530)는 필터뱅크 분석부(500)에서 변환된 신호 가운데 기 설정된 주파수 보다 큰 영역에 마련된 고주파수 신호를 저주파수 신호를 이용하여 부호화한다. 다시 말하면, 고주파수신호 부호화부(530)는 복호화기에서 복호화된 저주파수 신호를 기 설정된 주파수 보다 큰 영역에 그대로 복사하거나 기 설정된 주파수를 기준으로 폴딩(folding)하여 생성된 신호에 부가될 노이즈의 양인 노이즈-플로어 레벨을 부호화한다. 도 1에서 고주파수신호 부호화부(530)의 실시예에 해당하는 고주파수 신호 부호화 장치를 도시하고 있으며 그 상세한 설명은 전술하였다. 도 1에 도시된 고주파수 신호 부호화 장치의 실시예에서 입력단자 IN 1에는 도 5의 필터뱅크 분석부(500)에서 변환된 신호가 입력되며, 입력단자 IN 2에는 도 5의 다운-샘플링부(510)에서 다운-샘플링된 저주파수 신호 또는 적응적 저주파수 신호 부호화부(520)에서 부호화하는 과정에서 생성되는 피치 상관도 또는 피치 예측 이득값 등과 같은 파라미터가 입력된다. 또한, 출력단자 OUT 1에서는 보이싱 레벨(voicing level)을 이용함으로써 갱신되어 부호화된 노이즈-플로어 레벨이 출력되고, 출력단자 OUT 2에서는 고주파수 신호의 포락선을 표현할 수 있는 파라미터가 출력된다.
그러나 도 5의 고주파수신호 부호화부(530)에서는 적응적 저주파수신호 부호화부(520)에서 CELP 방식에 의해 저주파수 신호가 부호화된 경우에 한하여 도 1의 노이즈-플로어 레벨 계산부(100)에서 계산된 노이즈-플로어 레벨을 노이즈-플로어 레벨 갱신부(120)에서 갱신하고, 적응적 저주파수신호 부호화부(520)에서 주파수 도메인에서 부호화하는 방식에 의해 저주파수 신호가 부호화된 경우에는 노이즈-플 로어 레벨 계산부(100)에서 계산된 노이즈-플로어 레벨을 노이즈-플로어 레벨 갱신부(120)에서 갱신하지 않고 노이즈-플로어 레벨 계산부(100)에서 계산된 노이즈-플로어 레벨을 그대로 노이즈-플로어 레벨 부호화부(130)에서 부호화할 수도 있다.
다중화부(540)는 고주파수신호 부호화부(530)에서 갱신되어 부호화된 노이즈-플로어 레벨과 고주파수 신호의 포락선을 표현할 수 있는 파라미터, 적응적 저주파수신호 부호화부(520)에서 부호화된 결과와 저주파수 신호의 각 서브-밴드가 CELP에 의해 부호화하는 방식 및 주파수 도메인에서 부호화하는 방식 가운데 어느 방식에 의해 부호화되었는지 여부를 나타내는 정보를 포함하여 다중화함으로써 비트스트림을 생성하여 출력단자 OUT을 통해 출력한다.
복호화 장치
도 6은 본 발명에 의한 고주파수 신호 복호화 장치에 대한 일 실시예를 블록도로 도시한 것으로서, 고주파수 신호 복호화 장치는 노이즈-플로어 레벨 복호화부(600), 보이싱 레벨 계산부(610), 노이즈-플로어 레벨 갱신부(620), 노이즈 생성부(630), 고주파수신호 생성부(640), 포락선 조절부(645) 및 노이즈 부가부(650)를 포함하여 이루어진다.
노이즈-플로어 레벨 복호화부(600, noise-floor level decoding unit)는 기 설정된 주파수 보다 큰 영역에 마련된 고주파수 신호의 노이즈-플로어 레벨(noise-floor level)을 복호화한다. 여기서, 노이즈-플로어 레벨은 복호화기에서 복원되는 고주파수 신호에 부가될 노이즈의 양을 말한다.
이러한 노이즈-플로어 레벨은 신호의 스펙트럼에서 최저 포인트들에 의해 결정되는 스펙트럴 포락선(spectral envelope)과 신호의 스펙트럼에서 최고 포인트들에 의해 결정되는 스펙트럴 포락선 사이의 차이값으로 계산될 수 있다.
또한, 노이즈-플로어 레벨은 고주파수 신호의 토널리티(tonality)와 고주파수 신호를 부호화하는 데 이용되는 기 설정된 주파수 보다 작은 영역에 마련된 저주파수 신호의 토널리티를 비교하여 노이즈-플로어 레벨을 계산될 수도 있다. 이러한 방식으로 노이즈-플로어 레벨을 계산할 경우, 저주파수 신호의 토널리티가 고주파수 신호의 토널리티 보다 클수록 복호화기에서 고주파수 신호에 노이즈를 많이 부가하도록 노이즈-플로어 레벨을 계산된다.
보이싱 레벨 계산부(610, voicing level calculating unit)는 복호화기에서 복호화된 저주파수 신호의 보이싱 레벨(voicing level)을 계산한다. 여기서, 보이싱 레벨은 신호에 포함된 유성음 또는 무성음의 정도를 말한다. 다시 말하면, 보이싱 레벨은 신호가 유성음 또는 무성음에 가까운 정도를 말한다. 이하에서는 보이싱 레벨은 신호가 유성음에 가까운 정보라고 가정하고 실시예를 설명하기로 한다.
보이싱 레벨 계산부(610)에서는 피치 상관도(pitch correlation) 또는 피치 예측 이득값(pitch prediction gain)을 이용하여 보이싱 레벨을 계산할 수 있다. 보이싱 레벨 계산부(610)는 피치 상관도 또는 피치 이득값 등을 입력받아 신호에 포함된 유성음의 정도를 0 내지 1 사이로 정규화하여 보이싱 레벨을 계산할 수 있다. 예를 들어, 보이싱 레벨 계산부(610)는 개루프 피치 상관도(open loop pitch correlation)를 이용하여 다음 기재된 수학식 3에 의해 보이싱 레벨을 계산할 수 있다.
[수학식 3]
VoicingLevel=1/(OpenLoopPitchCorrelation)
여기서, 'VoicingLevel'은 보이싱 레벨 계산부(610)에서 계산된 보이싱 레벨이고, 'OpenLoopPitchCorrelation'은 개루프 피치 상관도를 말한다.
노이즈-플로어 레벨 갱신부(620)는 보이싱 레벨 계산부(610)에서 계산된 보이싱 레벨을 이용하여 노이즈-플로어 레벨 복호화부(600)에서 복호화된 노이즈-플로어 레벨을 갱신한다. 보다 상세하게 설명하면, 노이즈-플로어 레벨 갱신부(620)는 보이싱 레벨 계산부(610)에서 계산된 보이싱 레벨이 유성음의 정도가 높다고 나타낼수록 노이즈-플로어 레벨 복호화부(600)에서 복호화된 노이즈-플로어 레벨을 감소시키고, 보이싱 레벨 계산부(610)에서 계산된 보이싱 레벨이 무성음의 정도가 높다고 나타낼수록 노이즈-플로어 레벨 계산부(600)에서 계산된 노이즈-플로어 레벨을 조절하지 않는다. 예를 들어, 노이즈-플로어 레벨 갱신부(620)는 다음 기재된 수학식 4에 의해 보이싱 레벨 계산부(610)에서 계산된 보이싱 레벨을 이용하여 노이즈-플로어 레벨 복호화부(600)에서 복호화된 노이즈-플로어 레벨을 갱신한다.
[수학식 4]
NewNoiseFloorLevel=NoiseFoorLevel*(1-VoicingLevel/2)
여기서, 'NewNoiseFloorLevel'은 노이즈-플로어 레벨 갱신부(620)에서 갱신된 노이즈-플로어 레벨이고, 'NoiseFloorLevel'은 노이즈-플로어 레벨 복호화 부(600)에서 복호화된 노이즈-플로어 레벨이며, 'VoicingLevel'은 보이싱 레벨 계산부(610)에서 유성음에 가까운 정규화된 정도가 계산된 보이싱 레벨을 말한다.
음성 신호를 부호화하거나 복호화할 경우 기존의 SBR 기술에서 고주파수 신호를 복호화함에 있어서 과도하게 노이즈를 부가하므로 유성음 구간에서 잡음이 발생하게 되는 문제점을 갖는다. 다시 말해, 음성 신호는 특성상 유성음 구간이 저주파수 신호의 경우 토널(tonal)한 특성이 강하고 고주파수 신호의 경우 노이즈 성향이 강하기 때문에 기존의 SBR 기술에서는 노이즈를 상당히 많이 부가한다. 그러나 본 발명의 실시예에 따르면 노이즈-플로어 레벨 복호화부(600)에서 복호화된 노이즈-플로어 레벨을 노이즈-플로어 레벨 갱신부(620)에서 갱신함으로써 유성음 구간에서 잡음이 감소되는 효과를 갖는다.
노이즈 생성부(630)는 기 설정된 임의의 방식으로 랜덤 노이즈 신호를 생성하고, 노이즈-플로어 레벨 갱신부(620)에서 갱신된 노이즈-플로어 레벨에 따라 랜덤 노이즈 신호를 조절한다.
고주파수신호 생성부(640)는 복호화기에서 복호화된 저주파수 신호를 이용하여 SBR(Spectral Band Replication) 방식에 의해 고주파수 신호를 생성한다. 고주파수신호 생성부(640)에서는 복호화기에서 복호화된 저주파수 신호를 기 설정된 주파수 보다 큰 영역인 고주파수 영역에 그대로 복사하거나 기 설정된 주파수를 기준으로 폴딩(folding)하여 생성함으로써 고주파수 신호를 생성한다. 여기서, 부호화기에서 고주파수 신호의 포락선에 대한 파라미터를 부호화한 경우 고주파수 영역에 복사되거나 폴딩된 신호를 고주파수 신호의 포락선에 대한 파라미터를 이용하여 포 락선을 조절함으로써 고주파수 신호를 생성할 수 있다.
포락선 조절부(645)는 고주파수 신호의 포락선을 표현할 수 있는 파라미터를 복호화하여 고주파수신호 생성부(640)에서 생성된 고주파수 신호의 포락선을 조절한다.
노이즈 부가부(650)는 포락선 조절부(645)에서 포락선이 조절된 고주파수 신호에 노이즈 생성부(630)에서 생성된 노이즈 신호를 부가한다.
도 7은 본 발명에 의한 고주파수 신호 복호화 장치의 실시예를 적용하여 오디오 신호를 복호화하는 장치에 대한 일 실시예를 블록도로 도시한 것으로서, 상기 오디오 신호를 복호화하는 장치는 역다중화부(700), CELP 복호화부(710), 필터뱅크 분석부(720), 고주파수신호 복호화부(730) 및 필터뱅크 합성부(740)를 포함하여 이루어진다.
역다중화부(700)는 입력단자 IN을 통해 부호화단으로부터 비트스트림을 입력받아 역다중화한다. 역다중화부(700)에서 역다중화하는 비트스트림에는 CELP 방식에 의하여 기 설정된 주파수 보다 작은 영역에 마련된 저주파수 신호가 부호화된 결과, 기 설정된 주파수 보다 큰 영역에 마련된 고주파수 신호의 노이즈-플로어 레벨, 고주파수 신호의 포락선을 표현할 수 있는 파라미터, 그 외 저주파수 신호를 이용하여 고주파수 신호를 복호화할 수 있는 파라미터 등이 포함될 수 있다.
CELP 복호화부(710)는 역다중화부(700)에서 역다중화된 CELP 방식에 의하여 저주파수 신호가 부호화된 결과를 복호화함으로써 저주파수 신호를 복원한다. 여기서, CELP 방식은 신호에서 음성을 분석하여 음성의 특징을 제거한 후 그 오차 신 호를 코드북(codebook)에 의해 부호화하는 방식을 말한다. 그러나 CELP 복호화부(220)는 CELP 방식에 한정하여 실시해야 하는 것은 아니다. CELP 방식은 시간 도메인에서 오디오 신호를 복호화하는 일 실시예에 지나지 않으며, CELP 복호화부(710)는 시간 도메인에서 오디오 신호를 복호화하는 모든 방식으로 실시할 수 있다.
필터뱅크 분석부(720)는 필터뱅크 분석(filterbank analysis)을 수행하여 CELP 복호화부(710)에서 복호화된 저주파수 신호를 주파수 도메인과 시간 도메인으로 동시에 표현할 수 있도록 변환한다. 필터뱅크 분석부(720)는 QMF(Quadrature Mirror Filterbank)와 같은 필터뱅크를 사용하여 구현할 수 있다. 그러나 필터뱅크 분석부(720)에서 반드시 주파수 도메인과 시간 도메인을 모두 표현해야 하는 것은 아니다. 필터뱅크 분석부(720)에서는 FFT(Fast Fourier Transform) 또는 MDCT(Modified Discrete Cosine Transform)와 같은 필터뱅크를 이용하여 CELP 복호화부(710)에서 복호화된 저주파수 신호를 주파수 도메인으로만 변환할 수도 있다.
고주파수신호 복호화부(730)는 필터뱅크 분석부(720)에서 변환된 저주파수 신호를 이용하여 보이싱 레벨로 갱신된 노이즈-플로어 레벨에 따라 SBR 방식에 의해 고주파수 신호를 복원한다. 도 6에서 고주파수신호 복호화부(730)의 실시예에 해당하는 고주파수 신호 복호화 장치의 실시예를 도시하고 있으며 그 상세한 설명은 전술하였다. 도 6에 도시된 고주파수 신호 복호화 장치의 실시예에서 입력단자 IN 1에는 도 7의 역다중화부(700)에서 역다중화된 고주파수 신호의 노이즈-플로어 레벨 또는 그 외 저주파수 신호를 이용하여 고주파수 신호를 복호화할 수 있는 파 라미터가 입력되며, 입력단자 IN 2에는 도 7의 CELP 복호화부(710)에서 복호화하는 과정에서 복호화되는 피치 상관도 또는 피치 예측 이득값 등과 같은 파라미터 또는 CELP 복호화부(710)에서 복호화된 저주파수 신호가 입력되고, 입력단자 IN 3에는 필터뱅크 분석부(720)에서 변환된 저주파수 신호가 입력되며, 입력단자 IN 4에는 역다중화부(700)에서 역다중화된 고주파수 신호의 포락선을 표현할 수 있는 파라미터가 입력된다. 또한, 출력단자 OUT 1에서는 보이싱 레벨로 갱신된 노이즈-플로어 레벨에 따라 SBR 방식에 의해 복원된 고주파수 신호가 출력된다.
필터뱅크 합성부(740)는 필터뱅크 분석부(720)에서 수행하는 변환의 역과정으로 필터뱅크 합성(filterbank synthesis)를 수행함으로써 CELP 복호화부(710)에서 복호화된 저주파수 신호와 고주파수신호 복호화부(730)에서 복원된 고주파수 신호를 합성하여 시간 도메인으로 역변환한다. 필터뱅크 합성부(740)는 역변환되어 모든 주파수 대역에 대해 복원된 오디오 신호를 출력단자 OUT을 통해 출력한다. 필터뱅크 합성부(740)는 QMF(Quadrature Mirror Filterbank)와 같이 주파수 도메인과 시간 도메인으로 동시에 표현된 신호를 시간 도메인으로 역변환하는 필터뱅크를 사용하여 구현할 수 있다. 또한, 필터뱅크 합성부(740)에서는 IFFT(Inverse Fast Fourier Transform) 또는 IMDCT(Inverse Modified Discrete Cosine Transform)와 같은 필터뱅크를 이용하여 주파수 도메인으로만 표현된 신호를 시간 도메인으로 역변환할 수도 있다.
도 8은 본 발명에 의한 고주파수 신호 복호화 장치의 실시예를 적용하여 오디오 신호를 복호화하는 장치에 대한 일 실시예를 블록도로 도시한 것으로서, 상기 오디오 신호를 복호화하는 장치는 역다중화부(800), 주파수도메인 복호화부(810), 필터뱅크 분석부(820), 고주파수신호 복호화부(830) 및 필터뱅크 합성부(840)를 포함하여 이루어진다.
역다중화부(800)는 입력단자 IN을 통해 부호화단으로부터 비트스트림을 입력받아 역다중화한다. 역다중화부(800)에서 역다중화하는 비트스트림에는 주파수 도메인에서 기 설정된 주파수 보다 작은 영역에 마련된 저주파수 신호가 부호화된 결과, 기 설정된 주파수 보다 큰 영역에 마련된 고주파수 신호의 노이즈-플로어 레벨, 고주파수 신호의 포락선을 표현할 수 있는 파라미터, 그 외 저주파수 신호를 이용하여 고주파수 신호를 복호화할 수 있는 파라미터 등이 포함될 수 있다.
주파수도메인 복호화부(810)는 역다중화부(800)에서 역다중화된 주파수 도메인에서 저주파수 신호가 부호화된 결과를 복호화함으로써 저주파수 신호를 복원한다. 예를 들어, 주파수도메인 복호화부(810)에서는 부호화기에서 부호화된 신호를 엔트로피(entropy) 복호화한 후 역양자하고 시간 도메인으로 역변환함으로써 저주파수 신호를 복원할 수 있다.
필터뱅크 분석부(820)는 필터뱅크 분석(filterbank analysis)을 수행하여 주파수도메인 복호화부(810)에서 복호화된 저주파수 신호를 주파수 도메인과 시간 도메인으로 동시에 표현할 수 있도록 변환한다. 필터뱅크 분석부(820)는 QMF(Quadrature Mirror Filterbank)와 같은 필터뱅크를 사용하여 구현할 수 있다. 그러나 필터뱅크 분석부(820)에서 반드시 주파수 도메인과 시간 도메인을 모두 표현해야 하는 것은 아니다. 필터뱅크 분석부(820)에서는 FFT(Fast Fourier Transform) 또는 MDCT(Modified Discrete Cosine Transform)와 같은 필터뱅크를 이용하여 주파수도메인 복호화부(810)에서 복호화된 저주파수 신호를 주파수 도메인으로만 변환할 수도 있다.
고주파수신호 복호화부(830)는 필터뱅크 분석부(820)에서 변환된 저주파수 신호를 이용하여 보이싱 레벨로 갱신된 노이즈-플로어 레벨에 따라 SBR 방식에 의해 고주파수 신호를 복원한다. 도 6에서 고주파수신호 복호화부(830)의 실시예에 해당하는 고주파수 신호 복호화 장치의 실시예를 도시하고 있으며 그 상세한 설명은 전술하였다. 도 6에 도시된 고주파수 신호 복호화 장치의 실시예에서 입력단자 IN 1에는 도 8의 역다중화부(800)에서 역다중화된 고주파수 신호의 노이즈-플로어 레벨 또는 그 외 저주파수 신호를 이용하여 고주파수 신호를 복호화할 수 있는 파라미터가 입력되며, 입력단자 IN 2에는 주파수도메인 복호화부(810)에서 복호화된 저주파수 신호가 입력되고, 입력단자 IN 3에는 필터뱅크 분석부(820)에서 변환된 저주파수 신호가 입력되며, 도 8의 역다중화부(800)에서 역다중화된 고주파수 신호의 포락선을 표현할 수 있는 파라미터가 입력된다. 또한, 출력단자 OUT 1에서는 보이싱 레벨로 갱신된 노이즈-플로어 레벨에 따라 SBR 방식에 의해 복원된 고주파수 신호가 출력된다.
필터뱅크 합성부(840)는 필터뱅크 분석부(820)에서 수행하는 변환의 역과정으로 필터뱅크 합성(filterbank synthesis)를 수행함으로써 주파수도메인 복호화부(810)에서 복호화된 저주파수 신호와 고주파수신호 복호화부(830)에서 복원된 고주파수 신호를 합성하여 시간 도메인으로 역변환한다. 필터뱅크 합성부(840)는 역 변환되어 모든 주파수 대역에 대해 복원된 오디오 신호를 출력단자 OUT을 통해 출력한다. 필터뱅크 합성부(840)는 QMF(Quadrature Mirror Filterbank)와 같이 주파수 도메인과 시간 도메인으로 동시에 표현된 신호를 시간 도메인으로 역변환하는 필터뱅크를 사용하여 구현할 수 있다. 또한, 필터뱅크 합성부(840)에서는 IFFT(Inverse Fast Fourier Transform) 또는 IMDCT(Inverse Modified Discrete Cosine Transform)와 같은 필터뱅크를 이용하여 주파수 도메인으로만 표현된 신호를 시간 도메인으로 역변환할 수도 있다.
도 9는 본 발명에 의한 고주파수 신호 복호화 장치의 실시예를 적용하여 오디오 신호를 복호화하는 장치에 대한 일 실시예를 블록도로 도시한 것으로서, 상기 오디오 신호를 복호화하는 장치는 역다중화부(900), 적응적 저주파수신호 복호화부(910), 필터뱅크 분석부(920), 고주파수신호 복호화부(930) 및 필터뱅크 합성부(940)를 포함하여 이루어진다.
역다중화부(900)는 입력단자 IN을 통해 부호화단으로부터 비트스트림을 입력받아 역다중화한다. 역다중화부(900)에서 역다중화하는 비트스트림에는 주파수 도메인에서 기 설정된 주파수 보다 작은 영역에 마련된 저주파수 신호가 부호화된 결과, 기 설정된 주파수 보다 큰 영역에 마련된 고주파수 신호의 노이즈-플로어 레벨, 고주파수 신호의 포락선을 표현할 수 있는 파라미터, 그 외 저주파수 신호를 이용하여 고주파수 신호를 복호화할 수 있는 파라미터, 저주파수 신호의 각 서브-밴드(sub-band)가 CELP에 의해 부호화하는 방식 및 주파수 도메인에서 부호화하는 방식 가운데 어느 방식에 의해 부호화되었는지 여부를 나타내는 정보 등이 포함될 수 있다.
적응적 저주파수신호 복호화부(910)는 역다중화부(900)에서 역다중화된 각 서브-밴드가 CELP에 의해 부호화하는 방식 및 주파수 도메인에서 부호화하는 방식 가운데 어느 방식에 의해 부호화되었는지 여부를 나타내는 정보에 따라 해당 방식에 의하여 역다중화부(900)에서 역다중화된 저주파수 신호가 부호화된 결과를 복호화함으로써 저주파수 신호를 복원한다. 여기서, CELP에 의해 부호화하는 방식은 신호에서 음성을 분석하여 음성의 특징을 제거한 후 그 오차 신호를 코드북(codebook)에 의해 부호화하는 방식을 말한다. 또한, 주파수 도메인에서 부호화하는 방식의 예로 오디오 신호를 주파수 도메인으로 변환한 후 양자화하고 엔트로피(entropy) 부호화할 수 있다.
필터뱅크 분석부(920)는 필터뱅크 분석(filterbank analysis)을 수행하여 적응적 저주파수신호 복호화부(910)에서 복호화된 저주파수 신호를 주파수 도메인과 시간 도메인으로 동시에 표현할 수 있도록 변환한다. 필터뱅크 분석부(920)는 QMF(Quadrature Mirror Filterbank)와 같은 필터뱅크를 사용하여 구현할 수 있다. 그러나 필터뱅크 분석부(920)에서 반드시 주파수 도메인과 시간 도메인을 모두 표현해야 하는 것은 아니다. 필터뱅크 분석부(920)에서는 FFT(Fast Fourier Transform) 또는 MDCT(Modified Discrete Cosine Transform)와 같은 필터뱅크를 이용하여 적응적 저주파수신호 복호화부(910)에서 복호화된 저주파수 신호를 주파수 도메인으로만 변환할 수도 있다.
고주파수신호 복호화부(930)는 필터뱅크 분석부(920)에서 변환된 저주파수 신호를 이용하여 보이싱 레벨로 갱신된 노이즈-플로어 레벨에 따라 SBR 방식에 의해 고주파수 신호를 복원한다. 도 6에서 고주파수신호 복호화부(930)의 실시예에 해당하는 고주파수 신호 복호화 장치의 실시예를 도시하고 있으며 그 상세한 설명은 전술하였다. 도 6에 도시된 고주파수 신호 복호화 장치의 실시예에서 입력단자 IN 1에는 도 9의 역다중화부(900)에서 역다중화된 고주파수 신호의 노이즈-플로어 레벨 또는 그 외 저주파수 신호를 이용하여 고주파수 신호를 복호화할 수 있는 파라미터가 입력되며, 입력단자 IN 2에는 도 9의 적응적 저주파수신호 복호화부(910)에서 복호화하는 과정에서 복호화되는 피치 상관도 또는 피치 예측 이득값 등과 같은 파라미터 또는 적응적 저주파수신호 복호화부(910)에서 복호화된 저주파수 신호가 입력되고, 입력단자 IN 3에는 필터뱅크 분석부(920)에서 변환된 저주파수 신호가 입력되며, 입력단자 IN 4에는 역다중화부(900)에서 역다중화된 고주파수 신호의 포락선을 표현할 수 있는 파라미터가 입력된다. 또한, 출력단자 OUT 1에서는 보이싱 레벨로 갱신된 노이즈-플로어 레벨에 따라 SBR 방식에 의해 복원된 고주파수 신호가 출력된다.
그러나 도 9의 고주파수신호 복호화부(930)에서는 적응적 저주파수신호 복호화부(910)에서 CELP 방식에 의해 저주파수 신호를 복호화한 경우에 한하여 도 6의 노이즈-플로어 레벨 복호화부(600)에서 복호화된 노이즈-플로어 레벨을 노이즈-플로어 레벨 갱신부(620)에서 갱신하고, 적응적 저주파수신호 복호화부(920)에서 주파수 도메인에서 복호화하는 방식에 의해 저주파수 신호를 복호화한 경우에는 노이즈-플로어 레벨 복호화부(600)에서 복호화된 노이즈-플로어 레벨을 노이즈-플로어 레벨 갱신부(620)에서 갱신하지 않고 노이즈-플로어 레벨 복호화부(600)에서 복호화된 노이즈-플로어 레벨에 따라 노이즈 생성부(630)에서 노이즈를 생성한다.
필터뱅크 합성부(940)는 필터뱅크 분석부(920)에서 수행하는 변환의 역과정으로 필터뱅크 합성(filterbank synthesis)를 수행함으로써 적응적 저주파수신호 복호화부(910)에서 복호화된 저주파수 신호와 고주파수신호 복호화부(930)에서 복원된 고주파수 신호를 합성하여 시간 도메인으로 역변환한다. 필터뱅크 합성부(940)는 역변환되어 모든 주파수 대역에 대해 복원된 오디오 신호를 출력단자 OUT을 통해 출력한다. 필터뱅크 합성부(940)는 QMF와 같이 주파수 도메인과 시간 도메인으로 동시에 표현된 신호를 시간 도메인으로 역변환하는 필터뱅크를 사용하여 구현할 수 있다. 또한, 필터뱅크 합성부(940)에서는 IFFT 또는 IMDCT와 같은 필터뱅크를 이용하여 주파수 도메인으로만 표현된 신호를 시간 도메인으로 역변환할 수도 있다.
부호화 방법
도 10은 본 발명에 의한 고주파수 신호 부호화 방법에 대한 일 실시예를 흐름도로 도시한 것이다.
먼저, 기 설정된 주파수 보다 큰 영역에 마련된 고주파수 신호의 노이즈-플로어 레벨(noise-floor level)을 계산한다(제1000단계). 여기서, 노이즈-플로어 레벨은 복호화기에서 복원되는 고주파수 신호에 부가될 노이즈의 양을 말한다.
제1000단계에서는 노이즈-플로어 레벨을 신호의 스펙트럼에서 최저 포인트들에 의해 결정되는 스펙트럴 포락선(spectral envelope)과 신호의 스펙트럼에서 최 고 포인트들에 의해 결정되는 스펙트럴 포락선 사이의 차이값으로 계산할 수 있다.
또한, 제1000단계에서는 노이즈-플로어 레벨을 고주파수 신호의 토널리티(tonality)와 고주파수 신호를 부호화하는 데 이용되는 기 설정된 주파수 보다 작은 영역에 마련된 저주파수 신호의 토널리티를 비교하여 노이즈-플로어 레벨을 계산할 수도 있다. 이러한 방식으로 제1000단계에서 노이즈-플로어 레벨을 계산할 경우, 저주파수 신호의 토널리티가 고주파수 신호의 토널리티 보다 클수록 복호화기에서 고주파수 신호에 노이즈를 많이 부가하도록 노이즈-플로어 레벨을 계산한다.
고주파수 신호의 보이싱 레벨(voicing level)을 계산한다(제1010단계). 여기서, 보이싱 레벨은 신호에 포함된 유성음 또는 무성음의 정도를 말한다. 다시 말하면, 보이싱 레벨은 신호가 유성음 또는 무성음에 가까운 정도를 말한다. 이하에서는 보이싱 레벨은 신호가 유성음에 가까운 정보라고 가정하고 실시예를 설명하기로 한다.
제1010단계에서는 피치 상관도(pitch correlation) 또는 피치 예측 이득값(pitch prediction gain)을 이용하여 보이싱 레벨을 계산할 수 있다. 제1010단계에서는 피치 상관도 또는 피치 이득값 등을 이용하여 신호에 포함된 유성음의 정도를 0 내지 1 사이로 정규화하여 보이싱 레벨을 계산할 수 있다. 예를 들어, 제1010단계에서는 개루프 피치 상관도(open loop pitch correlation)을 이용하여 다음 기재된 수학식 5에 의해 보이싱 레벨을 계산할 수 있다.
[수학식 5]
VoicingLevel=1/(OpenLoopPitchCorrelation)
여기서, 'VoicingLevel'은 제1010단계에서 계산된 보이싱 레벨이고, 'OpenLoopPitchCorrelation'은 개루프 피치 상관도를 말한다.
제1010단계에서 계산된 보이싱 레벨을 이용하여 제1000단계에서 계산된 노이즈-플로어 레벨을 갱신한다(제1020단계). 보다 상세하게 설명하면, 제1020단계에서는 제1010단계에서 계산된 보이싱 레벨이 유성음의 정도가 높다고 나타낼수록 제1000단계에서 계산된 노이즈-플로어 레벨을 감소시키고, 제1010단계에서 계산된 보이싱 레벨이 무성음의 정도가 높다고 나타낼수록 제1000단계에서 계산된 노이즈-플로어 레벨을 조절하지 않는다. 예를 들어, 제1020단계에서는 다음 기재된 수학식 6에 의해 제1010단계에서 계산된 보이싱 레벨을 이용하여 제1000단계에서 계산된 노이즈-플로어 레벨을 갱신한다.
[수학식 6]
NewNoiseFloorLevel=NoiseFoorLevel*(1-VoicingLevel/2)
여기서, 'NewNoiseFloorLevel'은 제1020단계에서 갱신된 노이즈-플로어 레벨이고, 'NoiseFloorLevel'은 제1000단계에서 계산된 노이즈-플로어 레벨이며, 'VoicingLevel'은 제1010단계에서 유성음에 가까운 정규화된 정도가 계산된 보이싱 레벨을 말한다.
음성 신호를 부호화하거나 복호화할 경우 기존의 SBR 기술에서 고주파수 신호를 복호화함에 있어서 과도하게 노이즈를 부가하므로 유성음 구간에서 잡음이 발생하게 되는 문제점을 갖는다. 다시 말해, 음성 신호는 특성상 유성음 구간이 저 주파수 신호의 경우 토널(tonal)한 특성이 강하고 고주파수 신호의 경우 노이즈 성향이 강하기 때문에 기존의 SBR 기술에서는 노이즈를 상당히 많이 부가한다. 그러나 본 발명의 실시예에 따르면 제1000단계에서 계산된 노이즈-플로어 레벨을 제1020단계에서 갱신함으로써 유성음 구간에서 잡음이 감소되는 효과를 갖는다.
제1020단계에서 갱신된 노이즈-플로어 레벨을 부호화한다(제1030단계).
고주파수 신호의 포락선을 표현할 수 있는 파라미터를 추출한다(제1040단계). 예를 들어, 제1040단계에서는 고주파수 신호의 각 서브-밴드(sub-band)별 에너지 값을 계산한다.
도 11는 본 발명에 의한 고주파수 신호 부호화 방법의 실시예를 적용하여 오디오 신호를 부호화하는 방법에 대한 일 실시예를 흐름도로 도시한 것이다.
먼저, 필터뱅크 분석(filterbank analysis)를 수행하여 원 신호에 해당하는 음성(speech) 신호 또는 음악(music) 신호와 같은 오디오 신호를 주파수 도메인과 시간 도메인으로 동시에 표현할 수 있도록 변환한다(제1100단계). 제1100단계에서는 QMF(Quadrature Mirror Filterbank)와 같은 필터뱅크를 사용하여 구현할 수 있다. 그러나 제1100단계에서 반드시 주파수 도메인과 시간 도메인을 모두 표현해야 하는 것은 아니다. 제1100단계에서는 FFT(Fast Fourier Transform) 또는 MDCT(Modified Discrete Cosine Transform)와 같은 필터뱅크를 이용하여 오디오 신호를 주파수 도메인으로만 변환하여 실시할 수도 있다.
원 신호에 해당하는 오디오 신호를 기 설정된 샘플링 레이트(sampling rate)로 다운 샘플링(down-sampling)한다(제1110단계). 여기서, 기 설정된 샘플링 레이 트는 CELP(Coded-Excited Linear Prediction) 방식에 의해 부호화하는 데 적합한 샘플링 레이트일 수 있다. 또한, 제1110단계에서 다운-샘플링함에 있어서, 기 설정된 주파수 보다 작은 신호에서만 샘플링(sampling)함으로써 저주파수 신호만 샘플링할 수 있다.
제1110단계에서 다운-샘플링된 저주파수 신호를 CELP 방식에 의해 부호화한다(제1120단계). 여기서, CELP 방식은 신호에서 음성을 분석하여 음성의 특징을 제거한 후 그 오차 신호를 코드북(codebook)에 의해 부호화하는 방식을 말한다. 그러나 제1110단계에서는 CELP 방식에 한정하여 실시해야 하는 것은 아니며 시간 도메인에서 오디오 신호를 부호화하는 모든 방식으로 실시할 수 있다.
제1100단계에서 변환된 신호 가운데 기 설정된 주파수 보다 큰 영역에 마련된 고주파수 신호를 저주파수 신호를 이용하여 부호화한다(제1130단계). 다시 말하면, 제1130단계에서는 복호화기에서 복호화된 저주파수 신호를 기 설정된 주파수 보다 큰 영역에 그대로 복사하거나 기 설정된 주파수를 기준으로 폴딩(folding)하여 생성된 신호에 부가될 노이즈의 양인 노이즈-플로어 레벨을 부호화한다. 도 10에서 제1130단계의 실시예에 해당하는 고주파수 신호 부호화 방법을 도시하고 있으며 그 상세한 설명은 전술하였다. 도 10의 제1000단계에서는 제1100단계에서 변환된 신호로 고주파수 신호의 노이즈-플로어 레벨을 계산하고, 도 10의 제1010단계에서는 제1110단계에서 다운-샘플링된 신호 또는 제1120단계에서 부호화하는 과정에서 생성되는 피치 상관도 또는 피치 예측 이득값 등과 같은 파라미터로 보이싱 레벨을 계산한다. 제1130단계에서는 보이싱 레벨을 이용하여 노이즈-플로어 레벨을 갱신하여 부호화한다.
제1130단계에서 갱신되어 부호화된 노이즈-플로어 레벨과 고주파수 신호의 포락선을 표현할 수 있는 파라미터 및 제1120단계에서 부호화된 결과를 포함하여 다중화함으로써 비트스트림을 생성한다(제1140단계).
도 12는 본 발명에 의한 고주파수 신호 부호화 방법의 실시예를 적용하여 오디오 신호를 부호화하는 방법에 대한 일 실시예를 흐름도로 도시한 것이다.
먼저, 필터뱅크 분석(filterbank analysis)를 수행하여 원 신호에 해당하는 음성(speech) 신호 또는 음악(music) 신호와 같은 스테레오에 해당하는 오디오 신호를 주파수 도메인과 시간 도메인으로 동시에 표현할 수 있도록 변환한다(제1200단계). 제1200단계에서는 QMF(Quadrature Mirror Filterbank)와 같은 필터뱅크를 사용하여 구현할 수 있다. 그러나 제1200단계에서 반드시 주파수 도메인과 시간 도메인을 모두 표현해야 하는 것은 아니다. 제1200단계에서는 FFT(Fast Fourier Transform) 또는 MDCT(Modified Discrete Cosine Transform)와 같은 필터뱅크를 이용하여 오디오 신호를 주파수 도메인으로만 변환하여 실시할 수도 있다.
복호화기에서 모노 신호를 스테레오 신호로 업믹싱(upmixing)할 수 있는 파라미터(들)를 제1200단계에서 변환된 신호에서 추출하여 부호화하고, 제1200단계에서 변환된 신호를 모노 신호로 다운믹싱(downmixing)한다(제1210단계). 여기서, 파라미터의 예로 CLD(Channel Level Difference), ICC(Inter Channel Correlation) 등이 있다.
제1200단계에서 수행하는 변환의 역과정으로써 필터뱅크 합성(filterbank synthesis)를 수행하여 제1210단계에서 다운믹싱된 신호를 시간 도메인으로 역변환한다(제1220단계). 제1220단계에서는 QMF(Quadrature Mirror Filterbank)와 같이 주파수 도메인과 시간 도메인으로 동시에 표현된 신호를 시간 도메인으로 역변환하는 필터뱅크를 사용하여 구현할 수 있다. 또한, 제1220단계에서는 IFFT(Inverse Fast Fourier Transform) 또는 IMDCT(Inverse Modified Discrete Cosine Transform)와 같은 필터뱅크를 이용하여 주파수 도메인으로만 표현된 신호를 시간 도메인으로 역변환할 수도 있다.
제1220단계에서 역변환된 신호를 기 설정된 샘플링 레이트(sampling rate)로 다운 샘플링(down-sampling)한다(제1230단계). 여기서, 기 설정된 샘플링 레이트는 CELP(Coded-Excited Linear Prediction) 방식에 의해 부호화하는 데 적합한 샘플링 레이트일 수 있다. 또한, 제1230단계에서 다운-샘플링함에 있어서, 기 설정된 주파수 보다 작은 신호에서만 샘플링(sampling)함으로써 저주파수 신호만 샘플링할 수 있다. 그러나 제1230단계를 반드시 포함하여 실시해야 하는 것은 아니며, 제1220단계에서 필터뱅크 합성을 수행하는 과정에서 다운-샘플링까지 포함하여 실시할 수 있다.
제1230단계에서 다운-샘플링된 저주파수 신호를 CELP 방식에 의해 부호화한다(제1240단계). 여기서, CELP 방식은 신호에서 음성을 분석하여 음성의 특징을 제거한 후 그 오차 신호를 코드북(codebook)에 의해 부호화하는 방식을 말한다. 그러나 제1240단계에서는 CELP 방식에 한정하여 실시해야 하는 것은 아니며 시간 도메인에서 오디오 신호를 부호화하는 모든 방식으로 실시할 수 있다.
저주파수 신호를 이용하여 제1210단계에서 다운믹싱된 신호 가운데 기 설정된 주파수 보다 큰 영역에 마련된 고주파수 신호를 부호화한다(제1250단계). 다시 말하면, 제1250단계에서는 복호화기에서 복호화된 저주파수 신호를 기 설정된 주파수 보다 큰 영역에 그대로 복사하거나 기 설정된 주파수를 기준으로 폴딩(folding)하여 생성된 신호에 부가될 노이즈의 양인 노이즈-플로어 레벨을 부호화한다. 도 10에서 제1250단계의 일 실시예에 해당하는 고주파수 신호 부호화 방법을 도시하고 있으며 그 상세한 설명은 전술하였다. 도 10에 도시된 고주파수 신호 부호화 방법의 실시예에서는 도 12의 제1210단계에서 다운믹싱된 신호를 이용하여 노이즈-플로어 레벨을 계산하고 고주파수 신호의 포락선을 추출하며, 도 12의 제1230단계에서 다운-샘플링된 신호 또는 도 3의 제1240단계에서 부호화하는 과정에서 생성되는 피치 상관도 또는 피치 예측 이득값 등과 같은 파라미터를 이용하여 보이싱 레벨을 계산한다.
제1210단계에서 부호화된 파라미터(들), 제1250단계에서 갱신되어 부호화된 노이즈-플로어 레벨과 고주파수 신호의 포락선을 나타낼 수 있는 파라미터 및 제1240단계에서 부호화된 결과를 포함하여 다중화함으로써 비트스트림을 생성한다(제1260단계).
도 13은 본 발명에 의한 고주파수 신호 부호화 방법의 실시예를 적용하여 오디오 신호를 부호화하는 방법에 대한 일 실시예를 흐름도로 도시한 것이다.
먼저, 필터뱅크 분석(filterbank analysis)를 수행하여 음성(speech) 신호 또는 음악(music) 신호와 같은 오디오 신호를 주파수 도메인과 시간 도메인으로 동 시에 표현할 수 있도록 변환한다(제1300단계). 제1300단계에서는 QMF(Quadrature Mirror Filterbank)와 같은 필터뱅크를 사용하여 구현할 수 있다. 그러나 제1300단계에서 반드시 주파수 도메인과 시간 도메인을 모두 표현해야 하는 것은 아니다. 제1300단계에서는 FFT(Fast Fourier Transform) 또는 MDCT(Modified Discrete Cosine Transform)와 같은 필터뱅크를 이용하여 오디오 신호를 주파수 도메인으로만 변환하여 실시할 수도 있다.
제1300단계에서 변환된 신호 가운데 기 설정된 주파수 보다 큰 영역에 마련된 고주파수 신호를 기 설정된 주파수 보다 작은 영역에 마련된 저주파수 신호를 이용하여 부호화한다(제1310단계). 다시 말하면, 제1310단계에서는 복호화기에서 복호화된 저주파수 신호를 기 설정된 주파수 보다 큰 영역에 그대로 복사하거나 기 설정된 주파수를 기준으로 폴딩(folding)하여 생성된 신호에 부가될 노이즈의 양인 노이즈-플로어 레벨을 부호화한다. 도 10에서 제1310단계의 일 실시예에 해당하는 고주파수 신호 부호화 방법을 도시하고 있으며 그 상세한 설명은 전술하였다. 도 10에 도시된 고주파수 신호 부호화 방법의 실시예에서는 제1300단계에서 변환된 신호로 노이즈-플로어 레벨을 계산하고, 보이싱 레벨을 계산하며, 고주파수 신호의 포락선을 표현할 수 있는 파라미터를 추출한다.
원 신호인 오디오 신호를 기 설정된 샘플링 레이트(sampling rate)로 다운 샘플링(down-sampling)한다(제1320단계). 여기서, 기 설정된 샘플링 레이트는 CELP(Coded-Excited Linear Prediction) 방식에 의해 부호화하는 데 적합한 샘플링 레이트일 수 있다. 또한, 제1320단계에서 다운-샘플링함에 있어서, 기 설정된 주 파수 보다 작은 신호에서만 샘플링(sampling)함으로써 저주파수 신호만 샘플링할 수 있다.
제1320단계에서 다운 샘플링된 저주파수 신호를 주파수 도메인에서 부호화한다(제1330단계). 예를 들어, 제1330단계에서는 제1320단계에서 다운 샘플링된 저주파수 신호를 주파수 도메인으로 변환한 후 양자화하고 엔트로피(entropy) 부호화한다.
제1310단계에서 갱신되어 부호화된 노이즈-플로어 레벨과 고주파수 신호의 포락선을 나타낼 수 있는 파라미터 및 제1330단계에서 부호화된 결과를 포함하여 다중화함으로써 비트스트림을 생성한다(제1340단계).
도 14는 본 발명에 의한 고주파수 신호 부호화 방법의 실시예를 적용하여 오디오 신호를 부호화하는 방법에 대한 일 실시예를 흐름도로 도시한 것이다.
먼저, 필터뱅크 분석(filterbank analysis)를 수행하여 원 신호에 해당하는 음성(speech) 신호 또는 음악(music) 신호와 같은 오디오 신호를 주파수 도메인과 시간 도메인으로 동시에 표현할 수 있도록 변환한다(제1400단계). 제1400단계에서는 QMF(Quadrature Mirror Filterbank)와 같은 필터뱅크를 사용하여 구현할 수 있다. 그러나 제1400단계에서 반드시 주파수 도메인과 시간 도메인을 모두 표현해야 하는 것은 아니다. 제1400단계에서는 FFT(Fast Fourier Transform) 또는 MDCT(Modified Discrete Cosine Transform)와 같은 필터뱅크를 이용하여 오디오 신호를 주파수 도메인으로만 변환할 수도 있다.
원 신호에 해당하는 오디오 신호를 기 설정된 샘플링 레이트(sampling rate) 로 다운 샘플링(down-sampling)한다(제1405단계). 여기서, 기 설정된 샘플링 레이트는 CELP(Coded-Excited Linear Prediction) 방식에 의해 부호화하는 데 적합한 샘플링 레이트일 수 있다. 또한, 제1405단계에서 다운-샘플링함에 있어서, 기 설정된 주파수 보다 작은 신호에서만 샘플링(sampling)함으로써 저주파수 신호만 샘플링할 수 있다.
CELP에 의해 부호화하는 방식 및 주파수 도메인에서 부호화하는 방식 가운데 기 설정된 기준에 따라 제1405단계에서 다운-샘플링된 저주파수 신호를 부호화할 방식을 선택한다(제1410단계). 그리고 제1410단계에서는 제1405단계에서 다운-샘플링된 저주파수 신호의 각 서브-밴드(sub-band)가 CELP에 의해 부호화하는 방식 및 주파수 도메인에서 부호화하는 방식 가운데 어느 방식에 의해 부호화되었는지 여부를 나타내는 정보를 부호화한다.
제1410단계에서 CELP에 의해 부호화하는 방식이 선택되면, 제1410단계에서 다운-샘플링된 저주파수 신호를 CELP 방식에 의해 부호화한다(제1415단계). 여기서, CELP 방식은 신호에서 음성을 분석하여 음성의 특징을 제거한 후 그 오차 신호를 코드북(codebook)에 의해 부호화하는 방식을 말한다. 그러나 제1415단계에서는 CELP 방식에 한정하여 실시해야 하는 것은 아니며 시간 도메인에서 오디오 신호를 부호화하는 모든 방식으로 실시할 수 있다.
제1410단계에서 주파수 도메인에서 부호화하는 방식이 선택되면, 제1405단계에서 다운 샘플링된 저주파수 신호를 주파수 도메인에서 부호화한다(제1420단계). 예를 들어, 제1420단계에서는 제1405단계에서 다운 샘플링된 저주파수 신호를 주파 수 도메인으로 변환한 후 양자화하고 엔트로피(entropy) 부호화한다.
제1400단계에서 변환된 신호 가운데 고주파수 신호의 노이즈-플로어 레벨(noise-floor level)을 계산한다(제1425단계). 여기서, 노이즈-플로어 레벨은 복호화기에서 복원되는 고주파수 신호에 부가될 노이즈의 양을 말한다.
제1425단계에서는 노이즈-플로어 레벨을 신호의 스펙트럼에서 최저 포인트들에 의해 결정되는 스펙트럴 포락선(spectral envelope)과 신호의 스펙트럼에서 최고 포인트들에 의해 결정되는 스펙트럴 포락선 사이의 차이값으로 계산할 수 있다.
또한, 제1425단계에서는 노이즈-플로어 레벨을 고주파수 신호의 토널리티(tonality)와 고주파수 신호를 부호화하는 데 이용되는 기 설정된 주파수 보다 작은 영역에 마련된 저주파수 신호의 토널리티를 비교하여 노이즈-플로어 레벨을 계산할 수도 있다. 이러한 방식으로 제1425단계에서 노이즈-플로어 레벨을 계산할 경우, 저주파수 신호의 토널리티가 고주파수 신호의 토널리티 보다 클수록 복호화기에서 고주파수 신호에 노이즈를 많이 부가하도록 노이즈-플로어 레벨을 계산한다.
제1410단계에서 CELP 방식이 선택되어 저주파수 신호가 부호화되었는지 여부를 판단한다(제1430단계).
만일 제1430단계에서 저주파수 신호가 CELP 방식으로 부호화되었다고 판단되면, 제1405단계에서 다운-샘플링된 신호 또는 제1415단계에서 부호화하는 과정에서 생성된 파라미터를 이용하여 고주파수 신호의 보이싱 레벨(voicing level)을 계산 한다(제1435단계). 여기서, 보이싱 레벨은 신호에 포함된 유성음 또는 무성음의 정도를 말한다. 다시 말하면, 보이싱 레벨은 신호가 유성음 또는 무성음에 가까운 정도를 말한다. 이하에서는 보이싱 레벨은 신호가 유성음에 가까운 정보라고 가정하고 실시예를 설명하기로 한다.
제1435단계에서는 제1415단계에서 부호화하는 과정에서 생성된 피치 상관도(pitch correlation) 또는 피치 예측 이득값(pitch prediction gain)을 이용하여 보이싱 레벨을 계산할 수 있다. 제1435단계에서는 피치 상관도 또는 피치 이득값 등을 이용하여 신호에 포함된 유성음의 정도를 0 내지 1 사이로 정규화하여 보이싱 레벨을 계산할 수 있다. 예를 들어, 제1435단계에서는 개루프 피치 상관도(open loop pitch correlation)을 이용하여 다음 기재된 수학식 7에 의해 보이싱 레벨을 계산할 수 있다.
[수학식 7]
VoicingLevel=1/(OpenLoopPitchCorrelation)
여기서, 'VoicingLevel'은 제1435단계에서 계산된 보이싱 레벨이고, 'OpenLoopPitchCorrelation'은 개루프 피치 상관도를 말한다.
제1435단계에서 계산된 보이싱 레벨을 이용하여 제1425단계에서 계산된 노이즈-플로어 레벨을 갱신한다(제1440단계). 보다 상세하게 설명하면, 제1440단계에서는 제1435단계에서 계산된 보이싱 레벨이 유성음의 정도가 높다고 나타낼수록 제1435단계에서 계산된 노이즈-플로어 레벨을 감소시키고, 제1435단계에서 계산된 보이싱 레벨이 무성음의 정도가 높다고 나타낼수록 제1435단계에서 계산된 노이즈-플 로어 레벨을 조절하지 않는다. 예를 들어, 제1435단계에서는 다음 기재된 수학식 8에 의해 제1435단계에서 계산된 보이싱 레벨을 이용하여 제1425단계에서 계산된 노이즈-플로어 레벨을 갱신한다.
[수학식 8]
NewNoiseFloorLevel=NoiseFoorLevel*(1-VoicingLevel/2)
여기서, 'NewNoiseFloorLevel'은 제1440단계에서 갱신된 노이즈-플로어 레벨이고, 'NoiseFloorLevel'은 제1425단계에서 계산된 노이즈-플로어 레벨이며, 'VoicingLevel'은 제1435단계에서 유성음에 가까운 정규화된 정도가 계산된 보이싱 레벨을 말한다.
제1410단계에서 주파수 도메인에서 부호화하는 방식이 선택된 경우 제1425단계에서 계산된 노이즈-플로어 레벨을 부호화하고, 제1410단계에서 CELP 방식이 선택된 경우 제1440단계에서 갱신된 노이즈-플로어 레벨을 부호화한다(제1445단계).
고주파수 신호의 포락선을 표현할 수 있는 파라미터를 추출한다(제1450단계). 예를 들어, 제1450단계에서는 고주파수 신호의 각 서브-밴드(sub-band)별 에너지 값을 계산한다.
제1415단계 또는 제1420단계에서 부호화된 결과와 저주파수 신호의 각 서브-밴드가 CELP에 의해 부호화하는 방식 및 주파수 도메인에서 부호화하는 방식 가운데 어느 방식에 의해 부호화되었는지 여부를 나타내는 정보, 제1445단계 부호화된 노이즈-플로어 레벨, 제1450단계에서 추출된 고주파수 신호의 포락선을 나타낼 수 있는 파라미터를 포함하여 다중화함으로써 비트스트림을 생성한다(제1455단계).
복호화 방법
도 15는 본 발명에 의한 고주파수 신호 복호화 방법에 대한 일 실시예를 흐름도로 도시한 것이다.
먼저, 기 설정된 주파수 보다 큰 영역에 마련된 고주파수 신호의 노이즈-플로어 레벨(noise-floor level)을 복호화한다(제1500단계). 여기서, 노이즈-플로어 레벨은 복호화기에서 복원되는 고주파수 신호에 부가될 노이즈의 양을 말한다.
이러한 노이즈-플로어 레벨은 신호의 스펙트럼에서 최저 포인트들에 의해 결정되는 스펙트럴 포락선(spectral envelope)과 신호의 스펙트럼에서 최고 포인트들에 의해 결정되는 스펙트럴 포락선 사이의 차이값으로 계산될 수 있다.
또한, 노이즈-플로어 레벨은 고주파수 신호의 토널리티(tonality)와 고주파수 신호를 부호화하는 데 이용되는 기 설정된 주파수 보다 작은 영역에 마련된 저주파수 신호의 토널리티를 비교하여 노이즈-플로어 레벨을 계산될 수도 있다. 이러한 방식으로 노이즈-플로어 레벨을 계산할 경우, 저주파수 신호의 토널리티가 고주파수 신호의 토널리티 보다 클수록 복호화기에서 고주파수 신호에 노이즈를 많이 부가하도록 노이즈-플로어 레벨을 계산된다.
복호화기에서 복호화된 저주파수 신호의 보이싱 레벨(voicing level)을 계산한다(제1510단계). 여기서, 보이싱 레벨은 신호에 포함된 유성음 또는 무성음의 정도를 말한다. 다시 말하면, 보이싱 레벨은 신호가 유성음 또는 무성음에 가까운 정도를 말한다. 이하에서는 보이싱 레벨은 신호가 유성음에 가까운 정보라고 가정하고 실시예를 설명하기로 한다.
제1510단계에서는 피치 상관도(pitch correlation) 또는 피치 예측 이득값(pitch prediction gain)을 이용하여 보이싱 레벨을 계산할 수 있다. 제1510단계에서는 피치 상관도 또는 피치 이득값 등을 입력받아 신호에 포함된 유성음의 정도를 0 내지 1 사이로 정규화하여 보이싱 레벨을 계산할 수 있다. 예를 들어, 제1510단계는 개루프 피치 상관도(open loop pitch correlation)를 이용하여 다음 기재된 수학식 9에 의해 보이싱 레벨을 계산할 수 있다.
[수학식 9]
VoicingLevel=1/(OpenLoopPitchCorrelation)
여기서, 'VoicingLevel'은 제1510단계에서 계산된 보이싱 레벨이고, 'OpenLoopPitchCorrelation'은 개루프 피치 상관도를 말한다.
제1510단계에서 계산된 보이싱 레벨을 이용하여 제1500단계에서 복호화된 노이즈-플로어 레벨을 갱신한다(제1520단계). 보다 상세하게 설명하면, 제1520단계에서는 제1510단계에서 계산된 보이싱 레벨이 유성음의 정도가 높다고 나타낼수록 제1500단계에서 복호화된 노이즈-플로어 레벨을 감소시키고, 제1510단계에서 계산된 보이싱 레벨이 무성음의 정도가 높다고 나타낼수록 제1500단계에서 계산된 노이즈-플로어 레벨을 조절하지 않는다. 예를 들어, 제1520단계에서는 다음 기재된 수학식 10에 의해 제1510단계에서 계산된 보이싱 레벨을 이용하여 제1500단계에서 복호화된 노이즈-플로어 레벨을 갱신한다.
[수학식 10]
NewNoiseFloorLevel=NoiseFoorLevel*(1-VoicingLevel/2)
여기서, 'NewNoiseFloorLevel'은 제1520단계에서 갱신된 노이즈-플로어 레벨이고, 'NoiseFloorLevel'은 제1500단계에서 복호화된 노이즈-플로어 레벨이며, 'VoicingLevel'은 제1510단계에서 유성음에 가까운 정규화된 정도가 계산된 보이싱 레벨을 말한다.
음성 신호를 부호화하거나 복호화할 경우 기존의 SBR 기술에서 고주파수 신호를 복호화함에 있어서 과도하게 노이즈를 부가하므로 유성음 구간에서 잡음이 발생하게 되는 문제점을 갖는다. 다시 말해, 음성 신호는 특성상 유성음 구간이 저주파수 신호의 경우 토널(tonal)한 특성이 강하고 고주파수 신호의 경우 노이즈 성향이 강하기 때문에 기존의 SBR 기술에서는 노이즈를 상당히 많이 부가한다. 그러나 본 발명의 실시예에 따르면 제1500단계에서 복호화된 노이즈-플로어 레벨을 제1520단계에서 갱신함으로써 유성음 구간에서 잡음이 감소되는 효과를 갖는다.
기 설정된 임의의 방식으로 랜덤 노이즈 신호(random noise signal)를 생성하고, 제1520단계에서 갱신된 노이즈-플로어 레벨에 따라 랜덤 노이즈 신호를 조절한다(제1530단계).
복호화기에서 복호화된 저주파수 신호를 이용하여 고주파수 신호를 생성한다(제1540단계). 제1540단계에서는 복호화기에서 복호화된 저주파수 신호를 기 설정된 주파수 보다 큰 영역인 고주파수 영역에 그대로 복사하거나 기 설정된 주파수를 기준으로 폴딩(folding)하여 생성함으로써 고주파수 신호를 생성한다.
고주파수 신호의 포락선을 표현할 수 있는 파라미터를 복호화하여 제1540단계에서 생성된 고주파수 신호의 포락선을 조절한다(제1545단계).
제1545단계에서 조절된 고주파수 신호에 제1530단계에서 조절된 랜덤 노이즈 신호를 부가한다(제1550단계).
도 16은 본 발명에 의한 고주파수 신호 복호화 방법의 실시예를 적용하여 오디오 신호를 복호화하는 방법에 대한 일 실시예를 흐름도로 도시한 것이다.
먼저, 부호화단으로부터 비트스트림을 입력받아 역다중화한다(제1600단계). 제1600단계에서 역다중화하는 비트스트림에는 CELP 방식에 의하여 기 설정된 주파수 보다 작은 영역에 마련된 저주파수 신호가 부호화된 결과, 기 설정된 주파수 보다 큰 영역에 마련된 고주파수 신호의 노이즈-플로어 레벨, 고주파수 신호의 포락선을 나타낼 수 있는 파라미터, 그 외 저주파수 신호를 이용하여 고주파수 신호를 복호화할 수 있는 파라미터 등이 포함될 수 있다.
제1600단계에서 역다중화된 CELP 방식에 의하여 저주파수 신호가 부호화된 결과를 복호화함으로써 저주파수 신호를 복원한다(제1610단계). 여기서, CELP 방식은 신호에서 음성을 분석하여 음성의 특징을 제거한 후 그 오차 신호를 코드북(codebook)에 의해 부호화하는 방식을 말한다. 그러나 제1610단계는 CELP 방식에 한정하여 실시해야 하는 것은 아니다. CELP 방식은 시간 도메인에서 오디오 신호를 복호화하는 일 실시예에 지나지 않으며, 제1610단계는 시간 도메인에서 오디오 신호를 복호화하는 모든 방식으로 실시할 수 있다.
필터뱅크 분석(filterbank analysis)을 수행하여 제1610단계에서 복호화된 저주파수 신호를 주파수 도메인과 시간 도메인으로 동시에 표현할 수 있도록 변환한다(제1620단계). 제1620단계에서는 QMF(Quadrature Mirror Filterbank)와 같은 필터뱅크를 사용하여 구현할 수 있다. 그러나 제1620단계에서 반드시 주파수 도메인과 시간 도메인을 모두 표현해야 하는 것은 아니다. 제1620단계에서는 FFT(Fast Fourier Transform) 또는 MDCT(Modified Discrete Cosine Transform)와 같은 필터뱅크를 이용하여 제1610단계에서 복호화된 저주파수 신호를 주파수 도메인으로만 변환할 수도 있다.
제1620단계에서 변환된 저주파수 신호를 이용하여 보이싱 레벨로 갱신된 노이즈-플로어 레벨에 따라 SBR 방식에 의해 고주파수 신호를 복원한다(제1630단계). 도 15에서 제1630단계의 실시예에 해당하는 고주파수 신호 복호화 방법의 실시예를 도시하고 있으며 그 상세한 설명은 전술하였다.
제1620단계에서 수행하는 변환의 역과정으로 필터뱅크 합성(filterbank synthesis)를 수행함으로써 제1610단계에서 복호화된 저주파수 신호와 제1630단계에서 복원된 고주파수 신호를 합성하여 시간 도메인으로 역변환한다(제1640단계). 제1640단계에서는 필터뱅크 합성을 수행함으로써 모든 주파수 대역에 대한 오디오 신호가 복원된다. 제1640단계에서는 QMF와 같이 주파수 도메인과 시간 도메인으로 동시에 표현된 신호를 시간 도메인으로 역변환하는 필터뱅크를 사용하여 구현할 수 있다. 또한, 제1640단계에서는 IFFT(Inverse Fast Fourier Transform) 또는 IMDCT(Inverse Modified Discrete Cosine Transform)와 같은 필터뱅크를 이용하여 주파수 도메인으로만 표현된 신호를 시간 도메인으로 역변환할 수도 있다.
도 17은 본 발명에 의한 고주파수 신호 복호화 방법의 실시예를 적용하여 오디오 신호를 복호화하는 방법에 대한 일 실시예를 흐름도로 도시한 것이다.
먼저, 부호화단으로부터 비트스트림을 입력받아 역다중화한다(제1700단계). 제1700단계에서 역다중화하는 비트스트림에는 주파수 도메인에서 기 설정된 주파수 보다 작은 영역에 마련된 저주파수 신호가 부호화된 결과, 기 설정된 주파수 보다 큰 영역에 마련된 고주파수 신호의 노이즈-플로어 레벨, 고주파수 신호의 포락선을 나타낼 수 있는 파라미터, 그 외 저주파수 신호를 이용하여 고주파수 신호를 복호화할 수 있는 파라미터 등이 포함될 수 있다.
제1700단계에서 역다중화된 주파수 도메인에서 저주파수 신호가 부호화된 결과를 복호화함으로써 주파수 도메인에서 저주파수 신호를 복원한다(제1710단계). 예를 들어, 제1710단계에서는 부호화기에서 부호화된 신호를 엔트로피(entropy) 복호화한 후 역양자하고 시간 도메인으로 역변환함으로써 저주파수 신호를 복원할 수 있다.
필터뱅크 분석(filterbank analysis)을 수행하여 제1710단계에서 복호화된 저주파수 신호를 주파수 도메인과 시간 도메인으로 동시에 표현할 수 있도록 변환한다(제1720단계). 제1720단계에서는 QMF(Quadrature Mirror Filterbank)와 같은 필터뱅크를 사용하여 구현할 수 있다. 그러나 제1720단계에서 반드시 주파수 도메인과 시간 도메인을 모두 표현해야 하는 것은 아니다. 제1720단계에서는 FFT(Fast Fourier Transform) 또는 MDCT(Modified Discrete Cosine Transform)와 같은 필터뱅크를 이용하여 제1710단계에서 복호화된 저주파수 신호를 주파수 도메인으로만 변환할 수도 있다.
제1720단계에서 변환된 저주파수 신호를 이용하여 보이싱 레벨로 갱신된 노 이즈-플로어 레벨에 따라 SBR 방식에 의해 고주파수 신호를 복원한다(제1730단계). 도 15에서 제1730단계의 실시예에 해당하는 고주파수 신호 복호화 방법의 실시예를 도시하고 있으며 그 상세한 설명은 전술하였다.
제1720단계에서 수행하는 변환의 역과정으로 필터뱅크 합성(filterbank synthesis)를 수행함으로써 제1710단계에서 복호화된 저주파수 신호와 제1730단계에서 복원된 고주파수 신호를 합성하여 시간 도메인으로 역변환한다(제1740단계). 제1740단계에서는 역변환함으로써 모든 주파수 대역에 대해 오디오 신호가 복원된다. 제1740단계에서는 QMF와 같이 주파수 도메인과 시간 도메인으로 동시에 표현된 신호를 시간 도메인으로 역변환하는 필터뱅크를 사용하여 구현할 수 있다. 또한, 제1740단계에서는 IFFT(Inverse Fast Fourier Transform) 또는 IMDCT(Inverse Modified Discrete Cosine Transform)와 같은 필터뱅크를 이용하여 주파수 도메인으로만 표현된 신호를 시간 도메인으로 역변환할 수도 있다.
도 18은 본 발명에 의한 고주파수 신호 복호화 방법의 실시예를 적용하여 오디오 신호를 복호화하는 방법에 대한 일 실시예를 흐름도로 도시한 것이다.
먼저, 부호화단으로부터 비트스트림을 입력받아 역다중화한다(제1800단계). 제1800단계에서 역다중화하는 비트스트림에는 주파수 도메인에서 기 설정된 주파수 보다 작은 영역에 마련된 저주파수 신호가 부호화된 결과, 기 설정된 주파수 보다 큰 영역에 마련된 고주파수 신호의 노이즈-플로어 레벨, 고주파수 신호의 포락선을 나타낼 수 있는 파라미터, 그 외 저주파수 신호를 이용하여 고주파수 신호를 복호화할 수 있는 파라미터, 저주파수 신호의 각 서브-밴드(sub-band)가 CELP에 의해 부호화하는 방식 및 주파수 도메인에서 부호화하는 방식 가운데 어느 방식에 의해 부호화되었는지 여부를 나타내는 정보 등이 포함될 수 있다.
각 서브-밴드가 CELP에 의해 부호화하는 방식 및 주파수 도메인에서 부호화하는 방식 가운데 어느 방식에 의해 부호화되었는지 여부를 판단한다(제1805단계). 제1805단계에서는 제1800단계에서 역다중화된 각 서브-밴드가 CELP에 의해 부호화하는 방식 및 주파수 도메인에서 부호화하는 방식 가운데 어느 방식에 의해 부호화되었는지 여부를 나타내는 정보를 이용하여 판단한다.
만일 제1805단계에서 CELP에 의해 부호화하는 방식으로 부호화된 서브-밴드로 판단되면, 제1800단계에서 역다중화된 CELP 방식에 의하여 부호화된 서브-밴드를 CELP 방식에 의해 복호화함으로써 저주파수 신호를 복원한다(제1810단계). 여기서, CELP 방식은 신호에서 음성을 분석하여 음성의 특징을 제거한 후 그 오차 신호를 코드북(codebook)에 의해 부호화하는 방식을 말한다. 그러나 제1810단계는 CELP 방식에 한정하여 실시해야 하는 것은 아니다. CELP 방식은 시간 도메인에서 오디오 신호를 복호화하는 일 실시예에 지나지 않으며, 제1810단계는 시간 도메인에서 오디오 신호를 복호화하는 모든 방식으로 실시할 수 있다.
만일 제1805단계에서 주파수 도메인에서 부호화하는 방식으로 부호화된 서브-밴드로 판단되면, 제1800단계에서 역다중화된 주파수 도메인에서 부호화된 서브-밴드를 주파수 도메인에서 복호화함으로써 저주파수 신호를 복원한다(제1815단계). 예를 들어, 제1710단계에서는 부호화기에서 부호화된 신호를 엔트로피(entropy) 복호화한 후 역양자하고 시간 도메인으로 역변환함으로써 저주파수 신호를 복원할 수 있다.
필터뱅크 분석(filterbank analysis)을 수행하여 제1810단계 또는 제1815단계에서 복호화된 저주파수 신호를 주파수 도메인과 시간 도메인으로 동시에 표현할 수 있도록 변환한다(제1820단계). 제1820단계에서는 QMF(Quadrature Mirror Filterbank)와 같은 필터뱅크를 사용하여 구현할 수 있다. 그러나 제1820단계에서 반드시 주파수 도메인과 시간 도메인을 모두 표현해야 하는 것은 아니다. 제1820단계에서는 FFT(Fast Fourier Transform) 또는 MDCT(Modified Discrete Cosine Transform)와 같은 필터뱅크를 이용하여 제1810단계 또는 제1815단계에서 복호화된 저주파수 신호를 주파수 도메인으로만 변환할 수도 있다.
제1800단계에서 역다중화된 고주파수 신호의 노이즈-플로어 레벨을 복호화한다(제1825단계). 여기서, 노이즈-플로어 레벨은 복호화기에서 복원되는 고주파수 신호에 부가될 노이즈의 양을 말한다.
이러한 노이즈-플로어 레벨은 신호의 스펙트럼에서 최저 포인트들에 의해 결정되는 스펙트럴 포락선(spectral envelope)과 신호의 스펙트럼에서 최고 포인트들에 의해 결정되는 스펙트럴 포락선 사이의 차이값으로 계산될 수 있다.
또한, 노이즈-플로어 레벨은 고주파수 신호의 토널리티(tonality)와 고주파수 신호를 부호화하는 데 이용되는 기 설정된 주파수 보다 작은 영역에 마련된 저주파수 신호의 토널리티를 비교하여 노이즈-플로어 레벨을 계산될 수도 있다. 이러한 방식으로 노이즈-플로어 레벨을 계산할 경우, 저주파수 신호의 토널리티가 고주파수 신호의 토널리티 보다 클수록 복호화기에서 고주파수 신호에 노이즈를 많이 부가하도록 노이즈-플로어 레벨을 계산된다.
제1825단계 후에, 저주파수 신호가 CELP에 의해 복호화하는 방식 및 주파수 도메인에서 복호화하는 방식 가운데 어떤 방식으로 복호화되었는지 여부를 판단한다(제1830단계).
제1830단계에서 저주파수 신호가 CELP에 의해 복호화되었다고 판단되면, 제1810단계에서 복호화된 저주파수 신호의 보이싱 레벨(voicing level)을 계산한다(제1835단계). 여기서, 보이싱 레벨은 신호에 포함된 유성음 또는 무성음의 정도를 말한다. 다시 말하면, 보이싱 레벨은 신호가 유성음 또는 무성음에 가까운 정도를 말한다. 이하에서는 보이싱 레벨은 신호가 유성음에 가까운 정보라고 가정하고 실시예를 설명하기로 한다.
제1835단계에서는 제1810단계에서 복호화하는 과정에서 복호화된 피치 상관도(pitch correlation) 또는 피치 예측 이득값(pitch prediction gain)을 이용하여 보이싱 레벨을 계산할 수 있다. 제1835단계에서는 피치 상관도 또는 피치 이득값 등을 입력받아 신호에 포함된 유성음의 정도를 0 내지 1 사이로 정규화하여 보이싱 레벨을 계산할 수 있다. 예를 들어, 제1835단계는 개루프 피치 상관도(open loop pitch correlation)를 이용하여 다음 기재된 수학식 11에 의해 보이싱 레벨을 계산할 수 있다.
[수학식 11]
VoicingLevel=1/(OpenLoopPitchCorrelation)
여기서, 'VoicingLevel'은 제1835단계에서 계산된 보이싱 레벨이고, 'OpenLoopPitchCorrelation'은 개루프 피치 상관도를 말한다.
제1835단계에서 계산된 보이싱 레벨을 이용하여 제1825단계에서 복호화된 노이즈-플로어 레벨을 갱신한다(제1840단계). 보다 상세하게 설명하면, 제1840단계에서는 제1835단계에서 계산된 보이싱 레벨이 유성음의 정도가 높다고 나타낼수록 제1825단계에서 복호화된 노이즈-플로어 레벨을 감소시키고, 제1840단계에서 계산된 보이싱 레벨이 무성음의 정도가 높다고 나타낼수록 제1835단계에서 계산된 노이즈-플로어 레벨을 조절하지 않는다. 예를 들어, 제1835단계에서는 다음 기재된 수학식 12에 의해 제1835단계에서 계산된 보이싱 레벨을 이용하여 제1840단계에서 복호화된 노이즈-플로어 레벨을 갱신한다.
[수학식 12]
NewNoiseFloorLevel=NoiseFoorLevel*(1-VoicingLevel/2)
여기서, 'NewNoiseFloorLevel'은 제1840단계에서 갱신된 노이즈-플로어 레벨이고, 'NoiseFloorLevel'은 제1825단계에서 복호화된 노이즈-플로어 레벨이며, 'VoicingLevel'은 제1835단계에서 유성음에 가까운 정규화된 정도가 계산된 보이싱 레벨을 말한다.
기 설정된 임의의 방식으로 랜덤 노이즈 신호(random noise signal)를 생성하고, 제1825단계에서 계산되거나 제1840단계에서 갱신된 노이즈-플로어 레벨에 따라 랜덤 노이즈 신호를 조절한다(제1845단계).
제1810단계 도는 제1815단계 복호화된 저주파수 신호를 이용하여 고주파수 신호를 생성한다(제1850단계). 제1850단계에서는 복호화기에서 복호화된 저주파수 신호를 기 설정된 주파수 보다 큰 영역인 고주파수 영역에 그대로 복사하거나 기 설정된 주파수를 기준으로 폴딩(folding)하여 생성함으로써 고주파수 신호를 생성한다.
제1800단계에서 역다중화된 고주파수 신호의 포락선을 표현할 수 있는 파라미터를 복호화하여 제1850단계에서 생성된 고주파수 신호의 포락선을 조절한다(제1855단계).
제1855단계에서 조절된 고주파수 신호에 제1845단계에서 조절된 랜덤 노이즈 신호를 부가한다(제1860단계).
제1820단계에서 수행하는 변환의 역과정으로 필터뱅크 합성(filterbank synthesis)를 수행함으로써 제1810단계 또는 제1815단계에서 복호화된 저주파수 신호와 제1860단계에서 랜덤 노이즈 신호가 부가된 고주파수 신호를 합성하여 시간 도메인으로 역변환한다(제1865단계). 제1865단계에서는 역변환함으로써 모든 주파수 대역에 대해 오디오 신호를 복원한다. 제1865단계에서는 QMF와 같이 주파수 도메인과 시간 도메인으로 동시에 표현된 신호를 시간 도메인으로 역변환하는 필터뱅크를 사용하여 구현할 수 있다. 또한, 제1865단계에서는 IFFT 또는 IMDCT와 같은 필터뱅크를 이용하여 주파수 도메인으로만 표현된 신호를 시간 도메인으로 역변환할 수도 있다.
이러한 본 발명에 대한 이해를 돕기 위하여 도면에 도시된 실시예를 참고로 설명되었으나, 이는 예시적인 것에 불과하며, 당해 분야에서 통상적 지식을 가진 자라면 이로부터 다양한 변형 및 균등한 타 실시예가 가능하다는 점을 이해할 것이 다. 따라서, 본 발명의 진정한 기술적 보호 범위는 첨부된 특허청구범위에 의해 정해져야 할 것이다.
또한, 본 발명은 컴퓨터로 읽을 수 있는 기록 매체에 컴퓨터(정보 처리 기능을 갖는 장치를 모두 포함한다)가 읽을 수 있는 코드로서 구현하는 것이 가능하다. 컴퓨터가 읽을 수 있는 기록 매체는 컴퓨터 시스템에 의하여 읽혀질 수 있는 데이터가 저장되는 모든 종류의 기록 장치를 포함한다. 컴퓨터가 읽을 수 있는 기록 장치의 예로는 ROM, RAM, CD-ROM, 자기 테이프, 플로피 디스크, 광데이터 저장 장치 등이 있다.
도 1은 본 발명에 의한 고주파수 신호 부호화 장치에 대한 일 실시예를 블록도로 도시한 것이다.
도 2는 본 발명에 의한 고주파수 신호 부호화 장치의 실시예를 적용하여 오디오 신호를 부호화하는 장치에 대한 일 실시예를 블록도로 도시한 것이다.
도 3은 본 발명에 의한 고주파수 신호 부호화 장치의 실시예를 적용하여 오디오 신호를 부호화하는 장치에 대한 일 실시예를 블록도로 도시한 것이다.
도 4는 본 발명에 의한 고주파수 신호 부호화 장치의 실시예를 적용하여 오디오 신호를 부호화하는 장치에 대한 일 실시예를 블록도로 도시한 것이다.
도 5는 본 발명에 의한 고주파수 신호 부호화 장치의 실시예를 적용하여 오디오 신호를 부호화하는 장치에 대한 일 실시예를 블록도로 도시한 것이다.
도 6은 본 발명에 의한 고주파수 신호 복호화 장치에 대한 일 실시예를 블록도로 도시한 것이다.
도 7은 본 발명에 의한 고주파수 신호 복호화 장치의 실시예를 적용하여 오디오 신호를 복호화하는 장치에 대한 일 실시예를 블록도로 도시한 것이다.
도 8은 본 발명에 의한 고주파수 신호 복호화 장치의 실시예를 적용하여 오디오 신호를 복호화하는 장치에 대한 일 실시예를 블록도로 도시한 것이다.
도 9는 본 발명에 의한 고주파수 신호 복호화 장치의 실시예를 적용하여 오디오 신호를 복호화하는 장치에 대한 일 실시예를 블록도로 도시한 것이다.
도 10은 본 발명에 의한 고주파수 신호 부호화 방법에 대한 일 실시예를 흐 름도로 도시한 것이다.
도 11는 본 발명에 의한 고주파수 신호 부호화 방법의 실시예를 적용하여 오디오 신호를 부호화하는 방법에 대한 일 실시예를 흐름도로 도시한 것이다.
도 12는 본 발명에 의한 고주파수 신호 부호화 방법의 실시예를 적용하여 오디오 신호를 부호화하는 방법에 대한 일 실시예를 흐름도로 도시한 것이다.
도 13은 본 발명에 의한 고주파수 신호 부호화 방법의 실시예를 적용하여 오디오 신호를 부호화하는 방법에 대한 일 실시예를 흐름도로 도시한 것이다.
도 14는 본 발명에 의한 고주파수 신호 부호화 방법의 실시예를 적용하여 오디오 신호를 부호화하는 방법에 대한 일 실시예를 흐름도로 도시한 것이다.
도 15는 본 발명에 의한 고주파수 신호 복호화 방법에 대한 일 실시예를 흐름도로 도시한 것이다.
도 16은 본 발명에 의한 고주파수 신호 복호화 방법의 실시예를 적용하여 오디오 신호를 복호화하는 방법에 대한 일 실시예를 흐름도로 도시한 것이다.
도 17은 본 발명에 의한 고주파수 신호 복호화 방법의 실시예를 적용하여 오디오 신호를 복호화하는 방법에 대한 일 실시예를 흐름도로 도시한 것이다.
도 18은 본 발명에 의한 고주파수 신호 복호화 방법의 실시예를 적용하여 오디오 신호를 복호화하는 방법에 대한 일 실시예를 흐름도로 도시한 것이다.
〈도면의 주요 부호에 대한 간단한 설명〉
100: 노이즈-플로어 레벨 계산부 110: 보이싱 레벨 계산부
120: 노이즈-플로어 레벨 갱신부

Claims (21)

  1. 기 설정된 주파수 보다 큰 영역에 마련된 고주파수 신호의 노이즈-플로어 레벨(noise-floor level)을 계산하는 단계; 및
    상기 고주파수 신호에 포함된 유성음 또는 무성음의 정도를 계산하여 상기 계산된 노이즈-플로어 레벨을 갱신하는 단계; 및
    상기 갱신된 노이즈-플로어 레벨을 부호화하는 단계를 포함하는 것을 특징으로 하는 고주파수 신호 부호화 방법.
  2. 제1항에 있어서, 상기 갱신하는 단계는
    상기 고주파수 신호에 유성음의 정도가 높을수록 상기 계산된 노이즈-플로어 레벨을 감소시키는 것을 특징으로 하는 고주파수 신호 부호화 방법.
  3. 제1항에 있어서, 상기 갱신하는 단계는
    피치 상관도(pitch correlation) 또는 피치 예측 이득값(pitch prediction gain)을 이용하여 상기 고주파수 신호에 포함된 유성음 또는 무성음의 정도를 계산하는 것을 특징으로 하는 고주파수 신호 부호화 방법.
  4. 제1항에 있어서, 상기 계산하는 단계는
    상기 고주파수 신호를 복호화하는 데 이용되는 기 설정된 주파수 보다 작은 영역에 마련된 저주파수 신호의 토널리티(tonality)와 원 신호의 토널리티를 비교하여 노이즈-플로어 레벨을 계산하는 것을 특징으로 하는 고주파수 신호 부호화 방법.
  5. 제1항에 있어서, 상기 노이즈-플로어 레벨은
    신호의 스펙트럼에서 최저 포인트들에 의해 결정되는 스펙트럴 포락선(spectral envelope)과 신호의 스펙트럼에서 최고 포인트들에 의해 결정되는 스펙트럴 포락선 사이의 차이값인 것을 특징으로 하는 고주파수 신호 부호화 방법.
  6. 기 설정된 주파수 보다 큰 영역에 마련된 고주파수 신호의 노이즈-플로어 레벨을 복호화하는 단계;
    기 설정된 주파수 보다 작은 영역에 마련된 저주파수 신호에 포함된 유성음 또는 무성음의 정도를 계산하여 상기 복호화된 노이즈-플로어 레벨을 갱신하는 단계; 및
    상기 갱신된 노이즈-플로어 레벨에 따라 노이즈 신호를 생성하는 단계를 포함하는 것을 특징으로 하는 고주파수 신호 복호화 방법.
  7. 제6항에 있어서, 상기 갱신하는 단계는
    상기 저주파수 신호에 유성음의 정도가 높을수록 상기 복호화된 노이즈-플로어 레벨을 감소시키는 것을 특징으로 하는 고주파수 신호 복호화 방법.
  8. 제6항에 있어서, 상기 갱신하는 단계는
    피치 상관도 또는 피치 예측 이득값을 이용하여 상기 저주파수 신호에 포함된 유성음 또는 무성음의 정도를 계산하는 것을 특징으로 하는 고주파수 신호 복호화 방법.
  9. 제6항에 있어서, 상기 노이즈-플로어 레벨은
    고주파수 신호를 복호화하는 데 이용되는 저주파수 신호의 토널리티와 원 신호의 토널리티를 비교하여 계산된 것을 특징으로 하는 고주파수 신호 복호화 방법.
  10. 제6항에 있어서, 상기 노이즈-플로어 레벨은
    신호의 스펙트럼에서 최저 포인트들에 의해 결정되는 스펙트럴 포락선과 신호의 스펙트럼에서 최고 포인트들에 의해 결정되는 스펙트럴 포락선 사이의 차이값인 것을 특징으로 하는 고주파수 신호 복호화 방법.
  11. 기 설정된 주파수 보다 큰 영역에 마련된 고주파수 신호의 노이즈-플로어 레벨을 계산하는 단계; 및
    상기 고주파수 신호에 포함된 유성음 또는 무성음의 정도를 계산하여 상기 계산된 노이즈-플로어 레벨을 갱신하는 단계; 및
    상기 갱신된 노이즈-플로어 레벨을 부호화하는 단계를 포함한 발명을 컴퓨터 에서 실행시키기 위한 프로그램을 기록한 컴퓨터로 읽을 수 있는 기록 매체.
  12. 기 설정된 주파수 보다 큰 영역에 마련된 고주파수 신호의 노이즈-플로어 레벨을 계산하는 계산부; 및
    상기 고주파수 신호에 포함된 유성음 또는 무성음의 정도를 계산하여 상기 계산된 노이즈-플로어 레벨을 갱신하는 갱신부; 및
    상기 갱신된 노이즈-플로어 레벨을 부호화하는 부호화부를 포함하는 것을 특징으로 하는 고주파수 신호 부호화 장치.
  13. 제12항에 있어서, 상기 갱신부는
    상기 고주파수 신호에 유성음의 정도가 높을수록 상기 계산된 노이즈-플로어 레벨을 감소시키는 것을 특징으로 하는 고주파수 신호 부호화 장치.
  14. 제12항에 있어서, 상기 갱신부는
    피치 상관도 또는 피치 예측 이득값을 이용하여 고주파수 신호에 포함된 유성음 또는 무성음의 정도를 계산하는 것을 특징으로 하는 고주파수 신호 부호화 장치.
  15. 제12항에 있어서, 상기 계산부는
    고주파수 신호를 복호화하는 데 이용되는 기 설정된 주파수 보다 작은 영역 에 마련된 저주파수 신호의 토널리티와 원 신호의 토널리티를 비교하여 노이즈-플로어 레벨을 계산하는 것을 특징으로 하는 고주파수 신호 부호화 장치.
  16. 제12항에 있어서, 상기 노이즈-플로어 레벨은
    신호의 스펙트럼에서 최저 포인트들에 의해 결정되는 스펙트럴 포락선과 신호의 스펙트럼에서 최고 포인트들에 의해 결정되는 스펙트럴 포락선 사이의 차이값인 것을 특징으로 하는 고주파수 신호 부호화 장치.
  17. 기 설정된 주파수 보다 큰 영역에 마련된 고주파수 신호의 노이즈-플로어 레벨을 복호화하는 복호화부;
    기 설정된 주파수 보다 작은 영역에 마련된 저주파수 신호에 포함된 유성음 또는 무성음의 정도를 계산하여 상기 복호화된 노이즈-플로어 레벨을 갱신하는 갱신부; 및
    상기 갱신된 노이즈-플로어 레벨에 따라 노이즈 신호를 생성하는 노이즈 생성부를 포함하는 것을 특징으로 하는 고주파수 신호 복호화 장치.
  18. 제17항에 있어서, 상기 갱신부는
    상기 저주파수 신호에 유성음의 정도가 높을수록 상기 복호화된 노이즈-플로어 레벨을 감소시키는 것을 특징으로 하는 고주파수 신호 복호화 장치.
  19. 제17항에 있어서, 상기 갱신부는
    피치 상관도 또는 피치 예측 이득값을 이용하여 상기 저주파수 신호에 포함된 유성음 또는 무성음의 정도를 계산하는 것을 특징으로 하는 고주파수 신호 복호화 장치.
  20. 제17항에 있어서, 상기 노이즈-플로어 레벨은
    고주파수 신호를 복호화하는 데 이용되는 저주파수 신호의 토널리티와 원 신호의 토널리티를 비교하여 계산된 것을 특징으로 하는 고주파수 신호 복호화 장치.
  21. 제17항에 있어서, 상기 노이즈-플로어 레벨은
    신호의 스펙트럼에서 최저 포인트들에 의해 결정되는 스펙트럴 포락선과 신호의 스펙트럼에서 최고 포인트들에 의해 결정되는 스펙트럴 포락선 사이의 차이값인 것을 특징으로 하는 고주파수 신호 복호화 장치.
KR1020070109823A 2007-10-30 2007-10-30 고주파수 신호 부호화 및 복호화 장치 및 방법 KR101373004B1 (ko)

Priority Applications (6)

Application Number Priority Date Filing Date Title
KR1020070109823A KR101373004B1 (ko) 2007-10-30 2007-10-30 고주파수 신호 부호화 및 복호화 장치 및 방법
US12/256,704 US8321229B2 (en) 2007-10-30 2008-10-23 Apparatus, medium and method to encode and decode high frequency signal
EP08167938A EP2056294B1 (en) 2007-10-30 2008-10-30 Apparatus, Medium and Method to Encode and Decode High Frequency Signal
US13/684,879 US9177569B2 (en) 2007-10-30 2012-11-26 Apparatus, medium and method to encode and decode high frequency signal
US14/879,853 US9818429B2 (en) 2007-10-30 2015-10-09 Apparatus, medium and method to encode and decode high frequency signal
US15/810,636 US10255928B2 (en) 2007-10-30 2017-11-13 Apparatus, medium and method to encode and decode high frequency signal

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020070109823A KR101373004B1 (ko) 2007-10-30 2007-10-30 고주파수 신호 부호화 및 복호화 장치 및 방법

Publications (2)

Publication Number Publication Date
KR20090043983A KR20090043983A (ko) 2009-05-07
KR101373004B1 true KR101373004B1 (ko) 2014-03-26

Family

ID=40227557

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020070109823A KR101373004B1 (ko) 2007-10-30 2007-10-30 고주파수 신호 부호화 및 복호화 장치 및 방법

Country Status (3)

Country Link
US (1) US8321229B2 (ko)
EP (1) EP2056294B1 (ko)
KR (1) KR101373004B1 (ko)

Families Citing this family (34)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101434198B1 (ko) * 2006-11-17 2014-08-26 삼성전자주식회사 신호 복호화 방법
KR101505831B1 (ko) * 2007-10-30 2015-03-26 삼성전자주식회사 멀티 채널 신호의 부호화/복호화 방법 및 장치
KR100970446B1 (ko) * 2007-11-21 2010-07-16 한국전자통신연구원 주파수 확장을 위한 가변 잡음레벨 결정 장치 및 그 방법
EP2352147B9 (en) * 2008-07-11 2014-04-23 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. An apparatus and a method for encoding an audio signal
JP5551694B2 (ja) * 2008-07-11 2014-07-16 フラウンホッファー−ゲゼルシャフト ツァ フェルダールング デァ アンゲヴァンテン フォアシュンク エー.ファオ 多くのスペクトルエンベロープを計算するための装置および方法
JP5754899B2 (ja) 2009-10-07 2015-07-29 ソニー株式会社 復号装置および方法、並びにプログラム
ES2906085T3 (es) * 2009-10-21 2022-04-13 Dolby Int Ab Sobremuestreo en un banco de filtros de reemisor combinado
JP5850216B2 (ja) 2010-04-13 2016-02-03 ソニー株式会社 信号処理装置および方法、符号化装置および方法、復号装置および方法、並びにプログラム
JP5609737B2 (ja) 2010-04-13 2014-10-22 ソニー株式会社 信号処理装置および方法、符号化装置および方法、復号装置および方法、並びにプログラム
US8560330B2 (en) * 2010-07-19 2013-10-15 Futurewei Technologies, Inc. Energy envelope perceptual correction for high band coding
JP6075743B2 (ja) 2010-08-03 2017-02-08 ソニー株式会社 信号処理装置および方法、並びにプログラム
MY156027A (en) 2010-08-12 2015-12-31 Fraunhofer Ges Forschung Resampling output signals of qmf based audio codecs
KR101826331B1 (ko) * 2010-09-15 2018-03-22 삼성전자주식회사 고주파수 대역폭 확장을 위한 부호화/복호화 장치 및 방법
JP5707842B2 (ja) 2010-10-15 2015-04-30 ソニー株式会社 符号化装置および方法、復号装置および方法、並びにプログラム
US8868432B2 (en) * 2010-10-15 2014-10-21 Motorola Mobility Llc Audio signal bandwidth extension in CELP-based speech coder
US8924200B2 (en) * 2010-10-15 2014-12-30 Motorola Mobility Llc Audio signal bandwidth extension in CELP-based speech coder
KR20120064582A (ko) * 2010-12-09 2012-06-19 한국전자통신연구원 멀티미디어 컨텐츠 검색 방법 및 장치
ES2967508T3 (es) 2010-12-29 2024-04-30 Samsung Electronics Co Ltd Aparato y procedimiento de codificación de extensión de ancho de banda de alta frecuencia
WO2012103686A1 (en) * 2011-02-01 2012-08-09 Huawei Technologies Co., Ltd. Method and apparatus for providing signal processing coefficients
SG192748A1 (en) 2011-02-14 2013-09-30 Fraunhofer Ges Forschung Linear prediction based coding scheme using spectral domain noise shaping
WO2012110478A1 (en) 2011-02-14 2012-08-23 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Information signal representation using lapped transform
TWI469136B (zh) * 2011-02-14 2015-01-11 Fraunhofer Ges Forschung 在一頻譜域中用以處理已解碼音訊信號之裝置及方法
CA2827266C (en) 2011-02-14 2017-02-28 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Apparatus and method for coding a portion of an audio signal using a transient detection and a quality result
MX2013009301A (es) 2011-02-14 2013-12-06 Fraunhofer Ges Forschung Aparato y metodo para ocultamiento de error en voz unificada con bajo retardo y codificacion de audio.
WO2012110416A1 (en) 2011-02-14 2012-08-23 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Encoding and decoding of pulse positions of tracks of an audio signal
CN103035248B (zh) 2011-10-08 2015-01-21 华为技术有限公司 音频信号编码方法和装置
CN103928029B (zh) 2013-01-11 2017-02-08 华为技术有限公司 音频信号编码和解码方法、音频信号编码和解码装置
JP6179122B2 (ja) * 2013-02-20 2017-08-16 富士通株式会社 オーディオ符号化装置、オーディオ符号化方法、オーディオ符号化プログラム
RU2740690C2 (ru) * 2013-04-05 2021-01-19 Долби Интернешнл Аб Звуковые кодирующее устройство и декодирующее устройство
FR3008533A1 (fr) 2013-07-12 2015-01-16 Orange Facteur d'echelle optimise pour l'extension de bande de frequence dans un decodeur de signaux audiofrequences
EP2830061A1 (en) 2013-07-22 2015-01-28 Fraunhofer Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for encoding and decoding an encoded audio signal using temporal noise/patch shaping
JP6531649B2 (ja) 2013-09-19 2019-06-19 ソニー株式会社 符号化装置および方法、復号化装置および方法、並びにプログラム
JP6593173B2 (ja) 2013-12-27 2019-10-23 ソニー株式会社 復号化装置および方法、並びにプログラム
US10650834B2 (en) * 2018-01-10 2020-05-12 Savitech Corp. Audio processing method and non-transitory computer readable medium

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2000045379A2 (en) 1999-01-27 2000-08-03 Coding Technologies Sweden Ab Enhancing perceptual performance of sbr and related hfr coding methods by adaptive noise-floor addition and noise substitution limiting
WO2003046891A1 (en) 2001-11-29 2003-06-05 Coding Technologies Ab Methods for improving high frequency reconstruction

Family Cites Families (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CA2032765C (en) * 1989-12-21 1995-12-12 Hidetaka Yoshikawa Variable rate encoding and communicating apparatus
SE0004163D0 (sv) * 2000-11-14 2000-11-14 Coding Technologies Sweden Ab Enhancing perceptual performance of high frequency reconstruction coding methods by adaptive filtering
US6895375B2 (en) * 2001-10-04 2005-05-17 At&T Corp. System for bandwidth extension of Narrow-band speech
US20040138876A1 (en) 2003-01-10 2004-07-15 Nokia Corporation Method and apparatus for artificial bandwidth expansion in speech processing
KR100608062B1 (ko) * 2004-08-04 2006-08-02 삼성전자주식회사 오디오 데이터의 고주파수 복원 방법 및 그 장치
JP4967618B2 (ja) * 2006-11-24 2012-07-04 富士通株式会社 復号化装置および復号化方法
JP5103880B2 (ja) * 2006-11-24 2012-12-19 富士通株式会社 復号化装置および復号化方法
JP4984983B2 (ja) * 2007-03-09 2012-07-25 富士通株式会社 符号化装置および符号化方法
US8015368B2 (en) * 2007-04-20 2011-09-06 Siport, Inc. Processor extensions for accelerating spectral band replication

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2000045379A2 (en) 1999-01-27 2000-08-03 Coding Technologies Sweden Ab Enhancing perceptual performance of sbr and related hfr coding methods by adaptive noise-floor addition and noise substitution limiting
JP2002536679A (ja) 1999-01-27 2002-10-29 コーディング テクノロジーズ スウェーデン アクチボラゲット 情報源符号化システムの性能向上方法と装置
WO2003046891A1 (en) 2001-11-29 2003-06-05 Coding Technologies Ab Methods for improving high frequency reconstruction

Also Published As

Publication number Publication date
KR20090043983A (ko) 2009-05-07
EP2056294A3 (en) 2010-02-17
EP2056294B1 (en) 2011-08-31
EP2056294A2 (en) 2009-05-06
US8321229B2 (en) 2012-11-27
US20090110208A1 (en) 2009-04-30

Similar Documents

Publication Publication Date Title
KR101373004B1 (ko) 고주파수 신호 부호화 및 복호화 장치 및 방법
KR101747918B1 (ko) 고주파수 신호 복호화 방법 및 장치
EP2301027B1 (en) An apparatus and a method for generating bandwidth extension output data
JP2022123060A (ja) 符号化オーディオ信号を復号する復号装置および復号方法
JP6170520B2 (ja) オーディオ及び/またはスピーチ信号符号化及び/または復号化方法及び装置
US10255928B2 (en) Apparatus, medium and method to encode and decode high frequency signal
AU2013257391B2 (en) An apparatus and a method for generating bandwidth extension output data

Legal Events

Date Code Title Description
A201 Request for examination
E701 Decision to grant or registration of patent right
GRNT Written decision to grant
FPAY Annual fee payment

Payment date: 20190227

Year of fee payment: 6