KR101373004B1 - 고주파수 신호 부호화 및 복호화 장치 및 방법 - Google Patents
고주파수 신호 부호화 및 복호화 장치 및 방법 Download PDFInfo
- Publication number
- KR101373004B1 KR101373004B1 KR1020070109823A KR20070109823A KR101373004B1 KR 101373004 B1 KR101373004 B1 KR 101373004B1 KR 1020070109823 A KR1020070109823 A KR 1020070109823A KR 20070109823 A KR20070109823 A KR 20070109823A KR 101373004 B1 KR101373004 B1 KR 101373004B1
- Authority
- KR
- South Korea
- Prior art keywords
- frequency signal
- noise
- signal
- high frequency
- floor level
- Prior art date
Links
- 238000000034 method Methods 0.000 title claims abstract description 168
- 230000003595 spectral effect Effects 0.000 claims description 22
- 238000001228 spectrum Methods 0.000 claims description 20
- 238000004364 calculation method Methods 0.000 claims description 3
- 230000005236 sound signal Effects 0.000 abstract description 81
- 238000005070 sampling Methods 0.000 description 61
- 230000015572 biosynthetic process Effects 0.000 description 27
- 238000003786 synthesis reaction Methods 0.000 description 27
- 238000004458 analytical method Methods 0.000 description 22
- 230000003044 adaptive effect Effects 0.000 description 18
- 238000010586 diagram Methods 0.000 description 18
- 238000005516 engineering process Methods 0.000 description 5
- 230000009466 transformation Effects 0.000 description 5
- 238000006243 chemical reaction Methods 0.000 description 3
- 230000003247 decreasing effect Effects 0.000 description 3
- 239000000284 extract Substances 0.000 description 3
- 230000010076 replication Effects 0.000 description 3
- 230000006870 function Effects 0.000 description 2
- 238000013139 quantization Methods 0.000 description 2
- 230000001131 transforming effect Effects 0.000 description 2
- 230000002087 whitening effect Effects 0.000 description 2
- 238000013500 data storage Methods 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 230000010365 information processing Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/93—Discriminating between voiced and unvoiced parts of speech signals
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/06—Determination or coding of the spectral characteristics, e.g. of the short-term prediction coefficients
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/08—Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters
- G10L19/12—Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters the excitation function being a code excitation, e.g. in code excited linear prediction [CELP] vocoders
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/038—Speech enhancement, e.g. noise reduction or echo cancellation using band spreading techniques
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Quality & Reliability (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
Abstract
본 발명은 오디오 신호를 부호화하거나 복호화하는 방법 및 장치에 관한 것으로, 고주파수 신호를 부호화하거나 복호화하는데 이용되는 노이즈-플로어 레벨(noise-floor level)을 신호에 포함된 유성음 또는 무성음의 정도에 따라 갱신하여 부호화하거나 복호화한다.
Description
본 발명은 오디오 신호를 부호화하거나 복호화하는 방법 및 장치에 관한 것으로, 보다 상세하게는 기 설정된 주파수 보다 큰 영역에 마련된 고주파수 신호를 부호화하거나 복호화하는 장치 및 방법에 관한 것이다.
음성 신호(speech signal) 또는 음악 신호(music signal) 등과 같은 오디오 신호를 소정의 주파수를 기준으로 분할하여 소정의 주파수 보다 작은 영역에 마련된 저주파수 신호와 소정의 주파수 보다 큰 영역에 마련된 고주파수 신호로 분류할 수 있다. 고주파수 신호는 저주파수 신호에 비하여 인간의 청각 특성상 인지하는 데 상대적으로 중요하지 않기 때문에 오디오 신호를 부호화함에 있어서 적은 비트만 할당하는 것이 일반적이다. 이러한 개념을 이용하여 오디오 신호를 부호화/복호화하는 기술의 예로 SBR(Spectral Band Replication)이 있다. SBR은 부호화기에서 저주파수 신호를 이용하여 고주파수 신호를 부호화하고 복호화기에서 복호화된 저주파수 신호를 이용하여 고주파수 신호를 복호화한다. 만일 단순히 저주파수 신호를 이용하여 고주파수 신호를 동일하게 생성하여 복호화할 경우 원 신호의 고주 파수 신호와 신호 특성의 차이가 발생하여 음질이 크게 저하된다.
그러므로 SBR에서 적응적 화이트닝 필터(adaptive whitening filter) 또는 노이즈-플로어(noise-floor)를 이용함으로써 원 신호와 복원된 고주파수 신호 사이에 발생하는 신호 특성의 차이를 감소시킨다. 첫째, 적응적 화이트닝 필터는 복원될 고주파수 신호가 토널(tonal)하지만 노이즈 성향이 강할 경우 역-필터링(inverse-filtering)을 적용하여 고주파수 신호의 노이즈 성향을 변경한다. 둘째, 노이즈-플로어는 복원될 고주파수 신호와 원 신호 사이의 토널리티(tonality) 차이를 감소시키기 위하여 노이즈를 부가한다.
본 발명이 이루고자 하는 기술적 과제는, 기 설정된 주파수 보다 큰 영역에 마련된 고주파수 신호를 부호화하거나 복호화하는 방법 및 장치를 제공하는 것이다.
상기의 과제를 이루기 위한 본 발명에 의한 고주파수 신호 부호화 방법은, 기 설정된 주파수 보다 큰 영역에 마련된 고주파수 신호의 노이즈-플로어 레벨(noise-floor level)을 계산하는 단계; 상기 고주파수 신호에 포함된 유성음 또는 무성음의 정도를 계산하여 상기 계산된 노이즈-플로어 레벨을 갱신하는 단계; 및 상기 갱신된 노이즈-플로어 레벨을 부호화하는 단계를 포함하는 것을 특징으로 한다.
상기의 과제를 이루기 위한 본 발명에 의한 고주파수 신호 복호화 방법은, 기 설정된 주파수 보다 큰 주파수 영역에 마련된 고주파수 신호의 노이즈-플로어 레벨을 복호화하는 단계; 기 설정된 주파수 보다 작은 영역에 마련된 저주파수 신호에 포함된 유성음 또는 무성음의 정도를 계산하여 상기 복호화된 노이즈-플로어 레벨을 갱신하는 단계; 및 상기 갱신된 노이즈-플로어 레벨에 따라 노이즈 신호를 생성하는 단계를 포함하는 것을 특징으로 한다.
상기의 과제를 이루기 위한 본 발명에 의한 기록 매체는, 기 설정된 주파수 보다 큰 영역에 마련된 고주파수 신호의 노이즈-플로어 레벨을 계산하는 단계; 상기 고주파수 신호에 포함된 유성음 또는 무성음의 정도를 계산하여 상기 계산된 노이즈-플로어 레벨을 갱신하는 단계; 및 상기 갱신된 노이즈-플로어 레벨을 부호화 하는 단계를 포함한 발명을 컴퓨터에서 실행시키기 위한 프로그램을 기록한 컴퓨터로 읽을 수 있다.
상기의 과제를 이루기 위한 본 발명에 의한 고주파수 신호 부호화 장치는, 기 설정된 주파수 보다 큰 영역에 마련된 고주파수 신호의 노이즈-플로어 레벨을 계산하는 계산부; 및 상기 고주파수 신호에 포함된 유성음 또는 무성음의 정도를 계산하여 상기 계산된 노이즈-플로어 레벨을 갱신하는 갱신부; 및 상기 갱신된 노이즈-플로어 레벨을 부호화하는 부호화부를 포함하는 것을 특징으로 한다.
상기의 과제를 이루기 위한 본 발명에 의한 고주파수 신호 복호화 장치는, 기 설정된 주파수 보다 큰 영역에 마련된 고주파수 신호의 노이즈-플로어 레벨을 복호화하는 복호화부; 기 설정된 주파수 보다 작은 영역에 마련된 저주파수 신호에 포함된 유성음 또는 무성음의 정도를 계산하여 상기 복호화된 노이즈-플로어 레벨을 갱신하는 갱신부; 및 상기 갱신된 노이즈-플로어 레벨에 따라 노이즈 신호를 생성하는 노이즈 생성부를 포함하는 것을 특징으로 한다.
이하, 첨부된 도면들을 참조하여 본 발명에 따른 고주파수 신호 부호화 및 복호화 장치 및 방법의 실시예에 대해 상세히 설명한다.
부호화 장치
도 1은 본 발명에 의한 고주파수 신호 부호화 장치에 대한 일 실시예를 블록도로 도시한 것으로서, 고주파수 신호 부호화 장치는 노이즈-플로어 레벨 계산부(100), 보이싱 레벨 계산부(110) 및 노이즈-플로어 레벨 갱신부(120)를 포함하여 이루어진다.
노이즈-플로어 레벨 계산부(100, noise-floor level calculating unit)는 기 설정된 주파수 보다 큰 영역에 마련된 고주파수 신호의 노이즈-플로어 레벨(noise-floor level)을 계산한다. 여기서, 노이즈-플로어 레벨은 복호화기에서 복원되는 고주파수 신호에 부가될 노이즈의 양을 말한다.
노이즈-플로어 레벨 계산부(100)에서는 노이즈-플로어 레벨을 신호의 스펙트럼에서 최저 포인트들에 의해 결정되는 스펙트럴 포락선(spectral envelope)과 신호의 스펙트럼에서 최고 포인트들에 의해 결정되는 스펙트럴 포락선 사이의 차이값으로 계산할 수 있다.
또한, 노이즈-플로어 레벨 계산부(100)에서는 노이즈-플로어 레벨을 고주파수 신호의 토널리티(tonality)와 고주파수 신호를 부호화하는 데 이용되는 기 설정된 주파수 보다 작은 영역에 마련된 저주파수 신호의 토널리티를 비교하여 노이즈-플로어 레벨을 계산할 수도 있다. 이러한 방식으로 노이즈-플로어 레벨 계산부(100)에서 노이즈-플로어 레벨을 계산할 경우, 저주파수 신호의 토널리티가 고주파수 신호의 토널리티 보다 클수록 복호화기에서 고주파수 신호에 노이즈를 많이 부가하도록 노이즈-플로어 레벨을 계산한다.
보이싱 레벨 계산부(110, voicing level calculating unit)는 저주파수 신호의 보이싱 레벨(voicing level)을 계산한다. 여기서, 보이싱 레벨은 신호에 포함된 유성음 또는 무성음의 정도를 말한다. 다시 말하면, 보이싱 레벨은 신호가 유성음 또는 무성음에 가까운 정도를 말한다. 이하에서는 보이싱 레벨은 신호가 유 성음에 가까운 정보라고 가정하고 실시예를 설명하기로 한다.
보이싱 레벨 계산부(110)에서는 피치 상관도(pitch correlation) 또는 피치 예측 이득값(pitch prediction gain)을 이용하여 보이싱 레벨을 계산할 수 있다. 보이싱 레벨 계산부(110)는 피치 상관도 또는 피치 이득값 등을 입력받아 신호에 포함된 유성음의 정도를 0 내지 1 사이로 정규화하여 보이싱 레벨을 계산할 수 있다. 예를 들어, 보이싱 레벨 계산부(110)는 개루프 피치 상관도(open loop pitch correlation)을 이용하여 다음 기재된 수학식 1에 의해 보이싱 레벨을 계산할 수 있다.
[수학식 1]
VoicingLevel=1/(OpenLoopPitchCorrelation)
여기서, 'VoicingLevel'은 보이싱 레벨 계산부(110)에서 계산된 보이싱 레벨이고, 'OpenLoopPitchCorrelation'은 개루프 피치 상관도를 말한다.
노이즈-플로어 레벨 갱신부(120)는 보이싱 레벨 계산부(110)에서 계산된 보이싱 레벨을 이용하여 노이즈-플로어 레벨 계산부(100)에서 계산된 노이즈-플로어 레벨을 갱신한다. 보다 상세하게 설명하면, 노이즈-플로어 레벨 갱신부(120)는 보이싱 레벨 계산부(110)에서 계산된 보이싱 레벨이 유성음의 정도가 높다고 나타낼수록 노이즈-플로어 레벨 계산부(100)에서 계산된 노이즈-플로어 레벨을 감소시키고, 보이싱 레벨 계산부(110)에서 계산된 보이싱 레벨이 무성음의 정도가 높다고 나타낼수록 노이즈-플로어 레벨 계산부(100)에서 계산된 노이즈-플로어 레벨을 조절하지 않는다. 예를 들어, 노이즈-플로어 레벨 갱신부(120)는 다음 기재된 수학 식 2에 의해 보이싱 레벨 계산부(110)에서 계산된 보이싱 레벨을 이용하여 노이즈-플로어 레벨 계산부(100)에서 계산된 노이즈-플로어 레벨을 갱신한다.
[수학식 2]
NewNoiseFloorLevel=NoiseFoorLevel*(1-VoicingLevel/2)
여기서, 'NewNoiseFloorLevel'은 노이즈-플로어 레벨 갱신부(120)에서 갱신된 노이즈-플로어 레벨이고, 'NoiseFloorLevel'은 노이즈-플로어 레벨 계산부(100)에서 계산된 노이즈-플로어 레벨이며, 'VoicingLevel'은 보이싱 레벨 계산부(110)에서 유성음에 가까운 정규화된 정도가 계산된 보이싱 레벨을 말한다.
음성 신호를 부호화하거나 복호화할 경우 기존의 SBR 기술에서 고주파수 신호를 복호화함에 있어서 과도하게 노이즈를 부가하므로 유성음 구간에서 잡음이 발생하게 되는 문제점을 갖는다. 다시 말해, 음성 신호는 특성상 유성음 구간이 저주파수 신호의 경우 토널(tonal)한 특성이 강하고 고주파수 신호의 경우 노이즈 성향이 강하기 때문에 기존의 SBR 기술에서는 노이즈를 상당히 많이 부가한다. 그러나 본 발명의 실시예에 따르면 노이즈-플로어 레벨 계산부(100)에서 계산된 노이즈-플로어 레벨을 노이즈-플로어 레벨 갱신부(120)에서 갱신함으로써 유성음 구간에서 잡음이 감소되는 효과를 갖는다.
노이즈-플로어 레벨 부호화부(130)는 노이즈-플로어 레벨 갱신부(120)에서 갱신된 노이즈-플로어 레벨을 부호화한다.
포락선 추출부(140)는 고주파수 신호의 포락선을 표현할 수 있는 파라미터를 추출한다. 예를 들어, 포락선 추출부(140)는 고주파수 신호의 각 서브-밴드(sub- band)별 에너지 값을 계산한다.
도 2는 본 발명에 의한 고주파수 신호 부호화 장치의 실시예를 적용하여 오디오 신호를 부호화하는 장치에 대한 일 실시예를 블록도로 도시한 것으로서, 상기 오디오 신호를 부호화하는 장치는 필터뱅크 분석부(200), 다운-샘플링부(210), CELP 부호화부(220), 고주파수신호 부호화부(230) 및 다중화부(240)를 포함하여 이루어진다.
필터뱅크 분석부(200)는 필터뱅크 분석(filterbank analysis)를 수행하여 입력단자 IN을 통해 입력된 음성(speech) 신호 또는 음악(music) 신호와 같은 오디오 신호를 주파수 도메인과 시간 도메인으로 동시에 표현할 수 있도록 변환한다. 필터뱅크 분석부(200)는 QMF(Quadrature Mirror Filterbank)와 같은 필터뱅크를 사용하여 구현할 수 있다. 그러나 필터뱅크 분석부(200)에서 반드시 주파수 도메인과 시간 도메인을 모두 표현해야 하는 것은 아니다. 필터뱅크 분석부(200)에서는 FFT(Fast Fourier Transform) 또는 MDCT(Modified Discrete Cosine Transform)와 같은 필터뱅크를 이용하여 오디오 신호를 주파수 도메인으로만 변환하여 실시할 수도 있다.
다운-샘플링부(210, down-sampling unit)는 입력단자 IN을 통해 입력된 오디오 신호를 기 설정된 샘플링 레이트(sampling rate)로 다운 샘플링(down-sampling)한다. 여기서, 기 설정된 샘플링 레이트는 CELP(Coded-Excited Linear Prediction) 방식에 의해 부호화하는 데 적합한 샘플링 레이트일 수 있다. 또한, 다운-샘플링부(210)에서 다운-샘플링함에 있어서, 기 설정된 주파수 보다 작은 신 호에서만 샘플링(sampling)함으로써 저주파수 신호만 샘플링할 수 있다.
CELP 부호화부(220)는 다운-샘플링부(210)에서 다운-샘플링된 저주파수 신호를 CELP 방식에 의해 부호화한다. 여기서, CELP 방식은 신호에서 음성을 분석하여 음성의 특징을 제거한 후 그 오차 신호를 코드북(codebook)에 의해 부호화하는 방식을 말한다. 그러나 CELP 부호화부(220)는 CELP 방식에 한정하여 실시해야 하는 것은 아니며 시간 도메인에서 오디오 신호를 부호화하는 모든 방식으로 실시할 수 있다.
고주파수신호 부호화부(230)는 필터뱅크 분석부(200)에서 변환된 신호 가운데 기 설정된 주파수 보다 큰 영역에 마련된 고주파수 신호를 SBR(Spectral Band Replication) 방식에 의해 저주파수 신호를 이용하여 부호화한다. 다시 말하면, 고주파수신호 부호화부(230)는 복호화기에서 복호화된 저주파수 신호를 기 설정된 주파수 보다 큰 영역에 그대로 복사하거나 기 설정된 주파수를 기준으로 폴딩(folding)하여 생성된 신호에 부가될 노이즈의 양인 노이즈-플로어 레벨을 부호화한다. 도 1에서 고주파수신호 부호화부(230)의 실시예에 해당하는 고주파수 신호 부호화 장치를 도시하고 있으며 그 상세한 설명은 전술하였다. 도 1에 도시된 고주파수 신호 부호화 장치의 실시예에서 입력단자 IN 1에는 도 2의 필터뱅크 분석부(200)에서 변환된 신호가 입력되며, 입력단자 IN 2에는 도 2의 다운-샘플링부(210)에서 다운-샘플링된 신호 또는 CELP 부호화부(220)에서 부호화하는 과정에서 생성되는 피치 상관도 또는 피치 예측 이득값 등과 같은 파라미터가 입력된다. 또한, 출력단자 OUT 1에서는 보이싱 레벨(voicing level)을 이용함으로써 갱신되어 부호화된 노이즈-플로어 레벨이 출력되고, 출력단자 OUT 2에서는 고주파수 신호의 포락선을 표현할 수 있는 파라미터가 출력된다.
다중화부(240)는 고주파수신호 부호화부(230)에서 갱신되어 부호화된 노이즈-플로어 레벨와 고주파수 신호의 포락선을 표현할 수 있는 파라미터 및 CELP 부호화부(220)에서 부호화된 결과를 포함하여 다중화함으로써 비트스트림을 생성하여 출력단자 OUT을 통해 출력한다.
도 3은 본 발명에 의한 고주파수 신호 부호화 장치의 실시예를 적용하여 오디오 신호를 부호화하는 장치에 대한 일 실시예를 블록도로 도시한 것으로서, 상기 오디오 신호를 부호화하는 장치는 필터뱅크 분석부(200), 다운-샘플링부(210), CELP 부호화부(220), 고주파수신호 부호화부(230) 및 다중화부(240)를 포함하여 이루어진다.
필터뱅크 분석부(300)는 필터뱅크 분석(filterbank analysis)를 수행하여 입력단자 IN을 통해 입력된 음성(speech) 신호 또는 음악(music) 신호와 같은 스테레오에 해당하는 오디오 신호를 주파수 도메인과 시간 도메인으로 동시에 표현할 수 있도록 변환한다. 필터뱅크 분석부(300)는 QMF(Quadrature Mirror Filterbank)와 같은 필터뱅크를 사용하여 구현할 수 있다. 그러나 필터뱅크 분석부(300)에서 반드시 주파수 도메인과 시간 도메인을 모두 표현해야 하는 것은 아니다. 필터뱅크 분석부(300)에서는 FFT(Fast Fourier Transform) 또는 MDCT(Modified Discrete Cosine Transform)와 같은 필터뱅크를 이용하여 오디오 신호를 주파수 도메인으로만 변환하여 실시할 수도 있다.
파라메트릭 스테레오 부호화부(310, parametric stereo encoding unit)는 복호화기에서 모노 신호를 스테레오 신호로 업믹싱(upmixing)할 수 있는 파라미터(들)를 필터뱅크 분석부(300)에서 변환된 신호에서 추출하여 부호화하고, 필터뱅크 분석부(300)에서 변환된 신호를 모노 신호로 다운믹싱(downmixing)한다. 여기서, 파라미터의 예로 CLD(Channel Level Difference), ICC(Inter Channel Correlation) 등이 있다.
필터뱅크 합성부(320)는 필터뱅크 분석부(300)에서 수행하는 변환의 역과정으로써 필터뱅크 합성(filterbank synthesis)를 수행하여 파라메트릭 스테레오 부호화부(310)에서 다운믹싱된 신호를 시간 도메인으로 역변환한다. 필터뱅크 합성부(320)는 QMF(Quadrature Mirror Filterbank)와 같이 주파수 도메인과 시간 도메인으로 동시에 표현된 신호를 시간 도메인으로 역변환하는 필터뱅크를 사용하여 구현할 수 있다. 또한, 필터뱅크 합성부(320)에서는 IFFT(Inverse Fast Fourier Transform) 또는 IMDCT(Inverse Modified Discrete Cosine Transform)와 같은 필터뱅크를 이용하여 주파수 도메인으로만 표현된 신호를 시간 도메인으로 역변환할 수도 있다.
다운-샘플링부(330, down-sampling unit)는 필터뱅크 합성부(320)에서 역변환된 신호를 기 설정된 샘플링 레이트(sampling rate)로 다운 샘플링(down-sampling)한다. 여기서, 기 설정된 샘플링 레이트는 CELP(Coded-Excited Linear Prediction) 방식에 의해 부호화하는 데 적합한 샘플링 레이트일 수 있다. 또한, 다운-샘플링부(330)에서 다운-샘플링함에 있어서, 기 설정된 주파수 보다 작은 신 호에서만 샘플링(sampling)함으로써 저주파수 신호만 샘플링할 수 있다. 그러나 다운-샘플링부(330)를 반드시 포함하여 실시해야 하는 것은 아니며, 필터뱅크 합성부(320)가 다운-샘플링부(330)에서 수행하는 기능까지 포함하여 실시할 수 있다.
CELP 부호화부(340)는 다운-샘플링부(330)에서 다운-샘플링된 저주파수 신호를 CELP 방식에 의해 부호화한다. 여기서, CELP 방식은 신호에서 음성을 분석하여 음성의 특징을 제거한 후 그 오차 신호를 코드북(codebook)에 의해 부호화하는 방식을 말한다. 그러나 CELP 부호화부(340)는 CELP 방식에 한정하여 실시해야 하는 것은 아니며 시간 도메인에서 오디오 신호를 부호화하는 모든 방식으로 실시할 수 있다.
고주파수신호 부호화부(350)는 파라메트릭 스테레오 부호화부(310)에서 다운믹싱된 신호 가운데 기 설정된 주파수 보다 큰 영역에 마련된 고주파수 신호를 저주파수 신호를 이용하여 부호화한다. 다시 말하면, 고주파수신호 부호화부(350)는 복호화기에서 복호화된 저주파수 신호를 기 설정된 주파수 보다 큰 영역에 그대로 복사하거나 기 설정된 주파수를 기준으로 폴딩(folding)하여 생성된 신호에 부가될 노이즈의 양인 노이즈-플로어 레벨을 부호화한다. 도 1에서 고주파수신호 부호화부(230)의 일 실시예에 해당하는 고주파수 신호 부호화 장치를 도시하고 있으며 그 상세한 설명은 전술하였다. 도 1에 도시된 고주파수 신호 부호화 장치의 실시예에서 입력단자 IN 1에는 도 3의 파라메트릭 스테레오 부호화부(310)에서 다운믹싱된 신호가 입력되며, 입력단자 IN 2에는 도 3의 다운-샘플링부(330)에서 다운-샘플링된 신호 또는 도 3의 CELP 부호화부(340)에서 부호화하는 과정에서 생성되는 피치 상관도 또는 피치 예측 이득값 등과 같은 파라미터가 입력된다. 또한, 출력단자 OUT 1에서는 보이싱 레벨(voicing level)을 이용함으로써 갱신되어 부호화된 노이즈-플로어 레벨이 출력되고, 출력단자 OUT 2에서는 고주파수 신호의 포락선을 표현할 수 있는 파라미터가 출력된다.
다중화부(360)는 파라메트릭 스테레오 부호화부(310)에서 부호화된 파라미터(들), 고주파수신호 부호화부(350)에서 갱신되어 부호화된 노이즈-플로어 레벨와 고주파수 신호의 포락선을 표현할 수 있는 파라미터 및 CELP 부호화부(340)에서 부호화된 결과를 포함하여 다중화함으로써 비트스트림을 생성하여 출력단자 OUT을 통해 출력한다.
도 4는 본 발명에 의한 고주파수 신호 부호화 장치의 실시예를 적용하여 오디오 신호를 부호화하는 장치에 대한 일 실시예를 블록도로 도시한 것으로서, 오디오 신호를 부호화하는 장치는 필터뱅크 분석부(400), 고주파수신호 부호화부(410), 다운-샘플링부(420), 주파수도메인 부호화부(430) 및 다중화부(440)를 포함하여 이루어진다.
필터뱅크 분석부(400)는 필터뱅크 분석(filterbank analysis)를 수행하여 입력단자 IN을 통해 입력된 음성(speech) 신호 또는 음악(music) 신호와 같은 오디오 신호를 주파수 도메인과 시간 도메인으로 동시에 표현할 수 있도록 변환한다. 필터뱅크 분석부(400)는 QMF(Quadrature Mirror Filterbank)와 같은 필터뱅크를 사용하여 구현할 수 있다. 그러나 필터뱅크 분석부(400)에서 반드시 주파수 도메인과 시간 도메인을 모두 표현해야 하는 것은 아니다. 필터뱅크 분석부(400)에서는 FFT(Fast Fourier Transform) 또는 MDCT(Modified Discrete Cosine Transform)와 같은 필터뱅크를 이용하여 오디오 신호를 주파수 도메인으로만 변환하여 실시할 수도 있다.
고주파수신호 부호화부(410)는 필터뱅크 분석부(400)에서 변환된 신호 가운데 기 설정된 주파수 보다 큰 영역에 마련된 고주파수 신호를 기 설정된 주파수 보다 작은 영역에 마련된 저주파수 신호를 이용하여 부호화한다. 다시 말하면, 고주파수신호 부호화부(410)는 복호화기에서 복호화된 저주파수 신호를 기 설정된 주파수 보다 큰 영역에 그대로 복사하거나 기 설정된 주파수를 기준으로 폴딩(folding)하여 생성된 신호에 부가될 노이즈의 양인 노이즈-플로어 레벨을 부호화한다. 도 1에서 고주파수신호 부호화부(410)의 일 실시예에 해당하는 고주파수 신호 부호화 장치를 도시하고 있으며 그 상세한 설명은 전술하였다. 도 1에 도시된 고주파수 신호 부호화 장치의 실시예에서 입력단자 IN 1 및 IN 2에는 필터뱅크 분석부(400)에서 변환된 신호가 입력된다. 또한, 출력단자 OUT 1에서는 보이싱 레벨(voicing level)을 이용함으로써 갱신되어 부호화된 노이즈-플로어 레벨이 출력되고, 출력단자 OU 2에서는 고주파수 신호의 포락선을 표현할 수 있는 파라미터가 출력된다.
다운-샘플링부(420, down-sampling unit)는 입력단자 IN을 통해 입력된 오디오 신호를 기 설정된 샘플링 레이트(sampling rate)로 다운 샘플링(down-sampling)한다. 여기서, 기 설정된 샘플링 레이트는 CELP(Coded-Excited Linear Prediction) 방식에 의해 부호화하는 데 적합한 샘플링 레이트일 수 있다. 또한, 다운-샘플링부(420)에서 다운-샘플링함에 있어서, 기 설정된 주파수 보다 작은 신 호에서만 샘플링(sampling)함으로써 저주파수 신호만 샘플링할 수 있다.
주파수도메인 부호화부(430)는 다운-샘플링부(420)에서 다운 샘플링된 저주파수 신호를 주파수 도메인에서 부호화한다. 예를 들어, 주파수도메인 부호화부(430)에서는 다운-샘플링부(420)에서 다운 샘플링된 저주파수 신호를 주파수 도메인으로 변환한 후 양자화하고 엔트로피(entropy) 부호화한다.
다중화부(440)는 고주파수신호 부호화부(410)에서 갱신되어 부호화된 노이즈-플로어 레벨과 고주파수 신호의 포락선을 표현할 수 있는 파라미터 및 주파수도메인 부호화부(430)에서 부호화된 결과를 포함하여 다중화함으로써 비트스트림을 생성하여 출력단자 OUT을 통해 출력한다.
도 5는 본 발명에 의한 고주파수 신호 부호화 장치의 실시예를 적용하여 오디오 신호를 부호화하는 장치에 대한 일 실시예를 블록도로 도시한 것으로서, 상기 오디오 신호를 부호화하는 장치는 필터뱅크 분석부(500), 다운-샘플링부(510), 적응적 저주파수신호 부호화부(520), 고주파수신호 부호화부(530) 및 다중화부(540)를 포함하여 이루어진다.
필터뱅크 분석부(500)는 필터뱅크 분석(filterbank analysis)를 수행하여 입력단자 IN을 통해 입력된 음성(speech) 신호 또는 음악(music) 신호와 같은 오디오 신호를 주파수 도메인과 시간 도메인으로 동시에 표현할 수 있도록 변환한다. 필터뱅크 분석부(500)는 QMF(Quadrature Mirror Filterbank)와 같은 필터뱅크를 사용하여 구현할 수 있다. 그러나 필터뱅크 분석부(500)에서 반드시 주파수 도메인과 시간 도메인을 모두 표현해야 하는 것은 아니다. 필터뱅크 분석부(500)에서는 FFT(Fast Fourier Transform) 또는 MDCT(Modified Discrete Cosine Transform)와 같은 필터뱅크를 이용하여 오디오 신호를 주파수 도메인으로만 변환하여 실시할 수도 있다.
다운-샘플링부(510, down-sampling unit)는 입력단자 IN을 통해 입력된 오디오 신호를 기 설정된 샘플링 레이트(sampling rate)로 다운 샘플링(down-sampling)한다. 여기서, 기 설정된 샘플링 레이트는 CELP(Coded-Excited Linear Prediction) 방식에 의해 부호화하는 데 적합한 샘플링 레이트일 수 있다. 또한, 다운-샘플링부(510)에서 다운-샘플링함에 있어서, 기 설정된 주파수 보다 작은 신호에서만 샘플링(sampling)함으로써 저주파수 신호만 샘플링할 수 있다.
적응적 저주파수신호 부호화부(520)는 CELP에 의해 부호화하는 방식 및 주파수 도메인에서 부호화하는 방식 가운데 기 설정된 기준에 따라 선택하여 다운-샘플링부(210)에서 다운-샘플링된 저주파수 신호를 부호화한다. 여기서, CELP에 의해 부호화하는 방식은 신호에서 음성을 분석하여 음성의 특징을 제거한 후 그 오차 신호를 코드북(codebook)에 의해 부호화하는 방식을 말한다. 또한, 주파수 도메인에서 부호화하는 방식의 예로 오디오 신호를 주파수 도메인으로 변환한 후 양자화하고 엔트로피(entropy) 부호화할 수 있다.
그리고 적응적 저주파수신호 부호화부(520)는 다운-샘플링부(210)에서 다운-샘플링된 저주파수 신호의 각 서브-밴드(sub-band)가 CELP에 의해 부호화하는 방식 및 주파수 도메인에서 부호화하는 방식 가운데 어느 방식에 의해 부호화되었는지 여부를 나타내는 정보를 부호화한다.
고주파수신호 부호화부(530)는 필터뱅크 분석부(500)에서 변환된 신호 가운데 기 설정된 주파수 보다 큰 영역에 마련된 고주파수 신호를 저주파수 신호를 이용하여 부호화한다. 다시 말하면, 고주파수신호 부호화부(530)는 복호화기에서 복호화된 저주파수 신호를 기 설정된 주파수 보다 큰 영역에 그대로 복사하거나 기 설정된 주파수를 기준으로 폴딩(folding)하여 생성된 신호에 부가될 노이즈의 양인 노이즈-플로어 레벨을 부호화한다. 도 1에서 고주파수신호 부호화부(530)의 실시예에 해당하는 고주파수 신호 부호화 장치를 도시하고 있으며 그 상세한 설명은 전술하였다. 도 1에 도시된 고주파수 신호 부호화 장치의 실시예에서 입력단자 IN 1에는 도 5의 필터뱅크 분석부(500)에서 변환된 신호가 입력되며, 입력단자 IN 2에는 도 5의 다운-샘플링부(510)에서 다운-샘플링된 저주파수 신호 또는 적응적 저주파수 신호 부호화부(520)에서 부호화하는 과정에서 생성되는 피치 상관도 또는 피치 예측 이득값 등과 같은 파라미터가 입력된다. 또한, 출력단자 OUT 1에서는 보이싱 레벨(voicing level)을 이용함으로써 갱신되어 부호화된 노이즈-플로어 레벨이 출력되고, 출력단자 OUT 2에서는 고주파수 신호의 포락선을 표현할 수 있는 파라미터가 출력된다.
그러나 도 5의 고주파수신호 부호화부(530)에서는 적응적 저주파수신호 부호화부(520)에서 CELP 방식에 의해 저주파수 신호가 부호화된 경우에 한하여 도 1의 노이즈-플로어 레벨 계산부(100)에서 계산된 노이즈-플로어 레벨을 노이즈-플로어 레벨 갱신부(120)에서 갱신하고, 적응적 저주파수신호 부호화부(520)에서 주파수 도메인에서 부호화하는 방식에 의해 저주파수 신호가 부호화된 경우에는 노이즈-플 로어 레벨 계산부(100)에서 계산된 노이즈-플로어 레벨을 노이즈-플로어 레벨 갱신부(120)에서 갱신하지 않고 노이즈-플로어 레벨 계산부(100)에서 계산된 노이즈-플로어 레벨을 그대로 노이즈-플로어 레벨 부호화부(130)에서 부호화할 수도 있다.
다중화부(540)는 고주파수신호 부호화부(530)에서 갱신되어 부호화된 노이즈-플로어 레벨과 고주파수 신호의 포락선을 표현할 수 있는 파라미터, 적응적 저주파수신호 부호화부(520)에서 부호화된 결과와 저주파수 신호의 각 서브-밴드가 CELP에 의해 부호화하는 방식 및 주파수 도메인에서 부호화하는 방식 가운데 어느 방식에 의해 부호화되었는지 여부를 나타내는 정보를 포함하여 다중화함으로써 비트스트림을 생성하여 출력단자 OUT을 통해 출력한다.
복호화 장치
도 6은 본 발명에 의한 고주파수 신호 복호화 장치에 대한 일 실시예를 블록도로 도시한 것으로서, 고주파수 신호 복호화 장치는 노이즈-플로어 레벨 복호화부(600), 보이싱 레벨 계산부(610), 노이즈-플로어 레벨 갱신부(620), 노이즈 생성부(630), 고주파수신호 생성부(640), 포락선 조절부(645) 및 노이즈 부가부(650)를 포함하여 이루어진다.
노이즈-플로어 레벨 복호화부(600, noise-floor level decoding unit)는 기 설정된 주파수 보다 큰 영역에 마련된 고주파수 신호의 노이즈-플로어 레벨(noise-floor level)을 복호화한다. 여기서, 노이즈-플로어 레벨은 복호화기에서 복원되는 고주파수 신호에 부가될 노이즈의 양을 말한다.
이러한 노이즈-플로어 레벨은 신호의 스펙트럼에서 최저 포인트들에 의해 결정되는 스펙트럴 포락선(spectral envelope)과 신호의 스펙트럼에서 최고 포인트들에 의해 결정되는 스펙트럴 포락선 사이의 차이값으로 계산될 수 있다.
또한, 노이즈-플로어 레벨은 고주파수 신호의 토널리티(tonality)와 고주파수 신호를 부호화하는 데 이용되는 기 설정된 주파수 보다 작은 영역에 마련된 저주파수 신호의 토널리티를 비교하여 노이즈-플로어 레벨을 계산될 수도 있다. 이러한 방식으로 노이즈-플로어 레벨을 계산할 경우, 저주파수 신호의 토널리티가 고주파수 신호의 토널리티 보다 클수록 복호화기에서 고주파수 신호에 노이즈를 많이 부가하도록 노이즈-플로어 레벨을 계산된다.
보이싱 레벨 계산부(610, voicing level calculating unit)는 복호화기에서 복호화된 저주파수 신호의 보이싱 레벨(voicing level)을 계산한다. 여기서, 보이싱 레벨은 신호에 포함된 유성음 또는 무성음의 정도를 말한다. 다시 말하면, 보이싱 레벨은 신호가 유성음 또는 무성음에 가까운 정도를 말한다. 이하에서는 보이싱 레벨은 신호가 유성음에 가까운 정보라고 가정하고 실시예를 설명하기로 한다.
보이싱 레벨 계산부(610)에서는 피치 상관도(pitch correlation) 또는 피치 예측 이득값(pitch prediction gain)을 이용하여 보이싱 레벨을 계산할 수 있다. 보이싱 레벨 계산부(610)는 피치 상관도 또는 피치 이득값 등을 입력받아 신호에 포함된 유성음의 정도를 0 내지 1 사이로 정규화하여 보이싱 레벨을 계산할 수 있다. 예를 들어, 보이싱 레벨 계산부(610)는 개루프 피치 상관도(open loop pitch correlation)를 이용하여 다음 기재된 수학식 3에 의해 보이싱 레벨을 계산할 수 있다.
[수학식 3]
VoicingLevel=1/(OpenLoopPitchCorrelation)
여기서, 'VoicingLevel'은 보이싱 레벨 계산부(610)에서 계산된 보이싱 레벨이고, 'OpenLoopPitchCorrelation'은 개루프 피치 상관도를 말한다.
노이즈-플로어 레벨 갱신부(620)는 보이싱 레벨 계산부(610)에서 계산된 보이싱 레벨을 이용하여 노이즈-플로어 레벨 복호화부(600)에서 복호화된 노이즈-플로어 레벨을 갱신한다. 보다 상세하게 설명하면, 노이즈-플로어 레벨 갱신부(620)는 보이싱 레벨 계산부(610)에서 계산된 보이싱 레벨이 유성음의 정도가 높다고 나타낼수록 노이즈-플로어 레벨 복호화부(600)에서 복호화된 노이즈-플로어 레벨을 감소시키고, 보이싱 레벨 계산부(610)에서 계산된 보이싱 레벨이 무성음의 정도가 높다고 나타낼수록 노이즈-플로어 레벨 계산부(600)에서 계산된 노이즈-플로어 레벨을 조절하지 않는다. 예를 들어, 노이즈-플로어 레벨 갱신부(620)는 다음 기재된 수학식 4에 의해 보이싱 레벨 계산부(610)에서 계산된 보이싱 레벨을 이용하여 노이즈-플로어 레벨 복호화부(600)에서 복호화된 노이즈-플로어 레벨을 갱신한다.
[수학식 4]
NewNoiseFloorLevel=NoiseFoorLevel*(1-VoicingLevel/2)
여기서, 'NewNoiseFloorLevel'은 노이즈-플로어 레벨 갱신부(620)에서 갱신된 노이즈-플로어 레벨이고, 'NoiseFloorLevel'은 노이즈-플로어 레벨 복호화 부(600)에서 복호화된 노이즈-플로어 레벨이며, 'VoicingLevel'은 보이싱 레벨 계산부(610)에서 유성음에 가까운 정규화된 정도가 계산된 보이싱 레벨을 말한다.
음성 신호를 부호화하거나 복호화할 경우 기존의 SBR 기술에서 고주파수 신호를 복호화함에 있어서 과도하게 노이즈를 부가하므로 유성음 구간에서 잡음이 발생하게 되는 문제점을 갖는다. 다시 말해, 음성 신호는 특성상 유성음 구간이 저주파수 신호의 경우 토널(tonal)한 특성이 강하고 고주파수 신호의 경우 노이즈 성향이 강하기 때문에 기존의 SBR 기술에서는 노이즈를 상당히 많이 부가한다. 그러나 본 발명의 실시예에 따르면 노이즈-플로어 레벨 복호화부(600)에서 복호화된 노이즈-플로어 레벨을 노이즈-플로어 레벨 갱신부(620)에서 갱신함으로써 유성음 구간에서 잡음이 감소되는 효과를 갖는다.
노이즈 생성부(630)는 기 설정된 임의의 방식으로 랜덤 노이즈 신호를 생성하고, 노이즈-플로어 레벨 갱신부(620)에서 갱신된 노이즈-플로어 레벨에 따라 랜덤 노이즈 신호를 조절한다.
고주파수신호 생성부(640)는 복호화기에서 복호화된 저주파수 신호를 이용하여 SBR(Spectral Band Replication) 방식에 의해 고주파수 신호를 생성한다. 고주파수신호 생성부(640)에서는 복호화기에서 복호화된 저주파수 신호를 기 설정된 주파수 보다 큰 영역인 고주파수 영역에 그대로 복사하거나 기 설정된 주파수를 기준으로 폴딩(folding)하여 생성함으로써 고주파수 신호를 생성한다. 여기서, 부호화기에서 고주파수 신호의 포락선에 대한 파라미터를 부호화한 경우 고주파수 영역에 복사되거나 폴딩된 신호를 고주파수 신호의 포락선에 대한 파라미터를 이용하여 포 락선을 조절함으로써 고주파수 신호를 생성할 수 있다.
포락선 조절부(645)는 고주파수 신호의 포락선을 표현할 수 있는 파라미터를 복호화하여 고주파수신호 생성부(640)에서 생성된 고주파수 신호의 포락선을 조절한다.
노이즈 부가부(650)는 포락선 조절부(645)에서 포락선이 조절된 고주파수 신호에 노이즈 생성부(630)에서 생성된 노이즈 신호를 부가한다.
도 7은 본 발명에 의한 고주파수 신호 복호화 장치의 실시예를 적용하여 오디오 신호를 복호화하는 장치에 대한 일 실시예를 블록도로 도시한 것으로서, 상기 오디오 신호를 복호화하는 장치는 역다중화부(700), CELP 복호화부(710), 필터뱅크 분석부(720), 고주파수신호 복호화부(730) 및 필터뱅크 합성부(740)를 포함하여 이루어진다.
역다중화부(700)는 입력단자 IN을 통해 부호화단으로부터 비트스트림을 입력받아 역다중화한다. 역다중화부(700)에서 역다중화하는 비트스트림에는 CELP 방식에 의하여 기 설정된 주파수 보다 작은 영역에 마련된 저주파수 신호가 부호화된 결과, 기 설정된 주파수 보다 큰 영역에 마련된 고주파수 신호의 노이즈-플로어 레벨, 고주파수 신호의 포락선을 표현할 수 있는 파라미터, 그 외 저주파수 신호를 이용하여 고주파수 신호를 복호화할 수 있는 파라미터 등이 포함될 수 있다.
CELP 복호화부(710)는 역다중화부(700)에서 역다중화된 CELP 방식에 의하여 저주파수 신호가 부호화된 결과를 복호화함으로써 저주파수 신호를 복원한다. 여기서, CELP 방식은 신호에서 음성을 분석하여 음성의 특징을 제거한 후 그 오차 신 호를 코드북(codebook)에 의해 부호화하는 방식을 말한다. 그러나 CELP 복호화부(220)는 CELP 방식에 한정하여 실시해야 하는 것은 아니다. CELP 방식은 시간 도메인에서 오디오 신호를 복호화하는 일 실시예에 지나지 않으며, CELP 복호화부(710)는 시간 도메인에서 오디오 신호를 복호화하는 모든 방식으로 실시할 수 있다.
필터뱅크 분석부(720)는 필터뱅크 분석(filterbank analysis)을 수행하여 CELP 복호화부(710)에서 복호화된 저주파수 신호를 주파수 도메인과 시간 도메인으로 동시에 표현할 수 있도록 변환한다. 필터뱅크 분석부(720)는 QMF(Quadrature Mirror Filterbank)와 같은 필터뱅크를 사용하여 구현할 수 있다. 그러나 필터뱅크 분석부(720)에서 반드시 주파수 도메인과 시간 도메인을 모두 표현해야 하는 것은 아니다. 필터뱅크 분석부(720)에서는 FFT(Fast Fourier Transform) 또는 MDCT(Modified Discrete Cosine Transform)와 같은 필터뱅크를 이용하여 CELP 복호화부(710)에서 복호화된 저주파수 신호를 주파수 도메인으로만 변환할 수도 있다.
고주파수신호 복호화부(730)는 필터뱅크 분석부(720)에서 변환된 저주파수 신호를 이용하여 보이싱 레벨로 갱신된 노이즈-플로어 레벨에 따라 SBR 방식에 의해 고주파수 신호를 복원한다. 도 6에서 고주파수신호 복호화부(730)의 실시예에 해당하는 고주파수 신호 복호화 장치의 실시예를 도시하고 있으며 그 상세한 설명은 전술하였다. 도 6에 도시된 고주파수 신호 복호화 장치의 실시예에서 입력단자 IN 1에는 도 7의 역다중화부(700)에서 역다중화된 고주파수 신호의 노이즈-플로어 레벨 또는 그 외 저주파수 신호를 이용하여 고주파수 신호를 복호화할 수 있는 파 라미터가 입력되며, 입력단자 IN 2에는 도 7의 CELP 복호화부(710)에서 복호화하는 과정에서 복호화되는 피치 상관도 또는 피치 예측 이득값 등과 같은 파라미터 또는 CELP 복호화부(710)에서 복호화된 저주파수 신호가 입력되고, 입력단자 IN 3에는 필터뱅크 분석부(720)에서 변환된 저주파수 신호가 입력되며, 입력단자 IN 4에는 역다중화부(700)에서 역다중화된 고주파수 신호의 포락선을 표현할 수 있는 파라미터가 입력된다. 또한, 출력단자 OUT 1에서는 보이싱 레벨로 갱신된 노이즈-플로어 레벨에 따라 SBR 방식에 의해 복원된 고주파수 신호가 출력된다.
필터뱅크 합성부(740)는 필터뱅크 분석부(720)에서 수행하는 변환의 역과정으로 필터뱅크 합성(filterbank synthesis)를 수행함으로써 CELP 복호화부(710)에서 복호화된 저주파수 신호와 고주파수신호 복호화부(730)에서 복원된 고주파수 신호를 합성하여 시간 도메인으로 역변환한다. 필터뱅크 합성부(740)는 역변환되어 모든 주파수 대역에 대해 복원된 오디오 신호를 출력단자 OUT을 통해 출력한다. 필터뱅크 합성부(740)는 QMF(Quadrature Mirror Filterbank)와 같이 주파수 도메인과 시간 도메인으로 동시에 표현된 신호를 시간 도메인으로 역변환하는 필터뱅크를 사용하여 구현할 수 있다. 또한, 필터뱅크 합성부(740)에서는 IFFT(Inverse Fast Fourier Transform) 또는 IMDCT(Inverse Modified Discrete Cosine Transform)와 같은 필터뱅크를 이용하여 주파수 도메인으로만 표현된 신호를 시간 도메인으로 역변환할 수도 있다.
도 8은 본 발명에 의한 고주파수 신호 복호화 장치의 실시예를 적용하여 오디오 신호를 복호화하는 장치에 대한 일 실시예를 블록도로 도시한 것으로서, 상기 오디오 신호를 복호화하는 장치는 역다중화부(800), 주파수도메인 복호화부(810), 필터뱅크 분석부(820), 고주파수신호 복호화부(830) 및 필터뱅크 합성부(840)를 포함하여 이루어진다.
역다중화부(800)는 입력단자 IN을 통해 부호화단으로부터 비트스트림을 입력받아 역다중화한다. 역다중화부(800)에서 역다중화하는 비트스트림에는 주파수 도메인에서 기 설정된 주파수 보다 작은 영역에 마련된 저주파수 신호가 부호화된 결과, 기 설정된 주파수 보다 큰 영역에 마련된 고주파수 신호의 노이즈-플로어 레벨, 고주파수 신호의 포락선을 표현할 수 있는 파라미터, 그 외 저주파수 신호를 이용하여 고주파수 신호를 복호화할 수 있는 파라미터 등이 포함될 수 있다.
주파수도메인 복호화부(810)는 역다중화부(800)에서 역다중화된 주파수 도메인에서 저주파수 신호가 부호화된 결과를 복호화함으로써 저주파수 신호를 복원한다. 예를 들어, 주파수도메인 복호화부(810)에서는 부호화기에서 부호화된 신호를 엔트로피(entropy) 복호화한 후 역양자하고 시간 도메인으로 역변환함으로써 저주파수 신호를 복원할 수 있다.
필터뱅크 분석부(820)는 필터뱅크 분석(filterbank analysis)을 수행하여 주파수도메인 복호화부(810)에서 복호화된 저주파수 신호를 주파수 도메인과 시간 도메인으로 동시에 표현할 수 있도록 변환한다. 필터뱅크 분석부(820)는 QMF(Quadrature Mirror Filterbank)와 같은 필터뱅크를 사용하여 구현할 수 있다. 그러나 필터뱅크 분석부(820)에서 반드시 주파수 도메인과 시간 도메인을 모두 표현해야 하는 것은 아니다. 필터뱅크 분석부(820)에서는 FFT(Fast Fourier Transform) 또는 MDCT(Modified Discrete Cosine Transform)와 같은 필터뱅크를 이용하여 주파수도메인 복호화부(810)에서 복호화된 저주파수 신호를 주파수 도메인으로만 변환할 수도 있다.
고주파수신호 복호화부(830)는 필터뱅크 분석부(820)에서 변환된 저주파수 신호를 이용하여 보이싱 레벨로 갱신된 노이즈-플로어 레벨에 따라 SBR 방식에 의해 고주파수 신호를 복원한다. 도 6에서 고주파수신호 복호화부(830)의 실시예에 해당하는 고주파수 신호 복호화 장치의 실시예를 도시하고 있으며 그 상세한 설명은 전술하였다. 도 6에 도시된 고주파수 신호 복호화 장치의 실시예에서 입력단자 IN 1에는 도 8의 역다중화부(800)에서 역다중화된 고주파수 신호의 노이즈-플로어 레벨 또는 그 외 저주파수 신호를 이용하여 고주파수 신호를 복호화할 수 있는 파라미터가 입력되며, 입력단자 IN 2에는 주파수도메인 복호화부(810)에서 복호화된 저주파수 신호가 입력되고, 입력단자 IN 3에는 필터뱅크 분석부(820)에서 변환된 저주파수 신호가 입력되며, 도 8의 역다중화부(800)에서 역다중화된 고주파수 신호의 포락선을 표현할 수 있는 파라미터가 입력된다. 또한, 출력단자 OUT 1에서는 보이싱 레벨로 갱신된 노이즈-플로어 레벨에 따라 SBR 방식에 의해 복원된 고주파수 신호가 출력된다.
필터뱅크 합성부(840)는 필터뱅크 분석부(820)에서 수행하는 변환의 역과정으로 필터뱅크 합성(filterbank synthesis)를 수행함으로써 주파수도메인 복호화부(810)에서 복호화된 저주파수 신호와 고주파수신호 복호화부(830)에서 복원된 고주파수 신호를 합성하여 시간 도메인으로 역변환한다. 필터뱅크 합성부(840)는 역 변환되어 모든 주파수 대역에 대해 복원된 오디오 신호를 출력단자 OUT을 통해 출력한다. 필터뱅크 합성부(840)는 QMF(Quadrature Mirror Filterbank)와 같이 주파수 도메인과 시간 도메인으로 동시에 표현된 신호를 시간 도메인으로 역변환하는 필터뱅크를 사용하여 구현할 수 있다. 또한, 필터뱅크 합성부(840)에서는 IFFT(Inverse Fast Fourier Transform) 또는 IMDCT(Inverse Modified Discrete Cosine Transform)와 같은 필터뱅크를 이용하여 주파수 도메인으로만 표현된 신호를 시간 도메인으로 역변환할 수도 있다.
도 9는 본 발명에 의한 고주파수 신호 복호화 장치의 실시예를 적용하여 오디오 신호를 복호화하는 장치에 대한 일 실시예를 블록도로 도시한 것으로서, 상기 오디오 신호를 복호화하는 장치는 역다중화부(900), 적응적 저주파수신호 복호화부(910), 필터뱅크 분석부(920), 고주파수신호 복호화부(930) 및 필터뱅크 합성부(940)를 포함하여 이루어진다.
역다중화부(900)는 입력단자 IN을 통해 부호화단으로부터 비트스트림을 입력받아 역다중화한다. 역다중화부(900)에서 역다중화하는 비트스트림에는 주파수 도메인에서 기 설정된 주파수 보다 작은 영역에 마련된 저주파수 신호가 부호화된 결과, 기 설정된 주파수 보다 큰 영역에 마련된 고주파수 신호의 노이즈-플로어 레벨, 고주파수 신호의 포락선을 표현할 수 있는 파라미터, 그 외 저주파수 신호를 이용하여 고주파수 신호를 복호화할 수 있는 파라미터, 저주파수 신호의 각 서브-밴드(sub-band)가 CELP에 의해 부호화하는 방식 및 주파수 도메인에서 부호화하는 방식 가운데 어느 방식에 의해 부호화되었는지 여부를 나타내는 정보 등이 포함될 수 있다.
적응적 저주파수신호 복호화부(910)는 역다중화부(900)에서 역다중화된 각 서브-밴드가 CELP에 의해 부호화하는 방식 및 주파수 도메인에서 부호화하는 방식 가운데 어느 방식에 의해 부호화되었는지 여부를 나타내는 정보에 따라 해당 방식에 의하여 역다중화부(900)에서 역다중화된 저주파수 신호가 부호화된 결과를 복호화함으로써 저주파수 신호를 복원한다. 여기서, CELP에 의해 부호화하는 방식은 신호에서 음성을 분석하여 음성의 특징을 제거한 후 그 오차 신호를 코드북(codebook)에 의해 부호화하는 방식을 말한다. 또한, 주파수 도메인에서 부호화하는 방식의 예로 오디오 신호를 주파수 도메인으로 변환한 후 양자화하고 엔트로피(entropy) 부호화할 수 있다.
필터뱅크 분석부(920)는 필터뱅크 분석(filterbank analysis)을 수행하여 적응적 저주파수신호 복호화부(910)에서 복호화된 저주파수 신호를 주파수 도메인과 시간 도메인으로 동시에 표현할 수 있도록 변환한다. 필터뱅크 분석부(920)는 QMF(Quadrature Mirror Filterbank)와 같은 필터뱅크를 사용하여 구현할 수 있다. 그러나 필터뱅크 분석부(920)에서 반드시 주파수 도메인과 시간 도메인을 모두 표현해야 하는 것은 아니다. 필터뱅크 분석부(920)에서는 FFT(Fast Fourier Transform) 또는 MDCT(Modified Discrete Cosine Transform)와 같은 필터뱅크를 이용하여 적응적 저주파수신호 복호화부(910)에서 복호화된 저주파수 신호를 주파수 도메인으로만 변환할 수도 있다.
고주파수신호 복호화부(930)는 필터뱅크 분석부(920)에서 변환된 저주파수 신호를 이용하여 보이싱 레벨로 갱신된 노이즈-플로어 레벨에 따라 SBR 방식에 의해 고주파수 신호를 복원한다. 도 6에서 고주파수신호 복호화부(930)의 실시예에 해당하는 고주파수 신호 복호화 장치의 실시예를 도시하고 있으며 그 상세한 설명은 전술하였다. 도 6에 도시된 고주파수 신호 복호화 장치의 실시예에서 입력단자 IN 1에는 도 9의 역다중화부(900)에서 역다중화된 고주파수 신호의 노이즈-플로어 레벨 또는 그 외 저주파수 신호를 이용하여 고주파수 신호를 복호화할 수 있는 파라미터가 입력되며, 입력단자 IN 2에는 도 9의 적응적 저주파수신호 복호화부(910)에서 복호화하는 과정에서 복호화되는 피치 상관도 또는 피치 예측 이득값 등과 같은 파라미터 또는 적응적 저주파수신호 복호화부(910)에서 복호화된 저주파수 신호가 입력되고, 입력단자 IN 3에는 필터뱅크 분석부(920)에서 변환된 저주파수 신호가 입력되며, 입력단자 IN 4에는 역다중화부(900)에서 역다중화된 고주파수 신호의 포락선을 표현할 수 있는 파라미터가 입력된다. 또한, 출력단자 OUT 1에서는 보이싱 레벨로 갱신된 노이즈-플로어 레벨에 따라 SBR 방식에 의해 복원된 고주파수 신호가 출력된다.
그러나 도 9의 고주파수신호 복호화부(930)에서는 적응적 저주파수신호 복호화부(910)에서 CELP 방식에 의해 저주파수 신호를 복호화한 경우에 한하여 도 6의 노이즈-플로어 레벨 복호화부(600)에서 복호화된 노이즈-플로어 레벨을 노이즈-플로어 레벨 갱신부(620)에서 갱신하고, 적응적 저주파수신호 복호화부(920)에서 주파수 도메인에서 복호화하는 방식에 의해 저주파수 신호를 복호화한 경우에는 노이즈-플로어 레벨 복호화부(600)에서 복호화된 노이즈-플로어 레벨을 노이즈-플로어 레벨 갱신부(620)에서 갱신하지 않고 노이즈-플로어 레벨 복호화부(600)에서 복호화된 노이즈-플로어 레벨에 따라 노이즈 생성부(630)에서 노이즈를 생성한다.
필터뱅크 합성부(940)는 필터뱅크 분석부(920)에서 수행하는 변환의 역과정으로 필터뱅크 합성(filterbank synthesis)를 수행함으로써 적응적 저주파수신호 복호화부(910)에서 복호화된 저주파수 신호와 고주파수신호 복호화부(930)에서 복원된 고주파수 신호를 합성하여 시간 도메인으로 역변환한다. 필터뱅크 합성부(940)는 역변환되어 모든 주파수 대역에 대해 복원된 오디오 신호를 출력단자 OUT을 통해 출력한다. 필터뱅크 합성부(940)는 QMF와 같이 주파수 도메인과 시간 도메인으로 동시에 표현된 신호를 시간 도메인으로 역변환하는 필터뱅크를 사용하여 구현할 수 있다. 또한, 필터뱅크 합성부(940)에서는 IFFT 또는 IMDCT와 같은 필터뱅크를 이용하여 주파수 도메인으로만 표현된 신호를 시간 도메인으로 역변환할 수도 있다.
부호화 방법
도 10은 본 발명에 의한 고주파수 신호 부호화 방법에 대한 일 실시예를 흐름도로 도시한 것이다.
먼저, 기 설정된 주파수 보다 큰 영역에 마련된 고주파수 신호의 노이즈-플로어 레벨(noise-floor level)을 계산한다(제1000단계). 여기서, 노이즈-플로어 레벨은 복호화기에서 복원되는 고주파수 신호에 부가될 노이즈의 양을 말한다.
제1000단계에서는 노이즈-플로어 레벨을 신호의 스펙트럼에서 최저 포인트들에 의해 결정되는 스펙트럴 포락선(spectral envelope)과 신호의 스펙트럼에서 최 고 포인트들에 의해 결정되는 스펙트럴 포락선 사이의 차이값으로 계산할 수 있다.
또한, 제1000단계에서는 노이즈-플로어 레벨을 고주파수 신호의 토널리티(tonality)와 고주파수 신호를 부호화하는 데 이용되는 기 설정된 주파수 보다 작은 영역에 마련된 저주파수 신호의 토널리티를 비교하여 노이즈-플로어 레벨을 계산할 수도 있다. 이러한 방식으로 제1000단계에서 노이즈-플로어 레벨을 계산할 경우, 저주파수 신호의 토널리티가 고주파수 신호의 토널리티 보다 클수록 복호화기에서 고주파수 신호에 노이즈를 많이 부가하도록 노이즈-플로어 레벨을 계산한다.
고주파수 신호의 보이싱 레벨(voicing level)을 계산한다(제1010단계). 여기서, 보이싱 레벨은 신호에 포함된 유성음 또는 무성음의 정도를 말한다. 다시 말하면, 보이싱 레벨은 신호가 유성음 또는 무성음에 가까운 정도를 말한다. 이하에서는 보이싱 레벨은 신호가 유성음에 가까운 정보라고 가정하고 실시예를 설명하기로 한다.
제1010단계에서는 피치 상관도(pitch correlation) 또는 피치 예측 이득값(pitch prediction gain)을 이용하여 보이싱 레벨을 계산할 수 있다. 제1010단계에서는 피치 상관도 또는 피치 이득값 등을 이용하여 신호에 포함된 유성음의 정도를 0 내지 1 사이로 정규화하여 보이싱 레벨을 계산할 수 있다. 예를 들어, 제1010단계에서는 개루프 피치 상관도(open loop pitch correlation)을 이용하여 다음 기재된 수학식 5에 의해 보이싱 레벨을 계산할 수 있다.
[수학식 5]
VoicingLevel=1/(OpenLoopPitchCorrelation)
여기서, 'VoicingLevel'은 제1010단계에서 계산된 보이싱 레벨이고, 'OpenLoopPitchCorrelation'은 개루프 피치 상관도를 말한다.
제1010단계에서 계산된 보이싱 레벨을 이용하여 제1000단계에서 계산된 노이즈-플로어 레벨을 갱신한다(제1020단계). 보다 상세하게 설명하면, 제1020단계에서는 제1010단계에서 계산된 보이싱 레벨이 유성음의 정도가 높다고 나타낼수록 제1000단계에서 계산된 노이즈-플로어 레벨을 감소시키고, 제1010단계에서 계산된 보이싱 레벨이 무성음의 정도가 높다고 나타낼수록 제1000단계에서 계산된 노이즈-플로어 레벨을 조절하지 않는다. 예를 들어, 제1020단계에서는 다음 기재된 수학식 6에 의해 제1010단계에서 계산된 보이싱 레벨을 이용하여 제1000단계에서 계산된 노이즈-플로어 레벨을 갱신한다.
[수학식 6]
NewNoiseFloorLevel=NoiseFoorLevel*(1-VoicingLevel/2)
여기서, 'NewNoiseFloorLevel'은 제1020단계에서 갱신된 노이즈-플로어 레벨이고, 'NoiseFloorLevel'은 제1000단계에서 계산된 노이즈-플로어 레벨이며, 'VoicingLevel'은 제1010단계에서 유성음에 가까운 정규화된 정도가 계산된 보이싱 레벨을 말한다.
음성 신호를 부호화하거나 복호화할 경우 기존의 SBR 기술에서 고주파수 신호를 복호화함에 있어서 과도하게 노이즈를 부가하므로 유성음 구간에서 잡음이 발생하게 되는 문제점을 갖는다. 다시 말해, 음성 신호는 특성상 유성음 구간이 저 주파수 신호의 경우 토널(tonal)한 특성이 강하고 고주파수 신호의 경우 노이즈 성향이 강하기 때문에 기존의 SBR 기술에서는 노이즈를 상당히 많이 부가한다. 그러나 본 발명의 실시예에 따르면 제1000단계에서 계산된 노이즈-플로어 레벨을 제1020단계에서 갱신함으로써 유성음 구간에서 잡음이 감소되는 효과를 갖는다.
제1020단계에서 갱신된 노이즈-플로어 레벨을 부호화한다(제1030단계).
고주파수 신호의 포락선을 표현할 수 있는 파라미터를 추출한다(제1040단계). 예를 들어, 제1040단계에서는 고주파수 신호의 각 서브-밴드(sub-band)별 에너지 값을 계산한다.
도 11는 본 발명에 의한 고주파수 신호 부호화 방법의 실시예를 적용하여 오디오 신호를 부호화하는 방법에 대한 일 실시예를 흐름도로 도시한 것이다.
먼저, 필터뱅크 분석(filterbank analysis)를 수행하여 원 신호에 해당하는 음성(speech) 신호 또는 음악(music) 신호와 같은 오디오 신호를 주파수 도메인과 시간 도메인으로 동시에 표현할 수 있도록 변환한다(제1100단계). 제1100단계에서는 QMF(Quadrature Mirror Filterbank)와 같은 필터뱅크를 사용하여 구현할 수 있다. 그러나 제1100단계에서 반드시 주파수 도메인과 시간 도메인을 모두 표현해야 하는 것은 아니다. 제1100단계에서는 FFT(Fast Fourier Transform) 또는 MDCT(Modified Discrete Cosine Transform)와 같은 필터뱅크를 이용하여 오디오 신호를 주파수 도메인으로만 변환하여 실시할 수도 있다.
원 신호에 해당하는 오디오 신호를 기 설정된 샘플링 레이트(sampling rate)로 다운 샘플링(down-sampling)한다(제1110단계). 여기서, 기 설정된 샘플링 레이 트는 CELP(Coded-Excited Linear Prediction) 방식에 의해 부호화하는 데 적합한 샘플링 레이트일 수 있다. 또한, 제1110단계에서 다운-샘플링함에 있어서, 기 설정된 주파수 보다 작은 신호에서만 샘플링(sampling)함으로써 저주파수 신호만 샘플링할 수 있다.
제1110단계에서 다운-샘플링된 저주파수 신호를 CELP 방식에 의해 부호화한다(제1120단계). 여기서, CELP 방식은 신호에서 음성을 분석하여 음성의 특징을 제거한 후 그 오차 신호를 코드북(codebook)에 의해 부호화하는 방식을 말한다. 그러나 제1110단계에서는 CELP 방식에 한정하여 실시해야 하는 것은 아니며 시간 도메인에서 오디오 신호를 부호화하는 모든 방식으로 실시할 수 있다.
제1100단계에서 변환된 신호 가운데 기 설정된 주파수 보다 큰 영역에 마련된 고주파수 신호를 저주파수 신호를 이용하여 부호화한다(제1130단계). 다시 말하면, 제1130단계에서는 복호화기에서 복호화된 저주파수 신호를 기 설정된 주파수 보다 큰 영역에 그대로 복사하거나 기 설정된 주파수를 기준으로 폴딩(folding)하여 생성된 신호에 부가될 노이즈의 양인 노이즈-플로어 레벨을 부호화한다. 도 10에서 제1130단계의 실시예에 해당하는 고주파수 신호 부호화 방법을 도시하고 있으며 그 상세한 설명은 전술하였다. 도 10의 제1000단계에서는 제1100단계에서 변환된 신호로 고주파수 신호의 노이즈-플로어 레벨을 계산하고, 도 10의 제1010단계에서는 제1110단계에서 다운-샘플링된 신호 또는 제1120단계에서 부호화하는 과정에서 생성되는 피치 상관도 또는 피치 예측 이득값 등과 같은 파라미터로 보이싱 레벨을 계산한다. 제1130단계에서는 보이싱 레벨을 이용하여 노이즈-플로어 레벨을 갱신하여 부호화한다.
제1130단계에서 갱신되어 부호화된 노이즈-플로어 레벨과 고주파수 신호의 포락선을 표현할 수 있는 파라미터 및 제1120단계에서 부호화된 결과를 포함하여 다중화함으로써 비트스트림을 생성한다(제1140단계).
도 12는 본 발명에 의한 고주파수 신호 부호화 방법의 실시예를 적용하여 오디오 신호를 부호화하는 방법에 대한 일 실시예를 흐름도로 도시한 것이다.
먼저, 필터뱅크 분석(filterbank analysis)를 수행하여 원 신호에 해당하는 음성(speech) 신호 또는 음악(music) 신호와 같은 스테레오에 해당하는 오디오 신호를 주파수 도메인과 시간 도메인으로 동시에 표현할 수 있도록 변환한다(제1200단계). 제1200단계에서는 QMF(Quadrature Mirror Filterbank)와 같은 필터뱅크를 사용하여 구현할 수 있다. 그러나 제1200단계에서 반드시 주파수 도메인과 시간 도메인을 모두 표현해야 하는 것은 아니다. 제1200단계에서는 FFT(Fast Fourier Transform) 또는 MDCT(Modified Discrete Cosine Transform)와 같은 필터뱅크를 이용하여 오디오 신호를 주파수 도메인으로만 변환하여 실시할 수도 있다.
복호화기에서 모노 신호를 스테레오 신호로 업믹싱(upmixing)할 수 있는 파라미터(들)를 제1200단계에서 변환된 신호에서 추출하여 부호화하고, 제1200단계에서 변환된 신호를 모노 신호로 다운믹싱(downmixing)한다(제1210단계). 여기서, 파라미터의 예로 CLD(Channel Level Difference), ICC(Inter Channel Correlation) 등이 있다.
제1200단계에서 수행하는 변환의 역과정으로써 필터뱅크 합성(filterbank synthesis)를 수행하여 제1210단계에서 다운믹싱된 신호를 시간 도메인으로 역변환한다(제1220단계). 제1220단계에서는 QMF(Quadrature Mirror Filterbank)와 같이 주파수 도메인과 시간 도메인으로 동시에 표현된 신호를 시간 도메인으로 역변환하는 필터뱅크를 사용하여 구현할 수 있다. 또한, 제1220단계에서는 IFFT(Inverse Fast Fourier Transform) 또는 IMDCT(Inverse Modified Discrete Cosine Transform)와 같은 필터뱅크를 이용하여 주파수 도메인으로만 표현된 신호를 시간 도메인으로 역변환할 수도 있다.
제1220단계에서 역변환된 신호를 기 설정된 샘플링 레이트(sampling rate)로 다운 샘플링(down-sampling)한다(제1230단계). 여기서, 기 설정된 샘플링 레이트는 CELP(Coded-Excited Linear Prediction) 방식에 의해 부호화하는 데 적합한 샘플링 레이트일 수 있다. 또한, 제1230단계에서 다운-샘플링함에 있어서, 기 설정된 주파수 보다 작은 신호에서만 샘플링(sampling)함으로써 저주파수 신호만 샘플링할 수 있다. 그러나 제1230단계를 반드시 포함하여 실시해야 하는 것은 아니며, 제1220단계에서 필터뱅크 합성을 수행하는 과정에서 다운-샘플링까지 포함하여 실시할 수 있다.
제1230단계에서 다운-샘플링된 저주파수 신호를 CELP 방식에 의해 부호화한다(제1240단계). 여기서, CELP 방식은 신호에서 음성을 분석하여 음성의 특징을 제거한 후 그 오차 신호를 코드북(codebook)에 의해 부호화하는 방식을 말한다. 그러나 제1240단계에서는 CELP 방식에 한정하여 실시해야 하는 것은 아니며 시간 도메인에서 오디오 신호를 부호화하는 모든 방식으로 실시할 수 있다.
저주파수 신호를 이용하여 제1210단계에서 다운믹싱된 신호 가운데 기 설정된 주파수 보다 큰 영역에 마련된 고주파수 신호를 부호화한다(제1250단계). 다시 말하면, 제1250단계에서는 복호화기에서 복호화된 저주파수 신호를 기 설정된 주파수 보다 큰 영역에 그대로 복사하거나 기 설정된 주파수를 기준으로 폴딩(folding)하여 생성된 신호에 부가될 노이즈의 양인 노이즈-플로어 레벨을 부호화한다. 도 10에서 제1250단계의 일 실시예에 해당하는 고주파수 신호 부호화 방법을 도시하고 있으며 그 상세한 설명은 전술하였다. 도 10에 도시된 고주파수 신호 부호화 방법의 실시예에서는 도 12의 제1210단계에서 다운믹싱된 신호를 이용하여 노이즈-플로어 레벨을 계산하고 고주파수 신호의 포락선을 추출하며, 도 12의 제1230단계에서 다운-샘플링된 신호 또는 도 3의 제1240단계에서 부호화하는 과정에서 생성되는 피치 상관도 또는 피치 예측 이득값 등과 같은 파라미터를 이용하여 보이싱 레벨을 계산한다.
제1210단계에서 부호화된 파라미터(들), 제1250단계에서 갱신되어 부호화된 노이즈-플로어 레벨과 고주파수 신호의 포락선을 나타낼 수 있는 파라미터 및 제1240단계에서 부호화된 결과를 포함하여 다중화함으로써 비트스트림을 생성한다(제1260단계).
도 13은 본 발명에 의한 고주파수 신호 부호화 방법의 실시예를 적용하여 오디오 신호를 부호화하는 방법에 대한 일 실시예를 흐름도로 도시한 것이다.
먼저, 필터뱅크 분석(filterbank analysis)를 수행하여 음성(speech) 신호 또는 음악(music) 신호와 같은 오디오 신호를 주파수 도메인과 시간 도메인으로 동 시에 표현할 수 있도록 변환한다(제1300단계). 제1300단계에서는 QMF(Quadrature Mirror Filterbank)와 같은 필터뱅크를 사용하여 구현할 수 있다. 그러나 제1300단계에서 반드시 주파수 도메인과 시간 도메인을 모두 표현해야 하는 것은 아니다. 제1300단계에서는 FFT(Fast Fourier Transform) 또는 MDCT(Modified Discrete Cosine Transform)와 같은 필터뱅크를 이용하여 오디오 신호를 주파수 도메인으로만 변환하여 실시할 수도 있다.
제1300단계에서 변환된 신호 가운데 기 설정된 주파수 보다 큰 영역에 마련된 고주파수 신호를 기 설정된 주파수 보다 작은 영역에 마련된 저주파수 신호를 이용하여 부호화한다(제1310단계). 다시 말하면, 제1310단계에서는 복호화기에서 복호화된 저주파수 신호를 기 설정된 주파수 보다 큰 영역에 그대로 복사하거나 기 설정된 주파수를 기준으로 폴딩(folding)하여 생성된 신호에 부가될 노이즈의 양인 노이즈-플로어 레벨을 부호화한다. 도 10에서 제1310단계의 일 실시예에 해당하는 고주파수 신호 부호화 방법을 도시하고 있으며 그 상세한 설명은 전술하였다. 도 10에 도시된 고주파수 신호 부호화 방법의 실시예에서는 제1300단계에서 변환된 신호로 노이즈-플로어 레벨을 계산하고, 보이싱 레벨을 계산하며, 고주파수 신호의 포락선을 표현할 수 있는 파라미터를 추출한다.
원 신호인 오디오 신호를 기 설정된 샘플링 레이트(sampling rate)로 다운 샘플링(down-sampling)한다(제1320단계). 여기서, 기 설정된 샘플링 레이트는 CELP(Coded-Excited Linear Prediction) 방식에 의해 부호화하는 데 적합한 샘플링 레이트일 수 있다. 또한, 제1320단계에서 다운-샘플링함에 있어서, 기 설정된 주 파수 보다 작은 신호에서만 샘플링(sampling)함으로써 저주파수 신호만 샘플링할 수 있다.
제1320단계에서 다운 샘플링된 저주파수 신호를 주파수 도메인에서 부호화한다(제1330단계). 예를 들어, 제1330단계에서는 제1320단계에서 다운 샘플링된 저주파수 신호를 주파수 도메인으로 변환한 후 양자화하고 엔트로피(entropy) 부호화한다.
제1310단계에서 갱신되어 부호화된 노이즈-플로어 레벨과 고주파수 신호의 포락선을 나타낼 수 있는 파라미터 및 제1330단계에서 부호화된 결과를 포함하여 다중화함으로써 비트스트림을 생성한다(제1340단계).
도 14는 본 발명에 의한 고주파수 신호 부호화 방법의 실시예를 적용하여 오디오 신호를 부호화하는 방법에 대한 일 실시예를 흐름도로 도시한 것이다.
먼저, 필터뱅크 분석(filterbank analysis)를 수행하여 원 신호에 해당하는 음성(speech) 신호 또는 음악(music) 신호와 같은 오디오 신호를 주파수 도메인과 시간 도메인으로 동시에 표현할 수 있도록 변환한다(제1400단계). 제1400단계에서는 QMF(Quadrature Mirror Filterbank)와 같은 필터뱅크를 사용하여 구현할 수 있다. 그러나 제1400단계에서 반드시 주파수 도메인과 시간 도메인을 모두 표현해야 하는 것은 아니다. 제1400단계에서는 FFT(Fast Fourier Transform) 또는 MDCT(Modified Discrete Cosine Transform)와 같은 필터뱅크를 이용하여 오디오 신호를 주파수 도메인으로만 변환할 수도 있다.
원 신호에 해당하는 오디오 신호를 기 설정된 샘플링 레이트(sampling rate) 로 다운 샘플링(down-sampling)한다(제1405단계). 여기서, 기 설정된 샘플링 레이트는 CELP(Coded-Excited Linear Prediction) 방식에 의해 부호화하는 데 적합한 샘플링 레이트일 수 있다. 또한, 제1405단계에서 다운-샘플링함에 있어서, 기 설정된 주파수 보다 작은 신호에서만 샘플링(sampling)함으로써 저주파수 신호만 샘플링할 수 있다.
CELP에 의해 부호화하는 방식 및 주파수 도메인에서 부호화하는 방식 가운데 기 설정된 기준에 따라 제1405단계에서 다운-샘플링된 저주파수 신호를 부호화할 방식을 선택한다(제1410단계). 그리고 제1410단계에서는 제1405단계에서 다운-샘플링된 저주파수 신호의 각 서브-밴드(sub-band)가 CELP에 의해 부호화하는 방식 및 주파수 도메인에서 부호화하는 방식 가운데 어느 방식에 의해 부호화되었는지 여부를 나타내는 정보를 부호화한다.
제1410단계에서 CELP에 의해 부호화하는 방식이 선택되면, 제1410단계에서 다운-샘플링된 저주파수 신호를 CELP 방식에 의해 부호화한다(제1415단계). 여기서, CELP 방식은 신호에서 음성을 분석하여 음성의 특징을 제거한 후 그 오차 신호를 코드북(codebook)에 의해 부호화하는 방식을 말한다. 그러나 제1415단계에서는 CELP 방식에 한정하여 실시해야 하는 것은 아니며 시간 도메인에서 오디오 신호를 부호화하는 모든 방식으로 실시할 수 있다.
제1410단계에서 주파수 도메인에서 부호화하는 방식이 선택되면, 제1405단계에서 다운 샘플링된 저주파수 신호를 주파수 도메인에서 부호화한다(제1420단계). 예를 들어, 제1420단계에서는 제1405단계에서 다운 샘플링된 저주파수 신호를 주파 수 도메인으로 변환한 후 양자화하고 엔트로피(entropy) 부호화한다.
제1400단계에서 변환된 신호 가운데 고주파수 신호의 노이즈-플로어 레벨(noise-floor level)을 계산한다(제1425단계). 여기서, 노이즈-플로어 레벨은 복호화기에서 복원되는 고주파수 신호에 부가될 노이즈의 양을 말한다.
제1425단계에서는 노이즈-플로어 레벨을 신호의 스펙트럼에서 최저 포인트들에 의해 결정되는 스펙트럴 포락선(spectral envelope)과 신호의 스펙트럼에서 최고 포인트들에 의해 결정되는 스펙트럴 포락선 사이의 차이값으로 계산할 수 있다.
또한, 제1425단계에서는 노이즈-플로어 레벨을 고주파수 신호의 토널리티(tonality)와 고주파수 신호를 부호화하는 데 이용되는 기 설정된 주파수 보다 작은 영역에 마련된 저주파수 신호의 토널리티를 비교하여 노이즈-플로어 레벨을 계산할 수도 있다. 이러한 방식으로 제1425단계에서 노이즈-플로어 레벨을 계산할 경우, 저주파수 신호의 토널리티가 고주파수 신호의 토널리티 보다 클수록 복호화기에서 고주파수 신호에 노이즈를 많이 부가하도록 노이즈-플로어 레벨을 계산한다.
제1410단계에서 CELP 방식이 선택되어 저주파수 신호가 부호화되었는지 여부를 판단한다(제1430단계).
만일 제1430단계에서 저주파수 신호가 CELP 방식으로 부호화되었다고 판단되면, 제1405단계에서 다운-샘플링된 신호 또는 제1415단계에서 부호화하는 과정에서 생성된 파라미터를 이용하여 고주파수 신호의 보이싱 레벨(voicing level)을 계산 한다(제1435단계). 여기서, 보이싱 레벨은 신호에 포함된 유성음 또는 무성음의 정도를 말한다. 다시 말하면, 보이싱 레벨은 신호가 유성음 또는 무성음에 가까운 정도를 말한다. 이하에서는 보이싱 레벨은 신호가 유성음에 가까운 정보라고 가정하고 실시예를 설명하기로 한다.
제1435단계에서는 제1415단계에서 부호화하는 과정에서 생성된 피치 상관도(pitch correlation) 또는 피치 예측 이득값(pitch prediction gain)을 이용하여 보이싱 레벨을 계산할 수 있다. 제1435단계에서는 피치 상관도 또는 피치 이득값 등을 이용하여 신호에 포함된 유성음의 정도를 0 내지 1 사이로 정규화하여 보이싱 레벨을 계산할 수 있다. 예를 들어, 제1435단계에서는 개루프 피치 상관도(open loop pitch correlation)을 이용하여 다음 기재된 수학식 7에 의해 보이싱 레벨을 계산할 수 있다.
[수학식 7]
VoicingLevel=1/(OpenLoopPitchCorrelation)
여기서, 'VoicingLevel'은 제1435단계에서 계산된 보이싱 레벨이고, 'OpenLoopPitchCorrelation'은 개루프 피치 상관도를 말한다.
제1435단계에서 계산된 보이싱 레벨을 이용하여 제1425단계에서 계산된 노이즈-플로어 레벨을 갱신한다(제1440단계). 보다 상세하게 설명하면, 제1440단계에서는 제1435단계에서 계산된 보이싱 레벨이 유성음의 정도가 높다고 나타낼수록 제1435단계에서 계산된 노이즈-플로어 레벨을 감소시키고, 제1435단계에서 계산된 보이싱 레벨이 무성음의 정도가 높다고 나타낼수록 제1435단계에서 계산된 노이즈-플 로어 레벨을 조절하지 않는다. 예를 들어, 제1435단계에서는 다음 기재된 수학식 8에 의해 제1435단계에서 계산된 보이싱 레벨을 이용하여 제1425단계에서 계산된 노이즈-플로어 레벨을 갱신한다.
[수학식 8]
NewNoiseFloorLevel=NoiseFoorLevel*(1-VoicingLevel/2)
여기서, 'NewNoiseFloorLevel'은 제1440단계에서 갱신된 노이즈-플로어 레벨이고, 'NoiseFloorLevel'은 제1425단계에서 계산된 노이즈-플로어 레벨이며, 'VoicingLevel'은 제1435단계에서 유성음에 가까운 정규화된 정도가 계산된 보이싱 레벨을 말한다.
제1410단계에서 주파수 도메인에서 부호화하는 방식이 선택된 경우 제1425단계에서 계산된 노이즈-플로어 레벨을 부호화하고, 제1410단계에서 CELP 방식이 선택된 경우 제1440단계에서 갱신된 노이즈-플로어 레벨을 부호화한다(제1445단계).
고주파수 신호의 포락선을 표현할 수 있는 파라미터를 추출한다(제1450단계). 예를 들어, 제1450단계에서는 고주파수 신호의 각 서브-밴드(sub-band)별 에너지 값을 계산한다.
제1415단계 또는 제1420단계에서 부호화된 결과와 저주파수 신호의 각 서브-밴드가 CELP에 의해 부호화하는 방식 및 주파수 도메인에서 부호화하는 방식 가운데 어느 방식에 의해 부호화되었는지 여부를 나타내는 정보, 제1445단계 부호화된 노이즈-플로어 레벨, 제1450단계에서 추출된 고주파수 신호의 포락선을 나타낼 수 있는 파라미터를 포함하여 다중화함으로써 비트스트림을 생성한다(제1455단계).
복호화 방법
도 15는 본 발명에 의한 고주파수 신호 복호화 방법에 대한 일 실시예를 흐름도로 도시한 것이다.
먼저, 기 설정된 주파수 보다 큰 영역에 마련된 고주파수 신호의 노이즈-플로어 레벨(noise-floor level)을 복호화한다(제1500단계). 여기서, 노이즈-플로어 레벨은 복호화기에서 복원되는 고주파수 신호에 부가될 노이즈의 양을 말한다.
이러한 노이즈-플로어 레벨은 신호의 스펙트럼에서 최저 포인트들에 의해 결정되는 스펙트럴 포락선(spectral envelope)과 신호의 스펙트럼에서 최고 포인트들에 의해 결정되는 스펙트럴 포락선 사이의 차이값으로 계산될 수 있다.
또한, 노이즈-플로어 레벨은 고주파수 신호의 토널리티(tonality)와 고주파수 신호를 부호화하는 데 이용되는 기 설정된 주파수 보다 작은 영역에 마련된 저주파수 신호의 토널리티를 비교하여 노이즈-플로어 레벨을 계산될 수도 있다. 이러한 방식으로 노이즈-플로어 레벨을 계산할 경우, 저주파수 신호의 토널리티가 고주파수 신호의 토널리티 보다 클수록 복호화기에서 고주파수 신호에 노이즈를 많이 부가하도록 노이즈-플로어 레벨을 계산된다.
복호화기에서 복호화된 저주파수 신호의 보이싱 레벨(voicing level)을 계산한다(제1510단계). 여기서, 보이싱 레벨은 신호에 포함된 유성음 또는 무성음의 정도를 말한다. 다시 말하면, 보이싱 레벨은 신호가 유성음 또는 무성음에 가까운 정도를 말한다. 이하에서는 보이싱 레벨은 신호가 유성음에 가까운 정보라고 가정하고 실시예를 설명하기로 한다.
제1510단계에서는 피치 상관도(pitch correlation) 또는 피치 예측 이득값(pitch prediction gain)을 이용하여 보이싱 레벨을 계산할 수 있다. 제1510단계에서는 피치 상관도 또는 피치 이득값 등을 입력받아 신호에 포함된 유성음의 정도를 0 내지 1 사이로 정규화하여 보이싱 레벨을 계산할 수 있다. 예를 들어, 제1510단계는 개루프 피치 상관도(open loop pitch correlation)를 이용하여 다음 기재된 수학식 9에 의해 보이싱 레벨을 계산할 수 있다.
[수학식 9]
VoicingLevel=1/(OpenLoopPitchCorrelation)
여기서, 'VoicingLevel'은 제1510단계에서 계산된 보이싱 레벨이고, 'OpenLoopPitchCorrelation'은 개루프 피치 상관도를 말한다.
제1510단계에서 계산된 보이싱 레벨을 이용하여 제1500단계에서 복호화된 노이즈-플로어 레벨을 갱신한다(제1520단계). 보다 상세하게 설명하면, 제1520단계에서는 제1510단계에서 계산된 보이싱 레벨이 유성음의 정도가 높다고 나타낼수록 제1500단계에서 복호화된 노이즈-플로어 레벨을 감소시키고, 제1510단계에서 계산된 보이싱 레벨이 무성음의 정도가 높다고 나타낼수록 제1500단계에서 계산된 노이즈-플로어 레벨을 조절하지 않는다. 예를 들어, 제1520단계에서는 다음 기재된 수학식 10에 의해 제1510단계에서 계산된 보이싱 레벨을 이용하여 제1500단계에서 복호화된 노이즈-플로어 레벨을 갱신한다.
[수학식 10]
NewNoiseFloorLevel=NoiseFoorLevel*(1-VoicingLevel/2)
여기서, 'NewNoiseFloorLevel'은 제1520단계에서 갱신된 노이즈-플로어 레벨이고, 'NoiseFloorLevel'은 제1500단계에서 복호화된 노이즈-플로어 레벨이며, 'VoicingLevel'은 제1510단계에서 유성음에 가까운 정규화된 정도가 계산된 보이싱 레벨을 말한다.
음성 신호를 부호화하거나 복호화할 경우 기존의 SBR 기술에서 고주파수 신호를 복호화함에 있어서 과도하게 노이즈를 부가하므로 유성음 구간에서 잡음이 발생하게 되는 문제점을 갖는다. 다시 말해, 음성 신호는 특성상 유성음 구간이 저주파수 신호의 경우 토널(tonal)한 특성이 강하고 고주파수 신호의 경우 노이즈 성향이 강하기 때문에 기존의 SBR 기술에서는 노이즈를 상당히 많이 부가한다. 그러나 본 발명의 실시예에 따르면 제1500단계에서 복호화된 노이즈-플로어 레벨을 제1520단계에서 갱신함으로써 유성음 구간에서 잡음이 감소되는 효과를 갖는다.
기 설정된 임의의 방식으로 랜덤 노이즈 신호(random noise signal)를 생성하고, 제1520단계에서 갱신된 노이즈-플로어 레벨에 따라 랜덤 노이즈 신호를 조절한다(제1530단계).
복호화기에서 복호화된 저주파수 신호를 이용하여 고주파수 신호를 생성한다(제1540단계). 제1540단계에서는 복호화기에서 복호화된 저주파수 신호를 기 설정된 주파수 보다 큰 영역인 고주파수 영역에 그대로 복사하거나 기 설정된 주파수를 기준으로 폴딩(folding)하여 생성함으로써 고주파수 신호를 생성한다.
고주파수 신호의 포락선을 표현할 수 있는 파라미터를 복호화하여 제1540단계에서 생성된 고주파수 신호의 포락선을 조절한다(제1545단계).
제1545단계에서 조절된 고주파수 신호에 제1530단계에서 조절된 랜덤 노이즈 신호를 부가한다(제1550단계).
도 16은 본 발명에 의한 고주파수 신호 복호화 방법의 실시예를 적용하여 오디오 신호를 복호화하는 방법에 대한 일 실시예를 흐름도로 도시한 것이다.
먼저, 부호화단으로부터 비트스트림을 입력받아 역다중화한다(제1600단계). 제1600단계에서 역다중화하는 비트스트림에는 CELP 방식에 의하여 기 설정된 주파수 보다 작은 영역에 마련된 저주파수 신호가 부호화된 결과, 기 설정된 주파수 보다 큰 영역에 마련된 고주파수 신호의 노이즈-플로어 레벨, 고주파수 신호의 포락선을 나타낼 수 있는 파라미터, 그 외 저주파수 신호를 이용하여 고주파수 신호를 복호화할 수 있는 파라미터 등이 포함될 수 있다.
제1600단계에서 역다중화된 CELP 방식에 의하여 저주파수 신호가 부호화된 결과를 복호화함으로써 저주파수 신호를 복원한다(제1610단계). 여기서, CELP 방식은 신호에서 음성을 분석하여 음성의 특징을 제거한 후 그 오차 신호를 코드북(codebook)에 의해 부호화하는 방식을 말한다. 그러나 제1610단계는 CELP 방식에 한정하여 실시해야 하는 것은 아니다. CELP 방식은 시간 도메인에서 오디오 신호를 복호화하는 일 실시예에 지나지 않으며, 제1610단계는 시간 도메인에서 오디오 신호를 복호화하는 모든 방식으로 실시할 수 있다.
필터뱅크 분석(filterbank analysis)을 수행하여 제1610단계에서 복호화된 저주파수 신호를 주파수 도메인과 시간 도메인으로 동시에 표현할 수 있도록 변환한다(제1620단계). 제1620단계에서는 QMF(Quadrature Mirror Filterbank)와 같은 필터뱅크를 사용하여 구현할 수 있다. 그러나 제1620단계에서 반드시 주파수 도메인과 시간 도메인을 모두 표현해야 하는 것은 아니다. 제1620단계에서는 FFT(Fast Fourier Transform) 또는 MDCT(Modified Discrete Cosine Transform)와 같은 필터뱅크를 이용하여 제1610단계에서 복호화된 저주파수 신호를 주파수 도메인으로만 변환할 수도 있다.
제1620단계에서 변환된 저주파수 신호를 이용하여 보이싱 레벨로 갱신된 노이즈-플로어 레벨에 따라 SBR 방식에 의해 고주파수 신호를 복원한다(제1630단계). 도 15에서 제1630단계의 실시예에 해당하는 고주파수 신호 복호화 방법의 실시예를 도시하고 있으며 그 상세한 설명은 전술하였다.
제1620단계에서 수행하는 변환의 역과정으로 필터뱅크 합성(filterbank synthesis)를 수행함으로써 제1610단계에서 복호화된 저주파수 신호와 제1630단계에서 복원된 고주파수 신호를 합성하여 시간 도메인으로 역변환한다(제1640단계). 제1640단계에서는 필터뱅크 합성을 수행함으로써 모든 주파수 대역에 대한 오디오 신호가 복원된다. 제1640단계에서는 QMF와 같이 주파수 도메인과 시간 도메인으로 동시에 표현된 신호를 시간 도메인으로 역변환하는 필터뱅크를 사용하여 구현할 수 있다. 또한, 제1640단계에서는 IFFT(Inverse Fast Fourier Transform) 또는 IMDCT(Inverse Modified Discrete Cosine Transform)와 같은 필터뱅크를 이용하여 주파수 도메인으로만 표현된 신호를 시간 도메인으로 역변환할 수도 있다.
도 17은 본 발명에 의한 고주파수 신호 복호화 방법의 실시예를 적용하여 오디오 신호를 복호화하는 방법에 대한 일 실시예를 흐름도로 도시한 것이다.
먼저, 부호화단으로부터 비트스트림을 입력받아 역다중화한다(제1700단계). 제1700단계에서 역다중화하는 비트스트림에는 주파수 도메인에서 기 설정된 주파수 보다 작은 영역에 마련된 저주파수 신호가 부호화된 결과, 기 설정된 주파수 보다 큰 영역에 마련된 고주파수 신호의 노이즈-플로어 레벨, 고주파수 신호의 포락선을 나타낼 수 있는 파라미터, 그 외 저주파수 신호를 이용하여 고주파수 신호를 복호화할 수 있는 파라미터 등이 포함될 수 있다.
제1700단계에서 역다중화된 주파수 도메인에서 저주파수 신호가 부호화된 결과를 복호화함으로써 주파수 도메인에서 저주파수 신호를 복원한다(제1710단계). 예를 들어, 제1710단계에서는 부호화기에서 부호화된 신호를 엔트로피(entropy) 복호화한 후 역양자하고 시간 도메인으로 역변환함으로써 저주파수 신호를 복원할 수 있다.
필터뱅크 분석(filterbank analysis)을 수행하여 제1710단계에서 복호화된 저주파수 신호를 주파수 도메인과 시간 도메인으로 동시에 표현할 수 있도록 변환한다(제1720단계). 제1720단계에서는 QMF(Quadrature Mirror Filterbank)와 같은 필터뱅크를 사용하여 구현할 수 있다. 그러나 제1720단계에서 반드시 주파수 도메인과 시간 도메인을 모두 표현해야 하는 것은 아니다. 제1720단계에서는 FFT(Fast Fourier Transform) 또는 MDCT(Modified Discrete Cosine Transform)와 같은 필터뱅크를 이용하여 제1710단계에서 복호화된 저주파수 신호를 주파수 도메인으로만 변환할 수도 있다.
제1720단계에서 변환된 저주파수 신호를 이용하여 보이싱 레벨로 갱신된 노 이즈-플로어 레벨에 따라 SBR 방식에 의해 고주파수 신호를 복원한다(제1730단계). 도 15에서 제1730단계의 실시예에 해당하는 고주파수 신호 복호화 방법의 실시예를 도시하고 있으며 그 상세한 설명은 전술하였다.
제1720단계에서 수행하는 변환의 역과정으로 필터뱅크 합성(filterbank synthesis)를 수행함으로써 제1710단계에서 복호화된 저주파수 신호와 제1730단계에서 복원된 고주파수 신호를 합성하여 시간 도메인으로 역변환한다(제1740단계). 제1740단계에서는 역변환함으로써 모든 주파수 대역에 대해 오디오 신호가 복원된다. 제1740단계에서는 QMF와 같이 주파수 도메인과 시간 도메인으로 동시에 표현된 신호를 시간 도메인으로 역변환하는 필터뱅크를 사용하여 구현할 수 있다. 또한, 제1740단계에서는 IFFT(Inverse Fast Fourier Transform) 또는 IMDCT(Inverse Modified Discrete Cosine Transform)와 같은 필터뱅크를 이용하여 주파수 도메인으로만 표현된 신호를 시간 도메인으로 역변환할 수도 있다.
도 18은 본 발명에 의한 고주파수 신호 복호화 방법의 실시예를 적용하여 오디오 신호를 복호화하는 방법에 대한 일 실시예를 흐름도로 도시한 것이다.
먼저, 부호화단으로부터 비트스트림을 입력받아 역다중화한다(제1800단계). 제1800단계에서 역다중화하는 비트스트림에는 주파수 도메인에서 기 설정된 주파수 보다 작은 영역에 마련된 저주파수 신호가 부호화된 결과, 기 설정된 주파수 보다 큰 영역에 마련된 고주파수 신호의 노이즈-플로어 레벨, 고주파수 신호의 포락선을 나타낼 수 있는 파라미터, 그 외 저주파수 신호를 이용하여 고주파수 신호를 복호화할 수 있는 파라미터, 저주파수 신호의 각 서브-밴드(sub-band)가 CELP에 의해 부호화하는 방식 및 주파수 도메인에서 부호화하는 방식 가운데 어느 방식에 의해 부호화되었는지 여부를 나타내는 정보 등이 포함될 수 있다.
각 서브-밴드가 CELP에 의해 부호화하는 방식 및 주파수 도메인에서 부호화하는 방식 가운데 어느 방식에 의해 부호화되었는지 여부를 판단한다(제1805단계). 제1805단계에서는 제1800단계에서 역다중화된 각 서브-밴드가 CELP에 의해 부호화하는 방식 및 주파수 도메인에서 부호화하는 방식 가운데 어느 방식에 의해 부호화되었는지 여부를 나타내는 정보를 이용하여 판단한다.
만일 제1805단계에서 CELP에 의해 부호화하는 방식으로 부호화된 서브-밴드로 판단되면, 제1800단계에서 역다중화된 CELP 방식에 의하여 부호화된 서브-밴드를 CELP 방식에 의해 복호화함으로써 저주파수 신호를 복원한다(제1810단계). 여기서, CELP 방식은 신호에서 음성을 분석하여 음성의 특징을 제거한 후 그 오차 신호를 코드북(codebook)에 의해 부호화하는 방식을 말한다. 그러나 제1810단계는 CELP 방식에 한정하여 실시해야 하는 것은 아니다. CELP 방식은 시간 도메인에서 오디오 신호를 복호화하는 일 실시예에 지나지 않으며, 제1810단계는 시간 도메인에서 오디오 신호를 복호화하는 모든 방식으로 실시할 수 있다.
만일 제1805단계에서 주파수 도메인에서 부호화하는 방식으로 부호화된 서브-밴드로 판단되면, 제1800단계에서 역다중화된 주파수 도메인에서 부호화된 서브-밴드를 주파수 도메인에서 복호화함으로써 저주파수 신호를 복원한다(제1815단계). 예를 들어, 제1710단계에서는 부호화기에서 부호화된 신호를 엔트로피(entropy) 복호화한 후 역양자하고 시간 도메인으로 역변환함으로써 저주파수 신호를 복원할 수 있다.
필터뱅크 분석(filterbank analysis)을 수행하여 제1810단계 또는 제1815단계에서 복호화된 저주파수 신호를 주파수 도메인과 시간 도메인으로 동시에 표현할 수 있도록 변환한다(제1820단계). 제1820단계에서는 QMF(Quadrature Mirror Filterbank)와 같은 필터뱅크를 사용하여 구현할 수 있다. 그러나 제1820단계에서 반드시 주파수 도메인과 시간 도메인을 모두 표현해야 하는 것은 아니다. 제1820단계에서는 FFT(Fast Fourier Transform) 또는 MDCT(Modified Discrete Cosine Transform)와 같은 필터뱅크를 이용하여 제1810단계 또는 제1815단계에서 복호화된 저주파수 신호를 주파수 도메인으로만 변환할 수도 있다.
제1800단계에서 역다중화된 고주파수 신호의 노이즈-플로어 레벨을 복호화한다(제1825단계). 여기서, 노이즈-플로어 레벨은 복호화기에서 복원되는 고주파수 신호에 부가될 노이즈의 양을 말한다.
이러한 노이즈-플로어 레벨은 신호의 스펙트럼에서 최저 포인트들에 의해 결정되는 스펙트럴 포락선(spectral envelope)과 신호의 스펙트럼에서 최고 포인트들에 의해 결정되는 스펙트럴 포락선 사이의 차이값으로 계산될 수 있다.
또한, 노이즈-플로어 레벨은 고주파수 신호의 토널리티(tonality)와 고주파수 신호를 부호화하는 데 이용되는 기 설정된 주파수 보다 작은 영역에 마련된 저주파수 신호의 토널리티를 비교하여 노이즈-플로어 레벨을 계산될 수도 있다. 이러한 방식으로 노이즈-플로어 레벨을 계산할 경우, 저주파수 신호의 토널리티가 고주파수 신호의 토널리티 보다 클수록 복호화기에서 고주파수 신호에 노이즈를 많이 부가하도록 노이즈-플로어 레벨을 계산된다.
제1825단계 후에, 저주파수 신호가 CELP에 의해 복호화하는 방식 및 주파수 도메인에서 복호화하는 방식 가운데 어떤 방식으로 복호화되었는지 여부를 판단한다(제1830단계).
제1830단계에서 저주파수 신호가 CELP에 의해 복호화되었다고 판단되면, 제1810단계에서 복호화된 저주파수 신호의 보이싱 레벨(voicing level)을 계산한다(제1835단계). 여기서, 보이싱 레벨은 신호에 포함된 유성음 또는 무성음의 정도를 말한다. 다시 말하면, 보이싱 레벨은 신호가 유성음 또는 무성음에 가까운 정도를 말한다. 이하에서는 보이싱 레벨은 신호가 유성음에 가까운 정보라고 가정하고 실시예를 설명하기로 한다.
제1835단계에서는 제1810단계에서 복호화하는 과정에서 복호화된 피치 상관도(pitch correlation) 또는 피치 예측 이득값(pitch prediction gain)을 이용하여 보이싱 레벨을 계산할 수 있다. 제1835단계에서는 피치 상관도 또는 피치 이득값 등을 입력받아 신호에 포함된 유성음의 정도를 0 내지 1 사이로 정규화하여 보이싱 레벨을 계산할 수 있다. 예를 들어, 제1835단계는 개루프 피치 상관도(open loop pitch correlation)를 이용하여 다음 기재된 수학식 11에 의해 보이싱 레벨을 계산할 수 있다.
[수학식 11]
VoicingLevel=1/(OpenLoopPitchCorrelation)
여기서, 'VoicingLevel'은 제1835단계에서 계산된 보이싱 레벨이고, 'OpenLoopPitchCorrelation'은 개루프 피치 상관도를 말한다.
제1835단계에서 계산된 보이싱 레벨을 이용하여 제1825단계에서 복호화된 노이즈-플로어 레벨을 갱신한다(제1840단계). 보다 상세하게 설명하면, 제1840단계에서는 제1835단계에서 계산된 보이싱 레벨이 유성음의 정도가 높다고 나타낼수록 제1825단계에서 복호화된 노이즈-플로어 레벨을 감소시키고, 제1840단계에서 계산된 보이싱 레벨이 무성음의 정도가 높다고 나타낼수록 제1835단계에서 계산된 노이즈-플로어 레벨을 조절하지 않는다. 예를 들어, 제1835단계에서는 다음 기재된 수학식 12에 의해 제1835단계에서 계산된 보이싱 레벨을 이용하여 제1840단계에서 복호화된 노이즈-플로어 레벨을 갱신한다.
[수학식 12]
NewNoiseFloorLevel=NoiseFoorLevel*(1-VoicingLevel/2)
여기서, 'NewNoiseFloorLevel'은 제1840단계에서 갱신된 노이즈-플로어 레벨이고, 'NoiseFloorLevel'은 제1825단계에서 복호화된 노이즈-플로어 레벨이며, 'VoicingLevel'은 제1835단계에서 유성음에 가까운 정규화된 정도가 계산된 보이싱 레벨을 말한다.
기 설정된 임의의 방식으로 랜덤 노이즈 신호(random noise signal)를 생성하고, 제1825단계에서 계산되거나 제1840단계에서 갱신된 노이즈-플로어 레벨에 따라 랜덤 노이즈 신호를 조절한다(제1845단계).
제1810단계 도는 제1815단계 복호화된 저주파수 신호를 이용하여 고주파수 신호를 생성한다(제1850단계). 제1850단계에서는 복호화기에서 복호화된 저주파수 신호를 기 설정된 주파수 보다 큰 영역인 고주파수 영역에 그대로 복사하거나 기 설정된 주파수를 기준으로 폴딩(folding)하여 생성함으로써 고주파수 신호를 생성한다.
제1800단계에서 역다중화된 고주파수 신호의 포락선을 표현할 수 있는 파라미터를 복호화하여 제1850단계에서 생성된 고주파수 신호의 포락선을 조절한다(제1855단계).
제1855단계에서 조절된 고주파수 신호에 제1845단계에서 조절된 랜덤 노이즈 신호를 부가한다(제1860단계).
제1820단계에서 수행하는 변환의 역과정으로 필터뱅크 합성(filterbank synthesis)를 수행함으로써 제1810단계 또는 제1815단계에서 복호화된 저주파수 신호와 제1860단계에서 랜덤 노이즈 신호가 부가된 고주파수 신호를 합성하여 시간 도메인으로 역변환한다(제1865단계). 제1865단계에서는 역변환함으로써 모든 주파수 대역에 대해 오디오 신호를 복원한다. 제1865단계에서는 QMF와 같이 주파수 도메인과 시간 도메인으로 동시에 표현된 신호를 시간 도메인으로 역변환하는 필터뱅크를 사용하여 구현할 수 있다. 또한, 제1865단계에서는 IFFT 또는 IMDCT와 같은 필터뱅크를 이용하여 주파수 도메인으로만 표현된 신호를 시간 도메인으로 역변환할 수도 있다.
이러한 본 발명에 대한 이해를 돕기 위하여 도면에 도시된 실시예를 참고로 설명되었으나, 이는 예시적인 것에 불과하며, 당해 분야에서 통상적 지식을 가진 자라면 이로부터 다양한 변형 및 균등한 타 실시예가 가능하다는 점을 이해할 것이 다. 따라서, 본 발명의 진정한 기술적 보호 범위는 첨부된 특허청구범위에 의해 정해져야 할 것이다.
또한, 본 발명은 컴퓨터로 읽을 수 있는 기록 매체에 컴퓨터(정보 처리 기능을 갖는 장치를 모두 포함한다)가 읽을 수 있는 코드로서 구현하는 것이 가능하다. 컴퓨터가 읽을 수 있는 기록 매체는 컴퓨터 시스템에 의하여 읽혀질 수 있는 데이터가 저장되는 모든 종류의 기록 장치를 포함한다. 컴퓨터가 읽을 수 있는 기록 장치의 예로는 ROM, RAM, CD-ROM, 자기 테이프, 플로피 디스크, 광데이터 저장 장치 등이 있다.
도 1은 본 발명에 의한 고주파수 신호 부호화 장치에 대한 일 실시예를 블록도로 도시한 것이다.
도 2는 본 발명에 의한 고주파수 신호 부호화 장치의 실시예를 적용하여 오디오 신호를 부호화하는 장치에 대한 일 실시예를 블록도로 도시한 것이다.
도 3은 본 발명에 의한 고주파수 신호 부호화 장치의 실시예를 적용하여 오디오 신호를 부호화하는 장치에 대한 일 실시예를 블록도로 도시한 것이다.
도 4는 본 발명에 의한 고주파수 신호 부호화 장치의 실시예를 적용하여 오디오 신호를 부호화하는 장치에 대한 일 실시예를 블록도로 도시한 것이다.
도 5는 본 발명에 의한 고주파수 신호 부호화 장치의 실시예를 적용하여 오디오 신호를 부호화하는 장치에 대한 일 실시예를 블록도로 도시한 것이다.
도 6은 본 발명에 의한 고주파수 신호 복호화 장치에 대한 일 실시예를 블록도로 도시한 것이다.
도 7은 본 발명에 의한 고주파수 신호 복호화 장치의 실시예를 적용하여 오디오 신호를 복호화하는 장치에 대한 일 실시예를 블록도로 도시한 것이다.
도 8은 본 발명에 의한 고주파수 신호 복호화 장치의 실시예를 적용하여 오디오 신호를 복호화하는 장치에 대한 일 실시예를 블록도로 도시한 것이다.
도 9는 본 발명에 의한 고주파수 신호 복호화 장치의 실시예를 적용하여 오디오 신호를 복호화하는 장치에 대한 일 실시예를 블록도로 도시한 것이다.
도 10은 본 발명에 의한 고주파수 신호 부호화 방법에 대한 일 실시예를 흐 름도로 도시한 것이다.
도 11는 본 발명에 의한 고주파수 신호 부호화 방법의 실시예를 적용하여 오디오 신호를 부호화하는 방법에 대한 일 실시예를 흐름도로 도시한 것이다.
도 12는 본 발명에 의한 고주파수 신호 부호화 방법의 실시예를 적용하여 오디오 신호를 부호화하는 방법에 대한 일 실시예를 흐름도로 도시한 것이다.
도 13은 본 발명에 의한 고주파수 신호 부호화 방법의 실시예를 적용하여 오디오 신호를 부호화하는 방법에 대한 일 실시예를 흐름도로 도시한 것이다.
도 14는 본 발명에 의한 고주파수 신호 부호화 방법의 실시예를 적용하여 오디오 신호를 부호화하는 방법에 대한 일 실시예를 흐름도로 도시한 것이다.
도 15는 본 발명에 의한 고주파수 신호 복호화 방법에 대한 일 실시예를 흐름도로 도시한 것이다.
도 16은 본 발명에 의한 고주파수 신호 복호화 방법의 실시예를 적용하여 오디오 신호를 복호화하는 방법에 대한 일 실시예를 흐름도로 도시한 것이다.
도 17은 본 발명에 의한 고주파수 신호 복호화 방법의 실시예를 적용하여 오디오 신호를 복호화하는 방법에 대한 일 실시예를 흐름도로 도시한 것이다.
도 18은 본 발명에 의한 고주파수 신호 복호화 방법의 실시예를 적용하여 오디오 신호를 복호화하는 방법에 대한 일 실시예를 흐름도로 도시한 것이다.
〈도면의 주요 부호에 대한 간단한 설명〉
100: 노이즈-플로어 레벨 계산부 110: 보이싱 레벨 계산부
120: 노이즈-플로어 레벨 갱신부
Claims (21)
- 기 설정된 주파수 보다 큰 영역에 마련된 고주파수 신호의 노이즈-플로어 레벨(noise-floor level)을 계산하는 단계; 및상기 고주파수 신호에 포함된 유성음 또는 무성음의 정도를 계산하여 상기 계산된 노이즈-플로어 레벨을 갱신하는 단계; 및상기 갱신된 노이즈-플로어 레벨을 부호화하는 단계를 포함하는 것을 특징으로 하는 고주파수 신호 부호화 방법.
- 제1항에 있어서, 상기 갱신하는 단계는상기 고주파수 신호에 유성음의 정도가 높을수록 상기 계산된 노이즈-플로어 레벨을 감소시키는 것을 특징으로 하는 고주파수 신호 부호화 방법.
- 제1항에 있어서, 상기 갱신하는 단계는피치 상관도(pitch correlation) 또는 피치 예측 이득값(pitch prediction gain)을 이용하여 상기 고주파수 신호에 포함된 유성음 또는 무성음의 정도를 계산하는 것을 특징으로 하는 고주파수 신호 부호화 방법.
- 제1항에 있어서, 상기 계산하는 단계는상기 고주파수 신호를 복호화하는 데 이용되는 기 설정된 주파수 보다 작은 영역에 마련된 저주파수 신호의 토널리티(tonality)와 원 신호의 토널리티를 비교하여 노이즈-플로어 레벨을 계산하는 것을 특징으로 하는 고주파수 신호 부호화 방법.
- 제1항에 있어서, 상기 노이즈-플로어 레벨은신호의 스펙트럼에서 최저 포인트들에 의해 결정되는 스펙트럴 포락선(spectral envelope)과 신호의 스펙트럼에서 최고 포인트들에 의해 결정되는 스펙트럴 포락선 사이의 차이값인 것을 특징으로 하는 고주파수 신호 부호화 방법.
- 기 설정된 주파수 보다 큰 영역에 마련된 고주파수 신호의 노이즈-플로어 레벨을 복호화하는 단계;기 설정된 주파수 보다 작은 영역에 마련된 저주파수 신호에 포함된 유성음 또는 무성음의 정도를 계산하여 상기 복호화된 노이즈-플로어 레벨을 갱신하는 단계; 및상기 갱신된 노이즈-플로어 레벨에 따라 노이즈 신호를 생성하는 단계를 포함하는 것을 특징으로 하는 고주파수 신호 복호화 방법.
- 제6항에 있어서, 상기 갱신하는 단계는상기 저주파수 신호에 유성음의 정도가 높을수록 상기 복호화된 노이즈-플로어 레벨을 감소시키는 것을 특징으로 하는 고주파수 신호 복호화 방법.
- 제6항에 있어서, 상기 갱신하는 단계는피치 상관도 또는 피치 예측 이득값을 이용하여 상기 저주파수 신호에 포함된 유성음 또는 무성음의 정도를 계산하는 것을 특징으로 하는 고주파수 신호 복호화 방법.
- 제6항에 있어서, 상기 노이즈-플로어 레벨은고주파수 신호를 복호화하는 데 이용되는 저주파수 신호의 토널리티와 원 신호의 토널리티를 비교하여 계산된 것을 특징으로 하는 고주파수 신호 복호화 방법.
- 제6항에 있어서, 상기 노이즈-플로어 레벨은신호의 스펙트럼에서 최저 포인트들에 의해 결정되는 스펙트럴 포락선과 신호의 스펙트럼에서 최고 포인트들에 의해 결정되는 스펙트럴 포락선 사이의 차이값인 것을 특징으로 하는 고주파수 신호 복호화 방법.
- 기 설정된 주파수 보다 큰 영역에 마련된 고주파수 신호의 노이즈-플로어 레벨을 계산하는 단계; 및상기 고주파수 신호에 포함된 유성음 또는 무성음의 정도를 계산하여 상기 계산된 노이즈-플로어 레벨을 갱신하는 단계; 및상기 갱신된 노이즈-플로어 레벨을 부호화하는 단계를 포함한 발명을 컴퓨터 에서 실행시키기 위한 프로그램을 기록한 컴퓨터로 읽을 수 있는 기록 매체.
- 기 설정된 주파수 보다 큰 영역에 마련된 고주파수 신호의 노이즈-플로어 레벨을 계산하는 계산부; 및상기 고주파수 신호에 포함된 유성음 또는 무성음의 정도를 계산하여 상기 계산된 노이즈-플로어 레벨을 갱신하는 갱신부; 및상기 갱신된 노이즈-플로어 레벨을 부호화하는 부호화부를 포함하는 것을 특징으로 하는 고주파수 신호 부호화 장치.
- 제12항에 있어서, 상기 갱신부는상기 고주파수 신호에 유성음의 정도가 높을수록 상기 계산된 노이즈-플로어 레벨을 감소시키는 것을 특징으로 하는 고주파수 신호 부호화 장치.
- 제12항에 있어서, 상기 갱신부는피치 상관도 또는 피치 예측 이득값을 이용하여 고주파수 신호에 포함된 유성음 또는 무성음의 정도를 계산하는 것을 특징으로 하는 고주파수 신호 부호화 장치.
- 제12항에 있어서, 상기 계산부는고주파수 신호를 복호화하는 데 이용되는 기 설정된 주파수 보다 작은 영역 에 마련된 저주파수 신호의 토널리티와 원 신호의 토널리티를 비교하여 노이즈-플로어 레벨을 계산하는 것을 특징으로 하는 고주파수 신호 부호화 장치.
- 제12항에 있어서, 상기 노이즈-플로어 레벨은신호의 스펙트럼에서 최저 포인트들에 의해 결정되는 스펙트럴 포락선과 신호의 스펙트럼에서 최고 포인트들에 의해 결정되는 스펙트럴 포락선 사이의 차이값인 것을 특징으로 하는 고주파수 신호 부호화 장치.
- 기 설정된 주파수 보다 큰 영역에 마련된 고주파수 신호의 노이즈-플로어 레벨을 복호화하는 복호화부;기 설정된 주파수 보다 작은 영역에 마련된 저주파수 신호에 포함된 유성음 또는 무성음의 정도를 계산하여 상기 복호화된 노이즈-플로어 레벨을 갱신하는 갱신부; 및상기 갱신된 노이즈-플로어 레벨에 따라 노이즈 신호를 생성하는 노이즈 생성부를 포함하는 것을 특징으로 하는 고주파수 신호 복호화 장치.
- 제17항에 있어서, 상기 갱신부는상기 저주파수 신호에 유성음의 정도가 높을수록 상기 복호화된 노이즈-플로어 레벨을 감소시키는 것을 특징으로 하는 고주파수 신호 복호화 장치.
- 제17항에 있어서, 상기 갱신부는피치 상관도 또는 피치 예측 이득값을 이용하여 상기 저주파수 신호에 포함된 유성음 또는 무성음의 정도를 계산하는 것을 특징으로 하는 고주파수 신호 복호화 장치.
- 제17항에 있어서, 상기 노이즈-플로어 레벨은고주파수 신호를 복호화하는 데 이용되는 저주파수 신호의 토널리티와 원 신호의 토널리티를 비교하여 계산된 것을 특징으로 하는 고주파수 신호 복호화 장치.
- 제17항에 있어서, 상기 노이즈-플로어 레벨은신호의 스펙트럼에서 최저 포인트들에 의해 결정되는 스펙트럴 포락선과 신호의 스펙트럼에서 최고 포인트들에 의해 결정되는 스펙트럴 포락선 사이의 차이값인 것을 특징으로 하는 고주파수 신호 복호화 장치.
Priority Applications (6)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020070109823A KR101373004B1 (ko) | 2007-10-30 | 2007-10-30 | 고주파수 신호 부호화 및 복호화 장치 및 방법 |
US12/256,704 US8321229B2 (en) | 2007-10-30 | 2008-10-23 | Apparatus, medium and method to encode and decode high frequency signal |
EP08167938A EP2056294B1 (en) | 2007-10-30 | 2008-10-30 | Apparatus, Medium and Method to Encode and Decode High Frequency Signal |
US13/684,879 US9177569B2 (en) | 2007-10-30 | 2012-11-26 | Apparatus, medium and method to encode and decode high frequency signal |
US14/879,853 US9818429B2 (en) | 2007-10-30 | 2015-10-09 | Apparatus, medium and method to encode and decode high frequency signal |
US15/810,636 US10255928B2 (en) | 2007-10-30 | 2017-11-13 | Apparatus, medium and method to encode and decode high frequency signal |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020070109823A KR101373004B1 (ko) | 2007-10-30 | 2007-10-30 | 고주파수 신호 부호화 및 복호화 장치 및 방법 |
Publications (2)
Publication Number | Publication Date |
---|---|
KR20090043983A KR20090043983A (ko) | 2009-05-07 |
KR101373004B1 true KR101373004B1 (ko) | 2014-03-26 |
Family
ID=40227557
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
KR1020070109823A KR101373004B1 (ko) | 2007-10-30 | 2007-10-30 | 고주파수 신호 부호화 및 복호화 장치 및 방법 |
Country Status (3)
Country | Link |
---|---|
US (1) | US8321229B2 (ko) |
EP (1) | EP2056294B1 (ko) |
KR (1) | KR101373004B1 (ko) |
Families Citing this family (34)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR101434198B1 (ko) * | 2006-11-17 | 2014-08-26 | 삼성전자주식회사 | 신호 복호화 방법 |
KR101505831B1 (ko) * | 2007-10-30 | 2015-03-26 | 삼성전자주식회사 | 멀티 채널 신호의 부호화/복호화 방법 및 장치 |
KR100970446B1 (ko) * | 2007-11-21 | 2010-07-16 | 한국전자통신연구원 | 주파수 확장을 위한 가변 잡음레벨 결정 장치 및 그 방법 |
EP2352147B9 (en) * | 2008-07-11 | 2014-04-23 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | An apparatus and a method for encoding an audio signal |
JP5551694B2 (ja) * | 2008-07-11 | 2014-07-16 | フラウンホッファー−ゲゼルシャフト ツァ フェルダールング デァ アンゲヴァンテン フォアシュンク エー.ファオ | 多くのスペクトルエンベロープを計算するための装置および方法 |
JP5754899B2 (ja) | 2009-10-07 | 2015-07-29 | ソニー株式会社 | 復号装置および方法、並びにプログラム |
ES2906085T3 (es) * | 2009-10-21 | 2022-04-13 | Dolby Int Ab | Sobremuestreo en un banco de filtros de reemisor combinado |
JP5850216B2 (ja) | 2010-04-13 | 2016-02-03 | ソニー株式会社 | 信号処理装置および方法、符号化装置および方法、復号装置および方法、並びにプログラム |
JP5609737B2 (ja) | 2010-04-13 | 2014-10-22 | ソニー株式会社 | 信号処理装置および方法、符号化装置および方法、復号装置および方法、並びにプログラム |
US8560330B2 (en) * | 2010-07-19 | 2013-10-15 | Futurewei Technologies, Inc. | Energy envelope perceptual correction for high band coding |
JP6075743B2 (ja) | 2010-08-03 | 2017-02-08 | ソニー株式会社 | 信号処理装置および方法、並びにプログラム |
MY156027A (en) | 2010-08-12 | 2015-12-31 | Fraunhofer Ges Forschung | Resampling output signals of qmf based audio codecs |
KR101826331B1 (ko) * | 2010-09-15 | 2018-03-22 | 삼성전자주식회사 | 고주파수 대역폭 확장을 위한 부호화/복호화 장치 및 방법 |
JP5707842B2 (ja) | 2010-10-15 | 2015-04-30 | ソニー株式会社 | 符号化装置および方法、復号装置および方法、並びにプログラム |
US8868432B2 (en) * | 2010-10-15 | 2014-10-21 | Motorola Mobility Llc | Audio signal bandwidth extension in CELP-based speech coder |
US8924200B2 (en) * | 2010-10-15 | 2014-12-30 | Motorola Mobility Llc | Audio signal bandwidth extension in CELP-based speech coder |
KR20120064582A (ko) * | 2010-12-09 | 2012-06-19 | 한국전자통신연구원 | 멀티미디어 컨텐츠 검색 방법 및 장치 |
ES2967508T3 (es) | 2010-12-29 | 2024-04-30 | Samsung Electronics Co Ltd | Aparato y procedimiento de codificación de extensión de ancho de banda de alta frecuencia |
WO2012103686A1 (en) * | 2011-02-01 | 2012-08-09 | Huawei Technologies Co., Ltd. | Method and apparatus for providing signal processing coefficients |
SG192748A1 (en) | 2011-02-14 | 2013-09-30 | Fraunhofer Ges Forschung | Linear prediction based coding scheme using spectral domain noise shaping |
WO2012110478A1 (en) | 2011-02-14 | 2012-08-23 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Information signal representation using lapped transform |
TWI469136B (zh) * | 2011-02-14 | 2015-01-11 | Fraunhofer Ges Forschung | 在一頻譜域中用以處理已解碼音訊信號之裝置及方法 |
CA2827266C (en) | 2011-02-14 | 2017-02-28 | Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. | Apparatus and method for coding a portion of an audio signal using a transient detection and a quality result |
MX2013009301A (es) | 2011-02-14 | 2013-12-06 | Fraunhofer Ges Forschung | Aparato y metodo para ocultamiento de error en voz unificada con bajo retardo y codificacion de audio. |
WO2012110416A1 (en) | 2011-02-14 | 2012-08-23 | Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. | Encoding and decoding of pulse positions of tracks of an audio signal |
CN103035248B (zh) | 2011-10-08 | 2015-01-21 | 华为技术有限公司 | 音频信号编码方法和装置 |
CN103928029B (zh) | 2013-01-11 | 2017-02-08 | 华为技术有限公司 | 音频信号编码和解码方法、音频信号编码和解码装置 |
JP6179122B2 (ja) * | 2013-02-20 | 2017-08-16 | 富士通株式会社 | オーディオ符号化装置、オーディオ符号化方法、オーディオ符号化プログラム |
RU2740690C2 (ru) * | 2013-04-05 | 2021-01-19 | Долби Интернешнл Аб | Звуковые кодирующее устройство и декодирующее устройство |
FR3008533A1 (fr) | 2013-07-12 | 2015-01-16 | Orange | Facteur d'echelle optimise pour l'extension de bande de frequence dans un decodeur de signaux audiofrequences |
EP2830061A1 (en) | 2013-07-22 | 2015-01-28 | Fraunhofer Gesellschaft zur Förderung der angewandten Forschung e.V. | Apparatus and method for encoding and decoding an encoded audio signal using temporal noise/patch shaping |
JP6531649B2 (ja) | 2013-09-19 | 2019-06-19 | ソニー株式会社 | 符号化装置および方法、復号化装置および方法、並びにプログラム |
JP6593173B2 (ja) | 2013-12-27 | 2019-10-23 | ソニー株式会社 | 復号化装置および方法、並びにプログラム |
US10650834B2 (en) * | 2018-01-10 | 2020-05-12 | Savitech Corp. | Audio processing method and non-transitory computer readable medium |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2000045379A2 (en) | 1999-01-27 | 2000-08-03 | Coding Technologies Sweden Ab | Enhancing perceptual performance of sbr and related hfr coding methods by adaptive noise-floor addition and noise substitution limiting |
WO2003046891A1 (en) | 2001-11-29 | 2003-06-05 | Coding Technologies Ab | Methods for improving high frequency reconstruction |
Family Cites Families (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CA2032765C (en) * | 1989-12-21 | 1995-12-12 | Hidetaka Yoshikawa | Variable rate encoding and communicating apparatus |
SE0004163D0 (sv) * | 2000-11-14 | 2000-11-14 | Coding Technologies Sweden Ab | Enhancing perceptual performance of high frequency reconstruction coding methods by adaptive filtering |
US6895375B2 (en) * | 2001-10-04 | 2005-05-17 | At&T Corp. | System for bandwidth extension of Narrow-band speech |
US20040138876A1 (en) | 2003-01-10 | 2004-07-15 | Nokia Corporation | Method and apparatus for artificial bandwidth expansion in speech processing |
KR100608062B1 (ko) * | 2004-08-04 | 2006-08-02 | 삼성전자주식회사 | 오디오 데이터의 고주파수 복원 방법 및 그 장치 |
JP4967618B2 (ja) * | 2006-11-24 | 2012-07-04 | 富士通株式会社 | 復号化装置および復号化方法 |
JP5103880B2 (ja) * | 2006-11-24 | 2012-12-19 | 富士通株式会社 | 復号化装置および復号化方法 |
JP4984983B2 (ja) * | 2007-03-09 | 2012-07-25 | 富士通株式会社 | 符号化装置および符号化方法 |
US8015368B2 (en) * | 2007-04-20 | 2011-09-06 | Siport, Inc. | Processor extensions for accelerating spectral band replication |
-
2007
- 2007-10-30 KR KR1020070109823A patent/KR101373004B1/ko active IP Right Grant
-
2008
- 2008-10-23 US US12/256,704 patent/US8321229B2/en active Active
- 2008-10-30 EP EP08167938A patent/EP2056294B1/en active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2000045379A2 (en) | 1999-01-27 | 2000-08-03 | Coding Technologies Sweden Ab | Enhancing perceptual performance of sbr and related hfr coding methods by adaptive noise-floor addition and noise substitution limiting |
JP2002536679A (ja) | 1999-01-27 | 2002-10-29 | コーディング テクノロジーズ スウェーデン アクチボラゲット | 情報源符号化システムの性能向上方法と装置 |
WO2003046891A1 (en) | 2001-11-29 | 2003-06-05 | Coding Technologies Ab | Methods for improving high frequency reconstruction |
Also Published As
Publication number | Publication date |
---|---|
KR20090043983A (ko) | 2009-05-07 |
EP2056294A3 (en) | 2010-02-17 |
EP2056294B1 (en) | 2011-08-31 |
EP2056294A2 (en) | 2009-05-06 |
US8321229B2 (en) | 2012-11-27 |
US20090110208A1 (en) | 2009-04-30 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
KR101373004B1 (ko) | 고주파수 신호 부호화 및 복호화 장치 및 방법 | |
KR101747918B1 (ko) | 고주파수 신호 복호화 방법 및 장치 | |
EP2301027B1 (en) | An apparatus and a method for generating bandwidth extension output data | |
JP2022123060A (ja) | 符号化オーディオ信号を復号する復号装置および復号方法 | |
JP6170520B2 (ja) | オーディオ及び/またはスピーチ信号符号化及び/または復号化方法及び装置 | |
US10255928B2 (en) | Apparatus, medium and method to encode and decode high frequency signal | |
AU2013257391B2 (en) | An apparatus and a method for generating bandwidth extension output data |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A201 | Request for examination | ||
E701 | Decision to grant or registration of patent right | ||
GRNT | Written decision to grant | ||
FPAY | Annual fee payment |
Payment date: 20190227 Year of fee payment: 6 |