[go: up one dir, main page]
More Web Proxy on the site http://driver.im/

KR102710464B1 - 스테레오 신호 인코딩 방법 및 장치 - Google Patents

스테레오 신호 인코딩 방법 및 장치 Download PDF

Info

Publication number
KR102710464B1
KR102710464B1 KR1020237021245A KR20237021245A KR102710464B1 KR 102710464 B1 KR102710464 B1 KR 102710464B1 KR 1020237021245 A KR1020237021245 A KR 1020237021245A KR 20237021245 A KR20237021245 A KR 20237021245A KR 102710464 B1 KR102710464 B1 KR 102710464B1
Authority
KR
South Korea
Prior art keywords
subbands
signal
parameter
energy
residual signal
Prior art date
Application number
KR1020237021245A
Other languages
English (en)
Other versions
KR20230098708A (ko
Inventor
빈 왕
저신 류
하이팅 리
Original Assignee
후아웨이 테크놀러지 컴퍼니 리미티드
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 후아웨이 테크놀러지 컴퍼니 리미티드 filed Critical 후아웨이 테크놀러지 컴퍼니 리미티드
Priority to KR1020247031583A priority Critical patent/KR20240145060A/ko
Publication of KR20230098708A publication Critical patent/KR20230098708A/ko
Application granted granted Critical
Publication of KR102710464B1 publication Critical patent/KR102710464B1/ko

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/008Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/0204Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders using subband decomposition
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/06Determination or coding of the spectral characteristics, e.g. of the short-term prediction coefficients
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L65/00Network arrangements, protocols or services for supporting real-time applications in data packet communication
    • H04L65/60Network streaming of media packets
    • H04L65/70Media network packetisation
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L65/00Network arrangements, protocols or services for supporting real-time applications in data packet communication
    • H04L65/60Network streaming of media packets
    • H04L65/75Media network packet handling
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L65/00Network arrangements, protocols or services for supporting real-time applications in data packet communication
    • H04L65/60Network streaming of media packets
    • H04L65/75Media network packet handling
    • H04L65/756Media network packet handling adapting media to device capabilities
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S1/00Two-channel systems
    • H04S1/007Two-channel systems in which the audio signals are in digital form
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2400/00Details of stereophonic systems covered by H04S but not provided for in its groups
    • H04S2400/03Aspects of down-mixing multi-channel audio to configurations with lower numbers of playback channels, e.g. 7.1 -> 5.1

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Acoustics & Sound (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Mathematical Physics (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)
  • Compression Or Coding Systems Of Tv Signals (AREA)

Abstract

본 출원은 스테레오 신호 인코딩 방법 및 장치를 제공한다. 상기 인코딩 방법은, 현재 프레임의 M개의 서브대역 각각의 다운믹스된 신호 에너지와 잔차 신호 에너지에 기반하여 스테레오 신호의 상기 현재 프레임의 잔차 신호 인코딩 파라미터를 결정하는 단계(301) - 상기 현재 프레임의 잔차 신호 인코딩 파라미터는 상기 M개의 서브대역의 잔차 신호를 인코딩할지를 지시하는데 사용되며, 상기 M개의 서브대역은 N개의 서브대역 중 일부이고, N은 1보다 큰 양의 정수이며, M≤N이고, M은 양의 정수임 -; 및 상기 현재 프레임의 잔차 신호 인코딩 파라미터에 기반하여, 상기 현재 프레임의 M개의 서브대역의 잔차 신호를 인코딩할지를 판정하는 단계(302)를 포함한다. 상기 인코딩 방법에 따르면, 디코딩된 스테레오 신호의 고주파수 왜곡이 최대한 감소될 수 있으며, 디코딩된 스테레오 신호의 공간감 및 사운드-이미지 안정성이 향상되어, 인코딩 품질을 향상시킬 수 있다.

Description

스테레오 신호 인코딩 방법 및 장치{METHOD AND APPARATUS FOR ENCODING STEREOPHONIC SIGNAL}
본 출원은, 2018년 5월 31일에 출원되고 발명의 명칭이 "스테레오 신호 인코딩 방법 및 장치"인 중국 특허 출원 번호 제201810549237.3호에 대한 우선권을 주장하는 바이며, 상기 문헌의 내용은 그 전체로서 원용에 의해 본 명세서에 포함된다.
본 출원은 오디오 필드에 관련되며, 더욱 상세하게 말하자면, 스테레오 신호 인코딩 방법 및 장치에 관한 것이다.
시간 도메인 또는 시간 주파수 도메인 스테레오 코딩 기술을 이용하여 스테레오 신호를 인코딩하는 일반적인 프로세스는,
좌측 채널 시간 도메인 신호 및 우측 채널 시간 도메인 신호에 대해 시간 도메인 전처리를 수행하는 단계;
시간 도메인 전처리를 통해 획득된 좌측 채널 시간 도메인 신호와 우측 채널 시간 도메인 신호에 대해 시간 도메인 분석을 수행하는 단계;
시간 도메인 전처리를 통해 획득된 좌측 채널 시간 도메인 신호와 우측 채널 시간 도메인 신호에 대해 시간 주파수 도메인 변환을 수행하여 좌측 채널 주파수 도메인 신호와 우측 채널 주파수 도메인 신호를 획득하는 단계;
시간 도메인에서 채널 간 시간차(Inter-channel Time Difference, ITD) 파라미터를 결정하는 단계;
ITD 파라미터에 기반하여 좌측 주파수 도메인 신호 및 우측 주파수 도메인 신호에 대해 시간 시프트 조정을 수행하는 단계; 및
시간 시프트 조정을 통해 획득된 좌측 채널 주파수 도메인 신호와 우측 채널 주파수 도메인 신호에 기반하여, 스테레오 파라미터, 다운믹스된 신호 및 잔차 신호를 산출하고, 스테레오 파라미터, 다운믹스된 신호 및 잔차 신호를 인코딩하는 단계이다.
종래 기술에서 코딩 레이트가 비교적(comparatively) 낮을 경우, 스테레오 파라미터와 다운믹스된 신호만이 일반적으로 인코딩되고, 코딩 레이트가 비교적 높은 경우에만 잔차 신호의 일부 또는 전부가 인코딩되는 것으로 알려져 있다. 이 경우, 디코딩된 스테레오 신호의 공간감(spatial sense)은 비교적 열악하고, 디코딩된 스테레오 신호의 사운드-이미지 안정성(sound-image stability)은 비교적 열악하다.
다른 종래 기술에서, 코딩 레이트가 비교적 낮은 경우 다운믹스된 신호 이외에, 미리 설정된 대역폭 범위를 만족하는 서브대역의 잔차 신호도 인코딩되는 것으로 알려져 있다. 이 인코딩 방법은 디코딩된 스테레오 신호의 공간감과 사운드-이미지 안정성을 향상시킬 수 있지만, 잔차 신호를 인코딩하고 다운믹스된 신호를 인코딩하는 데 사용되는 인코딩 비트의 총 수량이 고정되어 있고, 다운믹스된 신호의 인코딩 동안 저주파수 정보가 우선적으로 인코딩되기 때문에, 다운믹스된 신호가 인코딩될 때, 다운믹스된 신호에서 더 풍부한 고주파수 정보를 가진 일부 신호를 인코딩하기에 충분한 비트가 없을 수 있다. 따라서, 디코딩된 스테레오 신호의 고주파수 왜곡이 비교적 크기 때문에 인코딩 품질에 영향을 미친다.
본 출원은 디코딩된 스테레오 신호의 고주파수 왜곡이 최대한 감소되고, 디코딩된 스테레오 신호의 공간감 및 사운드-이미지 안정성이 향성되어 인코딩 품질을 향상시킬 수 있도록, 스테레오 인코딩 방법을 제공한다.
제1 측면에 따르면, 스테레오 신호 인코딩 방법이 제공된다. 상기 스테레오 인코딩 방법은, 현재 프레임의 M개의 서브대역 각각의 다운믹스된 신호 에너지와 잔차(residual) 신호 에너지에 기반하여, 스테레오 신호의 상기 현재 프레임의 잔차 신호 인코딩 파라미터를 결정하는 단계 - 상기 현재 프레임의 잔차 신호 인코딩 파라미터는 상기 M개의 서브대역의 잔차 신호를 인코딩할지를 지시하는데 사용되고, 상기 M개의 서브대역은 N개의 서브대역 중 적어도 일부이고, N은 1보다 큰 양의 정수이고, M≤N이며, M은 양의 정수임 -; 및 상기 현재 프레임의 잔차 신호 인코딩 파라미터에 기반하여, 상기 현재 프레임의 M개의 서브대역의 잔차 신호를 인코딩할지를 판정하는 단계를 포함한다.
상기 잔차 신호 인코딩 파라미터는 상기 N개의 서브대역에 있으면서 또한 미리 설정된 대역폭 범위를 만족하는 M개의 서브대역의 다운믹스된 신호 에너지와 잔차 신호 에너지에 기반하여 결정되며, 상기 M개의 서브대역 각각의 잔차 신호를 인코딩할지는 상기 잔차 신호 인코딩 파라미터에 기반하여 결정된다. 이는 코딩 레이트가 비교적 낮을 때 다운믹스된 신호만 인코딩하는 것을 방지한다. 다르게는, 미리 설정된 대역폭 범위를 만족하는 서브대역의 모든 잔차 신호를 인코딩할지가 상기 잔차 신호 인코딩 파라미터에 기반하여 결정된다. 따라서, 디코딩된 스테레오 신호의 고주파수 왜곡이 최대한 감소되면서 디코딩된 스테레오 신호의 공간감 및 사운드-이미지 안정성이 향상되어 인코딩 품질을 향상시킬 수 있다.
상기 제1 측면을 참조하여 제1 측면의 가능한 구현에서, 상기 M개의 서브대역은 상기 N개의 서브대역에서 서브대역 인덱스 번호가 미리 설정된 최대 서브대역 인덱스 번호보다 작거나 같은 M개의 서브대역이다.
선택적으로, 일 구현에서, 상기 M개의 서브대역은 상기 N개의 서브대역에서 서브대역 인덱스 번호가 미리 설정된 최소 서브대역 인덱스 번호보다 크거나 같고 미리 설정된 최대 서브대역 인덱스 번호보다 작거나 같은 M개의 서브대역이다.
상기 최소 서브대역 인덱스 번호 및/또는 상기 최대 서브대역 인덱스 번호는 상이한 코딩 레이트에 기반하여 설정된다. 상기 잔차 신호 인코딩 파라미터는 상이한 코딩 레이크 및 상기 N개의 서브대역에서 복수의 특정 서브대역의 다운믹스된 신호 에너지와 잔차 신호 에너지에 기반하여 결정되고, 상기 M개의 서브대역 각각의 잔차 신호를 인코딩할지는 상기 잔차 신호 인코딩 파라미터에 기반하여 결정된다. 이는 코딩 레이트가 비교적 낮을 때 다운믹스된 신호만 인코딩하는 것을 방지한다. 다르게는, 미리 설정된 대역폭 범위를 만족하는 서브대역의 모든 잔차 신호를 인코딩할지는 잔차 신호 인코딩 파라미터에 기반하여 결정된다. 따라서, 디코딩된 스테레오 신호의 고주파수 왜곡이 최대한 감소되면서 디코딩된 스테레오 신호의 공간감 및 사운드-이미지 안정성이 향상되어 인코딩 품질을 향상시킬 수 있다.
상기 제1 측면을 참조하여 제1 측면의 가능한 구현에서, 상기 현재 프레임의 잔차 신호 인코딩 파라미터에 기반하여, 상기 현재 프레임의 M개의 서브대역의 잔차 신호를 인코딩할지를 판정하는 단계는, 상기 현재 프레임의 잔차 신호 인코딩 파라미터와 미리 설정된 제1 임계값을 비교하는 단계 - 상기 제1 임계값은 0보다 크고 1.0보다 작음 -; 및 상기 현재 프레임의 잔차 신호 인코딩 파라미터가 상기 제1 임계값보다 작거나 같을 때, 상기 M개의 서브대역의 잔차 신호를 인코딩하지 않기로 결정하거나, 또는 상기 잔차 신호 인코딩 파라미터가 상기 제1 임계값보다 클 때, 상기 M개의 서브대역의 잔차 신호를 인코딩하기로 결정하는 단계를 포함한다.
상기 제1 임계값이 설정되고, 상기 결정된 잔차 신호 인코딩 파라미터가 상기 제1 임계값과 비교된다. 상기 M개의 서브대역 각각의 잔차 신호를 인코딩할지는 상기 잔차 신호 인코딩 파라미터와 상기 제1 임계값 사이의 비교 결과에 기반하여 결정된다. 이는 코딩 레이트가 비교적 낮을 때 다운믹스된 신호만 인코딩하는 것을 방지한다. 다르게는, 미리 설정된 대역폭 범위를 만족하는 서브대역의 모든 잔차 신호를 인코딩할지는 상기 잔차 신호 인코딩 파라미터와 상기 제1 임계값 사이의 비교 결과에 기반하여 결정된다. 따라서, 디코딩된 스테레오 신호의 고주파수 왜곡이 최대한 감소되면서 디코딩된 스테레오 신호의 공간감 및 사운드-이미지 안정성이 향상되어 인코딩 품질을 향상시킬 수 있다.
제1 측면을 참조하여 제1 측면의 가능한 구현에서, 상기 현재 프레임의 M개의 서브대역 각각의 다운믹스된 신호 에너지와 잔차 신호 에너지에 기반하여, 스테레오 신호의 상기 현재 프레임의 잔차 신호 인코딩 파라미터를 결정하는 단계는, 상기 M개의 서브대역 각각의, 상기 다운믹스된 신호 에너지와 상기 잔차 신호 에너지와 사이드 이득(side gain)에 기반하여, 상기 현재 프레임의 잔차 신호 인코딩 파라미터를 결정하는 단계를 포함한다.
상기 잔차 신호 인코딩 파라미터는 상기 M개의 서브대역 각각의, 다운믹스된 신호 에너지와 잔차 신호 에너지와 사이드 이득에 기반하여 결정되며, 상기 M개의 서브대역 각각의 잔차 신호를 인코딩할지는 상기 잔차 신호 인코딩 파라미터에 기반하여 결정된다. 이는 코딩 레이트가 비교적 낮을 때 다운믹스된 신호만 인코딩하는 것을 방지한다. 다르게는, 미리 설정된 대역폭 범위를 만족하는 서브대역의 모든 잔차 신호를 인코딩할지는 상기 잔차 신호 인코딩 파라미터에 기반하여 결정된다. 따라서, 디코딩된 스테레오 신호의 고주파수 왜곡이 최대한 감소되면서 디코딩된 스테레오 신호의 공간감 및 사운드-이미지 안정성이 향상되어 인코딩 품질을 향상시킬 수 있다.
제1 측면을 참조하여 제1 측면의 가능한 구현에서, 상기 M개의 서브대역 각각의, 상기 다운믹스된 신호 에너지와 상기 잔차 신호 에너지와 사이드 이득에 기반하여, 상기 현재 프레임의 잔차 신호 인코딩 파라미터를 결정하는 단계는, 상기 M개의 서브대역 각각의, 상기 다운믹스된 신호 에너지와 상기 잔차 신호 에너지와 상기 사이드 이득에 기반하여, 제1 파라미터를 결정하는 단계 - 상기 제1 파라미터는 상기 M개의 서브대역 각각의 상기 다운믹스된 신호 에너지와 상기 잔차 신호 에너지 사이의 값 관계를 지시함 -; 상기 M개의 서브대역 각각의 상기 다운믹스된 신호 에너지와 상기 잔차 신호 에너지에 기반하여 제2 파라미터를 결정하는 단계 - 상기 제2 파라미터는 제1 에너지 합과 제2 에너지 합 사이의 값 관계를 지시하며, 상기 제1 에너지 합은 상기 M개의 서브대역의 잔차 신호 에너지와 다운믹스된 신호 에너지의 합이고, 상기 제2 에너지 합은 상기 현재 프레임의 이전 프레임의 주파수 도메인 신호에서 M개의 서브대역의 잔차 신호 에너지와 다운믹스된 신호 에너지의 합이며, 상기 현재 프레임의 M개의 서브대역은 상기 이전 프레임의 M개의 서브대역과 동일한 서브대역 인덱스 번호를 가짐 -; 및 상기 제1 파라미터, 상기 제2 파라미터 및 상기 현재 프레임의 이전 프레임의 장기 평활화 파라미터(long-term smoothing parameter)에 기반하여 상기 현재 프레임의 상기 잔차 신호 인코딩 파라미터를 결정하는 단계를 포함한다.
제1 측면을 참조하여 제1 측면의 가능한 구현에서,상기 M개의 서브대역 각각의, 상기 다운믹스된 신호 에너지와 상기 잔차 신호 에너지와 상기 사이드 이득에 기반하여, 제1 파라미터를 결정하는 단계는, 상기 M개의 서브대역 각각의, 상기 다운믹스된 신호 에너지와 상기 잔차 신호 에너지와 상기 사이드 이득에 기반하여, M개의 에너지 파라미터를 결정하는 단계 - 상기 M개의 에너지 파라미터는 상기 M개의 서브대역 각각의 상기 다운믹스된 신호 에너지와 상기 잔차 신호 에너지 사이의 값 관계를 지시하며, 상기 M개의 에너지 파라미터는 상기 M개의 서브대역에 일대일로 대응함 -; 및 상기 M개의 에너지 파라미터 중 가장 큰 값을 갖는 에너지 파라미터를 상기 제1 파라미터로 결정하는 단계를 포함한다.
제1 측면을 참조하여 제1 측면의 가능한 구현에서, 상기 M개의 에너지 파라미터에서 서브대역 인덱스 번호가 b인 서브대역의 에너지 파라미터는 다음 수식:
을 만족하며, res_dmx_ratio[b]는 서브대역 인덱스 번호가 b인 서브대역의 에너지 파라미터를 나타내고, b는 0보다 크거나 같고 미리 설정된 최대 서브대역 인덱스 번호보다 작거나 같으며, res_cod_NRG_S[b]는 서브대역 인덱스 번호가 b인 서브대역의 잔차 신호 에너지를 나타내고, res_cod_NRG_M[b]는 서브대역 인덱스 번호가 b인 서브대역의 다운믹스된 신호 에너지를 나타내며, g(b)는 서브대역 인덱스 번호가 b인 서브대역의 사이드 이득 side_gain[b]의 함수를 나타낸다.
제1 측면을 참조하여 제1 측면의 가능한 구현에서, 상기 현재 프레임의 M개의 서브대역 각각의 다운믹스된 신호 에너지와 잔차 신호 에너지에 기반하여, 스테레오 신호의 상기 현재 프레임의 잔차 신호 인코딩 파라미터를 결정하는 단계는, 상기 M개의 서브대역 각각의 상기 다운믹스된 신호 에너지와 상기 잔차 신호 에너지에 기반하여 제1 파라미터를 결정하는 단계 - 상기 제1 파라미터는 상기 M개의 서브대역 각각의 상기 다운믹스된 신호 에너지와 상기 잔차 신호 에너지 사이의 값 관계를 지시함 -; 상기 M개의 서브대역 각각의 상기 다운믹스된 신호 에너지와 상기 잔차 신호 에너지에 기반하여 제2 파라미터를 결정하는 단계 - 상기 제2 파라미터는 제1 에너지 합과 제2 에너지 합 사이의 값 관계를 지시하며, 상기 제1 에너지 합은 상기 M개의 서브대역의 잔차 신호 에너지와 다운믹스된 신호 에너지의 합이고, 상기 제2 에너지 합은 상기 현재 프레임의 이전 프레임의 주파수 도메인 신호에서 M개의 서브대역의 잔차 신호 에너지와 다운믹스된 신호 에너지의 합이며, 상기 현재 프레임의 M개의 서브대역은 상기 이전 프레임의 M개의 서브대역과 동일한 서브대역 인덱스 번호를 가짐 -; 및 상기 제1 파라미터, 상기 제2 파라미터 및 상기 현재 프레임의 이전 프레임의 장기 평활화 파라미터에 기반하여, 상기 현재 프레임의 잔차 신호 인코딩 파라미터를 결정하는 단계를 포함한다.
제1 측면을 참조하여 제1 측면의 가능한 구현에서, 상기 M개의 서브대역 각각의 상기 다운믹스된 신호 에너지와 상기 잔차 신호 에너지에 기반하여 제1 파라미터를 결정하는 단계는, 상기 M개의 서브대역 각각의 상기 다운믹스된 신호 에너지와 상기 잔차 신호 에너지에 기반하여 M개의 에너지 파라미터를 결정하는 단계 - 상기 M개의 에너지 파라미터는 각각 상기 M개의 서브대역 각각의 상기 다운믹스된 신호 에너지와 상기 잔차 신호 에너지 사이의 값 관계를 지시하고, 상기 M개의 에너지 파라미터가 상기 M개의 서브대역에 일대일 대응함 -; 및 상기 M개의 에너지 파라미터 중 가장 큰 값을 갖는 에너지 파라미터를 상기 제1 파라미터로 결정하는 단계를 포함한다.
선택적으로, 일 구현에서, 상기 M개의 에너지 파라미터들의 합이(정정될) 제1 파라미터 res_dmx_ratio1로서 결정되며, res_dmx_ratio1는 상기 M개의 에너지 파라미터의 최대값 res_dmx_ratio_max와 상기 M개의 서브대역 각각의 다운믹스된 신호 에너지 res_cod_NRG_M[b]에 기반하여 정정되고, 정정을 통해 res_dmx_ratio2가 결정된다.
예를 들어, 상기 인코더 측은 다음 수식에 따라 res_dmx_ratio1을 정정하고, M = 5이며; 그리고
정정을 통해 획득된 res_dmx_ratio2는 다음:
을 만족한다.
선택적으로, 일 구현에서, 정정을 통해 획득된 res_dmx_ratio2는 추가로 정정될 수 있다.
예를 들어, 정정을 통해 최종적으로 획득된 res_dmx_ratio3는 다음:
을 만족하며, pow() 함수는 지수 함수를 나타내고, 는 res_dmx_ratio2의 거듭제곱 1.2를 나타낸다.
선택적으로, 일 구현에서, 상기 인코더 측은 상기 M개의 서브대역의 잔차 신호 에너지의 합과 상기 M개의 서브대역의 다운믹스된 신호 에너지의 합에 기반하여 상기 제1 파라미터를 결정한다.
구체적으로, 상기 인코더 측은 상기 M개의 서브대역의 다운믹스된 신호 에너지의 합 dmx_nrg_all_curr과 상기 M개의 서브대역의 잔차 신호 에너지의 합 res_nrg_all_curr을 별도로 결정하고, dmx_nrg_all_curr와 res_nrg_all_curr에 기반하여 상기 제1 파라미터를 결정한다.
선태적으로, 일 구현에서, 상기 M개의 서브대역의 다운믹스된 신호 에너지의 합 dmx_nrg_all_curr는 다음:
을 만족하며, 는 현재 프레임의 이전 프레임에서 서브대역 인덱스 번호가 b인 서브대역의 다운믹스된 신호 에너지를 나타내고, 은 평활화 팩터를 나타내며, 은 0보다 크거나 같고 1보다 작거나 같은 실수이며, 예를 들어, =0.1이다.
선택적으로, 일 구현에서, 상기 M개의 서브대역의 잔차 신호 에너지의 합 res_nrg_all_curr는 다음:
을 만족하며, 은 현재 프레임의 이전 프레임에서 서브대역 인덱스 번호가 b인 서브대역의 전차 신호 에너지를 나타내고, 는 평활화 팩터를 나타내며, 는 0보다 크거나 같고 1보다 작거나 같은 실수이며, 예를 들어, =0.1이다.
상기 인코더측은 dmx_nrg_all_curr 및 res_nrg_all_curr에 기반하여 상기 제1 파라미터 res_dmx_ratio를 결정한다.
예를 들어, 상기 인코더 측에 의해 최종적으로 결정된 제1 파라미터 res_dmx_ratio는 다음:
res_dmx_ratio = res_nrg_all_curr/ dmx_nrg_all_curr
을 만족한다.
제1 측면을 참조하여 제1 측면의 가능한 구현에서, 상기 M개의 에너지 파라미터에서 서브대역 인덱스 번호가 b인 서브대역의 에너지 파라미터는 다음 수식:
res_dmx_ratio[b] = res_cod_NRG_S[b]/res_cod_NRG_M[b]
을 만족하고, res_dmx_ratio[b]는 서브대역 인덱스 번호가 b인 서브대역의 에너지 파라미터를 나타내고, b는 0보다 크거나 같고 미리 설정된 최대 서브대역 인덱스 번호보다 작거나 같으며, res_cod_NRG_S[b]는 서브대역 인덱스 번호가 b인 서브대역의 잔차 신호 에너지를 나타내고, res_cod_NRG_M[b]는 서브대역 인덱스 번호가 b인 서브대역의 다운믹스된 신호 에너지를 나타낸다.
제1 측면을 참조하여 제1 측면의 가능한 구현에서, 상기 현재 프레임의 잔차 신호 인코딩 파라미터는 상기 현재 프레임의 장기 평활화 파라미터이고, 상기 현재 프레임의 장기 평활화 파라미터는 다음 수식:
res_dmx_ratio_lt = res_dmx_ratio·α + res_dmx_ratio_lt_prev·(1 - α)
을 만족하고, res_dmx_ratio_lt는 상기 현재 프레임의 장기 평활화 파라미터를 나타내며, res_dmx_ratio는 상기 제1 파라미터를 나타내고, res_dmx_ratio_lt_prev는 상기 현재 프레임의 이전 프레임의 장기 평활화 파라미터를 나타내며, 0 < α < 1이며; 그리고
상기 제2 파라미터가 미리 설정된 제3 임계값보다 큰 경우, 상기 제1 파라미터가 미리 설정된 제2 임계값보다 작을 때의 α 값은 상기 제1 파라미터가 상기 미리 설정된 제2 임계값보다 크거나 같을 때의 α 값보다 크며, 상기 제2 임계값은 0보다 크거나 같고 0.6보다 작거나 같으며, 상기 제3 임계값은 2.7보다 크거나 같고 3.7보다 작거나 같으며; 또는
상기 제2 파라미터가 미리 설정된 제5 임계값보다 작은 경우, 상기 제1 파라미터가 미리 설정된 제4 임계값보다 클 때의 α 값은 상기 제1 파라미터가 상기 미리 설정된 제4 임계값보다 작거나 같을 때의 α 값보다 크며, 상기 제4 임계값은 0보다 크거나 같고 0.9보다 작거나 같으며, 상기 제5 임계값은 0보다 크거나 같고 0.71보다 작거나 같으며; 또는
상기 제2 파라미터가 미리 설정된 제5 임계값보다 크거나 같고 미리 설정된 제3 임계값보다 작거나 같은 경우, α 값은 상기 제1 파라미터가 미리 설정된 제2 임계값보다 작고 상기 제2 파라미터는 상기 미리 설정된 제3 임계값보다 클 때의 α 값보다 작으며, 상기 제2 임계값은 0보다 크거나 같고 0.6보다 작거나 같으며, 상기 제3 임계값은 2.7보다 크거나 같고 3.7보다 작거나 같으며, 상기 제5 임계값은 0보다 크거나 같고 0.71보다 작거나 같다.
제1 측면을 참조하여 제1 측면의 가능한 구현에서, 상기 스테레오 인코딩 방법은, 상기 M개의 서브대역의 잔차 신호를 인코딩하기로 결정된 경우, 상기 M개의 서브대역의 다운믹스된 신호 및 잔차 신호를 인코딩하거나; 또는 상기 M개의 서브대역의 잔차 신호를 인코딩하지 않기로 결정된 경우, 상기 M개의 서브대역의 다운믹스된 신호를 인코딩하는 단계를 더 포함한다.
제2 측면에 따르면, 인코딩 장치가 제공된다. 상기 인코딩 장치는, 현재 프레임의 M개의 서브대역 각각의 다운믹스된 신호 에너지와 잔차 신호 에너지에 기반하여 스테레오 신호의 현재 프레임의 잔차 신호 인코딩 파라미터를 결정하도록 - 상기 잔차 신호 현재 프레임의 인코딩 파라미터는 상기 M개의 서브대역의 잔차 신호를 인코딩할지를 지시하는데 사용되며, 상기 M개의 서브대역은 N개의 서브대역 중 적어도 일부이고, N은 1보다 큰 양의 정수이며, M≤N이고, M은 양의 정수임 - 구성된 제1 결정 모듈; 및 상기 현재 프레임의 잔차 신호 인코딩 파라미터에 기반하여 상기 M개의 서브대역의 잔차 신호를 인코딩할지를 판정하도록 구성된 제2 결정 모듈을 포함한다.
제3 측면에 따르면, 인코딩 장치가 제공된다. 상기 장치는 메모리 및 프로세서를 포함하고, 상기 메모리는 프로그램을 저장하도록 구성되며, 상기 프로세서는 상기 프로그램을 실행하도록 구성되고, 상기 프로그램이 실행될 때 상기 프로세서는 제1 측면 또는 제1 측면의 가능한 구현 중 어느 하나에 따른 방법을 수행한다.
제4 측면에 따르면, 컴퓨터가 판독 가능한 매체가 제공된다. 상기 컴퓨터가 판독 가능한 매체는 디바이스에 의해 실행될 프로그램 코드를 저장하고, 상기 프로그램 코드는 제1 측면 또는 제1 측면의 다양한 구현 중 어느 하나에 따른 방법을 수행하는 데 사용되는 명령을 포함한다.
제5 측면에 따르면, 칩이 제공된다. 상기 칩은 프로세서 및 통신 인터페이스를 포함한다. 상기 통신 인터페이스는 외부 디바이스와 통신하도록 구성된다. 상기 프로세서는 제1 측면 또는 제1 측면의 가능한 구현 중 어느 하나에 따른 방법을 수행하도록 구성된다.
선택적으로, 일 구현에서, 상기 칩은 메모리를 더 포함한다. 상기 메모리는 명령을 저장하고, 상기 프로세서는 상기 메모리에 저장된 명령을 실행하도록 구성된다. 상기 명령이 실행될 때, 상기 프로세서는 제1 측면 또는 제1 측면의 가능한 구현 중 어느 하나에 따른 방법을 수행하도록 구성된다.
선택적으로, 일 구현에서, 상기 칩은 단말 디바이스 또는 네트워크 디바이스에 통합된다.
도 1은 본 출원의 실시 예에 따른 시간 도메인에서의 스테레오 인코딩 및 디코딩 시스템의 개략적인 구조도이다.
도 2는 본 출원의 실시 예에 따른 이동 단말의 개략도이다.
도 3은 본 출원의 실시 예에 따른 네트워크 엘리먼트의 개략도이다.
도 4는 주파수 도메인 스테레오 신호 인코딩 방법의 개략적인 흐름도이다.
도 5는 시간-주파수 도메인 스테레오 신호 인코딩 방법의 개략적인 흐름도이다.
도 6은 본 출원의 실시 예에 따른 스테레오 신호 인코딩 방법의 개략적인 흐름도이다.
도 7은 본 출원의 실시 예에 따른 스테레오 신호 인코딩 방법의 다른 개략적인 흐름도이다.
도 8은 본 출원의 실시 예에 따른 스테레오 신호 인코딩 장치의 개략적인 블록도이다.
도 9는 본 출원의 실시 예에 따른 스테레오 신호 인코딩 장치의 다른 개략적인 블록도이다.
다음은 첨부된 도면을 참조하여 본 출원의 기술적 솔루션을 설명한다.
도 1은 본 출원의 예시적인 실시 예에 따른 시간 도메인에서의 스테레오 인코딩 및 디코딩 시스템의 개략적인 구조도이다. 스테레오 인코딩 및 디코딩 시스템은 인코딩 컴포넌트(component)(110) 및 디코딩 컴포넌트(120)를 포함한다.
인코딩 컴포넌트(110)는 시간 도메인에서 스테레오 신호를 인코딩하도록 구성된다. 선택적으로, 인코딩 컴포넌트(110)는 소프트웨어를 이용하여 구현될 수 있거나, 하드웨어를 이용하여 구현될 수 있거나, 또는 소프트웨어와 하드웨어의 조합의 형태로 구현될 수 있다. 이것은 이 실시 예에서 제한되지 않는다.
인코딩 컴포넌트(110)는 다음의 여러 단계를 포함하여 시간 도메인에서 스테레오 신호를 인코딩한다.
(1) 획득된 스테레오 신호에 대해 시간 도메인 전처리(pre-processing)를 수행하여, 시간 도메인 전처리를 통해 획득된 좌측 채널 신호와 시간 도메인 전처리를 통해 획득된 우측 채널 신호를 획득한다.
스테레오 신호는 수집(collection) 컴포넌트에 의해 수집되고 인코딩 컴포넌트(110)에 송신된다. 선택적으로, 수집 컴포넌트와 인코딩 컴포넌트(110)는 동일한 디바이스에 배치될 수 있다. 다르게는, 수집 컴포넌트와 인코딩 컴포넌트(110)는 서로 다른 디바이스에 배치될 수 있다.
전처리를 통해 획득된 좌측 채널 신호와 전처리를 통해 획득된 우측 채널 신호는 전처리를 통해 획득된 스테레오 신호에서의 두 채널의 신호이다.
선택적으로, 전처리는 고역 통과(high-pass) 필터링 처리, 사전 강조(pre-emphasis) 처리, 샘플 레이트 변환 및 채널 변환 중 적어도 하나를 포함한다. 이것은 이 실시 예에서 제한되지 않는다.
(2) 전처리를 통해 획득된 좌측 채널 신호와 전처리를 통해 획득된 우측 채널 신호에 기반하여 지연 추정(delay estimation)을 수행하여, 전처리를 통해 획득된 좌측 채널 신호와 전처리를 통해 획득된 우측 채널 신호 사이의 채널 간 시간차(inter-channel time difference)를 획득한다.
(3) 채널 간 시간차를 기반으로, 전처리를 통해 획득된 좌측 채널 신호와 전처리를 통해 획득된 우측 채널 신호에 대해 지연 정렬(delay alignment) 처리를 수행하여, 지연 정렬 처리를 통해 획득된 좌측 채널 신호와 지연 정렬 처리를 통해 획득된 우측 채널 신호를 획득한다.
(4) 채널 간 시간차를 인코딩하여 채널 간 시간차의 인코딩 인덱스를 획득한다.
(5) 시간 도메인 다운믹스(downmix) 처리에 사용되는 스테레오 파라미터를 산출하고, 시간 도메인 다운믹스 처리에 사용되는 스테레오 파라미터를 인코딩하여 시간 도메인 다운믹스 처리에 사용되는 스테레오 파라미터의 인코딩 인덱스를 획득한다.
시간 도메인 다운믹스 처리에 사용되는 스테레오 파라미터는 지연 정렬 처리를 통해 획득된 좌측 채널 신호와 지연 정렬 처리를 통해 획득된 우측 채널 신호에 대해 시간 도메인 다운믹스 처리를 수행하는데 사용된다.
(6) 시간 도메인 다운믹스 처리에 사용되는 스테레오 파라미터에 기반하여, 지연 정렬 처리를 통해 획득된 좌측 채널 신호와 지연 정렬 처리를 통해 획득된 우측 채널 신호에 대해 시간 도메인 다운믹스 처리를 수행하여 1차(primary) 채널 신호와 2차(secondary) 채널 신호를 획득한다.
1차 채널 신호는 채널 간의 상관 관계(correlation)에 대한 정보를 나타내는데(represent) 사용된다. 2차 채널 신호는 채널 간의 차이에 대한 정보를 나타내는데 사용된다. 지연 정렬 처리를 통해 획득된 좌측 채널 신호와 지연 정렬 처리를 통해 획득된 우측 채널 신호가 시간 도메인에서 정렬되는 경우, 2차 채널 신호가 가장 작다. 이 경우, 스테레오 신호가 최상의 효과를 낸다.
(7) 1차 채널 신호와 2차 채널 신호를 별도로 인코딩하여 1차 채널 신호에 대응하는 제1 모노(mono) 인코딩된 비트 스트림 및 2차 채널 신호에 대응하는 제2 모노 인코딩된 비트 스트림을 획득한다.
(8) 채널 간 시간차의 인코딩 인덱스, 스테레오 파라미터의 인코딩 인덱스, 제1 모노 인코딩된 비트 스트림 및 제2 모노 인코딩된 비트 스트림을 스테레오 인코딩된 비트 스트림에 기록한다(write).
디코딩 컴포넌트(120)는 인코딩 컴포넌트(110)에 의해 생성된 스테레오 인코딩된 비트 스트림을 디코딩하여 스테레오 신호를 획득하도록 구성된다.
선택적으로, 인코딩 컴포넌트(110)는 유선 또는 무선 방식으로 디코딩 컴포넌트(120)에 연결되고, 디코딩 컴포넌트(120)는 이 연결을 통해 인코딩 컴포넌트(110)에 의해 생성된 스테레오 인코딩된 비트 스트림을 획득한다. 다르게는, 인코딩 컴포넌트(110)는 생성된 스테레오 인코딩된 비트 스트림을 메모리에 저장하고, 디코딩 컴포넌트(120)는 메모리에서 스테레오 인코딩된 비트 스트림을 판독한다.
선택적으로, 디코딩 컴포넌트(120)는 소프트웨어를 이용하여 구현될 수 있거나, 하드웨어를 이용하여 구현될 수 있거나, 또는 소프트웨어와 하드웨어의 조합의 형태로 구현될 수 있다. 이것은 이 실시 예에서 제한되지 않는다.
디코딩 컴포넌트(120)는 다음의 여러 단계를 포함하여, 스테레오 인코딩된 비트 스트림을 디코딩하여 스테레오 신호를 획득한다:
(1) 스테레오 인코딩된 비트 스트림에서 제1 모노 인코딩된 비트 스트림과 제2 모노 인코딩된 비트 스트림을 디코딩하여 1차 채널 신호 및 2차 채널 신호를 획득한다.
(2) 스테레오 인코딩된 비트 스트림에 기반하여 시간 도메인 업믹스(upmix) 처리에 사용되는 스테레오 파라미터의 인코딩 인덱스를 획득하고, 1차 채널 신호와 2차 채널 신호에 대해 시간 도메인 업믹스 처리를 수행하여, 시간 도메인 업믹스 처리를 통해 획득된 좌측 채널 신호와 시간 도메인 업믹스 처리를 통해 획득된 우측 채널을 획득한다.
(3) 스테레오 인코딩된 비트 스트림에 기반하여 채널 간 시간차의 인코딩 인덱스를 획득하고, 시간 도메인 업믹스 처리를 통해 획득된 좌측 채널 신호와 시간 도메인 업믹스 처리를 통해 획득된 우측 채널 신호에 대해 지연 조정을 수행하여, 스테레오 신호를 획득한다.
선택적으로, 인코딩 컴포넌트(110) 및 디코딩 컴포넌트(120)는 동일한 디바이스에 배치될 수 있거나 상이한 디바이스에 배치될 수 있다. 디바이스는 모바일폰, 태블릿 컴퓨터, 랩톱 휴대용 컴퓨터, 데스크톱 컴퓨터, 블루투스 스피커, 펜 레코더, 웨어러블 디바이스와 같은 오디오 신호 처리 기능을 가진 이동 단말(mobile terminal)일 수 있거나; 또는 코어 네트워크 또는 무선 네트워크에서 오디오 신호 처리 능력을 갖는 네트워크 엘리먼트일 수 있다. 이것은 이 실시 예에서 제한되지 않는다.
예를 들어, 도 2에 도시된 바와 같이, 이 실시 예에서, 인코딩 컴포넌트(110)가 이동 단말(130)에 배치되고 디코딩 컴포넌트(120)는 이동 단말(140)에 배치되며, 이동 단말(130) 및 이동 단말(140)이 오디오 신호 처리 능력을 가진 상호 독립적인 전자 디바이스, 예를 들어 모바일폰, 웨어러블 디바이스, 가상 현실(VR, virtual reality) 디바이스, 증강 현실(AR, augmented reality) 디바이스 등일 수 있으며, 이동 단말(130)은 무선 또는 유선 네트워크를 이용하여 이동 단말(140)과 연결되는, 예를 이용하여 설명한다.
선택적으로, 이동 단말(130)은 수집 컴포넌트(131), 인코딩 컴포넌트(110) 및 채널 인코딩 컴포넌트(132)를 포함한다. 수집 컴포넌트(131)는 인코딩 컴포넌트(110)에 연결되고, 인코딩 컴포넌트(110)는 인코딩 컴포넌트(132)에 연결된다.
선택적으로, 이동 단말(140)은 오디오 재생 컴포넌트(141), 디코딩 컴포넌트(120) 및 채널 디코딩 컴포넌트(142)를 포함한다. 오디오 재생 컴포넌트(141)는 디코딩 컴포넌트(110)에 연결되고, 디코딩 컴포넌트(110)는 채널 디코딩 컴포넌트(132)에 연결된다.
수집 컴포넌트(131)를 이용하여 스테레오 신호를 수집한 후, 이동 단말(130)은 인코딩 컴포넌트(110)를 이용하여 스테레오 신호를 인코딩하여 스테레오 인코딩된 비트 스트림을 획득하고; 그 다음, 채널 인코딩 컴포넌트(132)를 이용하여 스테레오 인코딩된 비트 스트림을 인코딩하여 전송(transmission) 신호를 획득한다.
이동 단말(130)은 무선 또는 유선 네트워크를 이용하여 전송 신호를 이동 단말(140)에 송신한다.
전송 신호를 수신한 후, 이동 단말(140)은 채널 디코딩 컴포넌트(142)를 이용하여 전송 신호를 디코딩하여 스테레오 인코딩된 비트 스트림을 획득하고; 디코딩 컴포넌트(110)를 이용하여 스테레오 인코딩된 비트 스트림을 디코딩하여 스테레오 신호를 획득하며; 그리고 오디오 재생 컴포넌트를 이용하여 스테레오 신호를 재생한다.
예를 들어, 도 3에 도시된 바와 같이, 이 실시 예에서, 인코딩 컴포넌트(110) 및 디코딩 컴포넌트(120)가 동일한 코어 네트워크 또는 무선 네트워크에서 오디오 신호 처리 능력을 갖는 네트워크 엘리먼트(150)에 배치되는 예를 이용하여 설명한다.
선택적으로, 네트워크 엘리먼트(150)는 채널 디코딩 컴포넌트(151), 디코딩 컴포넌트(120), 인코딩 컴포넌트(110) 및 채널 인코딩 컴포넌트(152)를 포함한다. 채널 디코딩 컴포넌트(151)는 디코딩 컴포넌트(120)에 연결되고, 디코딩 컴포넌트(120)는 인코딩 컴포넌트(110)에 연결되며, 인코딩 컴포넌트(110)는 채널 인코딩 컴포넌트(152)에 연결된다.
다른 디바이스에 의해 송신된 전송 신호를 수신한 후, 채널 디코딩 컴포넌트(151)는 전송 신호를 디코딩하여 제1 스테레오 인코딩된 비트 스트림을 획득하고; 디코딩 컴포넌트(120)는 스테레오 인코딩된 비트 스트림을 디코딩하여 스테레오 신호를 획득하며; 인코딩 컴포넌트(110)는 스테레오 신호를 인코딩하여 제2 스테레오 인코딩된 비트 스트림을 획득하고; 채널 인코딩 컴포넌트(152)는 제2 스테레오 인코딩된 비트 스트림을 인코딩하여 전송 신호를 획득한다.
다른 디바이스는 오디오 신호 처리 능력을 가진 이동 단말일 수 있거나, 오디오 신호 처리 능력을 가진 다른 네트워크 엘리먼트일 수 있다. 이것은 이 실시 예에서 제한되지 않는다.
선택적으로, 네트워크 엘리먼트의 인코딩 컴포넌트(110) 및 디코딩 컴포넌트(120)는 이동 단말에 의해 송신된 스테레오 인코딩된 비트 스트림을 트랜스코딩할 수 있다.
선택적으로, 이 실시 예에서, 인코딩 컴포넌트(110)가 설치된 디바이스는 오디오 인코딩 디바이스로 지칭된다. 실제 구현에서, 오디오 인코딩 디바이스는 또한 오디오 디코딩 기능을 가질 수 있다. 이것은 이 실시 예에서 제한되지 않는다.
선택적으로, 이 실시 예는 스테레오 신호만을 예로 이용하여 설명된다. 본 출원에서 오디오 인코딩 디바이스는 추가로 다중채널(multi-channel) 신호를 처리할 수 있으며, 다중채널 신호는 적어도 2 채널의 신호를 포함한다.
본 출원의 실시 예들에서 스테레오 신호 인코딩 방법에 대한 이해를 돕기 위해, 다음은 도 4 및 도 5를 참조하여, 주파수 도메인 스테레오 인코딩 방법 및 시간-주파수 도메인 스테레오 인코딩 방법의 전체 인코딩 프로세스를 각각 일반적으로 설명한다.
도 4는 주파수 도메인 스테레오 신호 인코딩 방법의 개략적인 흐름도이다. 인코딩 방법은 구체적으로 101 내지 107을 포함한다.
101: 시간 도메인 스테레오 신호를 주파수 도메인 스테레오 신호로 변환한다.
102: 주파수 도메인에서 주파수 도메인 스테레오 파라미터를 추출한다.
103: 주파수 도메인 스테레오 신호에 대해 다운믹스 처리를 수행하여 다운믹스된 신호와 잔차 신호(residual signal)를 획득한다.
다운믹스된 신호는 중심 채널(central channel) 신호 또는 1차 채널 신호로도 지칭될 수 있고, 파라미터 신호는 사이드 채널(side channel) 신호 또는 2차 채널 신호로 지칭될 수 있다.
104: 다운믹스된 신호를 인코딩하여 다운믹스된 신호에 대응하는 인코딩 파라미터를 획득하고, 인코딩 파라미터를 인코딩된 비트 스트림에 기록한다.
106: 주파수 도메인 스테레오 파라미터를 인코딩하여 주파수 도메인 스테레오 파라미터에 대응하는 인코딩 파라미터를 획득하고, 인코딩 파라미터를 인코딩된 비트 스트림에 기록한다.
선택적 구현에서, 상기 방법은 105: 잔차 신호를 인코딩하여 잔차 신호에 대응하는 인코딩 파라미터를 획득하고, 인코딩 파라미터를 인코딩된 비트 스트림에 기록하는 것을 더 포함할 수 있다.
107: 비트 스트림을 다중화(multiplex)한다.
도 5는 시간-주파수 도메인 스테레오 신호 인코딩 방법의 개략적인 흐름도이다. 인코딩 방법은 구체적으로 201 내지 208을 포함한다.
201: 스테레오 신호에 대해 시간 도메인 분석을 수행하고 시간 도메인 스테레오 파라미터를 추출한다.
202: 시간 도메인 스테레오 신호를 주파수 도메인 스테레오 신호로 변환한다.
203: 주파수 도메인에서 주파수 도메인 스테레오 파라미터를 추출한다.
204: 주파수 도메인 스테레오 신호에 대해 다운믹스 처리를 수행하여 다운믹스된 신호와 잔차 신호를 획득한다.
205: 다운믹스된 신호를 인코딩하여 다운믹스된 신호에 대응하는 인코딩 파라미터를 획득하고, 인코딩 파라미터를 인코딩된 비트 스트림에 기록한다.
207: 시간 도메인 스테레오 파라미터 및 주파수 도메인 스테레오 파라미터를 인코딩하여, 시간 도메인 스테레오 파라미터에 대응하는 인코딩 파라미터와 주파수 도메인 스테레오 파라미터에 대응하는 인코딩 파라미터를 획득하고, 인코딩 파라미터들을 인코딩된 비트 스트림에 기록한다.
선택적으로, 상기 방법은 206: 잔차 신호를 인코딩하여 잔차 신호에 대응하는 인코딩 파라미터를 획득하고, 인코딩 파라미터를 인코딩된 비트 스트림에 기록하는 것을 더 포함한다.
208: 비트스트림을 다중화한다.
코딩 레이트(rate)가 비교적 낮은 경우, 예를 들어 인코딩 대역폭이 광대역(Wideband)인 경우, 코딩 레이트가 초당 26 킬로바이트(Kilo-bytes per second, kbps), 16.4kbps, 24.4kbps, 또는 32kbps와 같이 비교적 낮으면, 스테레오 신호의 재생 동안 공간감과 안정성을 향상시키고 스테레오 신호의 고주파수 왜곡을 감소시키기 위해, 스테레오 신호의 각 프레임의 다운믹스된 신호가 인코딩될 때 미리 설정된 대역폭 범위를 만족하는 서브대역의 모든 잔차 신호가 인코딩된다. 다르게는, 코딩 레이트가 비교적 낮은 경우, 스테레오 파라미터와 다운믹스된 신호만 인코딩된다. 잔차 신호의 일부 또는 전부는 48kbps, 64kbps 또는 96kbps와 같이 코딩 레이트가 비교적 높은 경우에만 인코딩된다. 본 출원은 스테레오 신호 인코딩 방법을 제공한다. 이 방법에서, 디코딩된 스테레오 신호의 고주파수 왜곡을 최대한 감소시키고, 디코딩된 스테레오 신호의 공간감과 사운드-이미지 안정성을 향상시켜 전체적인 인코딩 품질을 향상시킬 수 있다.
도 6은 본 출원의 실시 예에 따른 스테레오 신호 인코딩 방법(300)의 개략적인 흐름도이다. 상기 방법(300)은 인코더 측에 의해 실행될 수 있고, 인코더 측은 인코더 또는 스테레오 신호 인코딩 기능을 갖는 디바이스일 수 있다. 상기 방법(300)은 적어도 다음 단계를 포함한다.
본 출원에서 스테레오 신호 인코딩 방법은 독립적으로 적용될 수 있는 스테레오 인코딩 방법일 수도 있고, 또는 다중채널 신호 인코딩에 적용되는 스테레오 인코딩 방법일 수도 있다. 인코더 측은 스테레오 신호를 프레임별로 처리한다. 다음은 각 프레임의 신호 길이가 20ms인 광대역 스테레오 신호를 예로 사용하고, 인코더 측에서 처리중인 프레임(예를 들어, 현재 프레임)을 예로 사용하여 상기 방법(300)에서의 스테레오 신호 인코딩 방법을 자세히 설명한다.
301: 현재 프레임의 M개의 서브대역 각각의 다운믹스된 신호 에너지와 잔차 신호 에너지에 기반하여 스테레오 신호의 현재 프레임의 잔차 신호 인코딩 파라미터를 결정하며, 현재 프레임의 잔차 신호 인코딩 파라미터는 M개의 서브대역의 잔차 신호를 인코딩할지를 지시하는데 사용되며, M개의 서브대역은 N개의 서브대역 중 적어도 일부이고, N은 1보다 큰 양의 정수이며, M≤N이고, M은 양의 정수이다.
구체적으로, 인코더 측은 스테레오 신호의 현재 프레임의 스펙트럼 계수(spectral coefficient)를 분할하여 N개의 서브대역을 획득하고, N개의 서브대역의 적어도 일부(예를 들어, N개의 서브대역에서 M개의 서브대역, M≤N) 각각의 다운믹스된 신호 에너지와 잔차 신호 에너지에 기반하여 현재 프레임의 잔차 신호 인코딩 파라미터를 결정하며, 현재 프레임의 잔차 신호 인코딩 파라미터는 M개의 서브대역 각각의 잔차 신호를 인코딩할지를 판정하기 위해 인코더 측에 의해 사용될 수 있다.
302: 현재 프레임의 잔차 신호 인코딩 파라미터에 기반하여 현재 프레임의 M개의 서브대역의 잔차 신호를 인코딩할지를 판정한다.
구체적으로, 인코더 측은 단계(301)에서 결정된 잔차 신호 인코딩 파라미터에 기반하여 현재 프레임의 M개의 서브대역 각각의 잔차 신호를 인코딩할지를 판정한다.
M개의 서브대역 각각의 잔차 신호를 인코딩하기로 결정되는 경우, M개의 서브대역 각각의 다운믹스된 신호와 잔차 신호가 인코딩된다.
M개의 서브대역 각각의 잔차 신호를 인코딩하지 않기로 결정되는 경우, M개의 서브대역 각각의 다운믹스된 신호가 인코딩된다.
일 구현에서, 제한 대신에 예로서, M개의 서브대역은 N개의 서브대역에서 서브대역 인덱스 번호가 미리 설정된 최대 서브대역 인덱스 번호보다 작은 M개의 서브대역이다. 다시 말하자면, M개의 서브대역은 N개의 서브대역에서 비교적 낮은 주파수를 갖는 서브대역으로, 구체적으로 M개의 서브대역의 주파수는 M개의 서브대역 이외의 N개의 서브대역에서 N-M개의 서브대역의 주파수보다 낮다.
구체적으로, 서로 다른 코딩 레이트에 기반하여 서로 다른 최대 서브대역 인덱스 번호가 미리 설정되어 있으므로, 서브대역 인덱스 번호가 미리 설정된 최대 서브대역 인덱스 번호보다 작거나 같은 M개의 서브대역이, 미리 설정된 최대 서브대역 인덱스 번호에 기반하여 N개의 서브대역으로부터 선택되며, M개의 서브대역에 기반하여 현재 프레임의 잔차 신호 인코딩 파라미터가 결정된다.
예를 들어, 코딩 레이트가 26kbps이고, N = 10이며, M = 5이고, 미리 설정된 최대 서브대역 인덱스 번호가 4로 설정된 경우, 이는 현재 프레임의 잔차 신호 인코딩 파라미터가 10개의 서브대역에서 서브대역 인덱스 번호가 0 내지 4인 5개의 서브대역에 기반하여 결정됨을 지시한다.
다른 예로, 코딩 레이트가 44kbps이고, N = 12이며, M = 6이고, 미리 설정된 최대 서브대역 인덱스 번호가 5로 설정된 경우, 이는 현재 프레임의 잔차 신호 인코딩 파라미터가 12개의 서브대역에서 서브대역 인덱스 번호가 0 내지 5인 6개의 서브대역에 기반하여 결정됨을 지시한다.
다른 예로, 코딩 레이트가 56kbps이고, N = 12이며, M = 7이고, 미리 설정된 최대 서브대역 인덱스 번호가 6으로 설정된 경우, 이는 현재 프레임의 잔차 신호 인코딩 파라미터가 12개의 서브대역에서 서브대역 인덱스 번호가 0 내지 6인 7개의 서브대역에 기반하여 결정됨을 지시한다.
다른 구현에서, 상이한 코딩 레이트에 대해, 상이한 코딩 레이트에서 M개의 서브대역의 최대 서브대역 인덱스 번호 및 최소 서브대역 인덱스 번호가 미리 설정될 수 있으므로, 미리 설정된 최소 서브대역 인덱스 번호보다 크거나 같고, 미리 설정된 최대 서브대역 인덱스 번호보다 작거나 같은 서브대역 인덱스 번호를 가지는 M개의 서브대역이, 미리 설정된 최대 서브대역 인덱스 번호 및 미리 설정된 최소 서브대역 인덱스 번호에 기반하여 N개의 서브대역으로부터 선택되고, 현재 프레임의 잔차 신호 인코딩 파라미터는 M개의 서브대역에 기반하여 결정된다.
예를 들어, 코딩 레이트가 26kbps이고, N = 10이며, M = 4인 경우, 미리 설정된 최소 서브대역 인덱스 번호는 4로 설정되고, 미리 설정된 최대 서브대역 인덱스 번호는 7로 설정된 경우, 이는 현재 프레임의 잔차 신호 인코딩 파라미터가 10개의 서브대역에서 서브대역 인덱스 번호가 4 내지 7인 4개의 서브대역을 기반으로 결정됨을 지시한다.
제한이 아닌 예로서, 현재 프레임의 잔차 신호 인코딩 파라미터에 기반하여 M개의 서브대역 각각의 잔차 신호를 인코딩할지를 판정하는 것은, 현재 프레임의 잔차 신호 인코딩 파라미터와 미리 설정된 제1 임계값 사이의 비교 결과에 기반하여, M개의 서브대역 각각의 잔차 신호를 인코딩할지를 판정하는 것 - 제1 임계값은 0보다 크고 1.0보다 작음; 및 현재 프레임의 잔차 신호 인코딩 파라미터가 제1 임계값보다 작거나 같을 때, M개의 서브대역 각각의 잔차 신호를 인코딩하지 않기로 결정하거나, 또는 잔차 신호 인코딩 파라미터가 제1 임계값보다 클 때, M개의 서브대역 각각의 잔차 신호를 인코딩하기로 결정하는 단계를 포함한다.
구체적으로, 인코더 측은 현재 프레임의 잔차 신호 인코딩 파라미터를 미리 설정된 제1 임계값과 비교하고, 현재 프레임의 잔차 신호 인코딩 파라미터가 제1 임계값보다 클 때 M개의 서브대역 각각의 잔차 신호를 인코딩하기로 결정하거나, 또는 현재 프레임의 잔차 신호 인코딩 파라미터가 제1 임계값보다 작거나 같을 때 M개의 서브대역 각각의 잔차 신호를 인코딩하지 않기로 결정한다.
예를 들어, 일 구현에서 제1 임계값은 0.075이다. 현재 프레임의 잔차 신호 인코딩 파라미터의 값이 0.06이면, 인코더 측은 M개의 서브대역 각각의 잔차 신호를 인코딩하지 않는다.
제1 임계값의 값은 단지 예일 뿐이며, 제1 임계값은 다르게는 0보다 크고 1.0보다 작은 다른 값일 수 있음을 이해해야 한다. 예를 들어 제1 임계값은 0.55 또는 0.46 또는 0.86 또는 0.9이다.
다른 선택적 구현에서, 인코더 측은 0 또는 1을 이용하여 현재 프레임의 잔차 신호 인코딩 파라미터와 제1 임계값 사이의 비교 결과를 추가로 지시할 수 있다. 예를 들어, 0은 M개의 서브대역 각각의 잔차 신호가 인코딩되지 않음을 지시하는데 사용되고, 1은 M개의 서브대역 각각의 잔차 신호가 인코딩됨을 지시하는데 사용된다. 물론, 1은 다르게는 M개의 서브대역 각각의 잔차 신호가 인코딩되지 않음을 지시하는 데 사용되고, 0은 다르게는 M개의 서브대역 각각의 잔차 신호가 인코딩됨을 지시하는데 사용될 수 있다.
다음은 M개의 서브대역이 서브대역 인덱스 번호가 미리 설정된 최대 서브대역 인덱스 번호보다 작거나 같은 서브대역인 예(예를 들어, 최대 서브대역 인덱스 번호는 M - 1)를 이용하여, 인코더 측이 현재 프레임의 잔차 신호 인코딩 파라미터를 결정하는 방법을 상세히 설명한다.
방법 1
인코더 측은 M개의 서브대역 각각의 다운믹스된 신호 에너지와 잔차 신호 에너지와 사이드 이득에 기반하여, 현재 프레임의 잔차 신호 인코딩 파라미터를 결정한다.
가능한 구현에서, 인코더 측은 M개의 서브대역 각각의, 다운믹스된 신호 에너지와 잔차 신호 에너지와 사이드 이득에 기반하여, 제1 파라미터를 결정하며 - 제1 파라미터는 M개의 서브대역 각각의 다운믹스된 신호 에너지와 잔차 신호 에너지 사이의 값 관계를 지시함 -;
M개의 서브대역 각각의 다운믹스된 신호 에너지와 잔차 신호 에너지에 기반하여 제2 파라미터를 결정하고 - 제2 파라미터는 제1 에너지 합과 제2 에너지 합 사이의 값 관계를 지시하며, 제1 에너지 합은 M개의 서브대역의 잔차 신호 에너지와 다운믹스된 신호 에너지의 합이고, 제2 에너지 합은 현재 프레임의 이전 프레임의 주파수 도메인 신호에서 M개의 서브대역의 잔차 신호 에너지와 다운믹스된 신호 에너지의 합이며, 현재 프레임의 M개의 서브대역은 이전 프레임의 M개의 서브대역과 동일한 서브대역 인덱스 번호를 가짐 -; 그리고
최종적으로, 제1 파라미터, 제2 파라미터 및 현재 프레임의 이전 프레임의 장기 평활화 파라미터에 기반하여, 현재 프레임의 잔차 신호 인코딩 파라미터를 결정한다.
구체적으로, 제1 파라미터를 결정할 때, 인코더 측은 M개의 서브대역 각각의, 다운믹스된 신호 에너지와 잔차 신호 에너지와 사이드 이득에 기반하여, M개의 에너지 파라미터를 결정하며, 여기서 M개의 에너지 파라미터는 각각 M개의 서브대역 중 하나의 다운믹스된 신호 에너지와 잔차 신호 에너지 사이의 값 관계를 지시하고, M개의 에너지 파라미터는 M개의 서브대역에 일대일 대응하며; 인코더 측은 최종적으로 M개의 에너지 파라미터 중 가장 큰 값을 갖는 에너지 파라미터를 제1 파라미터로 결정한다.
선택적으로, M개의 에너지 파라미터에서 서브대역 인덱스 번호가 b인 서브대역의 에너지 파라미터는 다음 함수:
res_dmx_ratio[b] = f(g(b), res_cod_NRG_M[b], res_cod_NRG_S[b]) (1)
를 이용하여 결정될 수 있으며, res_dmx_ratio[b]는 M개의 에너지 파라미터에서 서브대역 인덱스 번호가 b인 서브대역의 에너지 파라미터를 나타내고, b는 0보다 크거나 같고 미리 설정된 최대 서브대역 인덱스 번호보다 작거나 같으며, res_cod_NRG_S[b]는 서브대역 인덱스 번호가 b인 서브대역의 잔차 신호 에너지를 나타내고, res_cod_NRG_M[b]는 서브대역 인덱스 번호가 b인 서브대역의 다운믹스된 신호 에너지를 나타내며, g(b)는 서브대역 인덱스 번호가 b인 서브대역의 사이드 이득 side_gain[b]의 함수를 나타낸다.
구체적으로, 일 구현에서, M개의 에너지 파라미터에서 서브대역 인덱스 번호가 b인 서브대역의 에너지 파라미터는 다음의 수식:
을 만족한다.
제1 파라미터는 res_dmx_ratio로 표시되며(denote), res_dmx_ratio는 다음:
res_dmx_ratio = max (res_dmx_ratio[0], res_dmx_ratio[1],..., res_dmx_ratio[M - 1]) (3)
을 만족한다.
제2 파라미터를 결정할 때, 인코더 측은 먼저 M개의 서브대역의 잔차 신호의 합과 M개의 서브대역의 다운믹스된 신호의 합을 별도로 결정하고, M개의 서브대역의 다운믹스된 신호의 합을 dmx_nrg_all_curr로 표시하고, M개의 서브대역의 잔차 신호의 합을 res_nrg_all_curr로 표시한다.
선택적으로, M개의 서브대역의 다운믹스된 신호 에너지의 합 dmx_nrg_all_curr는 다음:
을 만족하며, 는 현재 프레임의 이전 프레임에서 서브대역 인덱스 번호가 b인 서브대역의 다운믹스된 신호 에너지를 나타내고, 은 평활화 팩터(smoothing factor)를 나타내며, 은 0보다 크거나 같고 1보다 작거나 같은 실수이며, 예를 들어, =0.1이다.
의 값은 단지 예이며, 의 값은 다르게는 0보다 크거나 같고 1보다 작거나 같은 다른 값일 수 있음을 이해할 수 있다. 예를 들어, 은 0.3 또는 0.5 또는 0.6 또는 0.8이다.
선택적으로, M개의 서브대역의 잔차 신호의 합 res_nrg_all_cur은 다음:
을 만족하며, 은 현재 프레임의 이전 프레임에서 서브대역 인덱스 번호가 b인 서브대역의 전차 신호 에너지를 나타내고, 는 평활화 팩터를 나타내며, 는 0보다 크거나 같고 1보다 작거나 같은 실수이며, 예를 들어, =0.1이다.
의 값은 단지 예이며, 의 값은 다르게는 0보다 크거나 같고 1보다 작거나 같은 다른 값일 수 있음을 이해할 수 있다. 예를 들어, 는 0.2 또는 0.5 또는 0.7 또는 0.9이다.
인코더 측은 dmx_nrg_all_curr 및 res_nrg_all_curr에 기반하여, 현재 프레임의 M개의 서브대역의 다운믹스된 신호 에너지와 잔차 신호 에너지의 합(즉, 제1 에너지 합)을 결정한다. 제1 에너지 합은 dmx_res_all로 표시될 수 있다.
선택적으로, dmx_res_all은 다음:
dmx_res_all = res_nrg_all_curr + dmx_nrg_all_curr (6)
을 만족한다.
인코더 측은 추가로, 현재 프레임의 이전 프레임의 주파수 도메인 신호에서 M개의 서브대역의 잔차 신호 에너지와 다운믹스된 신호 에너지의 합(즉, 제2 에너지 합)을 결정할 수 있으며, 여기서 현재 프레임의 이전 프레임의 M개의 서브대역은 M개의 서브대역과 동일한 서브대역 인덱스 번호를 갖는다. 제2 에너지 합은 dmx_res_all_prev로 표시된다.
제2 에너지 합 sum dmx_res_all_prev의 결정의 경우, 제1 에너지 합 dmx_res_all을 결정하는 방법을 참조한다. 간략화를 위해, 세부사항은 여기서 다시 설명하지 않는다.
제1 에너지 합 및 제2 에너지 합을 결정한 후, 인코더 측은 제1 에너지 합 및 제2 에너지 합에 기반하여 제2 파라미터를 결정할 수 있다.
선택적으로, 제2 파라미터는 프레임 간 에너지 변동 비율(inter-frame energy fluctuation ratio)이고, 프레임 간 에너지 변동 비율은 frame_nrg_ratio로 표시된다.
선택적으로, 일 구현에서 프레임 간 에너지 변동 비율 frame_nrg_ratio는 다음:
frame_nrg_ratio = dmx_res_all/dmx_res_all_prev (7)
을 만족한다.
선택적으로, 다른 구현에서, 프레임 간 에너지 변동 비율 frame_nrg_ratio는 다음:
frame_nrg_ratio = min(5.0, max(0.2, dmx_res_all/dmx_res_all_prev)) (8)
을 만족한다.
최대 함수(max function)는 주어진 파라미터(0.2, frame_nrg_ratio_prev)에서 더 큰 값을 리턴하는데 사용되고, 최소 함수(min function)는 주어진 파라미터(5.0, max(0.2, frame_nrg_ratio_prev))에서 최소의 값을 리턴하는데 사용된다. 수식 (7)과 비교하여, 수식 (8)은 추가로, 정정 연산(correction operation)을 가지므로, 수식 (8)을 이용하여 결정된 frame_nrg_ratio는 현재 프레임과 이전 프레임 사이의 채널 간 에너지 변동 비율을 더 잘 반영할 수 있다.
제1 파라미터 및 제2 파라미터를 결정한 후, 인코더 측은 제1 파라미터, 제2 파라미터 및 현재 프레임의 이전 프레임의 장기 평활화 파라미터에 기반하여, 현재 프레임의 잔차 신호 인코딩 파라미터를 결정할 수 있다.
제한이 아닌 예로서, 현재 프레임의 잔차 신호 인코딩 파라미터는 현재 프레임의 장기 평활화 파라미터일 수 있다. 다시 말하자면, 인코더 측은 제1 파라미터, 제2 파라미터 및 현재 프레임의 이전 프레임의 장기 평활화 파라미터에 기반하여, 현재 프레임의 장기 평활화 파라미터를 결정한 다음, 현재 프레임의 장기 평활화 파라미터를 미리설정된 제1 임계값과 비교하여, M개의 서브대역 각각의 잔차 신호를 인코딩할지를 판정한다.
예를 들어, 현재 프레임의 장기 평활화 파라미터는 다음 수식:
res_dmx_ratio_lt = res_dmx_ratio·α+res_dmx_ratio_lt_prev·(1 - α)(9)
을 만족하며, res_dmx_ratio_lt는 현재 프레임의 장기 평활화 파라미터를 나타내고, res_dmx_ratio는 제1 파라미터를 나타내며, res_dmx_ratio_lt_prev는 현재 프레임의 이전 프레임의 장기 평활화 파라미터를 나타내고, 0 < α < 1이다.
res_dmx_ratio_lt이 수식 (9)에 따라 산출되는 경우, 제1 파라미터의 값 및/또는 제2 파라미터의 값이 변경될 때, 수식 (9)에서 α의 값이 또한 따라서 변경될 수 있다. 다시 말하자면, 제1 파라미터의 값 및/또는 제2 파라미터의 값이 변경됨에 따라, 수식 (9)에서 현재 프레임의 이전 프레임의 장기 평활화 파라미터의 가중치 또한 따라서 변경될 수 있다.
예를 들어, 제2 파라미터가 미리 설정된 제3 임계값보다 큰 경우, 제1 파라미터가 미리 설정된 제2 임계값보다 작을 때의 α 값이, 제1 파라미터가 미리 설정된 제2 임계값보다 크거나 같을 때의 α 값보다 크고, 제2 임계값은 0보다 크거나 같고 0.6보다 작거나 같으며, 제3 임계값은 2.7보다 크거나 같고 3.7보다 작거나 같으며; 또는
제2 파라미터가 미리 설정된 제5 임계값보다 작은 경우, 제1 파라미터가 미리 설정된 제4 임계값보다 클 때의 α 값이 제1 파라미터가 미리 설정된 제4 임계값보다 작거나 같을 때의 α 값보다 크며, 제4 임계값은 0보다 크거나 같고 0.9보다 작거나 같으며, 제5 임계값은 0보다 크거나 같고 0.71보다 작거나 같으며; 또는
제1 파라미터가 미리 설정된 제2 임계값보다 작고 제2 파라미터가 미리 설정된 제3 임계값보다 클 때의 α 값이, 제2 파라미터가 미리 설정된 제5 임계값보다 크거나 같고 미리 설정된 제3 임계값보다 작거나 같을 때의 α 값보다 크며, 제2 임계값은 0보다 크거나 같고 0.6보다 작거나 같으며, 제3 임계값은 2.7보다 크거나 같고 3.7보다 작거나 같으며, 제5 임계값은 0보다 크거나 같고 0.71보다 작거나 같다.
예를 들어, 제2 임계값은 0.1일 수 있고, 제3 임계값은 3.2일 수 있으며, 구체적으로, 제2 파라미터 frame_nrg_ratio가 3.2보다 클 경우, 제1 파라미터 res_dmx_ratio가 0.1보다 작을 때의 α 값이, res_dmx_ratio가 0.1보다 크거나 같을 때의 α 값보다 크며; 또는,
제4 임계값은 0.4이고, 제5 임계값은 0.21일 수 있으며, 구체적으로 frame_nrg_ratio가 0.21보다 작은 경우, res_dmx_ratio가 0.4보다 클 때의 α 값이 res_dmx_ratio가 0.4보다 작거나 같을 때의 α 값보다 크며; 또는
제2 임계값은 0.1일 수 있고, 제3 임계값은 3.2일 수 있으며, 제5 임계값은 0.21일 수 있으며, 구체적으로, res_dmx_ratio가 0.1보다 작고 frame_nrg_ratio가 3.2보다 클 때의 α 값이, frame_nrg_ratio가 0.21보다 크거나 같고 3.2보다 작거나 같을 때의 α 값보다 크고; 또는
제4 임계값은 0.4일 수 있고, 제5 임계값의 값은 0.21일 수 있으며, 구체적으로, res_dmx_ratio가 0.4보다 크고 frame_nrg_ratio가 0.21보다 작을 때의 α 값이, frame_nrg_ratio이 0.21보다 크거나 같고 3.2보다 작거나 같을 때의 α 값보다 크다.
또한, 예를 들어 res_dmx_ratio가 0.1보다 작고 frame_nrg_ratio가 3.2보다 클 때 α 값은 0.5이고; 또는 frame_nrg_ratio가 0.21보다 크거나 같고 3.2보다 작거나 같을 때 α 값은 0.1이다.
제2 임계값 내지 제5 임계값의 열거된 값들과 α의 값은 설명의 예일 뿐이며, 본 출원에 대한 어떤 제한도 구성하지 않는다는 점에 유의해야 한다. 제2 임계값 내지 제5 임계값들의 값과 α 값은 지정된 구간(interval)에서 다른 값일 수 있다.
현재 프레임이 인코더 측에서 처리된 제1 프레임일 때 현재 프레임은 이전 프레임을 가지지 않는다는 점에 유의해야 한다. 이 경우, 현재 프레임의 장기 평활화 파라미터가 결정될 때 전술한 수식에서 현재 프레임의 이전 프레임의 장기 평활화 파라미터는 미리 설정된 장기 평활화 파라미터이다. 제한 대신에 예로서, 미리 설정된 장기 평활화 파라미터의 값은 1.0이거나, 또는 물론 0.9 또는 1.1과 같은 다른 값일 수 있다.
방법 2
방법 2에서 잔차 신호 인코딩 파라미터를 결정하는 방법은 방법 1과 유사하며, 제1 파라미터를 결정하는 방법이 다르다는 점에서 차이가 있다. 따라서 방법 1의 잔차 신호 인코딩 파라미터를 결정하는 관련 설명을 참조할 수 있다. 간결성을 위해, 방법 2의 제1 파라미터를 결정하는 방법만 여기에 설명된다.
제한 대신에 예로서, 인코더 측은 M개의 서브대역 각각의 다운믹스된 신호 에너지와 잔차 신호 에너지에 기반하여 제1 파라미터를 결정하며, 여기서 제1 파라미터는 M개의 서브대역 각각의 다운믹스된 신호 에너지와 잔차 신호 에너지 사이의 값 관계를 지시한다.
구체적으로, 제1 파라미터를 결정할 때, 인코더 측은 M개의 서브대역 각각의 다운믹스된 신호 에너지와 잔차 신호 에너지에 기반하여 M개의 에너지 파라미터를 결정하며, M개의 에너지 파라미터는 각각 M개의 서브대역 중 하나의 다운믹스된 신호 에너지와 잔차 신호 에너지 사이의 값 관계를 지시하며, M개의 에너지 파라미터는 M개의 서브대역에 일대일 대응하고; 인코더 측은 최종적으로 M개의 에너지 파라미터 중 가장 큰 값을 갖는 에너지 파라미터를 제1 파라미터로 결정한다.
선택적으로, 인코더 측에 의해 결정된 M개의 에너지 파라미터에서 서브대역 인덱스 번호가 b인 서브대역의 에너지 파라미터는 다음 함수:
res_dmx_ratio[b] = f(res_cod_NRG_M[b], res_cod_NRG_S[b]) (10)
를 이용하여 결정될 수 있으며, res_dmx_ratio[b]는 M개의 에너지 파라미터에서 서브대역 인덱스 번호가 b인 서브대역의 에너지 파라미터를 나타내고, b는 0보다 크거나 같고 미리 설정된 최대 서브대역 인덱스 번호보다 작거나 같으며, res_cod_NRG_S[b]는 서브대역 인덱스 번호가 b인 서브대역의 잔차 신호 에너지를 나타내고, res_cod_NRG_M[b]는 서브대역 인덱스 번호가 b인 서브대역의 다운믹스된 신호 에너지를 나타낸다.
예를 들어, M개의 에너지 파라미터에서 서브대역 인덱스 번호가 b인 서브대역의 에너지 파라미터는 다음 수식:
res_dmx_ratio[b] = res_cod_NRG_S[b]/res_cod_NRG_M[b] (11)
을 만족한다.
제1 파라미터는 res_dmx_ratio로 표시되고, res_dmx_ratio는 다음:
res_dmx_ratio = max(res_dmx_ratio[0], res_dmx_ratio[1],..., res_dmx_ratio[M - 1]) (12)
을 만족한다.
제1 파라미터를 결정한 후, 인코더 측은 방법 1에 설명된 방법에 따라 제2 파라미터를 결정하고, 최종적으로 방법 1에 설명된 방법에 따라 잔차 신호 인코딩 파라미터를 결정하며, 잔차 신호 인코딩 파라미터에 기반하여, M개의 서브대역 각각의 잔차 신호를 인코딩할지를 판정할 수 있다.
방법 3
방법 3에서 잔차 신호 인코딩 파라미터를 결정하는 방법은 방법 1과 유사하며, 제1 파라미터를 결정하는 방법이 다르다는 점에서 차이가 있다. 따라서 방법 1의 잔차 신호 인코딩 파라미터를 결정하는 관련 설명을 참조할 수 있다. 간결성을 위해 방법 3의 제1 파라미터를 결정하는 방법만 여기에 설명된다.
제한이 아닌 예로서, 인코더 측은 M개의 서브대역 각각의 다운믹스된 신호 에너지와 잔차 신호 에너지에 기반하여 제1 파라미터를 결정하고, 제1 파라미터를 정정하고, 정정을 통해 획득된 제1 파라미터를 최종 제1 파라미터로서 결정하며, 제1 파라미터는 M개의 서브대역 각각의 다운믹스된 신호 에너지와 잔차 신호 에너지 사이의 값 관계를 지시한다.
구체적으로, 제1 파라미터를 결정할 때, 인코더 측은 M개의 서브대역 각각의 다운믹스된 신호 에너지와 잔차 신호 에너지에 기반하여 M개의 에너지 파라미터를 결정하며, M개의 에너지 파라미터는 각각 M개의 서브대역 중 하나의 다운믹스된 신호 에너지와 잔차 신호 에너지 사이의 값 관계를 지시하고, M개의 에너지 파라미터는 M개의 서브대역에 일대일 대응하며; 인코더 측은 M개의 에너지 파라미터의 합을 제1 파라미터로서 결정한다.
선택적으로, 인코더 측에 의해 결정된 M개의 에너지 파라미터에서 서브대역 인덱스 번호가 b인 서브대역의 에너지 파라미터는 함수(1)을 이용하여 결정될 수 있다.
예를 들어, M개의 에너지 파라미터에서 서브대역 인덱스 번호가 b인 서브대역의 에너지 파라미터는 수식(2)를 만족한다.
선택적으로, 인코더 측에 의해 결정된 M개의 에너지 파라미터에서 서브대역 인덱스 번호가 b인 서브대역의 에너지 파라미터는 함수(11)를 이용하여 결정될 수 있다.
예를 들어, M개의 에너지 파라미터에서 서브대역 인덱스 번호가 b인 서브대역의 에너지 파라미터는 수식(11)을 만족한다.
예를 들어, M개의 에너지 파라미터에 기반하여 인코더 측에 의해 결정된 제1 파라미터 res_dmx_ratio1는 다음:
을 만족한다.
또한, 인코더 측은 추가로, M개의 에너지 파라미터에서 최대 값 res_dmx_ratio_max를 결정할 수 있으며, res_dmx_ratio_max는 수식(12)을 만족한다.
인코더 측은 M개의 서브대역 각각의 res_dmx_ratio_max 및 다운믹스된 신호 에너지 res_cod_NRG_M[b]에 기반하여 res_dmx_ratio1을 정정하고, 정정을 통해 획득된 res_dmx_ratio2를 결정한다.
예를 들어, 인코더 측은 다음 수식에 따라 res_dmx_ratio1을 정정하고, M = 5이며; 그리고
정정을 통해 획득된 res_dmx_ratio2는 다음:
을 만족한다.
선택적으로 정정을 통해 획득된 res_dmx_ratio2가 추가로 정정될 수 있다.
예를 들어, 정정을 통해 최종적으로 획득된 res_dmx_ratio3는 다음:
을 만족하며, pow() 함수는 지수 함수(exponential function)를 나타내고, 는 res_dmx_ratio2의 거듭제곱 1.2를 나타낸다.
인코더 측은 정정을 통해 획득된 제1 파라미터(정정을 통해 획득된 res_dmx_ratio3)를 결정한 후, 방법 1에서 설명된 방법에 따라 제2 파라미터를 결정하고, 최종적으로 방법 1에서 설명된 방법에 따라 잔차 신호 인코딩 파라미터를 결정하며, 잔차 신호 인코딩 파라미터에 기반하여 M개의 서브대역 각각의 잔차 신호를 인코딩할지를 판정한다.
방법 4
방법 4에서 잔차 신호 인코딩 파라미터를 결정하는 방법은 방법 1과 유사하며, 제1 파라미터를 결정하는 방법이 다르다는 점에서 차이가 있다. 따라서 방법 1의 잔차 신호 인코딩 파라미터를 결정하는 관련 설명을 참조할 수 있다. 간결성을 위해 방법 4의 제1 파라미터를 결정하는 방법만 여기에 설명된다.
제한 대신에 예로서, 인코더 측은 M개의 서브대역의 잔차 신호 에너지의 합과 M개의 서브대역의 다운믹스된 신호 에너지의 합에 기반하여 제1 파라미터를 결정한다.
구체적으로, 인코더 측은 M개의 서브대역의 다운믹스된 신호 에너지의 합 dmx_nrg_all_curr과 M개의 서브대역의 잔차 신호 에너지의 합 res_nrg_all_curr을 별도로 결정하고, dmx_nrg_all_curr 및 res_nrg_all_curr에 기반하여 제1 파라미터를 결정한다.
선택적으로, M개의 서브대역의 다운믹스된 신호 에너지의 합 dmx_nrg_all_curr는 수식(4)를 만족한다. 인덱스 번호
선택적으로, M개의 서브대역의 잔차 신호 에너지의 합 res_nrg_all_curr은 수식(5)를 만족한다. 인덱스 번호
인코더 측은 dmx_nrg_all_curr 및 res_nrg_all_curr에 기반하여 제1 파라미터 res_dmx_ratio를 결정한다.
예를 들어, 인코더 측에 의해 최종적으로 결정된 제1 파라미터 res_dmx_ratio는 다음:
res_dmx_ratio = res_nrg_all_curr/dmx_nrg_all_curr (16)
을 만족한다.
제1 파라미터를 결정한 후, 인코더 측은 방법 1에 설명된 방법에 따라 제2 파라미터를 결정하고, 최종적으로 방법 1에 설명된 방법에 따라 잔차 신호 인코딩 파라미터를 결정하며, 잔차 신호 인코딩 파라미터에 기반하여 M개의 서브대역 각각의 잔차 신호를 인코딩할지를 판정한다.
스테레오 신호의 전체 인코딩 프로세스를 더 잘 이해하기 위해 다음은 각 프레임의 신호 길이가 20ms인 광대역 스테레오 신호를 예로 사용하고, 인코더 측에 의해 처리중인 프레임(예를 들어, 현재 프레임)을 예로 사용하며, 본 출원의 이 실시 예에서의 스테레오 신호 인코딩 방법(300)은 도 7을 참조하여 설명된다. 도 7에 도시된 스테레오 신호 인코딩 방법은 적어도 다음 단계를 포함한다.
401: 좌측 채널 시간 도메인 신호와 우측 채널 시간 도메인 신호에 대해 시간 도메인 전처리를 수행하여, 시간 도메인 전처리를 통해 획득된 좌측 채널 시간 도메인 신호와 우측 채널 시간 도메인 신호를 획득한다.
구체적으로, 현재 프레임의 신호 길이는 20ms이다. 샘플링 주파수가 16kHz(KHz)이면, 샘플링후, 현재 프레임의 프레임 길이 H = 320, 다시 말하자면, 현재 프레임은 320개의 샘플링 포인트를 포함한다.
현재 프레임의 스테레오 신호는 현재 프레임의 좌측 채널 시간 도메인 신호와 현재 프레임의 우측 채널 시간 도메인 신호를 포함한다. 현재 프레임의 좌측 채널 시간 도메인 신호는 로 표시되고, 현재 프레임의 우측 채널 시간 도메인 신호는 로 표시되며, 은 샘플링 포인트 시퀀스 번호를 나타내고, 이다. 좌측 채널 시간 도메인 신호 및 우측 채널 시간 도메인 신호는 좌측 및 우측 채널 시간 도메인 신호로 지칭될 수 있다.
현재 프레임의 좌측 채널 시간 도메인 신호 및 우측 채널 시간 도메인 신호에 대해 시간 도메인 전처리를 수행하는 것은, 현재 프레임의 좌측 채널 시간 도메인 신호 및 우측 채널 시간 도메인 신호에 대해 각각 고역 통과 필터링 처리를 수행하여, 시간 도메인 전처리를 통해 획득된 현재 프레임의 좌측 채널 시간 도메인 신호와 우측 채널 시간 도메인 신호를 획득하는 것을 포함할 수 있다. 전처리를 통해 획득된 현재 프레임의 좌측 채널 시간 도메인 신호는 로 표시되고, 전처리를 통해 획득된 현재 프레임의 우측 채널 시간 도메인 신호는 로 표시된다. 은 샘플링 포인트 시퀀스 번호를 나타내고, 이다. 시간 도메인 전처리를 통해 획득된 현재 프레임의 좌측 채널 시간 도메인 신호와 시간 도메인 전처리를 통해 획득된 현재 프레임의 우측 채널 시간 도메인 신호는, 시간 도메인 전처리를 통해 획득된 현재 프레임의 좌측 및 우측 채널 시간 도메인 신호로 지칭될 수 있다. 고역 통과 필터링 처리 중에, 차단 주파수(cut-off frequency)가 20Hz(Hz)인 무한 임펄스 응답(Infinite Impulse Response, IIR) 디지털 필터가 사용될 수 있거나, 또는 다른 유형의 필터가 사용될 수 있다.
예를 들어, 스테레오 신호의 샘플링 레이트가 16kHz인 경우, 차단 주파수가 20Hz인 고역 통과 필터의 해당 전달 함수(transfer function)는 다음:
일 수 있다.
, , , , 이고, z는 Z 변환(Z-transform)의 변환 팩터를 나타낸다. 대응하는 시간 도메인 필터는 다음:
이다.
402: 시간 도메인 전처리를 통해 획득된 좌측 채널 시간 도메인 신호와 우측 채널 시간 도메인 신호에 대해 시간 도메인 분석을 수행한다.
구체적으로, 시간 도메인 분석은 과도 검출(transient detection) 등을 포함할 수 있다. 과도 검출은 전처리를 통해 획득된 현재 프레임의 좌측 채널 시간 도메인 신호와 우측 채널 시간 도메인 신호에 대해 별도로 에너지 검출을 수행하여, 현재 프레임에서 에너지 버스트(burst) 발생 여부를 검출할 수 있다.
예를 들어, 전처리를 통해 획득된 현재 프레임의 좌측 채널 시간 도메인 신호의 에너지 가 산출된다. 과도 검출은 전처리를 통해 획득된 현재 프레임의 이전 프레임의 좌측 채널 시간 도메인 신호의 에너지 와 전처리를 통해 획득된 현재 프레임의 좌측 채널 시간 도메인 신호의 에너지 사이의 차이의 절대 값에 기반하여 수행되어, 전처리를 통해 획득된 현재 프레임의 좌측 채널 시간 도메인 신호의 과도 검출 결과를 획득한다. 전처리를 통해 획득된 현재 프레임의 우측 채널 시간 도메인 신호에 대해서도 동일한 방법으로 과도 검출이 수행될 수 있다.
시간 도메인 분석은 과도 검출 이외에 종래에서의 다른 시간 도메인 분석을 포함할 수 있다. 예를 들어, 시간 도메인 분석은 시간 도메인 채널 간 시간차(Inter-channel Time Difference, ITD) 파라미터 결정, 시간 도메인 지연 정렬(alignment) 처리 및 대역 확산 전처리(band spreading pre-processing)를 포함할 수 있다.
403: 시간 도메인 전처리를 통해 획득된 좌측 채널 시간 도메인 신호와 우측 채널 시간 도메인 신호에 대해 시간-주파수 변환을 수행하여 좌측 채널 주파수 도메인 신호와 우측 채널 주파수 도메인 신호를 획득한다.
구체적으로, 시간 도메인 전처리를 통해 획득된 좌측 채널 시간 도메인 신호에 대해 이산 푸리에 변환을 수행하여 좌측 채널 주파수 도메인 신호를 획득할 수 있으며, 시간 도메인 전처리를 통해 획득된 우측 채널 시간 도메인 신호에 대해 이산 푸리에 변환을 수행하여 우측 채널 주파수 도메인 신호를 획득한다.
스펙트럼 앨리어싱(spectral aliasing) 문제를 극복하기 위해, 연속된 두 번의 이산 푸리에 변환 사이의 처리를 위해 중첩 추가 방법(overlap-add method)이 사용될 수 있으며, 때로는 0이 이산 푸리에 변환의 입력 신호에 추가될 수도 있다.
이산 푸리에 변환은 각 프레임에 대해 한 번 수행될 수 있거나, 또는 신호의 각 프레임이 P(P는 2보다 크거나 같은 양의 정수)개의 서브프레임으로 분할될 수 있고, 이산 푸리에 변환이 각 서브프레임에 대해 한 번 수행될 수 있다.
예를 들어, 이산 푸리에 변환은 현재 프레임에 대해 한 번 수행되고, 이산 푸리에 변환이 수행되는 현재 프레임의 좌측 채널 주파수 도메인 신호는 로 표시되고, 이산 푸리에 변환이 수행되는 현재 프레임의 우측 채널 주파수 도메인 신호는 로 표시된다. k는 주파수 빈(bin) 인덱스 번호를 나타내고, 이며, L은 이산 푸리에 변환이 수행되는 현재 프레임의 프레임 길이를 나타내며, 다시 말하자면, 이산 푸리에 변환이 수행되는 현재 프레임은 L개의 주파수 빈을 포함한다.
또 다른 예를 들어, 신호의 현재 프레임은 P개의 서브프레임으로 분할되고, P는 2보다 크거나 같은 양의 정수이다. 인덱스 번호가 i이고 이산 푸리에 변환이 수행되는 서브프레임의 좌측 채널 주파수 도메인 신호가 로 표시되고, 인덱스 번호가 i이고 이산 푸리에 변환이 수행되는 서브프레임의 우측 채널 주파수 도메인 신호는 로 표시된다. i는 서브프레임 인덱스 번호를 나타내며, 이며, k는 주파수 빈 인덱스 번호를 나타내고, 이며, L은 이산 푸리에 변환이 수행되는 각 서브프레임의 프레임 길이를 나타내고, 다시 말하자면, 이산 푸리에 변환이 수행되는 각 서브프레임은 L개의 주파수 빈을 포함한다.
404: ITD 파라미터를 결정하고 결정된 ITD 파라미터를 인코딩한다.
구체적으로, ITD 파라미터를 결정하는 방법은 여러 가지가 있다. ITD 파라미터는 주파수 도메인에서만 결정될 수도 있거나, 또는 시간 도메인에서만 결정될 수도 있거나, 또는 시간-주파수 도메인에서 결정될 수도 있다.이는 본 출원에서 제한되지 않는다.
상호 상관 계수(cross-correlation coefficient)를 이용하여 시간 도메인에서 ITD 파라미터가 추출될 수 있다. 예를 들어,의 범위에서, 이 산출된다.
이면, ITD 파라미터는 에 대응하는 인덱스 번호의 반대(opposite) 번호이다. 이면, ITD 파라미터는 에 대응하는 인덱스 번호이다. 는 상호 상관 계수를 산출하기 위한 인덱스 번호를 나타내고, 는 샘플링 포인트의 인덱스 번호를 나타내며, 는 상이한 샘플링 레이트에서 ITD 값들의 최대값에 대응하고, H는 현재 프레임의 프레임 길이를 나타낸다.
ITD 파라미터는 다르게는 좌측 채널 주파수 도메인 신호 및 우측 채널 주파수 도메인 신호에 기반하여 주파수 도메인에서 결정될 수 있다. 예를 들어, 이산 푸리에 변환(Discrete Fourier Transform, DFT), 고속 푸리에 변환(Fast Fourier Transformation, FFT) 및 수정된 이산 코사인 변환(Modified Discrete Cosine Transform, MDCT)과 같은 시간-주파수 변환 기술이 시간 도메인 신호를 주파수 도메인 신호로 변환하는데 사용될 수 있다.
본 출원의 이 실시 예에서, 인덱스 번호가 이고 이산 푸리에 변환이 수행되는 서브프레임의 좌측 채널 주파수 도메인 신호가 로 표시되고, 이며, 인덱스 번호가 이고 변환이 수행되는 서브프레임의 우측 채널 주파수 도메인 신호가 로 표시되며, 이며,이다. 인덱스 번호가 인 서브프레임의 주파수 도메인 상관 계수가 에 따라 산출되며, 는 변환이 수행되는 i번째 서브프레임의 우측 채널 주파수 도메인 신호의 결합(conjugation)을 나타낸다.
주파수 도메인 상관 계수는 시간 도메인 으로 변환되며, 이고, 의 최대 값이 범위 에서 검색되어, 인덱스 번호가 인 서브프레임의 ITD 파라미터 값이 인 것을 획득한다.
또한, 진폭(amplitude) 값이 추가로, 인덱스 번호가 이고 DFT 변환이 수행되는 서브프레임의 좌측 채널 주파수 도메인 신호와 우측 채널 주파수 도메인 신호에 기반하여, 검색 범위 에서 에 따라 산출될 수 있으며, ITD 파라미터 값이 이고, 구체적으로, ITD 파라미터 값은 최대 진폭 값에 대응하는 인덱스 번호이다.
ITD 파라미터가 결정된 후, ITD 파라미터는 인코딩되어 인코딩 파라미터를 획득하며, 인코딩 파라미터는 스테레오 인코딩된 비트 스트림에 기록된다.
405: ITD 파라미터에 기반하여 좌측 주파수 도메인 신호와 우측 채널 주파수 도메인 신호에 대해 시간 시프트 조정(time-shift adjustment)을 수행한다.
구체적으로, 시간 시프트 조정은 임의의 기술에 따라 좌측 채널 주파수 도메인 신호와 우측 채널 주파수 도메인 신호에 대해 수행될 수 있다. 이것은 본 출원의 이 실시 예에서 제한되지 않는다.
예를 들어, 현재 신호 프레임은 P개의 서브프레임으로 분할되며, P는 2보다 크거나 같은 양의 정수이다. 시간 시프트 조정을 통해 획득된, 인덱스 번호가 인 서브프레임의 좌측 채널 주파수 도메인 신호는 로 표시될 수 있으며, 이고, 시간 시프트 조정을 통해 획득된, 인덱스 번호가 인 서브프레임의 우측 채널 주파수 도메인 신호는 로 표시되며, k는 주파수 빈 인덱스 번호를 나타내고, 이며, 는 서브프레임 인덱스 번호를 나타내고,이다.
는 인덱스 번호가 인 서브프레임의 ITD 파라미터를 나타내고, L은 이산 푸리에 변환이 수행되는 서브프레임의 길이를 나타내며,는 인덱스 번호가 이고 변환이 수행되는 i번째 서브프레임의 좌측 채널 주파수 도메인 신호를 나타내고, 는 인덱스 번호가 이고 변환이 수행되는 i번째 서브프레임의 우측 채널 주파수 도메인 신호를 나타내며, 는 서브프레임 인덱스 번호를 나타내고, 이다.
406: 시간 시프트 조정을 통해 획득된 좌측 채널 주파수 도메인 신호와 우측 채널 주파수 도메인 신호에 기반하여 다른 주파수 도메인 스테레오 파라미터를 산출하고, 다른 주파수 도메인 스테레오 파라미터를 인코딩한다.
구체적으로, 다른 주파수 도메인 스테레오 파라미터는 채널 간 위상차(Inter-channel Phase Difference, IPD) 파라미터, 및/또는 채널 간 레벨 차이(Inter-channel Level Difference, ILD) 파라미터, 및/또는 서브대역 사이드 이득 등을 포함할 수 있으나 이에 제한되지 않는다. ILD는 채널 간 진폭 차(inter-channel amplitude difference)라고도 지칭된다.
다른 주파수 도메인 스테레오 파라미터가 산출을 통해 획득된 후, 다른 주파수 도메인 스테레오 파라미터가 인코딩되어 인코딩 파라미터를 획득하고, 인코딩 파라미터는 스테레오 인코딩된 비트 스트림에 기록된다.
407: 현재 프레임의 주파수 도메인 신호에 포함된 N개의 서브대역으로부터, 미리 설정된 조건을 만족하는 M개의 서브대역을 결정한다.
구체적으로, 시간 시프트 조정을 통해 획득된, 현재 프레임의 주파수 도메인 신호가 서브대역으로 분할된다. 예를 들어, 현재 프레임의 주파수 도메인 신호는 N(N은 2보다 크거나 같은 양의 정수)개의 서브대역으로 분할되며, 서브대역 인덱스 번호가 인 서브대역에 포함된 주파수 빈은 이며, 는 서브대역 인덱스 번호가 인 서브대역에 포함된 주파수 빈의 최소 인덱스 번호를 나타내고, 는 서브대역 인덱스 번호가 b+1인 서브대역에 포함된 주파수 빈의 최소 인덱스 번호를 나타낸다. 미리 설정된 조건에 따라, 미리 설정된 조건을 만족하는 M개의 서브대역이 N개의 서브대역로부터 결정된다.
예를 들어, 미리 설정된 조건은, 서브대역 인덱스 번호가 미리 설정된 최대 서브대역 인덱스 번호보다 작은 것, 즉, 일 수 있으며, 는 미리 설정된 최대 서브대역 인덱스 번호를 나타낸다.
미리 설정된 조건은 다르게는, 서브대역 인덱스 번호가 미리 설정된 최대 서브대역 인덱스 번호보다 작거나 같고 미리 설정된 최소 서브대역 인덱스 번호보다 크거나 같은 것, 즉, 이며, 는 미리 설정된 최대 서브대역 인덱스 번호를 나타내고, 는 미리 설정된 최소 서브대역 인덱스 번호를 나타낸다.
또한, 광대역 스테레오 신호의 경우, 서로 다른 코딩 레이트에 따라 서로 다른 미리 설정된 조건이 설정될 수 있다. 예를 들어, 코딩 레이트가 26kbps인 경우, 미리 설정된 조건은 서브대역 인덱스 번호 일 수 있으며, 다시 말하자면, 미리 설정된 최대 서브대역 인덱스 번호는 5일 수 있다. 코딩 레이트가 44kbps인 경우, 미리 설정된 조건은 일 수 있으며, 다시 말하자면, 미리 설정된 최대 서브대역 인덱스 번호는 6이다. 코딩 레이트가 56kbps인 경우, 미리 설정된 조건은 서브대역 인덱스 번호 일 수 있으며, 다시 말하자면 미리 설정된 최대 서브대역 인덱스 번호는 7이다.
예를 들어, 미리 설정된 조건이 서브대역 인덱스 번호 이면, 인덱스 번호가 0 내지 4인 5개의 서브대역은 현재 프레임의 N개의 서브대역 중에서 미리 설정된 조건을 만족하는 서브대역으로 결정될 수 있다.
또한, 현재 프레임이 P개의 서브프레임(P는 2 이상의 양의 정수)으로 분할되면, 시간 시프트 조정을 통해 획득된 각 서브프레임은 서브대역으로 분할된다. 예를 들어, 인덱스 번호가 ()인 서브프레임은 N개의 서브대역으로 분할되고, 인덱스 번호가 인 서브프레임에서 인덱스 번호가 b인 서브대역에 포함된 주파수 빈은 이며, 는 인덱스 번호가 인 서브프레임에서 인덱스 번호가 인 서브대역에 포함된 주파수 빈의 최소 인덱스 번호를 나타내고, 는 인덱스 번호가 인 서브프레임에서 인덱스 번호가 b+1인 서브대역에 포함된 주파수 빈의 최소 인덱스 번호를 나타낸다.
미리 설정된 조건에 따라, 각 프레임에 포함된 N개의 서브대역으로부터 미리 설정된 조건을 만족하는 M개의 서브대역이 결정된다.
미리 설정된 조건은, 서브대역의 인덱스 번호가 미리 설정된 최소 서브대역 인덱스 번호보다 크거나 같고, 미리 설정된 최대 서브대역 인덱스 번호보다 작거나 같은 것 즉, 일 수 있다.
예를 들어, 미리 설정된 조건이 이면, 각 서브프레임의 N개의 서브대역 중에서, 인덱스 번호가 4 내지 8인 5개의 서브대역이 미리 설정된 조건을 만족하는 서브대역으로 결정된다.
408: 시간 시프트 조정을 통해 획득된 좌측 채널 주파수 도메인 신호와 우측 채널 주파수 도메인 신호에 기반하여, 미리 설정된 조건을 만족하는 서브대역의 다운믹스된 신호 및 잔차 신호를 산출한다.
구체적으로, 현재 프레임을 P개의 서브프레임(P는 2보다 크거나 같은 양의 정수)으로 분할하는 예(예를 들어, 현재 프레임이 2개의 서브프레임 또는 4개의 서브프레임으로 분할될 수 있음)를 이용하여 미리 설정된 조건을 만족하는 서브대역의 다운믹스된 신호 및 잔차 신호를 산출하는 방법을 설명한다.
예를 들어, 미리 설정된 조건이 서브대역 인덱스 번호 가 5보다 작거나 같은 것이면, 각 서브프레임에서 인덱스 번호가 0 내지 5인 서브대역의 다운믹스된 신호 및 잔차 신호가 산출된다.
인덱스 번호가 인 서브프레임에서 인덱스 번호가 ()인 서브대역의 다운믹스된 신호가 로 표시되고, 인덱스 번호가 인 서브프레임에서 인덱스 번호가 인 서브대역의 잔차 신호가 로 표시되며, 는 다음:
을 만족한다.
는 인덱스 번호가 인 서브프레임에서 인덱스 번호가 인 서브대역의 IPD 파라미터를 나타내고, 는 인덱스 번호가 인 서브프레임에서 인덱스 번호가 인 서브대역의 사이드 이득을 나타내며, 는 인덱스 번호가 인 서브프레임에서 인덱스 번호가 인 서브대역의 시간 시프트 조정을 통해 획득된 좌측 채널 주파수 도메인 신호를 나타내고, 는 인덱스 번호가 인 서브프레임에서 인덱스 번호가 인 서브대역의 시간 시프트 조정을 통해 획득된 우측 채널 주파수 도메인 신호를 나타내며, 는 인덱스 번호가 인 서브프레임에서 인덱스 번호가 인 서브대역의, 복수의 스테레오 파라미터의 조정을 통해 획득된, 좌측 채널 주파수 도메인 신호를 나타내고, 는 인덱스 번호가 인 서브프레임에서 인덱스 번호가 인 서브대역의, 복수의 스테레오 파라미터의 조정을 통해 획득된, 우측 채널 주파수 도메인 신호를 나타내며, 서브프레임 인덱스 번호를 나타내고, 이고, k는 주파수 빈 인덱스 번호를 나타내며, 이고, 는 인덱스 번호가 인 서브프레임에서 인덱스 번호가 인 서브대역에 포함된 주파수 빈의 최소 인덱스 번호를 나타내고, 는 인덱스 번호가 인 서브프레임에서 인덱스 번호가 b+1인 서브대역에 포함된 주파수 빈의 최소 인덱스 번호를 나타낸다.
다른 예를 들어, 인덱스 번호가 인 서브프레임에서 인덱스 번호가 인 서브대역의 다운 믹스된 신호 는 다르게는 다음 방법:
에 따라 산출될 수 있다.
는 인덱스 번호가 인 서브프레임에서 인덱스 번호가 인 서브대역의, 복수의 스테레오 파라미터의 조정을 통해 획득된, 좌측 채널 주파수 도메인 신호를 나타내고, 는 인덱스 번호가 인 서브프레임에서 인덱스 번호가 인 서브대역의, 복수의 스테레오 파라미터의 조정을 통해 획득된, 우측 채널 주파수 도메인 신호를 나타내며, 서브프레임 인덱스 번호를 나타내고, 이며, k는 주파수 빈 인덱스 번호를 나타내고, 이며, 는 서브대역 인덱스 번호가 인 서브대역에 포함된 주파수 빈의 최소 인덱스 번호를 나타내고, 는 인덱스 번호가 인 서브프레임에서 인덱스 번호가 b+1인 서브대역에 포함된 주파수 빈의 최소 인덱스 번호를 나타낸다. 다운믹스된 신호 에너지 및 잔차 신호 에너지를 산출하는 방법은 본 출원의 이 실시 예에서 제한되지 않는다.
409: 미리 설정된 조건을 만족하는 서브대역의 다운믹스된 신호 에너지 및 잔차 신호 에너지에 기반하여 잔차 신호 인코딩 파라미터를 결정한다.
410: 잔차 신호 인코딩 파라미터에 기반하여, 현재 프레임의 M개의 서브대역 각각의 잔차 신호가 인코딩되어야 하는지를 판정한다. 잔차 신호의 인코딩이 필요하다고 결정되면 412가 수행된다. 잔차 신호가 인코딩될 필요가 없다고 결정되면 411이 수행된다.
411: 잔차 신호 인코딩 파라미터에 기반하여 현재 프레임의 M개의 서브대역 각각의 다운믹스된 신호를 인코딩한다. 이 경우, 잔차 신호가 인코딩될 필요가 없다.
412: 잔차 신호 인코딩 파라미터에 기반하여 현재 프레임의 M개의 서브대역 각각의 다운믹스된 신호 및 잔차 신호를 인코딩한다.
단계 409 내지 단계 411의 특정 구현에 대해서는 방법(300)의 관련 설명을 참조한다. 간결성을 위해, 세부 사항은 여기서 다시 설명되지 않는다.
방법(400)에서, 인코더 측이 현재 프레임을 P개의 서브프레임으로 분할하고 - P는 2보다 크거나 같은 양의 정수임 -, P개의 서브프레임 각각의 스펙트럼 계수를 N개의 서브프레임으로 분할하며, 미리 설정된 조건을 만족하면서 또한 각각의 서브프레임에 있는 M개의 서브대역(M개의 서브대역은 N개의 서브대역 중 적어도 일부)의 다운믹스된 신호 에너지와 잔차 신호 에너지에 기반하여, 잔차 신호 인코딩 파라미터가 결정되는 경우, 따라서, 방법(300)에서, 현재 프레임에서 인덱스 번호가 b인 서브대역의 잔차 신호 에너지 res_cod_NRG_S[b]는 P개의 서브프레임 모두에서 인덱스 번호가 b인 서브대역의 잔차 신호 에너지의 합이며, 현재 프레임에서 인덱스 번호가 b인 서브대역의 다운믹스된 신호 에너지 res_cod_NRG_M[b]는 P개의 서브프레임 모두에서 인덱스 번호가 b인 서브대역의 다운믹스된 신호 에너지의 합이다.
예를 들어, 현재 프레임이 2개의 서브프레임으로 분할되고, 2개의 서브프레임 각각에 대한 스펙트럼 계수가 N개의 서브대역으로 분할된다. 따라서 방법(300)에서, 현재 프레임에서 인덱스 번호가 b인 서브대역의 다운믹스된 신호 에너지 res_cod_NRG_M[b]는, 서브프레임 1에서 인덱스 번호가 b인 서브대역의 다운믹스된 신호 에너지와 서브프레임 2에서 인덱스 번호가 b인 서브대역의 다운믹스된 신호 에너지의 합이며, 현재 프레임에서 인덱스 번호가 b인 서브대역의 잔차 신호 에너지 res_cod_NRG_ S[b]는, 서브프레임 1에서 인덱스 번호가 b인 서브대역의 잔차 신호 에너지와 서브프레임 2에서 인덱스 번호가 b인 서브대역의 잔차 신호 에너지의 합이다.
전술한 내용은 도 1 내지 도 7로 본 출원의 실시 예에서의 스테레오 신호 인코딩 방법을 상세히 설명한다. 다음은 도 8과 도 9를 참조하여 본 출원의 실시 예에서의 스테레오 신호 인코딩 장치를 설명한다. 도 8과 도 9 중 하나에 있는 장치는 본 출원의 실시 예에서의 스테레오 신호 인코딩 방법에 대응한다는 것을 이해해야 한다. 또한, 도 8과 도 9 중 하나에 있는 장치는 본 출원의 실시 예에서의 스테레오 신호 인코딩 방법을 수행할 수 있다. 간결성을 위해 아래에 반복적인 설명을 적절히 생략한다.
도 8은 본 출원의 실시 예에 따른 스테레오 신호 인코딩 장치의 개략적인 블록도이다. 도 8의 장치(500)는,
현재 프레임의 M개의 서브대역 각각의 다운믹스된 신호 에너지와 잔차 신호 에너지에 기반하여, 스테레오 신호의 현재 프레임의 잔차 신호 인코딩 파라미터를 결정하도록 - 현재 프레임의 잔차 신호 인코딩 파라미터는 M개의 서브대역의 잔차 신호를 인코딩할지를 지시하는데 사용되며, M개의 서브대역은 N개의 서브대역 중 적어도 일부이고, N은 1보다 큰 양의 정수이며, M≤N이고, M은 양의 정수임 - 구성된 제1 결정 모듈(501); 및
현재 프레임의 잔차 신호 인코딩 파라미터에 기반하여 현재 프레임의 M개의 서브대역의 잔차 신호를 인코딩할지를 판정하도록 구성된 제2 결정 모듈(502)을 포함한다.
본 출원에서 잔차 신호 인코딩 파라미터는 N개의 서브대역에 있으면서 또한 미리 설정된 대역폭 범위를 만족하는 M개의 서브대역의 다운믹스된 신호 에너지와 잔차 신호 에너지에 기반하여 결정되며, M개의 서브대역 각각의 잔차 신호를 인코딩할지는, 잔차 신호 인코딩 파라미터에 기반하여 결정된다. 이는 코딩 레이트가 비교적 낮을 때 다운믹스된 신호만 인코딩하는 것을 방지한다. 다르게는, 미리 설정된 대역폭 범위를 만족하는 서브대역의 모든 잔차 신호를 인코딩할지는 잔차 신호 인코딩 파라미터에 기반하여 결정된다. 따라서, 디코딩된 스테레오 신호의 고주파수 왜곡이 최대한 감소될 수 있으며, 디코딩된 스테레오 신호의 공간감 및 사운드-이미지 안정성이 향상되어, 인코딩 품질을 향상시킬 수 있다.
선택적으로, 일 구현에서, M개의 서브대역은 N개의 서브대역에서 서브대역 인덱스 번호가 미리 설정된 최대 서브대역 인덱스 번호보다 작거나 같은 M개의 서브대역이다.
선택적으로, 일 구현에서, M개의 서브대역은 N개의 서브대역에서 서브대역 인덱스 번호가 미리 설정된 최소 서브대역 인덱스 번호보다 크거나 같고, 미리 설정된 최대 서브대역 인덱스 번호보다 작거나 같은 M개의 서브대역이다.
선택적으로, 일 구현에서, 제2 결정 모듈(502)은 추가로, 잔차 신호 인코딩 파라미터를 미리 설정된 제1 임계값과 비교하고 - 제1 임계값은 0보다 크고 1.0보다 작음 -; 잔차 신호 인코딩 파라미터가 제1 임계값보다 작거나 같을 때, M개의 서브대역의 잔차 신호를 인코딩하지 않기로 결정하거나, 또는 잔차 신호 인코딩 파라미터가 제1 임계값보다 클 때, M개의 서브대역 각각의 잔차 신호를 인코딩하기로 결정하도록 구성된다.
선택적으로, 일 구현에서, 제1 결정 모듈(501)은 추가로, M개의 서브대역 각각의, 다운믹스된 신호 에너지와 잔차 신호 에너지와 사이드 이득에 기반하여, 잔차 신호 인코딩 파라미터를 결정하도록 구성된다.
선택적으로, 일 구현에서, 제1 결정 모듈(501)은 추가로, M개의 서브대역 각각의, 다운믹스된 신호 에너지와 잔차 신호 에너지와 사이드 이득에 기반하여, 제1 파라미터를 결정하고 - 제1 파라미터는 M개의 서브대역 각각의 다운믹스된 신호 에너지와 잔차 신호 에너지 사이의 값 관계를 지시함 -; M개의 서브대역 각각의 다운믹스된 신호 에너지와 잔차 신호 에너지에 기반하여 제2 파라미터를 결정하며 - 제2 파라미터는 제1 에너지 합과 제2 에너지 합 사이의 값 관계를 지시하며, 제1 에너지 합은 M개의 서브대역의 잔차 신호 에너지와 다운믹스된 신호 에너지의 합이고, 제2 에너지 합은 현재 프레임의 이전 프레임의 주파수 도메인 신호에서 M개의 서브대역의 잔차 신호 에너지와 다운믹스된 신호 에너지의 합이며, 현재 프레임의 M개의 서브대역은 이전 프레임의 M개의 서브대역과 동일한 서브대역 인덱스 번호를 가짐 -; 그리고 제1 파라미터, 제2 파라미터 및 현재 프레임의 이전 프레임의 장기 평활화 파라미터에 기반하여 잔차 신호 인코딩 파라미터를 결정하도록 구성된다.
선택적으로, 일 구현에서, 제1 결정 모듈(501)은 추가로, M개의 서브대역 각각의, 다운믹스된 신호 에너지와 잔차 신호 에너지와 사이드 이득에 기반하여, M개의 에너지 파라미터를 결정하고 - M개의 에너지 파라미터는 각각 M개의 서브대역 중 하나의 다운믹스된 신호 에너지와 잔차 신호 에너지 사이의 값 관계를 지시하며, M개의 에너지 파라미터는 M개의 서브대역에 일대일 대응함 -; 그리고 M개의 에너지 파라미터에서 가장 큰 값을 갖는 에너지 파라미터를 제1 파라미터로서 결정하도록 구성된다.
선택적으로, 일 구현에서, 제1 결정 모듈(501)에 의해 결정된 M개의 에너지 파라미터에서 서브대역 인덱스 번호가 b인 서브대역의 에너지 파라미터는 다음 수식:
을 만족하며, res_dmx_ratio[b]는 서브대역 인덱스 번호가 b인 서브대역의 에너지 파라미터를 나타내고, b는 0보다 크거나 같고 미리 설정된 최대 서브대역 인덱스 번호보다 작거나 같으며, res_cod_NRG_S[b]는 서브대역 인덱스 번호가 b인 서브대역의 잔차 신호 에너지 파라미터를 나타내고, res_cod_NRG_M[b]는 서브대역 인덱스 번호가 b인 서브대역의 다운믹스된 신호 에너지를 나타내며, g(b)는 서브대역 인덱스 번호가 b인 서브대역의 사이드 이득 side_gain[b]의 함수를 나타낸다.
선택적으로, 일 구현에서, 제1 결정 모듈(501)은 추가로, M개의 서브대역 각각의 다운믹스된 신호 에너지와 잔차 신호 에너지에 기반하여 제1 파라미터를 결정하고 - 제1 파라미터는 M개의 서브대역 각각의 다운믹스된 신호 에너지와 잔차 신호 에너지 사이의 값 관계를 지시함 -; M개의 서브대역 각각의 다운믹스된 신호 에너지와 잔차 신호 에너지에 기반하여 제2 파라미터를 결정하며 - 제2 파라미터는 제1 에너지 합과 제2 에너지 합 사이의 값 관계를 지시하고, 제1 에너지 합은 M개의 서브대역의 잔차 신호 에너지와 다운믹스된 신호 에너지의 합이며, 제2 에너지 합은 현재 프레임의 이전 프레임의 주파수 도메인 신호에서 M개의 서브대역의 잔차 신호 에너지와 다운믹스된 신호 에너지의 합이고, 현재 프레임의 M개의 서브대역은 이전 프레임의 M개의 서브대역과 동일한 서브대역 인덱스 번호를 가짐 -; 그리고 제1 파라미터, 제2 파라미터 및 현재 프레임의 이전 프레임의 장기 평활화 파라미터에 기반하여 잔차 신호 인코딩 파라미터를 결정하도록 구성된다.
선택적으로, 일 구현에서, 제1 결정 모듈(501)은 추가로, M개의 서브대역 각각의 다운믹스된 신호 에너지와 잔차 신호 에너지에 기반하여 M개의 에너지 파라미터를 결정하고 - M개의 에너지 파라미터는 각각 M개의 서브대역 각각의 다운믹스된 신호 에너지와 잔차 신호 에너지 사이의 값 관계를 지시하며, M개의 에너지 파라미터는 M개의 서브대역에 일대일로 대응함 -; 그리고 M개의 에너지 파라미터에서 가장 큰 값을 갖는 에너지 파라미터를 제1 파라미터로서 결정하도록 구성된다.
선택적으로, 일 구현에서, 제1 결정 모듈(501)에 의해 결정된 M개의 에너지 파라미터에서 서브대역 인덱스 번호가 b인 서브대역의 에너지 파라미터는 다음 수식:
res_dmx_ratio[b] = res_cod_NRG_S[b]/res_cod_NRG_M[b]
을 만족하고, res_dmx_ratio[b]는 서브대역 인덱스 번호가 b인 에너지 파라미터를 나타내고, b가 0보다 크거나 같고 미리 설정된 최대 서브대역 인덱스 번호보가 작거나 같으며, res_cod_NRG_S[b]는 서브대역 인덱스 번호가 b인 서브대역의 잔차 신호 에너지를 나타내고, res_cod_NRG_M[b]는 서브대역 인덱스 번호가 b인 서브대역의 다운믹스된 신호 에너지를 나타낸다.
선택적으로, 일 구현에서, 제1 결정 모듈(501)은 추가로, M개의 에너지 파라미터의 합을 제1 파라미터(정정될) res_dmx_ratio1로서 결정하고, M개의 에너지 파라미터의 최대 값 res_dmx_ratio_max과 M개의 서브대역 각각의 다운믹스된 신호 에너지 res_cod_NRG_M[b]에 기반하여 res_dmx_ratio1을 정정하고, 정정을 통해 획득된 res_dmx_ratio2를 결정하도록 구성된다.
예를 들어, 인코더 측은 다음 수식에 따라 res_dmx_ratio1을 정정하고, M = 5이며; 그리고
정정을 통해 획득된 res_dmx_ratio2는 다음:
을 만족한다.
선택적으로, 일 구현에서, 정정을 통해 획득된 res_dmx_ratio2는 추가로 정정될 수 있다.
예를 들어, 정정을 통해 최종적으로 획득된 res_dmx_ratio3는 다음:
을 만족하며, pow() 함수는 지수 함수를 나타내고, 는 res_dmx_ratio2의 거듭제곱 1.2를 나타낸다.
선택적으로, 일 구현에서, 제1 결정 모듈(501)은 추가로, M개의 서브대역의 잔차 신호 에너지의 합 및 M개의 서브대역의 다운믹스된 신호 에너지의 합에 기반하여 제1 파라미터를 결정하도록 구성된다.
구체적으로, 인코더 측은 M개의 서브대역의 다운믹스된 신호 에너지의 합 dmx_nrg_all_curr과 M개의 서브대역의 잔차 신호 에너지의 합 res_nrg_all_curr을 별도로 결정하고, dmx_nrg_all_curr 및 res_nrg_all_curr에 기반하여 제1 파라미터를 결정한다.
선택적으로, 일 구현에서 M개의 서브대역의 다운믹스된 신호 에너지의 합 dmx_nrg_all_curr는 다음:
을 만족하며, 는 현재 프레임의 이전 프레임에서 서브대역 인덱스 번호가 b인 서브대역의 다운믹스된 신호 에너지를 나타내고, 은 평활화 팩터를 나타내며, 은 0보다 크거나 같고 1보다 작거나 같은 실수이며, 예를 들어, =0.1이다.
선택적으로, 일 구현에서, M개의 서브대역의 잔차 신호 에너지의 합 res_nrg_all_curr는 다음:
을 만족하며, 은 현재 프레임의 이전 프레임에서 서브대역 인덱스 번호가 b인 서브대역의 전차 신호 에너지를 나타내고, 는 평활화 팩터를 나타내며, 는 0보다 크거나 같고 1보다 작거나 같은 실수이며, 예를 들어, =0.1이다.
인코더측은 dmx_nrg_all_curr 및 res_nrg_all_curr에 기반하여 제1 파라미터 res_dmx_ratio를 결정한다.
예를 들어, 인코더 측에 의해 최종적으로 결정된 제1 파라미터 res_dmx_ratio는 다음:
res_dmx_ratio = res_nrg_all_curr/ dmx_nrg_all_curr
을 만족한다.
선택적으로, 일 구현에서, 제1 결정 모듈(501)에 의해 결정된 M개의 에너지 파라미터에서 서브대역 인덱스 번호가 b인 서브대역의 에너지 파라미터는 다음 수식:
res_dmx_ratio[b] = res_cod_NRG_S[b]/res_cod_NRG_M[b]
을 만족하며, res_dmx_ratio[b]는 M개의 에너지 파라미터에서 서브대역 인덱스 번호가 b인 서브대역의 에너지 파라미터를 나타내고, b는 0보다 크거나 같고 미리 설정된 최대 서브대역 인덱스 번호보다 작거나 같으며, res_cod_NRG_S[b]는 서브대역 인덱스 번호가 b인 서브대역의 잔차 신호 에너지를 나타내고, res_cod_NRG_M[b]는 서브대역 인덱스 번호가 b인 서브대역의 다운믹스된 신호 에너지를 나타낸다.
선택적으로, 일 실시 예에서, 현재 프레임의 제1 결정 모듈(501)에 의해 결정된 잔차 신호 인코딩 파라미터는 현재 프레임의 장기 평활화 파라미터이고, 현재 프레임의 장기 평활화 파라미터는 수식:
res_dmx_ratio_lt = res_dmx_ratio·α + res_dmx_ratio_lt_prev·(1 - α)
을 만족하며,
res_dmx_ratio_lt는 현재 프레임의 장기 평활화 파라미터를 나타내고, res_dmx_ratio는 제1 파라미터를 나타내며, res_dmx_ratio_lt_prev는 현재 프레임의 이전 프레임의 장기 평활화 파라미터를 나타내고, 0 < α < 1이며; 그리고
제2 파라미터가 미리 설정된 제3 임계값보다 큰 경우, 제1 파라미터가 미리 설정된 제2 임계값보다 작을 때의 α 값은, 제1 파라미터가 미리 설정된 제2 임계값보다 크거나 같을 때의 α 값보다 크며, 제2 임계값은 0보다 크거나 같고 0.6보다 작거나 같으며, 제3 임계값은 2.7보다 크거나 같고 3.7보다 작거나 같고; 또는
제2 파라미터가 미리 설정된 제5 임계값보다 작은 경우, 제1 파라미터가 미리 설정된 제4 임계값보다 클 때의 α 값은 제1 파라미터가 미리 설정된 제4 임계값보다 작거나 같을 때의 α 값보다 크며, 제4 임계값은 0보다 크거나 같고 0.9보다 작거나 같으며, 제5 임계값은 0보다 크거나 같고 0.71보다 작거나 같고; 또는
제1 파라미터가 미리 설정된 제2 임계값보다 작고 제2 파라미터가 미리 설정된 제3 임계값보다 클 때의 α 값은 제2 파라미터가 미리 설정된 제5 임계값보다 크거나 같고 미리 설정된 제3 임계값보다 작거나 같을 때의 α 값보다 크고, 제2 임계값은 0보다 크거나 같고 0.6보다 작거나 같으며, 제3 임계값은 2.7보다 크거나 같고 3.7보다 작거나 같으며, 제5 임계값은 0보다 크거나 같고 0.71보다 작거나 같다.
선택적으로, 일 실시 예에서, 제2 결정 모듈(502)은 추가로, M개의 서브대역의 잔차 신호를 인코딩하기로 결정될 때, M개의 서브대역의 다운믹스된 신호 및 잔차 신호를 인코딩하거나; 또는 M개의 서브대역의 잔차 신호를 인코딩하지 않기로 결정될 때, M개의 서브대역의 다운믹스된 신호를 인코딩하도록 구성된다.
도 9는 본 출원의 실시 예에 따른 스테레오 신호 인코딩 장치의 개략적인 블록도이다. 도 9의 장치(600)는
프로그램을 저장하도록 구성된 메모리(601); 및
메모리(601)에 저장된 프로그램을 실행하도록 구성된 프로세서(602)를 포함하며, 메모리의 프로그램이 실행될 때 프로세서(602)는 구체적으로,
현재 프레임의 M개의 서브대역 각각의 다운믹스된 신호 에너지와 잔차 신호 에너지에 기반하여 스테레오 신호의 현재 프레임의 잔차 신호 인코딩 파라미터를 결정하고 - 현재 프레임의 잔차 신호 인코딩 파라미터는 M개의 서브대역의 잔차 신호를 인코딩할지를 지시하는데 사용되며, M개의 서브대역은 N개의 서브대역 중 적어도 일부이고, N은 1보다 큰 양의 정수이며, M≤N이고, M은 양의 정수임 -; 잔차 신호 인코딩 파라미터에 기반하여, 현재 프레임의 M개의 서브대역의 잔차 신호를 인코딩할지를 판정하도록 구성된다.
선택적으로, 일 구현에서, M개의 서브대역은 N개의 서브대역에서 서브대역 인덱스 번호가 미리 설정된 최대 서브대역 인덱스 번호보다 작거나 같은 M개의 서브대역이다.
선택적으로, 일 구현에서, M개의 서브대역은 N개의 서브대역에서 서브대역 인덱스 번호가 미리 설정된 최소 서브대역 인덱스 번호보다 크거나 같고 미리 설정된 최대 서브대역 인덱스 번호보다 작거나 같은 M개의 서브대역이다.
선택적으로, 일 구현에서, 프로세서(602)는 추가로, 잔차 신호 인코딩 파라미터를 미리 설정된 제1 임계값과 비교하고 - 제1 임계값은 0보다 크고 1.0보다 작음 -; 잔차 신호 인코딩 파라미터가 제1 임계값보다 작을 때, M개의 서브대역의 잔차 신호를 인코딩하지 않기로 결정하거나 또는 잔차 신호 인코딩 파라미터가 제1 임계값보다 클 때, M개의 서브대역 각각의 잔차 신호를 인코딩하기로 결정하도록 구성된다.
선택적으로, 일 구현에서, 프로세서(602)는 추가로, M개의 서브대역 각각의, 다운믹스된 신호 에너지와 잔차 신호 에너지와 사이드 이득에 기반하여, 잔차 신호 인코딩 파라미터를 결정하도록 구성된다.
선택적으로, 일 구현에서, 프로세서(602)는 추가로, M개의 서브대역 각각의, 다운믹스된 신호 에너지와 잔차 신호 에너지와 사이드 이득에 기반하여, 제1 파라미터를 결정하고 - 제1 파라미터는 M개의 서브대역 각각의 다운믹스된 신호 에너지와 잔차 신호 에너지 사이의 값 관계를 지시함 -; M개의 서브대역 각각의 다운믹스된 신호 에너지와 잔차 신호 에너지에 기반하여 제2 파라미터를 결정하며 - 제2 파라미터는 제1 에너지 합과 제2 에너지 합 사이의 값 관계를 지시하며, 제1 에너지 합은 M개의 서브대역의 잔차 신호 에너지와 다운믹스된 신호 에너지의 합이고, 제2 에너지 합은 현재 프레임의 이전 프레임의 주파수 도메인 신호에서 M개의 서브대역의 잔차 신호 에너지와 다운믹스된 신호 에너지의 합이며, 현재 프레임의 M개의 서브대역은 이전 프레임의 M개의 서브대역과 동일한 서브대역 인덱스 번호를 가짐 -; 그리고 제1 파라미터, 제2 파라미터 및 현재 프레임의 이전 프레임의 장기 평활화 파라미터에 기반하여 잔차 신호 인코딩 파라미터를 결정하도록 구성된다.
선택적으로, 일 구현에서, 프로세서(602)는 추가로, M개의 서브대역 각각의, 다운믹스된 신호 에너지와 잔차 신호 에너지와 사이드 이득에 기반하여, M개의 에너지 파라미터를 결정하고 - M개의 에너지 파라미터는 각각 M개의 서브대역 중 하나의 다운믹스된 신호 에너지와 잔차 신호 에너지 사이의 값 관계를 지시하고, M개의 에너지 파라미터는 M개의 서브대역에 일대일 대응함 -; 그리고 M개의 에너지 파라미터에서 가장 큰 값을 갖는 에너지 파라미터를 제1 파라미터로서 결정하도록 구성된다.
선택적으로, 일 구현에서, 프로세서(602)에 의해 결정된 M개의 에너지 파라미터에서 서브대역 인덱스 번호가 b인 서브대역의 에너지 파라미터는 다음 수식:
을 만족하며, res_dmx_ratio[b]는 서브대역 인덱스 번호가 b인 서브대역의 에너지 파라미터를 나타내고, b는 0보다 크거나 같고 미리 설정된 최대 서브대역 인덱스 번호보다 작거나 같으며, res_cod_NRG_S[b]는 서브대역 인덱스 번호가 b인 서브대역의 잔차 신호 에너지 파라미터를 나타내고, res_cod_NRG_M[b]는 서브대역 인덱스 번호가 b인 서브대역의 다운믹스된 신호 에너지를 나타내며, g(b)는 서브대역 인덱스 번호가 b인 서브대역의 사이드 이득 side_gain[b]의 함수를 나타낸다.
선택적으로, 일 구현에서, 프로세서(602)는 추가로, M개의 서브대역 각각의 다운믹스된 신호 에너지와 잔차 신호 에너지에 기반하여 제1 파라미터를 결정하고 - 제1 파라미터는 M개의 서브대역 각각의 다운믹스된 신호 에너지와 잔차 신호 에너지 사이의 값 관계를 지시함 -; M개의 서브대역 각각의 다운믹스된 신호 에너지와 잔차 신호 에너지에 기반하여 제2 파라미터를 결정하며 - 제2 파라미터는 제1 에너지 합과 제2 에너지 합 사이의 값 관계를 지시하고, 제1 에너지 합은 M개의 서브대역의 잔차 신호 에너지와 다운믹스된 신호 에너지의 합이며, 제2 에너지 합은 현재 프레임의 이전 프레임의 주파수 도메인 신호에서 M개의 서브대역의 잔차 신호 에너지와 다운믹스된 신호 에너지의 합이고, 현재 프레임의 M개의 서브대역은 이전 프레임의 M개의 서브대역과 동일한 서브대역 인덱스 번호를 가짐 -; 그리고 제1 파라미터, 제2 파라미터 및 현재 프레임의 이전 프레임의 장기 평활화 파라미터에 기반하여 잔차 신호 인코딩 파라미터를 결정하도록 구성된다.
선택적으로, 일 구현에서, 프로세서(602)는 추가로, M개의 서브대역 각각의 다운믹스된 신호 에너지와 잔차 신호 에너지에 기반하여 M개의 에너지 파라미터를 결정하고 - M개의 에너지 파라미터는 각각 M개의 서브대역 각각의 다운믹스된 신호 에너지와 잔차 신호 에너지 사이의 값 관계를 지시하며, M개의 에너지 파라미터는 M개의 서브대역에 일대일로 대응함 -; 그리고 M개의 에너지 파라미터에서 가장 큰 값을 갖는 에너지 파라미터를 제1 파라미터로서 결정하도록 구성된다.
선택적으로, 일 구현에서, 프로세서(602)에 의해 결정된 M개의 에너지 파라미터에서 서브대역 인덱스 번호가 b인 서브대역의 에너지 파라미터는 다음 수식:
res_dmx_ratio[b] = res_cod_NRG_S[b]/res_cod_NRG_M[b]
을 만족하고, res_dmx_ratio[b]는 서브대역 인덱스 번호가 b인 에너지 파라미터를 나타내고, b가 0보다 크거나 같고 미리 설정된 최대 서브대역 인덱스 번호보가 작거나 같으며, res_cod_NRG_S[b]는 서브대역 인덱스 번호가 b인 서브대역의 잔차 신호 에너지를 나타내고, res_cod_NRG_M[b]는 서브대역 인덱스 번호가 b인 서브대역의 다운믹스된 신호 에너지를 나타낸다.
선택적으로, 일 구현에서, 프로세서(602)는 추가로, M개의 에너지 파라미터의 합을 제1 파라미터(정정될) res_dmx_ratio1로서 결정하고, M개의 에너지 파라미터의 최대 값 res_dmx_ratio_max과 M개의 서브대역 각각의 다운믹스된 신호 에너지 res_cod_NRG_M[b]에 기반하여 res_dmx_ratio1을 정정하고, 정정을 통해 획득된 res_dmx_ratio2를 결정하도록 구성된다.
예를 들어, 인코더 측은 다음 수식에 따라 res_dmx_ratio1을 정정하고, M = 5이며; 그리고
정정을 통해 획득된 res_dmx_ratio2는 다음:
을 만족한다.
선택적으로, 일 구현에서, 정정을 통해 획득된 res_dmx_ratio2는 추가로 정정될 수 있다.
예를 들어, 정정을 통해 최종적으로 획득된 res_dmx_ratio3는 다음:
을 만족하며, pow() 함수는 지수 함수를 나타내고, 는 res_dmx_ratio2의 거듭제곱 1.2를 나타낸다.
선택적으로, 일 구현에서, 프로세서(602)는 추가로, M개의 서브대역의 잔차 신호 에너지의 합 및 M개의 서브대역의 다운믹스된 신호 에너지의 합에 기반하여 제1 파라미터를 결정하도록 구성된다.
구체적으로, 인코더 측은 M개의 서브대역의 다운믹스된 신호 에너지의 합 dmx_nrg_all_curr과 M개의 서브대역의 잔차 신호 에너지의 합 res_nrg_all_curr을 별도로 결정하고, dmx_nrg_all_curr 및 res_nrg_all_curr에 기반하여 제1 파라미터를 결정한다.
선택적으로, 일 구현에서 M개의 서브대역의 다운믹스된 신호 에너지의 합 dmx_nrg_all_curr는 다음:
을 만족하며, 는 현재 프레임의 이전 프레임에서 서브대역 인덱스 번호가 b인 서브대역의 다운믹스된 신호 에너지를 나타내고, 은 평활화 팩터를 나타내며, 은 0보다 크거나 같고 1보다 작거나 같은 실수이며, 예를 들어, =0.1이다.
선택적으로, 일 구현에서, M개의 서브대역의 잔차 신호 에너지의 합 res_nrg_all_curr는 다음:
을 만족하며, 은 현재 프레임의 이전 프레임에서 서브대역 인덱스 번호가 b인 서브대역의 전차 신호 에너지를 나타내고, 는 평활화 팩터를 나타내며, 는 0보다 크거나 같고 1보다 작거나 같은 실수이며, 예를 들어, =0.1이다.
인코더측은 dmx_nrg_all_curr 및 res_nrg_all_curr에 기반하여 제1 파라미터 res_dmx_ratio를 결정한다.
예를 들어, 인코더 측에 의해 최종적으로 결정된 제1 파라미터 res_dmx_ratio는 다음:
res_dmx_ratio = res_nrg_all_curr/ dmx_nrg_all_curr
을 만족한다.
선택적으로, 일 구현에서, 프로세서(602)에 의해 결정된 M개의 에너지 파라미터에서 서브대역 인덱스 번호가 b인 서브대역의 에너지 파라미터는 다음 수식:
res_dmx_ratio[b] = res_cod_NRG_S[b]/res_cod_NRG_M[b]
을 만족하며, res_dmx_ratio[b]는 M개의 에너지 파라미터에서 서브대역 인덱스 번호가 b인 서브대역의 에너지 파라미터를 나타내고, b는 0보다 크거나 같고 미리 설정된 최대 서브대역 인덱스 번호보다 작거나 같으며, res_cod_NRG_S[b]는 서브대역 인덱스 번호가 b인 서브대역의 잔차 신호 에너지를 나타내고, res_cod_NRG_M[b]는 서브대역 인덱스 번호가 b인 서브대역의 다운믹스된 신호 에너지를 나타낸다.
선택적으로, 일 구현에서, 프로세서(602)에 의해 결정된 잔차 신호 인코딩 파라미터는 현재 프레임의 장기 평활화 파라미터이다.
선택적으로, 일 실시 예에서, 현재 프레임의 프로세서(602)에 의해 결정된 잔차 신호 인코딩 파라미터는 현재 프레임의 장기 평활화 파라미터이고, 현재 프레임의 장기 평활화 파라미터는 수식:
res_dmx_ratio_lt = res_dmx_ratio·α + res_dmx_ratio_lt_prev·(1 - α)
을 만족하며,
res_dmx_ratio_lt는 현재 프레임의 장기 평활화 파라미터를 나타내고, res_dmx_ratio는 제1 파라미터를 나타내며, res_dmx_ratio_lt_prev는 현재 프레임의 이전 프레임의 장기 평활화 파라미터를 나타내고, 0 < α < 1이며; 그리고
제2 파라미터가 미리 설정된 제3 임계값보다 큰 경우, 제1 파라미터가 미리 설정된 제2 임계값보다 작을 때의 α 값은, 제1 파라미터가 미리 설정된 제2 임계값보다 크거나 같을 때의 α 값보다 크며, 제2 임계값은 0보다 크거나 같고 0.6보다 작거나 같으며, 제3 임계값은 2.7보다 크거나 같고 3.7보다 작거나 같고; 또는
제2 파라미터가 미리 설정된 제5 임계값보다 작은 경우, 제1 파라미터가 미리 설정된 제4 임계값보다 클 때의 α 값은 제1 파라미터가 미리 설정된 제4 임계값보다 작거나 같을 때의 α 값보다 크며, 제4 임계값은 0보다 크거나 같고 0.9보다 작거나 같으며, 제5 임계값은 0보다 크거나 같고 0.71보다 작거나 같고; 또는
제1 파라미터가 미리 설정된 제2 임계값보다 작고 제2 파라미터가 미리 설정된 제3 임계값보다 클 때의 α 값은 제2 파라미터가 미리 설정된 제5 임계값보다 크거나 같고 미리 설정된 제3 임계값보다 작거나 같을 때의 α 값보다 크고, 제2 임계값은 0보다 크거나 같고 0.6보다 작거나 같으며, 제3 임계값은 2.7보다 크거나 같고 3.7보다 작거나 같으며, 제5 임계값은 0보다 크거나 같고 0.71보다 작거나 같다.
선택적으로, 일 실시 예에서, 프로세서(602)는 추가로, M개의 서브대역의 잔차 신호를 인코딩하기로 결정될 때, M개의 서브대역의 다운믹스된 신호 및 잔차 신호를 인코딩하거나; 또는 M개의 서브대역의 잔차 신호를 인코딩하지 않기로 결정될 때, M개의 서브대역의 다운믹스된 신호를 인코딩하도록 구성된다.
본 출원은 칩을 추가로 제공한다. 칩은 프로세서와 통신 인터페이스를 포함한다. 통신 인터페이스는 외부 디바이스와 통신하도록 구성되고 프로세서는 본 출원의 실시 예에서의 스테레오 신호 인코딩 방법을 수행하도록 구성된다.
선택적으로, 일 구현에서, 칩은 메모리를 더 포함할 수 있다. 메모리는 명령을 저장하고 프로세서는 메모리에 저장된 명령을 실행하도록 구성된다. 명령이 실행될 때, 프로세서는 본 출원의 실시 예에서의 스테레오 신호 인코딩 방법을 수행하도록 구성된다.
선택적으로, 일 구현에서, 칩은 단말 디바이스 또는 네트워크 디바이스에 통합된다.
본 출원은 컴퓨터가 판독 가능한 저장 매체를 제공한다. 컴퓨터가 판독 가능한 저장 매체는 디바이스에 의해 실행될 프로그램 코드를 저장한다. 프로그램 코드는 본 출원의 실시 예에서의 스테레오 신호 인코딩 방법을 수행하기 위한 명령을 포함한다.
본 발명의 실시 예들에서 언급된 프로세서는 중앙 처리 장치(Central Processing Unit, CPU)이거나 다른 범용 프로세서, 디지털 신호 프로세서(Digital Signal Processor, DSP), 주문형 집적 회로(Application Specific Integrated Circuit, ASIC), 필드 프로그래밍 가능 게이트 어레이(Field Programmable Gate Array, FPGA) 또는 다른 프로그래밍 가능 논리 디바이스, 개별 게이트 또는 트랜지스터 논리 디바이스, 개별 하드웨어 컴포넌트 등일 수 있음을 이해해야 한다. 범용 프로세서는 마이크로 프로세서일 수 있거나, 또는 프로세서는 임의의 통상적인 프로세서 등일 수 있다.
본 발명의 실시 예들에서 언급된 메모리는 휘발성 메모리 또는 비 휘발성 메모리일 수 있거나, 또는 휘발성 메모리 및 비 휘발성 메모리를 포함할 수 있음을 이해할 수 있다. 비 휘발성 메모리는 읽기 전용 메모리(Read-Only Memory, ROM), 프로그래밍 가능 읽기 전용 메모리(Programmable ROM, PROM), 지울 수 있는 프로그래밍 가능 읽기 전용 메모리(Erasable PROM, EPROM), 전기적으로 지울 수 있는 프로그래밍 가능 읽기 전용 메모리(Electrically EPROM, EEPROM) 또는 플래시 메모리일 수 있다. 휘발성 메모리는 외부 캐시로 사용되는 랜덤 액세스 메모리(Random Access Memory, RAM)일 수 있다. 예를 들어 제한적이지 않은 설명을 통해, 많은 형태의 RAM들 예를 들어, 정적 랜덤 액세스 메모리(Static RAM, SRAM), 동적 랜덤 액세스 메모리(Dynamic RAM, DRAM), 동기식 동적 랜덤 액세스 메모리(Synchronous DRAM, SDRAM), 이중 데이터 레이트 동기 동적 랜덤 액세스 메모리(Double Data Rate SDRAM, DDR SDRAM), 향상된 동기 동적 랜덤 액세스 메모리(Enhanced SDRAM, ESDRAM), 동기링크 동적 랜덤 액세스 메모리(Synchlink DRAM, SLDRAM) 및 직접 랜버스 임의 액세스 메모리(Direct Rambus RAM, DR RAM)가 사용될 수 있다.
프로세서가 범용 프로세서, DSP, ASIC, FPGA 또는 다른 프로그래밍 가능 논리 디바이스, 개별 게이트, 트랜지스터 논리 디바이스 또는 개별 하드웨어 컴포넌트인 경우, 메모리(저장 모듈)는 프로세서에 통합됨을 유의해야 한다.
본 명세서에 기술된 메모리는 이들 메모리 및 다른 적절한 유형의 임의의 메모리를 포함하지만 이에 제한되지 않는다는 점에 유의해야 한다. 당업자는 본 명세서에 개시된 실시 예에서 설명된 예와 결합하여, 유닛 및 알고리즘 단계가 전자 하드웨어 또는 컴퓨터 소프트웨어와 전자 하드웨어의 조합에 의해 구현될 수 있음을 알 수 있다. 기능이 하드웨어 또는 소프트웨어에 의해 수행되는지는 특정 애플리케이션 및 기술 솔루션의 설계 제약 조건에 따라 다르다. 당업자는 각각의 특정 애플리케이션에 대해 설명된 기능을 구현하기 위해 상이한 방법을 사용할 수 있지만, 구현이 본 출원의 범위를 벗어나는 것으로 간주되어서는 안된다.
본 기술 분야의 통상의 기술자는 편리하고 간단한 설명을 위해, 전술한 시스템, 장치 및 유닛의 상세한 작업 프로세스에 대해 전술한 방법 실시 예에서 대응하는 프로세스를 참조한다는 것을 명확하게 이해할 수 있다. 세부 사항은 여기에서 설명하지 않는다.
본 출원에서 제공되는 여러 실시 예에서, 개시된 시스템, 장치 및 방법은 다른 방식으로 구현될 수 있음을 이해해야 한다. 예를 들어, 설명된 장치 실시 예는 단지 예일 뿐이다. 예를 들어, 유닛으로 나누는 것은 단순히 논리적인 기능 구분이며 실제 구현에서는 다른 구분일 수 있다. 예를 들어, 복수의 유닛 또는 컴포넌트가 다른 시스템에 결합되거나 통합될 수 있거나, 또는 일부 기능이 무시되거나 수행되지 않을 수 있다. 또한, 표시되거나 논의된 상호 결합 또는 직접 결합 또는 통신 연결은 일부 인터페이스를 이용하여 구현될 수 있다. 장치 또는 유닛 간의 간접 결합 또는 통신 연결은 전자적, 기계적 또는 다른 형태로 구현될 수 있다.
분리된 부분으로 기술된 유닛은 물리적으로 분리될 수도 있고 그렇지 않을 수도 있고, 유닛으로 표시되는 부분은 물리적 유닛일 수도 있고 아닐 수도 있으며, 한 위치에 위치할 수도 있고, 복수의 네트워크 유닛에 분산될 수도 있다. 일부 또는 모든 유닛은 실시 예의 솔루션의 목적을 달성하기 위해 실제 요건에 기반하여 선택될 수 있다.
또한, 본 출원의 실시 예에서 기능 유닛은 하나의 처리 유닛으로 통합될 수 있거나, 또는 각각의 유닛은 물리적으로 단독으로 존재할 수 있거나, 또는 둘 이상의 유닛이 하나의 유닛으로 통합될 수 있다.
기능이 소프트웨어 기능 유닛의 형태로 구현되어 독립적인 제품으로 판매 또는 사용되는 경우, 기능은 컴퓨터가 판독 가능한 저장 매체에 저장될 수 있다. 이러한 이해에 기반하여, 본 출원의 본질적인 기술적 솔루션, 또는 종래 기술에 기여하는 부분, 또는 기술적 솔루션의 일부는 소프트웨어 제품의 형태로 구현될 수 있다. 컴퓨터 소프트웨어 제품은 저장 매체에 저장되며, 컴퓨터 디바이스(개인용 컴퓨터, 서버, 네트워크 디바이스 등일 수 있음)에게 본 출원의 실시 예에서 설명된 방법의 모든 단계 또는 일부 단계를 수행하도록 지시하는 몇 가지 명령을 포함한다. 전술한 저장 매체는 USB 플래시 드라이브, 이동식 하드 디스크, 읽기 전용 메모리(Read-Only Memory, ROM), 랜덤 액세스 메모리(Random Access Memory, RAM), 자기 디스크 또는 광 디스크와 같은 프로그램 코드를 저장할 수 있는 모든 매체를 포함한다.
전술한 설명은 본 출원의 특정 구현일 뿐이며, 본 출원의 보호 범위를 제한하려는 것은 아니다. 본 출원에 개시된 기술적 범위 내에서 당업자에 의해 용이하게 파악되는 임의의 변형 또는 대체는 본 출원의 보호 범위 내에 속한다. 따라서 본 출원의 보호 범위는 청구 범위의 보호 범위에 따른다.

Claims (11)

  1. 스테레오 신호 인코딩 방법으로서
    스테레오 신호의 현재 프레임의 M개의 서브대역 각각에 대한 다운믹싱된 신호 에너지를 획득하는 단계 - 여기서, 상기 현재 프레임은 N개의 서브대역을 포함하고, 상기 M개의 서브대역은 상기 N개의 서브대역의 일부이고, M<N이며, M과 N은 모두 양의 정수이고 N은 1보다 큼 - ;
    상기 M개의 서브대역 각각의 잔차 신호 에너지를 획득하는 단계;
    상기 M개의 서브대역의 다운밍싱된 신호 에너지와 상기 M개의 서브대역의 잔차 신호 에너지에 기초하여 상기 현재 프레임의 장기 평활화 파라미터를 상기 현재 프레임의 잔차 신호 인코딩 파라미터로서 획득하는 단계 - 상기 현재 프레임의 장기 평활화 파라미터는 다음 수식:
    res_dmx_ratio_lt = res_dmx_ratio·α+res_dmx_ratio_lt_prev·(1 - α)
    을 만족하며, res_dmx_ratio_lt는 상기 현재 프레임의 장기 평활화 파라미터를 나타내고, res_dmx_ratio는 상기 M개의 서브대역의 잔차 신호 에너지와 상기 M개의 서브대역의 다운믹싱된 신호 에너지에 기초하여 획득되는 에너지 파라미터를 나타내며, res_dmx_ratio_lt_prev는 상기 현재 프레임의 이전 프레임의 장기 평활화 파라미터를 나타내고, 0 < α < 1임 - ;
    상기 잔차 신호 인코딩 파라미터에 기초하여 상기 현재 프레임의 잔차 신호를 인코딩할 지의 여부를 판정하는 단계;
    상기 잔차 신호를 인코딩하기로 판정할 때 상기 잔차 신호를 인코딩하는 단계; 및
    상기 잔차 신호를 인코딩하지 않기로 판정할 때 상기 잔차 신호의 인코딩을 회피하는 단계
    를 포함하는 스테레오 신호 인코딩 방법.
  2. 제1항에 있어서,
    상기 잔차 신호 인코딩 파라미터에 기초하여 상기 현재 프레임의 잔차 신호를 인코딩할 지의 여부를 판정하는 단계는,
    상기 잔차 신호 인코딩 파라미터와 미리 설정된 제1 임계값을 비교하는 단계 - 상기 제1 임계값은 0보다 크고 1.0보다 작음 -; 및
    상기 잔차 신호 인코딩 파라미터가 상기 제1 임계값보다 작거나 같을 때, 상기 현재 프레임의 잔차 신호를 인코딩하지 않기로 결정하거나, 또는 상기 잔차 신호 인코딩 파라미터가 상기 제1 임계값보다 클 때, 상기 현재 프레임의 잔차 신호를 인코딩하기로 결정하는 단계
    를 포함하는, 스테레오 신호 인코딩 방법.
  3. 제1항에 있어서,
    상기 M개의 서브대역의 다운밍싱된 신호 에너지와 상기 M개의 서브대역의 잔차 신호 에너지에 기초하여 상기 현재 프레임의 잔차 신호 인코딩 파라미터를 획득하는 단계가,
    상기 M개의 서브대역의 다운믹스된 신호 에너지, 상기 M개의 서브대역의 잔차 신호 에너지 및 상기 M개의 서브대역 각각의 주파수-도메인 스테레오 파라미터에 기초하여 상기 잔차 신호 인코딩 파라미터를 획득하는 단계를 포함하는, 스테레오 신호 인코딩 방법.
  4. 제1항에 있어서,
    상기 스테레오 신호 인코딩 방법이,
    상기 M개의 서브대역의 잔차 신호를 인코딩하기로 결정된 경우, 상기 M개의 서브대역의 다운믹스된 신호 및 잔차 신호를 인코딩하거나; 또는
    상기 M개의 서브대역의 잔차 신호를 인코딩하지 않기로 결정된 경우, 상기 M개의 서브대역의 다운믹스된 신호를 인코딩하지만 상기 M개의 서브대역의 잔차 신호는 인코딩하지 않는 단계
    를 더 포함하는 스테레오 신호 인코딩 방법.
  5. 스테레오 신호 인코딩 장치로서,
    프로그램을 저장하도록 구성된 메모리; 및
    상기 메모리에 저장된 상기 프로그램을 실행하도록 구성된 프로세서
    를 포함하고,
    상기 메모리에서의 상기 프로그램이 실행될 때, 상기 프로세서는 제1항 내지 제4항 중 어느 한 항의 방법을 수행하도록 구성되는, 스테레오 신호 인코딩 장치.
  6. 프로그램이 기록되어 있는, 컴퓨터가 판독 가능한 저장 매체로서,
    상기 프로그램은 제1항 내지 제4항 중 어느 한 항의 방법을 컴퓨터로 하여금 실행하도록 하는, 컴퓨터가 판독 가능한 저장 매체.
  7. 컴퓨터가 판독 가능한 저장 매체에 저장되어 있는 컴퓨터 프로그램으로서,
    상기 컴퓨터 프로그램은 제1항 내지 제4항 중 어느 한 항의 방법을 컴퓨터로 하여금 실행하도록 하는, 컴퓨터 프로그램.
  8. 삭제
  9. 삭제
  10. 삭제
  11. 삭제
KR1020237021245A 2018-05-31 2019-02-27 스테레오 신호 인코딩 방법 및 장치 KR102710464B1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020247031583A KR20240145060A (ko) 2018-05-31 2019-02-27 스테레오 신호 인코딩 방법 및 장치

Applications Claiming Priority (4)

Application Number Priority Date Filing Date Title
CN201810549237.3A CN110556117B (zh) 2018-05-31 2018-05-31 立体声信号的编码方法和装置
CN201810549237.3 2018-05-31
PCT/CN2019/076341 WO2019227991A1 (zh) 2018-05-31 2019-02-27 立体声信号的编码方法和装置
KR1020207035773A KR102548475B1 (ko) 2018-05-31 2019-02-27 스테레오 신호 인코딩 방법 및 장치

Related Parent Applications (1)

Application Number Title Priority Date Filing Date
KR1020207035773A Division KR102548475B1 (ko) 2018-05-31 2019-02-27 스테레오 신호 인코딩 방법 및 장치

Related Child Applications (1)

Application Number Title Priority Date Filing Date
KR1020247031583A Division KR20240145060A (ko) 2018-05-31 2019-02-27 스테레오 신호 인코딩 방법 및 장치

Publications (2)

Publication Number Publication Date
KR20230098708A KR20230098708A (ko) 2023-07-04
KR102710464B1 true KR102710464B1 (ko) 2024-09-25

Family

ID=68697244

Family Applications (3)

Application Number Title Priority Date Filing Date
KR1020237021245A KR102710464B1 (ko) 2018-05-31 2019-02-27 스테레오 신호 인코딩 방법 및 장치
KR1020207035773A KR102548475B1 (ko) 2018-05-31 2019-02-27 스테레오 신호 인코딩 방법 및 장치
KR1020247031583A KR20240145060A (ko) 2018-05-31 2019-02-27 스테레오 신호 인코딩 방법 및 장치

Family Applications After (2)

Application Number Title Priority Date Filing Date
KR1020207035773A KR102548475B1 (ko) 2018-05-31 2019-02-27 스테레오 신호 인코딩 방법 및 장치
KR1020247031583A KR20240145060A (ko) 2018-05-31 2019-02-27 스테레오 신호 인코딩 방법 및 장치

Country Status (9)

Country Link
US (3) US11462224B2 (ko)
EP (2) EP3783607B1 (ko)
JP (3) JP7110401B2 (ko)
KR (3) KR102710464B1 (ko)
CN (2) CN110556117B (ko)
BR (1) BR112020024257A2 (ko)
PT (1) PT3783607T (ko)
SG (1) SG11202011324RA (ko)
WO (1) WO2019227991A1 (ko)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110556118B (zh) 2018-05-31 2022-05-10 华为技术有限公司 立体声信号的编码方法和装置
JP7396459B2 (ja) * 2020-03-09 2023-12-12 日本電信電話株式会社 音信号ダウンミックス方法、音信号符号化方法、音信号ダウンミックス装置、音信号符号化装置、プログラム及び記録媒体
CN118800251A (zh) * 2023-04-13 2024-10-18 华为技术有限公司 场景音频信号的编码方法和装置
CN117079657B (zh) * 2023-10-16 2024-01-26 中国铁塔股份有限公司 压限处理方法、装置、电子设备及可读存储介质

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20140226822A1 (en) 2011-09-29 2014-08-14 Dolby International Ab High quality detection in fm stereo radio signal
US20180040328A1 (en) * 2013-07-22 2018-02-08 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Multi-channel audio decoder, multi-channel audio encoder, methods and computer program using a residual-signal-based adjustment of a contribution of a decorrelated signal

Family Cites Families (28)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4245288B2 (ja) * 2001-11-13 2009-03-25 パナソニック株式会社 音声符号化装置および音声復号化装置
EP1483759B1 (en) * 2002-03-12 2006-09-06 Nokia Corporation Scalable audio coding
US7318035B2 (en) * 2003-05-08 2008-01-08 Dolby Laboratories Licensing Corporation Audio coding systems and methods using spectral component coupling and spectral component regeneration
EP3561810B1 (en) * 2004-04-05 2023-03-29 Koninklijke Philips N.V. Method of encoding left and right audio input signals, corresponding encoder, decoder and computer program product
WO2006048815A1 (en) * 2004-11-04 2006-05-11 Koninklijke Philips Electronics N.V. Encoding and decoding a set of signals
RU2407068C2 (ru) * 2004-11-04 2010-12-20 Конинклейке Филипс Электроникс Н.В. Многоканальное кодирование и декодирование
US7573912B2 (en) * 2005-02-22 2009-08-11 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschunng E.V. Near-transparent or transparent multi-channel encoder/decoder scheme
US7751572B2 (en) * 2005-04-15 2010-07-06 Dolby International Ab Adaptive residual audio coding
US7548853B2 (en) * 2005-06-17 2009-06-16 Shmunk Dmitry V Scalable compressed audio bit stream and codec using a hierarchical filterbank and multichannel joint coding
ATE442645T1 (de) * 2006-02-06 2009-09-15 France Telecom Verfahren und vorrichtung zur hierarchischen kodierung eines quelltonsignals sowie entsprechendes decodierverfahren und gerät, programme und signal
US8571875B2 (en) * 2006-10-18 2013-10-29 Samsung Electronics Co., Ltd. Method, medium, and apparatus encoding and/or decoding multichannel audio signals
CN101067931B (zh) * 2007-05-10 2011-04-20 芯晟(北京)科技有限公司 一种高效可配置的频域参数立体声及多声道编解码方法与系统
CN101393743A (zh) * 2007-09-19 2009-03-25 中兴通讯股份有限公司 一种可配置参数的立体声编码装置及其编码方法
EP2209114B1 (en) * 2007-10-31 2014-05-14 Panasonic Corporation Speech coding/decoding apparatus/method
KR101428487B1 (ko) * 2008-07-11 2014-08-08 삼성전자주식회사 멀티 채널 부호화 및 복호화 방법 및 장치
CN101635145B (zh) * 2008-07-24 2012-06-06 华为技术有限公司 编解码方法、装置和系统
CA2949616C (en) * 2009-03-17 2019-11-26 Dolby International Ab Advanced stereo coding based on a combination of adaptively selectable left/right or mid/side stereo coding and of parametric stereo coding
FR2947944A1 (fr) * 2009-07-07 2011-01-14 France Telecom Codage/decodage perfectionne de signaux audionumeriques
KR20110018107A (ko) * 2009-08-17 2011-02-23 삼성전자주식회사 레지듀얼 신호 인코딩 및 디코딩 방법 및 장치
KR101710113B1 (ko) 2009-10-23 2017-02-27 삼성전자주식회사 위상 정보와 잔여 신호를 이용한 부호화/복호화 장치 및 방법
CN102243876B (zh) * 2010-05-12 2013-08-07 华为技术有限公司 预测残差信号的量化编码方法及装置
CN104170007B (zh) * 2012-06-19 2017-09-26 深圳广晟信源技术有限公司 对单声道或立体声进行编码的方法
EP2690621A1 (en) * 2012-07-26 2014-01-29 Thomson Licensing Method and Apparatus for downmixing MPEG SAOC-like encoded audio signals at receiver side in a manner different from the manner of downmixing at encoder side
EP2863657B1 (en) 2012-07-31 2019-09-18 Intellectual Discovery Co., Ltd. Method and device for processing audio signal
KR102204136B1 (ko) * 2012-08-22 2021-01-18 한국전자통신연구원 오디오 부호화 장치 및 방법, 오디오 복호화 장치 및 방법
US20150125023A1 (en) 2013-03-08 2015-05-07 Ideavillage Products Corp. Headset with variable acoustic impedance
EP2830052A1 (en) * 2013-07-22 2015-01-28 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio decoder, audio encoder, method for providing at least four audio channel signals on the basis of an encoded representation, method for providing an encoded representation on the basis of at least four audio channel signals and computer program using a bandwidth extension
MX2021005090A (es) * 2015-09-25 2023-01-04 Voiceage Corp Método y sistema para codificar una señal de sonido estéreo utilizando los parámetros de codificación de un canal primario para codificar un canal secundario.

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20140226822A1 (en) 2011-09-29 2014-08-14 Dolby International Ab High quality detection in fm stereo radio signal
US20180040328A1 (en) * 2013-07-22 2018-02-08 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Multi-channel audio decoder, multi-channel audio encoder, methods and computer program using a residual-signal-based adjustment of a contribution of a decorrelated signal

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
ISO/IEC FDIS 23003-3:2011(E), Information technology - MPEG audio technologies - Part 3: Unified speech and audio coding. ISO/IEC JTC 1/SC 29/WG 11. 2011.09.20.*
ITU-T Recommendation G.711.1, Wideband embedded extension for ITU-T G.711 pulse code modulation, 2012.09.13.

Also Published As

Publication number Publication date
KR102548475B1 (ko) 2023-06-26
EP3783607A4 (en) 2021-06-30
EP3783607B1 (en) 2024-05-08
EP3783607A1 (en) 2021-02-24
EP4435777A1 (en) 2024-09-25
US20240355343A1 (en) 2024-10-24
JP2024153672A (ja) 2024-10-29
JP2021525390A (ja) 2021-09-24
PT3783607T (pt) 2024-07-11
JP7110401B2 (ja) 2022-08-01
US11978463B2 (en) 2024-05-07
KR20230098708A (ko) 2023-07-04
JP7520922B2 (ja) 2024-07-23
CN110556117A (zh) 2019-12-10
CN114708874A (zh) 2022-07-05
US20210082445A1 (en) 2021-03-18
KR20210008091A (ko) 2021-01-20
JP2022163058A (ja) 2022-10-25
SG11202011324RA (en) 2020-12-30
US20220392470A1 (en) 2022-12-08
WO2019227991A1 (zh) 2019-12-05
US11462224B2 (en) 2022-10-04
KR20240145060A (ko) 2024-10-04
BR112020024257A2 (pt) 2021-02-23
CN110556117B (zh) 2022-04-22

Similar Documents

Publication Publication Date Title
US8527282B2 (en) Method and an apparatus for processing a signal
KR102710464B1 (ko) 스테레오 신호 인코딩 방법 및 장치
KR102578950B1 (ko) 스테레오 신호 인코딩 방법 및 장치
US20080212803A1 (en) Apparatus For Encoding and Decoding Audio Signal and Method Thereof
KR20150122759A (ko) 메타데이터 구동된 동적 범위 제어
US20240249731A1 (en) Method and apparatus for calculating downmixed signal and residual signal
KR102727811B1 (ko) 스테레오 신호 인코딩 방법 및 장치
KR20240162590A (ko) 스테레오 신호 인코딩 방법 및 장치

Legal Events

Date Code Title Description
A107 Divisional application of patent
E902 Notification of reason for refusal
A107 Divisional application of patent
GRNT Written decision to grant