[go: up one dir, main page]
More Web Proxy on the site http://driver.im/

KR102398818B1 - 신호 디코딩 동안 프레임 손실의 향상된 정정 방법 - Google Patents

신호 디코딩 동안 프레임 손실의 향상된 정정 방법 Download PDF

Info

Publication number
KR102398818B1
KR102398818B1 KR1020157023696A KR20157023696A KR102398818B1 KR 102398818 B1 KR102398818 B1 KR 102398818B1 KR 1020157023696 A KR1020157023696 A KR 1020157023696A KR 20157023696 A KR20157023696 A KR 20157023696A KR 102398818 B1 KR102398818 B1 KR 102398818B1
Authority
KR
South Korea
Prior art keywords
signal
frame
segment
samples
synthesized
Prior art date
Application number
KR1020157023696A
Other languages
English (en)
Other versions
KR20150113161A (ko
Inventor
줄리엔 포레
스테판 라고
Original Assignee
오렌지
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 오렌지 filed Critical 오렌지
Publication of KR20150113161A publication Critical patent/KR20150113161A/ko
Application granted granted Critical
Publication of KR102398818B1 publication Critical patent/KR102398818B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/005Correction of errors induced by the transmission channel, if related to the coding algorithm
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/06Determination or coding of the spectral characteristics, e.g. of the short-term prediction coefficients
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/08Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters
    • G10L19/093Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters using sinusoidal excitation models
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/08Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters
    • G10L19/12Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters the excitation function being a code excitation, e.g. in code excited linear prediction [CELP] vocoders
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L2019/0001Codebooks
    • G10L2019/0016Codebook for LPC parameters

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Signal Processing (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Computational Linguistics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)
  • Compression Or Coding Systems Of Tv Signals (AREA)
  • Error Detection And Correction (AREA)

Abstract

연속적인 프레임들에서 분산되어 위치하는 연속된 샘플들을 포함하는 신호를 처리하는 방법에 있어서, 상기 방법은, 디코딩에 있어서, 적어도 하나의 손실된 신호 프레임을 교체하기 위하여 상기 신호를 디코딩하는 동안 구현되고; 상기 방법은, 디코더에서 사용 가능한 유효한 신호 내에서 상기 유효한 신호의 기능으로서 주기 세트에 대응하는 길이의 신호 세그먼트를 검색(search)하는 단계; 상기 세그먼트의 스펙트럼 요소(spectral component)를 결정하기 위해 상기 세그먼트의 스펙트럼을 분석하는 단계; 상기 스펙트럼 요소의 적어도 일부로부터 합성된 신호의 생성에 의해 적어도 하나의 대체 프레임을 상기 손실된 프레임에 대하여 합성하는 단계; 를 포함한다.

Description

신호 디코딩 동안 프레임 손실의 향상된 정정 방법{Improved Correction of Frame Loss when decoding a signal}
본 발명은 신호 정정과 관련되어 있는데, 특히 디코더에서 신호를 수신할 때 디코더에 의해 프레임이 손실되는 경우의 신호 정정(signal correction)과 관련된다.
프레임 손실 정정 기술은 코딩 사용 타입에 의존적으로 가장 많이 사용된다.
CELP("Code Excited Linear Prediction") 타입 기술을 기초로 한 음성 신호 코딩의 경우, 프레임 손실 정정은 특정 CELP 모델을 활용한다. 예를 들어, ITU-T G.722.2 권장에 따른 코딩에서, 손실 프레임(또는 패킷)을 대체하는 해결 방법은 감쇠기(attenuator)에 의한 롱-텀(long-term) 이득 예측의 사용을 확장하는 것과 각 ISF 파라미터("Immittance Spectral Frequency")가 그들의 각 평균이 되는 경향을 만들어 줌으로써 각 ISF 파라미터의 사용을 확장하는 것으로 구성된다. 음성 신호("LTF lag"로 지정된 파라미터)의 피치 또한 반복된다. 나아가, "혁신(innovation)"(상기 CELP 코딩에서의 여기(exciit tation))을 특징짓는 파라미터들에 대한 랜덤 값들이 상기 디코더에 제공될 수 있다.
본 발명은 디지털 신호 처리 필드, 특히 그러나 독점적이진 않게, 오디오 신호의 코딩/디코딩 필드에 있다. 프레임 손실은 코더와 디코더를 이용하는 커뮤니케이션(또는 실시간 전송에 의해, 또는 다음 전송을 위한 저장에 의해)이 채널 컨디션에 의해 지장을 받는 경우 발생한다(예를 들어, 라디오 문제, 혼잡한 네트워크 액세스 등을 이유로), .
이 경우, 디코더는 디코더 내에 사용 가능한 정보(예를 들어, 이미 디코딩된 신호 또는 이전 프레임들에서 수신된 파라미터들)를 이용하여 손실된 신호를 복원한(reconstructed) 신호로의 대체를 시도하기 위해 손실된 프레임 손실 정정(또는, "숨김(concealment)") 매커니즘을 사용할 수 있다.
본 발명의 일 실시예에 따르면, 연속적인 프레임들에서 분산되어 위치하는 연속된 샘플들을 포함하는 신호를 처리하는 방법에 있어서, 상기 방법은, 디코딩에 있어서, 적어도 하나의 손실된 신호 프레임을 교체하기 위하여 상기 신호를 디코딩하는 동안 구현되고; 상기 방법은, 디코더에서 사용 가능한 유효한 신호 내에서 상기 유효한 신호의 기능으로서 주기 세트에 대응하는 길이의 신호 세그먼트를 검색(search)하는 단계; 상기 세그먼트의 스펙트럼 요소(spectral component)를 결정하기 위해 상기 세그먼트의 스펙트럼을 분석하는 단계; 상기 스펙트럼 요소의 적어도 일부로부터 합성된 신호의 생성에 의해 적어도 하나의 대체 프레임을 상기 손실된 프레임에 대하여 합성하는 단계; 를 포함할 수 있다.
또한, 본 발명의 다른 실시예에 따르면, 연속적인 프레임들에서 분산되어 위치하는 연속된 샘플들을 포함하는 신호를 처리하는 장치에 있어서, 상기 장치는, 적어도 하나의 손실된 신호 프레임을 교체하기 위한 수단들을 포함하고, 상기 수단들은, 디코더에서 사용 가능한 유효한 신호 내에서 상기 유효한 신호의 기능으로서 주기 세트에 대응하는 길이의 신호 세그먼트를 검색(search)하는 수단; 상기 세그먼트의 스펙트럼 요소(spectral component)를 결정하기 위해 상기 세그먼트의 스펙트럼을 분석하는 수단; 상기 스펙트럼 요소의 적어도 일부로부터 합성된 신호의 생성에 의해 적어도 하나의 대체 프레임을 상기 손실된 프레임에 대하여 합성하는 수단; 를 포함할 수 있다.
채널 성능이 떨어지더라도 좋은 서비스 품질이 유지될 수 있다.
또한, 만일 실제로 하나가 아닌 복수의 피치 주기들(예를 들어, 2 및 5개의 피치 주기들 사이)이 디텍트된다 하더라도, 상관 관계(correlation)에 의한 검색의 복잡성은 유리하게 제한될 수 있다.
또한, 상기 상관 관계 검색의 복잡도는 따라서 더 적을 수 있다.
또한, 소정의 주기들에 대한 상기 스펙트럼 분석은 더 나아질 수 있으며, 스펙트럼 요소가 보다 정교하게(finely) 분석된다는 결과를 가져온다.
도 1A는 MLT 변환과 관련된 일반적인 윈도우즈와 함께 회복을 보여준다.
도 1B는 도 1A에 도시된 도면과 비교하여 작은 딜레이 윈도우즈와 함께 회복을 보여준다.
도 2는 본 발명의 의미에 있어 일반적인 처리의 일 예이다.
도 3은 기본 주기에 해당하는 신호 세그먼트의 결정을 보여준다.
도 4는 본 구현예에 있어서, 상관 관계 검색 오프셋과 함게 기본 주기에 해당하는 신호 세그먼트의 결정을 보여준다.
도 5는 상기 신호 세그먼트의 스펙트럼 분석의 실시예를 보여준다.
도 6은 고주파수에서 소정의 손실된 프레임들을 대체하는 유효한 프레임들을 복사하는 구현 예를 보여준다.
도 7은 합성 윈도우즈에 의해 가중화된 손실 프레임으로부터 신호의 재생성을 보여준다.
도 8은 딩코딩 신호에 대한 본 발명의 의미에 있어서, 방법의 적용 예를 보여준다.
도 9는 본 발명의 의미에 있어서, 상기 방법의 구현을 위한 수단들을 포함하는 장치를 개략적으로 보여준다.
본 발명은 신호 정정과 관련되어 있는데, 특히 디코더에서 신호를 수신할 때 디코더에 의해 프레임이 손실되는 경우의 신호 정정(signal correction)과 관련된다.
상기 신호는 샘플들이 연속된 형태를 가지며, 상기 샘플은 연속적인 프레임으로 삽입될 수 있으며, 상기 프레임은 소정의 샘플들로 구성된 신호 세그먼트로 이해될 수 있다(만일 상기 신호가 샘플들이 연속된 형태를 갖는 경우, ITU-T G.711 권장에 따른 코덱의 예와 같이, 하나의 싱글 샘플을 포함하는 하나의 프레임의 수행은 가능하다.).
본 발명은 디지털 신호 처리 필드, 특히 그러나 독점적이진 않게, 오디오 신호의 코딩/디코딩 필드에 있다. 프레임 손실은 코더와 디코더를 이용하는 커뮤니케이션(또는 실시간 전송에 의해, 또는 다음 전송을 위한 저장에 의해)이 채널 컨디션에 의해 지장을 받는 경우 발생한다(예를 들어, 라디오 문제, 혼잡한 네트워크 액세스 등을 이유로), .
이 경우, 상기 디코더는 디코더 내에 사용 가능한 정보(예를 들어, 이미 디코딩된 신호 또는 이전 프레임들에서 수신된 파라미터들)를 이용하여 손실된 신호를 복원한(reconstructed) 신호로의 대체를 시도하기 위해 손실된 프레임 손실 정정(또는, "숨김(concealment)") 매커니즘을 사용할 수 있다. 이러한 기술과 함께, 채널 성능이 떨어지더라도 좋은 서비스 품질이 유지될 수 있다.
프레임 손실 정정 기술은 코딩 사용 타입에 의존적으로 가장 많이 사용된다.
CELP("Code Excited Linear Prediction") 타입 기술을 기초로 한 음성 신호 코딩의 경우, 프레임 손실 정정은 특정 CELP 모델을 활용한다. 예를 들어, ITU-T G.722.2 권장에 따른 코딩에서, 손실 프레임(또는 패킷)을 대체하는 해결 방법은 감쇠기(attenuator)에 의한 롱-텀(long-term) 이득 예측의 사용을 확장하는 것과 각 ISF 파라미터("Immittance Spectral Frequency")가 그들의 각 평균이 되는 경향을 만들어 줌으로써 각 ISF 파라미터의 사용을 확장하는 것으로 구성된다. 음성 신호("LTF lag"로 지정된 파라미터)의 피치 또한 반복된다. 나아가, "혁신(innovation)"(상기 CELP 코딩에서의 여기(exciit tation))을 특징짓는 파라미터들에 대한 랜덤 값들이 상기 디코더에 제공될 수 있다.
주의해야 할 것은, 부가적인 복잡성을 전하는 통과된 신호의 디코더에서, 트랜스폼 코딩 또는 PCM 또는 ADPCM 타입 파형 코딩에 대한 방법의 타입의 적용은 CELP 타입 매개 변수 해석을 요구한다는 점이다.
파형 코더에 대응하는 상기 ITU-T G.711 권장에서, 프레임 손실 정정 처리의 유익한 예(상기 권장의 텍스트의 Appendix I에 주어짐)는 이미 디코딩된 음성 신호에서 피치 주기를 찾는 것과 이미 디코딩된 신호와 반복된 신호(숨김에 의해 복원된) 사이에 복구-부가(또는 오버랩-부가)함으로써 마지막 피치 주기를 반복하는 것이다. 이러한 처리(processing)와 함께, 상기 오디오 아티팩트(artifact)은 스무스해질 수 있으나, 디코더에서 추가적인 딜레이가 요구될 수 있다(회복 시간에 대응하는 딜레이).
변환(또는 transformation)에 의한 코딩의 경우 프레임 손실을 대체하기 위해 가장 많이 사용되는 기술은 수신된 마지막 프레임에서 디코딩된 스펙트럼을 반복하는 것으로 구성된다. 예를 들어, 상기 ITU-T G.722.1 권장에 따른 코딩의 경우, MLT(modified lapped transform) 변환(MDCT(modified descrete cosine transform)와 50%의 복원 그리고 사인 파형의 분석/합성 윈도우즈(windows)를 갖는다는 점에서 동등한 변환)은, 스펙트럼의 단순한 반복과 관련된 아티팩트들을 스무스하게하기 위해 마지막 손실 프레임과 반복된 프레임 사이의 충분히 느린 전이를 제공한다. 일반적으로, 하나 이상의 프레임이 손실된 경우, 상기 반복된 스펙트럼은 '0'으로 설정된다.
유리하게는, 이 숨김 방법은 추가적인 딜레이를 요구하지 않는다. 그 이유는, 상기 숨김 방법은 크로스페이드(crossfade)의 종류를 만들기 위해 상기 복원된 신호와 과거 신호 사이의 회복-부가를 사용하게 만들기 때문이다(MLT 변환으로 인한 일시적인 엘리어싱(aliasing)과 함께). 이는 매우 적은 자원이 소비되는 기술임을 의미한다.
그러나, 손실 프레임 직전의 신호와 반복된 신호 사이의 일시적인 불일치와 관련하여 결함이 존재할 수 있다. 이에 대한 결과는 위상 불연속(discontinuity or inconsistency)일 수 있다. 위상 불연속은, 만일 2개의 프레임들과 연관된 신호들 사이의 회복 시간이 줄어드는 경우, 중요한 오디오 아티팩트(artifact)를 생성할 수 있다(특히, "짧은 딜레이"라고 불리는 MDCT 프레임들이 사용되는 경우). 짧은 딜레이 MLT 변환의 경우 상기 숏-텀(short-term) 회복 상황은, G.722.1 권장에 따라 긴 사인 파형의 윈도우즈가 사용되는 경우인 도 1A에서의 일반적인 상황과 비교하여 도 1B에 도시되었다(따라서 매우 진보적인 변조와 함께 긴 회복 시간(ZRA)을 제공함). 도 1B에 도시된 바와 같이, 이는, 짧은 딜레이 윈도우즈에 의해 변조는 짧은 회복 구간(ZRB)으로 인해 가청(audible) 위상 오프셋을 생성하는 것처럼 보일 수 있다.
이 경우, 비록 피치 검색(pitch search)과 MDCT 변환의 윈도우에 의해 생성된 회복-부가를 결합한 솔루션이 구현된다 하더라도, 오디오 아티팩트(artifact), 특히 주파수 성분들 사이의 위상 쉬프트와 관련된 오디오 아티팩트(artifact)를 제거하는데 충분하지 않을 수 있다.
본 발명은 이러한 상황을 개선시키기 위한 목적이 있다.
이러한 목적을 위해 본 발명은 연속적인 프레임들에서 분산되어 위치하는 연속된 샘플들을 포함하는 신호를 처리하는 방법을 제안한다. 상기 방법은, 디코딩에 있어서, 적어도 하나의 손실된 신호 프레임을 교체하기 위하여 상기 신호를 디코딩하는 동안 구현될 수 있다. 특히, 상기 방법은 아래와 같은 스텝들을 포함할 수 있다.
a) 디코더에서 사용 가능한 유효한 신호 내에서 상기 유효한 신호의 기능으로서 주기 세트에 대응하는 길이의 신호 세그먼트를 검색(search)하고,
b) 상기 세그먼트의 스펙트럼 요소(spectral component)를 결정하기 위해 상기 세그먼트의 스펙트럼을 분석하고,
c) 상기 스펙트럼 요소의 적어도 일부로부터 합성된 신호의 구조(또는 생성, construction)에 의해 적어도 하나의 대체 프레임을 상기 손실된 프레임에 대하여 합성한다.
여기서, "프레임"은 적어도 하나의 샘플의 블록으로 이해될 수 있다. 대부분의 코덱에서, 이 프레임들은 소정의 샘플들로 구성될 수 있다. 그러나, 특히 PCM("Pulse Code Modulation") 타입과 같은 어떤 코덱들에서는, 예를 들어 상기 G.711 권장에 따르면, 상기 신호는 단순히 연속된 샘플들에 의해 구성될 수 있다(상기 발명의 관점에서 하나의 "프레임"은 오로지 하나의 샘플로 구성). 그러면, 본 발명은 또한 코덱의 이러한 타입에 적용될 수 있다.
예를 들어, 상기 유효한 신호는 프레임 손실 전에 수신된 마지막 유효한 프레임들로부터 생성될 수 있다. 상기 손실된 프레임 다음에 수신된 하나 또는 그 이상의 뒤따르는 유효한 프레임들 역시 사용될 수 있다(비록 그와 같은 구현은 디코딩 딜레이로 이어짐). 상기 사용된 유효한 신호들로부터의 샘플들은 상기 프레임들로부터의 샘플들일 수 있다. 또한, 상기 샘플들은 상기 변환으로부터의 메모리에 대응할 수 있다. 또한, 상기 샘플들은 일반적으로 회복에 대한 변환에 의해 MLT 또는 MDCT 타입 디코딩의 경우 엘리어싱을 포함할 수 있다.
본 발명은 특히, 추가적인 디코더 딜레이가 금지되는 경우, 예를 들어 변환된 디코더가 대체 신호와 일시적인 언폴딩(temporal unfolding)으로부터 온 신호 사이에 충분히 큰 오버랩을 갖지 않는 윈도우즈와 함께 사용되는 경우, 프레임 손실의 정정을 위한 유리한 해결책을 제공한다(도 1b에 개시된 바와 같이, MDCT 또는 MLT를 위한 짧은 딜레이 윈도우즈를 위한 일반적인 케이스). 본 발명은 마지막 유효한 프레임들로부터 스펙트럴 컬러레이션(spectral coloration)을 포함하는 합성된 신호를 생성하기 위해, 수신된 마지막 유효 프레임들에 대한 스펙트럼 요소를 사용하므로, 회복을 위한 특정한 이점을 갖는다. 그렇더라도, 본 발명은 물론 코딩/디코딩의 어떠한 타입에도 적용될 수 있다(변환에 의해, CELP, PCM 또는 그 외).
일 실시예에 따르면, 상기 방법은, 유효한 신호 내 상관 관계(correlation)에 의한, 하나의 반복 주기의 검색을 포함한다. 그러면 상술한 세그먼트의 길이는 적어도 하나의 반복 주기를 포함한다.
그와 같은 반복 주기는 예를 들면, 발성된 음성 신호의 경우에서 피치 주기와 대응한다(상기 신호의 기본 주파수의 inverse). 그렇더라도, 상기 신호는 음악의 신호, 예를 들어 기본 주파수 및 또한 기본 주기와 연계되어 있는 전체 음조성(tonality)을 갖고 있는 신호로부터 올 수 있다. 여기서 상기 기본 주기는 상술한 반복 주기와 대응할 수 있다.
상기 신호의 음조성과 관련된 주기를 검색하기 위한 반복 주기는 예시와 같이 사용될 수 있다. 예를 들어, 첫 번째 메모리 버퍼는 유효하게 수신된 마지막 소정의 샘플들로부터 구성될 수 있다. 두 번째 큰 사이즈의 버퍼는, 첫 번째 버퍼로부터의 샘플들에 대해 그들의 연속과 가장 부합하는 두 번째 버퍼로부터의 어떤 샘플들에 대한 상관 관계(correlation)에 의해 검색될 수 있다(A second larger sized buffer can be searched by correlation for some samples from the second buffer which best correspond in their succession to those from the first buffer.). 상기 두 번째 버퍼로부터 식별되는 이러한 샘플들과 첫 번재 버퍼로부터의 샘플들 사이의 일시적인 오프셋은 반복 주기 또는 다수의 주기를 구성할 수 있다(상관 관계 검색의 정확도(fineness)에 따르면). 복수의 반복 주기를 차용함으로써 본 발명의 구현은 저하되지 않는다는 것에 주의해야 한다. 왜냐하면, 이 경우, 스펙트럼 분석은 단순히 오로지 하나의 주기 대신 소정의 주기들을 커버하는 길이 동안 수행되기 때문이며, 이는 분석의 정확도를 증가시키는데 기여한다.
따라서, 스펙트럼 분석이 수행되는 동안의 상기 신호 길이는 아래와 같이 결정될 수 있다.
- 반복주기에 대응하는 길이(상기 신호의 음조성이 명백하게 인식 가능한 경우)
- 이후에 후술하는 동작의 실시예에서 설명한 바와 같이, 상기 상관 관계(correlation)가 제1 상관 관계가 기설정된 스레스홀드(threshold)보다 크다는 결과를 제시하는 경우, 소정의 반복 주기들(예를 들어, 피치 싸이클(pitch cycle))에 대응하는 길이.
- 상기 음조성이 명백하게 인식 불가능한 경우(기본적으로 노이즈로 구성된 신호), 임의의 신호 길이(예를 들어, 샘플들 중 소정의 수십 개).
특정 실시예로서, 상술한 반복 주기는 상관 관계(correlation)가 기설정된 스레스홀드 값을 초과하는 길이와 대응한다. 따라서, 이러한 구현에서, 상기 신호의 길이는 상기 상관 관계(correlation)가 기설정된 스레스홀드 값을 한번 초과하는 경우 식별될 수 있다. 따라서, 식별된 상기 길이는 상술한 전체 음조성의 주파수와 연계된 하나 또는 그 이상의 주기에 해당할 수 있다. 이와 같은 구현과 함께, 만일 실제로 하나가 아닌 복수의 피치 주기들(예를 들어, 2 및 5개의 피치 주기들 사이)이 디텍트된다 하더라도, 상관 관계(correlation)에 의한 검색의 복잡성은 유리하게 제한될 수 있다(예를 들어, 상관 관계(correlation) 스레스홀드를 60 또는 70%로 설정함으로써). 첫째, 상기 상관 관계(correlation) 검색의 복잡도는 따라서 더 적을 수 있다. 둘째, 소정의 주기들에 대한 상기 스펙트럼 분석은 더 나아질 수 있으며, 스펙트럼 요소가 보다 정교하게(finely) 분석된다는 결과를 가져온다.
세그먼트 분석에 의한 스펙트럼 요소를 획득하기 위해(예를 들어, 고속 푸리에 변환(Fast Fourier Transform) 또는 FFT에 의해), 상기 방법은 이 스펙트럼 요소들과 연계된 각 위상들의 결정 및 상기 스펙트럼 요소들의 위상들을 포함하는 합성된 신호의 생성(또는 구조, construction)을 추가로 포함한다. 그 다음에, 이후에 살펴볼 바와 같이, 상기 합성된 신호와 마지막 유효한 프레임 및, 대부분의 일반적인 경우에 다음 유효한 프레임들과의 연결을 최적화하기 위해, 상기 신호의 생성은 이 위상들을 포함할 수 있다.
구체적인 구현에 있어서, 상기 방법은 스펙트럼 요소들과 연계된 각 진폭들의 결정 및 스펙트럼 요소들의 이러한 진폭들을 포함하는 합성된 신호의 생성(또는 구조, construction)을 추가로 포함한다(합성된 신호의 생성을 고려하여).
구체적인 구현에 있어서, 합성된 신호의 생성(또는 구조, construction)에 대한 분석으로부터 나온 요소들을 선택하는 것은 가능하다. 예를 들어, 구현에 있어서 상기 방법은 상기 스펙트럼 요소들과 연계된 각 진폭들의 결정을 포함하며, 가장 높은 진폭 스펙트럼 요소들은 상기 합성된 신호의 생성(또는 구조, construction)을 위해 선택된 요소들이 된다. 따라서, 보충적 또는 변형적으로써, 진폭이 주파수 스펙트럼 내에서 피크를 형성하는 요소들이 선택된다.
스펙트럼 요소의 한 파트가 선택된 경우, 구체적인 구현에 있어서, 합성된 신호의 생성(또는 구조, construction)에 있어 선택되지 않은 스펙트럼 요소들과 관련된 에너지의 손실을 보상하기 위해 합성된 신호에 노이즈가 더해질 수 있다.
구현에 있어서, 상술한 노이즈는 상기 세그먼트로의 신호와 상기 합성된 신호 사이의 (일시적으로) 편중된 잔여(weighted residue)에 의해 획득된다. 상기 잔여는, 예를 들어, 회복 변환에 의한 코딩/디코딩과 관련해서 회복 윈도우즈에 의해 편중(weighted)될 수 있다.
상기 세그먼트의 스펙트럼 분석은, 바람직하게 2^k 길이의 고속 푸리에 변환(Fast Fourier Transform, FFT)에 의한 사인 파형적 분석(sinusoidal analysis)을 포함한다. 여기서 k는 log2 P보다 작거나 크며, 여기서 P는 상기 신호 세그먼트 내의 샘플들의 수이다. 이와 같은 구현은 이하에서 후술하는 바와 같이, 처리 복잡성을 줄이는 역할을 한다. 상기 FFT 변환에 대한 대체로서 다른 변환들, 예를 들어 Modulated Complex Lapped Transform(MCLT) 타입 변환이 가능함에 주의하여야 한다.
특히, 상기 스펙트럼 분석 방법은 아래의 스텝들을 제공할 수 있다:
- 제2 세그먼트를 획득하기 위하여 상기 세그먼트의 샘플들을 인터폴레이션(interpolation)함; 여기서 상기 제2 세그먼트는 2^ceil(log2(P)) 샘플들을 포함함. 여기서 상기 ceil(x)는 x보다 같거나 큰 정수임.
- 상기 제2 세그먼트에 대한 푸리에 변환의 계산; 및
- 스펙트럼 요소들의 결정 후 상기 요소들과 관련된 주파수들의 식별, 및 리샘플링의 기능으로서 상기 주파수들의 변형(modification)과 함께 리샘플링함으로써 합성된 신호의 생성(또는 구조, construction).
본 발명은 이점을 가지고 있으며, 회복 변환에 의한 디코딩의 컨텍스트(context)에서 적용이 절대 제한되지 않는다. 이와 같은 컨텍스트에서, 또한 싱글 신호 프레임을 지난 일시적인 엘리어싱을 포함하는 파트들을 커버하기 위해, 합성된 신호는 적어도 2개의 프레임들의 길이에 대하여 생성된다(또는, 반복된다)는 것은 유리하다.
구체적인 구현에 있어서, 상기 합성 신호는 2개의 프레임 길이 초과로 생성될 수 있으며, 리샘플링 필터에 의해 도입되는 딜레이에 대응하는 추가적인 길이를 가질 수 있다(특히 리샘플링이 제공되는 상술한 상기 구현에 있어서).
어떤 구현에 있어서, 지터 버퍼를 관리하는 것은 이로울 수 있다. 프레임 손실 정정이 지터 버퍼 관리와 함께 공동으로 수행되는 경우, 이러한 조건 내에서 본 발명은 상기 합성된 신호의 길이를 조정함으로써 적용될 수 있다.
구현에 있어서, 상기 방법은 유효한 프레임들로부터 나온 신호를 고주파수 밴드와 저주파수 밴드로의 구분을 포함하며, 상기 저주파수 밴드에서 상기 스펙트럼 요소들이 선택된다. 그와 같은 구현과 함께, 처리의 복잡도는 기본적으로 저주파수 밴드로 제한될 수 있다. 그 이유는, 고주파수들은 상기 합성된 신호에 대한 작은 스펙트럼의 풍부함(spectral richness)에 기여하며, 보다 간단하게 반복될 수 있기 때문이다.
이러한 구현에 있어서, 프레임 대체는 아래의 신호들과 더해져서 합성될 수 있다.
- 상기 저주파수 밴드에서 선택된 스펙트럼 요소로부터 생성된 제1 신호, 및
- 고주파수 밴드에서 필터링으로부터 나온 제2 신호,
상기 제2 신호는 적어도 하나의 유효한 반프레임(half-frame)의 연속적인 복제 및 그것들의 일시적인 폴디드 형태(folded version)에 의해 획득된다.
본 발명은 또한 상기 방법을 구현하기 위한 지시들을 포함하는 컴퓨터 프로그램을 대상으로 삼을 수 있다(예를 들어, 도 2의 일반적인 도식은 일반적인 블록 다이어그램이 되며, 어떤 실시예에서 가능하게는 도 5 및/또는 8의 특정 블록 다이어그램이 된다.).
본 발명은 연속적인 프레임들 내에서 분산된 샘플들의 연속을 포함하는 신호를 디코딩하기 위한 장치를 커버한다. 상기 장치는 손실된 적어도 하나의 신호 프레임을 대체하기 위한 수단을 포함한다. 상기 장치는:
a) 디코더에서 사용 가능한 유효 시그널 내에서 상기 유효 시그널의 기능으로서 주기 세트에 대응하는 길이의 신호 세그먼트를 검색하기 위한 수단;
b) 상기 세그먼트의 스펙트럼 요소를 결정하기 위하여 상기 세그먼트의 스펙트럼을 분석하기 위한 수단;
c) 상기 스펙트럼 요소의 적어도 일부로부터 합성 신호를 생성함으로써 상기 손실된 프레임에 대한 적어도 하나의 대체 프레임을 합성하는 수단.
이와 같은 장치는 프로세서의 예시와 같은 하드웨어적인 형태와, 가능하게는 일반적인 통신용 단말기의 동작 메모리를 이용할 수 있다.
본 발명의 다른 이점들과 특징들은 아래의 본 발명의 구현 실시예들에 대한 상세한 설명들 읽고 아래의 도면들을 검토하면 이해될 수 있다.
- 도 1A는 MLT 변환과 관련된 일반적인 윈도우즈와 함께 회복을 보여준다.
- 도 1B는 도 1A에 도시된 도면과 비교하여 작은 딜레이 윈도우즈와 함께 회복을 보여준다.
- 도 2는 본 발명의 의미에 있어 일반적인 처리의 일 예이다.
- 도 3은 기본 주기에 해당하는 신호 세그먼트의 결정을 보여준다.
- 도 4는 본 구현예에 있어서, 상관 관계 검색 오프셋과 함게 기본 주기에 해당하는 신호 세그먼트의 결정을 보여준다.
- 도 5는 상기 신호 세그먼트의 스펙트럼 분석의 실시예를 보여준다.
- 도 6은 고주파수에서 소정의 손실된 프레임들을 대체하는 유효한 프레임들을 복사하는 구현 예를 보여준다.
- 도 7은 합성 윈도우즈에 의해 가중화된 손실 프레임으로부터 신호의 재생성을 보여준다.
- 도 8은 딩코딩 신호에 대한 본 발명의 의미에 있어서, 방법의 적용 예를 보여준다.
- 도 9는 본 발명의 의미에 있어서, 상기 방법의 구현을 위한 수단들을 포함하는 장치를 개략적으로 보여준다.
의미있는 본 발명의 처리는 도 2에 나타난다. 이는 디코더에서 구현된다. 상기 디코더는 어떠한 타입이 될 수 있다. 그 이유는, 전체 처리가 코딩/디코딩의 종류(또는 본질, nature)와 독립적이기 때문이다. 설명되는 예에서, 상기 처리는 수신된 오디오 신호에 적용된다. 그러나, 상기 처리는 회복-부가(recovery-addition)에 따라 합성하는 동안, 하나 또는 그 이상의 대체 프레임들과 함께 제공될 조화(harmonization)와 함께, 일시적인 윈도잉(windowing)과 변환에 의해 분석된 신호의 어떠한타입에도 보다 더 일반적으로 적용된다.
도 2로부터 첫 번째 처리 단계(S1)동안, N개의 오디오 샘플들은 연속적으로 메모리 버퍼(예를 들어, FIFO 타입)에 저장된다. 상기 오디오 버퍼 b(n)는 주어진 샘플링 주파수(Fs)가 예를 들어, Fs=32kHz인 경우, 신호의 47ms로부터 생성될 수 있다(예를 들어, 각 오디오 프레임들이 20ms인 경우, 2.35=47/20). 이 샘플들은 이미 디코딩됨에 따라 프레임(들) 손실 정정 처리 시간에 접근 가능한 샘플들에 대응할 수 있다. 만일 합성될 첫 번째 샘플이 시간 인덱스 N(적어도 하나 또는 다수의 연속적인 손실 프레임들에 대한)에 대한 샘플인 경우, 상기 오디오 버퍼 b(n)은 0 내지 N-1의 시간 인덱스들을 갖는 이전 샘플들 N에 대응할 수 있다. 변환에 의한 코더의 경우, 상기 오디오 버퍼는 이전 프레임(따라서 변경 불가능한)에서 이미 디코딩된 샘플들에 대응할 수 있다. 만일, 디코더에 추가적인 딜레이를 부가(D 샘플들의 예에 대하여)하는 것이 가능한 경우, 상기 버퍼는 예를 들어, 회복-부가에 대한 마지막 D 샘플들을 남겨둔 채 디코더에서 사용 가능한 샘플들의 일부만을 포함할 수 있다(도 2의 S10 단계).
필터링 단계(S2)에서, 상기 오디오 버퍼(b(n))은 다음에 두 개의 주파수 밴드들로 분리될 수 있다: 주파수 분리(Fc, 예를 들어, Fc=4kHz)와 함께 저주파수 밴드(LFB)와 고주파수 밴드(HFB). 이러한 필터링은 바람직하게는 딜레이를 발생iontroduce)시키지 않는다. 이전에 정의된 오디오 버퍼의 사이즈는 우선적으로 이제 주파수 Fc와 함께 N'=N Fc/Fc에 해당할 수 있다.
저주파수 밴드에 적용되는 S3 단계는, 다음 루핑 포인트와 주파수 Fc로 리샘플링된 버퍼(b(n)) 사이의 기본 주파수 주기(또는, 피치 주기)에 대응하는 세그먼트 P를 찾는 것으로 구성된다. 이러한 목적을 위해, 구현 예에서, 정규화된 상관 관계(correlation, corr(n))가 이하의 세그먼트들 사이에서 계산될 수 있다.
- 버퍼로부터의 타겟 세그먼트(도 3의 CIB), 상기 세그먼트의 사이즈(Ns)는 는 N'-Ns와 N'-1 사이에 포함됨(예를 들어, 6ms의 길이에 대하여); 및
- 샘플 0과 샘플 Nc 사이에 위치를 차지하고 있는 샘플에서 시작되는 사이즈(Ns)의 슬라이딩 세그먼트(Nc>N'-Ns, 상기 Nc는 예를 들어, 35ms 길이에 해당함).
Figure 112015084380924-pct00001
도 3을 참조하면, 만일 타임 인덱스가 n=mc인 샘플에 대하여 최대 상관 관계가 발견된 경우, 하나의 피치 주기에 대한 상기 루핑 포인트는, 인덱스 n=pb와 함께, mc+Ns 샘플에 해당할 수 있으며, 도 3에서 후술할 p(n)에 의해 기록된 세그먼트는 n=pb 및 n=N'-1 샘플들 사이에서 정의되는 P=N'-Ns-mc 사이즈의 피치 주기와 대응한다.
도 3에 도시한 바와 같이, 상기 슬라이딩, 검색 세그먼트는 타겟 세그먼트에 우선한다. 특히, 상기 타겟 세그먼트의 상기 첫 번째 샘플은 상기 검색 세그먼트의 마지막 샘플과 대응한다. 만일, 타겟 세그먼트(CIB)에 대한 상기 최대 상관 관계가 인덱스 포인트(mc)에 위치한 검색 세그먼트보다 일찍 위치하는 경우, 적어도 하나의 피치 주기(동일한 사인 파형의 세기(intensity)를 갖는)는 시간 인덱스 포인트(mc)와 시간 인덱스(mc+P)를 갖는 샘플 사이에서 지나갈 수 있다. 이와 같은 방식으로 적어도 하나의 피치 주기는 인덱스 mc+Ns(루핑 포인트, 인덱스 pb)를 갖는 샘플과 버퍼(N')로부터의 마지막 샘플 사이를 지나갈 수 있다.
이러한 다양한 구현은, 버퍼에서 식별되는 평균 주기 P를 찾기에 이르는 버퍼에서의 자동 상관 관계(autocorrelation)로 구성될 수 있다. 이 경우, 합성을 위해 사용되는 세그먼트는 버퍼로부터의 마지막 P 샘플들을 포함한다. 그러나, 긴 세그먼트에 대한 자동 상관 관계 계산은 복잡하고, 앞서 상술한 타입의 단순한 상관 관계보다 더 많은 컴퓨터 자원을 요구한다.
나아가, 다른 다양한 구현은 필수적으로 전체 검색 세그먼트에 대한 상기 최대 상관 관계를 검색하는 것으로 구성되지 않으며, 선택된 스레스홀드(예를 들어, 70%)보다 큰 타겟 세그먼트를 갖는 상관 관계를 갖는 세그먼트에 대해 단순히 검색하는 것으로 구성된다. 이와 같은 구현은 정확하게 하나의 피치 주기(P)를 주지 않으며(그러나 가능하게는 소정의 연속적인 주기들), 그 대신 풀 검색 세그먼트에 대한 상관 관계 최대를 검색하는 것과 연계된 복잡도는 긴 합성된 세그먼트(long synthesized segment)(소정의 피치 주기들을 갖는)의 처리보다 같거나 더 많은 자원들을 요구한다.
이하에서는 싱글 피치 주기(P)가 신호의 합성을 위해 사용된다고 가정하며, 다만 오히려 소정의 기본 주기들을 초과하는 세그먼트에 상기 처리의 원리가 잘 적용될 수 있다는 것을 기억하는 것은 적절하다. FFT 변환 및 결과인 스펙트럼 요소의 풍부함의 정확도 면에서 소정의 피치 주기들을 갖는 상기 결과는 보다 더 나은 것으로 나타난다.
버퍼 안에 포함된 오디오 신호에 과도 신호들(transients)이 존재하는 경우(상기 오디오 신호에서 매우 짧은 듀레이션 강도 피크들), 상관 관계 검색 영역을 조절하는 것이 가능하다. 이는, 예를 들어, 상관 관계 검색을 오프세팅함으로써 가능하다(도 4의 예시에 나타난 오디오 버퍼의 시작 후 20ms에 일반적으로 시작하도록 만듦으로써, 또는 상기 과도 신호의 끝 후에 일시적인 영역에서 상기 상관 관계 검색을 수행함으로써).
다음 단계(S4)는 상기 세그먼트(p(n))을 사인 파형들의 합으로 분해하는 단계로 구성된다. 일반적으로, 상기 신호를 사인 파형들의 합으로의 분해는 상기 신호 길이에 대응하는 시간에 대하여 상기 신호의 이산 푸리에 변환(discrete Fourier transform)(또는 DFT)을 계산하는 것으로 구성된다. 따라서, 상기 신호를 구성하는 각 사인 파형 요소의 상기 주파수, 위상, 그리고 진폭들이 획득된다. 본 발명의 구체적인 실시예에서, 복잡도를 줄이기 위한 이유로, 2^k의 길이를 갖는 FFT(Fast Fourier Transform)를 이용한 분석이 수행된다(k는 log2(p)보다 같거나 크다).
이러한 구체적인 실시예에서, S4 단계는, 도 5를 참조하여, 3가지 동작으로 나뉠 수 있다.
- P' 샘플들로 구성된 세그먼트(p'(n))를 획득하기 위해 세그먼트(p(n))으로부터의 샘플들이 인터폴레이션되는 동작(S41);
Figure 112015084380924-pct00002
여기서, ceil(x)는 x보다 크거나 같은 정수이다(예를 들어 그리고 제약 없이, 선형 또는 큐빅 스플라인(cubic spline) 타입의 인터폴레이션을 사용할 수 있음).
- p'(n)의 FFT 변환을 계산하는 동작(S42: FFT 2^n); 및
Figure 112015084380924-pct00003
- FFT 변환을 기초로 하여, 사인 파형의 요소들인 위상
Figure 112015084380924-pct00004
및 진폭
Figure 112015084380924-pct00005
들이 직접적으로 획득되는 동작(S43: Y(n); A(n); f(n)).
여기서, 0과 1 사이에서 정규화된 상기 주파수들은 아래와 같이 정의됨.
Figure 112015084380924-pct00006
도 2의 S5 단계에서, 사인 파형의 요소들은 오로지 가장 중요한 요소들을 지키기 위해 선택된다. 보다 구체적인 실시예에서, 요소들의 선택은 아래에 해당한다:
- 진폭들
Figure 112015084380924-pct00007
를 우선 선택함. 여기서, A(k)>A(k-1), A(k)>A(k+1), 및
Figure 112015084380924-pct00008
,
- 다음, 상기 첫 번째 선택으로부터의 진폭들 중에 선택된 피크들의 누적된 진폭이 반 스펙트럼의 누적된 진폭의 적어도 x%임을 만족하는 요소들을 선택함(예를 들어, 진폭이 줄어드는 순서로).
상기 합성을 보다 덜 복잡하게 만들기 위해 요소들의 숫자를 제한(예를 들어, 20까지)하는 것이 추가로 가능하다. 대신, 존재하는 최대 피크들에 대하여 검색이 수행된다.
물론, 스펙트럼 요소들을 선택하는 방법은 위에서 존재하는 실시예들에 한정되는 것은 아니다. 다양성이 존재할 수 있다. 특히, 상기 방법은 신호의 합성에 있어 스펙트럼 요소들을 식별하기 위해 유용한 어떠한 기준에 기초할 수 있다(예를 들어, 숨김과 관련된 주관적 기준, 신호의 조화와 관련된 기준 등).
다음 단계 S6은 사인 파형의 합성을 커버한다. 샘플 구현에 있어서, S6 단계는 손실된 프레임의 사이즈(T)와 적어도 동일한 길이의 세그먼트 s(n)를 생성하는 것으로 구성된다. 구체적인 구현에 있어서, 상기 합성된 신호(프레임 손실 정정에 의해)와, 프레임이 정확하게 다시 수신된 때의 다음 유효한 프레임으로부터 디코딩된 신호 사이에 "크로스-페이드(cross-fade)" 타입의 사운드 믹싱(이행(transition)으로서)을 수행할 수 있도록 하기 위해 2개의 프레임들과 동일한 길이(예를 들어, 40ms)가 생성된다.
프레임(샘플 길이 LF)의 리샘플링을 예상하기 위해, 합성될 샘플들의 숫자는 리샘플링 필터의 사이즈(LF)의 반까지 증가할 수 있다. 상기 합성된 신호 s(n)은 선택된 사인 파형의 요소들의 합으로써 계산된다.
Figure 112015084380924-pct00009
여기서, k는 S5 단계에서 선택된 K 요소들의 인덱스이다. 사인 파형의 합성을 수행하기 위해 여러가지 일반적인 방법들도 가능하다.
도 2의 S7 단계는 저주파 밴드의 어떤 주파수 요소들의 삭제와 관련된 에너지 손실을 보상하기 위해 노이즈를 삽입하는 것으로 구성된다. 구체적인 실시예는 피치 p(n)에서의 대응하는 세그먼트와 합성된 신호 s(n) 사이의 잔여(residual) r(n)=p(n)-s(n)을 계산하는 것으로 구성된다(
Figure 112015084380924-pct00010
).
사이즈(P)의 이러한 잔여는 사이즈가 2T+(LF)/2에 도달할때까지 반복된다.
상기 신호 s(n)은 다음으로 상기 신호 r(n)에 믹스된다(가능한 가중치로 더해짐(added with a possible weighting)).
물론, 상기 노이즈 형성(자연의 백그라운드 노이즈를 얻기 위한)은 상술한 예에 한정되지 않으며, 다양한 실시예가 가능하다. 예를 들어, 주파수 도메인에서 잔여를 계산하는 것(오리지널 스펙트럼으로부터 선택된 스펙트럼 요소들을 제거함으로써)과 역변환에 의한 백그라운드 노이즈를 얻는 것이 가능하다.
동시에, S8 단계는 단순히 상기 신호를 반복함으로써 상기 고주파수 밴드를 처리하는 단계로 구성된다. 예를 들면, 이는 프레임 길이 T를 반복하는 것을 포함한다. 보다 정교한 구현에 있어서, HFB의 합성은, 프레임 손실 전에 마지막 T'(예를 들어, T'=N/2) 샘플들을 받아들여 일시적으로 그들을 폴딩(folding)하고, 그리고 나서 기타 도 6에 도시한 바와 같이 폴딩 없이 그들을 반복함으로써 획득된다. 이와 같은 구현에서 유리하게는, 오디오 아티팩트들은 동일한 소기의 세기에서 프레임들의 시작과 끝을 위치시킴으로써 피할 수 있다.
보다 구체적인 실시예에서, 프레임 사이즈 T'는 상기 요소들이 고주파수 밴드에서 특별히 에너지틱한 경우, 어떤 아티팩트들을 피하기 위해 비중이 커질 수 있다. 그 비중은 예를 들어, T/2 길이의 프레임의 시작과 끝에서 1ms 사인 파형의 반 윈도우의 형태를 차용할 수 있다. 이러한 연속적인 프레임들은 또한 오버랩된다.
S9 단계(SIG')에서 상기 신호는 신호의 오리지널 주파수 Fc에서 저주파수 밴드를 리샘플링함으로써, 그리고 상기 신호를 S8 단계의 고주파수 밴드에서 반복되어 나온 신호와 더함으로써 합성된다.
S10 단계(OA)에서, 회복-부가는 합성된 신호와 프레임 손실 이전의 신호 사이의 연속성을 보장한다. 예를 들어, 로우 딜레이 변환에 의한 코딩의 경우, 상기 L 샘플들은 MDCT 변환의 엘리어싱된 파트(남은 엘리어싱된 파트)의 시작점과 상기 윈도우의 3/4 마크 사이에 위치된다(예를 들어, MDCT 변환과 일반적으로 연결된 윈도우즈에 대한 일시적인 엘리어싱 축). 도 7을 참조하면, 이 샘플들은 MDCT 변환의 합성 윈도우 W1에 의해 이미 커버된다. 회복 윈도우 W2를 그들에게 적용할 수 있도록 하기 위해서, 상기 샘플들은 윈도우 W1(이미 디코더로부터 알려진)에 의해 분리될 수 있으며, 윈도우 W2에 의해 곱해진다. 상술한 S1 내지 S9 단계들의 구현에 의해 합성된 신호 S(n)은 예를 들면, 아래와 같이 표현된다:
Figure 112015084380924-pct00011
또한, 제한 없이, 회복 식은 아래 수학식 7과 같이 정의된다.
Figure 112015084380924-pct00012
상술한 바와 같이, 만일 디코더에서 딜레이가 허용된다면, 이러한 딜레이 시간은 회복-부가에 적절한 어떠한 비중(weighting)을 사용함으로써 합성한 부분의 회복을 만들기 위해 사용된다.
물론 본 발명은 상술한 실시예에 한정되지 않으며, 다른 다양한 실시예로 확장된다.
예를 들어, S2 단계에서 고주파 및 저주파 밴드들로 구분되는 것은 선택적일 수 있다. 다양한 실시예에서, 버퍼로부터 나온 상기 신호는 두 서브 밴드들로 분리되지 않으며, S3 내지 S10 단계들은 상술한 내용과 동일하게 남아있을 수 있다. 그렇더라도, 오로지 저주파에서 스펙트럼 요소의 처리는 유익하게 그것의 복잡성을 제한하는 기능을 수행한다.
본 발명은 일반적인 디코더에서 프레임 손실의 경우에 구현될 수 있다. 실질적으로, 본 발명은 디코딩 회로에서 구현될 수 있으며, 일반적으로는 무선 단말기에서 구현될 수 있다. 그와 같은 목적을 위해, 도 9에 도시된 바와 같이, 회로(CIR)은 프로세서로(PROC) 구성되거나 프로세서(PROC)와 연결될 수 있으며, 상술한 방법을 실행하기 위한 발명에 따른 컴퓨터 프로그램 인스트럭션으로 프로그래밍된 작동 메모리(MEM)로 구성될 수 있다.
예를 들면, 본 발명은 변환에 따른 실시간 디코더에서 구현될 수 있다. 도 8을 참조하면, 상기 디코더는 오디오 프레임과 프레임 버퍼를 얻기 위해 요청을 보낼 수 있다(S81 단계). 만일 상기 프레임이 사용 가능한 경우(테스트로부터 OK가 출력), 상기 디코더는 변환 영역(domain)에서의 신호를 획득하기 위해 프레임을 디코딩하고(S82: Q-1), 역변환 IMDCT 동작을 수행한다(S83). 이는 엘리어싱된 시간 샘플들을 획득하기 위해 기능하며, 상기 디코더는 파이널 윈도윙(합성 윈도우에 의한)을 계속해서 진행한다. 또한, 회복 단계(S84)는 엘리어싱의 염려가 없는 일시적인 샘플들을 획득하고, 상기 샘플들은 디지털 투 아날로그 컨버터로 전송된다(If the frame is available (OK output from the test), the decoder decodes the frame (S82) so as to get a signal in the transformed domain, implements an inverse transform IMDCT (S83) which then serves to get the “aliased” time samples and then proceeds to a final windowing (by a synthesis window) and recovery step S84 in order to get temporal samples free from aliasing which will then be sent to a digital to analog converter for restitution.).
프레임이 손실된 경우(테스트로부터 KO가 출력), 의미있는 본 발명의 프레임 손실 정정에 있어서, 상기 디코더는 이미 디코딩된 신호와, 또한 전 프레임으로부터 엘리어싱된 파트(aliased part)를 사용한다(S85: INV).
CIR: 회로
PROC: 프로세서
MEM: 메모리

Claims (16)

  1. 연속적인 프레임들에서 분산되어 위치하는 연속된 샘플들을 포함하는 신호를 처리하는 방법에 있어서,
    상기 방법은, 디코딩에 있어서, 적어도 하나의 손실된 신호 프레임을 교체하기 위하여 상기 신호를 디코딩하는 동안 구현되고;
    상기 방법은,
    디코더에서 사용 가능하고 프레임 손실에 앞서 수신한 마지막 유효 프레임을 포함하는 유효한 신호 내에서 상기 유효한 신호의 함수로 설정된 주기에 대응하는 길이의 신호 세그먼트를 검색하는 단계;
    2^ceil(log2(P))의 샘플들을 포함하는 제2 세그먼트를 획득하기 위해 상기 신호 세그먼트로부터 샘플들을 선형 또는 큐빅 스플라인(cubic spline) 유형으로 인터폴레이션하되, 상기 ceil(x)는 x보다 크거나 같은 정수이고 상기 P는 상기 신호 세그먼트 내의 샘플들의 수인, 단계;
    상기 신호 세그먼트의 스펙트럼 요소를 결정하기 위해 2^k 길이를 갖는 고속 푸리에 변환에 의한 사인 파형의 분석으로 상기 제2 세그먼트를 분석하되, 상기 k는 log2(P)보다 같거나 큰, 단계; 및
    상기 스펙트럼 요소를 결정한 이후 상기 스펙트럼 요소의 적어도 일부로부터 합성된 신호를 생성함으로써 상기 손실된 프레임에 대하여 적어도 하나의 대체 프레임을 합성하는 단계;
    를 포함하는, 신호 처리 방법.
  2. 제 1 항에 있어서,
    상기 유효한 신호의 상관 관계(correlation)에 의해 하나의 반복 주기를 검색하는 단계; 를 더 포함하고,
    상기 신호 세그먼트의 길이는 상기 적어도 하나의 반복 주기를 포함하고 상기 반복 주기는 상기 상관 관계가 발견된 신호의 샘플들 사이 시간 옵셋(temporal offset)에 대응하는, 신호 처리 방법.
  3. 제 2 항에 있어서,
    상기 반복 주기는 기설정된 스레스홀드 값을 초과하는 상기 상관 관계에 대한 길이와 대응하는, 신호 처리 방법.
  4. 제 1 항에 있어서,
    상기 스펙트럼 요소와 각각 연계된 위상들을 결정하는 단계; 를 더 포함하고,
    상기 합성된 신호의 생성은 상기 스펙트럼 요소들의 위상들을 포함하는, 신호 처리 방법.
  5. 제 1 항에 있어서,
    상기 스펙트럼 요소들과 연게된 각 진폭들을 결정하는 단계; 를 더 포함하고,
    상기 합성된 신호의 생성은 상기 스펙트럼 요소들의 진폭들을 포함하는, 신호 처리 방법.
  6. 제 1 항에 있어서,
    상기 스펙트럼 요소들과 각각 연계된 진폭들을 결정하는 단계(S5); 를 더 포함하고,
    상기 합성된 신호의 생성을 위해 최고 진폭 스펙트럼 요소들이 선택되는, 신호 처리 방법.
  7. 제 1 항에 있어서,
    노이즈는, 상기 합성된 신호의 구성을 위해 선택되지 않은 스펙트럼 요소들과 관련된 에너지 손실을 보상하기 위해 상기 합성된 신호에 부가되는, 신호 처리 방법.
  8. 제 7 항에 있어서,
    상기 노이즈는 상기 신호 세그먼트로부터의 신호와 상기 합성된 신호 사이의 가중된 잔여(weighted residue)에 의해 획득되는, 신호 처리 방법.
  9. 삭제
  10. 삭제
  11. 제 1 항에 있어서,
    상기 신호는 MLT(Modified Lapped Transform) 또는 MDCT(Modified Discrete Cosine Transform) 유형의 중첩을 갖는 변환에 의해 디코딩되고,
    상기 합성된 신호는 2 프레임 길이 초과로 생성되는, 신호 처리 방법.
  12. 제 1 항에 있어서,
    상기 신호는 MLT(Modified Lapped Transform) 또는 MDCT(Modified Discrete Cosine Transform) 유형의 중첩을 갖는 변환에 의해 디코딩되고,
    상기 합성된 신호는 적어도 2 프레임 길이를 초과하여 생성되고,
    상기 합성된 신호는 상기 2 프레임 길이와 리샘플링 필터에 의해 도입되는 딜레이와 대응하는 추가적인 길이를 초과하여 생성되는, 신호 처리 방법.
  13. 제 1 항에 있어서,
    상기 유효한 프레임으로부터 나온 신호를 고주파수 밴드와 저주파수 밴드로 구분하는 단계; 를 더 포함하고,
    상기 스펙트럼 요소들은 상기 저주파수 밴드에서 선택되는, 신호 처리 방법.
  14. 제 13 항에 있어서,
    상기 합성된 대체 프레임은,
    상기 저주파수 밴드에서 선택된 스펙트럼 요소로부터 생성된 제1 신호, 및
    상기 고주파수 밴드에서 필터링으로부터 나온 제2 신호의 합으로 인해 합성되며,
    상기 제2 신호는 적어도 하나의 유효한 반프레임(half-frame)의 연속적인 복제 및 그것들의 일시적인 폴디드 형태(folded version)에 의해 획득되는, 신호 처리 방법.
  15. 프로그램이 프로세서에 의해 실행되는 경우, 제 1 항 내지 제 8 항 및 제 11 항 내지 제 14 항 중 어느 한 항의 상기 방법을 구현하기 위한 상기 프로그램의 지시들을 포함하는 비일시성 컴퓨터 저장 매체.
  16. 연속적인 프레임들에서 분산되어 위치하는 연속된 샘플들을 포함하는 신호를 디코딩하는 장치에 있어서,
    상기 장치는 적어도 하나의 손실된 신호 프레임을 교체하기 위한 회로를 포함하고,
    상기 장치는,
    디코더에서 사용 가능하고 프레임 손실에 앞서 수신한 마지막 유효 프레임을 포함하는 유효한 신호 내에서 상기 유효한 신호의 함수로 설정된 주기에 대응하는 길이의 신호 세그먼트를 검색하고;
    2^ceil(log2(P))의 샘플들을 포함하는 제2 세그먼트를 획득하기 위해 상기 신호 세그먼트로부터 샘플들에 대해 선형 또는 큐빅 스플라인(cubic spline) 유형의 인터폴레이션을 수행하되, 상기 ceil(x)는 x보다 크거나 같은 정수이고 상기 P는 상기 신호 세그먼트 내의 샘플들의 수이고;
    상기 신호 세그먼트의 스펙트럼 요소를 결정하기 위해 2^k 길이를 갖는 고속 푸리에 변환에 의한 사인 파형의 분석으로 상기 제2 세그먼트를 분석하되, 상기 k는 log2(P)보다 같거나 크고,
    상기 스펙트럼 요소를 결정한 이후 상기 스펙트럼 요소의 적어도 일부로부터 합성된 신호를 생성함으로써 상기 손실된 프레임에 대하여 적어도 하나의 대체 프레임을 합성하는, 신호 처리 장치.
KR1020157023696A 2013-01-31 2014-01-30 신호 디코딩 동안 프레임 손실의 향상된 정정 방법 KR102398818B1 (ko)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
FR1350845 2013-01-31
FR1350845A FR3001593A1 (fr) 2013-01-31 2013-01-31 Correction perfectionnee de perte de trame au decodage d'un signal.
PCT/FR2014/050166 WO2014118468A1 (fr) 2013-01-31 2014-01-30 Correction perfectionnée de perte de trame au décodage d'un signal

Publications (2)

Publication Number Publication Date
KR20150113161A KR20150113161A (ko) 2015-10-07
KR102398818B1 true KR102398818B1 (ko) 2022-05-17

Family

ID=48901064

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020157023696A KR102398818B1 (ko) 2013-01-31 2014-01-30 신호 디코딩 동안 프레임 손실의 향상된 정정 방법

Country Status (11)

Country Link
US (1) US9613629B2 (ko)
EP (1) EP2951813B1 (ko)
JP (1) JP6426626B2 (ko)
KR (1) KR102398818B1 (ko)
CN (1) CN105122356B (ko)
BR (1) BR112015018102B1 (ko)
CA (1) CA2899438C (ko)
FR (1) FR3001593A1 (ko)
MX (1) MX350634B (ko)
RU (1) RU2652464C2 (ko)
WO (1) WO2014118468A1 (ko)

Families Citing this family (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
FR3020732A1 (fr) 2014-04-30 2015-11-06 Orange Correction de perte de trame perfectionnee avec information de voisement
FR3023646A1 (fr) * 2014-07-11 2016-01-15 Orange Mise a jour des etats d'un post-traitement a une frequence d'echantillonnage variable selon la trame
CN108922551B (zh) * 2017-05-16 2021-02-05 博通集成电路(上海)股份有限公司 用于补偿丢失帧的电路及方法
CN110710181B (zh) 2017-05-18 2022-09-23 弗劳恩霍夫应用研究促进协会 管理网络设备
US10663040B2 (en) 2017-07-27 2020-05-26 Uchicago Argonne, Llc Method and precision nanopositioning apparatus with compact vertical and horizontal linear nanopositioning flexure stages for implementing enhanced nanopositioning performance
EP3483884A1 (en) 2017-11-10 2019-05-15 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Signal filtering
EP3483882A1 (en) 2017-11-10 2019-05-15 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Controlling bandwidth in encoders and/or decoders
WO2019091576A1 (en) 2017-11-10 2019-05-16 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio encoders, audio decoders, methods and computer programs adapting an encoding and decoding of least significant bits
EP3483880A1 (en) 2017-11-10 2019-05-15 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Temporal noise shaping
EP3483883A1 (en) 2017-11-10 2019-05-15 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio coding and decoding with selective postfiltering
EP3483878A1 (en) * 2017-11-10 2019-05-15 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio decoder supporting a set of different loss concealment tools
EP3483879A1 (en) 2017-11-10 2019-05-15 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Analysis/synthesis windowing function for modulated lapped transformation
EP3483886A1 (en) 2017-11-10 2019-05-15 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Selecting pitch lag
CN109525373B (zh) * 2018-12-25 2021-08-24 荣成歌尔科技有限公司 数据处理方法、数据处理装置和播放设备
BR112021014477A2 (pt) * 2019-02-21 2021-09-28 Telefonaktiebolaget Lm Ericsson (Publ) Método e decodificador para enchimento de um comprimento de janela de análise, programa de computador, e, produto de programa de computador
EP3984026A1 (en) * 2019-06-13 2022-04-20 Telefonaktiebolaget LM Ericsson (publ) Time reversed audio subframe error concealment

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20100318349A1 (en) 2006-10-20 2010-12-16 France Telecom Synthesis of lost blocks of a digital audio signal, with pitch period correction

Family Cites Families (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7272556B1 (en) * 1998-09-23 2007-09-18 Lucent Technologies Inc. Scalable and embedded codec for speech and audio signals
US6754630B2 (en) * 1998-11-13 2004-06-22 Qualcomm, Inc. Synthesis of speech from pitch prototype waveforms by time-synchronous waveform interpolation
US6138089A (en) * 1999-03-10 2000-10-24 Infolio, Inc. Apparatus system and method for speech compression and decompression
US7054453B2 (en) * 2002-03-29 2006-05-30 Everest Biomedical Instruments Co. Fast estimation of weak bio-signals using novel algorithms for generating multiple additional data frames
KR100954668B1 (ko) * 2003-04-17 2010-04-27 주식회사 케이티 손실 전/후 패킷정보를 이용한 패킷손실 은닉 방법
JP2006174028A (ja) * 2004-12-15 2006-06-29 Matsushita Electric Ind Co Ltd 音声符号化方法、音声復号化方法、音声符号化装置および音声復号化装置
RU2462769C2 (ru) * 2006-10-24 2012-09-27 Войсэйдж Корпорейшн Способ и устройство кодирования кадров перехода в речевых сигналах
JP5618826B2 (ja) * 2007-06-14 2014-11-05 ヴォイスエイジ・コーポレーション Itu.t勧告g.711と相互運用可能なpcmコーデックにおいてフレーム消失を補償する装置および方法
WO2010086342A1 (en) * 2009-01-28 2010-08-05 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio encoder, audio decoder, method for encoding an input audio information, method for decoding an input audio information and computer program using improved coding tables
US9031834B2 (en) * 2009-09-04 2015-05-12 Nuance Communications, Inc. Speech enhancement techniques on the power spectrum
US20110196673A1 (en) * 2010-02-11 2011-08-11 Qualcomm Incorporated Concealing lost packets in a sub-band coding decoder

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20100318349A1 (en) 2006-10-20 2010-12-16 France Telecom Synthesis of lost blocks of a digital audio signal, with pitch period correction

Non-Patent Citations (5)

* Cited by examiner, † Cited by third party
Title
G.722 : A high-quality packet loss concealment algorithm for G.722. ITU-T Recommendation G.722 (1988) Appendix III. 2006.11.24.
ipul N. Parikh, et al. Frame erasure concealment using sinusoidal analysis-synthesis and its application to MDCT-based codecs. IEEE ICASSP. 2000.*
ITU-T Recommendation G.711 - Appendix I, A high quality low-complexity algorithm for packet loss concealment with G.711, 1999.09.*
NAGEL Frederik, et al. A harmonic bandwidth extension method for audio codecs. IEEE International Conference on Acoustics, Speech and Signal Processing 2009(ICASSP 2009), 2009.*
Roman Kappeler, et al. Sample Rate Converter 192 kHz Stereo Sample Rate Conversion with B-Spline Interpolation. Department of Information Technology and Electrical Engineering. 2004.03.24.*

Also Published As

Publication number Publication date
JP2016511432A (ja) 2016-04-14
BR112015018102B1 (pt) 2022-03-22
RU2652464C2 (ru) 2018-04-26
RU2015136540A (ru) 2017-03-06
CA2899438A1 (fr) 2014-08-07
CN105122356B (zh) 2019-12-20
MX2015009964A (es) 2016-06-02
US20150371647A1 (en) 2015-12-24
EP2951813A1 (fr) 2015-12-09
US9613629B2 (en) 2017-04-04
KR20150113161A (ko) 2015-10-07
EP2951813B1 (fr) 2016-12-07
MX350634B (es) 2017-09-12
BR112015018102A2 (pt) 2017-07-18
CN105122356A (zh) 2015-12-02
FR3001593A1 (fr) 2014-08-01
CA2899438C (fr) 2021-02-02
JP6426626B2 (ja) 2018-11-21
WO2014118468A1 (fr) 2014-08-07

Similar Documents

Publication Publication Date Title
KR102398818B1 (ko) 신호 디코딩 동안 프레임 손실의 향상된 정정 방법
KR100348899B1 (ko) 캡스트럼 분석을 이용한 하모닉 노이즈 음성 부호화기 및부호화 방법
JP4861196B2 (ja) Acelp/tcxに基づくオーディオ圧縮中の低周波数強調の方法およびデバイス
RU2596584C2 (ru) Кодирование обобщенных аудиосигналов на низких скоростях передачи битов и с низкой задержкой
JP3992619B2 (ja) 適応転置による情報源符号化システムの増強方法
RU2414010C2 (ru) Трансформация шкалы времени кадров в широкополосном вокодере
RU2647634C2 (ru) Коррекция потери кадров путем внедрения взвешенного шума
JP5833675B2 (ja) 帯域拡張方法及び装置
JP2018510374A (ja) 目標時間領域エンベロープを用いて処理されたオーディオ信号を得るためにオーディオ信号を処理するための装置および方法
KR102510685B1 (ko) 오디오 신호 디코더에서의 개선된 주파수 대역 확장
DK3096314T3 (en) Masking audio frame loss
NO312428B1 (no) Fremgangsmåte og anordning for syntetisering av tale
JP6584431B2 (ja) 音声情報を用いる改善されたフレーム消失補正
Robinson Speech analysis
US6115685A (en) Phase detection apparatus and method, and audio coding apparatus and method
JP3362471B2 (ja) 音声信号の符号化方法及び復号化方法
US10354671B1 (en) System and method for the analysis and synthesis of periodic and non-periodic components of speech signals
RU2826967C2 (ru) Процессор для формирования спектра прогнозирования на основе долгосрочного прогнозирования и/или гармонической постфильтрации
RU2825309C2 (ru) Формат со множественным запаздыванием для кодирования звука
US12148434B2 (en) Audio frame loss concealment
AU2015221516A1 (en) Improved Harmonic Transposition
Bayer Time Warped Filter Banks and their Application for Frame Based Processing of Harmonic Audio Signals

Legal Events

Date Code Title Description
AMND Amendment
E902 Notification of reason for refusal
AMND Amendment
E601 Decision to refuse application
X091 Application refused [patent]
E601 Decision to refuse application
E801 Decision on dismissal of amendment
J201 Request for trial against refusal decision
J301 Trial decision

Free format text: TRIAL NUMBER: 2021101001393; TRIAL DECISION FOR APPEAL AGAINST DECISION TO DECLINE REFUSAL REQUESTED 20210528

Effective date: 20211206

E902 Notification of reason for refusal
GRNO Decision to grant (after opposition)
GRNT Written decision to grant