[go: up one dir, main page]
More Web Proxy on the site http://driver.im/

KR20190085062A - 분리 특성으로서 비율을 사용하여 오디오 신호를 분해하기 위한 장치 및 방법 - Google Patents

분리 특성으로서 비율을 사용하여 오디오 신호를 분해하기 위한 장치 및 방법 Download PDF

Info

Publication number
KR20190085062A
KR20190085062A KR1020197017323A KR20197017323A KR20190085062A KR 20190085062 A KR20190085062 A KR 20190085062A KR 1020197017323 A KR1020197017323 A KR 1020197017323A KR 20197017323 A KR20197017323 A KR 20197017323A KR 20190085062 A KR20190085062 A KR 20190085062A
Authority
KR
South Korea
Prior art keywords
signal
component signal
foreground
blocks
block
Prior art date
Application number
KR1020197017323A
Other languages
English (en)
Other versions
KR102427414B1 (ko
Inventor
알렉산더 아다미
위르겐 헤어레
샤샤 디쉬
플로린 기도
Original Assignee
프라운호퍼 게젤샤프트 쭈르 푀르데룽 데어 안겐반텐 포르슝 에. 베.
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 프라운호퍼 게젤샤프트 쭈르 푀르데룽 데어 안겐반텐 포르슝 에. 베. filed Critical 프라운호퍼 게젤샤프트 쭈르 푀르데룽 데어 안겐반텐 포르슝 에. 베.
Publication of KR20190085062A publication Critical patent/KR20190085062A/ko
Application granted granted Critical
Publication of KR102427414B1 publication Critical patent/KR102427414B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/022Blocking, i.e. grouping of samples in time; Choice of analysis windows; Overlap factoring
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0272Voice signal separating
    • G10L21/028Voice signal separating using properties of sound source
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/008Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • G10L21/0232Processing in the frequency domain
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S3/00Systems employing more than two channels, e.g. quadraphonic
    • H04S3/008Systems employing more than two channels, e.g. quadraphonic in which the audio signals are in digital form, i.e. employing more than two discrete digital channels
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H2210/00Aspects or methods of musical processing having intrinsic musical character, i.e. involving musical theory or musical parameters or relying on musical knowledge, as applied in electrophonic musical tools or instruments
    • G10H2210/031Musical analysis, i.e. isolation, extraction or identification of musical elements or musical parameters from a raw acoustic signal or from an encoded audio signal
    • G10H2210/046Musical analysis, i.e. isolation, extraction or identification of musical elements or musical parameters from a raw acoustic signal or from an encoded audio signal for differentiation between music and non-music signals, based on the identification of musical parameters, e.g. based on tempo detection
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H2250/00Aspects of algorithms or signal processing methods without intrinsic musical character, yet specifically adapted for or used in electrophonic musical processing
    • G10H2250/025Envelope processing of music signals in, e.g. time domain, transform domain or cepstrum domain
    • G10H2250/035Crossfade, i.e. time domain amplitude envelope control of the transition between musical sounds or melodies, obtained for musical purposes, e.g. for ADSR tone generation, articulations, medley, remix
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H2250/00Aspects of algorithms or signal processing methods without intrinsic musical character, yet specifically adapted for or used in electrophonic musical processing
    • G10H2250/131Mathematical functions for musical analysis, processing, synthesis or composition
    • G10H2250/215Transforms, i.e. mathematical transforms into domains appropriate for musical signal processing, coding or compression
    • G10H2250/235Fourier transform; Discrete Fourier Transform [DFT]; Fast Fourier Transform [FFT]
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2400/00Details of stereophonic systems covered by H04S but not provided for in its groups
    • H04S2400/01Multi-channel, i.e. more than two input channels, sound reproduction with two speakers wherein the multi-channel information is substantially preserved

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • Human Computer Interaction (AREA)
  • Health & Medical Sciences (AREA)
  • Quality & Reliability (AREA)
  • Mathematical Physics (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)
  • Circuit For Audible Band Transducer (AREA)
  • Stereophonic System (AREA)
  • Stereo-Broadcasting Methods (AREA)
  • Signal Processing Not Specific To The Method Of Recording And Reproducing (AREA)

Abstract

오디오 신호(100)를 배경 성분 신호(140) 및 전경 성분 신호(150)로 분해하기 위한 장치는, 오디오 신호 값들의 블록들의 시간 시퀀스를 생성하기 위한 블록 생성기(110); 오디오 신호의 현재 블록의 블록 특성을 결정하고, 블록들의 그룹에 대한 평균 특성을 결정하기 위한 오디오 신호 분석기(120) ― 블록들의 그룹은 적어도 2개의 블록들을 포함함 ―; 및 현재 블록의 블록 특성과 블록들의 그룹의 평균 특성의 비율에 응답하여 현재 블록을 배경 부분 및 전경 부분으로 분리시키기 위한 분리기(130)를 포함하며, 여기서, 배경 성분 신호(140)는 현재 블록의 배경 부분을 포함하고, 전경 성분 신호(150)는 현재 블록의 전경 부분을 포함한다.

Description

분리 특성으로서 비율을 사용하여 오디오 신호를 분해하기 위한 장치 및 방법
본 발명은 오디오 프로세싱에 관한 것으로, 더 상세하게는, 배경(background) 성분 신호 및 전경(foreground) 성분 신호로의 오디오 신호들의 분해에 관한 것이다.
오디오 신호 프로세싱에 관련된 상당한 양의 참조문헌들이 존재하며, 여기서 이들 참조문헌들 중 일부가 오디오 신호 분해에 관련된다. 예시적인 참조문헌들은 다음과 같다:
[1] S. Disch and A. Kuntz, A Dedicated Decorrelator for Parametric Spatial Coding of Applause-Like Audio Signals. Springer-Verlag, January 2012, pp. 355-363.
[2] A. Kuntz, S. Disch, T. B
Figure pct00001
ackstr
Figure pct00002
m, and J. Robilliard, "The Transient Steering Decorrelator Tool in the Upcoming MPEG Unified Speech and Audio Coding Standard," in 131st Convention of the AES, New York, USA, 2011.
[3] A. Walther, C. Uhle, and S. Disch, "Using Transient Suppression in Blind Multi-channel Upmix Algorithms," in Proceedings, 122nd AES Pro Audio Expo and Convention, May 2007.
[4] G. Hotho, S. van de Par, and J. Breebaart, "Multichannel coding of applause signals", EURASIP J. Adv. Signal Process, vol. 2008, Jan. 2008. [Online]. Available: http://dx.doi.org/10.1155/2008/531693
[5] D. FitzGerald, "Harmonic/Percussive Separation Using Median Filtering," in Proceedings of the 13th International Conference on Digital Audio Effects (DAFx-10), Graz, Austria, 2010.
[6] J. P. Bello, L. Daudet, S. Abdallah, C. Duxbury, M. Davies, and M. B. Sandler, "A Tutorial on Onset Detection in Music Signals," IEEE Transactions on Speech and Audio Processing, vol. 13, no. 5, pp. 1035-1047, 2005.
[7] M. Goto and Y. Muraoka, "Beat tracking based on multiple-agent architecture - a real-time beat tracking system for audio signals," in Proceedings of the 2nd International Conference on Multiagent Systems, 1996, pp. 103-110.
[8] A. Klapuri, "Sound onset detection by applying psychoacoustic knowledge," in Proceedings of the International Conference on Acoustics, Speech, and Signal Processing (ICASSP), vol. 6, 1999, pp. 3089-3092 vol.6.
더욱이, WO 2010017967호는 입력 오디오 신호에 기초하여 공간 출력 다채널 오디오 신호를 결정하기 위한 장치를 개시하며, 그 장치는, 전경 신호 부분인 제1 분해된 신호 및 배경 신호 부분인 제2 분해된 신호로 입력 오디오 신호를 분해하기 위한 시맨틱 분해기(semantic decomposer)를 포함한다. 더욱이, 렌더러는, 진폭 패닝(panning)을 사용하여 전경 신호 부분을 렌더링하고, 역상관(decorrelation)에 의해 배경 신호 부분을 렌더링하도록 구성된다. 마지막으로, 제1 렌더링된 신호 및 제2 렌더링된 신호는 공간 출력 다채널 오디오 신호를 획득하기 위해 프로세싱된다.
더욱이, 참조문헌들 [1] 및 [2]는 트랜션트 스티어링 역상관기(transient steering decorrelator)를 개시한다.
아직 공개되지 않은 유럽 출원 제 16156200.4호는 고해상도 엔벨로프 프로세싱을 개시한다. 고해상도 엔벨로프 프로세싱은, 박수(applause), 빗방울 소리들 등과 같은 많은 조밀한 트랜션트 이벤트들로 주로 이루어진 신호들의 개선된 코딩을 위한 툴이다. 인코더 측에서, 툴은, 입력 신호를 분석하고, 트랜션트 이벤트들의 고주파수 부분을 감쇠시키고 그에 따라 시간적으로 평탄화시켜, 스테레오 신호들에 대해 1 내지 4kbps와 같은 작은 양의 사이드(side) 정보를 생성함으로써 실제 지각 오디오 코덱 이전에 높은 시간 해상도를 갖는 프리프로세서로서 작동한다. 디코더 측에서, 툴은, 인코딩 동안 생성되었던 사이드 정보를 이용하여, 트랜션트 이벤트들의 고주파수 부분을 부스팅하고 그에 따라 시간적으로 형상화시킴으로써 오디오 코덱 이후 포스트프로세서로서 작동한다.
업믹싱(upmix)은 일반적으로 다이렉트(direct) 및 주변 신호 부분들로의 신호 분해를 수반하며, 여기서, 다이렉트 신호는 라우드스피커들 사이에서 패닝되고, 주변 부분은 주어진 수의 채널들에 걸쳐 역상관 및 분배된다. 주변 신호들 내의 트랜션트들과 같은 나머지 다이렉트 성분들은 업믹싱된 사운드 장면에서 결과적으로 인지된 앰비언스(ambience)의 손상을 유발한다. [3]에서, 주변 신호 내에서 검출된 트랜션트들을 감소시키는 트랜션트 검출 및 프로세싱이 제안된다. 트랜션트 검출을 위해 제안된 하나의 방법은, 하나의 시간 블록 내의 빈들의 주파수 가중된 합과, 특정한 블록이 억제되어야 하는지 여부를 결정하기 위한 가중된 장시간 구동 수단 사이의 비교를 포함한다.
[4]에서, 박수 신호들의 효율적인 공간 오디오 코딩이 다뤄진다. 제안된 다운믹스- 및 업믹스 방법들 모두가 전체 박수 신호에 대해 작동된다.
더욱이, 참조문헌 [5]는 하모닉/퍼커시브(percussive) 분리를 개시하며, 여기서, 신호들은 수평 및 수직 방향으로 스펙트로그램에 미디언 필터(median filter)들을 적용함으로써 하모닉 및 퍼커시브 신호 성분들로 분리된다.
참조문헌 [6]은 주파수 도메인 접근법들, 시초(onset) 검출의 맥락에서 엔벨로프 팔로워(follower) 또는 에너지 팔로워와 같은 시간 도메인 접근법들을 포함하는 튜토리얼(tutorial)을 표현한다. 참고문헌 [7]은 주파수 도메인에서 전력의 급격한 증가와 같은 전력 추적을 개시하고, 참고문헌 [8]은 시초 검출의 목적을 위한 신규성(novelty) 측정을 개시한다.
선행 기술의 참고문헌들에 설명된 바와 같은 신호의 전경 및 배경 신호 부분으로의 분리는, 그러한 알려진 절차들이 결과 신호 또는 분해된 신호들의 감소된 오디오 품질을 초래할 수 있다는 사실로 인해 불리하다.
오디오 신호를 배경 성분 신호 및 전경 성분 신호로 분해하려는 목적을 위한 개선된 개념을 제공하는 것이 본 발명의 목적이다.
이러한 목적은, 청구항 제1항에 따른, 오디오 신호를 배경 성분 신호 및 전경 성분 신호로 분해하기 위한 장치, 청구항 제22항에 따른, 오디오 신호를 배경 성분 신호 및 전경 성분 신호로 분해하기 위한 방법, 또는 청구항 제23항에 따른 컴퓨터 프로그램에 의해 달성된다.
일 양상에서, 오디오 신호를 배경 성분 신호 및 전경 성분 신호로 분해하기 위한 장치는, 오디오 신호 값들의 블록들의 시간 시퀀스를 생성하기 위한 블록 생성기, 블록 생성기에 연결된 오디오 신호 분석기, 및 블록 생성기 및 오디오 신호 분석기에 연결된 분리기를 포함한다. 제1 양상에 따르면, 오디오 신호 분석기는, 오디오 신호의 현재 블록의 블록 특성 및 블록들의 그룹에 대한 평균 특성을 결정하도록 구성되며, 블록들의 그룹은 적어도 2개의 블록들, 이를테면 선행 블록, 현재 블록 및 후속 블록 또는 심지어 더 선행 블록들 또는 더 후속 블록들을 포함한다.
분리기는, 현재 블록의 블록 특성과 평균 특성의 비율에 응답하여 현재 블록을 배경 부분 및 전경 부분으로 분리시키도록 구성된다. 따라서, 배경 성분 신호는 현재 블록의 배경 부분을 포함하고, 전경 성분 신호는 현재 블록의 전경 부분을 포함한다. 따라서, 현재 블록은 배경 또는 전경 중 어느 하나인 것으로 간단히 결정되지 않는다. 대신, 현재 블록은 실제로, 비-제로 배경 부분 및 비-제로 전경 부분으로 분리된다. 이러한 절차는, 통상적으로 전경 신호가 신호 내에 단독으로 결코 존재하는 것이 아니라 항상 배경 신호 성분에 결합되는 상황을 반영한다. 따라서, 본 발명은 이러한 제1 양상에 따르면, 특정한 임계화가 수행되는지 여부와 관계없이, 어떠한 임계치도 없거나 또는 비율에 의해 특정한 임계치에 도달할 경우, 실제 분리가 이루어지며, 전경 부분에 부가하여 배경 부분이 항상 유지되는 상황을 반영한다.
더욱이, 분리는 매우 특정한 분리 수단, 즉 적어도 2개의 블록들로부터 도출된, 즉 블록들의 그룹으로부터 도출된 평균 특성과 현재 블록의 블록 특성의 비율에 의해 행해진다. 따라서, 블록들의 그룹의 사이즈에 의존하여, 매우 느리게 변하는 이동 평균 또는 매우 급속하게 변하는 이동 평균이 세팅될 수 있다. 블록들의 그룹 내의 많은 수의 블록들에 대해, 이동 평균은 비교적 느리게 변하는 반면, 블록들의 그룹 내의 적은 수의 블록들에 대해, 이동 평균은 매우 급속하게 변한다. 더욱이, 현재 블록으로부터의 특성과 블록들의 그룹에 걸친 평균 특성 사이의 관계의 사용은, 즉 평균에 관한 이러한 블록의 특성 사이의 비율이 특정한 값에 있는 경우, 전경 성분을 포함하는 것으로서 특정한 블록을 개인들이 인지하는 지각적 상황을 반영한다. 그러나, 이러한 양상에 따르면, 이러한 특정한 값은 반드시 임계치일 필요는 없다. 대신, 비율 그 자체는 배경 부분 및 전경 부분으로의 현재 블록의 양적 분리를 수행하기 위해 이미 사용될 수 있다. 높은 비율은, 현재 블록의 높은 부분이 전경 부분인 것을 초래하는 반면, 낮은 비율은, 현재 블록의 대부분 또는 모두가 배경 부분에 남아있고, 현재 블록이 작은 전경 부분만을 갖거나 또는 어떠한 전경 부분도 전혀 갖지 않는 상황을 초래한다.
바람직하게, 진폭-관련 특성이 결정되며, 현재 블록의 에너지와 같은 이러한 진폭-관련 특성은, 어떤 분리가 수행되는지에 기초하여, 비율을 획득하기 위해 블록들의 그룹의 평균 에너지와 비교된다. 분리에 응답하여 배경 신호가 남아있는 것을 확인하기 위해, 이득 인자가 결정되며, 이어서, 이러한 이득 인자는, 특정한 블록의 평균 에너지가 배경 또는 잡음형 신호 내에 얼마나 많이 남아있는지 그리고, 예를 들어, 박수소리(clap) 신호 또는 빗방울 신호 등과 같은 트랜션트 신호일 수 있는 전경 신호 부분으로 어떤 부분이 진행하는지를 제어한다.
제1 양상에 부가하여 또는 제1 양상과는 별개로 사용될 수 있는 본 발명의 추가적인 제2 양상에서, 오디오 신호를 분해하기 위한 장치는 블록 생성기, 오디오 신호 분석기 및 분리기를 포함한다. 오디오 신호 분석기는 오디오 신호의 현재 블록의 특성을 분석하도록 구성된다. 오디오 신호의 현재 블록의 특성은 제1 양상에 관해 논의된 바와 같은 비율일 수 있지만, 대안적으로는 또한, 어떠한 평균화 없이 오직 현재 블록으로부터만 도출된 블록 특성일 수 있다. 더욱이, 오디오 신호 분석기는, 블록들의 그룹 내의 특성의 가변성을 결정하도록 구성되며, 여기서, 블록들의 그룹은 적어도 2개의 블록들, 및 바람직하게는 현재 블록이 있거나 또는 없는 적어도 2개의 선행 블록들 또는 현재 블록이 있거나 또는 없는 적어도 2개의 후속 블록들, 또는 또한 현재 블록이 있거나 또는 없는 적어도 2개의 선행 블록들, 적어도 2개의 후속 블록들 둘 모두를 포함한다. 바람직한 실시예들에서, 블록들의 수는 30 또는 심지어 40보다 크다.
더욱이, 분리기는 현재 블록을 배경 부분 및 전경 부분으로 분리시키도록 구성되며, 여기서 이러한 분리기는, 신호 분리기에 의해 결정된 가변성에 기초하여 분리 임계치를 결정하며, 현재 블록의 특성이 분리 임계치와 미리 결정된 관계에 있는 경우, 이를테면 분리 임계치보다 크거나 또는 그와 동일한 경우, 현재 블록을 분리시키도록 구성된다. 당연히, 임계치가 일종의 역 값인 것으로 정의될 경우, 미리 결정된 관계는 관계보다 작거나, 또는 관계보다 작거나 또는 동일할 수 있다. 따라서, 특성이 분리 임계치와 미리 결정된 관계 내에 있는 경우, 배경 부분 및 전경 부분으로의 분리가 수행되는 반면, 특성이 분리 임계치와 미리 결정된 관계 내에 있지 않는 경우, 분리가 전혀 수행되지 않는 그러한 방식으로 임계화가 항상 수행될 수 있다.
블록들의 그룹 내의 특성의 가변성에 의존하는 가변 임계치를 사용하는 제2 양상에 따르면, 분리는 완전한 분리일 수 있으며, 즉, 분리가 수행될 경우 오디오 신호 값들의 전체 블록이 전경 성분으로 도입되거나, 또는 가변 분리 임계치에 관한 미리 결정된 관계가 만족되지 않는 경우 오디오 신호 값들의 전체 블록이 배경 신호 부분과 유사하다. 바람직한 실시예에서, 이러한 양상은, 가변 임계치가 특성과 미리 결정된 관계에 있다고 발견되자마자, 비-바이너리 분리가 수행되며, 즉 오디오 신호 값들의 일부만이 전경 신호 부분으로 들어가고, 나머지 부분이 배경 신호에 남겨진다는 점에서 제1 양상과 결합된다.
바람직하게, 전경 신호 부분 및 배경 신호 부분에 대한 부분의 분리는 이득 인자에 기초하여 결정되고, 즉, 동일한 신호 값들은 결국, 전경 신호 부분 및 배경 신호 부분 내에 있지만, 상이한 부분들 내의 신호 값들의 에너지는 서로 상이하며, 현재 블록 그 자체의 블록 특성 또는 현재 블록과 연관된 블록들의 그룹에 대한 평균 특성과 현재 블록에 대한 블록 특성 사이의 현재 블록에 대한 비율과 같은 특성에 결국 의존하는 분리 이득에 의해 결정된다.
가변 임계치의 사용은, 매우 정적인 신호로부터의 작은 편차가 있는 경우라도, 즉 특정한 신호가 매우 정적인 것으로, 즉 상당한 변동들을 갖지 않는 것으로 고려될 경우, 개인들이 전경 신호 부분을 인지하는 상황을 반영한다. 이어서, 심지어 작은 변동도 전경 신호 부분인 것으로 이미 인지된다. 그러나, 매우 변동하는 신호가 존재하는 경우, 매우 변동하는 신호 그 자체가 배경 신호 성분인 것으로 인지되며, 이러한 패턴의 변동들로부터의 작은 편차가 전경 신호 부분인 것으로 인지되지 않는 것으로 보인다. 평균 또는 기대 값으로부터의 더 강한 편차들만이 전경 신호 부분인 것으로 인지된다. 따라서, 작은 분산을 갖는 신호들에 대해 매우 작은 분리 임계치를 사용하고, 높은 분산을 갖는 신호들에 대해 더 높은 분리 임계치를 사용하는 것이 바람직하다. 그러나, 역 값들이 고려될 경우, 상황은 위의 것과 반대이다.
양상들 둘 모두, 즉 블록 특성과 평균 특성 사이의 비율에 기초한 전경 신호 부분 및 배경 신호 부분으로의 비-바이너리 분리를 갖는 제1 양상 및 블록들의 그룹 내의 특성의 가변성에 의존하는 가변 임계치를 포함하는 제2 양상은 서로 별개로 사용될 수 있거나, 또는 심지어 함께, 즉 서로 조합하여 사용될 수 있다. 후자의 대안은 아래에서 설명되는 바와 같이 바람직한 실시예를 구성한다.
본 발명의 실시예들은 시스템에 관련되며, 여기서, 입력 신호는 개별 프로세싱이 적용될 수 있는 2개의 신호 성분들로 분해되고, 프로세싱된 신호들은 출력 신호를 형성하기 위해 재합성된다. 박수 및 또한 다른 트랜션트 신호들은, 뚜렷하게 개별적으로 인지가능한 트랜션트 박수소리 이벤트들과 더 잡음형인 배경 신호의 중첩으로서 보여질 수 있다. 그러한 신호들의 전경 및 배경 신호 밀도의 비율 등과 같은 특성들을 수정하기 위해, 개별 프로세싱을 각각의 신호 부분에 적용할 수 있는 것이 유리하다. 부가적으로, 사람의 지각에 의해 동기부여된 신호 분리가 획득된다. 더욱이, 개념은 또한, 이를테면 전송기 사이트 상에서 신호 특성들을 측정하고 수신기 사이트 상에서 이들 특성들을 복원하기 위한 측정 디바이스로서 사용될 수 있다.
본 발명의 실시예들은 배타적으로, 다채널 공간 출력 신호를 생성하는 것을 목표로 하지 않는다. 모노 입력 신호가 분해되고, 개별 신호 부분들이 프로세싱되어 모노 출력 신호로 재합성된다. 일부 실시예들에서, 제1 또는 제2 양상에서 정의된 바와 같은 개념은 가청 신호 대신 측정들 또는 사이드 정보를 출력한다.
부가적으로, 분리는 시맨틱 양상보다는 지각적인 양상 및 바람직하게는 양적인 특성 또는 값에 기초한다.
실시예들에 따르면, 분리는, 고려된 짧은 시간 프레임 내의 평균 에너지에 관한 순시 에너지의 편차에 기초한다. 그러한 시간 프레임에서 평균 에너지에 가까운 또는 그 미만의 에너지 레벨을 갖는 트랜션트 이벤트가 배경과 실질적으로 상이한 것으로 인지되지 않지만, 높은 에너지 편차를 갖는 이벤트들은 배경 신호와 구별될 수 있다. 이러한 종류의 신호 분리는 원리를 채용하며, 트랜션트 이벤트들의 사람의 인지에 더 가깝고 배경 이벤트들에 비해 전경 이벤트들의 인지에 더 가까운 프로세싱을 허용한다.
후속하여, 본 발명의 바람직한 실시예들은 첨부한 도면들에 관해 논의된다.
도 1a는 제1 양상에 따라, 비율에 의존하여 오디오 신호를 분해하기 위한 장치의 블록 다이어그램이다.
도 1b는 제2 양상에 따라, 가변 분리 임계치에 의존하여 오디오 신호를 분해하기 위한 개념의 일 실시예의 블록 다이어그램이다.
도 1c는 제1 양상, 제2 양상 또는 양상들 둘 모두에 따라, 오디오 신호를 분해하기 위한 장치의 블록 다이어그램을 예시한다.
도 1d는 제1 양상, 제2 양상 또는 양상들 둘 모두에 따른 오디오 신호 분석기 및 분리기의 바람직한 예시를 예시한다.
도 1e는 제2 양상에 따른 신호 분리기의 일 실시예를 예시한다.
도 1f는 제1 양상, 제2 양상에 따라 그리고 상이한 임계치들을 참조함으로써 오디오 신호를 분해하기 위한 개념의 설명을 예시한다.
도 2는 제1 양상, 제2 양상 또는 양상들 둘 모두에 따라, 현재 블록의 오디오 신호 값들을 전경 성분 및 배경 성분으로 분리시키기 위한 2개의 상이한 방식들을 예시한다.
도 3은 블록 생성기에 의해 생성된 중첩 블록들, 및 분리에 후속하는 시간 도메인 전경 성분 신호들 및 배경 성분 신호들의 생성의 개략적인 표현을 예시한다.
도 4a는 원시(raw) 가변성들의 평활화에 기초하여 가변 임계치를 결정하기 위한 제1 대안을 예시한다.
도 4b는 원시 임계치들의 평활화에 기초한 가변 임계치의 결정을 예시한다.
도 4c는 (평활화된) 가변성들을 임계치들에 맵핑하기 위한 상이한 함수들을 예시한다.
도 5는 제2 양상에서 요구되는 바와 같은 가변성을 결정하기 위한 바람직한 구현을 예시한다.
도 6은 분리, 전경 프로세싱 및 배경 프로세싱 그리고 후속 신호 재합성에 걸친 일반적인 개관을 예시한다.
도 7은 메타데이터가 있거나 또는 없는 신호 특성들의 측정 및 복원을 예시한다.
도 8은 인코더-디코더 사용 경우에 대한 블록 다이어그램을 예시한다.
도 1a는 오디오 신호를 배경 성분 신호 및 전경 성분 신호로 분해하기 위한 장치를 예시한다. 오디오 신호는 오디오 신호 입력(100)에 입력된다. 오디오 신호 입력은, 라인(112)에서 출력되는 오디오 신호 값들의 블록들의 시간 시퀀스를 생성하기 위해 블록 생성기(110)에 연결된다. 더욱이, 장치는, 오디오 신호의 현재 블록의 블록 특성을 결정하고, 부가적으로 블록들의 그룹에 대한 평균 특성을 결정하기 위한 오디오 신호 분석기(120)를 포함하며, 여기서, 블록들의 그룹은 적어도 2개의 블록들을 포함한다. 바람직하게, 블록들의 그룹은 적어도 하나의 선행 블록 또는 적어도 하나의 후속 블록, 및 부가적으로는 현재 블록을 포함한다.
더욱이, 장치는 현재 블록의 블록 특성과 평균 특성의 비율에 응답하여 현재 블록을 배경 부분 및 전경 부분으로 분리시키기 위한 분리기(130)를 포함한다. 따라서, 현재 블록의 블록 특성과 평균 특성의 비율은 특성으로서 사용되며, 그에 기초하여, 오디오 신호 값들의 현재 블록의 분리가 수행된다. 특히, 신호 출력(140)에서의 배경 성분 신호는 현재 블록의 배경 부분을 포함하고, 전경 성분 신호 출력(150)에서 출력된 전경 성분 신호는 현재 블록의 전경 부분을 포함한다. 도 1a에 예시된 절차는 블록 단위로 수행되며, 즉 블록들의 시간 시퀀스의 하나의 블록은 다른 블록 이후에 프로세싱되어, 결국, 입력(100)에서 입력되는 오디오 신호 값들의 블록들의 시퀀스가 프로세싱될 경우, 배경 성분 신호의 블록들의 대응하는 시퀀스 및 전경 성분 신호의 블록들의 동일한 시퀀스가 도 3에 대해 아래에서 논의될 바와 같이 라인들(140, 150)에 존재한다.
바람직하게, 오디오 신호 분석기는 현재 블록의 블록 특성으로서 진폭-관련 측정을 분석하도록 구성되며, 부가적으로, 오디오 신호 분석기(120)는 블록들의 그룹에 대한 진폭-관련 특성을 또한 부가적으로 분석하도록 구성된다.
바람직하게, 현재 블록에 대한 전력 측정 또는 에너지 측정 및 블록들의 그룹에 대한 평균 전력 측정 또는 평균 에너지 측정은 오디오 신호 분석기에 의해 결정되며, 현재 블록에 대한 이들 2개의 값들 사이의 비율은 분리를 수행하도록 분리기(130)에 의해 사용된다.
도 2는 제1 양상에 따라 도 1a의 분리기(130)에 의해 수행되는 절차를 예시한다. 단계(200)는, 예를 들어, 제1 양상에 따른 비율 또는 반드시 비율일 필요는 없지만 또한 블록 특성만일 수 있는 제2 양상에 따른 특성의 결정을 표현한다.
단계(202)에서, 분리 이득이 비율 또는 특성으로부터 계산된다. 이어서, 단계(204)에서의 임계치 비교가 선택적으로 수행될 수 있다. 임계치 비교가 단계(204)에서 수행될 경우, 결과는, 특성이 임계치와 미리 결정된 관계에 있다는 것일 수 있다. 이러한 경우, 제어는 단계(206)로 진행한다. 그러나, 특성이 미리 결정된 임계치와 관계되지 않는다고 단계(204)에서 결정될 경우, 어떠한 분리도 수행되지 않으며, 제어는 블록들의 시퀀스에서 다음 블록으로 진행한다.
제1 양상에 따르면, 단계(204)에서의 임계치 비교가 수행될 수 있거나 또는 대안적으로는 파선(208)에 의해 예시된 바와 같이 수행되지 않을 수 있다. 특성이 분리 임계치와 미리 결정된 관계에 있다고 블록(204)에서 결정되는 경우 또는 라인(208)의 대안에서는, 임의의 경우에서, 단계(206)이 수행되며, 여기서, 오디오 신호들은 분리 이득을 사용하여 가중된다. 이를 위해, 단계(206)는 라인(210)에 의해 예시된 바와 같이, 시간 표현 또는 바람직하게는 스펙트럼 표현으로 입력 오디오 신호의 오디오 신호 값들을 수신한다. 이어서, 분리 이득의 적용에 의존하여, 전경 성분(C)은 도 2 바로 아래의 수학식에 의해 예시된 바와 같이 계산된다. 구체적으로, gN 및 비율
Figure pct00003
의 함수인 분리 이득은 직접적으로 사용되는 것이 아니라 차이의 형태로 사용되며, 즉 함수는 1로부터 감산된다. 대안적으로, 배경 성분(N)은,
Figure pct00004
의 함수에 의해 오디오 신호 A(k,n)를 실제로 가중시킴으로써 직접 계산될 수 있다.
도 2는 분리기(130)에 의해 모두 수행될 수 있는 전경 성분 및 배경 성분을 계산하기 위한 수개의 가능성들을 예시한다. 하나의 가능성은 성분들 둘 모두가 분리 이득을 사용하여 계산된다는 것이다. 대안은, 전경 성분만이 분리 이득을 사용하여 계산되고, 배경 성분(N)이 210에서 예시된 바와 같이, 오디오 신호 값들로부터 전경 성분을 감산함으로써 계산된다는 것이다. 그러나, 다른 대안은, 배경 성분(N)이 블록(206)에 의해 분리 이득을 사용하여 직접 계산되고, 이어서 배경 성분(N)이 오디오 신호(A)로부터 감산되어 전경 성분(C)을 최종적으로 획득한다는 것이다. 따라서, 도 2는 배경 성분 및 전경 성분을 계산하기 위한 3개의 상이한 실시예들을 예시하지만, 이들 대안들 각각은 적어도, 분리 이득을 사용하는 오디오 신호 값들의 가중을 포함한다.
후속하여, 도 1b는 가변 분리 임계치에 의존하는 본 발명의 제2 양상을 설명하기 위해 예시된다.
제2 양상을 표현하는 도 1b는 블록 생성(110)으로 입력되는 오디오 신호(100)에 의존하며, 블록 생성기는 연결 라인(122)을 통해 오디오 신호 분석기(120)에 연결된다. 더욱이, 오디오 신호는 추가적인 연결 라인(111)을 통해 직접 오디오 신호 분석기로 입력될 수 있다. 오디오 신호 분석기(120)는, 한편으로는 오디오 신호의 현재 블록의 특성을 결정하고, 부가적으로는 블록들의 그룹 내의 특성의 가변성을 결정하도록 구성되며, 블록들의 그룹은 적어도 2개의 블록들을 포함하고, 바람직하게는 적어도 2개의 선행 블록들 또는 2개의 후속 블록들 또는 적어도 2개의 선행 블록들, 적어도 2개의 후속 블록들 및 현재 블록을 또한 포함한다.
현재 블록의 특성 및 특성의 가변성 둘 모두는 연결 라인(129)을 통해 분리기(130)에 포워딩된다. 이어서, 분리기는, 배경 성분 신호(140) 및 전경 성분 신호(150)를 생성하기 위해 현재 블록을 배경 부분 및 전경 부분으로 분리시키도록 구성된다. 특히, 분리기는 제2 양상에 따라, 오디오 신호 분석기에 의해 결정된 가변성에 기초하여 분리 임계치를 결정하며, 현재 블록의 특성이 분리 임계치와 미리 결정된 관계에 있는 경우, 현재 블록을 배경 성분 신호 부분 및 전경 성분 신호 부분으로 분리시키도록 구성된다. 그러나, 현재 블록의 특성이 (가변) 분리 임계치와 미리 결정된 관계에 있지 않은 경우, 현재 블록의 어떠한 분리도 수행되지 않으며, 전체 현재 블록이 포워딩되거나 또는 배경 성분 신호(140)로서 사용 또는 할당된다.
구체적으로, 분리기(130)는, 제1 가변성에 대한 제1 분리 임계치 및 제2 가변성에 대한 제2 분리 임계치를 결정하도록 구성되며, 여기서, 제1 분리 임계치는 제2 분리 임계치보다 낮고, 제1 가변성은 제2 가변성보다 낮으며, 미리 결정된 관계는 "보다 크다".
일 예가 도 4c의 좌측 부분에 예시되며, 여기서, 제1 분리 임계치가 401에서 표시되고, 제2 분리 임계치가 402에서 표시되고, 제1 가변성이 501에서 표시되며, 제2 가변성이 502에서 표시된다. 특히, 분리 임계치를 표현하는 상위 구분별(piecewise) 선형 함수(410)에 대한 참조가 이루어지는 반면, 도 4c의 하위 구분별 선형 함수(412)는 이후에 설명될 릴리즈(release) 임계치를 예시한다. 도 4c는 증가하는 가변성들에 대해, 증가하는 임계치들이 결정되도록 하는 임계치들이 존재하는 상황을 예시한다. 그러나, 예를 들어, 도 4c의 임계치 값들에 대한 역 임계치 값들이 취해지는 그러한 방식으로 상황이 구현될 경우, 분리기가 제1 가변성에 대한 제1 분리 임계치 및 제2 가변성에 대한 제2 분리 임계치를 결정하도록 구성되게 하는 상황이 존재하며, 여기서, 제1 분리 임계치는 제2 분리 임계치보다 크고, 제1 가변성은 제2 가변성보다 크고, 이러한 상황에서, 미리 결정된 관계는, 도 4c에 예시된 제1 대안에서와 같은 "보다 높음"보다는 "보다 낮다".
특정한 구현들에 의존하여, 분리기(130)는, 도 4c의 좌측 부분 또는 우측 부분에 예시된 함수들이 저장되어 있는 테이블 액세스를 사용하여 또는 제1 분리 임계치(401)와 제2 분리 임계치(402) 사이를 보간하는 단조 보간 함수에 따라 (가변) 분리 임계치를 결정하여, 제3 가변성(503)에 대해 제3 분리 임계치(403)가 획득되고 제4 가변성(504)에 대해 제4 임계치가 획득되도록 구성되며, 여기서, 제1 분리 임계치(401)는 제1 가변성(501)과 연관되고, 제2 분리 임계치(402)는 제2 가변성(502)과 연관되고, 제3 및 제4 가변성들(503, 504)은 그들의 값들에 관해, 제1 및 제2 가변성들 사이에 위치되며, 제3 및 제4 분리 임계치들(403, 404)은 그들의 값들에 관해, 제1 및 제2 분리 임계치들(401, 402) 사이에 위치된다.
도 4c의 좌측 부분에 예시된 바와 같이, 단조 보간은 선형 함수이거나, 또는 도 4c의 우측 부분에 예시된 바와 같이, 단조 보간 함수는 1보다 큰 차수를 갖는 삼차 함수(cube function) 또는 임의의 멱함수(power function)이다.
도 6은 박수 신호 분리, 프로세싱 및 프로세싱된 신호들의 합성의 최상위-레벨 블록 다이어그램을 도시한다.
특히, 도 6에 상세히 예시된 분리 스테이지(600)는 입력 오디오 신호(a(t))를 배경 신호(n(t)) 및 전경 신호(c(t))로 분리시키며, 배경 신호는 배경 프로세싱 스테이지(602)로 입력되고, 전경 신호는 전경 프로세싱 스테이지(604)로 입력되며, 프로세싱에 후속하여, 신호들(n'(t) 및 c'(t)) 둘 모두는 프로세싱된 신호(a'(t))를 최종적으로 획득하도록 결합기(606)에 의해 결합된다.
바람직하게, 뚜렷하게 인지가능한 박수소리들(c(t)) 및 더 잡음형인 배경 신호들(n(t))로의 입력 신호(a(t))의 신호 분리/분해에 기초하여, 분해된 신호 부분들의 개별적인 프로세싱이 실현된다. 프로세싱 이후, 수정된 전경 및 배경 신호들(c'(t) 및 n'(t))이 재합성되어 출력 신호(a'(t))를 발생시킨다.
도 1c는 선호된 박수 분리 스테이지의 최상위-레벨 다이어그램을 예시한다. 박수 모델은 수학식 1에서 주어지고 도 1f에 예시되며, 여기서, 박수 신호(A(k,n))는 뚜렷하고 개별적으로 인지가능한 전경 박수소리들(C(k,n)) 및 더 잡음형인 배경 신호(N(k,n))의 중첩으로 이루어진다. 신호들은 높은 시간 해상도를 갖는 주파수 도메인에서 고려되지만, k 및 n은, 각각 짧은-시간 주파수 변환의 별개의 주파수 k 및 시간 n 인덱스들을 나타낸다.
특히, 도 1c의 시스템은, 블록 생성기로서의 DFT 프로세서(110), 도 1a 또는 도 1b의 오디오 신호 분석기(120) 및 분리기(130)의 기능들 및 가중기(152)와 같은 추가적인 신호 분리기 스테이지들을 가져서, 도 2의 단계(206)에 관해 논의된 기능을 수행하는 전경 검출기, 및 도 2의 단계(210)에 예시된 기능을 구현하는 감산기(154)를 예시한다. 더욱이, 대응하는 주파수 도메인 표현으로부터, 시간 도메인 전경 신호(c(t))와 배경 신호(n(t))를 합성하는 신호 합성기가 제공되며, 여기서, 신호 합성기는 각각의 신호 성분에 대해, DFT 블록(160a, 160b)을 포함한다.
박수 입력 신호(a(t)), 즉 배경 성분들 및 박수 성분들을 포함하는 입력 신호는 신호 스위치(도 1c에 도시되지 않음) 뿐만 아니라 전경 검출기(150)로 공급되며, 여기서, 신호 특성들에 기초하여, 전경 박수소리들에 대응하는 프레임들이 식별된다. 검출기 스테이지(150)는, 신호 스위치로 공급되는 분리 이득(gs (n))을 출력하며, 뚜렷하고 개별적으로 인지가능한 박수소리 신호(C(k,n)) 및 더 잡음형인 신호(N(k,n))로 라우팅되는 신호 양들을 제어한다. 신호 스위치는 제2 양상에 따라, 바이너리 스위치, 즉 특정한 프레임 또는 시간/주파수 타일, 즉 특정한 프레임의 특정한 주파수 빈만이 C 또는 N 중 어느 하나로 라우팅되는 것을 예시하기 위해 블록(170)에 예시된다. 제1 양상에 따르면, 이득은 스펙트럼 표현(A(k,n))의 각각의 프레임 또는 수개의 주파수 빈들을 전경 성분 및 배경 성분으로 분리시키기 위해 사용되어서, 제1 양상에 따른 블록 특성과 평균 특성 사이의 비율에 의존하는 이득(gs (n))에 따라, 전체 프레임 또는 적어도 하나 이상의 시간/주파수 타일들 또는 주파수 빈들이 분리되어, 신호들(C 및 N) 각각 내의 대응하는 빈은 동일한 값을 갖지만 상이한 진폭을 가지며, 여기서, 진폭들의 관계는 gs(n)에 의존한다.
도 1d는, 오디오 신호 분석기의 기능들을 구체적으로 예시하는 전경 검출기(150)의 더 상세한 실시예를 예시한다. 일 실시예에서, 오디오 신호 분석기는 도 1c의 DFT(이산 푸리에 변환) 블록(110)을 갖는 블록 생성기에 의해 생성된 스펙트럼 표현을 수신한다. 더욱이, 오디오 신호 분석기는 블록(170)에서 특정한 미리 결정된 크로스-오버(cross-over) 주파수를 이용하여 고역 통과 필터링을 수행하도록 구성된다. 이어서, 도 1a 또는 도 1b의 오디오 신호 분석기(120)는 블록(172)에서 에너지 추출 절차를 수행한다. 에너지 추출 절차는 현재 블록의 인스턴트 또는 현재 에너지(
Figure pct00005
) 및 평균 에너지(
Figure pct00006
)를 초래한다.
이어서, 도 1a 또는 도 1b의 신호 분리기(130)는 180에서 예시된 바와 같이 비율을 결정하며, 그리고 부가적으로, 적응적 또는 비-적응적 임계치를 결정하고, 대응하는 임계화 연산(182)을 수행한다.
더욱이, 제2 양상에 따른 적응적 임계화 연산이 수행될 경우, 오디오 신호 분석기는 부가적으로, 블록(174)에서 예시된 바와 같이 엔벨로프 가변성 추정을 수행하며, 아래에서 설명될 바와 같이, 가변성 측정(v(n))은 분리기, 및 특히 적응적 임계화 프로세싱 블록(182)으로 포워딩되어, 이득(gs(n))을 최종적으로 획득한다.
전경 신호 검출기의 내부들의 흐름도가 도 1d에 도시된다. 상부 경로만이 고려되면, 이것은 적응적 임계화가 없는 경우에 대응하지만, 하부 경로가 또한 고려되면, 적응적 임계화가 가능하다. 전경 신호 검출기로 공급된 신호는 고역 통과 필터링되며, 그의 평균(
Figure pct00007
) 및 순시(
Figure pct00008
) 에너지가 추정된다. 신호(X(k, n))의 순시 에너지들은
Figure pct00009
에 의해 주어지며, 여기서,
Figure pct00010
는 벡터 놈(vector norm)을 나타내고, 평균 에너지는,
Figure pct00011
에 의해 주어지며, 여기서, w(n)은 순시 에너지 추정들에 적용되고 윈도우 길이 Lw = 2M + 1을 갖는 가중 윈도우를 나타낸다. 별개의 박수소리가 입력 신호 내에서 활성인지 여부에 관한 표시로서, 순시 및 평균 에너지의 에너지 비율(
Figure pct00012
)은 다음에 따라 사용된다.
Figure pct00013
적응적 임계화가 없는 더 간단한 경우에서, 에너지 비율이 공격(attack) 임계치(
Figure pct00014
)를 초과하는 시간 인스턴스의 경우, 입력 신호로부터 뚜렷한 박수소리 부분을 추출하는 분리 이득이 1로 세팅되며; 결과적으로, 잡음형 신호가 이들 시간 인스턴스들에서 제로이다. 하드(hard) 신호 스위칭을 갖는 시스템의 블록 다이어그램이 도 1e에 도시된다. 잡음형 신호에서 신호 드롭 아웃(drop out)들을 피할 필요가 있다면, 보정 항(correction term)이 이득으로부터 감산될 수 있다. 양호한 시작점은 입력 신호의 평균 에너지가 잡음형 신호 내에 남아있게 하는 것이다. 이것은 이득으로부터
Figure pct00015
또는
Figure pct00016
를 감산함으로써 행해진다. 평균 에너지의 양은 또한, 얼마나 많은 평균 에너지가 잡음형 신호 내에 남아있는지를 제어하는 이득 gN≥0을 도입함으로써 제어될 수 있다. 이것은 다음과 같은 분리 이득의 일반적인 형태를 유도한다:
Figure pct00017
추가적인 실시예에서, 위의 수학식은 다음의 수학식으로 대체된다:
Figure pct00018
유의:
Figure pct00019
이면, 뚜렷한 박수소리로 라우팅되는 신호의 양은 에너지 비율(
Figure pct00020
) 및 고정된 이득(gN)에만 의존하여, 신호 의존적 연판정(soft decision)을 산출한다. 매우 양호하게 튜닝된 시스템에서, 에너지 비율이 공격 임계치들을 초과하는 시간 기간은 실제 트랜션트 이벤트만을 포착한다. 일부 경우들에서, 공격이 발생된 이후 더 긴 시간 기간의 프레임들을 추출하는 것이 바람직할 수 있다. 이것은, 예를 들어, 분리 이득이 다시 제로로 세팅되기 전에 공격 이후 에너지 비율 (
Figure pct00021
)이 감소해야 하는 레벨을 표시하는 릴리즈 임계치(
Figure pct00022
)를 도입함으로써 다음과 같이 행해질 수 있다.
Figure pct00023
추가적인 실시예에서, 직전의 수학식은 다음의 수학식으로 대체된다:
Figure pct00024
대안적이지만 더 정적인 방법은, 검출된 공격 이후 특정한 수의 프레임들을 뚜렷한 박수소리 신호로 간단히 라우팅하는 것이다.
임계화의 유연성을 증가시키기 위해, 임계치들은 신호 적응적 방식으로 선택되어,
Figure pct00025
Figure pct00026
을 각각 초래할 수 있다. 임계치들은, 박수 입력 신호의 엔벨로프의 가변성의 추정에 의해 제어되며, 여기서, 높은 가변성은 뚜렷하고 개별적으로 인지가능한 박수소리들의 존재를 표시하고, 다소 낮은 가변성은 더 잡음형이고 정적인 신호를 표시한다. 가변성 추정은 시간 도메인 뿐만 아니라 주파수 도메인에서 행해질 수 있다. 이러한 경우, 바람직한 방법은 주파수 도메인에서 추정을 행하는 것이며:
Figure pct00027
여기서,
Figure pct00028
는 분산 연산을 나타낸다. 더 안정된 신호를 산출하기 위해, 추정된 가변성은 저역 통과 필터링에 의해 평활화되어, 다음과 같은 최종 엔벨로프 가변성 추정을 산출하며,
Figure pct00029
여기서, *는 콘볼루션(convolution)을 나타낸다. 엔벨로프 가변성의 대응하는 임계치 값들로의 맵핑은, 다음과 같도록 맵핑 함수들 fattack(x) 및 frelease(x)에 의해 행해질 수 있다:
Figure pct00030
일 실시예에서, 맵핑 함수는 임계치들의 선형 보간에 대응하는 클립핑(clip)된 선형 함수들로서 실현될 수 있다. 이러한 시나리오에 대한 구성은 도 4c에 도시된다. 더욱이, 일반적으로 더 높은 차수를 갖는 삼차(cubic) 맵핑 함수 또는 함수들이 또한 사용될 수 있다. 특히, 안장점(saddle point)들은 희박한 박수 및 조밀한 박수에 대해 정의된 값들 사이의 가변성 값들에 대한 여분의 임계치 레벨들을 정의하기 위해 사용될 수 있다. 이것은 도 4c의 우측에 예시적으로 예시된다.
분리된 신호들은 다음에 의해 획득된다:
Figure pct00031
도 1f는 도 1a 및 도 1b의 기능 블록들과 관련하여 그리고 개관으로, 위에서 논의된 수학식들을 예시한다.
더욱이, 도 1f는, 특정한 실시예에 의존하여, 단일 임계치 또는 이중 임계치가 적용되거나, 어떠한 임계치도 적용되지 않는 상황을 예시한다.
더욱이, 도 1f의 수학식들 (7) 내지 (9)에 관해 예시된 바와 같이, 적응적 임계치들이 사용될 수 있다. 당연히, 어느 하나의 단일 임계치가 단일 적응적 임계치로서 사용된다. 이어서, 수학식 (8)만이 활성일 것이고, 수학식 (9)는 활성이 아닐 것이다. 그러나, 특정한 바람직한 실시예에서 이중의 적응적 임계화를 수행하여, 제1 양상 및 제2 양상의 특징들을 함께 구현하는 것이 바람직하다.
더욱이, 도 7 및 도 8은, 본 발명이 본 발명의 특정한 애플리케이션을 어떻게 구현할지 있는지에 관한 추가적인 구현들을 예시한다.
특히, 도 7의 좌측 부분은, 배경 성분 신호 또는 전경 성분 신호의 신호 특성을 측정하기 위한 신호 특성 측정기(700)를 예시한다. 특히, 신호 특성 측정(700)은, 전경 성분 신호를 사용하는 전경 밀도 계산기를 예시하는 블록(702)에서 전경 밀도를 결정하도록 구성되거나, 또는 대안적으로 또는 부가적으로, 신호 특성 측정기는, 오리지널(original) 입력 신호(a(t))와 관련된 전경의 비(fraction)를 계산하는 전경 현저성(prominence) 계산기(704)를 사용하여 전경 현저성 계산을 수행하도록 구성된다.
대안적으로, 도 7의 우측 부분에 예시된 바와 같이, 전경 프로세서(604) 및 배경 프로세서(602)가 존재하며, 여기서, 이들 프로세서들은 도 6과는 반대로, 도 7의 좌측 부분에 의해 도출된 메타데이터일 수 있거나 또는 전경 프로세싱 및 배경 프로세싱을 수행하기 위한 임의의 다른 유용한 메타데이터일 수 있는 특정한 메타데이터(
Figure pct00032
)에 의존한다.
분리된 박수 신호 부분들은, 트랜션트 신호들의 특정한(지각적으로 동기부여된) 특성들이 측정될 수 있는 측정 스테이지들로 공급될 수 있다. 그러한 사용 경우에 대한 예시적인 구성이 도 7a에 도시되며, 여기서, 뚜렷하고 개별적으로 인지가능한 전경 박수소리들의 밀도 뿐만 아니라 총 신호 에너지에 관한 전경 박수소리들의 에너지 비가 추정된다.
전경 밀도(
Figure pct00033
)를 추정하는 것은 초당 이벤트 레이트, 즉 초당 검출된 박수소리들의 수를 카운팅함으로써 행해질 수 있다. 전경 현저성(
Figure pct00034
)은 다음과 같이, 추정된 전경 박수소리 신호(C(n) 및 A(n))의 에너지 비율에 의해 주어진다:
Figure pct00035
측정된 신호 특성들의 복원의 블록 다이어그램이 도 7b에 도시되며, 여기서,
Figure pct00036
및 파선들은 사이드 정보를 나타낸다.
이전의 실시예에서, 신호 특성만이 측정되었지만, 시스템은 신호 특성들을 수정하는 데 사용된다. 일 실시예에서, 전경 프로세싱은 감소된 수의 검출된 전경 박수소리들을 출력하여, 더 낮은 밀도의 결과적인 출력 신호를 향한 밀도 수정을 초래할 수 있다. 다른 실시예에서, 전경 프로세싱은, 예를 들어, 지연된 버전의 전경 박수소리 신호를 그 자체에 부가함으로써, 증가된 수의 전경 박수소리들을 출력하여, 증가된 밀도를 향한 밀도 수정을 초래할 수 있다. 더욱이, 개개의 프로세싱 스테이지들에서 가중치들을 적용함으로써, 전경 박수소리들 및 잡음형인 배경의 밸런스가 수정될 수 있다. 부가적으로, 경로들 둘 모두에서 필터링, 잔향 부가, 지연 등과 같은 임의의 프로세싱은 박수 신호의 특성들을 수정하는 데 사용될 수 있다.
더욱이, 도 8은, 송신 또는 저장을 위해 전경 성분 신호의 인코딩된 표현 및 배경 성분 신호의 별개의 인코딩된 표현을 획득하기 위하여 전경 성분 신호 및 배경 성분 신호를 인코딩하기 위한 인코더 스테이지에 관한 것이다. 특히, 전경 인코더가 801에 예시되고, 배경 인코더가 802에 예시된다. 별개로 인코딩된 표현들(804 및 806)은, 별개의 표현들을 최종적으로 디코딩하는 전경 디코더(810) 및 배경 디코더(812)로 이루어진 디코더-측 디바이스(808)에 포워딩되며, 이어서, 디코딩된 표현들은 디코딩된 신호(a'(t))를 최종적으로 출력하도록 결합기(606)에 의해 결합된다.
후속하여, 추가적인 바람직한 실시예들이 도 3에 관해 논의된다. 특히, 도 3은 시간 라인(300) 상에서 주어진 입력 오디오 신호의 개략적인 표현을 예시하며, 여기서, 개략적인 표현은 시간적으로 중첩하는 블록들의 상황을 예시한다. 도 3에 예시된 것은 50%의 중첩 범위(302)가 존재하는 상황이다. 50% 초과 또는 50% 미만의 중첩 범위들(여기서, 50% 미만의 부분들만이 중첩함)을 갖는 다중첩 범위들과 같은 다른 중첩 범위들이 또한 사용가능하다.
도 3의 실시예에서, 블록은 통상적으로, 높은 시간 해상도를 획득하기 위해, 600개 미만의 샘플링 값들 및 바람직하게는 오직 256개 또는 오직 128개의 샘플링 값들만을 갖는다.
예시적으로 예시된 중첩 블록들은, 예를 들어, 선행 블록(303) 또는 후속 블록(305)과 중첩 범위 내에서 중첩하는 현재 블록(304)으로 이루어진다. 따라서, 블록들의 그룹이 적어도 2개의 선행 블록들을 포함할 경우, 이러한 블록들의 그룹은 현재 블록(304)에 관한 선행 블록(303), 및 도 3에서 차수 3으로 표시된 추가적인 선행 블록으로 이루어진다. 더욱이 그리고 유사하게, 블록들의 그룹이 (시간 상) 적어도 2개의 후속 블록을 포함할 경우, 이들 2개의 후속 블록들은 차수 6으로 표시된 후속 블록(305) 및 차수 7로 예시된 추가적인 블록 7을 포함할 것이다.
이들 블록들은, 예를 들어, 이전에 언급된 DFT 또는 FFT(고속 푸리에 변환)와 같은 시간-스펙트럼 변환을 또한 바람직하게 수행하는 블록 생성기(110)에 의해 형성된다.
시간-스펙트럼 변환의 결과는 스펙트럼 블록들 I 내지 VIII의 시퀀스이며, 여기서, 블록(110) 아래의 도 3에 예시된 각각의 스펙트럼 블록은 시간 라인(300)의 8개의 블록들 중 하나에 대응한다.
바람직하게, 분리는 이어서, 주파수 도메인에서, 즉 스펙트럼 표현을 사용하여 수행되며, 여기서 오디오 신호 값들은 스펙트럼 값들이다. 분리에 후속하여, 다시 한번 블록들 I 내지 VIII으로 이루어진 전경 스펙트럼 표현 및 I 내지 VIII으로 이루어진 배경 표현이 획득된다. 당연히 그리고 임계화 연산에 의존하여, 분리(130)에 후속하는 전경 표현의 각각의 블록이 제로와는 상이한 값들을 반드시 가질 필요는 없다. 그러나, 바람직하게, 배경 성분의 스펙트럼 표현의 각각의 블록이 배경 신호 성분에서 에너지의 드롭 아웃을 피하기 위해 제로와는 상이한 값들을 갖는다는 것이 적어도 본 발명의 제1 양상에 의해 확인된다.
각각의 성분, 즉 전경 성분 및 배경 성분에 대해, 스펙트럼-시간 변환이 도 1c의 맥락에서 논의되었던 바와 같이 수행되며, 중첩 범위(302)에 관한 후속 페이드-아웃(fade-out)/페이드-인(fade-in)은, 전경 및 배경 성분들에 대해 블록(161a) 및 블록(161b)에서 각각 예시된 바와 같이 성분들 둘 모두에 대해 수행된다. 따라서, 결국, 전경 신호 및 배경 신호 둘 모두는 분리 이전에 오리지널 오디오 신호와 동일한 길이 L을 갖는다.
바람직하게, 도 4b에 예시된 바와 같이, 가변성들 또는 임계치들을 계산하는 분리기(130)가 평활화된다.
특히, 단계(400)는 블록(400)에 예시된 바와 같이, 현재 블록에 대한 블록 특성과 평균 특성 사이의 비율 또는 일반적인 특성의 결정을 예시한다.
블록(402)에서, 원시 가변성이 현재 블록에 관해 계산된다. 블록(404)에서, 선행 또는 후속 블록들에 대한 원시 가변성들은, 블록(402 및 404)의 출력에 의해 원시 가변성들의 시퀀스를 획득하도록 계산된다. 블록(406)에서, 시퀀스가 평활화된다. 따라서, 블록(406)의 출력에서, 가변성들의 평활화된 시퀀스가 존재한다. 평활화된 시퀀스의 가변성들은 블록(408)에 예시된 바와 같이 대응하는 적응적 임계치들에 맵핑되어, 현재 블록에 대한 가변 임계치를 획득한다.
대안적인 실시예가 도 4b에 예시되며, 여기서, 가변성들을 평활화하는 것과는 반대로, 임계치들이 평활화된다. 이를 위해, 다시 한번, 현재 블록에 대한 특성/비율이 블록(400)에 예시된 바와 같이 결정된다.
블록(403)에서, 가변성들의 시퀀스는, 예를 들어, 정수 m에 의해 표시된 각각의 현재 블록에 대한 도 1f의 수학식 6을 사용하여 계산된다.
블록(405)에서, 가변성들의 시퀀스는 수학식 8 및 수학식 9에 따라 원시 임계치들의 시퀀스에 맵핑되지만, 도 1f의 수학식 7과는 반대로 비-평활화된 가변성들과 맵핑된다.
블록(407)에서, 원시 임계치들의 시퀀스는, 현재 블록에 대한 (평활화된) 임계치를 최종적으로 획득하기 위해 평활화된다.
후속하여, 도 5는 블록들의 그룹 내의 특성의 가변성을 계산하기 위한 상이한 방식들을 예시하기 위해 더 상세히 논의된다.
다시 한번, 단계(500)에서, 현재 블록 특성과 평균 블록 특성 사이의 특성 또는 비율이 계산된다.
단계(502)에서, 블록들의 그룹에 대한 특성들/비율들에 걸친 평균 또는 일반적으로는 기대값이 계산된다.
블록(504)에서, 특성들/비율들과 평균값/기대값 사이의 차이들이 계산되며, 블록(506)에 예시된 바와 같이, 차이들 또는 차이들로부터 도출된 특정한 값들의 가산이 바람직하게는 정규화를 이용하여 수행된다. 제곱된 차이들이 가산되는 경우, 단계들(502, 504, 506)의 시퀀스는 수학식 6에 관해 서술되었던 바와 같이 분산의 계산을 반영한다. 그러나, 예를 들어, 차이들의 크기들 또는 2와는 상이한 차이들의 다른 거듭제곱들이 함께 가산될 경우, 특성들과 평균/기대값 사이의 차이들로부터 도출된 상이한 통계 값이 가변성으로서 사용된다.
그러나, 대안적으로, 단계(508)에 예시된 바와 같이, 인접한 블록들에 대한 시간-후속 특성들/비율들 사이의 차이들이 또한 계산되어 가변성 측정으로서 사용된다. 따라서, 블록(508)은, 평균값에 의존하는 것이 아니라 블록마다의 변화에 의존하는 가변성을 결정하며, 여기서, 도 6에 예시된 바와 같이, 인접한 블록들에 대한 특성들 사이의 차이들은 제곱된 것, 그들의 크기들 또는 그들의 거듭제곱들 중 어느 하나와 함께 가산되어, 분산과는 상이한 가변성으로부터의 다른 값을 최종적으로 획득할 수 있다. 도 5에 관해 논의되었던 것과는 상이한 다른 가변성 측정들이 또한 사용될 수 있다는 것은 당업자들에게 명백하다.
후속하여, 아래의 예들과는 별개로 또는 아래의 예들 중 임의의 예와 조합하여 사용될 수 있는 실시예들의 예들이 정의된다:
실시예 1. 오디오 신호(100)를 배경 성분 신호(140) 및 전경 성분 신호(150)로 분해하기 위한 장치로서,
오디오 신호 값들의 블록들의 시간 시퀀스를 생성하기 위한 블록 생성기(110);
오디오 신호의 현재 블록의 블록 특성을 결정하고, 블록들의 그룹에 대한 평균 특성을 결정하기 위한 오디오 신호 분석기(120) ― 블록들의 그룹은 적어도 2개의 블록들을 포함함 ―; 및
현재 블록의 블록 특성과 블록들의 그룹의 평균 특성의 비율에 응답하여 현재 블록을 배경 부분 및 전경 부분으로 분리시키기 위한 분리기(130)를 포함하며,
배경 성분 신호(140)는 현재 블록의 배경 부분을 포함하고, 전경 성분 신호(150)는 현재 블록의 전경 부분을 포함하는, 오디오 신호(100)를 배경 성분 신호(140) 및 전경 성분 신호(150)로 분해하기 위한 장치.
실시예 2. 실시예 1에 있어서,
오디오 신호 분석기는, 현재 블록의 특성으로서 진폭-관련 측정을 분석하고, 블록들의 그룹에 대한 평균 특성으로서 진폭-관련 특성을 분석하도록 구성되는, 오디오 신호(100)를 배경 성분 신호(140) 및 전경 성분 신호(150)로 분해하기 위한 장치.
실시예 3. 실시예 1 또는 실시예 2에 있어서,
오디오 신호 분석기(120)는, 현재 블록에 대한 전력 측정 또는 에너지 측정을 분석하고, 블록들의 그룹에 대한 평균 전력 측정 또는 평균 에너지 측정을 분석하도록 구성되는, 오디오 신호(100)를 배경 성분 신호(140) 및 전경 성분 신호(150)로 분해하기 위한 장치.
실시예 4. 실시예 1 내지 실시예 3 중 어느 하나의 실시예에 있어서,
분리기(130)는, 비율로부터 분리 이득을 계산하고, 분리 이득을 사용하여 현재 블록의 오디오 신호 값들을 가중시켜 현재 프레임의 전경 부분을 획득하며, 배경 성분을 결정해서, 배경 신호가 나머지 신호를 구성하도록 구성되거나, 또는
분리기는, 비율로부터 분리 이득을 계산하고, 분리 이득을 사용하여 현재 블록의 오디오 신호 값들을 가중시켜 현재 프레임의 배경 부분을 획득하며, 전경 성분을 결정해서, 전경 성분 신호가 나머지 신호를 구성하도록 구성되는, 오디오 신호(100)를 배경 성분 신호(140) 및 전경 성분 신호(150)로 분해하기 위한 장치.
실시예 5. 실시예 1 내지 실시예 4 중 어느 하나의 실시예에 있어서,
분리기(130)는, 제로와는 상이한 미리 결정된 가중 인자를 사용하여 비율을 가중시키는 것을 사용해서 분리 이득을 계산하도록 구성되는, 오디오 신호(100)를 배경 성분 신호(140) 및 전경 성분 신호(150)로 분해하기 위한 장치.
실시예 6. 실시예 5에 있어서,
분리기(130)는, 항
Figure pct00037
을 사용하여 분리 이득을 계산하도록 구성되며,
gN은 미리 결정된 인자이고,
Figure pct00038
는 비율이고, p는 제로보다 크고 정수 또는 비-정수인 거듭제곱이고, n은 블록 인덱스이고, max는 최대 함수인, 오디오 신호(100)를 배경 성분 신호(140) 및 전경 성분 신호(150)로 분해하기 위한 장치.
실시예 7. 실시예 1 내지 실시예 6 중 어느 하나의 실시예에 있어서,
분리기(130)는, 현재 블록의 비율이 임계치와 미리 결정된 관계에 있는 경우, 현재 블록의 비율을 임계치와 비교하고 현재 블록을 분리시키도록 구성되고,
분리기(130)는 추가적인 블록을 분리시키지 않도록 구성되며,
추가적인 블록은 임계치와의 미리 결정된 관계를 갖지 않는 비율을 가져서, 추가적인 블록은 배경 성분 신호(140)에 완전히 속하는, 오디오 신호(100)를 배경 성분 신호(140) 및 전경 성분 신호(150)로 분해하기 위한 장치.
실시예 8. 실시예 7에 있어서,
분리기(130)는, 시간 상 현재 블록에 후속하는 후속 블록을, 후속 블록의 비율을 추가적인 릴리즈(release) 임계치와 비교하는 것을 사용하여 분리시키도록 구성되며,
추가적인 릴리즈 임계치는, 임계치와 미리 결정된 관계에 있지 않는 블록 비율이 추가적인 릴리즈 임계치와 미리 결정된 관계에 있도록 세팅되는, 오디오 신호(100)를 배경 성분 신호(140) 및 전경 성분 신호(150)로 분해하기 위한 장치.
실시예 9. 실시예 8에 있어서,
미리 결정된 관계는 "보다 큰 것"이고, 릴리즈 임계치는 분리 임계치보다 낮거나, 또는
미리 결정된 관계는 "보다 낮은 것"이고, 릴리즈 임계치는 분리 임계치보다 큰, 오디오 신호(100)를 배경 성분 신호(140) 및 전경 성분 신호(150)로 분해하기 위한 장치.
실시예 10. 실시예 1 내지 실시예 9 중 어느 하나의 실시예에 있어서,
블록 생성기(110)는 오디오 신호 값들의 시간적으로 중첩하는 블록들을 결정하도록 구성되거나, 또는
시간적으로 중첩하는 블록들은 600보다 작거나 또는 그와 동일한 다수의 샘플링 값들을 갖는, 오디오 신호(100)를 배경 성분 신호(140) 및 전경 성분 신호(150)로 분해하기 위한 장치.
실시예 11. 실시예 1 내지 실시예 10 중 어느 하나의 실시예에 있어서,
블록 생성기는, 각각의 블록에 대한 스펙트럼 표현을 획득하기 위해 시간 도메인 오디오 신호의 주파수 도메인으로의 블록-단위(block-wise) 변환을 수행하도록 구성되며,
오디오 신호 분석기는, 현재 블록의 스펙트럼 표현을 사용하여 특성을 계산하도록 구성되고,
분리기(130)는, 스펙트럼 표현을 배경 부분 및 전경 부분으로 분리시켜, 동일한 주파수에 대응하는 배경 부분 및 전경 부분의 스펙트럼 빈들에 대해, 배경 부분 및 전경 부분 각각이 제로와는 상이한 스펙트럼 값을 갖도록 구성되며,
동일한 주파수 빈 내의 전경 부분의 스펙트럼 값과 배경 부분의 스펙트럼 값의 관계는 비율에 의존하는, 오디오 신호(100)를 배경 성분 신호(140) 및 전경 성분 신호(150)로 분해하기 위한 장치.
실시예 12. 실시예 1 내지 실시예 11 중 어느 하나의 실시예에 있어서,
블록 생성기(110)는, 각각의 블록에 대한 스펙트럼 표현을 획득하기 위해 시간 도메인의 주파수 도메인으로의 블록-단위 변환을 수행하도록 구성되며,
시간 상 인접하는 블록들은 중첩 범위(302)에서 중첩하고,
장치는, 배경 성분 신호를 합성하고 전경 성분 신호를 합성하기 위한 신호 합성기(160a, 161a, 160b, 161b)를 더 포함하며,
신호 합성기는, 배경 성분 신호 및 전경 성분 신호에 대한 주파수-시간 변환(161a, 160a, 160b)을 수행하고, 중첩 범위 내에서 시간 상-인접하는 블록들의 시간 표현들을 크로스-페이딩(cross-fade)(161a, 161b)하여, 시간 도메인 전경 성분 신호 및 별개의 시간 도메인 배경 성분 신호를 획득하도록 구성되는, 오디오 신호(100)를 배경 성분 신호(140) 및 전경 성분 신호(150)로 분해하기 위한 장치.
실시예 13. 실시예 1 내지 실시예 12 중 어느 하나의 실시예에 있어서,
오디오 신호 분석기(120)는, 블록들의 그룹 내의 블록들의 개별 특성들의 가중된 가산을 사용하여 블록들의 그룹에 대한 평균 특성을 결정하도록 구성되는, 오디오 신호(100)를 배경 성분 신호(140) 및 전경 성분 신호(150)로 분해하기 위한 장치.
실시예 14. 실시예 1 내지 실시예 13 중 어느 하나의 실시예에 있어서,
오디오 신호 분석기(120)는, 블록들의 그룹 내의 블록들의 개별 특성들의 가중된 가산을 수행하도록 구성되며,
현재 블록에 시간 상 가까운 블록의 특성에 대한 가중 값은 현재 블록에 시간 상 덜 가까운 추가적인 블록의 특성에 대한 가중 값보다 큰, 오디오 신호(100)를 배경 성분 신호(140) 및 전경 성분 신호(150)로 분해하기 위한 장치.
실시예 15. 실시예 13 또는 실시예 14에 있어서,
오디오 신호 분석기(120)는, 블록들의 그룹이 대응하는 블록 이전에 적어도 20개의 블록들 또는 현재 블록에 후속하여 적어도 20개의 블록들을 포함하도록 블록들의 그룹을 결정하도록 구성되는, 오디오 신호(100)를 배경 성분 신호(140) 및 전경 성분 신호(150)로 분해하기 위한 장치.
실시예 16. 실시예 1 내지 실시예 15 중 어느 하나의 실시예에 있어서,
오디오 신호 분석기는, 블록들의 그룹 내의 블록들의 수에 의존하여 또는 블록들의 그룹 내의 블록들에 대한 가중 값들에 의존하여 정규화 값을 사용하도록 구성되는, 오디오 신호(100)를 배경 성분 신호(140) 및 전경 성분 신호(150)로 분해하기 위한 장치.
실시예 17. 실시예 1 내지 실시예 16 중 어느 하나의 실시예에 있어서,
배경 성분 신호들 또는 전경 성분 신호들 중 적어도 하나의 신호들의 신호 특성을 측정하기 위한 신호 특성 측정기(702, 704)를 더 포함하는, 오디오 신호(100)를 배경 성분 신호(140) 및 전경 성분 신호(150)로 분해하기 위한 장치.
실시예 18. 실시예 17에 있어서,
신호 특성 측정기는, 전경 성분 신호를 사용하여 전경 밀도(702)를 결정하거나, 또는 전경 성분 신호 및 오디오 입력 신호를 사용하여 전경 현저성(prominence)(704)을 결정하도록 구성되는, 오디오 신호(100)를 배경 성분 신호(140) 및 전경 성분 신호(150)로 분해하기 위한 장치.
실시예 19. 실시예 1 내지 실시예 18 중 어느 하나의 실시예에 있어서,
전경 성분 신호는 박수소리(clap) 신호들을 포함하며,
장치는, 박수소리들의 수를 증가시키거나 또는 박수소리들의 수를 감소시킴으로써 또는 전경 성분 신호 또는 배경 성분 신호에 가중치를 적용하여 잡음형 신호인 배경 성분 신호와 전경 박수소리 신호 사이의 에너지 관계를 수정함으로써, 전경 성분 신호를 수정하기 위한 신호 특성 수정기를 더 포함하는, 오디오 신호(100)를 배경 성분 신호(140) 및 전경 성분 신호(150)로 분해하기 위한 장치.
실시예 20. 실시예 1 내지 실시예 19 중 어느 하나의 실시예에 있어서,
오디오 신호의 채널들의 수보다 큰 다수의 출력 채널들을 갖는 표현으로 오디오 신호를 업믹싱(upmix)하기 위한 블라인드 업믹서(blind upmixer)를 더 포함하며,
업믹서는, 전경 성분 신호를 출력 채널들로 공간적으로 분배하고 ― 다수의 출력 채널들 내의 전경 성분 신호는 상관됨 ―, 배경 성분 신호를 출력 채널들로 스펙트럼적으로 분배하도록 구성되고,
출력 채널들 내의 배경 성분 신호들은 전경 성분 신호들보다 덜 상관되거나, 또는 서로 상관되지 않는, 오디오 신호(100)를 배경 성분 신호(140) 및 전경 성분 신호(150)로 분해하기 위한 장치.
실시예 21. 실시예 1 내지 실시예 20 중 어느 하나의 실시예에 있어서,
송신 또는 저장 또는 디코딩을 위해 전경 성분 신호의 인코딩된 표현(804) 및 배경 성분 신호(806)의 별개의 인코딩된 표현을 획득하기 위하여 전경 성분 신호 및 배경 성분 신호를 별개로 인코딩하기 위한 인코더 스테이지(801, 802)를 더 포함하는, 오디오 신호(100)를 배경 성분 신호(140) 및 전경 성분 신호(150)로 분해하기 위한 장치.
실시예 22. 오디오 신호(100)를 배경 성분 신호(140) 및 전경 성분 신호(150)로 분해하는 방법으로서,
오디오 신호 값들의 블록들의 시간 시퀀스를 생성하는 단계(110);
오디오 신호의 현재 블록의 블록 특성을 결정하고, 블록들의 그룹에 대한 평균 특성을 결정하는 단계(120) ― 블록들의 그룹은 적어도 2개의 블록들을 포함함 ―; 및
현재 블록의 블록 특성과 블록들의 그룹의 평균 특성의 비율에 응답하여 현재 블록을 배경 부분 및 전경 부분으로 분리시키는 단계(130)를 포함하며,
배경 성분 신호(140)는 현재 블록의 배경 부분을 포함하고, 전경 성분 신호(150)는 현재 블록의 전경 부분을 포함하는, 오디오 신호(100)를 배경 성분 신호(140) 및 전경 성분 신호(150)로 분해하는 방법.
후속하여, 위의 예들과는 별개로 또는 위의 예들 중 임의의 예와 조합하여 사용될 수 있는 추가적인 예들이 정의된다:
실시예 1. 오디오 신호를 배경 성분 신호 및 전경 성분 신호로 분해하기 위한 장치로서,
오디오 신호 값들의 블록들의 시간 시퀀스를 생성하기 위한 블록 생성기(110);
오디오 신호의 현재 블록의 특성을 결정하고, 블록들의 시퀀스 중 적어도 2개의 블록들을 포함하는 블록들의 그룹 내에서 특성의 가변성(variability)을 결정하기 위한 오디오 신호 분석기(120); 및
현재 블록을 배경 부분(140) 및 전경 부분(150)으로 분리시키기 위한 분리기(130)를 포함하며,
분리기(130)는, 가변성에 기초하여 분리 임계치를 결정(182)하며, 현재 블록의 특성이 분리 임계치와 미리 결정된 관계에 있는 경우, 현재 블록을 배경 성분 신호(140) 및 전경 성분 신호(150)로 분리시키거나, 또는 현재 블록의 특성이 분리 임계치와 미리 결정된 관계에 있는 경우, 전체 현재 블록을 전경 성분 신호로서 결정하거나, 또는 현재 블록의 특성이 분리 임계치와 미리 결정된 관계에 있지 않은 경우, 전체 현재 블록을 배경 성분 신호로서 결정하도록 구성되는, 오디오 신호를 배경 성분 신호 및 전경 성분 신호로 분해하기 위한 장치.
실시예 2. 실시예 1에 있어서,
분리기(130)는, 제1 가변성(501)에 대한 제1 분리 임계치(401)를 결정하고 제2 가변성(502)에 대한 제2 분리 임계치(402)를 결정하도록 구성되며,
제1 분리 임계치(401)는 제2 분리 임계치(402)보다 낮고, 제1 가변성(501)은 제2 가변성(502)보다 낮으며, 미리 결정된 관계는 크거나, 또는 제1 분리 임계치는 제2 분리 임계치보다 크고, 제1 가변성은 제2 가변성(502)보다 낮으며, 미리 결정된 관계는 낮은, 오디오 신호를 배경 성분 신호 및 전경 성분 신호로 분해하기 위한 장치.
실시예 3. 실시예 1 또는 실시예 2에 있어서,
분리기(130)는, 제1 분리 임계치(401)와 제2 분리 임계치(402) 사이를 보간하는 단조 보간 함수를 사용하여 또는 테이블 액세스를 사용하여 분리 임계치를 결정해서, 제3 가변성(503)에 대해 제3 분리 임계치(403)가 획득되고, 제4 가변성(504)에 대해 제4 분리 임계치(404)가 획득되도록 구성되며,
제1 분리 임계치(401)는 제1 가변성(501)과 연관되고, 제2 분리 임계치(402)는 제2 가변성(502)과 연관되고,
제3 가변성(503) 및 제4 가변성은 그들의 값들에 관해, 제1 가변성(501)과 제2 가변성(502) 사이에 위치되고, 제3 분리 임계치(403) 및 제4 분리 임계치(404)는 그들의 값들에 관해, 제1 분리 임계치(401)와 제2 분리 임계치(402) 사이에 위치되는, 오디오 신호를 배경 성분 신호 및 전경 성분 신호로 분해하기 위한 장치.
실시예 4. 실시예 3에 있어서,
단조 보간 함수는 선형 함수이거나, 또는 이차 함수 또는 삼차 함수(cubic function) 또는 3보다 큰 차수를 갖는 멱함수(power function)인, 오디오 신호를 배경 성분 신호 및 전경 성분 신호로 분해하기 위한 장치.
실시예 5. 실시예 1 내지 실시예 4 중 어느 하나의 실시예에 있어서,
분리기(130)는, 현재 블록에 관한 특성의 가변성에 기초하여 원시(raw) 분리 임계치를 결정(405)하고, 적어도 하나의 선행 또는 후속 블록의 가변성에 기초하여 적어도 하나의 추가적인 원시 분리 임계치를 결정(405)하며, 원시 분리 임계치들의 시퀀스를 평활화(smooth)함으로써 현재 블록에 대한 분리 임계치를 결정(407)하도록 구성되고, 시퀀스는 원시 분리 임계치 및 적어도 하나의 추가적인 원시 분리 임계치를 포함하거나, 또는
분리기(130)는, 현재 블록에 대한 특성의 원시 가변성(402)을 결정하고, 부가적으로는 선행 또는 후속 블록에 대한 원시 가변성을 계산(404)하도록 구성되고, 분리기(130)는, 현재 블록에 대한 원시 가변성 및 선행 또는 후속 블록에 대한 적어도 하나의 추가적인 원시 가변성을 포함하는 원시 가변성들의 시퀀스를 평활화하여, 가변성들의 평활화된 시퀀스를 획득하고, 현재 블록의 평활화된 가변성에 기초하여 분리 임계치들을 결정하도록 구성되는, 오디오 신호를 배경 성분 신호 및 전경 성분 신호로 분해하기 위한 장치.
실시예 6. 실시예 1 내지 실시예 5 중 어느 하나의 실시예에 있어서,
오디오 신호 분석기(120)는, 특성들의 그룹을 획득하도록 블록들의 그룹 내의 각각의 블록의 특성을 계산함으로써 그리고 특성들의 그룹의 분산을 계산함으로써 가변성을 결정하도록 구성되며,
가변성은, 분산에 대응하거나 또는 특성들의 그룹의 분산에 의존하는, 오디오 신호를 배경 성분 신호 및 전경 성분 신호로 분해하기 위한 장치.
실시예 7. 실시예 1 내지 실시예 6 중 어느 하나의 실시예에 있어서,
오디오 신호 분석기(120)는,
평균 또는 예상된 특성(502), 및 특성들의 그룹 내의 특성들과 평균 또는 예상된 특성 사이의 차이들(504)을 사용하여 가변성을 계산하거나, 또는
시간 상 후속하는 특성들의 그룹의 특성들 사이의 차이들(508)을 사용하여 가변성을 계산하도록
구성되는, 오디오 신호를 배경 성분 신호 및 전경 성분 신호로 분해하기 위한 장치.
실시예 8. 실시예 1 내지 실시예 7 중 어느 하나의 실시예에 있어서,
오디오 신호 분석기(120)는, 현재 블록에 선행하는 적어도 2개의 블록들 또는 현재 블록에 후속하는 적어도 2개의 블록들을 포함하는 특성들의 그룹 내에서 특성의 가변성을 계산하도록 구성되는, 오디오 신호를 배경 성분 신호 및 전경 성분 신호로 분해하기 위한 장치.
실시예 9. 실시예 1 내지 실시예 8 중 어느 하나의 실시예에 있어서,
오디오 신호 분석기(120)는, 적어도 30개의 블록들로 이루어진 블록들의 그룹 내에서 특성의 가변성을 계산하도록 구성되는, 오디오 신호를 배경 성분 신호 및 전경 성분 신호로 분해하기 위한 장치.
실시예 10. 실시예 1 내지 실시예 9 중 어느 하나의 실시예에 있어서,
오디오 신호 분석기(120)는, 현재 블록의 블록 특성과 적어도 2개의 블록들을 포함하는 블록들의 그룹에 대한 평균 특성의 비율로서 특성을 계산하도록 구성되며,
분리기(130)는, 비율을, 블록들의 그룹 내의 현재 블록과 연관된 비율의 가변성에 기초하여 결정된 분리 임계치와 비교하도록 구성되는, 오디오 신호를 배경 성분 신호 및 전경 성분 신호로 분해하기 위한 장치.
실시예 11. 실시예 10에 있어서,
오디오 신호 분석기(120)는, 평균 특성의 계산을 위해 그리고 가변성의 계산을 위해, 블록들의 동일한 그룹을 사용하도록 구성되는, 오디오 신호를 배경 성분 신호 및 전경 성분 신호로 분해하기 위한 장치.
실시예 12. 실시예 1 내지 실시예 11 중 어느 하나의 실시예에 있어서,
오디오 신호 분석기는, 현재 블록의 특성으로서 진폭-관련 측정을 분석하고, 블록들의 그룹에 대한 평균 특성으로서 진폭-관련 특성을 분석하도록 구성되는, 오디오 신호를 배경 성분 신호 및 전경 성분 신호로 분해하기 위한 장치.
실시예 13. 실시예 1 내지 실시예 12 중 어느 하나의 실시예에 있어서,
분리기(130)는, 특성로부터 분리 이득을 계산하고, 분리 이득을 사용하여 현재 블록의 오디오 신호 값들을 가중시켜 현재 프레임의 전경 부분을 획득하며, 배경 성분을 결정해서, 배경 신호가 나머지 신호를 구성하도록 구성되거나, 또는
분리기(130)는, 특성로부터 분리 이득을 계산하고, 분리 이득을 사용하여 현재 블록의 오디오 신호 값들을 가중시켜 현재 프레임의 배경 부분을 획득하며, 전경 성분을 결정해서, 전경 성분 신호가 나머지 신호를 구성하도록 구성되는, 오디오 신호를 배경 성분 신호 및 전경 성분 신호로 분해하기 위한 장치.
실시예 14. 실시예 1 내지 실시예 13 중 어느 하나의 실시예에 있어서,
분리기(130)는, 시간 상 현재 블록에 후속하는 후속 블록을, 후속 블록의 특성을 추가적인 릴리즈(release) 임계치와 비교하는 것을 사용하여 분리시키도록 구성되며,
추가적인 릴리즈 임계치는, 임계치와 미리 결정된 관계에 있지 않는 특성이 추가적인 릴리즈 임계치와 미리 결정된 관계에 있도록 세팅되는, 오디오 신호를 배경 성분 신호 및 전경 성분 신호로 분해하기 위한 장치.
실시예 15. 실시예 14에 있어서,
분리기(130)는, 현재 블록의 특성이 릴리즈 임계치와 추가적인 미리 결정된 관계에 있는 경우, 가변성에 기초하여 릴리즈 임계치를 결정하고 후속 블록을 분리시키도록 구성되는, 오디오 신호를 배경 성분 신호 및 전경 성분 신호로 분해하기 위한 장치.
실시예 16. 실시예 14 또는 실시예 15에 있어서,
미리 결정된 관계는 "보다 큰 것"이고, 릴리즈 임계치는 분리 임계치보다 낮거나, 또는
미리 결정된 관계는 "보다 낮은 것"이고, 릴리즈 임계치는 분리 임계치보다 큰, 오디오 신호(100)를 배경 성분 신호(140) 및 전경 성분 신호(150)로 분해하기 위한 장치.
실시예 17. 실시예 1 내지 실시예 16 중 어느 하나의 실시예에 있어서,
블록 생성기(110)는 오디오 신호 값들의 시간적으로 중첩하는 블록들을 결정하도록 구성되거나, 또는
시간적으로 중첩하는 블록들은 600보다 작거나 또는 그와 동일한 다수의 샘플링 값들을 갖는, 오디오 신호를 배경 성분 신호 및 전경 성분 신호로 분해하기 위한 장치.
실시예 18. 실시예 1 내지 실시예 17 중 어느 하나의 실시예에 있어서,
블록 생성기는, 각각의 블록에 대한 스펙트럼 표현을 획득하기 위해 시간 도메인 오디오 신호의 주파수 도메인으로의 블록-단위(block-wise) 변환을 수행하도록 구성되며,
오디오 신호 분석기는, 현재 블록의 스펙트럼 표현을 사용하여 특성을 계산하도록 구성되고,
분리기(130)는, 스펙트럼 표현을 배경 부분 및 전경 부분으로 분리시켜, 동일한 주파수에 대응하는 배경 부분 및 전경 부분의 스펙트럼 빈들에 대해, 배경 부분 및 전경 부분 각각이 제로와는 상이한 스펙트럼 값을 갖도록 구성되며,
동일한 주파수 빈 내의 전경 부분의 스펙트럼 값과 배경 부분의 스펙트럼 값의 관계는 특성에 의존하는, 오디오 신호를 배경 성분 신호 및 전경 성분 신호로 분해하기 위한 장치.
실시예 19. 실시예 1 내지 실시예 18 중 어느 하나의 실시예에 있어서,
오디오 신호 분석기(120)는, 블록들의 그룹의 스펙트럼 표현을 사용하여 현재 블록에 대한 가변성을 계산하기 위해 현재 블록의 스펙트럼 표현을 사용하여 특성을 계산하도록 구성되는, 오디오 신호를 배경 성분 신호 및 전경 성분 신호로 분해하기 위한 장치.
실시예 20. 오디오 신호를 배경 성분 신호 및 전경 성분 신호로 분해하기 위한 방법으로서,
오디오 신호 값들의 블록들의 시간 시퀀스를 생성하는 단계(110);
오디오 신호의 현재 블록의 특성을 결정하고, 블록들의 시퀀스 중 적어도 2개의 블록들을 포함하는 블록들의 그룹 내에서 특성의 가변성을 결정하는 단계(120); 및
현재 블록을 배경 부분(140) 및 전경 부분(150)으로 분리시키는 단계(130)를 포함하며,
분리 임계치는 가변성에 기초하여 결정되며, 현재 블록의 특성이 분리 임계치와 미리 결정된 관계에 있는 경우, 현재 블록은 배경 성분 신호(140) 및 전경 성분 신호(150)로 분리되거나, 또는 현재 블록의 특성이 분리 임계치와 미리 결정된 관계에 있는 경우, 전체 현재 블록은 전경 성분 신호로서 결정되거나, 또는 현재 블록의 특성이 분리 임계치와 미리 결정된 관계에 있지 않은 경우, 전체 현재 블록은 배경 성분 신호로서 결정되는, 오디오 신호를 배경 성분 신호 및 전경 성분 신호로 분해하기 위한 방법.
본 발명의 인코딩된 오디오 신호는, 디지털 저장 매체 또는 비-일시적인 저장 매체 상에 저장될 수 있거나, 무선 송신 매체와 같은 송신 매체 또는 인터넷과 같은 유선 송신 매체 상에서 송신될 수 있다.
일부 양상들이 장치의 콘텍스트에서 설명되었지만, 이들 양상들이 또한 대응하는 방법의 설명을 표현한다는 것은 명확하며, 여기서, 블록 또는 디바이스는 방법 단계 또는 방법 단계의 특징에 대응한다. 유사하게, 방법 단계의 콘텍스트에서 설명된 양상들은 또한, 대응하는 장치의 대응하는 블록 또는 아이템 또는 특징의 설명을 표현한다.
특정한 구현 요건들에 의존하면, 본 발명의 실시예들은 하드웨어 또는 소프트웨어로 구현될 수 있다. 구현은, 각각의 방법이 수행되도록 프로그래밍가능한 컴퓨터 시스템과 협력하는(또는 협력할 수 있는), 전자적으로 판독가능한 제어 신호들이 저장된 디지털 저장 매체, 예를 들어, 플로피 디스크, DVD, CD, ROM, PROM, EPROM, EEPROM 또는 FLASH 메모리를 사용하여 수행될 수 있다.
본 발명에 따른 일부 실시예들은, 본 명세서에 설명된 방법들 중 하나가 수행되도록 프로그래밍가능한 컴퓨터 시스템과 협력할 수 있는, 전자적으로 판독가능한 제어 신호들을 갖는 데이터 캐리어를 포함한다.
일반적으로, 본 발명의 실시예들은 프로그램 코드를 갖는 컴퓨터 프로그램 물건으로서 구현될 수 있으며, 프로그램 코드는, 컴퓨터 프로그램 물건이 컴퓨터 상에서 구동되는 경우 방법들 중 하나를 수행하기 위해 동작된다. 프로그램 코드는, 예를 들어, 머신 판독가능 캐리어 상에 저장될 수 있다.
다른 실시예들은, 머신 판독가능 캐리어 또는 비-일시적인 저장 매체 상에 저장되는, 본 명세서에 설명된 방법들 중 하나를 수행하기 위한 컴퓨터 프로그램을 포함한다.
즉, 따라서, 본 발명의 방법의 실시예는, 컴퓨터 프로그램이 컴퓨터 상에서 구동되는 경우, 본 명세서에 설명된 방법들 중 하나를 수행하기 위한 프로그램 코드를 갖는 컴퓨터 프로그램이다.
따라서, 본 발명의 방법들의 추가적인 실시예는, 본 명세서에 설명된 방법들 중 하나를 수행하기 위한 컴퓨터 프로그램(상부에 기록됨)을 포함하는 데이터 캐리어(또는 디지털 저장 매체, 또는 컴퓨터-판독가능 매체)이다.
따라서, 본 발명의 방법의 추가적인 실시예는, 본 명세서에 설명된 방법들 중 하나를 수행하기 위한 컴퓨터 프로그램을 표현하는 데이터 스트림 또는 신호들의 시퀀스이다. 데이터 스트림 또는 신호들의 시퀀스는, 예를 들어, 데이터 통신 연결을 통해, 예를 들어, 인터넷을 통해 전달되도록 구성될 수 있다.
추가적인 실시예는, 본 명세서에 설명된 방법들 중 하나를 수행하도록 구성 또는 적응되는 프로세싱 수단, 예를 들어, 컴퓨터, 또는 프로그래밍가능 로직 디바이스를 포함한다.
추가적인 실시예는, 본 명세서에 설명된 방법들 중 하나를 수행하기 위한 컴퓨터 프로그램이 인스톨된 컴퓨터를 포함한다.
일부 실시예들에서, 프로그래밍가능 로직 디바이스(예를 들어, 필드 프로그래밍가능 게이트 어레이)는, 본 명세서에 설명된 방법들의 기능들 중 일부 또는 모두를 수행하기 위해 사용될 수 있다. 일부 실시예들에서, 필드 프로그래밍가능 게이트 어레이는, 본 명세서에 설명된 방법들 중 하나를 수행하기 위해 마이크로프로세서와 협력할 수 있다. 일반적으로, 방법들은 바람직하게 임의의 하드웨어 장치에 의해 수행된다.
위에서 설명된 실시예들은 단지, 본 발명의 원리들에 대해 예시적일 뿐이다. 본 명세서에 설명된 어레인지먼트(arrangement)들 및 세부사항들의 변형들 및 변경들이 당업자들에게는 명백할 것임을 이해한다. 따라서, 본 명세서의 실시예들의 설명 및 해설에 의해 제시된 특정한 세부사항들이 아니라 임박한 특허 청구항들의 범위에 의해서만 제한되는 것이 의도이다.

Claims (23)

  1. 오디오 신호(100)를 배경 성분 신호(140) 및 전경 성분 신호(150)로 분해하기 위한 장치로서,
    오디오 신호 값들의 블록들의 시간 시퀀스를 생성하기 위한 블록 생성기(110);
    상기 오디오 신호의 현재 블록의 블록 특성을 결정하고, 블록들의 그룹에 대한 평균 특성을 결정하기 위한 오디오 신호 분석기(120) ― 상기 블록들의 그룹은 적어도 2개의 블록들을 포함함 ―; 및
    상기 현재 블록의 블록 특성과 상기 블록들의 그룹의 평균 특성의 비율에 응답하여 상기 현재 블록을 배경 부분 및 전경 부분으로 분리시키기 위한 분리기(130)를 포함하며,
    상기 배경 성분 신호(140)는 상기 현재 블록의 배경 부분을 포함하고, 상기 전경 성분 신호(150)는 상기 현재 블록의 전경 부분을 포함하는, 오디오 신호(100)를 배경 성분 신호(140) 및 전경 성분 신호(150)로 분해하기 위한 장치.
  2. 제1항에 있어서,
    상기 오디오 신호 분석기는, 상기 현재 블록의 특성으로서 진폭-관련 측정을 분석하고, 상기 블록들의 그룹에 대한 평균 특성으로서 상기 진폭-관련 특성을 분석하도록 구성되는, 오디오 신호(100)를 배경 성분 신호(140) 및 전경 성분 신호(150)로 분해하기 위한 장치.
  3. 제1항 또는 제2항에 있어서,
    상기 오디오 신호 분석기(120)는, 상기 현재 블록에 대한 전력 측정 또는 에너지 측정을 분석하고, 상기 블록들의 그룹에 대한 평균 전력 측정 또는 평균 에너지 측정을 분석하도록 구성되는, 오디오 신호(100)를 배경 성분 신호(140) 및 전경 성분 신호(150)로 분해하기 위한 장치.
  4. 제1항 내지 제3항 중 어느 한 항에 있어서,
    상기 분리기(130)는, 상기 비율로부터 분리 이득을 계산하고, 상기 분리 이득을 사용하여 상기 현재 블록의 오디오 신호 값들을 가중시켜 상기 현재 블록의 전경 부분을 획득하며, 배경 성분을 결정해서, 상기 배경 신호가 나머지 신호를 구성하도록 구성되거나, 또는
    상기 분리기는, 상기 비율로부터 상기 분리 이득을 계산하고, 상기 분리 이득을 사용하여 상기 현재 블록의 오디오 신호 값들을 가중시켜 상기 현재 블록의 배경 부분을 획득하며, 전경 성분을 결정해서, 상기 전경 성분 신호가 나머지 신호를 구성하도록 구성되는, 오디오 신호(100)를 배경 성분 신호(140) 및 전경 성분 신호(150)로 분해하기 위한 장치.
  5. 제1항 내지 제4항 중 어느 한 항에 있어서,
    상기 분리기(130)는, 제로와는 상이한 미리 결정된 가중 인자를 사용하여 상기 비율을 가중시키는 것을 사용해서 분리 이득을 계산하도록 구성되는, 오디오 신호(100)를 배경 성분 신호(140) 및 전경 성분 신호(150)로 분해하기 위한 장치.
  6. 제5항에 있어서,
    상기 분리기(130)는, 항
    Figure pct00039
    을 사용하여 상기 분리 이득을 계산하도록 구성되며,
    상기 gN은 상기 미리 결정된 인자이고, 상기
    Figure pct00040
    는 비율이고, 상기 p는 제로보다 크고 정수 또는 비-정수인 거듭제곱이고, 상기 n은 블록 인덱스이고, 상기 max는 최대 함수인, 오디오 신호(100)를 배경 성분 신호(140) 및 전경 성분 신호(150)로 분해하기 위한 장치.
  7. 제1항 내지 제6항 중 어느 한 항에 있어서,
    상기 분리기(130)는, 상기 현재 블록의 비율이 임계치와 미리 결정된 관계에 있는 경우, 상기 현재 블록의 비율을 상기 임계치와 비교하고 상기 현재 블록을 분리시키도록 구성되고,
    상기 분리기(130)는 추가적인 블록을 분리시키지 않도록 구성되며,
    상기 추가적인 블록은 상기 임계치와의 미리 결정된 관계를 갖지 않는 비율을 가져서, 상기 추가적인 블록은 상기 배경 성분 신호(140)에 완전히 속하는, 오디오 신호(100)를 배경 성분 신호(140) 및 전경 성분 신호(150)로 분해하기 위한 장치.
  8. 제7항에 있어서,
    상기 분리기(130)는, 시간 상 상기 현재 블록에 후속하는 후속 블록을, 상기 후속 블록의 비율을 추가적인 릴리즈(release) 임계치와 비교하는 것을 사용하여 분리시키도록 구성되며,
    상기 추가적인 릴리즈 임계치는, 상기 임계치와 미리 결정된 관계에 있지 않는 블록 비율이 상기 추가적인 릴리즈 임계치와 미리 결정된 관계에 있도록 세팅되는, 오디오 신호(100)를 배경 성분 신호(140) 및 전경 성분 신호(150)로 분해하기 위한 장치.
  9. 제8항에 있어서,
    상기 미리 결정된 관계는 "보다 큰 것"이고, 상기 릴리즈 임계치는 분리 임계치보다 낮거나, 또는
    상기 미리 결정된 관계는 "보다 낮은 것"이고, 상기 릴리즈 임계치는 상기 분리 임계치보다 큰, 오디오 신호(100)를 배경 성분 신호(140) 및 전경 성분 신호(150)로 분해하기 위한 장치.
  10. 제1항 내지 제9항 중 어느 한 항에 있어서,
    상기 블록 생성기(110)는 오디오 신호 값들의 시간적으로 중첩하는 블록들을 결정하도록 구성되거나, 또는
    상기 시간적으로 중첩하는 블록들은 600보다 작거나 또는 그와 동일한 다수의 샘플링 값들을 갖는, 오디오 신호(100)를 배경 성분 신호(140) 및 전경 성분 신호(150)로 분해하기 위한 장치.
  11. 제1항 내지 제10항 중 어느 한 항에 있어서,
    상기 블록 생성기는, 각각의 블록에 대한 스펙트럼 표현을 획득하기 위해 시간 도메인 오디오 신호의 주파수 도메인으로의 블록-단위(block-wise) 변환을 수행하도록 구성되며,
    상기 오디오 신호 분석기는, 상기 현재 블록의 스펙트럼 표현을 사용하여 특성을 계산하도록 구성되고,
    상기 분리기(130)는, 상기 스펙트럼 표현을 상기 배경 부분 및 상기 전경 부분으로 분리시켜, 동일한 주파수에 대응하는 상기 배경 부분 및 상기 전경 부분의 스펙트럼 빈들에 대해, 상기 배경 부분 및 상기 전경 부분 각각이 제로와는 상이한 스펙트럼 값을 갖도록 구성되며,
    동일한 주파수 빈 내의 상기 전경 부분의 스펙트럼 값과 상기 배경 부분의 스펙트럼 값의 관계는 상기 비율에 의존하는, 오디오 신호(100)를 배경 성분 신호(140) 및 전경 성분 신호(150)로 분해하기 위한 장치.
  12. 제1항 내지 제11항 중 어느 한 항에 있어서,
    상기 블록 생성기(110)는, 각각의 블록에 대한 스펙트럼 표현을 획득하기 위해 시간 도메인의 주파수 도메인으로의 블록-단위 변환을 수행하도록 구성되며,
    시간 상 인접하는 블록들은 중첩 범위(302)에서 중첩하고,
    상기 장치는, 상기 배경 성분 신호를 합성하고 상기 전경 성분 신호를 합성하기 위한 신호 합성기(160a, 161a, 160b, 161b)를 더 포함하며,
    상기 신호 합성기는, 상기 배경 성분 신호 및 상기 전경 성분 신호에 대한 주파수-시간 변환(161a, 160a, 160b)을 수행하고, 상기 중첩 범위 내에서 시간 상-인접하는 블록들의 시간 표현들을 크로스-페이딩(cross-fade)(161a, 161b)하여, 시간 도메인 전경 성분 신호 및 별개의 시간 도메인 배경 성분 신호를 획득하도록 구성되는, 오디오 신호(100)를 배경 성분 신호(140) 및 전경 성분 신호(150)로 분해하기 위한 장치.
  13. 제1항 내지 제12항 중 어느 한 항에 있어서,
    상기 오디오 신호 분석기(120)는, 상기 블록들의 그룹 내의 블록들의 개별 특성들의 가중된 가산을 사용하여 상기 블록들의 그룹에 대한 평균 특성을 결정하도록 구성되는, 오디오 신호(100)를 배경 성분 신호(140) 및 전경 성분 신호(150)로 분해하기 위한 장치.
  14. 제1항 내지 제13항 중 어느 한 항에 있어서,
    상기 오디오 신호 분석기(120)는, 상기 블록들의 그룹 내의 블록들의 개별 특성들의 가중된 가산을 수행하도록 구성되며,
    상기 현재 블록에 시간 상 가까운 블록의 특성에 대한 가중 값은 상기 현재 블록에 시간 상 덜 가까운 추가적인 블록의 특성에 대한 가중 값보다 큰, 오디오 신호(100)를 배경 성분 신호(140) 및 전경 성분 신호(150)로 분해하기 위한 장치.
  15. 제13항 또는 제14항에 있어서,
    상기 오디오 신호 분석기(120)는, 상기 블록들의 그룹이 대응하는 블록 이전에 적어도 20개의 블록들 또는 상기 현재 블록에 후속하여 적어도 20개의 블록들을 포함하도록 상기 블록들의 그룹을 결정하도록 구성되는, 오디오 신호(100)를 배경 성분 신호(140) 및 전경 성분 신호(150)로 분해하기 위한 장치.
  16. 제1항 내지 제15항 중 어느 한 항에 있어서,
    상기 오디오 신호 분석기는, 상기 블록들의 그룹 내의 블록들의 수에 의존하여 또는 상기 블록들의 그룹 내의 블록들에 대한 가중 값들에 의존하여 정규화 값을 사용하도록 구성되는, 오디오 신호(100)를 배경 성분 신호(140) 및 전경 성분 신호(150)로 분해하기 위한 장치.
  17. 제1항 내지 제16항 중 어느 한 항에 있어서,
    배경 성분 신호들 또는 전경 성분 신호들 중 적어도 하나의 신호들의 신호 특성을 측정하기 위한 신호 특성 측정기(702, 704)를 더 포함하는, 오디오 신호(100)를 배경 성분 신호(140) 및 전경 성분 신호(150)로 분해하기 위한 장치.
  18. 제17항에 있어서,
    상기 신호 특성 측정기는, 상기 전경 성분 신호를 사용하여 전경 밀도(702)를 결정하거나, 또는 상기 전경 성분 신호 및 오디오 입력 신호를 사용하여 전경 현저성(prominence)(704)을 결정하도록 구성되는, 오디오 신호(100)를 배경 성분 신호(140) 및 전경 성분 신호(150)로 분해하기 위한 장치.
  19. 제1항 내지 제18항 중 어느 한 항에 있어서,
    상기 전경 성분 신호는 박수소리(clap) 신호들을 포함하며,
    상기 장치는, 박수소리들의 수를 증가시키거나 또는 박수소리들의 수를 감소시킴으로써 또는 상기 전경 성분 신호 또는 상기 배경 성분 신호에 가중치를 적용하여 잡음형 신호인 상기 배경 성분 신호와 전경 박수소리 신호 사이의 에너지 관계를 수정함으로써, 상기 전경 성분 신호를 수정하기 위한 신호 특성 수정기를 더 포함하는, 오디오 신호(100)를 배경 성분 신호(140) 및 전경 성분 신호(150)로 분해하기 위한 장치.
  20. 제1항 내지 제19항 중 어느 한 항에 있어서,
    상기 오디오 신호의 채널들의 수보다 큰 다수의 출력 채널들을 갖는 표현으로 상기 오디오 신호를 업믹싱(upmix)하기 위한 블라인드 업믹서(blind upmixer)를 더 포함하며,
    상기 업믹서는, 상기 전경 성분 신호를 상기 출력 채널들로 공간적으로 분배하고 ― 상기 다수의 출력 채널들 내의 전경 성분 신호는 상관됨 ―, 상기 배경 성분 신호를 상기 출력 채널들로 공간적으로 분배하도록 구성되고,
    상기 출력 채널들 내의 배경 성분 신호들은 상기 전경 성분 신호들보다 덜 상관되거나, 또는 서로 상관되지 않는, 오디오 신호(100)를 배경 성분 신호(140) 및 전경 성분 신호(150)로 분해하기 위한 장치.
  21. 제1항 내지 제20항 중 어느 한 항에 있어서,
    송신 또는 저장 또는 디코딩을 위해 상기 전경 성분 신호의 인코딩된 표현(804) 및 상기 배경 성분 신호(806)의 별개의 인코딩된 표현을 획득하기 위하여 상기 전경 성분 신호 및 상기 배경 성분 신호를 별개로 인코딩하기 위한 인코더 스테이지(801, 802)를 더 포함하는, 오디오 신호(100)를 배경 성분 신호(140) 및 전경 성분 신호(150)로 분해하기 위한 장치.
  22. 오디오 신호(100)를 배경 성분 신호(140) 및 전경 성분 신호(150)로 분해하는 방법으로서,
    오디오 신호 값들의 블록들의 시간 시퀀스를 생성하는 단계(110);
    상기 오디오 신호의 현재 블록의 블록 특성을 결정하고, 블록들의 그룹에 대한 평균 특성을 결정하는 단계(120) ― 상기 블록들의 그룹은 적어도 2개의 블록들을 포함함 ―; 및
    상기 현재 블록의 블록 특성과 상기 블록들의 그룹의 평균 특성의 비율에 응답하여 상기 현재 블록을 배경 부분 및 전경 부분으로 분리시키는 단계(130)를 포함하며,
    상기 배경 성분 신호(140)는 상기 현재 블록의 배경 부분을 포함하고, 상기 전경 성분 신호(150)는 상기 현재 블록의 전경 부분을 포함하는, 오디오 신호(100)를 배경 성분 신호(140) 및 전경 성분 신호(150)로 분해하는 방법.
  23. 컴퓨터 또는 프로세서 상에서 구동하는 경우, 제22항의 방법을 수행하기 위한, 컴퓨터 프로그램.
KR1020197017323A 2016-11-17 2017-11-16 분리 특성으로서 비율을 사용하여 오디오 신호를 분해하기 위한 장치 및 방법 KR102427414B1 (ko)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
EP16199402.5A EP3324407A1 (en) 2016-11-17 2016-11-17 Apparatus and method for decomposing an audio signal using a ratio as a separation characteristic
EP16199402.5 2016-11-17
PCT/EP2017/079516 WO2018091614A1 (en) 2016-11-17 2017-11-16 Apparatus and method for decomposing an audio signal using a ratio as a separation characteristic

Publications (2)

Publication Number Publication Date
KR20190085062A true KR20190085062A (ko) 2019-07-17
KR102427414B1 KR102427414B1 (ko) 2022-08-01

Family

ID=57348523

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020197017323A KR102427414B1 (ko) 2016-11-17 2017-11-16 분리 특성으로서 비율을 사용하여 오디오 신호를 분해하기 위한 장치 및 방법

Country Status (11)

Country Link
US (1) US11183199B2 (ko)
EP (2) EP3324407A1 (ko)
JP (1) JP7161215B2 (ko)
KR (1) KR102427414B1 (ko)
CN (1) CN110114828B (ko)
BR (1) BR112019009944A2 (ko)
CA (1) CA3043964C (ko)
ES (1) ES2930268T3 (ko)
MX (1) MX2019005739A (ko)
RU (1) RU2729050C1 (ko)
WO (1) WO2018091614A1 (ko)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP3324407A1 (en) * 2016-11-17 2018-05-23 Fraunhofer Gesellschaft zur Förderung der Angewand Apparatus and method for decomposing an audio signal using a ratio as a separation characteristic
EP3324406A1 (en) * 2016-11-17 2018-05-23 Fraunhofer Gesellschaft zur Förderung der Angewand Apparatus and method for decomposing an audio signal using a variable threshold
US11023722B2 (en) * 2018-07-11 2021-06-01 International Business Machines Corporation Data classification bandwidth reduction
EP4150759A1 (en) * 2020-06-23 2023-03-22 Google LLC Smart background noise estimator

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8379868B2 (en) * 2006-05-17 2013-02-19 Creative Technology Ltd Spatial audio coding based on universal spatial cues
KR101456640B1 (ko) * 2008-08-13 2014-11-12 프라운호퍼 게젤샤프트 쭈르 푀르데룽 데어 안겐반텐 포르슝 에. 베. 공간적 출력 다채널 오디오 신호를 결정하기 위한 장치
US20140358265A1 (en) * 2013-05-31 2014-12-04 Dolby Laboratories Licensing Corporation Audio Processing Method and Audio Processing Apparatus, and Training Method

Family Cites Families (80)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
IL84948A0 (en) * 1987-12-25 1988-06-30 D S P Group Israel Ltd Noise reduction system
US7006881B1 (en) 1991-12-23 2006-02-28 Steven Hoffberg Media recording device with remote graphic user interface
US6400996B1 (en) 1999-02-01 2002-06-04 Steven M. Hoffberg Adaptive pattern recognition based control system and method
JP2000250568A (ja) 1999-02-26 2000-09-14 Kobe Steel Ltd 音声区間検出装置
US6424960B1 (en) 1999-10-14 2002-07-23 The Salk Institute For Biological Studies Unsupervised adaptation and classification of multiple classes and sources in blind signal separation
JP4438144B2 (ja) * 1999-11-11 2010-03-24 ソニー株式会社 信号分類方法及び装置、記述子生成方法及び装置、信号検索方法及び装置
US7472059B2 (en) * 2000-12-08 2008-12-30 Qualcomm Incorporated Method and apparatus for robust speech classification
US7930170B2 (en) * 2001-01-11 2011-04-19 Sasken Communication Technologies Limited Computationally efficient audio coder
US7058889B2 (en) 2001-03-23 2006-06-06 Koninklijke Philips Electronics N.V. Synchronizing text/visual information with audio playback
US7283954B2 (en) * 2001-04-13 2007-10-16 Dolby Laboratories Licensing Corporation Comparing audio using characterizations based on auditory events
US7386217B2 (en) 2001-12-14 2008-06-10 Hewlett-Packard Development Company, L.P. Indexing video by detecting speech and music in audio
CN1830009B (zh) 2002-05-03 2010-05-05 哈曼国际工业有限公司 声音检测和定位系统
US7567845B1 (en) 2002-06-04 2009-07-28 Creative Technology Ltd Ambience generation for stereo signals
KR100908117B1 (ko) * 2002-12-16 2009-07-16 삼성전자주식회사 비트율 조절가능한 오디오 부호화 방법, 복호화 방법,부호화 장치 및 복호화 장치
WO2004084467A2 (en) * 2003-03-15 2004-09-30 Mindspeed Technologies, Inc. Recovering an erased voice frame with time warping
KR100486736B1 (ko) 2003-03-31 2005-05-03 삼성전자주식회사 두개의 센서를 이용한 목적원별 신호 분리방법 및 장치
JP4146489B2 (ja) 2004-05-26 2008-09-10 日本電信電話株式会社 音声パケット再生方法、音声パケット再生装置、音声パケット再生プログラム、記録媒体
DE102005014477A1 (de) * 2005-03-30 2006-10-12 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Vorrichtung und Verfahren zum Erzeugen eines Datenstroms und zum Erzeugen einer Multikanal-Darstellung
US8086451B2 (en) * 2005-04-20 2011-12-27 Qnx Software Systems Co. System for improving speech intelligibility through high frequency compression
US8249861B2 (en) * 2005-04-20 2012-08-21 Qnx Software Systems Limited High frequency compression integration
US7996216B2 (en) * 2005-07-11 2011-08-09 Lg Electronics Inc. Apparatus and method of encoding and decoding audio signal
KR101237413B1 (ko) * 2005-12-07 2013-02-26 삼성전자주식회사 오디오 신호의 부호화 및 복호화 방법, 오디오 신호의부호화 및 복호화 장치
JP2009529699A (ja) 2006-03-01 2009-08-20 ソフトマックス,インコーポレイテッド 分離信号を生成するシステムおよび方法
US7844453B2 (en) 2006-05-12 2010-11-30 Qnx Software Systems Co. Robust noise estimation
JP2008015481A (ja) 2006-06-08 2008-01-24 Audio Technica Corp 音声会議装置
WO2008030104A1 (en) 2006-09-07 2008-03-13 Lumex As Relative threshold and use of edges in optical character recognition process
US8036767B2 (en) * 2006-09-20 2011-10-11 Harman International Industries, Incorporated System for extracting and changing the reverberant content of an audio input signal
JP5201602B2 (ja) 2007-04-13 2013-06-05 国立大学法人京都大学 音源分離システム、音源分離方法及び音源分離用コンピュータプログラム
EP2028651A1 (en) 2007-08-24 2009-02-25 Sound Intelligence B.V. Method and apparatus for detection of specific input signal contributions
RU2452043C2 (ru) 2007-10-17 2012-05-27 Фраунхофер-Гезелльшафт цур Фёрдерунг дер ангевандтен Форшунг Е.Ф. Аудиокодирование с использованием понижающего микширования
JPWO2009051132A1 (ja) 2007-10-19 2011-03-03 日本電気株式会社 信号処理システムと、その装置、方法及びそのプログラム
US9374453B2 (en) * 2007-12-31 2016-06-21 At&T Intellectual Property I, L.P. Audio processing for multi-participant communication systems
CN101981811B (zh) 2008-03-31 2013-10-23 创新科技有限公司 音频信号的自适应主体-环境分解
US8645129B2 (en) * 2008-05-12 2014-02-04 Broadcom Corporation Integrated speech intelligibility enhancement system and acoustic echo canceller
US8630848B2 (en) * 2008-05-30 2014-01-14 Digital Rise Technology Co., Ltd. Audio signal transient detection
EP2144171B1 (en) * 2008-07-11 2018-05-16 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio encoder and decoder for encoding and decoding frames of a sampled audio signal
US8359205B2 (en) * 2008-10-24 2013-01-22 The Nielsen Company (Us), Llc Methods and apparatus to perform audio watermarking and watermark detection and extraction
JP5277887B2 (ja) 2008-11-14 2013-08-28 ヤマハ株式会社 信号処理装置およびプログラム
US20100138010A1 (en) 2008-11-28 2010-06-03 Audionamix Automatic gathering strategy for unsupervised source separation algorithms
US20100174389A1 (en) 2009-01-06 2010-07-08 Audionamix Automatic audio source separation with joint spectral shape, expansion coefficients and musical state estimation
EP2249334A1 (en) 2009-05-08 2010-11-10 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio format transcoder
RU2557455C2 (ru) * 2009-06-23 2015-07-20 Войсэйдж Корпорейшн Прямая компенсация наложения спектров во временной области с применением в области взвешенного или исходного сигнала
ES2524428T3 (es) 2009-06-24 2014-12-09 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Decodificador de señales de audio, procedimiento para decodificar una señal de audio y programa de computación que utiliza etapas en cascada de procesamiento de objetos de audio
US8498863B2 (en) 2009-09-04 2013-07-30 Massachusetts Institute Of Technology Method and apparatus for audio source separation
JP5493655B2 (ja) 2009-09-29 2014-05-14 沖電気工業株式会社 音声帯域拡張装置および音声帯域拡張プログラム
CN102044246B (zh) 2009-10-15 2012-05-23 华为技术有限公司 一种音频信号检测方法和装置
EP2491548A4 (en) 2009-10-19 2013-10-30 Ericsson Telefon Ab L M VOICE ACTIVITY METHOD AND DETECTOR FOR SPEECH ENCODER
US20110099010A1 (en) * 2009-10-22 2011-04-28 Broadcom Corporation Multi-channel noise suppression system
EP2546831B1 (en) 2010-03-09 2020-01-15 Mitsubishi Electric Corporation Noise suppression device
US8447595B2 (en) * 2010-06-03 2013-05-21 Apple Inc. Echo-related decisions on automatic gain control of uplink speech signal in a communications device
JP5706782B2 (ja) 2010-08-17 2015-04-22 本田技研工業株式会社 音源分離装置及び音源分離方法
US8812322B2 (en) * 2011-05-27 2014-08-19 Adobe Systems Incorporated Semi-supervised source separation using non-negative techniques
CN102208188B (zh) * 2011-07-13 2013-04-17 华为技术有限公司 音频信号编解码方法和设备
CN103959376B (zh) * 2011-12-06 2019-04-23 英特尔公司 低功率语音检测
US9524730B2 (en) * 2012-03-30 2016-12-20 Ohio State Innovation Foundation Monaural speech filter
JP6064566B2 (ja) 2012-12-07 2017-01-25 ヤマハ株式会社 音響処理装置
US9338420B2 (en) 2013-02-15 2016-05-10 Qualcomm Incorporated Video analysis assisted generation of multi-channel audio data
US9076459B2 (en) 2013-03-12 2015-07-07 Intermec Ip, Corp. Apparatus and method to classify sound to detect speech
CN104078050A (zh) * 2013-03-26 2014-10-01 杜比实验室特许公司 用于音频分类和音频处理的设备和方法
US9384741B2 (en) 2013-05-29 2016-07-05 Qualcomm Incorporated Binauralization of rotated higher order ambisonics
US20150127354A1 (en) 2013-10-03 2015-05-07 Qualcomm Incorporated Near field compensation for decomposed representations of a sound field
FR3013885B1 (fr) * 2013-11-28 2017-03-24 Audionamix Procede et systeme de separation de contributions specifique et de fond sonore dans un signal acoustique de melange
CN104143326B (zh) 2013-12-03 2016-11-02 腾讯科技(深圳)有限公司 一种语音命令识别方法和装置
US9922656B2 (en) 2014-01-30 2018-03-20 Qualcomm Incorporated Transitioning of ambient higher-order ambisonic coefficients
WO2015157013A1 (en) 2014-04-11 2015-10-15 Analog Devices, Inc. Apparatus, systems and methods for providing blind source separation services
DK3161787T3 (en) 2014-06-30 2018-08-13 Ventana Med Syst Inc DETECTING EDGE OF A CELL CEREALS USING CAR ANALYSIS
EP2980789A1 (en) 2014-07-30 2016-02-03 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for enhancing an audio signal, sound enhancing system
RU2589298C1 (ru) * 2014-12-29 2016-07-10 Александр Юрьевич Бредихин Способ повышения разборчивости и информативности звуковых сигналов в шумовой обстановке
FR3031225B1 (fr) * 2014-12-31 2018-02-02 Audionamix Procede de separation ameliore et produit programme d'ordinateur
CN105989852A (zh) * 2015-02-16 2016-10-05 杜比实验室特许公司 分离音频源
EP3079151A1 (en) * 2015-04-09 2016-10-12 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio encoder and method for encoding an audio signal
TWI573133B (zh) * 2015-04-15 2017-03-01 國立中央大學 音訊處理系統及方法
US9747923B2 (en) * 2015-04-17 2017-08-29 Zvox Audio, LLC Voice audio rendering augmentation
BR112018005910B1 (pt) * 2015-09-25 2023-10-10 Fraunhofer - Gesellschaft Zur Förderung Der Angewandten Forschung E.V Codificador e método para codificar um sinal de áudio com ruído de fundo reduzido com o uso de conversão em código preditiva linear e sistema
US9812132B2 (en) * 2015-12-31 2017-11-07 General Electric Company Acoustic map command contextualization and device control
WO2017136018A1 (en) * 2016-02-05 2017-08-10 Nuance Communications, Inc. Babble noise suppression
US9881619B2 (en) 2016-03-25 2018-01-30 Qualcomm Incorporated Audio processing for an acoustical environment
EP3324407A1 (en) * 2016-11-17 2018-05-23 Fraunhofer Gesellschaft zur Förderung der Angewand Apparatus and method for decomposing an audio signal using a ratio as a separation characteristic
EP3324406A1 (en) * 2016-11-17 2018-05-23 Fraunhofer Gesellschaft zur Förderung der Angewand Apparatus and method for decomposing an audio signal using a variable threshold
US10504539B2 (en) * 2017-12-05 2019-12-10 Synaptics Incorporated Voice activity detection systems and methods

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8379868B2 (en) * 2006-05-17 2013-02-19 Creative Technology Ltd Spatial audio coding based on universal spatial cues
KR101456640B1 (ko) * 2008-08-13 2014-11-12 프라운호퍼 게젤샤프트 쭈르 푀르데룽 데어 안겐반텐 포르슝 에. 베. 공간적 출력 다채널 오디오 신호를 결정하기 위한 장치
US20140358265A1 (en) * 2013-05-31 2014-12-04 Dolby Laboratories Licensing Corporation Audio Processing Method and Audio Processing Apparatus, and Training Method

Also Published As

Publication number Publication date
WO2018091614A1 (en) 2018-05-24
EP3324407A1 (en) 2018-05-23
JP7161215B2 (ja) 2022-10-26
US11183199B2 (en) 2021-11-23
CA3043964C (en) 2022-06-28
BR112019009944A2 (pt) 2019-08-20
MX2019005739A (es) 2019-09-11
ES2930268T3 (es) 2022-12-09
KR102427414B1 (ko) 2022-08-01
EP3542362A1 (en) 2019-09-25
CN110114828A (zh) 2019-08-09
JP2019537750A (ja) 2019-12-26
CA3043964A1 (en) 2018-05-24
EP3542362B1 (en) 2022-09-21
RU2729050C1 (ru) 2020-08-04
CN110114828B (zh) 2023-10-27
US20190272835A1 (en) 2019-09-05

Similar Documents

Publication Publication Date Title
US11869519B2 (en) Apparatus and method for decomposing an audio signal using a variable threshold
RU2711513C1 (ru) Устройство и способ оценивания межканальной разницы во времени
JP6289613B2 (ja) オブジェクト特有時間/周波数分解能を使用する混合信号からのオーディオオブジェクト分離
US11183199B2 (en) Apparatus and method for decomposing an audio signal using a ratio as a separation characteristic
JP2008026914A (ja) 忠実度最適化可変フレーム長符号化
EP2030199A1 (en) Linear predictive coding of an audio signal
JP2019194704A (ja) 独立したノイズ充填を用いた強化された信号を生成するための装置および方法
JP2021519949A (ja) チャネル間時間差を推定するための装置、方法またはコンピュータプログラム
SE527713C2 (sv) Kodning av polyfoniska signaler med villkorsbegränsade filter

Legal Events

Date Code Title Description
A201 Request for examination
AMND Amendment
E902 Notification of reason for refusal
AMND Amendment
E601 Decision to refuse application
AMND Amendment
E90F Notification of reason for final refusal
AMND Amendment
X701 Decision to grant (after re-examination)
GRNT Written decision to grant