KR20190085062A - 분리 특성으로서 비율을 사용하여 오디오 신호를 분해하기 위한 장치 및 방법 - Google Patents
분리 특성으로서 비율을 사용하여 오디오 신호를 분해하기 위한 장치 및 방법 Download PDFInfo
- Publication number
- KR20190085062A KR20190085062A KR1020197017323A KR20197017323A KR20190085062A KR 20190085062 A KR20190085062 A KR 20190085062A KR 1020197017323 A KR1020197017323 A KR 1020197017323A KR 20197017323 A KR20197017323 A KR 20197017323A KR 20190085062 A KR20190085062 A KR 20190085062A
- Authority
- KR
- South Korea
- Prior art keywords
- signal
- component signal
- foreground
- blocks
- block
- Prior art date
Links
- 230000005236 sound signal Effects 0.000 title claims abstract description 169
- 238000000926 separation method Methods 0.000 title claims description 124
- 238000000034 method Methods 0.000 title claims description 56
- 230000004044 response Effects 0.000 claims abstract description 8
- 230000003595 spectral effect Effects 0.000 claims description 28
- 238000005259 measurement Methods 0.000 claims description 22
- 230000000875 corresponding effect Effects 0.000 claims description 16
- 238000004590 computer program Methods 0.000 claims description 10
- 230000002123 temporal effect Effects 0.000 claims description 8
- 230000005540 biological transmission Effects 0.000 claims description 6
- 238000001228 spectrum Methods 0.000 claims description 6
- 230000002194 synthesizing effect Effects 0.000 claims description 5
- 230000002596 correlated effect Effects 0.000 claims description 3
- 239000003607 modifier Substances 0.000 claims description 2
- 238000005562 fading Methods 0.000 claims 1
- 238000010606 normalization Methods 0.000 claims 1
- 238000012545 processing Methods 0.000 description 23
- 230000006870 function Effects 0.000 description 20
- 230000001052 transient effect Effects 0.000 description 13
- 230000003044 adaptive effect Effects 0.000 description 11
- 238000010586 diagram Methods 0.000 description 9
- 238000000354 decomposition reaction Methods 0.000 description 5
- 238000001514 detection method Methods 0.000 description 5
- 238000012886 linear function Methods 0.000 description 5
- 238000013507 mapping Methods 0.000 description 5
- 238000009499 grossing Methods 0.000 description 4
- 238000002955 isolation Methods 0.000 description 4
- 230000003068 static effect Effects 0.000 description 4
- 238000004364 calculation method Methods 0.000 description 3
- 230000001419 dependent effect Effects 0.000 description 3
- 238000001914 filtration Methods 0.000 description 3
- 238000012986 modification Methods 0.000 description 3
- 230000004048 modification Effects 0.000 description 3
- 230000008447 perception Effects 0.000 description 3
- 238000013459 approach Methods 0.000 description 2
- 239000006185 dispersion Substances 0.000 description 2
- 238000000605 extraction Methods 0.000 description 2
- 230000002093 peripheral effect Effects 0.000 description 2
- 238000005070 sampling Methods 0.000 description 2
- 238000003786 synthesis reaction Methods 0.000 description 2
- 238000012935 Averaging Methods 0.000 description 1
- 235000010627 Phaseolus vulgaris Nutrition 0.000 description 1
- 244000046052 Phaseolus vulgaris Species 0.000 description 1
- 230000015572 biosynthetic process Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 238000012937 correction Methods 0.000 description 1
- 238000012888 cubic function Methods 0.000 description 1
- 230000006735 deficit Effects 0.000 description 1
- 230000003111 delayed effect Effects 0.000 description 1
- 230000009977 dual effect Effects 0.000 description 1
- 238000004091 panning Methods 0.000 description 1
- 230000008569 process Effects 0.000 description 1
- 238000012887 quadratic function Methods 0.000 description 1
- 238000007493 shaping process Methods 0.000 description 1
- 230000001360 synchronised effect Effects 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/02—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
- G10L19/022—Blocking, i.e. grouping of samples in time; Choice of analysis windows; Overlap factoring
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0272—Voice signal separating
- G10L21/028—Voice signal separating using properties of sound source
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/008—Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L21/0216—Noise filtering characterised by the method used for estimating noise
- G10L21/0232—Processing in the frequency domain
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04S—STEREOPHONIC SYSTEMS
- H04S3/00—Systems employing more than two channels, e.g. quadraphonic
- H04S3/008—Systems employing more than two channels, e.g. quadraphonic in which the audio signals are in digital form, i.e. employing more than two discrete digital channels
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10H—ELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
- G10H2210/00—Aspects or methods of musical processing having intrinsic musical character, i.e. involving musical theory or musical parameters or relying on musical knowledge, as applied in electrophonic musical tools or instruments
- G10H2210/031—Musical analysis, i.e. isolation, extraction or identification of musical elements or musical parameters from a raw acoustic signal or from an encoded audio signal
- G10H2210/046—Musical analysis, i.e. isolation, extraction or identification of musical elements or musical parameters from a raw acoustic signal or from an encoded audio signal for differentiation between music and non-music signals, based on the identification of musical parameters, e.g. based on tempo detection
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10H—ELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
- G10H2250/00—Aspects of algorithms or signal processing methods without intrinsic musical character, yet specifically adapted for or used in electrophonic musical processing
- G10H2250/025—Envelope processing of music signals in, e.g. time domain, transform domain or cepstrum domain
- G10H2250/035—Crossfade, i.e. time domain amplitude envelope control of the transition between musical sounds or melodies, obtained for musical purposes, e.g. for ADSR tone generation, articulations, medley, remix
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10H—ELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
- G10H2250/00—Aspects of algorithms or signal processing methods without intrinsic musical character, yet specifically adapted for or used in electrophonic musical processing
- G10H2250/131—Mathematical functions for musical analysis, processing, synthesis or composition
- G10H2250/215—Transforms, i.e. mathematical transforms into domains appropriate for musical signal processing, coding or compression
- G10H2250/235—Fourier transform; Discrete Fourier Transform [DFT]; Fast Fourier Transform [FFT]
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04S—STEREOPHONIC SYSTEMS
- H04S2400/00—Details of stereophonic systems covered by H04S but not provided for in its groups
- H04S2400/01—Multi-channel, i.e. more than two input channels, sound reproduction with two speakers wherein the multi-channel information is substantially preserved
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Signal Processing (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- Human Computer Interaction (AREA)
- Health & Medical Sciences (AREA)
- Quality & Reliability (AREA)
- Mathematical Physics (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
- Circuit For Audible Band Transducer (AREA)
- Stereophonic System (AREA)
- Stereo-Broadcasting Methods (AREA)
- Signal Processing Not Specific To The Method Of Recording And Reproducing (AREA)
Abstract
오디오 신호(100)를 배경 성분 신호(140) 및 전경 성분 신호(150)로 분해하기 위한 장치는, 오디오 신호 값들의 블록들의 시간 시퀀스를 생성하기 위한 블록 생성기(110); 오디오 신호의 현재 블록의 블록 특성을 결정하고, 블록들의 그룹에 대한 평균 특성을 결정하기 위한 오디오 신호 분석기(120) ― 블록들의 그룹은 적어도 2개의 블록들을 포함함 ―; 및 현재 블록의 블록 특성과 블록들의 그룹의 평균 특성의 비율에 응답하여 현재 블록을 배경 부분 및 전경 부분으로 분리시키기 위한 분리기(130)를 포함하며, 여기서, 배경 성분 신호(140)는 현재 블록의 배경 부분을 포함하고, 전경 성분 신호(150)는 현재 블록의 전경 부분을 포함한다.
Description
본 발명은 오디오 프로세싱에 관한 것으로, 더 상세하게는, 배경(background) 성분 신호 및 전경(foreground) 성분 신호로의 오디오 신호들의 분해에 관한 것이다.
오디오 신호 프로세싱에 관련된 상당한 양의 참조문헌들이 존재하며, 여기서 이들 참조문헌들 중 일부가 오디오 신호 분해에 관련된다. 예시적인 참조문헌들은 다음과 같다:
[1] S. Disch and A. Kuntz, A Dedicated Decorrelator for Parametric Spatial Coding of Applause-Like Audio Signals. Springer-Verlag, January 2012, pp. 355-363.
[2] A. Kuntz, S. Disch, T. Backstrm, and J. Robilliard, "The Transient Steering Decorrelator Tool in the Upcoming MPEG Unified Speech and Audio Coding Standard," in 131st Convention of the AES, New York, USA, 2011.
[3] A. Walther, C. Uhle, and S. Disch, "Using Transient Suppression in Blind Multi-channel Upmix Algorithms," in Proceedings, 122nd AES Pro Audio Expo and Convention, May 2007.
[4] G. Hotho, S. van de Par, and J. Breebaart, "Multichannel coding of applause signals", EURASIP J. Adv. Signal Process, vol. 2008, Jan. 2008. [Online]. Available: http://dx.doi.org/10.1155/2008/531693
[5] D. FitzGerald, "Harmonic/Percussive Separation Using Median Filtering," in Proceedings of the 13th International Conference on Digital Audio Effects (DAFx-10), Graz, Austria, 2010.
[6] J. P. Bello, L. Daudet, S. Abdallah, C. Duxbury, M. Davies, and M. B. Sandler, "A Tutorial on Onset Detection in Music Signals," IEEE Transactions on Speech and Audio Processing, vol. 13, no. 5, pp. 1035-1047, 2005.
[7] M. Goto and Y. Muraoka, "Beat tracking based on multiple-agent architecture - a real-time beat tracking system for audio signals," in Proceedings of the 2nd International Conference on Multiagent Systems, 1996, pp. 103-110.
[8] A. Klapuri, "Sound onset detection by applying psychoacoustic knowledge," in Proceedings of the International Conference on Acoustics, Speech, and Signal Processing (ICASSP), vol. 6, 1999, pp. 3089-3092 vol.6.
더욱이, WO 2010017967호는 입력 오디오 신호에 기초하여 공간 출력 다채널 오디오 신호를 결정하기 위한 장치를 개시하며, 그 장치는, 전경 신호 부분인 제1 분해된 신호 및 배경 신호 부분인 제2 분해된 신호로 입력 오디오 신호를 분해하기 위한 시맨틱 분해기(semantic decomposer)를 포함한다. 더욱이, 렌더러는, 진폭 패닝(panning)을 사용하여 전경 신호 부분을 렌더링하고, 역상관(decorrelation)에 의해 배경 신호 부분을 렌더링하도록 구성된다. 마지막으로, 제1 렌더링된 신호 및 제2 렌더링된 신호는 공간 출력 다채널 오디오 신호를 획득하기 위해 프로세싱된다.
더욱이, 참조문헌들 [1] 및 [2]는 트랜션트 스티어링 역상관기(transient steering decorrelator)를 개시한다.
아직 공개되지 않은 유럽 출원 제 16156200.4호는 고해상도 엔벨로프 프로세싱을 개시한다. 고해상도 엔벨로프 프로세싱은, 박수(applause), 빗방울 소리들 등과 같은 많은 조밀한 트랜션트 이벤트들로 주로 이루어진 신호들의 개선된 코딩을 위한 툴이다. 인코더 측에서, 툴은, 입력 신호를 분석하고, 트랜션트 이벤트들의 고주파수 부분을 감쇠시키고 그에 따라 시간적으로 평탄화시켜, 스테레오 신호들에 대해 1 내지 4kbps와 같은 작은 양의 사이드(side) 정보를 생성함으로써 실제 지각 오디오 코덱 이전에 높은 시간 해상도를 갖는 프리프로세서로서 작동한다. 디코더 측에서, 툴은, 인코딩 동안 생성되었던 사이드 정보를 이용하여, 트랜션트 이벤트들의 고주파수 부분을 부스팅하고 그에 따라 시간적으로 형상화시킴으로써 오디오 코덱 이후 포스트프로세서로서 작동한다.
업믹싱(upmix)은 일반적으로 다이렉트(direct) 및 주변 신호 부분들로의 신호 분해를 수반하며, 여기서, 다이렉트 신호는 라우드스피커들 사이에서 패닝되고, 주변 부분은 주어진 수의 채널들에 걸쳐 역상관 및 분배된다. 주변 신호들 내의 트랜션트들과 같은 나머지 다이렉트 성분들은 업믹싱된 사운드 장면에서 결과적으로 인지된 앰비언스(ambience)의 손상을 유발한다. [3]에서, 주변 신호 내에서 검출된 트랜션트들을 감소시키는 트랜션트 검출 및 프로세싱이 제안된다. 트랜션트 검출을 위해 제안된 하나의 방법은, 하나의 시간 블록 내의 빈들의 주파수 가중된 합과, 특정한 블록이 억제되어야 하는지 여부를 결정하기 위한 가중된 장시간 구동 수단 사이의 비교를 포함한다.
[4]에서, 박수 신호들의 효율적인 공간 오디오 코딩이 다뤄진다. 제안된 다운믹스- 및 업믹스 방법들 모두가 전체 박수 신호에 대해 작동된다.
더욱이, 참조문헌 [5]는 하모닉/퍼커시브(percussive) 분리를 개시하며, 여기서, 신호들은 수평 및 수직 방향으로 스펙트로그램에 미디언 필터(median filter)들을 적용함으로써 하모닉 및 퍼커시브 신호 성분들로 분리된다.
참조문헌 [6]은 주파수 도메인 접근법들, 시초(onset) 검출의 맥락에서 엔벨로프 팔로워(follower) 또는 에너지 팔로워와 같은 시간 도메인 접근법들을 포함하는 튜토리얼(tutorial)을 표현한다. 참고문헌 [7]은 주파수 도메인에서 전력의 급격한 증가와 같은 전력 추적을 개시하고, 참고문헌 [8]은 시초 검출의 목적을 위한 신규성(novelty) 측정을 개시한다.
선행 기술의 참고문헌들에 설명된 바와 같은 신호의 전경 및 배경 신호 부분으로의 분리는, 그러한 알려진 절차들이 결과 신호 또는 분해된 신호들의 감소된 오디오 품질을 초래할 수 있다는 사실로 인해 불리하다.
오디오 신호를 배경 성분 신호 및 전경 성분 신호로 분해하려는 목적을 위한 개선된 개념을 제공하는 것이 본 발명의 목적이다.
이러한 목적은, 청구항 제1항에 따른, 오디오 신호를 배경 성분 신호 및 전경 성분 신호로 분해하기 위한 장치, 청구항 제22항에 따른, 오디오 신호를 배경 성분 신호 및 전경 성분 신호로 분해하기 위한 방법, 또는 청구항 제23항에 따른 컴퓨터 프로그램에 의해 달성된다.
일 양상에서, 오디오 신호를 배경 성분 신호 및 전경 성분 신호로 분해하기 위한 장치는, 오디오 신호 값들의 블록들의 시간 시퀀스를 생성하기 위한 블록 생성기, 블록 생성기에 연결된 오디오 신호 분석기, 및 블록 생성기 및 오디오 신호 분석기에 연결된 분리기를 포함한다. 제1 양상에 따르면, 오디오 신호 분석기는, 오디오 신호의 현재 블록의 블록 특성 및 블록들의 그룹에 대한 평균 특성을 결정하도록 구성되며, 블록들의 그룹은 적어도 2개의 블록들, 이를테면 선행 블록, 현재 블록 및 후속 블록 또는 심지어 더 선행 블록들 또는 더 후속 블록들을 포함한다.
분리기는, 현재 블록의 블록 특성과 평균 특성의 비율에 응답하여 현재 블록을 배경 부분 및 전경 부분으로 분리시키도록 구성된다. 따라서, 배경 성분 신호는 현재 블록의 배경 부분을 포함하고, 전경 성분 신호는 현재 블록의 전경 부분을 포함한다. 따라서, 현재 블록은 배경 또는 전경 중 어느 하나인 것으로 간단히 결정되지 않는다. 대신, 현재 블록은 실제로, 비-제로 배경 부분 및 비-제로 전경 부분으로 분리된다. 이러한 절차는, 통상적으로 전경 신호가 신호 내에 단독으로 결코 존재하는 것이 아니라 항상 배경 신호 성분에 결합되는 상황을 반영한다. 따라서, 본 발명은 이러한 제1 양상에 따르면, 특정한 임계화가 수행되는지 여부와 관계없이, 어떠한 임계치도 없거나 또는 비율에 의해 특정한 임계치에 도달할 경우, 실제 분리가 이루어지며, 전경 부분에 부가하여 배경 부분이 항상 유지되는 상황을 반영한다.
더욱이, 분리는 매우 특정한 분리 수단, 즉 적어도 2개의 블록들로부터 도출된, 즉 블록들의 그룹으로부터 도출된 평균 특성과 현재 블록의 블록 특성의 비율에 의해 행해진다. 따라서, 블록들의 그룹의 사이즈에 의존하여, 매우 느리게 변하는 이동 평균 또는 매우 급속하게 변하는 이동 평균이 세팅될 수 있다. 블록들의 그룹 내의 많은 수의 블록들에 대해, 이동 평균은 비교적 느리게 변하는 반면, 블록들의 그룹 내의 적은 수의 블록들에 대해, 이동 평균은 매우 급속하게 변한다. 더욱이, 현재 블록으로부터의 특성과 블록들의 그룹에 걸친 평균 특성 사이의 관계의 사용은, 즉 평균에 관한 이러한 블록의 특성 사이의 비율이 특정한 값에 있는 경우, 전경 성분을 포함하는 것으로서 특정한 블록을 개인들이 인지하는 지각적 상황을 반영한다. 그러나, 이러한 양상에 따르면, 이러한 특정한 값은 반드시 임계치일 필요는 없다. 대신, 비율 그 자체는 배경 부분 및 전경 부분으로의 현재 블록의 양적 분리를 수행하기 위해 이미 사용될 수 있다. 높은 비율은, 현재 블록의 높은 부분이 전경 부분인 것을 초래하는 반면, 낮은 비율은, 현재 블록의 대부분 또는 모두가 배경 부분에 남아있고, 현재 블록이 작은 전경 부분만을 갖거나 또는 어떠한 전경 부분도 전혀 갖지 않는 상황을 초래한다.
바람직하게, 진폭-관련 특성이 결정되며, 현재 블록의 에너지와 같은 이러한 진폭-관련 특성은, 어떤 분리가 수행되는지에 기초하여, 비율을 획득하기 위해 블록들의 그룹의 평균 에너지와 비교된다. 분리에 응답하여 배경 신호가 남아있는 것을 확인하기 위해, 이득 인자가 결정되며, 이어서, 이러한 이득 인자는, 특정한 블록의 평균 에너지가 배경 또는 잡음형 신호 내에 얼마나 많이 남아있는지 그리고, 예를 들어, 박수소리(clap) 신호 또는 빗방울 신호 등과 같은 트랜션트 신호일 수 있는 전경 신호 부분으로 어떤 부분이 진행하는지를 제어한다.
제1 양상에 부가하여 또는 제1 양상과는 별개로 사용될 수 있는 본 발명의 추가적인 제2 양상에서, 오디오 신호를 분해하기 위한 장치는 블록 생성기, 오디오 신호 분석기 및 분리기를 포함한다. 오디오 신호 분석기는 오디오 신호의 현재 블록의 특성을 분석하도록 구성된다. 오디오 신호의 현재 블록의 특성은 제1 양상에 관해 논의된 바와 같은 비율일 수 있지만, 대안적으로는 또한, 어떠한 평균화 없이 오직 현재 블록으로부터만 도출된 블록 특성일 수 있다. 더욱이, 오디오 신호 분석기는, 블록들의 그룹 내의 특성의 가변성을 결정하도록 구성되며, 여기서, 블록들의 그룹은 적어도 2개의 블록들, 및 바람직하게는 현재 블록이 있거나 또는 없는 적어도 2개의 선행 블록들 또는 현재 블록이 있거나 또는 없는 적어도 2개의 후속 블록들, 또는 또한 현재 블록이 있거나 또는 없는 적어도 2개의 선행 블록들, 적어도 2개의 후속 블록들 둘 모두를 포함한다. 바람직한 실시예들에서, 블록들의 수는 30 또는 심지어 40보다 크다.
더욱이, 분리기는 현재 블록을 배경 부분 및 전경 부분으로 분리시키도록 구성되며, 여기서 이러한 분리기는, 신호 분리기에 의해 결정된 가변성에 기초하여 분리 임계치를 결정하며, 현재 블록의 특성이 분리 임계치와 미리 결정된 관계에 있는 경우, 이를테면 분리 임계치보다 크거나 또는 그와 동일한 경우, 현재 블록을 분리시키도록 구성된다. 당연히, 임계치가 일종의 역 값인 것으로 정의될 경우, 미리 결정된 관계는 관계보다 작거나, 또는 관계보다 작거나 또는 동일할 수 있다. 따라서, 특성이 분리 임계치와 미리 결정된 관계 내에 있는 경우, 배경 부분 및 전경 부분으로의 분리가 수행되는 반면, 특성이 분리 임계치와 미리 결정된 관계 내에 있지 않는 경우, 분리가 전혀 수행되지 않는 그러한 방식으로 임계화가 항상 수행될 수 있다.
블록들의 그룹 내의 특성의 가변성에 의존하는 가변 임계치를 사용하는 제2 양상에 따르면, 분리는 완전한 분리일 수 있으며, 즉, 분리가 수행될 경우 오디오 신호 값들의 전체 블록이 전경 성분으로 도입되거나, 또는 가변 분리 임계치에 관한 미리 결정된 관계가 만족되지 않는 경우 오디오 신호 값들의 전체 블록이 배경 신호 부분과 유사하다. 바람직한 실시예에서, 이러한 양상은, 가변 임계치가 특성과 미리 결정된 관계에 있다고 발견되자마자, 비-바이너리 분리가 수행되며, 즉 오디오 신호 값들의 일부만이 전경 신호 부분으로 들어가고, 나머지 부분이 배경 신호에 남겨진다는 점에서 제1 양상과 결합된다.
바람직하게, 전경 신호 부분 및 배경 신호 부분에 대한 부분의 분리는 이득 인자에 기초하여 결정되고, 즉, 동일한 신호 값들은 결국, 전경 신호 부분 및 배경 신호 부분 내에 있지만, 상이한 부분들 내의 신호 값들의 에너지는 서로 상이하며, 현재 블록 그 자체의 블록 특성 또는 현재 블록과 연관된 블록들의 그룹에 대한 평균 특성과 현재 블록에 대한 블록 특성 사이의 현재 블록에 대한 비율과 같은 특성에 결국 의존하는 분리 이득에 의해 결정된다.
가변 임계치의 사용은, 매우 정적인 신호로부터의 작은 편차가 있는 경우라도, 즉 특정한 신호가 매우 정적인 것으로, 즉 상당한 변동들을 갖지 않는 것으로 고려될 경우, 개인들이 전경 신호 부분을 인지하는 상황을 반영한다. 이어서, 심지어 작은 변동도 전경 신호 부분인 것으로 이미 인지된다. 그러나, 매우 변동하는 신호가 존재하는 경우, 매우 변동하는 신호 그 자체가 배경 신호 성분인 것으로 인지되며, 이러한 패턴의 변동들로부터의 작은 편차가 전경 신호 부분인 것으로 인지되지 않는 것으로 보인다. 평균 또는 기대 값으로부터의 더 강한 편차들만이 전경 신호 부분인 것으로 인지된다. 따라서, 작은 분산을 갖는 신호들에 대해 매우 작은 분리 임계치를 사용하고, 높은 분산을 갖는 신호들에 대해 더 높은 분리 임계치를 사용하는 것이 바람직하다. 그러나, 역 값들이 고려될 경우, 상황은 위의 것과 반대이다.
양상들 둘 모두, 즉 블록 특성과 평균 특성 사이의 비율에 기초한 전경 신호 부분 및 배경 신호 부분으로의 비-바이너리 분리를 갖는 제1 양상 및 블록들의 그룹 내의 특성의 가변성에 의존하는 가변 임계치를 포함하는 제2 양상은 서로 별개로 사용될 수 있거나, 또는 심지어 함께, 즉 서로 조합하여 사용될 수 있다. 후자의 대안은 아래에서 설명되는 바와 같이 바람직한 실시예를 구성한다.
본 발명의 실시예들은 시스템에 관련되며, 여기서, 입력 신호는 개별 프로세싱이 적용될 수 있는 2개의 신호 성분들로 분해되고, 프로세싱된 신호들은 출력 신호를 형성하기 위해 재합성된다. 박수 및 또한 다른 트랜션트 신호들은, 뚜렷하게 개별적으로 인지가능한 트랜션트 박수소리 이벤트들과 더 잡음형인 배경 신호의 중첩으로서 보여질 수 있다. 그러한 신호들의 전경 및 배경 신호 밀도의 비율 등과 같은 특성들을 수정하기 위해, 개별 프로세싱을 각각의 신호 부분에 적용할 수 있는 것이 유리하다. 부가적으로, 사람의 지각에 의해 동기부여된 신호 분리가 획득된다. 더욱이, 개념은 또한, 이를테면 전송기 사이트 상에서 신호 특성들을 측정하고 수신기 사이트 상에서 이들 특성들을 복원하기 위한 측정 디바이스로서 사용될 수 있다.
본 발명의 실시예들은 배타적으로, 다채널 공간 출력 신호를 생성하는 것을 목표로 하지 않는다. 모노 입력 신호가 분해되고, 개별 신호 부분들이 프로세싱되어 모노 출력 신호로 재합성된다. 일부 실시예들에서, 제1 또는 제2 양상에서 정의된 바와 같은 개념은 가청 신호 대신 측정들 또는 사이드 정보를 출력한다.
부가적으로, 분리는 시맨틱 양상보다는 지각적인 양상 및 바람직하게는 양적인 특성 또는 값에 기초한다.
실시예들에 따르면, 분리는, 고려된 짧은 시간 프레임 내의 평균 에너지에 관한 순시 에너지의 편차에 기초한다. 그러한 시간 프레임에서 평균 에너지에 가까운 또는 그 미만의 에너지 레벨을 갖는 트랜션트 이벤트가 배경과 실질적으로 상이한 것으로 인지되지 않지만, 높은 에너지 편차를 갖는 이벤트들은 배경 신호와 구별될 수 있다. 이러한 종류의 신호 분리는 원리를 채용하며, 트랜션트 이벤트들의 사람의 인지에 더 가깝고 배경 이벤트들에 비해 전경 이벤트들의 인지에 더 가까운 프로세싱을 허용한다.
후속하여, 본 발명의 바람직한 실시예들은 첨부한 도면들에 관해 논의된다.
도 1a는 제1 양상에 따라, 비율에 의존하여 오디오 신호를 분해하기 위한 장치의 블록 다이어그램이다.
도 1b는 제2 양상에 따라, 가변 분리 임계치에 의존하여 오디오 신호를 분해하기 위한 개념의 일 실시예의 블록 다이어그램이다.
도 1c는 제1 양상, 제2 양상 또는 양상들 둘 모두에 따라, 오디오 신호를 분해하기 위한 장치의 블록 다이어그램을 예시한다.
도 1d는 제1 양상, 제2 양상 또는 양상들 둘 모두에 따른 오디오 신호 분석기 및 분리기의 바람직한 예시를 예시한다.
도 1e는 제2 양상에 따른 신호 분리기의 일 실시예를 예시한다.
도 1f는 제1 양상, 제2 양상에 따라 그리고 상이한 임계치들을 참조함으로써 오디오 신호를 분해하기 위한 개념의 설명을 예시한다.
도 2는 제1 양상, 제2 양상 또는 양상들 둘 모두에 따라, 현재 블록의 오디오 신호 값들을 전경 성분 및 배경 성분으로 분리시키기 위한 2개의 상이한 방식들을 예시한다.
도 3은 블록 생성기에 의해 생성된 중첩 블록들, 및 분리에 후속하는 시간 도메인 전경 성분 신호들 및 배경 성분 신호들의 생성의 개략적인 표현을 예시한다.
도 4a는 원시(raw) 가변성들의 평활화에 기초하여 가변 임계치를 결정하기 위한 제1 대안을 예시한다.
도 4b는 원시 임계치들의 평활화에 기초한 가변 임계치의 결정을 예시한다.
도 4c는 (평활화된) 가변성들을 임계치들에 맵핑하기 위한 상이한 함수들을 예시한다.
도 5는 제2 양상에서 요구되는 바와 같은 가변성을 결정하기 위한 바람직한 구현을 예시한다.
도 6은 분리, 전경 프로세싱 및 배경 프로세싱 그리고 후속 신호 재합성에 걸친 일반적인 개관을 예시한다.
도 7은 메타데이터가 있거나 또는 없는 신호 특성들의 측정 및 복원을 예시한다.
도 8은 인코더-디코더 사용 경우에 대한 블록 다이어그램을 예시한다.
도 1b는 제2 양상에 따라, 가변 분리 임계치에 의존하여 오디오 신호를 분해하기 위한 개념의 일 실시예의 블록 다이어그램이다.
도 1c는 제1 양상, 제2 양상 또는 양상들 둘 모두에 따라, 오디오 신호를 분해하기 위한 장치의 블록 다이어그램을 예시한다.
도 1d는 제1 양상, 제2 양상 또는 양상들 둘 모두에 따른 오디오 신호 분석기 및 분리기의 바람직한 예시를 예시한다.
도 1e는 제2 양상에 따른 신호 분리기의 일 실시예를 예시한다.
도 1f는 제1 양상, 제2 양상에 따라 그리고 상이한 임계치들을 참조함으로써 오디오 신호를 분해하기 위한 개념의 설명을 예시한다.
도 2는 제1 양상, 제2 양상 또는 양상들 둘 모두에 따라, 현재 블록의 오디오 신호 값들을 전경 성분 및 배경 성분으로 분리시키기 위한 2개의 상이한 방식들을 예시한다.
도 3은 블록 생성기에 의해 생성된 중첩 블록들, 및 분리에 후속하는 시간 도메인 전경 성분 신호들 및 배경 성분 신호들의 생성의 개략적인 표현을 예시한다.
도 4a는 원시(raw) 가변성들의 평활화에 기초하여 가변 임계치를 결정하기 위한 제1 대안을 예시한다.
도 4b는 원시 임계치들의 평활화에 기초한 가변 임계치의 결정을 예시한다.
도 4c는 (평활화된) 가변성들을 임계치들에 맵핑하기 위한 상이한 함수들을 예시한다.
도 5는 제2 양상에서 요구되는 바와 같은 가변성을 결정하기 위한 바람직한 구현을 예시한다.
도 6은 분리, 전경 프로세싱 및 배경 프로세싱 그리고 후속 신호 재합성에 걸친 일반적인 개관을 예시한다.
도 7은 메타데이터가 있거나 또는 없는 신호 특성들의 측정 및 복원을 예시한다.
도 8은 인코더-디코더 사용 경우에 대한 블록 다이어그램을 예시한다.
도 1a는 오디오 신호를 배경 성분 신호 및 전경 성분 신호로 분해하기 위한 장치를 예시한다. 오디오 신호는 오디오 신호 입력(100)에 입력된다. 오디오 신호 입력은, 라인(112)에서 출력되는 오디오 신호 값들의 블록들의 시간 시퀀스를 생성하기 위해 블록 생성기(110)에 연결된다. 더욱이, 장치는, 오디오 신호의 현재 블록의 블록 특성을 결정하고, 부가적으로 블록들의 그룹에 대한 평균 특성을 결정하기 위한 오디오 신호 분석기(120)를 포함하며, 여기서, 블록들의 그룹은 적어도 2개의 블록들을 포함한다. 바람직하게, 블록들의 그룹은 적어도 하나의 선행 블록 또는 적어도 하나의 후속 블록, 및 부가적으로는 현재 블록을 포함한다.
더욱이, 장치는 현재 블록의 블록 특성과 평균 특성의 비율에 응답하여 현재 블록을 배경 부분 및 전경 부분으로 분리시키기 위한 분리기(130)를 포함한다. 따라서, 현재 블록의 블록 특성과 평균 특성의 비율은 특성으로서 사용되며, 그에 기초하여, 오디오 신호 값들의 현재 블록의 분리가 수행된다. 특히, 신호 출력(140)에서의 배경 성분 신호는 현재 블록의 배경 부분을 포함하고, 전경 성분 신호 출력(150)에서 출력된 전경 성분 신호는 현재 블록의 전경 부분을 포함한다. 도 1a에 예시된 절차는 블록 단위로 수행되며, 즉 블록들의 시간 시퀀스의 하나의 블록은 다른 블록 이후에 프로세싱되어, 결국, 입력(100)에서 입력되는 오디오 신호 값들의 블록들의 시퀀스가 프로세싱될 경우, 배경 성분 신호의 블록들의 대응하는 시퀀스 및 전경 성분 신호의 블록들의 동일한 시퀀스가 도 3에 대해 아래에서 논의될 바와 같이 라인들(140, 150)에 존재한다.
바람직하게, 오디오 신호 분석기는 현재 블록의 블록 특성으로서 진폭-관련 측정을 분석하도록 구성되며, 부가적으로, 오디오 신호 분석기(120)는 블록들의 그룹에 대한 진폭-관련 특성을 또한 부가적으로 분석하도록 구성된다.
바람직하게, 현재 블록에 대한 전력 측정 또는 에너지 측정 및 블록들의 그룹에 대한 평균 전력 측정 또는 평균 에너지 측정은 오디오 신호 분석기에 의해 결정되며, 현재 블록에 대한 이들 2개의 값들 사이의 비율은 분리를 수행하도록 분리기(130)에 의해 사용된다.
도 2는 제1 양상에 따라 도 1a의 분리기(130)에 의해 수행되는 절차를 예시한다. 단계(200)는, 예를 들어, 제1 양상에 따른 비율 또는 반드시 비율일 필요는 없지만 또한 블록 특성만일 수 있는 제2 양상에 따른 특성의 결정을 표현한다.
단계(202)에서, 분리 이득이 비율 또는 특성으로부터 계산된다. 이어서, 단계(204)에서의 임계치 비교가 선택적으로 수행될 수 있다. 임계치 비교가 단계(204)에서 수행될 경우, 결과는, 특성이 임계치와 미리 결정된 관계에 있다는 것일 수 있다. 이러한 경우, 제어는 단계(206)로 진행한다. 그러나, 특성이 미리 결정된 임계치와 관계되지 않는다고 단계(204)에서 결정될 경우, 어떠한 분리도 수행되지 않으며, 제어는 블록들의 시퀀스에서 다음 블록으로 진행한다.
제1 양상에 따르면, 단계(204)에서의 임계치 비교가 수행될 수 있거나 또는 대안적으로는 파선(208)에 의해 예시된 바와 같이 수행되지 않을 수 있다. 특성이 분리 임계치와 미리 결정된 관계에 있다고 블록(204)에서 결정되는 경우 또는 라인(208)의 대안에서는, 임의의 경우에서, 단계(206)이 수행되며, 여기서, 오디오 신호들은 분리 이득을 사용하여 가중된다. 이를 위해, 단계(206)는 라인(210)에 의해 예시된 바와 같이, 시간 표현 또는 바람직하게는 스펙트럼 표현으로 입력 오디오 신호의 오디오 신호 값들을 수신한다. 이어서, 분리 이득의 적용에 의존하여, 전경 성분(C)은 도 2 바로 아래의 수학식에 의해 예시된 바와 같이 계산된다. 구체적으로, gN 및 비율 의 함수인 분리 이득은 직접적으로 사용되는 것이 아니라 차이의 형태로 사용되며, 즉 함수는 1로부터 감산된다. 대안적으로, 배경 성분(N)은, 의 함수에 의해 오디오 신호 A(k,n)를 실제로 가중시킴으로써 직접 계산될 수 있다.
도 2는 분리기(130)에 의해 모두 수행될 수 있는 전경 성분 및 배경 성분을 계산하기 위한 수개의 가능성들을 예시한다. 하나의 가능성은 성분들 둘 모두가 분리 이득을 사용하여 계산된다는 것이다. 대안은, 전경 성분만이 분리 이득을 사용하여 계산되고, 배경 성분(N)이 210에서 예시된 바와 같이, 오디오 신호 값들로부터 전경 성분을 감산함으로써 계산된다는 것이다. 그러나, 다른 대안은, 배경 성분(N)이 블록(206)에 의해 분리 이득을 사용하여 직접 계산되고, 이어서 배경 성분(N)이 오디오 신호(A)로부터 감산되어 전경 성분(C)을 최종적으로 획득한다는 것이다. 따라서, 도 2는 배경 성분 및 전경 성분을 계산하기 위한 3개의 상이한 실시예들을 예시하지만, 이들 대안들 각각은 적어도, 분리 이득을 사용하는 오디오 신호 값들의 가중을 포함한다.
후속하여, 도 1b는 가변 분리 임계치에 의존하는 본 발명의 제2 양상을 설명하기 위해 예시된다.
제2 양상을 표현하는 도 1b는 블록 생성(110)으로 입력되는 오디오 신호(100)에 의존하며, 블록 생성기는 연결 라인(122)을 통해 오디오 신호 분석기(120)에 연결된다. 더욱이, 오디오 신호는 추가적인 연결 라인(111)을 통해 직접 오디오 신호 분석기로 입력될 수 있다. 오디오 신호 분석기(120)는, 한편으로는 오디오 신호의 현재 블록의 특성을 결정하고, 부가적으로는 블록들의 그룹 내의 특성의 가변성을 결정하도록 구성되며, 블록들의 그룹은 적어도 2개의 블록들을 포함하고, 바람직하게는 적어도 2개의 선행 블록들 또는 2개의 후속 블록들 또는 적어도 2개의 선행 블록들, 적어도 2개의 후속 블록들 및 현재 블록을 또한 포함한다.
현재 블록의 특성 및 특성의 가변성 둘 모두는 연결 라인(129)을 통해 분리기(130)에 포워딩된다. 이어서, 분리기는, 배경 성분 신호(140) 및 전경 성분 신호(150)를 생성하기 위해 현재 블록을 배경 부분 및 전경 부분으로 분리시키도록 구성된다. 특히, 분리기는 제2 양상에 따라, 오디오 신호 분석기에 의해 결정된 가변성에 기초하여 분리 임계치를 결정하며, 현재 블록의 특성이 분리 임계치와 미리 결정된 관계에 있는 경우, 현재 블록을 배경 성분 신호 부분 및 전경 성분 신호 부분으로 분리시키도록 구성된다. 그러나, 현재 블록의 특성이 (가변) 분리 임계치와 미리 결정된 관계에 있지 않은 경우, 현재 블록의 어떠한 분리도 수행되지 않으며, 전체 현재 블록이 포워딩되거나 또는 배경 성분 신호(140)로서 사용 또는 할당된다.
구체적으로, 분리기(130)는, 제1 가변성에 대한 제1 분리 임계치 및 제2 가변성에 대한 제2 분리 임계치를 결정하도록 구성되며, 여기서, 제1 분리 임계치는 제2 분리 임계치보다 낮고, 제1 가변성은 제2 가변성보다 낮으며, 미리 결정된 관계는 "보다 크다".
일 예가 도 4c의 좌측 부분에 예시되며, 여기서, 제1 분리 임계치가 401에서 표시되고, 제2 분리 임계치가 402에서 표시되고, 제1 가변성이 501에서 표시되며, 제2 가변성이 502에서 표시된다. 특히, 분리 임계치를 표현하는 상위 구분별(piecewise) 선형 함수(410)에 대한 참조가 이루어지는 반면, 도 4c의 하위 구분별 선형 함수(412)는 이후에 설명될 릴리즈(release) 임계치를 예시한다. 도 4c는 증가하는 가변성들에 대해, 증가하는 임계치들이 결정되도록 하는 임계치들이 존재하는 상황을 예시한다. 그러나, 예를 들어, 도 4c의 임계치 값들에 대한 역 임계치 값들이 취해지는 그러한 방식으로 상황이 구현될 경우, 분리기가 제1 가변성에 대한 제1 분리 임계치 및 제2 가변성에 대한 제2 분리 임계치를 결정하도록 구성되게 하는 상황이 존재하며, 여기서, 제1 분리 임계치는 제2 분리 임계치보다 크고, 제1 가변성은 제2 가변성보다 크고, 이러한 상황에서, 미리 결정된 관계는, 도 4c에 예시된 제1 대안에서와 같은 "보다 높음"보다는 "보다 낮다".
특정한 구현들에 의존하여, 분리기(130)는, 도 4c의 좌측 부분 또는 우측 부분에 예시된 함수들이 저장되어 있는 테이블 액세스를 사용하여 또는 제1 분리 임계치(401)와 제2 분리 임계치(402) 사이를 보간하는 단조 보간 함수에 따라 (가변) 분리 임계치를 결정하여, 제3 가변성(503)에 대해 제3 분리 임계치(403)가 획득되고 제4 가변성(504)에 대해 제4 임계치가 획득되도록 구성되며, 여기서, 제1 분리 임계치(401)는 제1 가변성(501)과 연관되고, 제2 분리 임계치(402)는 제2 가변성(502)과 연관되고, 제3 및 제4 가변성들(503, 504)은 그들의 값들에 관해, 제1 및 제2 가변성들 사이에 위치되며, 제3 및 제4 분리 임계치들(403, 404)은 그들의 값들에 관해, 제1 및 제2 분리 임계치들(401, 402) 사이에 위치된다.
도 4c의 좌측 부분에 예시된 바와 같이, 단조 보간은 선형 함수이거나, 또는 도 4c의 우측 부분에 예시된 바와 같이, 단조 보간 함수는 1보다 큰 차수를 갖는 삼차 함수(cube function) 또는 임의의 멱함수(power function)이다.
도 6은 박수 신호 분리, 프로세싱 및 프로세싱된 신호들의 합성의 최상위-레벨 블록 다이어그램을 도시한다.
특히, 도 6에 상세히 예시된 분리 스테이지(600)는 입력 오디오 신호(a(t))를 배경 신호(n(t)) 및 전경 신호(c(t))로 분리시키며, 배경 신호는 배경 프로세싱 스테이지(602)로 입력되고, 전경 신호는 전경 프로세싱 스테이지(604)로 입력되며, 프로세싱에 후속하여, 신호들(n'(t) 및 c'(t)) 둘 모두는 프로세싱된 신호(a'(t))를 최종적으로 획득하도록 결합기(606)에 의해 결합된다.
바람직하게, 뚜렷하게 인지가능한 박수소리들(c(t)) 및 더 잡음형인 배경 신호들(n(t))로의 입력 신호(a(t))의 신호 분리/분해에 기초하여, 분해된 신호 부분들의 개별적인 프로세싱이 실현된다. 프로세싱 이후, 수정된 전경 및 배경 신호들(c'(t) 및 n'(t))이 재합성되어 출력 신호(a'(t))를 발생시킨다.
도 1c는 선호된 박수 분리 스테이지의 최상위-레벨 다이어그램을 예시한다. 박수 모델은 수학식 1에서 주어지고 도 1f에 예시되며, 여기서, 박수 신호(A(k,n))는 뚜렷하고 개별적으로 인지가능한 전경 박수소리들(C(k,n)) 및 더 잡음형인 배경 신호(N(k,n))의 중첩으로 이루어진다. 신호들은 높은 시간 해상도를 갖는 주파수 도메인에서 고려되지만, k 및 n은, 각각 짧은-시간 주파수 변환의 별개의 주파수 k 및 시간 n 인덱스들을 나타낸다.
특히, 도 1c의 시스템은, 블록 생성기로서의 DFT 프로세서(110), 도 1a 또는 도 1b의 오디오 신호 분석기(120) 및 분리기(130)의 기능들 및 가중기(152)와 같은 추가적인 신호 분리기 스테이지들을 가져서, 도 2의 단계(206)에 관해 논의된 기능을 수행하는 전경 검출기, 및 도 2의 단계(210)에 예시된 기능을 구현하는 감산기(154)를 예시한다. 더욱이, 대응하는 주파수 도메인 표현으로부터, 시간 도메인 전경 신호(c(t))와 배경 신호(n(t))를 합성하는 신호 합성기가 제공되며, 여기서, 신호 합성기는 각각의 신호 성분에 대해, DFT 블록(160a, 160b)을 포함한다.
박수 입력 신호(a(t)), 즉 배경 성분들 및 박수 성분들을 포함하는 입력 신호는 신호 스위치(도 1c에 도시되지 않음) 뿐만 아니라 전경 검출기(150)로 공급되며, 여기서, 신호 특성들에 기초하여, 전경 박수소리들에 대응하는 프레임들이 식별된다. 검출기 스테이지(150)는, 신호 스위치로 공급되는 분리 이득(gs (n))을 출력하며, 뚜렷하고 개별적으로 인지가능한 박수소리 신호(C(k,n)) 및 더 잡음형인 신호(N(k,n))로 라우팅되는 신호 양들을 제어한다. 신호 스위치는 제2 양상에 따라, 바이너리 스위치, 즉 특정한 프레임 또는 시간/주파수 타일, 즉 특정한 프레임의 특정한 주파수 빈만이 C 또는 N 중 어느 하나로 라우팅되는 것을 예시하기 위해 블록(170)에 예시된다. 제1 양상에 따르면, 이득은 스펙트럼 표현(A(k,n))의 각각의 프레임 또는 수개의 주파수 빈들을 전경 성분 및 배경 성분으로 분리시키기 위해 사용되어서, 제1 양상에 따른 블록 특성과 평균 특성 사이의 비율에 의존하는 이득(gs (n))에 따라, 전체 프레임 또는 적어도 하나 이상의 시간/주파수 타일들 또는 주파수 빈들이 분리되어, 신호들(C 및 N) 각각 내의 대응하는 빈은 동일한 값을 갖지만 상이한 진폭을 가지며, 여기서, 진폭들의 관계는 gs(n)에 의존한다.
도 1d는, 오디오 신호 분석기의 기능들을 구체적으로 예시하는 전경 검출기(150)의 더 상세한 실시예를 예시한다. 일 실시예에서, 오디오 신호 분석기는 도 1c의 DFT(이산 푸리에 변환) 블록(110)을 갖는 블록 생성기에 의해 생성된 스펙트럼 표현을 수신한다. 더욱이, 오디오 신호 분석기는 블록(170)에서 특정한 미리 결정된 크로스-오버(cross-over) 주파수를 이용하여 고역 통과 필터링을 수행하도록 구성된다. 이어서, 도 1a 또는 도 1b의 오디오 신호 분석기(120)는 블록(172)에서 에너지 추출 절차를 수행한다. 에너지 추출 절차는 현재 블록의 인스턴트 또는 현재 에너지() 및 평균 에너지()를 초래한다.
이어서, 도 1a 또는 도 1b의 신호 분리기(130)는 180에서 예시된 바와 같이 비율을 결정하며, 그리고 부가적으로, 적응적 또는 비-적응적 임계치를 결정하고, 대응하는 임계화 연산(182)을 수행한다.
더욱이, 제2 양상에 따른 적응적 임계화 연산이 수행될 경우, 오디오 신호 분석기는 부가적으로, 블록(174)에서 예시된 바와 같이 엔벨로프 가변성 추정을 수행하며, 아래에서 설명될 바와 같이, 가변성 측정(v(n))은 분리기, 및 특히 적응적 임계화 프로세싱 블록(182)으로 포워딩되어, 이득(gs(n))을 최종적으로 획득한다.
전경 신호 검출기의 내부들의 흐름도가 도 1d에 도시된다. 상부 경로만이 고려되면, 이것은 적응적 임계화가 없는 경우에 대응하지만, 하부 경로가 또한 고려되면, 적응적 임계화가 가능하다. 전경 신호 검출기로 공급된 신호는 고역 통과 필터링되며, 그의 평균() 및 순시() 에너지가 추정된다. 신호(X(k, n))의 순시 에너지들은 에 의해 주어지며, 여기서, 는 벡터 놈(vector norm)을 나타내고, 평균 에너지는,
에 의해 주어지며, 여기서, w(n)은 순시 에너지 추정들에 적용되고 윈도우 길이 Lw = 2M + 1을 갖는 가중 윈도우를 나타낸다. 별개의 박수소리가 입력 신호 내에서 활성인지 여부에 관한 표시로서, 순시 및 평균 에너지의 에너지 비율()은 다음에 따라 사용된다.
적응적 임계화가 없는 더 간단한 경우에서, 에너지 비율이 공격(attack) 임계치()를 초과하는 시간 인스턴스의 경우, 입력 신호로부터 뚜렷한 박수소리 부분을 추출하는 분리 이득이 1로 세팅되며; 결과적으로, 잡음형 신호가 이들 시간 인스턴스들에서 제로이다. 하드(hard) 신호 스위칭을 갖는 시스템의 블록 다이어그램이 도 1e에 도시된다. 잡음형 신호에서 신호 드롭 아웃(drop out)들을 피할 필요가 있다면, 보정 항(correction term)이 이득으로부터 감산될 수 있다. 양호한 시작점은 입력 신호의 평균 에너지가 잡음형 신호 내에 남아있게 하는 것이다. 이것은 이득으로부터 또는 를 감산함으로써 행해진다. 평균 에너지의 양은 또한, 얼마나 많은 평균 에너지가 잡음형 신호 내에 남아있는지를 제어하는 이득 gN≥0을 도입함으로써 제어될 수 있다. 이것은 다음과 같은 분리 이득의 일반적인 형태를 유도한다:
추가적인 실시예에서, 위의 수학식은 다음의 수학식으로 대체된다:
유의: 이면, 뚜렷한 박수소리로 라우팅되는 신호의 양은 에너지 비율() 및 고정된 이득(gN)에만 의존하여, 신호 의존적 연판정(soft decision)을 산출한다. 매우 양호하게 튜닝된 시스템에서, 에너지 비율이 공격 임계치들을 초과하는 시간 기간은 실제 트랜션트 이벤트만을 포착한다. 일부 경우들에서, 공격이 발생된 이후 더 긴 시간 기간의 프레임들을 추출하는 것이 바람직할 수 있다. 이것은, 예를 들어, 분리 이득이 다시 제로로 세팅되기 전에 공격 이후 에너지 비율 ()이 감소해야 하는 레벨을 표시하는 릴리즈 임계치()를 도입함으로써 다음과 같이 행해질 수 있다.
추가적인 실시예에서, 직전의 수학식은 다음의 수학식으로 대체된다:
대안적이지만 더 정적인 방법은, 검출된 공격 이후 특정한 수의 프레임들을 뚜렷한 박수소리 신호로 간단히 라우팅하는 것이다.
임계화의 유연성을 증가시키기 위해, 임계치들은 신호 적응적 방식으로 선택되어, 및 을 각각 초래할 수 있다. 임계치들은, 박수 입력 신호의 엔벨로프의 가변성의 추정에 의해 제어되며, 여기서, 높은 가변성은 뚜렷하고 개별적으로 인지가능한 박수소리들의 존재를 표시하고, 다소 낮은 가변성은 더 잡음형이고 정적인 신호를 표시한다. 가변성 추정은 시간 도메인 뿐만 아니라 주파수 도메인에서 행해질 수 있다. 이러한 경우, 바람직한 방법은 주파수 도메인에서 추정을 행하는 것이며:
여기서, *는 콘볼루션(convolution)을 나타낸다. 엔벨로프 가변성의 대응하는 임계치 값들로의 맵핑은, 다음과 같도록 맵핑 함수들 fattack(x) 및 frelease(x)에 의해 행해질 수 있다:
일 실시예에서, 맵핑 함수는 임계치들의 선형 보간에 대응하는 클립핑(clip)된 선형 함수들로서 실현될 수 있다. 이러한 시나리오에 대한 구성은 도 4c에 도시된다. 더욱이, 일반적으로 더 높은 차수를 갖는 삼차(cubic) 맵핑 함수 또는 함수들이 또한 사용될 수 있다. 특히, 안장점(saddle point)들은 희박한 박수 및 조밀한 박수에 대해 정의된 값들 사이의 가변성 값들에 대한 여분의 임계치 레벨들을 정의하기 위해 사용될 수 있다. 이것은 도 4c의 우측에 예시적으로 예시된다.
분리된 신호들은 다음에 의해 획득된다:
도 1f는 도 1a 및 도 1b의 기능 블록들과 관련하여 그리고 개관으로, 위에서 논의된 수학식들을 예시한다.
더욱이, 도 1f는, 특정한 실시예에 의존하여, 단일 임계치 또는 이중 임계치가 적용되거나, 어떠한 임계치도 적용되지 않는 상황을 예시한다.
더욱이, 도 1f의 수학식들 (7) 내지 (9)에 관해 예시된 바와 같이, 적응적 임계치들이 사용될 수 있다. 당연히, 어느 하나의 단일 임계치가 단일 적응적 임계치로서 사용된다. 이어서, 수학식 (8)만이 활성일 것이고, 수학식 (9)는 활성이 아닐 것이다. 그러나, 특정한 바람직한 실시예에서 이중의 적응적 임계화를 수행하여, 제1 양상 및 제2 양상의 특징들을 함께 구현하는 것이 바람직하다.
더욱이, 도 7 및 도 8은, 본 발명이 본 발명의 특정한 애플리케이션을 어떻게 구현할지 있는지에 관한 추가적인 구현들을 예시한다.
특히, 도 7의 좌측 부분은, 배경 성분 신호 또는 전경 성분 신호의 신호 특성을 측정하기 위한 신호 특성 측정기(700)를 예시한다. 특히, 신호 특성 측정(700)은, 전경 성분 신호를 사용하는 전경 밀도 계산기를 예시하는 블록(702)에서 전경 밀도를 결정하도록 구성되거나, 또는 대안적으로 또는 부가적으로, 신호 특성 측정기는, 오리지널(original) 입력 신호(a(t))와 관련된 전경의 비(fraction)를 계산하는 전경 현저성(prominence) 계산기(704)를 사용하여 전경 현저성 계산을 수행하도록 구성된다.
대안적으로, 도 7의 우측 부분에 예시된 바와 같이, 전경 프로세서(604) 및 배경 프로세서(602)가 존재하며, 여기서, 이들 프로세서들은 도 6과는 반대로, 도 7의 좌측 부분에 의해 도출된 메타데이터일 수 있거나 또는 전경 프로세싱 및 배경 프로세싱을 수행하기 위한 임의의 다른 유용한 메타데이터일 수 있는 특정한 메타데이터()에 의존한다.
분리된 박수 신호 부분들은, 트랜션트 신호들의 특정한(지각적으로 동기부여된) 특성들이 측정될 수 있는 측정 스테이지들로 공급될 수 있다. 그러한 사용 경우에 대한 예시적인 구성이 도 7a에 도시되며, 여기서, 뚜렷하고 개별적으로 인지가능한 전경 박수소리들의 밀도 뿐만 아니라 총 신호 에너지에 관한 전경 박수소리들의 에너지 비가 추정된다.
전경 밀도()를 추정하는 것은 초당 이벤트 레이트, 즉 초당 검출된 박수소리들의 수를 카운팅함으로써 행해질 수 있다. 전경 현저성()은 다음과 같이, 추정된 전경 박수소리 신호(C(n) 및 A(n))의 에너지 비율에 의해 주어진다:
이전의 실시예에서, 신호 특성만이 측정되었지만, 시스템은 신호 특성들을 수정하는 데 사용된다. 일 실시예에서, 전경 프로세싱은 감소된 수의 검출된 전경 박수소리들을 출력하여, 더 낮은 밀도의 결과적인 출력 신호를 향한 밀도 수정을 초래할 수 있다. 다른 실시예에서, 전경 프로세싱은, 예를 들어, 지연된 버전의 전경 박수소리 신호를 그 자체에 부가함으로써, 증가된 수의 전경 박수소리들을 출력하여, 증가된 밀도를 향한 밀도 수정을 초래할 수 있다. 더욱이, 개개의 프로세싱 스테이지들에서 가중치들을 적용함으로써, 전경 박수소리들 및 잡음형인 배경의 밸런스가 수정될 수 있다. 부가적으로, 경로들 둘 모두에서 필터링, 잔향 부가, 지연 등과 같은 임의의 프로세싱은 박수 신호의 특성들을 수정하는 데 사용될 수 있다.
더욱이, 도 8은, 송신 또는 저장을 위해 전경 성분 신호의 인코딩된 표현 및 배경 성분 신호의 별개의 인코딩된 표현을 획득하기 위하여 전경 성분 신호 및 배경 성분 신호를 인코딩하기 위한 인코더 스테이지에 관한 것이다. 특히, 전경 인코더가 801에 예시되고, 배경 인코더가 802에 예시된다. 별개로 인코딩된 표현들(804 및 806)은, 별개의 표현들을 최종적으로 디코딩하는 전경 디코더(810) 및 배경 디코더(812)로 이루어진 디코더-측 디바이스(808)에 포워딩되며, 이어서, 디코딩된 표현들은 디코딩된 신호(a'(t))를 최종적으로 출력하도록 결합기(606)에 의해 결합된다.
후속하여, 추가적인 바람직한 실시예들이 도 3에 관해 논의된다. 특히, 도 3은 시간 라인(300) 상에서 주어진 입력 오디오 신호의 개략적인 표현을 예시하며, 여기서, 개략적인 표현은 시간적으로 중첩하는 블록들의 상황을 예시한다. 도 3에 예시된 것은 50%의 중첩 범위(302)가 존재하는 상황이다. 50% 초과 또는 50% 미만의 중첩 범위들(여기서, 50% 미만의 부분들만이 중첩함)을 갖는 다중첩 범위들과 같은 다른 중첩 범위들이 또한 사용가능하다.
도 3의 실시예에서, 블록은 통상적으로, 높은 시간 해상도를 획득하기 위해, 600개 미만의 샘플링 값들 및 바람직하게는 오직 256개 또는 오직 128개의 샘플링 값들만을 갖는다.
예시적으로 예시된 중첩 블록들은, 예를 들어, 선행 블록(303) 또는 후속 블록(305)과 중첩 범위 내에서 중첩하는 현재 블록(304)으로 이루어진다. 따라서, 블록들의 그룹이 적어도 2개의 선행 블록들을 포함할 경우, 이러한 블록들의 그룹은 현재 블록(304)에 관한 선행 블록(303), 및 도 3에서 차수 3으로 표시된 추가적인 선행 블록으로 이루어진다. 더욱이 그리고 유사하게, 블록들의 그룹이 (시간 상) 적어도 2개의 후속 블록을 포함할 경우, 이들 2개의 후속 블록들은 차수 6으로 표시된 후속 블록(305) 및 차수 7로 예시된 추가적인 블록 7을 포함할 것이다.
이들 블록들은, 예를 들어, 이전에 언급된 DFT 또는 FFT(고속 푸리에 변환)와 같은 시간-스펙트럼 변환을 또한 바람직하게 수행하는 블록 생성기(110)에 의해 형성된다.
시간-스펙트럼 변환의 결과는 스펙트럼 블록들 I 내지 VIII의 시퀀스이며, 여기서, 블록(110) 아래의 도 3에 예시된 각각의 스펙트럼 블록은 시간 라인(300)의 8개의 블록들 중 하나에 대응한다.
바람직하게, 분리는 이어서, 주파수 도메인에서, 즉 스펙트럼 표현을 사용하여 수행되며, 여기서 오디오 신호 값들은 스펙트럼 값들이다. 분리에 후속하여, 다시 한번 블록들 I 내지 VIII으로 이루어진 전경 스펙트럼 표현 및 I 내지 VIII으로 이루어진 배경 표현이 획득된다. 당연히 그리고 임계화 연산에 의존하여, 분리(130)에 후속하는 전경 표현의 각각의 블록이 제로와는 상이한 값들을 반드시 가질 필요는 없다. 그러나, 바람직하게, 배경 성분의 스펙트럼 표현의 각각의 블록이 배경 신호 성분에서 에너지의 드롭 아웃을 피하기 위해 제로와는 상이한 값들을 갖는다는 것이 적어도 본 발명의 제1 양상에 의해 확인된다.
각각의 성분, 즉 전경 성분 및 배경 성분에 대해, 스펙트럼-시간 변환이 도 1c의 맥락에서 논의되었던 바와 같이 수행되며, 중첩 범위(302)에 관한 후속 페이드-아웃(fade-out)/페이드-인(fade-in)은, 전경 및 배경 성분들에 대해 블록(161a) 및 블록(161b)에서 각각 예시된 바와 같이 성분들 둘 모두에 대해 수행된다. 따라서, 결국, 전경 신호 및 배경 신호 둘 모두는 분리 이전에 오리지널 오디오 신호와 동일한 길이 L을 갖는다.
바람직하게, 도 4b에 예시된 바와 같이, 가변성들 또는 임계치들을 계산하는 분리기(130)가 평활화된다.
특히, 단계(400)는 블록(400)에 예시된 바와 같이, 현재 블록에 대한 블록 특성과 평균 특성 사이의 비율 또는 일반적인 특성의 결정을 예시한다.
블록(402)에서, 원시 가변성이 현재 블록에 관해 계산된다. 블록(404)에서, 선행 또는 후속 블록들에 대한 원시 가변성들은, 블록(402 및 404)의 출력에 의해 원시 가변성들의 시퀀스를 획득하도록 계산된다. 블록(406)에서, 시퀀스가 평활화된다. 따라서, 블록(406)의 출력에서, 가변성들의 평활화된 시퀀스가 존재한다. 평활화된 시퀀스의 가변성들은 블록(408)에 예시된 바와 같이 대응하는 적응적 임계치들에 맵핑되어, 현재 블록에 대한 가변 임계치를 획득한다.
대안적인 실시예가 도 4b에 예시되며, 여기서, 가변성들을 평활화하는 것과는 반대로, 임계치들이 평활화된다. 이를 위해, 다시 한번, 현재 블록에 대한 특성/비율이 블록(400)에 예시된 바와 같이 결정된다.
블록(403)에서, 가변성들의 시퀀스는, 예를 들어, 정수 m에 의해 표시된 각각의 현재 블록에 대한 도 1f의 수학식 6을 사용하여 계산된다.
블록(405)에서, 가변성들의 시퀀스는 수학식 8 및 수학식 9에 따라 원시 임계치들의 시퀀스에 맵핑되지만, 도 1f의 수학식 7과는 반대로 비-평활화된 가변성들과 맵핑된다.
블록(407)에서, 원시 임계치들의 시퀀스는, 현재 블록에 대한 (평활화된) 임계치를 최종적으로 획득하기 위해 평활화된다.
후속하여, 도 5는 블록들의 그룹 내의 특성의 가변성을 계산하기 위한 상이한 방식들을 예시하기 위해 더 상세히 논의된다.
다시 한번, 단계(500)에서, 현재 블록 특성과 평균 블록 특성 사이의 특성 또는 비율이 계산된다.
단계(502)에서, 블록들의 그룹에 대한 특성들/비율들에 걸친 평균 또는 일반적으로는 기대값이 계산된다.
블록(504)에서, 특성들/비율들과 평균값/기대값 사이의 차이들이 계산되며, 블록(506)에 예시된 바와 같이, 차이들 또는 차이들로부터 도출된 특정한 값들의 가산이 바람직하게는 정규화를 이용하여 수행된다. 제곱된 차이들이 가산되는 경우, 단계들(502, 504, 506)의 시퀀스는 수학식 6에 관해 서술되었던 바와 같이 분산의 계산을 반영한다. 그러나, 예를 들어, 차이들의 크기들 또는 2와는 상이한 차이들의 다른 거듭제곱들이 함께 가산될 경우, 특성들과 평균/기대값 사이의 차이들로부터 도출된 상이한 통계 값이 가변성으로서 사용된다.
그러나, 대안적으로, 단계(508)에 예시된 바와 같이, 인접한 블록들에 대한 시간-후속 특성들/비율들 사이의 차이들이 또한 계산되어 가변성 측정으로서 사용된다. 따라서, 블록(508)은, 평균값에 의존하는 것이 아니라 블록마다의 변화에 의존하는 가변성을 결정하며, 여기서, 도 6에 예시된 바와 같이, 인접한 블록들에 대한 특성들 사이의 차이들은 제곱된 것, 그들의 크기들 또는 그들의 거듭제곱들 중 어느 하나와 함께 가산되어, 분산과는 상이한 가변성으로부터의 다른 값을 최종적으로 획득할 수 있다. 도 5에 관해 논의되었던 것과는 상이한 다른 가변성 측정들이 또한 사용될 수 있다는 것은 당업자들에게 명백하다.
후속하여, 아래의 예들과는 별개로 또는 아래의 예들 중 임의의 예와 조합하여 사용될 수 있는 실시예들의 예들이 정의된다:
실시예 1. 오디오 신호(100)를 배경 성분 신호(140) 및 전경 성분 신호(150)로 분해하기 위한 장치로서,
오디오 신호 값들의 블록들의 시간 시퀀스를 생성하기 위한 블록 생성기(110);
오디오 신호의 현재 블록의 블록 특성을 결정하고, 블록들의 그룹에 대한 평균 특성을 결정하기 위한 오디오 신호 분석기(120) ― 블록들의 그룹은 적어도 2개의 블록들을 포함함 ―; 및
현재 블록의 블록 특성과 블록들의 그룹의 평균 특성의 비율에 응답하여 현재 블록을 배경 부분 및 전경 부분으로 분리시키기 위한 분리기(130)를 포함하며,
배경 성분 신호(140)는 현재 블록의 배경 부분을 포함하고, 전경 성분 신호(150)는 현재 블록의 전경 부분을 포함하는, 오디오 신호(100)를 배경 성분 신호(140) 및 전경 성분 신호(150)로 분해하기 위한 장치.
실시예 2. 실시예 1에 있어서,
오디오 신호 분석기는, 현재 블록의 특성으로서 진폭-관련 측정을 분석하고, 블록들의 그룹에 대한 평균 특성으로서 진폭-관련 특성을 분석하도록 구성되는, 오디오 신호(100)를 배경 성분 신호(140) 및 전경 성분 신호(150)로 분해하기 위한 장치.
실시예 3. 실시예 1 또는 실시예 2에 있어서,
오디오 신호 분석기(120)는, 현재 블록에 대한 전력 측정 또는 에너지 측정을 분석하고, 블록들의 그룹에 대한 평균 전력 측정 또는 평균 에너지 측정을 분석하도록 구성되는, 오디오 신호(100)를 배경 성분 신호(140) 및 전경 성분 신호(150)로 분해하기 위한 장치.
실시예 4. 실시예 1 내지 실시예 3 중 어느 하나의 실시예에 있어서,
분리기(130)는, 비율로부터 분리 이득을 계산하고, 분리 이득을 사용하여 현재 블록의 오디오 신호 값들을 가중시켜 현재 프레임의 전경 부분을 획득하며, 배경 성분을 결정해서, 배경 신호가 나머지 신호를 구성하도록 구성되거나, 또는
분리기는, 비율로부터 분리 이득을 계산하고, 분리 이득을 사용하여 현재 블록의 오디오 신호 값들을 가중시켜 현재 프레임의 배경 부분을 획득하며, 전경 성분을 결정해서, 전경 성분 신호가 나머지 신호를 구성하도록 구성되는, 오디오 신호(100)를 배경 성분 신호(140) 및 전경 성분 신호(150)로 분해하기 위한 장치.
실시예 5. 실시예 1 내지 실시예 4 중 어느 하나의 실시예에 있어서,
분리기(130)는, 제로와는 상이한 미리 결정된 가중 인자를 사용하여 비율을 가중시키는 것을 사용해서 분리 이득을 계산하도록 구성되는, 오디오 신호(100)를 배경 성분 신호(140) 및 전경 성분 신호(150)로 분해하기 위한 장치.
실시예 6. 실시예 5에 있어서,
gN은 미리 결정된 인자이고, 는 비율이고, p는 제로보다 크고 정수 또는 비-정수인 거듭제곱이고, n은 블록 인덱스이고, max는 최대 함수인, 오디오 신호(100)를 배경 성분 신호(140) 및 전경 성분 신호(150)로 분해하기 위한 장치.
실시예 7. 실시예 1 내지 실시예 6 중 어느 하나의 실시예에 있어서,
분리기(130)는, 현재 블록의 비율이 임계치와 미리 결정된 관계에 있는 경우, 현재 블록의 비율을 임계치와 비교하고 현재 블록을 분리시키도록 구성되고,
분리기(130)는 추가적인 블록을 분리시키지 않도록 구성되며,
추가적인 블록은 임계치와의 미리 결정된 관계를 갖지 않는 비율을 가져서, 추가적인 블록은 배경 성분 신호(140)에 완전히 속하는, 오디오 신호(100)를 배경 성분 신호(140) 및 전경 성분 신호(150)로 분해하기 위한 장치.
실시예 8. 실시예 7에 있어서,
분리기(130)는, 시간 상 현재 블록에 후속하는 후속 블록을, 후속 블록의 비율을 추가적인 릴리즈(release) 임계치와 비교하는 것을 사용하여 분리시키도록 구성되며,
추가적인 릴리즈 임계치는, 임계치와 미리 결정된 관계에 있지 않는 블록 비율이 추가적인 릴리즈 임계치와 미리 결정된 관계에 있도록 세팅되는, 오디오 신호(100)를 배경 성분 신호(140) 및 전경 성분 신호(150)로 분해하기 위한 장치.
실시예 9. 실시예 8에 있어서,
미리 결정된 관계는 "보다 큰 것"이고, 릴리즈 임계치는 분리 임계치보다 낮거나, 또는
미리 결정된 관계는 "보다 낮은 것"이고, 릴리즈 임계치는 분리 임계치보다 큰, 오디오 신호(100)를 배경 성분 신호(140) 및 전경 성분 신호(150)로 분해하기 위한 장치.
실시예 10. 실시예 1 내지 실시예 9 중 어느 하나의 실시예에 있어서,
블록 생성기(110)는 오디오 신호 값들의 시간적으로 중첩하는 블록들을 결정하도록 구성되거나, 또는
시간적으로 중첩하는 블록들은 600보다 작거나 또는 그와 동일한 다수의 샘플링 값들을 갖는, 오디오 신호(100)를 배경 성분 신호(140) 및 전경 성분 신호(150)로 분해하기 위한 장치.
실시예 11. 실시예 1 내지 실시예 10 중 어느 하나의 실시예에 있어서,
블록 생성기는, 각각의 블록에 대한 스펙트럼 표현을 획득하기 위해 시간 도메인 오디오 신호의 주파수 도메인으로의 블록-단위(block-wise) 변환을 수행하도록 구성되며,
오디오 신호 분석기는, 현재 블록의 스펙트럼 표현을 사용하여 특성을 계산하도록 구성되고,
분리기(130)는, 스펙트럼 표현을 배경 부분 및 전경 부분으로 분리시켜, 동일한 주파수에 대응하는 배경 부분 및 전경 부분의 스펙트럼 빈들에 대해, 배경 부분 및 전경 부분 각각이 제로와는 상이한 스펙트럼 값을 갖도록 구성되며,
동일한 주파수 빈 내의 전경 부분의 스펙트럼 값과 배경 부분의 스펙트럼 값의 관계는 비율에 의존하는, 오디오 신호(100)를 배경 성분 신호(140) 및 전경 성분 신호(150)로 분해하기 위한 장치.
실시예 12. 실시예 1 내지 실시예 11 중 어느 하나의 실시예에 있어서,
블록 생성기(110)는, 각각의 블록에 대한 스펙트럼 표현을 획득하기 위해 시간 도메인의 주파수 도메인으로의 블록-단위 변환을 수행하도록 구성되며,
시간 상 인접하는 블록들은 중첩 범위(302)에서 중첩하고,
장치는, 배경 성분 신호를 합성하고 전경 성분 신호를 합성하기 위한 신호 합성기(160a, 161a, 160b, 161b)를 더 포함하며,
신호 합성기는, 배경 성분 신호 및 전경 성분 신호에 대한 주파수-시간 변환(161a, 160a, 160b)을 수행하고, 중첩 범위 내에서 시간 상-인접하는 블록들의 시간 표현들을 크로스-페이딩(cross-fade)(161a, 161b)하여, 시간 도메인 전경 성분 신호 및 별개의 시간 도메인 배경 성분 신호를 획득하도록 구성되는, 오디오 신호(100)를 배경 성분 신호(140) 및 전경 성분 신호(150)로 분해하기 위한 장치.
실시예 13. 실시예 1 내지 실시예 12 중 어느 하나의 실시예에 있어서,
오디오 신호 분석기(120)는, 블록들의 그룹 내의 블록들의 개별 특성들의 가중된 가산을 사용하여 블록들의 그룹에 대한 평균 특성을 결정하도록 구성되는, 오디오 신호(100)를 배경 성분 신호(140) 및 전경 성분 신호(150)로 분해하기 위한 장치.
실시예 14. 실시예 1 내지 실시예 13 중 어느 하나의 실시예에 있어서,
오디오 신호 분석기(120)는, 블록들의 그룹 내의 블록들의 개별 특성들의 가중된 가산을 수행하도록 구성되며,
현재 블록에 시간 상 가까운 블록의 특성에 대한 가중 값은 현재 블록에 시간 상 덜 가까운 추가적인 블록의 특성에 대한 가중 값보다 큰, 오디오 신호(100)를 배경 성분 신호(140) 및 전경 성분 신호(150)로 분해하기 위한 장치.
실시예 15. 실시예 13 또는 실시예 14에 있어서,
오디오 신호 분석기(120)는, 블록들의 그룹이 대응하는 블록 이전에 적어도 20개의 블록들 또는 현재 블록에 후속하여 적어도 20개의 블록들을 포함하도록 블록들의 그룹을 결정하도록 구성되는, 오디오 신호(100)를 배경 성분 신호(140) 및 전경 성분 신호(150)로 분해하기 위한 장치.
실시예 16. 실시예 1 내지 실시예 15 중 어느 하나의 실시예에 있어서,
오디오 신호 분석기는, 블록들의 그룹 내의 블록들의 수에 의존하여 또는 블록들의 그룹 내의 블록들에 대한 가중 값들에 의존하여 정규화 값을 사용하도록 구성되는, 오디오 신호(100)를 배경 성분 신호(140) 및 전경 성분 신호(150)로 분해하기 위한 장치.
실시예 17. 실시예 1 내지 실시예 16 중 어느 하나의 실시예에 있어서,
배경 성분 신호들 또는 전경 성분 신호들 중 적어도 하나의 신호들의 신호 특성을 측정하기 위한 신호 특성 측정기(702, 704)를 더 포함하는, 오디오 신호(100)를 배경 성분 신호(140) 및 전경 성분 신호(150)로 분해하기 위한 장치.
실시예 18. 실시예 17에 있어서,
신호 특성 측정기는, 전경 성분 신호를 사용하여 전경 밀도(702)를 결정하거나, 또는 전경 성분 신호 및 오디오 입력 신호를 사용하여 전경 현저성(prominence)(704)을 결정하도록 구성되는, 오디오 신호(100)를 배경 성분 신호(140) 및 전경 성분 신호(150)로 분해하기 위한 장치.
실시예 19. 실시예 1 내지 실시예 18 중 어느 하나의 실시예에 있어서,
전경 성분 신호는 박수소리(clap) 신호들을 포함하며,
장치는, 박수소리들의 수를 증가시키거나 또는 박수소리들의 수를 감소시킴으로써 또는 전경 성분 신호 또는 배경 성분 신호에 가중치를 적용하여 잡음형 신호인 배경 성분 신호와 전경 박수소리 신호 사이의 에너지 관계를 수정함으로써, 전경 성분 신호를 수정하기 위한 신호 특성 수정기를 더 포함하는, 오디오 신호(100)를 배경 성분 신호(140) 및 전경 성분 신호(150)로 분해하기 위한 장치.
실시예 20. 실시예 1 내지 실시예 19 중 어느 하나의 실시예에 있어서,
오디오 신호의 채널들의 수보다 큰 다수의 출력 채널들을 갖는 표현으로 오디오 신호를 업믹싱(upmix)하기 위한 블라인드 업믹서(blind upmixer)를 더 포함하며,
업믹서는, 전경 성분 신호를 출력 채널들로 공간적으로 분배하고 ― 다수의 출력 채널들 내의 전경 성분 신호는 상관됨 ―, 배경 성분 신호를 출력 채널들로 스펙트럼적으로 분배하도록 구성되고,
출력 채널들 내의 배경 성분 신호들은 전경 성분 신호들보다 덜 상관되거나, 또는 서로 상관되지 않는, 오디오 신호(100)를 배경 성분 신호(140) 및 전경 성분 신호(150)로 분해하기 위한 장치.
실시예 21. 실시예 1 내지 실시예 20 중 어느 하나의 실시예에 있어서,
송신 또는 저장 또는 디코딩을 위해 전경 성분 신호의 인코딩된 표현(804) 및 배경 성분 신호(806)의 별개의 인코딩된 표현을 획득하기 위하여 전경 성분 신호 및 배경 성분 신호를 별개로 인코딩하기 위한 인코더 스테이지(801, 802)를 더 포함하는, 오디오 신호(100)를 배경 성분 신호(140) 및 전경 성분 신호(150)로 분해하기 위한 장치.
실시예 22. 오디오 신호(100)를 배경 성분 신호(140) 및 전경 성분 신호(150)로 분해하는 방법으로서,
오디오 신호 값들의 블록들의 시간 시퀀스를 생성하는 단계(110);
오디오 신호의 현재 블록의 블록 특성을 결정하고, 블록들의 그룹에 대한 평균 특성을 결정하는 단계(120) ― 블록들의 그룹은 적어도 2개의 블록들을 포함함 ―; 및
현재 블록의 블록 특성과 블록들의 그룹의 평균 특성의 비율에 응답하여 현재 블록을 배경 부분 및 전경 부분으로 분리시키는 단계(130)를 포함하며,
배경 성분 신호(140)는 현재 블록의 배경 부분을 포함하고, 전경 성분 신호(150)는 현재 블록의 전경 부분을 포함하는, 오디오 신호(100)를 배경 성분 신호(140) 및 전경 성분 신호(150)로 분해하는 방법.
후속하여, 위의 예들과는 별개로 또는 위의 예들 중 임의의 예와 조합하여 사용될 수 있는 추가적인 예들이 정의된다:
실시예 1. 오디오 신호를 배경 성분 신호 및 전경 성분 신호로 분해하기 위한 장치로서,
오디오 신호 값들의 블록들의 시간 시퀀스를 생성하기 위한 블록 생성기(110);
오디오 신호의 현재 블록의 특성을 결정하고, 블록들의 시퀀스 중 적어도 2개의 블록들을 포함하는 블록들의 그룹 내에서 특성의 가변성(variability)을 결정하기 위한 오디오 신호 분석기(120); 및
현재 블록을 배경 부분(140) 및 전경 부분(150)으로 분리시키기 위한 분리기(130)를 포함하며,
분리기(130)는, 가변성에 기초하여 분리 임계치를 결정(182)하며, 현재 블록의 특성이 분리 임계치와 미리 결정된 관계에 있는 경우, 현재 블록을 배경 성분 신호(140) 및 전경 성분 신호(150)로 분리시키거나, 또는 현재 블록의 특성이 분리 임계치와 미리 결정된 관계에 있는 경우, 전체 현재 블록을 전경 성분 신호로서 결정하거나, 또는 현재 블록의 특성이 분리 임계치와 미리 결정된 관계에 있지 않은 경우, 전체 현재 블록을 배경 성분 신호로서 결정하도록 구성되는, 오디오 신호를 배경 성분 신호 및 전경 성분 신호로 분해하기 위한 장치.
실시예 2. 실시예 1에 있어서,
분리기(130)는, 제1 가변성(501)에 대한 제1 분리 임계치(401)를 결정하고 제2 가변성(502)에 대한 제2 분리 임계치(402)를 결정하도록 구성되며,
제1 분리 임계치(401)는 제2 분리 임계치(402)보다 낮고, 제1 가변성(501)은 제2 가변성(502)보다 낮으며, 미리 결정된 관계는 크거나, 또는 제1 분리 임계치는 제2 분리 임계치보다 크고, 제1 가변성은 제2 가변성(502)보다 낮으며, 미리 결정된 관계는 낮은, 오디오 신호를 배경 성분 신호 및 전경 성분 신호로 분해하기 위한 장치.
실시예 3. 실시예 1 또는 실시예 2에 있어서,
분리기(130)는, 제1 분리 임계치(401)와 제2 분리 임계치(402) 사이를 보간하는 단조 보간 함수를 사용하여 또는 테이블 액세스를 사용하여 분리 임계치를 결정해서, 제3 가변성(503)에 대해 제3 분리 임계치(403)가 획득되고, 제4 가변성(504)에 대해 제4 분리 임계치(404)가 획득되도록 구성되며,
제1 분리 임계치(401)는 제1 가변성(501)과 연관되고, 제2 분리 임계치(402)는 제2 가변성(502)과 연관되고,
제3 가변성(503) 및 제4 가변성은 그들의 값들에 관해, 제1 가변성(501)과 제2 가변성(502) 사이에 위치되고, 제3 분리 임계치(403) 및 제4 분리 임계치(404)는 그들의 값들에 관해, 제1 분리 임계치(401)와 제2 분리 임계치(402) 사이에 위치되는, 오디오 신호를 배경 성분 신호 및 전경 성분 신호로 분해하기 위한 장치.
실시예 4. 실시예 3에 있어서,
단조 보간 함수는 선형 함수이거나, 또는 이차 함수 또는 삼차 함수(cubic function) 또는 3보다 큰 차수를 갖는 멱함수(power function)인, 오디오 신호를 배경 성분 신호 및 전경 성분 신호로 분해하기 위한 장치.
실시예 5. 실시예 1 내지 실시예 4 중 어느 하나의 실시예에 있어서,
분리기(130)는, 현재 블록에 관한 특성의 가변성에 기초하여 원시(raw) 분리 임계치를 결정(405)하고, 적어도 하나의 선행 또는 후속 블록의 가변성에 기초하여 적어도 하나의 추가적인 원시 분리 임계치를 결정(405)하며, 원시 분리 임계치들의 시퀀스를 평활화(smooth)함으로써 현재 블록에 대한 분리 임계치를 결정(407)하도록 구성되고, 시퀀스는 원시 분리 임계치 및 적어도 하나의 추가적인 원시 분리 임계치를 포함하거나, 또는
분리기(130)는, 현재 블록에 대한 특성의 원시 가변성(402)을 결정하고, 부가적으로는 선행 또는 후속 블록에 대한 원시 가변성을 계산(404)하도록 구성되고, 분리기(130)는, 현재 블록에 대한 원시 가변성 및 선행 또는 후속 블록에 대한 적어도 하나의 추가적인 원시 가변성을 포함하는 원시 가변성들의 시퀀스를 평활화하여, 가변성들의 평활화된 시퀀스를 획득하고, 현재 블록의 평활화된 가변성에 기초하여 분리 임계치들을 결정하도록 구성되는, 오디오 신호를 배경 성분 신호 및 전경 성분 신호로 분해하기 위한 장치.
실시예 6. 실시예 1 내지 실시예 5 중 어느 하나의 실시예에 있어서,
오디오 신호 분석기(120)는, 특성들의 그룹을 획득하도록 블록들의 그룹 내의 각각의 블록의 특성을 계산함으로써 그리고 특성들의 그룹의 분산을 계산함으로써 가변성을 결정하도록 구성되며,
가변성은, 분산에 대응하거나 또는 특성들의 그룹의 분산에 의존하는, 오디오 신호를 배경 성분 신호 및 전경 성분 신호로 분해하기 위한 장치.
실시예 7. 실시예 1 내지 실시예 6 중 어느 하나의 실시예에 있어서,
오디오 신호 분석기(120)는,
평균 또는 예상된 특성(502), 및 특성들의 그룹 내의 특성들과 평균 또는 예상된 특성 사이의 차이들(504)을 사용하여 가변성을 계산하거나, 또는
시간 상 후속하는 특성들의 그룹의 특성들 사이의 차이들(508)을 사용하여 가변성을 계산하도록
구성되는, 오디오 신호를 배경 성분 신호 및 전경 성분 신호로 분해하기 위한 장치.
실시예 8. 실시예 1 내지 실시예 7 중 어느 하나의 실시예에 있어서,
오디오 신호 분석기(120)는, 현재 블록에 선행하는 적어도 2개의 블록들 또는 현재 블록에 후속하는 적어도 2개의 블록들을 포함하는 특성들의 그룹 내에서 특성의 가변성을 계산하도록 구성되는, 오디오 신호를 배경 성분 신호 및 전경 성분 신호로 분해하기 위한 장치.
실시예 9. 실시예 1 내지 실시예 8 중 어느 하나의 실시예에 있어서,
오디오 신호 분석기(120)는, 적어도 30개의 블록들로 이루어진 블록들의 그룹 내에서 특성의 가변성을 계산하도록 구성되는, 오디오 신호를 배경 성분 신호 및 전경 성분 신호로 분해하기 위한 장치.
실시예 10. 실시예 1 내지 실시예 9 중 어느 하나의 실시예에 있어서,
오디오 신호 분석기(120)는, 현재 블록의 블록 특성과 적어도 2개의 블록들을 포함하는 블록들의 그룹에 대한 평균 특성의 비율로서 특성을 계산하도록 구성되며,
분리기(130)는, 비율을, 블록들의 그룹 내의 현재 블록과 연관된 비율의 가변성에 기초하여 결정된 분리 임계치와 비교하도록 구성되는, 오디오 신호를 배경 성분 신호 및 전경 성분 신호로 분해하기 위한 장치.
실시예 11. 실시예 10에 있어서,
오디오 신호 분석기(120)는, 평균 특성의 계산을 위해 그리고 가변성의 계산을 위해, 블록들의 동일한 그룹을 사용하도록 구성되는, 오디오 신호를 배경 성분 신호 및 전경 성분 신호로 분해하기 위한 장치.
실시예 12. 실시예 1 내지 실시예 11 중 어느 하나의 실시예에 있어서,
오디오 신호 분석기는, 현재 블록의 특성으로서 진폭-관련 측정을 분석하고, 블록들의 그룹에 대한 평균 특성으로서 진폭-관련 특성을 분석하도록 구성되는, 오디오 신호를 배경 성분 신호 및 전경 성분 신호로 분해하기 위한 장치.
실시예 13. 실시예 1 내지 실시예 12 중 어느 하나의 실시예에 있어서,
분리기(130)는, 특성로부터 분리 이득을 계산하고, 분리 이득을 사용하여 현재 블록의 오디오 신호 값들을 가중시켜 현재 프레임의 전경 부분을 획득하며, 배경 성분을 결정해서, 배경 신호가 나머지 신호를 구성하도록 구성되거나, 또는
분리기(130)는, 특성로부터 분리 이득을 계산하고, 분리 이득을 사용하여 현재 블록의 오디오 신호 값들을 가중시켜 현재 프레임의 배경 부분을 획득하며, 전경 성분을 결정해서, 전경 성분 신호가 나머지 신호를 구성하도록 구성되는, 오디오 신호를 배경 성분 신호 및 전경 성분 신호로 분해하기 위한 장치.
실시예 14. 실시예 1 내지 실시예 13 중 어느 하나의 실시예에 있어서,
분리기(130)는, 시간 상 현재 블록에 후속하는 후속 블록을, 후속 블록의 특성을 추가적인 릴리즈(release) 임계치와 비교하는 것을 사용하여 분리시키도록 구성되며,
추가적인 릴리즈 임계치는, 임계치와 미리 결정된 관계에 있지 않는 특성이 추가적인 릴리즈 임계치와 미리 결정된 관계에 있도록 세팅되는, 오디오 신호를 배경 성분 신호 및 전경 성분 신호로 분해하기 위한 장치.
실시예 15. 실시예 14에 있어서,
분리기(130)는, 현재 블록의 특성이 릴리즈 임계치와 추가적인 미리 결정된 관계에 있는 경우, 가변성에 기초하여 릴리즈 임계치를 결정하고 후속 블록을 분리시키도록 구성되는, 오디오 신호를 배경 성분 신호 및 전경 성분 신호로 분해하기 위한 장치.
실시예 16. 실시예 14 또는 실시예 15에 있어서,
미리 결정된 관계는 "보다 큰 것"이고, 릴리즈 임계치는 분리 임계치보다 낮거나, 또는
미리 결정된 관계는 "보다 낮은 것"이고, 릴리즈 임계치는 분리 임계치보다 큰, 오디오 신호(100)를 배경 성분 신호(140) 및 전경 성분 신호(150)로 분해하기 위한 장치.
실시예 17. 실시예 1 내지 실시예 16 중 어느 하나의 실시예에 있어서,
블록 생성기(110)는 오디오 신호 값들의 시간적으로 중첩하는 블록들을 결정하도록 구성되거나, 또는
시간적으로 중첩하는 블록들은 600보다 작거나 또는 그와 동일한 다수의 샘플링 값들을 갖는, 오디오 신호를 배경 성분 신호 및 전경 성분 신호로 분해하기 위한 장치.
실시예 18. 실시예 1 내지 실시예 17 중 어느 하나의 실시예에 있어서,
블록 생성기는, 각각의 블록에 대한 스펙트럼 표현을 획득하기 위해 시간 도메인 오디오 신호의 주파수 도메인으로의 블록-단위(block-wise) 변환을 수행하도록 구성되며,
오디오 신호 분석기는, 현재 블록의 스펙트럼 표현을 사용하여 특성을 계산하도록 구성되고,
분리기(130)는, 스펙트럼 표현을 배경 부분 및 전경 부분으로 분리시켜, 동일한 주파수에 대응하는 배경 부분 및 전경 부분의 스펙트럼 빈들에 대해, 배경 부분 및 전경 부분 각각이 제로와는 상이한 스펙트럼 값을 갖도록 구성되며,
동일한 주파수 빈 내의 전경 부분의 스펙트럼 값과 배경 부분의 스펙트럼 값의 관계는 특성에 의존하는, 오디오 신호를 배경 성분 신호 및 전경 성분 신호로 분해하기 위한 장치.
실시예 19. 실시예 1 내지 실시예 18 중 어느 하나의 실시예에 있어서,
오디오 신호 분석기(120)는, 블록들의 그룹의 스펙트럼 표현을 사용하여 현재 블록에 대한 가변성을 계산하기 위해 현재 블록의 스펙트럼 표현을 사용하여 특성을 계산하도록 구성되는, 오디오 신호를 배경 성분 신호 및 전경 성분 신호로 분해하기 위한 장치.
실시예 20. 오디오 신호를 배경 성분 신호 및 전경 성분 신호로 분해하기 위한 방법으로서,
오디오 신호 값들의 블록들의 시간 시퀀스를 생성하는 단계(110);
오디오 신호의 현재 블록의 특성을 결정하고, 블록들의 시퀀스 중 적어도 2개의 블록들을 포함하는 블록들의 그룹 내에서 특성의 가변성을 결정하는 단계(120); 및
현재 블록을 배경 부분(140) 및 전경 부분(150)으로 분리시키는 단계(130)를 포함하며,
분리 임계치는 가변성에 기초하여 결정되며, 현재 블록의 특성이 분리 임계치와 미리 결정된 관계에 있는 경우, 현재 블록은 배경 성분 신호(140) 및 전경 성분 신호(150)로 분리되거나, 또는 현재 블록의 특성이 분리 임계치와 미리 결정된 관계에 있는 경우, 전체 현재 블록은 전경 성분 신호로서 결정되거나, 또는 현재 블록의 특성이 분리 임계치와 미리 결정된 관계에 있지 않은 경우, 전체 현재 블록은 배경 성분 신호로서 결정되는, 오디오 신호를 배경 성분 신호 및 전경 성분 신호로 분해하기 위한 방법.
본 발명의 인코딩된 오디오 신호는, 디지털 저장 매체 또는 비-일시적인 저장 매체 상에 저장될 수 있거나, 무선 송신 매체와 같은 송신 매체 또는 인터넷과 같은 유선 송신 매체 상에서 송신될 수 있다.
일부 양상들이 장치의 콘텍스트에서 설명되었지만, 이들 양상들이 또한 대응하는 방법의 설명을 표현한다는 것은 명확하며, 여기서, 블록 또는 디바이스는 방법 단계 또는 방법 단계의 특징에 대응한다. 유사하게, 방법 단계의 콘텍스트에서 설명된 양상들은 또한, 대응하는 장치의 대응하는 블록 또는 아이템 또는 특징의 설명을 표현한다.
특정한 구현 요건들에 의존하면, 본 발명의 실시예들은 하드웨어 또는 소프트웨어로 구현될 수 있다. 구현은, 각각의 방법이 수행되도록 프로그래밍가능한 컴퓨터 시스템과 협력하는(또는 협력할 수 있는), 전자적으로 판독가능한 제어 신호들이 저장된 디지털 저장 매체, 예를 들어, 플로피 디스크, DVD, CD, ROM, PROM, EPROM, EEPROM 또는 FLASH 메모리를 사용하여 수행될 수 있다.
본 발명에 따른 일부 실시예들은, 본 명세서에 설명된 방법들 중 하나가 수행되도록 프로그래밍가능한 컴퓨터 시스템과 협력할 수 있는, 전자적으로 판독가능한 제어 신호들을 갖는 데이터 캐리어를 포함한다.
일반적으로, 본 발명의 실시예들은 프로그램 코드를 갖는 컴퓨터 프로그램 물건으로서 구현될 수 있으며, 프로그램 코드는, 컴퓨터 프로그램 물건이 컴퓨터 상에서 구동되는 경우 방법들 중 하나를 수행하기 위해 동작된다. 프로그램 코드는, 예를 들어, 머신 판독가능 캐리어 상에 저장될 수 있다.
다른 실시예들은, 머신 판독가능 캐리어 또는 비-일시적인 저장 매체 상에 저장되는, 본 명세서에 설명된 방법들 중 하나를 수행하기 위한 컴퓨터 프로그램을 포함한다.
즉, 따라서, 본 발명의 방법의 실시예는, 컴퓨터 프로그램이 컴퓨터 상에서 구동되는 경우, 본 명세서에 설명된 방법들 중 하나를 수행하기 위한 프로그램 코드를 갖는 컴퓨터 프로그램이다.
따라서, 본 발명의 방법들의 추가적인 실시예는, 본 명세서에 설명된 방법들 중 하나를 수행하기 위한 컴퓨터 프로그램(상부에 기록됨)을 포함하는 데이터 캐리어(또는 디지털 저장 매체, 또는 컴퓨터-판독가능 매체)이다.
따라서, 본 발명의 방법의 추가적인 실시예는, 본 명세서에 설명된 방법들 중 하나를 수행하기 위한 컴퓨터 프로그램을 표현하는 데이터 스트림 또는 신호들의 시퀀스이다. 데이터 스트림 또는 신호들의 시퀀스는, 예를 들어, 데이터 통신 연결을 통해, 예를 들어, 인터넷을 통해 전달되도록 구성될 수 있다.
추가적인 실시예는, 본 명세서에 설명된 방법들 중 하나를 수행하도록 구성 또는 적응되는 프로세싱 수단, 예를 들어, 컴퓨터, 또는 프로그래밍가능 로직 디바이스를 포함한다.
추가적인 실시예는, 본 명세서에 설명된 방법들 중 하나를 수행하기 위한 컴퓨터 프로그램이 인스톨된 컴퓨터를 포함한다.
일부 실시예들에서, 프로그래밍가능 로직 디바이스(예를 들어, 필드 프로그래밍가능 게이트 어레이)는, 본 명세서에 설명된 방법들의 기능들 중 일부 또는 모두를 수행하기 위해 사용될 수 있다. 일부 실시예들에서, 필드 프로그래밍가능 게이트 어레이는, 본 명세서에 설명된 방법들 중 하나를 수행하기 위해 마이크로프로세서와 협력할 수 있다. 일반적으로, 방법들은 바람직하게 임의의 하드웨어 장치에 의해 수행된다.
위에서 설명된 실시예들은 단지, 본 발명의 원리들에 대해 예시적일 뿐이다. 본 명세서에 설명된 어레인지먼트(arrangement)들 및 세부사항들의 변형들 및 변경들이 당업자들에게는 명백할 것임을 이해한다. 따라서, 본 명세서의 실시예들의 설명 및 해설에 의해 제시된 특정한 세부사항들이 아니라 임박한 특허 청구항들의 범위에 의해서만 제한되는 것이 의도이다.
Claims (23)
- 오디오 신호(100)를 배경 성분 신호(140) 및 전경 성분 신호(150)로 분해하기 위한 장치로서,
오디오 신호 값들의 블록들의 시간 시퀀스를 생성하기 위한 블록 생성기(110);
상기 오디오 신호의 현재 블록의 블록 특성을 결정하고, 블록들의 그룹에 대한 평균 특성을 결정하기 위한 오디오 신호 분석기(120) ― 상기 블록들의 그룹은 적어도 2개의 블록들을 포함함 ―; 및
상기 현재 블록의 블록 특성과 상기 블록들의 그룹의 평균 특성의 비율에 응답하여 상기 현재 블록을 배경 부분 및 전경 부분으로 분리시키기 위한 분리기(130)를 포함하며,
상기 배경 성분 신호(140)는 상기 현재 블록의 배경 부분을 포함하고, 상기 전경 성분 신호(150)는 상기 현재 블록의 전경 부분을 포함하는, 오디오 신호(100)를 배경 성분 신호(140) 및 전경 성분 신호(150)로 분해하기 위한 장치. - 제1항에 있어서,
상기 오디오 신호 분석기는, 상기 현재 블록의 특성으로서 진폭-관련 측정을 분석하고, 상기 블록들의 그룹에 대한 평균 특성으로서 상기 진폭-관련 특성을 분석하도록 구성되는, 오디오 신호(100)를 배경 성분 신호(140) 및 전경 성분 신호(150)로 분해하기 위한 장치. - 제1항 또는 제2항에 있어서,
상기 오디오 신호 분석기(120)는, 상기 현재 블록에 대한 전력 측정 또는 에너지 측정을 분석하고, 상기 블록들의 그룹에 대한 평균 전력 측정 또는 평균 에너지 측정을 분석하도록 구성되는, 오디오 신호(100)를 배경 성분 신호(140) 및 전경 성분 신호(150)로 분해하기 위한 장치. - 제1항 내지 제3항 중 어느 한 항에 있어서,
상기 분리기(130)는, 상기 비율로부터 분리 이득을 계산하고, 상기 분리 이득을 사용하여 상기 현재 블록의 오디오 신호 값들을 가중시켜 상기 현재 블록의 전경 부분을 획득하며, 배경 성분을 결정해서, 상기 배경 신호가 나머지 신호를 구성하도록 구성되거나, 또는
상기 분리기는, 상기 비율로부터 상기 분리 이득을 계산하고, 상기 분리 이득을 사용하여 상기 현재 블록의 오디오 신호 값들을 가중시켜 상기 현재 블록의 배경 부분을 획득하며, 전경 성분을 결정해서, 상기 전경 성분 신호가 나머지 신호를 구성하도록 구성되는, 오디오 신호(100)를 배경 성분 신호(140) 및 전경 성분 신호(150)로 분해하기 위한 장치. - 제1항 내지 제4항 중 어느 한 항에 있어서,
상기 분리기(130)는, 제로와는 상이한 미리 결정된 가중 인자를 사용하여 상기 비율을 가중시키는 것을 사용해서 분리 이득을 계산하도록 구성되는, 오디오 신호(100)를 배경 성분 신호(140) 및 전경 성분 신호(150)로 분해하기 위한 장치. - 제1항 내지 제6항 중 어느 한 항에 있어서,
상기 분리기(130)는, 상기 현재 블록의 비율이 임계치와 미리 결정된 관계에 있는 경우, 상기 현재 블록의 비율을 상기 임계치와 비교하고 상기 현재 블록을 분리시키도록 구성되고,
상기 분리기(130)는 추가적인 블록을 분리시키지 않도록 구성되며,
상기 추가적인 블록은 상기 임계치와의 미리 결정된 관계를 갖지 않는 비율을 가져서, 상기 추가적인 블록은 상기 배경 성분 신호(140)에 완전히 속하는, 오디오 신호(100)를 배경 성분 신호(140) 및 전경 성분 신호(150)로 분해하기 위한 장치. - 제7항에 있어서,
상기 분리기(130)는, 시간 상 상기 현재 블록에 후속하는 후속 블록을, 상기 후속 블록의 비율을 추가적인 릴리즈(release) 임계치와 비교하는 것을 사용하여 분리시키도록 구성되며,
상기 추가적인 릴리즈 임계치는, 상기 임계치와 미리 결정된 관계에 있지 않는 블록 비율이 상기 추가적인 릴리즈 임계치와 미리 결정된 관계에 있도록 세팅되는, 오디오 신호(100)를 배경 성분 신호(140) 및 전경 성분 신호(150)로 분해하기 위한 장치. - 제8항에 있어서,
상기 미리 결정된 관계는 "보다 큰 것"이고, 상기 릴리즈 임계치는 분리 임계치보다 낮거나, 또는
상기 미리 결정된 관계는 "보다 낮은 것"이고, 상기 릴리즈 임계치는 상기 분리 임계치보다 큰, 오디오 신호(100)를 배경 성분 신호(140) 및 전경 성분 신호(150)로 분해하기 위한 장치. - 제1항 내지 제9항 중 어느 한 항에 있어서,
상기 블록 생성기(110)는 오디오 신호 값들의 시간적으로 중첩하는 블록들을 결정하도록 구성되거나, 또는
상기 시간적으로 중첩하는 블록들은 600보다 작거나 또는 그와 동일한 다수의 샘플링 값들을 갖는, 오디오 신호(100)를 배경 성분 신호(140) 및 전경 성분 신호(150)로 분해하기 위한 장치. - 제1항 내지 제10항 중 어느 한 항에 있어서,
상기 블록 생성기는, 각각의 블록에 대한 스펙트럼 표현을 획득하기 위해 시간 도메인 오디오 신호의 주파수 도메인으로의 블록-단위(block-wise) 변환을 수행하도록 구성되며,
상기 오디오 신호 분석기는, 상기 현재 블록의 스펙트럼 표현을 사용하여 특성을 계산하도록 구성되고,
상기 분리기(130)는, 상기 스펙트럼 표현을 상기 배경 부분 및 상기 전경 부분으로 분리시켜, 동일한 주파수에 대응하는 상기 배경 부분 및 상기 전경 부분의 스펙트럼 빈들에 대해, 상기 배경 부분 및 상기 전경 부분 각각이 제로와는 상이한 스펙트럼 값을 갖도록 구성되며,
동일한 주파수 빈 내의 상기 전경 부분의 스펙트럼 값과 상기 배경 부분의 스펙트럼 값의 관계는 상기 비율에 의존하는, 오디오 신호(100)를 배경 성분 신호(140) 및 전경 성분 신호(150)로 분해하기 위한 장치. - 제1항 내지 제11항 중 어느 한 항에 있어서,
상기 블록 생성기(110)는, 각각의 블록에 대한 스펙트럼 표현을 획득하기 위해 시간 도메인의 주파수 도메인으로의 블록-단위 변환을 수행하도록 구성되며,
시간 상 인접하는 블록들은 중첩 범위(302)에서 중첩하고,
상기 장치는, 상기 배경 성분 신호를 합성하고 상기 전경 성분 신호를 합성하기 위한 신호 합성기(160a, 161a, 160b, 161b)를 더 포함하며,
상기 신호 합성기는, 상기 배경 성분 신호 및 상기 전경 성분 신호에 대한 주파수-시간 변환(161a, 160a, 160b)을 수행하고, 상기 중첩 범위 내에서 시간 상-인접하는 블록들의 시간 표현들을 크로스-페이딩(cross-fade)(161a, 161b)하여, 시간 도메인 전경 성분 신호 및 별개의 시간 도메인 배경 성분 신호를 획득하도록 구성되는, 오디오 신호(100)를 배경 성분 신호(140) 및 전경 성분 신호(150)로 분해하기 위한 장치. - 제1항 내지 제12항 중 어느 한 항에 있어서,
상기 오디오 신호 분석기(120)는, 상기 블록들의 그룹 내의 블록들의 개별 특성들의 가중된 가산을 사용하여 상기 블록들의 그룹에 대한 평균 특성을 결정하도록 구성되는, 오디오 신호(100)를 배경 성분 신호(140) 및 전경 성분 신호(150)로 분해하기 위한 장치. - 제1항 내지 제13항 중 어느 한 항에 있어서,
상기 오디오 신호 분석기(120)는, 상기 블록들의 그룹 내의 블록들의 개별 특성들의 가중된 가산을 수행하도록 구성되며,
상기 현재 블록에 시간 상 가까운 블록의 특성에 대한 가중 값은 상기 현재 블록에 시간 상 덜 가까운 추가적인 블록의 특성에 대한 가중 값보다 큰, 오디오 신호(100)를 배경 성분 신호(140) 및 전경 성분 신호(150)로 분해하기 위한 장치. - 제13항 또는 제14항에 있어서,
상기 오디오 신호 분석기(120)는, 상기 블록들의 그룹이 대응하는 블록 이전에 적어도 20개의 블록들 또는 상기 현재 블록에 후속하여 적어도 20개의 블록들을 포함하도록 상기 블록들의 그룹을 결정하도록 구성되는, 오디오 신호(100)를 배경 성분 신호(140) 및 전경 성분 신호(150)로 분해하기 위한 장치. - 제1항 내지 제15항 중 어느 한 항에 있어서,
상기 오디오 신호 분석기는, 상기 블록들의 그룹 내의 블록들의 수에 의존하여 또는 상기 블록들의 그룹 내의 블록들에 대한 가중 값들에 의존하여 정규화 값을 사용하도록 구성되는, 오디오 신호(100)를 배경 성분 신호(140) 및 전경 성분 신호(150)로 분해하기 위한 장치. - 제1항 내지 제16항 중 어느 한 항에 있어서,
배경 성분 신호들 또는 전경 성분 신호들 중 적어도 하나의 신호들의 신호 특성을 측정하기 위한 신호 특성 측정기(702, 704)를 더 포함하는, 오디오 신호(100)를 배경 성분 신호(140) 및 전경 성분 신호(150)로 분해하기 위한 장치. - 제17항에 있어서,
상기 신호 특성 측정기는, 상기 전경 성분 신호를 사용하여 전경 밀도(702)를 결정하거나, 또는 상기 전경 성분 신호 및 오디오 입력 신호를 사용하여 전경 현저성(prominence)(704)을 결정하도록 구성되는, 오디오 신호(100)를 배경 성분 신호(140) 및 전경 성분 신호(150)로 분해하기 위한 장치. - 제1항 내지 제18항 중 어느 한 항에 있어서,
상기 전경 성분 신호는 박수소리(clap) 신호들을 포함하며,
상기 장치는, 박수소리들의 수를 증가시키거나 또는 박수소리들의 수를 감소시킴으로써 또는 상기 전경 성분 신호 또는 상기 배경 성분 신호에 가중치를 적용하여 잡음형 신호인 상기 배경 성분 신호와 전경 박수소리 신호 사이의 에너지 관계를 수정함으로써, 상기 전경 성분 신호를 수정하기 위한 신호 특성 수정기를 더 포함하는, 오디오 신호(100)를 배경 성분 신호(140) 및 전경 성분 신호(150)로 분해하기 위한 장치. - 제1항 내지 제19항 중 어느 한 항에 있어서,
상기 오디오 신호의 채널들의 수보다 큰 다수의 출력 채널들을 갖는 표현으로 상기 오디오 신호를 업믹싱(upmix)하기 위한 블라인드 업믹서(blind upmixer)를 더 포함하며,
상기 업믹서는, 상기 전경 성분 신호를 상기 출력 채널들로 공간적으로 분배하고 ― 상기 다수의 출력 채널들 내의 전경 성분 신호는 상관됨 ―, 상기 배경 성분 신호를 상기 출력 채널들로 공간적으로 분배하도록 구성되고,
상기 출력 채널들 내의 배경 성분 신호들은 상기 전경 성분 신호들보다 덜 상관되거나, 또는 서로 상관되지 않는, 오디오 신호(100)를 배경 성분 신호(140) 및 전경 성분 신호(150)로 분해하기 위한 장치. - 제1항 내지 제20항 중 어느 한 항에 있어서,
송신 또는 저장 또는 디코딩을 위해 상기 전경 성분 신호의 인코딩된 표현(804) 및 상기 배경 성분 신호(806)의 별개의 인코딩된 표현을 획득하기 위하여 상기 전경 성분 신호 및 상기 배경 성분 신호를 별개로 인코딩하기 위한 인코더 스테이지(801, 802)를 더 포함하는, 오디오 신호(100)를 배경 성분 신호(140) 및 전경 성분 신호(150)로 분해하기 위한 장치. - 오디오 신호(100)를 배경 성분 신호(140) 및 전경 성분 신호(150)로 분해하는 방법으로서,
오디오 신호 값들의 블록들의 시간 시퀀스를 생성하는 단계(110);
상기 오디오 신호의 현재 블록의 블록 특성을 결정하고, 블록들의 그룹에 대한 평균 특성을 결정하는 단계(120) ― 상기 블록들의 그룹은 적어도 2개의 블록들을 포함함 ―; 및
상기 현재 블록의 블록 특성과 상기 블록들의 그룹의 평균 특성의 비율에 응답하여 상기 현재 블록을 배경 부분 및 전경 부분으로 분리시키는 단계(130)를 포함하며,
상기 배경 성분 신호(140)는 상기 현재 블록의 배경 부분을 포함하고, 상기 전경 성분 신호(150)는 상기 현재 블록의 전경 부분을 포함하는, 오디오 신호(100)를 배경 성분 신호(140) 및 전경 성분 신호(150)로 분해하는 방법. - 컴퓨터 또는 프로세서 상에서 구동하는 경우, 제22항의 방법을 수행하기 위한, 컴퓨터 프로그램.
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
EP16199402.5A EP3324407A1 (en) | 2016-11-17 | 2016-11-17 | Apparatus and method for decomposing an audio signal using a ratio as a separation characteristic |
EP16199402.5 | 2016-11-17 | ||
PCT/EP2017/079516 WO2018091614A1 (en) | 2016-11-17 | 2017-11-16 | Apparatus and method for decomposing an audio signal using a ratio as a separation characteristic |
Publications (2)
Publication Number | Publication Date |
---|---|
KR20190085062A true KR20190085062A (ko) | 2019-07-17 |
KR102427414B1 KR102427414B1 (ko) | 2022-08-01 |
Family
ID=57348523
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
KR1020197017323A KR102427414B1 (ko) | 2016-11-17 | 2017-11-16 | 분리 특성으로서 비율을 사용하여 오디오 신호를 분해하기 위한 장치 및 방법 |
Country Status (11)
Country | Link |
---|---|
US (1) | US11183199B2 (ko) |
EP (2) | EP3324407A1 (ko) |
JP (1) | JP7161215B2 (ko) |
KR (1) | KR102427414B1 (ko) |
CN (1) | CN110114828B (ko) |
BR (1) | BR112019009944A2 (ko) |
CA (1) | CA3043964C (ko) |
ES (1) | ES2930268T3 (ko) |
MX (1) | MX2019005739A (ko) |
RU (1) | RU2729050C1 (ko) |
WO (1) | WO2018091614A1 (ko) |
Families Citing this family (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP3324407A1 (en) * | 2016-11-17 | 2018-05-23 | Fraunhofer Gesellschaft zur Förderung der Angewand | Apparatus and method for decomposing an audio signal using a ratio as a separation characteristic |
EP3324406A1 (en) * | 2016-11-17 | 2018-05-23 | Fraunhofer Gesellschaft zur Förderung der Angewand | Apparatus and method for decomposing an audio signal using a variable threshold |
US11023722B2 (en) * | 2018-07-11 | 2021-06-01 | International Business Machines Corporation | Data classification bandwidth reduction |
EP4150759A1 (en) * | 2020-06-23 | 2023-03-22 | Google LLC | Smart background noise estimator |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8379868B2 (en) * | 2006-05-17 | 2013-02-19 | Creative Technology Ltd | Spatial audio coding based on universal spatial cues |
KR101456640B1 (ko) * | 2008-08-13 | 2014-11-12 | 프라운호퍼 게젤샤프트 쭈르 푀르데룽 데어 안겐반텐 포르슝 에. 베. | 공간적 출력 다채널 오디오 신호를 결정하기 위한 장치 |
US20140358265A1 (en) * | 2013-05-31 | 2014-12-04 | Dolby Laboratories Licensing Corporation | Audio Processing Method and Audio Processing Apparatus, and Training Method |
Family Cites Families (80)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
IL84948A0 (en) * | 1987-12-25 | 1988-06-30 | D S P Group Israel Ltd | Noise reduction system |
US7006881B1 (en) | 1991-12-23 | 2006-02-28 | Steven Hoffberg | Media recording device with remote graphic user interface |
US6400996B1 (en) | 1999-02-01 | 2002-06-04 | Steven M. Hoffberg | Adaptive pattern recognition based control system and method |
JP2000250568A (ja) | 1999-02-26 | 2000-09-14 | Kobe Steel Ltd | 音声区間検出装置 |
US6424960B1 (en) | 1999-10-14 | 2002-07-23 | The Salk Institute For Biological Studies | Unsupervised adaptation and classification of multiple classes and sources in blind signal separation |
JP4438144B2 (ja) * | 1999-11-11 | 2010-03-24 | ソニー株式会社 | 信号分類方法及び装置、記述子生成方法及び装置、信号検索方法及び装置 |
US7472059B2 (en) * | 2000-12-08 | 2008-12-30 | Qualcomm Incorporated | Method and apparatus for robust speech classification |
US7930170B2 (en) * | 2001-01-11 | 2011-04-19 | Sasken Communication Technologies Limited | Computationally efficient audio coder |
US7058889B2 (en) | 2001-03-23 | 2006-06-06 | Koninklijke Philips Electronics N.V. | Synchronizing text/visual information with audio playback |
US7283954B2 (en) * | 2001-04-13 | 2007-10-16 | Dolby Laboratories Licensing Corporation | Comparing audio using characterizations based on auditory events |
US7386217B2 (en) | 2001-12-14 | 2008-06-10 | Hewlett-Packard Development Company, L.P. | Indexing video by detecting speech and music in audio |
CN1830009B (zh) | 2002-05-03 | 2010-05-05 | 哈曼国际工业有限公司 | 声音检测和定位系统 |
US7567845B1 (en) | 2002-06-04 | 2009-07-28 | Creative Technology Ltd | Ambience generation for stereo signals |
KR100908117B1 (ko) * | 2002-12-16 | 2009-07-16 | 삼성전자주식회사 | 비트율 조절가능한 오디오 부호화 방법, 복호화 방법,부호화 장치 및 복호화 장치 |
WO2004084467A2 (en) * | 2003-03-15 | 2004-09-30 | Mindspeed Technologies, Inc. | Recovering an erased voice frame with time warping |
KR100486736B1 (ko) | 2003-03-31 | 2005-05-03 | 삼성전자주식회사 | 두개의 센서를 이용한 목적원별 신호 분리방법 및 장치 |
JP4146489B2 (ja) | 2004-05-26 | 2008-09-10 | 日本電信電話株式会社 | 音声パケット再生方法、音声パケット再生装置、音声パケット再生プログラム、記録媒体 |
DE102005014477A1 (de) * | 2005-03-30 | 2006-10-12 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Vorrichtung und Verfahren zum Erzeugen eines Datenstroms und zum Erzeugen einer Multikanal-Darstellung |
US8086451B2 (en) * | 2005-04-20 | 2011-12-27 | Qnx Software Systems Co. | System for improving speech intelligibility through high frequency compression |
US8249861B2 (en) * | 2005-04-20 | 2012-08-21 | Qnx Software Systems Limited | High frequency compression integration |
US7996216B2 (en) * | 2005-07-11 | 2011-08-09 | Lg Electronics Inc. | Apparatus and method of encoding and decoding audio signal |
KR101237413B1 (ko) * | 2005-12-07 | 2013-02-26 | 삼성전자주식회사 | 오디오 신호의 부호화 및 복호화 방법, 오디오 신호의부호화 및 복호화 장치 |
JP2009529699A (ja) | 2006-03-01 | 2009-08-20 | ソフトマックス,インコーポレイテッド | 分離信号を生成するシステムおよび方法 |
US7844453B2 (en) | 2006-05-12 | 2010-11-30 | Qnx Software Systems Co. | Robust noise estimation |
JP2008015481A (ja) | 2006-06-08 | 2008-01-24 | Audio Technica Corp | 音声会議装置 |
WO2008030104A1 (en) | 2006-09-07 | 2008-03-13 | Lumex As | Relative threshold and use of edges in optical character recognition process |
US8036767B2 (en) * | 2006-09-20 | 2011-10-11 | Harman International Industries, Incorporated | System for extracting and changing the reverberant content of an audio input signal |
JP5201602B2 (ja) | 2007-04-13 | 2013-06-05 | 国立大学法人京都大学 | 音源分離システム、音源分離方法及び音源分離用コンピュータプログラム |
EP2028651A1 (en) | 2007-08-24 | 2009-02-25 | Sound Intelligence B.V. | Method and apparatus for detection of specific input signal contributions |
RU2452043C2 (ru) | 2007-10-17 | 2012-05-27 | Фраунхофер-Гезелльшафт цур Фёрдерунг дер ангевандтен Форшунг Е.Ф. | Аудиокодирование с использованием понижающего микширования |
JPWO2009051132A1 (ja) | 2007-10-19 | 2011-03-03 | 日本電気株式会社 | 信号処理システムと、その装置、方法及びそのプログラム |
US9374453B2 (en) * | 2007-12-31 | 2016-06-21 | At&T Intellectual Property I, L.P. | Audio processing for multi-participant communication systems |
CN101981811B (zh) | 2008-03-31 | 2013-10-23 | 创新科技有限公司 | 音频信号的自适应主体-环境分解 |
US8645129B2 (en) * | 2008-05-12 | 2014-02-04 | Broadcom Corporation | Integrated speech intelligibility enhancement system and acoustic echo canceller |
US8630848B2 (en) * | 2008-05-30 | 2014-01-14 | Digital Rise Technology Co., Ltd. | Audio signal transient detection |
EP2144171B1 (en) * | 2008-07-11 | 2018-05-16 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Audio encoder and decoder for encoding and decoding frames of a sampled audio signal |
US8359205B2 (en) * | 2008-10-24 | 2013-01-22 | The Nielsen Company (Us), Llc | Methods and apparatus to perform audio watermarking and watermark detection and extraction |
JP5277887B2 (ja) | 2008-11-14 | 2013-08-28 | ヤマハ株式会社 | 信号処理装置およびプログラム |
US20100138010A1 (en) | 2008-11-28 | 2010-06-03 | Audionamix | Automatic gathering strategy for unsupervised source separation algorithms |
US20100174389A1 (en) | 2009-01-06 | 2010-07-08 | Audionamix | Automatic audio source separation with joint spectral shape, expansion coefficients and musical state estimation |
EP2249334A1 (en) | 2009-05-08 | 2010-11-10 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Audio format transcoder |
RU2557455C2 (ru) * | 2009-06-23 | 2015-07-20 | Войсэйдж Корпорейшн | Прямая компенсация наложения спектров во временной области с применением в области взвешенного или исходного сигнала |
ES2524428T3 (es) | 2009-06-24 | 2014-12-09 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Decodificador de señales de audio, procedimiento para decodificar una señal de audio y programa de computación que utiliza etapas en cascada de procesamiento de objetos de audio |
US8498863B2 (en) | 2009-09-04 | 2013-07-30 | Massachusetts Institute Of Technology | Method and apparatus for audio source separation |
JP5493655B2 (ja) | 2009-09-29 | 2014-05-14 | 沖電気工業株式会社 | 音声帯域拡張装置および音声帯域拡張プログラム |
CN102044246B (zh) | 2009-10-15 | 2012-05-23 | 华为技术有限公司 | 一种音频信号检测方法和装置 |
EP2491548A4 (en) | 2009-10-19 | 2013-10-30 | Ericsson Telefon Ab L M | VOICE ACTIVITY METHOD AND DETECTOR FOR SPEECH ENCODER |
US20110099010A1 (en) * | 2009-10-22 | 2011-04-28 | Broadcom Corporation | Multi-channel noise suppression system |
EP2546831B1 (en) | 2010-03-09 | 2020-01-15 | Mitsubishi Electric Corporation | Noise suppression device |
US8447595B2 (en) * | 2010-06-03 | 2013-05-21 | Apple Inc. | Echo-related decisions on automatic gain control of uplink speech signal in a communications device |
JP5706782B2 (ja) | 2010-08-17 | 2015-04-22 | 本田技研工業株式会社 | 音源分離装置及び音源分離方法 |
US8812322B2 (en) * | 2011-05-27 | 2014-08-19 | Adobe Systems Incorporated | Semi-supervised source separation using non-negative techniques |
CN102208188B (zh) * | 2011-07-13 | 2013-04-17 | 华为技术有限公司 | 音频信号编解码方法和设备 |
CN103959376B (zh) * | 2011-12-06 | 2019-04-23 | 英特尔公司 | 低功率语音检测 |
US9524730B2 (en) * | 2012-03-30 | 2016-12-20 | Ohio State Innovation Foundation | Monaural speech filter |
JP6064566B2 (ja) | 2012-12-07 | 2017-01-25 | ヤマハ株式会社 | 音響処理装置 |
US9338420B2 (en) | 2013-02-15 | 2016-05-10 | Qualcomm Incorporated | Video analysis assisted generation of multi-channel audio data |
US9076459B2 (en) | 2013-03-12 | 2015-07-07 | Intermec Ip, Corp. | Apparatus and method to classify sound to detect speech |
CN104078050A (zh) * | 2013-03-26 | 2014-10-01 | 杜比实验室特许公司 | 用于音频分类和音频处理的设备和方法 |
US9384741B2 (en) | 2013-05-29 | 2016-07-05 | Qualcomm Incorporated | Binauralization of rotated higher order ambisonics |
US20150127354A1 (en) | 2013-10-03 | 2015-05-07 | Qualcomm Incorporated | Near field compensation for decomposed representations of a sound field |
FR3013885B1 (fr) * | 2013-11-28 | 2017-03-24 | Audionamix | Procede et systeme de separation de contributions specifique et de fond sonore dans un signal acoustique de melange |
CN104143326B (zh) | 2013-12-03 | 2016-11-02 | 腾讯科技(深圳)有限公司 | 一种语音命令识别方法和装置 |
US9922656B2 (en) | 2014-01-30 | 2018-03-20 | Qualcomm Incorporated | Transitioning of ambient higher-order ambisonic coefficients |
WO2015157013A1 (en) | 2014-04-11 | 2015-10-15 | Analog Devices, Inc. | Apparatus, systems and methods for providing blind source separation services |
DK3161787T3 (en) | 2014-06-30 | 2018-08-13 | Ventana Med Syst Inc | DETECTING EDGE OF A CELL CEREALS USING CAR ANALYSIS |
EP2980789A1 (en) | 2014-07-30 | 2016-02-03 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Apparatus and method for enhancing an audio signal, sound enhancing system |
RU2589298C1 (ru) * | 2014-12-29 | 2016-07-10 | Александр Юрьевич Бредихин | Способ повышения разборчивости и информативности звуковых сигналов в шумовой обстановке |
FR3031225B1 (fr) * | 2014-12-31 | 2018-02-02 | Audionamix | Procede de separation ameliore et produit programme d'ordinateur |
CN105989852A (zh) * | 2015-02-16 | 2016-10-05 | 杜比实验室特许公司 | 分离音频源 |
EP3079151A1 (en) * | 2015-04-09 | 2016-10-12 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Audio encoder and method for encoding an audio signal |
TWI573133B (zh) * | 2015-04-15 | 2017-03-01 | 國立中央大學 | 音訊處理系統及方法 |
US9747923B2 (en) * | 2015-04-17 | 2017-08-29 | Zvox Audio, LLC | Voice audio rendering augmentation |
BR112018005910B1 (pt) * | 2015-09-25 | 2023-10-10 | Fraunhofer - Gesellschaft Zur Förderung Der Angewandten Forschung E.V | Codificador e método para codificar um sinal de áudio com ruído de fundo reduzido com o uso de conversão em código preditiva linear e sistema |
US9812132B2 (en) * | 2015-12-31 | 2017-11-07 | General Electric Company | Acoustic map command contextualization and device control |
WO2017136018A1 (en) * | 2016-02-05 | 2017-08-10 | Nuance Communications, Inc. | Babble noise suppression |
US9881619B2 (en) | 2016-03-25 | 2018-01-30 | Qualcomm Incorporated | Audio processing for an acoustical environment |
EP3324407A1 (en) * | 2016-11-17 | 2018-05-23 | Fraunhofer Gesellschaft zur Förderung der Angewand | Apparatus and method for decomposing an audio signal using a ratio as a separation characteristic |
EP3324406A1 (en) * | 2016-11-17 | 2018-05-23 | Fraunhofer Gesellschaft zur Förderung der Angewand | Apparatus and method for decomposing an audio signal using a variable threshold |
US10504539B2 (en) * | 2017-12-05 | 2019-12-10 | Synaptics Incorporated | Voice activity detection systems and methods |
-
2016
- 2016-11-17 EP EP16199402.5A patent/EP3324407A1/en not_active Withdrawn
-
2017
- 2017-11-16 BR BR112019009944A patent/BR112019009944A2/pt active Search and Examination
- 2017-11-16 KR KR1020197017323A patent/KR102427414B1/ko active IP Right Grant
- 2017-11-16 ES ES17798236T patent/ES2930268T3/es active Active
- 2017-11-16 MX MX2019005739A patent/MX2019005739A/es unknown
- 2017-11-16 JP JP2019526478A patent/JP7161215B2/ja active Active
- 2017-11-16 RU RU2019118471A patent/RU2729050C1/ru active
- 2017-11-16 CN CN201780071526.0A patent/CN110114828B/zh active Active
- 2017-11-16 CA CA3043964A patent/CA3043964C/en active Active
- 2017-11-16 EP EP17798236.0A patent/EP3542362B1/en active Active
- 2017-11-16 WO PCT/EP2017/079516 patent/WO2018091614A1/en active Search and Examination
-
2019
- 2019-05-17 US US16/415,392 patent/US11183199B2/en active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8379868B2 (en) * | 2006-05-17 | 2013-02-19 | Creative Technology Ltd | Spatial audio coding based on universal spatial cues |
KR101456640B1 (ko) * | 2008-08-13 | 2014-11-12 | 프라운호퍼 게젤샤프트 쭈르 푀르데룽 데어 안겐반텐 포르슝 에. 베. | 공간적 출력 다채널 오디오 신호를 결정하기 위한 장치 |
US20140358265A1 (en) * | 2013-05-31 | 2014-12-04 | Dolby Laboratories Licensing Corporation | Audio Processing Method and Audio Processing Apparatus, and Training Method |
Also Published As
Publication number | Publication date |
---|---|
WO2018091614A1 (en) | 2018-05-24 |
EP3324407A1 (en) | 2018-05-23 |
JP7161215B2 (ja) | 2022-10-26 |
US11183199B2 (en) | 2021-11-23 |
CA3043964C (en) | 2022-06-28 |
BR112019009944A2 (pt) | 2019-08-20 |
MX2019005739A (es) | 2019-09-11 |
ES2930268T3 (es) | 2022-12-09 |
KR102427414B1 (ko) | 2022-08-01 |
EP3542362A1 (en) | 2019-09-25 |
CN110114828A (zh) | 2019-08-09 |
JP2019537750A (ja) | 2019-12-26 |
CA3043964A1 (en) | 2018-05-24 |
EP3542362B1 (en) | 2022-09-21 |
RU2729050C1 (ru) | 2020-08-04 |
CN110114828B (zh) | 2023-10-27 |
US20190272835A1 (en) | 2019-09-05 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11869519B2 (en) | Apparatus and method for decomposing an audio signal using a variable threshold | |
RU2711513C1 (ru) | Устройство и способ оценивания межканальной разницы во времени | |
JP6289613B2 (ja) | オブジェクト特有時間/周波数分解能を使用する混合信号からのオーディオオブジェクト分離 | |
US11183199B2 (en) | Apparatus and method for decomposing an audio signal using a ratio as a separation characteristic | |
JP2008026914A (ja) | 忠実度最適化可変フレーム長符号化 | |
EP2030199A1 (en) | Linear predictive coding of an audio signal | |
JP2019194704A (ja) | 独立したノイズ充填を用いた強化された信号を生成するための装置および方法 | |
JP2021519949A (ja) | チャネル間時間差を推定するための装置、方法またはコンピュータプログラム | |
SE527713C2 (sv) | Kodning av polyfoniska signaler med villkorsbegränsade filter |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A201 | Request for examination | ||
AMND | Amendment | ||
E902 | Notification of reason for refusal | ||
AMND | Amendment | ||
E601 | Decision to refuse application | ||
AMND | Amendment | ||
E90F | Notification of reason for final refusal | ||
AMND | Amendment | ||
X701 | Decision to grant (after re-examination) | ||
GRNT | Written decision to grant |