KR20190085062A - Apparatus and method for decomposing an audio signal using a ratio as separation characteristic - Google Patents
Apparatus and method for decomposing an audio signal using a ratio as separation characteristic Download PDFInfo
- Publication number
- KR20190085062A KR20190085062A KR1020197017323A KR20197017323A KR20190085062A KR 20190085062 A KR20190085062 A KR 20190085062A KR 1020197017323 A KR1020197017323 A KR 1020197017323A KR 20197017323 A KR20197017323 A KR 20197017323A KR 20190085062 A KR20190085062 A KR 20190085062A
- Authority
- KR
- South Korea
- Prior art keywords
- signal
- component signal
- foreground
- blocks
- block
- Prior art date
Links
- 230000005236 sound signal Effects 0.000 title claims abstract description 169
- 238000000926 separation method Methods 0.000 title claims description 124
- 238000000034 method Methods 0.000 title claims description 56
- 230000004044 response Effects 0.000 claims abstract description 8
- 230000003595 spectral effect Effects 0.000 claims description 28
- 238000005259 measurement Methods 0.000 claims description 22
- 230000000875 corresponding effect Effects 0.000 claims description 16
- 238000004590 computer program Methods 0.000 claims description 10
- 230000002123 temporal effect Effects 0.000 claims description 8
- 230000005540 biological transmission Effects 0.000 claims description 6
- 238000001228 spectrum Methods 0.000 claims description 6
- 230000002194 synthesizing effect Effects 0.000 claims description 5
- 230000002596 correlated effect Effects 0.000 claims description 3
- 239000003607 modifier Substances 0.000 claims description 2
- 238000005562 fading Methods 0.000 claims 1
- 238000010606 normalization Methods 0.000 claims 1
- 238000012545 processing Methods 0.000 description 23
- 230000006870 function Effects 0.000 description 20
- 230000001052 transient effect Effects 0.000 description 13
- 230000003044 adaptive effect Effects 0.000 description 11
- 238000010586 diagram Methods 0.000 description 9
- 238000000354 decomposition reaction Methods 0.000 description 5
- 238000001514 detection method Methods 0.000 description 5
- 238000012886 linear function Methods 0.000 description 5
- 238000013507 mapping Methods 0.000 description 5
- 238000009499 grossing Methods 0.000 description 4
- 238000002955 isolation Methods 0.000 description 4
- 230000003068 static effect Effects 0.000 description 4
- 238000004364 calculation method Methods 0.000 description 3
- 230000001419 dependent effect Effects 0.000 description 3
- 238000001914 filtration Methods 0.000 description 3
- 238000012986 modification Methods 0.000 description 3
- 230000004048 modification Effects 0.000 description 3
- 230000008447 perception Effects 0.000 description 3
- 238000013459 approach Methods 0.000 description 2
- 239000006185 dispersion Substances 0.000 description 2
- 238000000605 extraction Methods 0.000 description 2
- 230000002093 peripheral effect Effects 0.000 description 2
- 238000005070 sampling Methods 0.000 description 2
- 238000003786 synthesis reaction Methods 0.000 description 2
- 238000012935 Averaging Methods 0.000 description 1
- 235000010627 Phaseolus vulgaris Nutrition 0.000 description 1
- 244000046052 Phaseolus vulgaris Species 0.000 description 1
- 230000015572 biosynthetic process Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 238000012937 correction Methods 0.000 description 1
- 238000012888 cubic function Methods 0.000 description 1
- 230000006735 deficit Effects 0.000 description 1
- 230000003111 delayed effect Effects 0.000 description 1
- 230000009977 dual effect Effects 0.000 description 1
- 238000004091 panning Methods 0.000 description 1
- 230000008569 process Effects 0.000 description 1
- 238000012887 quadratic function Methods 0.000 description 1
- 238000007493 shaping process Methods 0.000 description 1
- 230000001360 synchronised effect Effects 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/02—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
- G10L19/022—Blocking, i.e. grouping of samples in time; Choice of analysis windows; Overlap factoring
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0272—Voice signal separating
- G10L21/028—Voice signal separating using properties of sound source
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/008—Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L21/0216—Noise filtering characterised by the method used for estimating noise
- G10L21/0232—Processing in the frequency domain
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04S—STEREOPHONIC SYSTEMS
- H04S3/00—Systems employing more than two channels, e.g. quadraphonic
- H04S3/008—Systems employing more than two channels, e.g. quadraphonic in which the audio signals are in digital form, i.e. employing more than two discrete digital channels
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10H—ELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
- G10H2210/00—Aspects or methods of musical processing having intrinsic musical character, i.e. involving musical theory or musical parameters or relying on musical knowledge, as applied in electrophonic musical tools or instruments
- G10H2210/031—Musical analysis, i.e. isolation, extraction or identification of musical elements or musical parameters from a raw acoustic signal or from an encoded audio signal
- G10H2210/046—Musical analysis, i.e. isolation, extraction or identification of musical elements or musical parameters from a raw acoustic signal or from an encoded audio signal for differentiation between music and non-music signals, based on the identification of musical parameters, e.g. based on tempo detection
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10H—ELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
- G10H2250/00—Aspects of algorithms or signal processing methods without intrinsic musical character, yet specifically adapted for or used in electrophonic musical processing
- G10H2250/025—Envelope processing of music signals in, e.g. time domain, transform domain or cepstrum domain
- G10H2250/035—Crossfade, i.e. time domain amplitude envelope control of the transition between musical sounds or melodies, obtained for musical purposes, e.g. for ADSR tone generation, articulations, medley, remix
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10H—ELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
- G10H2250/00—Aspects of algorithms or signal processing methods without intrinsic musical character, yet specifically adapted for or used in electrophonic musical processing
- G10H2250/131—Mathematical functions for musical analysis, processing, synthesis or composition
- G10H2250/215—Transforms, i.e. mathematical transforms into domains appropriate for musical signal processing, coding or compression
- G10H2250/235—Fourier transform; Discrete Fourier Transform [DFT]; Fast Fourier Transform [FFT]
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04S—STEREOPHONIC SYSTEMS
- H04S2400/00—Details of stereophonic systems covered by H04S but not provided for in its groups
- H04S2400/01—Multi-channel, i.e. more than two input channels, sound reproduction with two speakers wherein the multi-channel information is substantially preserved
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Signal Processing (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- Human Computer Interaction (AREA)
- Health & Medical Sciences (AREA)
- Quality & Reliability (AREA)
- Mathematical Physics (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
- Circuit For Audible Band Transducer (AREA)
- Stereophonic System (AREA)
- Stereo-Broadcasting Methods (AREA)
- Signal Processing Not Specific To The Method Of Recording And Reproducing (AREA)
Abstract
오디오 신호(100)를 배경 성분 신호(140) 및 전경 성분 신호(150)로 분해하기 위한 장치는, 오디오 신호 값들의 블록들의 시간 시퀀스를 생성하기 위한 블록 생성기(110); 오디오 신호의 현재 블록의 블록 특성을 결정하고, 블록들의 그룹에 대한 평균 특성을 결정하기 위한 오디오 신호 분석기(120) ― 블록들의 그룹은 적어도 2개의 블록들을 포함함 ―; 및 현재 블록의 블록 특성과 블록들의 그룹의 평균 특성의 비율에 응답하여 현재 블록을 배경 부분 및 전경 부분으로 분리시키기 위한 분리기(130)를 포함하며, 여기서, 배경 성분 신호(140)는 현재 블록의 배경 부분을 포함하고, 전경 성분 신호(150)는 현재 블록의 전경 부분을 포함한다.An apparatus for decomposing an audio signal (100) into a background component signal (140) and a foreground component signal (150) comprises: a block generator (110) for generating a time sequence of blocks of audio signal values; An audio signal analyzer (120) for determining a block characteristic of a current block of an audio signal and determining an average characteristic for a group of blocks, the group of blocks including at least two blocks; And a separator 130 for separating the current block into a background portion and a foreground portion in response to a ratio of a block characteristic of a current block to an average characteristic of a group of blocks, Background component, and the foreground component signal 150 includes the foreground portion of the current block.
Description
본 발명은 오디오 프로세싱에 관한 것으로, 더 상세하게는, 배경(background) 성분 신호 및 전경(foreground) 성분 신호로의 오디오 신호들의 분해에 관한 것이다.BACKGROUND OF THE
오디오 신호 프로세싱에 관련된 상당한 양의 참조문헌들이 존재하며, 여기서 이들 참조문헌들 중 일부가 오디오 신호 분해에 관련된다. 예시적인 참조문헌들은 다음과 같다:There are a considerable amount of references relating to audio signal processing, some of which are related to audio signal decomposition. Exemplary references include:
[1] S. Disch and A. Kuntz, A Dedicated Decorrelator for Parametric Spatial Coding of Applause-Like Audio Signals. Springer-Verlag, January 2012, pp. 355-363.[1] S. Disch and A. Kuntz, A Dedicated Decorrelator for Parametric Spatial Coding of Applied-Like Audio Signals. Springer-Verlag, January 2012, pp. 355-363.
[2] A. Kuntz, S. Disch, T. Backstrm, and J. Robilliard, "The Transient Steering Decorrelator Tool in the Upcoming MPEG Unified Speech and Audio Coding Standard," in 131st Convention of the AES, New York, USA, 2011.[2] A. Kuntz, S. Disch, T. B ackstr m, and J. Robilliard, "The Transient Steering Decorrelator Tool in the Upcoming MPEG < / RTI > Speech and Audio Coding Standard," 131st Convention of the AES, New York, USA, 2011.
[3] A. Walther, C. Uhle, and S. Disch, "Using Transient Suppression in Blind Multi-channel Upmix Algorithms," in Proceedings, 122nd AES Pro Audio Expo and Convention, May 2007.[3] A. Walther, C. Uhle, and S. Disch, "Transient Suppression in Blind Multi-channel Upmix Algorithms," Proceedings, 122nd AES Pro Audio Expo and Convention, May 2007.
[4] G. Hotho, S. van de Par, and J. Breebaart, "Multichannel coding of applause signals", EURASIP J. Adv. Signal Process, vol. 2008, Jan. 2008. [Online]. Available: http://dx.doi.org/10.1155/2008/531693[4] G. Hotho, S. van de Par, and J. Breebaart, "Multichannel coding of applause signals", EURASIP J. Adv. Signal Process, vol. 2008, Jan. 2008. [Online]. Available: http://dx.doi.org/10.1155/2008/531693
[5] D. FitzGerald, "Harmonic/Percussive Separation Using Median Filtering," in Proceedings of the 13th International Conference on Digital Audio Effects (DAFx-10), Graz, Austria, 2010.[5] D. FitzGerald, "Harmonic / Percussive Separation Using Median Filtering," Proceedings of the 13th International Conference on Digital Audio Effects (DAFx-10), Graz, Austria, 2010.
[6] J. P. Bello, L. Daudet, S. Abdallah, C. Duxbury, M. Davies, and M. B. Sandler, "A Tutorial on Onset Detection in Music Signals," IEEE Transactions on Speech and Audio Processing, vol. 13, no. 5, pp. 1035-1047, 2005.[6] J. P. Bello, L. Daudet, S. Abdallah, C. Duxbury, M. Davies, and M. B. Sandler, "A Tutorial on Onset Detection in Music Signals," IEEE Transactions on Speech and Audio Processing, vol. 13, no. 5, pp. 1035-1047, 2005.
[7] M. Goto and Y. Muraoka, "Beat tracking based on multiple-agent architecture - a real-time beat tracking system for audio signals," in Proceedings of the 2nd International Conference on Multiagent Systems, 1996, pp. 103-110.[7] M. Goto and Y. Muraoka, "Beat tracking based on multiple-agent architecture, a real-time beat tracking system for audio signals," Proceedings of the 2nd International Conference on Multiagent Systems, 1996, pp. 103-110.
[8] A. Klapuri, "Sound onset detection by applying psychoacoustic knowledge," in Proceedings of the International Conference on Acoustics, Speech, and Signal Processing (ICASSP), vol. 6, 1999, pp. 3089-3092 vol.6.[8] A. Klapuri, "Sound onset detection by applying psychoacoustic knowledge," in Proceedings of the International Conference on Acoustics, Speech, and Signal Processing (ICASSP), vol. 6, 1999, pp. 3089-3092 vol.6.
더욱이, WO 2010017967호는 입력 오디오 신호에 기초하여 공간 출력 다채널 오디오 신호를 결정하기 위한 장치를 개시하며, 그 장치는, 전경 신호 부분인 제1 분해된 신호 및 배경 신호 부분인 제2 분해된 신호로 입력 오디오 신호를 분해하기 위한 시맨틱 분해기(semantic decomposer)를 포함한다. 더욱이, 렌더러는, 진폭 패닝(panning)을 사용하여 전경 신호 부분을 렌더링하고, 역상관(decorrelation)에 의해 배경 신호 부분을 렌더링하도록 구성된다. 마지막으로, 제1 렌더링된 신호 및 제2 렌더링된 신호는 공간 출력 다채널 오디오 신호를 획득하기 위해 프로세싱된다.Furthermore, WO 2010017967 discloses an apparatus for determining a spatial output multi-channel audio signal based on an input audio signal, the apparatus comprising a first decomposed signal that is a foreground signal portion and a second decomposed signal that is a background signal portion And a semantic decomposer for decomposing the input audio signal. Furthermore, the renderer is configured to render the foreground signal portion using amplitude panning and render the background signal portion by decorrelation. Finally, the first rendered signal and the second rendered signal are processed to obtain a spatial output multi-channel audio signal.
더욱이, 참조문헌들 [1] 및 [2]는 트랜션트 스티어링 역상관기(transient steering decorrelator)를 개시한다.Furthermore, references [1] and [2] disclose a transient steering decorrelator.
아직 공개되지 않은 유럽 출원 제 16156200.4호는 고해상도 엔벨로프 프로세싱을 개시한다. 고해상도 엔벨로프 프로세싱은, 박수(applause), 빗방울 소리들 등과 같은 많은 조밀한 트랜션트 이벤트들로 주로 이루어진 신호들의 개선된 코딩을 위한 툴이다. 인코더 측에서, 툴은, 입력 신호를 분석하고, 트랜션트 이벤트들의 고주파수 부분을 감쇠시키고 그에 따라 시간적으로 평탄화시켜, 스테레오 신호들에 대해 1 내지 4kbps와 같은 작은 양의 사이드(side) 정보를 생성함으로써 실제 지각 오디오 코덱 이전에 높은 시간 해상도를 갖는 프리프로세서로서 작동한다. 디코더 측에서, 툴은, 인코딩 동안 생성되었던 사이드 정보를 이용하여, 트랜션트 이벤트들의 고주파수 부분을 부스팅하고 그에 따라 시간적으로 형상화시킴으로써 오디오 코덱 이후 포스트프로세서로서 작동한다.European Application No. 16156200.4, which has not yet been published, initiates high resolution envelope processing. The high-resolution envelope processing is a tool for improved coding of signals consisting mainly of many dense transient events such as applause, raindrop sounds, and the like. On the encoder side, the tool analyzes the input signal, attenuates the high frequency portion of the transient events and thereby temporally flattens them, producing a small amount of side information, such as 1 to 4 kbps for the stereo signals It acts as a preprocessor with a high temporal resolution prior to the actual perceptual audio codec. On the decoder side, the tool acts as a post-processor after the audio codec by using the side information that was generated during encoding, by boosting the high frequency portion of the transient events and temporally shaping accordingly.
업믹싱(upmix)은 일반적으로 다이렉트(direct) 및 주변 신호 부분들로의 신호 분해를 수반하며, 여기서, 다이렉트 신호는 라우드스피커들 사이에서 패닝되고, 주변 부분은 주어진 수의 채널들에 걸쳐 역상관 및 분배된다. 주변 신호들 내의 트랜션트들과 같은 나머지 다이렉트 성분들은 업믹싱된 사운드 장면에서 결과적으로 인지된 앰비언스(ambience)의 손상을 유발한다. [3]에서, 주변 신호 내에서 검출된 트랜션트들을 감소시키는 트랜션트 검출 및 프로세싱이 제안된다. 트랜션트 검출을 위해 제안된 하나의 방법은, 하나의 시간 블록 내의 빈들의 주파수 가중된 합과, 특정한 블록이 억제되어야 하는지 여부를 결정하기 위한 가중된 장시간 구동 수단 사이의 비교를 포함한다.Upmix generally involves signal decomposition into direct and peripheral signal portions where the direct signal is panned between the loudspeakers and the peripheral portion is subjected to a decorrelation over a given number of channels And distributed. The remaining direct components, such as transients in the surrounding signals, result in a perceived impairment of the ambience in the upmixed sound scene. In [3], transient detection and processing are proposed that reduce the transients detected in the surrounding signal. One proposed method for transient detection involves a comparison between the frequency weighted sum of the bins in one time block and the weighted long time drive means for determining whether a particular block should be suppressed.
[4]에서, 박수 신호들의 효율적인 공간 오디오 코딩이 다뤄진다. 제안된 다운믹스- 및 업믹스 방법들 모두가 전체 박수 신호에 대해 작동된다.In [4], efficient spatial audio coding of applause signals is discussed. Both of the proposed downmix and upmix methods operate on the entire applause signal.
더욱이, 참조문헌 [5]는 하모닉/퍼커시브(percussive) 분리를 개시하며, 여기서, 신호들은 수평 및 수직 방향으로 스펙트로그램에 미디언 필터(median filter)들을 적용함으로써 하모닉 및 퍼커시브 신호 성분들로 분리된다.Furthermore, reference [5] discloses a harmonic / percussive separation, where the signals are applied to harmonic and percussive signal components by applying median filters to the spectrogram in the horizontal and vertical directions Separated.
참조문헌 [6]은 주파수 도메인 접근법들, 시초(onset) 검출의 맥락에서 엔벨로프 팔로워(follower) 또는 에너지 팔로워와 같은 시간 도메인 접근법들을 포함하는 튜토리얼(tutorial)을 표현한다. 참고문헌 [7]은 주파수 도메인에서 전력의 급격한 증가와 같은 전력 추적을 개시하고, 참고문헌 [8]은 시초 검출의 목적을 위한 신규성(novelty) 측정을 개시한다.Reference [6] expresses a tutorial that includes time domain approaches such as frequency domain approaches, envelope followers or energy followers in the context of onset detection. Reference [7] initiates power tracking, such as a sharp increase in power in the frequency domain, and reference [8] initiates novelty measurements for purposes of inception detection.
선행 기술의 참고문헌들에 설명된 바와 같은 신호의 전경 및 배경 신호 부분으로의 분리는, 그러한 알려진 절차들이 결과 신호 또는 분해된 신호들의 감소된 오디오 품질을 초래할 수 있다는 사실로 인해 불리하다.The separation of the signal into foreground and background signal portions as described in the prior art references is disadvantageous due to the fact that such known procedures can result in reduced audio quality of the resulting signal or the decomposed signals.
오디오 신호를 배경 성분 신호 및 전경 성분 신호로 분해하려는 목적을 위한 개선된 개념을 제공하는 것이 본 발명의 목적이다.It is an object of the present invention to provide an improved concept for the purpose of decomposing an audio signal into a background component signal and a foreground component signal.
이러한 목적은, 청구항 제1항에 따른, 오디오 신호를 배경 성분 신호 및 전경 성분 신호로 분해하기 위한 장치, 청구항 제22항에 따른, 오디오 신호를 배경 성분 신호 및 전경 성분 신호로 분해하기 위한 방법, 또는 청구항 제23항에 따른 컴퓨터 프로그램에 의해 달성된다.This object is achieved by an apparatus for decomposing an audio signal into a background component signal and a foreground component signal according to
일 양상에서, 오디오 신호를 배경 성분 신호 및 전경 성분 신호로 분해하기 위한 장치는, 오디오 신호 값들의 블록들의 시간 시퀀스를 생성하기 위한 블록 생성기, 블록 생성기에 연결된 오디오 신호 분석기, 및 블록 생성기 및 오디오 신호 분석기에 연결된 분리기를 포함한다. 제1 양상에 따르면, 오디오 신호 분석기는, 오디오 신호의 현재 블록의 블록 특성 및 블록들의 그룹에 대한 평균 특성을 결정하도록 구성되며, 블록들의 그룹은 적어도 2개의 블록들, 이를테면 선행 블록, 현재 블록 및 후속 블록 또는 심지어 더 선행 블록들 또는 더 후속 블록들을 포함한다.In an aspect, an apparatus for decomposing an audio signal into a background component signal and a foreground component signal includes a block generator for generating a time sequence of blocks of audio signal values, an audio signal analyzer coupled to the block generator, And a separator connected to the analyzer. According to a first aspect, an audio signal analyzer is configured to determine a block characteristic of a current block of an audio signal and an average characteristic for a group of blocks, the group of blocks comprising at least two blocks, such as a preceding block, Subsequent blocks or even further preceding blocks or further subsequent blocks.
분리기는, 현재 블록의 블록 특성과 평균 특성의 비율에 응답하여 현재 블록을 배경 부분 및 전경 부분으로 분리시키도록 구성된다. 따라서, 배경 성분 신호는 현재 블록의 배경 부분을 포함하고, 전경 성분 신호는 현재 블록의 전경 부분을 포함한다. 따라서, 현재 블록은 배경 또는 전경 중 어느 하나인 것으로 간단히 결정되지 않는다. 대신, 현재 블록은 실제로, 비-제로 배경 부분 및 비-제로 전경 부분으로 분리된다. 이러한 절차는, 통상적으로 전경 신호가 신호 내에 단독으로 결코 존재하는 것이 아니라 항상 배경 신호 성분에 결합되는 상황을 반영한다. 따라서, 본 발명은 이러한 제1 양상에 따르면, 특정한 임계화가 수행되는지 여부와 관계없이, 어떠한 임계치도 없거나 또는 비율에 의해 특정한 임계치에 도달할 경우, 실제 분리가 이루어지며, 전경 부분에 부가하여 배경 부분이 항상 유지되는 상황을 반영한다.The separator is configured to separate the current block into a background portion and a foreground portion in response to a ratio of the block characteristic and the average characteristic of the current block. Thus, the background component signal includes the background portion of the current block, and the foreground component signal includes the foreground portion of the current block. Therefore, the current block is not simply determined to be either the background or the foreground. Instead, the current block is actually divided into a non-zero background portion and a non-zero foreground portion. This procedure typically reflects the situation where the foreground signal is always present in the signal alone, but is always coupled to the background signal component. Therefore, according to this first aspect of the present invention, when no threshold is reached or a specific threshold is reached by a ratio, regardless of whether or not a specific thresholding is performed, actual separation is performed, and in addition to the foreground part, Reflects the situation that is always maintained.
더욱이, 분리는 매우 특정한 분리 수단, 즉 적어도 2개의 블록들로부터 도출된, 즉 블록들의 그룹으로부터 도출된 평균 특성과 현재 블록의 블록 특성의 비율에 의해 행해진다. 따라서, 블록들의 그룹의 사이즈에 의존하여, 매우 느리게 변하는 이동 평균 또는 매우 급속하게 변하는 이동 평균이 세팅될 수 있다. 블록들의 그룹 내의 많은 수의 블록들에 대해, 이동 평균은 비교적 느리게 변하는 반면, 블록들의 그룹 내의 적은 수의 블록들에 대해, 이동 평균은 매우 급속하게 변한다. 더욱이, 현재 블록으로부터의 특성과 블록들의 그룹에 걸친 평균 특성 사이의 관계의 사용은, 즉 평균에 관한 이러한 블록의 특성 사이의 비율이 특정한 값에 있는 경우, 전경 성분을 포함하는 것으로서 특정한 블록을 개인들이 인지하는 지각적 상황을 반영한다. 그러나, 이러한 양상에 따르면, 이러한 특정한 값은 반드시 임계치일 필요는 없다. 대신, 비율 그 자체는 배경 부분 및 전경 부분으로의 현재 블록의 양적 분리를 수행하기 위해 이미 사용될 수 있다. 높은 비율은, 현재 블록의 높은 부분이 전경 부분인 것을 초래하는 반면, 낮은 비율은, 현재 블록의 대부분 또는 모두가 배경 부분에 남아있고, 현재 블록이 작은 전경 부분만을 갖거나 또는 어떠한 전경 부분도 전혀 갖지 않는 상황을 초래한다.Furthermore, the separation is done by a very specific separation means, i.e. the ratio of the average characteristic derived from the group of blocks derived from the at least two blocks and the block characteristic of the current block. Thus, depending on the size of the group of blocks, a very slowly varying moving average or a very rapidly varying moving average can be set. For a large number of blocks in a group of blocks, the moving average changes relatively slowly, whereas for a small number of blocks in a group of blocks, the moving average changes very rapidly. Moreover, the use of the relationship between the characteristic from the current block and the average characteristic across the group of blocks means that if the ratio between the characteristics of such a block with respect to the average is at a particular value, The perceptual situation is recognized. However, according to this aspect, this particular value does not necessarily have to be a threshold. Instead, the ratio itself may already be used to perform quantitative separation of the current block into the background portion and the foreground portion. The high ratio causes the high portion of the current block to be the foreground portion, while the low percentage means that most or all of the current block remains in the background portion, and the current block has only a small foreground portion, or no foreground portion at all Which would result in a situation that does not exist.
바람직하게, 진폭-관련 특성이 결정되며, 현재 블록의 에너지와 같은 이러한 진폭-관련 특성은, 어떤 분리가 수행되는지에 기초하여, 비율을 획득하기 위해 블록들의 그룹의 평균 에너지와 비교된다. 분리에 응답하여 배경 신호가 남아있는 것을 확인하기 위해, 이득 인자가 결정되며, 이어서, 이러한 이득 인자는, 특정한 블록의 평균 에너지가 배경 또는 잡음형 신호 내에 얼마나 많이 남아있는지 그리고, 예를 들어, 박수소리(clap) 신호 또는 빗방울 신호 등과 같은 트랜션트 신호일 수 있는 전경 신호 부분으로 어떤 부분이 진행하는지를 제어한다.Preferably, the amplitude-related characteristic is determined, and such amplitude-related characteristic, such as the energy of the current block, is compared to the average energy of the group of blocks to obtain a ratio, based on what separation is performed. In order to confirm that a background signal remains in response to the separation, a gain factor is determined, and then this gain factor is used to determine how much the average energy of a particular block remains in the background or noise type signal and, And controls which part goes into the foreground signal portion, which can be a transient signal, such as a clap signal or a raindrop signal.
제1 양상에 부가하여 또는 제1 양상과는 별개로 사용될 수 있는 본 발명의 추가적인 제2 양상에서, 오디오 신호를 분해하기 위한 장치는 블록 생성기, 오디오 신호 분석기 및 분리기를 포함한다. 오디오 신호 분석기는 오디오 신호의 현재 블록의 특성을 분석하도록 구성된다. 오디오 신호의 현재 블록의 특성은 제1 양상에 관해 논의된 바와 같은 비율일 수 있지만, 대안적으로는 또한, 어떠한 평균화 없이 오직 현재 블록으로부터만 도출된 블록 특성일 수 있다. 더욱이, 오디오 신호 분석기는, 블록들의 그룹 내의 특성의 가변성을 결정하도록 구성되며, 여기서, 블록들의 그룹은 적어도 2개의 블록들, 및 바람직하게는 현재 블록이 있거나 또는 없는 적어도 2개의 선행 블록들 또는 현재 블록이 있거나 또는 없는 적어도 2개의 후속 블록들, 또는 또한 현재 블록이 있거나 또는 없는 적어도 2개의 선행 블록들, 적어도 2개의 후속 블록들 둘 모두를 포함한다. 바람직한 실시예들에서, 블록들의 수는 30 또는 심지어 40보다 크다.In a further, second aspect of the invention, which may be used in addition to or in addition to the first aspect, the apparatus for decomposing an audio signal comprises a block generator, an audio signal analyzer and a separator. The audio signal analyzer is configured to analyze characteristics of a current block of the audio signal. The characteristic of the current block of the audio signal may be a ratio as discussed with respect to the first aspect, but alternatively it may also be a block characteristic derived only from the current block without any averaging. Moreover, the audio signal analyzer is configured to determine the variability of the characteristics within a group of blocks, wherein the group of blocks comprises at least two blocks, and preferably at least two preceding blocks with or without a current block, At least two subsequent blocks with or without a block, or at least two preceding blocks with or without a current block, and at least two subsequent blocks. In preferred embodiments, the number of blocks is greater than 30 or even 40.
더욱이, 분리기는 현재 블록을 배경 부분 및 전경 부분으로 분리시키도록 구성되며, 여기서 이러한 분리기는, 신호 분리기에 의해 결정된 가변성에 기초하여 분리 임계치를 결정하며, 현재 블록의 특성이 분리 임계치와 미리 결정된 관계에 있는 경우, 이를테면 분리 임계치보다 크거나 또는 그와 동일한 경우, 현재 블록을 분리시키도록 구성된다. 당연히, 임계치가 일종의 역 값인 것으로 정의될 경우, 미리 결정된 관계는 관계보다 작거나, 또는 관계보다 작거나 또는 동일할 수 있다. 따라서, 특성이 분리 임계치와 미리 결정된 관계 내에 있는 경우, 배경 부분 및 전경 부분으로의 분리가 수행되는 반면, 특성이 분리 임계치와 미리 결정된 관계 내에 있지 않는 경우, 분리가 전혀 수행되지 않는 그러한 방식으로 임계화가 항상 수행될 수 있다.Further, the separator is configured to separate the current block into a background portion and a foreground portion, wherein the separator determines a separation threshold based on the variability determined by the signal separator, and wherein the characteristic of the current block is a predetermined relationship , Such as to be greater than or equal to the isolation threshold, to separate the current block. Of course, if the threshold is defined to be some sort of inverse value, the predetermined relationship may be smaller than the relationship, or less than or equal to the relationship. Thus, if the property is within a predetermined relationship with the separation threshold, separation into the background portion and the foreground portion is performed, whereas if the property is not within a predetermined relationship with the separation threshold, Anger can always be done.
블록들의 그룹 내의 특성의 가변성에 의존하는 가변 임계치를 사용하는 제2 양상에 따르면, 분리는 완전한 분리일 수 있으며, 즉, 분리가 수행될 경우 오디오 신호 값들의 전체 블록이 전경 성분으로 도입되거나, 또는 가변 분리 임계치에 관한 미리 결정된 관계가 만족되지 않는 경우 오디오 신호 값들의 전체 블록이 배경 신호 부분과 유사하다. 바람직한 실시예에서, 이러한 양상은, 가변 임계치가 특성과 미리 결정된 관계에 있다고 발견되자마자, 비-바이너리 분리가 수행되며, 즉 오디오 신호 값들의 일부만이 전경 신호 부분으로 들어가고, 나머지 부분이 배경 신호에 남겨진다는 점에서 제1 양상과 결합된다.According to a second aspect, using a variable threshold that depends on the variability of the characteristics in the group of blocks, the separation may be a complete separation, i. E., When an entire block of audio signal values is introduced into the foreground component, If the predetermined relationship regarding the variable separation threshold is not satisfied, the entire block of audio signal values is similar to the background signal portion. In a preferred embodiment, this aspect is such that as soon as the variable threshold is found to be in predetermined relationship to the characteristic, non-binary separation is performed, i.e. only a part of the audio signal values enter the foreground signal portion, It is combined with the first aspect in that it is left behind.
바람직하게, 전경 신호 부분 및 배경 신호 부분에 대한 부분의 분리는 이득 인자에 기초하여 결정되고, 즉, 동일한 신호 값들은 결국, 전경 신호 부분 및 배경 신호 부분 내에 있지만, 상이한 부분들 내의 신호 값들의 에너지는 서로 상이하며, 현재 블록 그 자체의 블록 특성 또는 현재 블록과 연관된 블록들의 그룹에 대한 평균 특성과 현재 블록에 대한 블록 특성 사이의 현재 블록에 대한 비율과 같은 특성에 결국 의존하는 분리 이득에 의해 결정된다.Preferably, the separation of the portion for the foreground signal portion and for the background signal portion is determined based on the gain factor, i.e. the same signal values are eventually in the foreground signal portion and the background signal portion, but the energy of the signal values in the different portions Are determined by a separation gain that eventually depends on the characteristics such as the block characteristic of the current block itself or the ratio of the average characteristic for the group of blocks associated with the current block to the current block between the block characteristic for the current block do.
가변 임계치의 사용은, 매우 정적인 신호로부터의 작은 편차가 있는 경우라도, 즉 특정한 신호가 매우 정적인 것으로, 즉 상당한 변동들을 갖지 않는 것으로 고려될 경우, 개인들이 전경 신호 부분을 인지하는 상황을 반영한다. 이어서, 심지어 작은 변동도 전경 신호 부분인 것으로 이미 인지된다. 그러나, 매우 변동하는 신호가 존재하는 경우, 매우 변동하는 신호 그 자체가 배경 신호 성분인 것으로 인지되며, 이러한 패턴의 변동들로부터의 작은 편차가 전경 신호 부분인 것으로 인지되지 않는 것으로 보인다. 평균 또는 기대 값으로부터의 더 강한 편차들만이 전경 신호 부분인 것으로 인지된다. 따라서, 작은 분산을 갖는 신호들에 대해 매우 작은 분리 임계치를 사용하고, 높은 분산을 갖는 신호들에 대해 더 높은 분리 임계치를 사용하는 것이 바람직하다. 그러나, 역 값들이 고려될 경우, 상황은 위의 것과 반대이다.The use of variable thresholds reflects situations in which individuals perceive foreground signal portions, even when there is a small deviation from a very static signal, i. E. When a particular signal is considered to be very static, i. do. Subsequently, even a small variation is already recognized as being the foreground signal portion. However, in the presence of a highly fluctuating signal, the highly fluctuating signal itself is perceived to be a background signal component, and it appears that a small deviation from variations in this pattern is not perceived as being a foreground signal portion. Only stronger deviations from the mean or expected value are perceived as being the foreground signal portion. Thus, it is desirable to use very small separation thresholds for signals with small dispersion and to use higher separation thresholds for signals with high dispersion. However, when inverse values are taken into account, the situation is opposite to the above.
양상들 둘 모두, 즉 블록 특성과 평균 특성 사이의 비율에 기초한 전경 신호 부분 및 배경 신호 부분으로의 비-바이너리 분리를 갖는 제1 양상 및 블록들의 그룹 내의 특성의 가변성에 의존하는 가변 임계치를 포함하는 제2 양상은 서로 별개로 사용될 수 있거나, 또는 심지어 함께, 즉 서로 조합하여 사용될 수 있다. 후자의 대안은 아래에서 설명되는 바와 같이 바람직한 실시예를 구성한다.Both aspects, i.e., the foreground signal portion based on the ratio between the block characteristic and the average characteristic, and the first aspect having the non-binary separation into the background signal portion and the variable threshold dependent on the variability of the characteristic in the group of blocks The second aspect may be used separately from each other, or even together, i. E. In combination with each other. The latter alternative constitutes a preferred embodiment as described below.
본 발명의 실시예들은 시스템에 관련되며, 여기서, 입력 신호는 개별 프로세싱이 적용될 수 있는 2개의 신호 성분들로 분해되고, 프로세싱된 신호들은 출력 신호를 형성하기 위해 재합성된다. 박수 및 또한 다른 트랜션트 신호들은, 뚜렷하게 개별적으로 인지가능한 트랜션트 박수소리 이벤트들과 더 잡음형인 배경 신호의 중첩으로서 보여질 수 있다. 그러한 신호들의 전경 및 배경 신호 밀도의 비율 등과 같은 특성들을 수정하기 위해, 개별 프로세싱을 각각의 신호 부분에 적용할 수 있는 것이 유리하다. 부가적으로, 사람의 지각에 의해 동기부여된 신호 분리가 획득된다. 더욱이, 개념은 또한, 이를테면 전송기 사이트 상에서 신호 특성들을 측정하고 수신기 사이트 상에서 이들 특성들을 복원하기 위한 측정 디바이스로서 사용될 수 있다.Embodiments of the present invention relate to a system in which an input signal is decomposed into two signal components to which individual processing may be applied and the processed signals are resynthesized to form an output signal. The applause and also other transient signals can be seen as a superposition of distinctly perceptible transient applause events and a more noise background signal. It is advantageous to be able to apply individual processing to each signal portion in order to modify properties such as the ratio of the foreground and background signal density of such signals. Additionally, signal separation motivated by human perception is obtained. Moreover, the concept can also be used as a measurement device for measuring signal characteristics on the transmitter site, for example, and for restoring these characteristics on the receiver site.
본 발명의 실시예들은 배타적으로, 다채널 공간 출력 신호를 생성하는 것을 목표로 하지 않는다. 모노 입력 신호가 분해되고, 개별 신호 부분들이 프로세싱되어 모노 출력 신호로 재합성된다. 일부 실시예들에서, 제1 또는 제2 양상에서 정의된 바와 같은 개념은 가청 신호 대신 측정들 또는 사이드 정보를 출력한다.Exemplary embodiments of the present invention do not aim to exclusively generate multi-channel spatial output signals. The mono input signal is decomposed and the individual signal portions are processed and reconstructed into a mono output signal. In some embodiments, the concept as defined in the first or second aspect outputs measurements or side information instead of an audible signal.
부가적으로, 분리는 시맨틱 양상보다는 지각적인 양상 및 바람직하게는 양적인 특성 또는 값에 기초한다.Additionally, the separation is based on a perceptual aspect and preferably a quantitative characteristic or value rather than a semantic aspect.
실시예들에 따르면, 분리는, 고려된 짧은 시간 프레임 내의 평균 에너지에 관한 순시 에너지의 편차에 기초한다. 그러한 시간 프레임에서 평균 에너지에 가까운 또는 그 미만의 에너지 레벨을 갖는 트랜션트 이벤트가 배경과 실질적으로 상이한 것으로 인지되지 않지만, 높은 에너지 편차를 갖는 이벤트들은 배경 신호와 구별될 수 있다. 이러한 종류의 신호 분리는 원리를 채용하며, 트랜션트 이벤트들의 사람의 인지에 더 가깝고 배경 이벤트들에 비해 전경 이벤트들의 인지에 더 가까운 프로세싱을 허용한다.According to embodiments, the separation is based on a deviation of the instantaneous energy with respect to the average energy in the short time frame considered. Events with high energy deviations can be distinguished from background signals, although transient events having energy levels close to or below the average energy in such a time frame are not perceived as being substantially different from the background. This kind of signal separation employs the principle and allows processing closer to the perception of a person of transient events and closer to the perception of foreground events than background events.
후속하여, 본 발명의 바람직한 실시예들은 첨부한 도면들에 관해 논의된다.Subsequently, preferred embodiments of the present invention are discussed with reference to the accompanying drawings.
도 1a는 제1 양상에 따라, 비율에 의존하여 오디오 신호를 분해하기 위한 장치의 블록 다이어그램이다.
도 1b는 제2 양상에 따라, 가변 분리 임계치에 의존하여 오디오 신호를 분해하기 위한 개념의 일 실시예의 블록 다이어그램이다.
도 1c는 제1 양상, 제2 양상 또는 양상들 둘 모두에 따라, 오디오 신호를 분해하기 위한 장치의 블록 다이어그램을 예시한다.
도 1d는 제1 양상, 제2 양상 또는 양상들 둘 모두에 따른 오디오 신호 분석기 및 분리기의 바람직한 예시를 예시한다.
도 1e는 제2 양상에 따른 신호 분리기의 일 실시예를 예시한다.
도 1f는 제1 양상, 제2 양상에 따라 그리고 상이한 임계치들을 참조함으로써 오디오 신호를 분해하기 위한 개념의 설명을 예시한다.
도 2는 제1 양상, 제2 양상 또는 양상들 둘 모두에 따라, 현재 블록의 오디오 신호 값들을 전경 성분 및 배경 성분으로 분리시키기 위한 2개의 상이한 방식들을 예시한다.
도 3은 블록 생성기에 의해 생성된 중첩 블록들, 및 분리에 후속하는 시간 도메인 전경 성분 신호들 및 배경 성분 신호들의 생성의 개략적인 표현을 예시한다.
도 4a는 원시(raw) 가변성들의 평활화에 기초하여 가변 임계치를 결정하기 위한 제1 대안을 예시한다.
도 4b는 원시 임계치들의 평활화에 기초한 가변 임계치의 결정을 예시한다.
도 4c는 (평활화된) 가변성들을 임계치들에 맵핑하기 위한 상이한 함수들을 예시한다.
도 5는 제2 양상에서 요구되는 바와 같은 가변성을 결정하기 위한 바람직한 구현을 예시한다.
도 6은 분리, 전경 프로세싱 및 배경 프로세싱 그리고 후속 신호 재합성에 걸친 일반적인 개관을 예시한다.
도 7은 메타데이터가 있거나 또는 없는 신호 특성들의 측정 및 복원을 예시한다.
도 8은 인코더-디코더 사용 경우에 대한 블록 다이어그램을 예시한다.1A is a block diagram of an apparatus for decomposing an audio signal in dependence on a ratio, according to a first aspect.
1B is a block diagram of one embodiment of a concept for decomposing an audio signal in dependence on a variable separation threshold, according to a second aspect.
1C illustrates a block diagram of an apparatus for decomposing an audio signal according to either the first, second, or aspects.
Figure 1D illustrates a preferred example of an audio signal analyzer and separator according to the first, second or aspects of the invention.
1e illustrates an embodiment of a signal separator according to the second aspect.
1F illustrates a conceptual description for decomposing an audio signal according to the first and second aspects and by reference to different thresholds.
Figure 2 illustrates two different schemes for separating the audio signal values of the current block into foreground and background components, according to either the first, second, or aspects.
Figure 3 illustrates a schematic representation of the generation of overlapping blocks generated by a block generator, and temporal domain foreground component signals and background component signals subsequent to the separation.
Figure 4A illustrates a first alternative for determining a variable threshold based on smoothing of raw variabilities.
Figure 4B illustrates the determination of a variable threshold based on smoothing of primitive thresholds.
Figure 4c illustrates different functions for mapping (smoothed) variabilities to thresholds.
Figure 5 illustrates a preferred implementation for determining variability as required in the second aspect.
Figure 6 illustrates a general overview of isolation, foreground processing and background processing, and subsequent signal re-synthesis.
Figure 7 illustrates the measurement and reconstruction of signal characteristics with or without metadata.
Figure 8 illustrates a block diagram for an encoder-decoder use case.
도 1a는 오디오 신호를 배경 성분 신호 및 전경 성분 신호로 분해하기 위한 장치를 예시한다. 오디오 신호는 오디오 신호 입력(100)에 입력된다. 오디오 신호 입력은, 라인(112)에서 출력되는 오디오 신호 값들의 블록들의 시간 시퀀스를 생성하기 위해 블록 생성기(110)에 연결된다. 더욱이, 장치는, 오디오 신호의 현재 블록의 블록 특성을 결정하고, 부가적으로 블록들의 그룹에 대한 평균 특성을 결정하기 위한 오디오 신호 분석기(120)를 포함하며, 여기서, 블록들의 그룹은 적어도 2개의 블록들을 포함한다. 바람직하게, 블록들의 그룹은 적어도 하나의 선행 블록 또는 적어도 하나의 후속 블록, 및 부가적으로는 현재 블록을 포함한다.Figure 1A illustrates an apparatus for decomposing an audio signal into a background component signal and a foreground component signal. The audio signal is input to the
더욱이, 장치는 현재 블록의 블록 특성과 평균 특성의 비율에 응답하여 현재 블록을 배경 부분 및 전경 부분으로 분리시키기 위한 분리기(130)를 포함한다. 따라서, 현재 블록의 블록 특성과 평균 특성의 비율은 특성으로서 사용되며, 그에 기초하여, 오디오 신호 값들의 현재 블록의 분리가 수행된다. 특히, 신호 출력(140)에서의 배경 성분 신호는 현재 블록의 배경 부분을 포함하고, 전경 성분 신호 출력(150)에서 출력된 전경 성분 신호는 현재 블록의 전경 부분을 포함한다. 도 1a에 예시된 절차는 블록 단위로 수행되며, 즉 블록들의 시간 시퀀스의 하나의 블록은 다른 블록 이후에 프로세싱되어, 결국, 입력(100)에서 입력되는 오디오 신호 값들의 블록들의 시퀀스가 프로세싱될 경우, 배경 성분 신호의 블록들의 대응하는 시퀀스 및 전경 성분 신호의 블록들의 동일한 시퀀스가 도 3에 대해 아래에서 논의될 바와 같이 라인들(140, 150)에 존재한다.Furthermore, the apparatus includes a
바람직하게, 오디오 신호 분석기는 현재 블록의 블록 특성으로서 진폭-관련 측정을 분석하도록 구성되며, 부가적으로, 오디오 신호 분석기(120)는 블록들의 그룹에 대한 진폭-관련 특성을 또한 부가적으로 분석하도록 구성된다.Preferably, the audio signal analyzer is configured to analyze the amplitude-related measurement as a block characteristic of the current block, and additionally, the
바람직하게, 현재 블록에 대한 전력 측정 또는 에너지 측정 및 블록들의 그룹에 대한 평균 전력 측정 또는 평균 에너지 측정은 오디오 신호 분석기에 의해 결정되며, 현재 블록에 대한 이들 2개의 값들 사이의 비율은 분리를 수행하도록 분리기(130)에 의해 사용된다.Preferably, the power measurement or energy measurement for the current block and the average power measurement or average energy measurement for the group of blocks are determined by the audio signal analyzer, and the ratio between these two values for the current block Is used by the
도 2는 제1 양상에 따라 도 1a의 분리기(130)에 의해 수행되는 절차를 예시한다. 단계(200)는, 예를 들어, 제1 양상에 따른 비율 또는 반드시 비율일 필요는 없지만 또한 블록 특성만일 수 있는 제2 양상에 따른 특성의 결정을 표현한다.Figure 2 illustrates the procedure performed by the
단계(202)에서, 분리 이득이 비율 또는 특성으로부터 계산된다. 이어서, 단계(204)에서의 임계치 비교가 선택적으로 수행될 수 있다. 임계치 비교가 단계(204)에서 수행될 경우, 결과는, 특성이 임계치와 미리 결정된 관계에 있다는 것일 수 있다. 이러한 경우, 제어는 단계(206)로 진행한다. 그러나, 특성이 미리 결정된 임계치와 관계되지 않는다고 단계(204)에서 결정될 경우, 어떠한 분리도 수행되지 않으며, 제어는 블록들의 시퀀스에서 다음 블록으로 진행한다.In
제1 양상에 따르면, 단계(204)에서의 임계치 비교가 수행될 수 있거나 또는 대안적으로는 파선(208)에 의해 예시된 바와 같이 수행되지 않을 수 있다. 특성이 분리 임계치와 미리 결정된 관계에 있다고 블록(204)에서 결정되는 경우 또는 라인(208)의 대안에서는, 임의의 경우에서, 단계(206)이 수행되며, 여기서, 오디오 신호들은 분리 이득을 사용하여 가중된다. 이를 위해, 단계(206)는 라인(210)에 의해 예시된 바와 같이, 시간 표현 또는 바람직하게는 스펙트럼 표현으로 입력 오디오 신호의 오디오 신호 값들을 수신한다. 이어서, 분리 이득의 적용에 의존하여, 전경 성분(C)은 도 2 바로 아래의 수학식에 의해 예시된 바와 같이 계산된다. 구체적으로, gN 및 비율 의 함수인 분리 이득은 직접적으로 사용되는 것이 아니라 차이의 형태로 사용되며, 즉 함수는 1로부터 감산된다. 대안적으로, 배경 성분(N)은, 의 함수에 의해 오디오 신호 A(k,n)를 실제로 가중시킴으로써 직접 계산될 수 있다.According to the first aspect, a threshold comparison at
도 2는 분리기(130)에 의해 모두 수행될 수 있는 전경 성분 및 배경 성분을 계산하기 위한 수개의 가능성들을 예시한다. 하나의 가능성은 성분들 둘 모두가 분리 이득을 사용하여 계산된다는 것이다. 대안은, 전경 성분만이 분리 이득을 사용하여 계산되고, 배경 성분(N)이 210에서 예시된 바와 같이, 오디오 신호 값들로부터 전경 성분을 감산함으로써 계산된다는 것이다. 그러나, 다른 대안은, 배경 성분(N)이 블록(206)에 의해 분리 이득을 사용하여 직접 계산되고, 이어서 배경 성분(N)이 오디오 신호(A)로부터 감산되어 전경 성분(C)을 최종적으로 획득한다는 것이다. 따라서, 도 2는 배경 성분 및 전경 성분을 계산하기 위한 3개의 상이한 실시예들을 예시하지만, 이들 대안들 각각은 적어도, 분리 이득을 사용하는 오디오 신호 값들의 가중을 포함한다.FIG. 2 illustrates several possibilities for calculating foreground and background components that may all be performed by
후속하여, 도 1b는 가변 분리 임계치에 의존하는 본 발명의 제2 양상을 설명하기 위해 예시된다.Subsequently, Figure IB is illustrated to illustrate the second aspect of the present invention which relies on a variable separation threshold.
제2 양상을 표현하는 도 1b는 블록 생성(110)으로 입력되는 오디오 신호(100)에 의존하며, 블록 생성기는 연결 라인(122)을 통해 오디오 신호 분석기(120)에 연결된다. 더욱이, 오디오 신호는 추가적인 연결 라인(111)을 통해 직접 오디오 신호 분석기로 입력될 수 있다. 오디오 신호 분석기(120)는, 한편으로는 오디오 신호의 현재 블록의 특성을 결정하고, 부가적으로는 블록들의 그룹 내의 특성의 가변성을 결정하도록 구성되며, 블록들의 그룹은 적어도 2개의 블록들을 포함하고, 바람직하게는 적어도 2개의 선행 블록들 또는 2개의 후속 블록들 또는 적어도 2개의 선행 블록들, 적어도 2개의 후속 블록들 및 현재 블록을 또한 포함한다.1b representing the second aspect relies on the
현재 블록의 특성 및 특성의 가변성 둘 모두는 연결 라인(129)을 통해 분리기(130)에 포워딩된다. 이어서, 분리기는, 배경 성분 신호(140) 및 전경 성분 신호(150)를 생성하기 위해 현재 블록을 배경 부분 및 전경 부분으로 분리시키도록 구성된다. 특히, 분리기는 제2 양상에 따라, 오디오 신호 분석기에 의해 결정된 가변성에 기초하여 분리 임계치를 결정하며, 현재 블록의 특성이 분리 임계치와 미리 결정된 관계에 있는 경우, 현재 블록을 배경 성분 신호 부분 및 전경 성분 신호 부분으로 분리시키도록 구성된다. 그러나, 현재 블록의 특성이 (가변) 분리 임계치와 미리 결정된 관계에 있지 않은 경우, 현재 블록의 어떠한 분리도 수행되지 않으며, 전체 현재 블록이 포워딩되거나 또는 배경 성분 신호(140)로서 사용 또는 할당된다.Both the characteristics of the current block and the variability of the characteristics are forwarded to the
구체적으로, 분리기(130)는, 제1 가변성에 대한 제1 분리 임계치 및 제2 가변성에 대한 제2 분리 임계치를 결정하도록 구성되며, 여기서, 제1 분리 임계치는 제2 분리 임계치보다 낮고, 제1 가변성은 제2 가변성보다 낮으며, 미리 결정된 관계는 "보다 크다".Specifically, the
일 예가 도 4c의 좌측 부분에 예시되며, 여기서, 제1 분리 임계치가 401에서 표시되고, 제2 분리 임계치가 402에서 표시되고, 제1 가변성이 501에서 표시되며, 제2 가변성이 502에서 표시된다. 특히, 분리 임계치를 표현하는 상위 구분별(piecewise) 선형 함수(410)에 대한 참조가 이루어지는 반면, 도 4c의 하위 구분별 선형 함수(412)는 이후에 설명될 릴리즈(release) 임계치를 예시한다. 도 4c는 증가하는 가변성들에 대해, 증가하는 임계치들이 결정되도록 하는 임계치들이 존재하는 상황을 예시한다. 그러나, 예를 들어, 도 4c의 임계치 값들에 대한 역 임계치 값들이 취해지는 그러한 방식으로 상황이 구현될 경우, 분리기가 제1 가변성에 대한 제1 분리 임계치 및 제2 가변성에 대한 제2 분리 임계치를 결정하도록 구성되게 하는 상황이 존재하며, 여기서, 제1 분리 임계치는 제2 분리 임계치보다 크고, 제1 가변성은 제2 가변성보다 크고, 이러한 상황에서, 미리 결정된 관계는, 도 4c에 예시된 제1 대안에서와 같은 "보다 높음"보다는 "보다 낮다".An example is illustrated in the left portion of FIG. 4c, where a first separation threshold is indicated at 401, a second separation threshold is indicated at 402, a first variability is indicated at 501, and a second variability is indicated at 502 . In particular, a reference is made to the piecewise
특정한 구현들에 의존하여, 분리기(130)는, 도 4c의 좌측 부분 또는 우측 부분에 예시된 함수들이 저장되어 있는 테이블 액세스를 사용하여 또는 제1 분리 임계치(401)와 제2 분리 임계치(402) 사이를 보간하는 단조 보간 함수에 따라 (가변) 분리 임계치를 결정하여, 제3 가변성(503)에 대해 제3 분리 임계치(403)가 획득되고 제4 가변성(504)에 대해 제4 임계치가 획득되도록 구성되며, 여기서, 제1 분리 임계치(401)는 제1 가변성(501)과 연관되고, 제2 분리 임계치(402)는 제2 가변성(502)과 연관되고, 제3 및 제4 가변성들(503, 504)은 그들의 값들에 관해, 제1 및 제2 가변성들 사이에 위치되며, 제3 및 제4 분리 임계치들(403, 404)은 그들의 값들에 관해, 제1 및 제2 분리 임계치들(401, 402) 사이에 위치된다.Depending on the particular implementations, the
도 4c의 좌측 부분에 예시된 바와 같이, 단조 보간은 선형 함수이거나, 또는 도 4c의 우측 부분에 예시된 바와 같이, 단조 보간 함수는 1보다 큰 차수를 갖는 삼차 함수(cube function) 또는 임의의 멱함수(power function)이다.As illustrated in the left part of Figure 4c, the forged interpolation is a linear function, or as illustrated in the right portion of Figure 4c, the forged interpolation function may be a cube function with a degree greater than one, It is a power function.
도 6은 박수 신호 분리, 프로세싱 및 프로세싱된 신호들의 합성의 최상위-레벨 블록 다이어그램을 도시한다.Figure 6 shows a top-level block diagram of applause signal separation, processing, and synthesis of processed signals.
특히, 도 6에 상세히 예시된 분리 스테이지(600)는 입력 오디오 신호(a(t))를 배경 신호(n(t)) 및 전경 신호(c(t))로 분리시키며, 배경 신호는 배경 프로세싱 스테이지(602)로 입력되고, 전경 신호는 전경 프로세싱 스테이지(604)로 입력되며, 프로세싱에 후속하여, 신호들(n'(t) 및 c'(t)) 둘 모두는 프로세싱된 신호(a'(t))를 최종적으로 획득하도록 결합기(606)에 의해 결합된다.6 separates the input audio signal a (t) into a background signal n (t) and a foreground signal c (t), and the background signal separates the background audio signal a (T) and c '(t) are both input to the
바람직하게, 뚜렷하게 인지가능한 박수소리들(c(t)) 및 더 잡음형인 배경 신호들(n(t))로의 입력 신호(a(t))의 신호 분리/분해에 기초하여, 분해된 신호 부분들의 개별적인 프로세싱이 실현된다. 프로세싱 이후, 수정된 전경 및 배경 신호들(c'(t) 및 n'(t))이 재합성되어 출력 신호(a'(t))를 발생시킨다.Preferably, based on the signal separation / decomposition of the input signal a (t) into the distinctively perceivable clap sounds c (t) and the more noise background signals n (t) Respectively. After processing, the modified foreground and background signals c '(t) and n' (t) are re-synthesized to generate an output signal a '(t).
도 1c는 선호된 박수 분리 스테이지의 최상위-레벨 다이어그램을 예시한다. 박수 모델은 수학식 1에서 주어지고 도 1f에 예시되며, 여기서, 박수 신호(A(k,n))는 뚜렷하고 개별적으로 인지가능한 전경 박수소리들(C(k,n)) 및 더 잡음형인 배경 신호(N(k,n))의 중첩으로 이루어진다. 신호들은 높은 시간 해상도를 갖는 주파수 도메인에서 고려되지만, k 및 n은, 각각 짧은-시간 주파수 변환의 별개의 주파수 k 및 시간 n 인덱스들을 나타낸다.Figure 1C illustrates a top-level diagram of the preferred clap separation stage. The clapping model is given in
특히, 도 1c의 시스템은, 블록 생성기로서의 DFT 프로세서(110), 도 1a 또는 도 1b의 오디오 신호 분석기(120) 및 분리기(130)의 기능들 및 가중기(152)와 같은 추가적인 신호 분리기 스테이지들을 가져서, 도 2의 단계(206)에 관해 논의된 기능을 수행하는 전경 검출기, 및 도 2의 단계(210)에 예시된 기능을 구현하는 감산기(154)를 예시한다. 더욱이, 대응하는 주파수 도메인 표현으로부터, 시간 도메인 전경 신호(c(t))와 배경 신호(n(t))를 합성하는 신호 합성기가 제공되며, 여기서, 신호 합성기는 각각의 신호 성분에 대해, DFT 블록(160a, 160b)을 포함한다.In particular, the system of FIG. 1C includes additional signal separator stages such as the
박수 입력 신호(a(t)), 즉 배경 성분들 및 박수 성분들을 포함하는 입력 신호는 신호 스위치(도 1c에 도시되지 않음) 뿐만 아니라 전경 검출기(150)로 공급되며, 여기서, 신호 특성들에 기초하여, 전경 박수소리들에 대응하는 프레임들이 식별된다. 검출기 스테이지(150)는, 신호 스위치로 공급되는 분리 이득(gs (n))을 출력하며, 뚜렷하고 개별적으로 인지가능한 박수소리 신호(C(k,n)) 및 더 잡음형인 신호(N(k,n))로 라우팅되는 신호 양들을 제어한다. 신호 스위치는 제2 양상에 따라, 바이너리 스위치, 즉 특정한 프레임 또는 시간/주파수 타일, 즉 특정한 프레임의 특정한 주파수 빈만이 C 또는 N 중 어느 하나로 라우팅되는 것을 예시하기 위해 블록(170)에 예시된다. 제1 양상에 따르면, 이득은 스펙트럼 표현(A(k,n))의 각각의 프레임 또는 수개의 주파수 빈들을 전경 성분 및 배경 성분으로 분리시키기 위해 사용되어서, 제1 양상에 따른 블록 특성과 평균 특성 사이의 비율에 의존하는 이득(gs (n))에 따라, 전체 프레임 또는 적어도 하나 이상의 시간/주파수 타일들 또는 주파수 빈들이 분리되어, 신호들(C 및 N) 각각 내의 대응하는 빈은 동일한 값을 갖지만 상이한 진폭을 가지며, 여기서, 진폭들의 관계는 gs(n)에 의존한다.The input signal including the applause input signal a (t), i.e., background components and clap components, is supplied to the
도 1d는, 오디오 신호 분석기의 기능들을 구체적으로 예시하는 전경 검출기(150)의 더 상세한 실시예를 예시한다. 일 실시예에서, 오디오 신호 분석기는 도 1c의 DFT(이산 푸리에 변환) 블록(110)을 갖는 블록 생성기에 의해 생성된 스펙트럼 표현을 수신한다. 더욱이, 오디오 신호 분석기는 블록(170)에서 특정한 미리 결정된 크로스-오버(cross-over) 주파수를 이용하여 고역 통과 필터링을 수행하도록 구성된다. 이어서, 도 1a 또는 도 1b의 오디오 신호 분석기(120)는 블록(172)에서 에너지 추출 절차를 수행한다. 에너지 추출 절차는 현재 블록의 인스턴트 또는 현재 에너지() 및 평균 에너지()를 초래한다.1D illustrates a more detailed embodiment of
이어서, 도 1a 또는 도 1b의 신호 분리기(130)는 180에서 예시된 바와 같이 비율을 결정하며, 그리고 부가적으로, 적응적 또는 비-적응적 임계치를 결정하고, 대응하는 임계화 연산(182)을 수행한다.The
더욱이, 제2 양상에 따른 적응적 임계화 연산이 수행될 경우, 오디오 신호 분석기는 부가적으로, 블록(174)에서 예시된 바와 같이 엔벨로프 가변성 추정을 수행하며, 아래에서 설명될 바와 같이, 가변성 측정(v(n))은 분리기, 및 특히 적응적 임계화 프로세싱 블록(182)으로 포워딩되어, 이득(gs(n))을 최종적으로 획득한다.Furthermore, when the adaptive thresholding operation according to the second aspect is performed, the audio signal analyzer additionally performs an envelope variability estimation as illustrated in
전경 신호 검출기의 내부들의 흐름도가 도 1d에 도시된다. 상부 경로만이 고려되면, 이것은 적응적 임계화가 없는 경우에 대응하지만, 하부 경로가 또한 고려되면, 적응적 임계화가 가능하다. 전경 신호 검출기로 공급된 신호는 고역 통과 필터링되며, 그의 평균() 및 순시() 에너지가 추정된다. 신호(X(k, n))의 순시 에너지들은 에 의해 주어지며, 여기서, 는 벡터 놈(vector norm)을 나타내고, 평균 에너지는,A flow diagram of the interior of the foreground signal detector is shown in FIG. If only the upper path is considered, this corresponds to the case without adaptive thresholding, but if the lower path is also considered, adaptive thresholding is possible. The signal fed to the foreground signal detector is high pass filtered and its average ( ) And instantaneous ( ) Energy is estimated. The instantaneous energies of the signal X (k, n) , Where < RTI ID = 0.0 > Represents the vector norm, and the average energy is the vector norm,
에 의해 주어지며, 여기서, w(n)은 순시 에너지 추정들에 적용되고 윈도우 길이 Lw = 2M + 1을 갖는 가중 윈도우를 나타낸다. 별개의 박수소리가 입력 신호 내에서 활성인지 여부에 관한 표시로서, 순시 및 평균 에너지의 에너지 비율()은 다음에 따라 사용된다., Where w (n) is a weighted window with window length L w = 2M + 1 applied to instantaneous energy estimates. As an indication of whether the distinctive applause is active in the input signal, the ratio of the instantaneous and average energy energy ) Is used as follows.
적응적 임계화가 없는 더 간단한 경우에서, 에너지 비율이 공격(attack) 임계치()를 초과하는 시간 인스턴스의 경우, 입력 신호로부터 뚜렷한 박수소리 부분을 추출하는 분리 이득이 1로 세팅되며; 결과적으로, 잡음형 신호가 이들 시간 인스턴스들에서 제로이다. 하드(hard) 신호 스위칭을 갖는 시스템의 블록 다이어그램이 도 1e에 도시된다. 잡음형 신호에서 신호 드롭 아웃(drop out)들을 피할 필요가 있다면, 보정 항(correction term)이 이득으로부터 감산될 수 있다. 양호한 시작점은 입력 신호의 평균 에너지가 잡음형 신호 내에 남아있게 하는 것이다. 이것은 이득으로부터 또는 를 감산함으로써 행해진다. 평균 에너지의 양은 또한, 얼마나 많은 평균 에너지가 잡음형 신호 내에 남아있는지를 제어하는 이득 gN≥0을 도입함으로써 제어될 수 있다. 이것은 다음과 같은 분리 이득의 일반적인 형태를 유도한다:In a simpler case without adaptive thresholding, if the energy ratio exceeds the attack threshold ( ), The separation gain for extracting the distinctive clapping portion from the input signal is set to one; As a result, the noise-like signal is zero at these time instances. A block diagram of a system with hard signal switching is shown in Figure IE. If it is necessary to avoid signal dropouts in a noise-like signal, the correction term can be subtracted from the gain. A good starting point is that the average energy of the input signal remains within the noise-like signal. From this gain or . The amount of average energy can also be controlled by introducing a gain g N > 0 that controls how much of the average energy remains in the noise-like signal. This leads to the general form of the separation gain as follows:
추가적인 실시예에서, 위의 수학식은 다음의 수학식으로 대체된다:In a further embodiment, the above equation is replaced by the following equation: < RTI ID = 0.0 >
유의: 이면, 뚜렷한 박수소리로 라우팅되는 신호의 양은 에너지 비율() 및 고정된 이득(gN)에만 의존하여, 신호 의존적 연판정(soft decision)을 산출한다. 매우 양호하게 튜닝된 시스템에서, 에너지 비율이 공격 임계치들을 초과하는 시간 기간은 실제 트랜션트 이벤트만을 포착한다. 일부 경우들에서, 공격이 발생된 이후 더 긴 시간 기간의 프레임들을 추출하는 것이 바람직할 수 있다. 이것은, 예를 들어, 분리 이득이 다시 제로로 세팅되기 전에 공격 이후 에너지 비율 ()이 감소해야 하는 레벨을 표시하는 릴리즈 임계치()를 도입함으로써 다음과 같이 행해질 수 있다.Note: , The amount of signal routed to the distinctive applause is the energy ratio ( ) And the fixed gain g N , to produce a signal-dependent soft decision. In a very well tuned system, the time period over which the energy ratio exceeds the attack thresholds captures only the actual transient events. In some cases, it may be desirable to extract frames of a longer time period after an attack has occurred. This means, for example, that the energy rate after the attack (before the separation gain is again set to zero ≪ / RTI > indicating the level at which the < RTI ID = 0.0 & ) Can be introduced as follows.
추가적인 실시예에서, 직전의 수학식은 다음의 수학식으로 대체된다:In a further embodiment, the immediately preceding equation is replaced by the following equation: < RTI ID = 0.0 >
대안적이지만 더 정적인 방법은, 검출된 공격 이후 특정한 수의 프레임들을 뚜렷한 박수소리 신호로 간단히 라우팅하는 것이다.An alternative but more static method is to simply route a certain number of frames to a distinctive applause signal after the detected attack.
임계화의 유연성을 증가시키기 위해, 임계치들은 신호 적응적 방식으로 선택되어, 및 을 각각 초래할 수 있다. 임계치들은, 박수 입력 신호의 엔벨로프의 가변성의 추정에 의해 제어되며, 여기서, 높은 가변성은 뚜렷하고 개별적으로 인지가능한 박수소리들의 존재를 표시하고, 다소 낮은 가변성은 더 잡음형이고 정적인 신호를 표시한다. 가변성 추정은 시간 도메인 뿐만 아니라 주파수 도메인에서 행해질 수 있다. 이러한 경우, 바람직한 방법은 주파수 도메인에서 추정을 행하는 것이며:To increase the flexibility of thresholding, the thresholds are selected in a signal-adaptive manner, And Respectively. The thresholds are controlled by estimating the variability of the envelope input signal's envelope where the high variability indicates the presence of distinct, individually recognizable clapping sounds and the somewhat lower variability indicates a more noise-like, static signal. The variability estimation can be done in the frequency domain as well as in the time domain. In such a case, a preferred method is to make an estimate in the frequency domain:
여기서, 는 분산 연산을 나타낸다. 더 안정된 신호를 산출하기 위해, 추정된 가변성은 저역 통과 필터링에 의해 평활화되어, 다음과 같은 최종 엔벨로프 가변성 추정을 산출하며,here, Represents a distributed operation. In order to produce a more stable signal, the estimated variability is smoothed by low-pass filtering to yield a final envelope variability estimate,
여기서, *는 콘볼루션(convolution)을 나타낸다. 엔벨로프 가변성의 대응하는 임계치 값들로의 맵핑은, 다음과 같도록 맵핑 함수들 fattack(x) 및 frelease(x)에 의해 행해질 수 있다:Here, * denotes a convolution. The mapping of the envelope variability to the corresponding threshold values can be done by the mapping functions f attack (x) and f release (x) as follows:
일 실시예에서, 맵핑 함수는 임계치들의 선형 보간에 대응하는 클립핑(clip)된 선형 함수들로서 실현될 수 있다. 이러한 시나리오에 대한 구성은 도 4c에 도시된다. 더욱이, 일반적으로 더 높은 차수를 갖는 삼차(cubic) 맵핑 함수 또는 함수들이 또한 사용될 수 있다. 특히, 안장점(saddle point)들은 희박한 박수 및 조밀한 박수에 대해 정의된 값들 사이의 가변성 값들에 대한 여분의 임계치 레벨들을 정의하기 위해 사용될 수 있다. 이것은 도 4c의 우측에 예시적으로 예시된다.In one embodiment, the mapping function may be realized as clipped linear functions corresponding to linear interpolation of the thresholds. The configuration for this scenario is shown in Figure 4c. Moreover, cubic mapping functions or functions, which generally have a higher order, can also be used. In particular, saddle points can be used to define extra threshold levels for variability values between values defined for thin clapping and dense clapping. This is illustrated by way of example on the right side of Figure 4c.
분리된 신호들은 다음에 의해 획득된다:The separated signals are obtained by:
도 1f는 도 1a 및 도 1b의 기능 블록들과 관련하여 그리고 개관으로, 위에서 논의된 수학식들을 예시한다.Figure 1F illustrates the mathematical formulas discussed above with respect to and in an overview of the functional blocks of Figures 1A and 1B.
더욱이, 도 1f는, 특정한 실시예에 의존하여, 단일 임계치 또는 이중 임계치가 적용되거나, 어떠한 임계치도 적용되지 않는 상황을 예시한다.Further, FIG. 1F illustrates a situation where a single threshold or a double threshold is applied, or no threshold is applied, depending on the particular embodiment.
더욱이, 도 1f의 수학식들 (7) 내지 (9)에 관해 예시된 바와 같이, 적응적 임계치들이 사용될 수 있다. 당연히, 어느 하나의 단일 임계치가 단일 적응적 임계치로서 사용된다. 이어서, 수학식 (8)만이 활성일 것이고, 수학식 (9)는 활성이 아닐 것이다. 그러나, 특정한 바람직한 실시예에서 이중의 적응적 임계화를 수행하여, 제1 양상 및 제2 양상의 특징들을 함께 구현하는 것이 바람직하다.Furthermore, adaptive thresholds may be used, as illustrated with respect to equations (7) through (9) in FIG. 1F. Naturally, any single single threshold is used as a single adaptive threshold. Then, only equation (8) will be active, and equation (9) will not be active. However, in certain preferred embodiments it is desirable to perform dual adaptive thresholding to implement the features of the first and second aspects together.
더욱이, 도 7 및 도 8은, 본 발명이 본 발명의 특정한 애플리케이션을 어떻게 구현할지 있는지에 관한 추가적인 구현들을 예시한다.7 and 8 illustrate additional implementations as to how the invention may be implemented for a particular application of the present invention.
특히, 도 7의 좌측 부분은, 배경 성분 신호 또는 전경 성분 신호의 신호 특성을 측정하기 위한 신호 특성 측정기(700)를 예시한다. 특히, 신호 특성 측정(700)은, 전경 성분 신호를 사용하는 전경 밀도 계산기를 예시하는 블록(702)에서 전경 밀도를 결정하도록 구성되거나, 또는 대안적으로 또는 부가적으로, 신호 특성 측정기는, 오리지널(original) 입력 신호(a(t))와 관련된 전경의 비(fraction)를 계산하는 전경 현저성(prominence) 계산기(704)를 사용하여 전경 현저성 계산을 수행하도록 구성된다.Particularly, the left part of FIG. 7 illustrates a signal
대안적으로, 도 7의 우측 부분에 예시된 바와 같이, 전경 프로세서(604) 및 배경 프로세서(602)가 존재하며, 여기서, 이들 프로세서들은 도 6과는 반대로, 도 7의 좌측 부분에 의해 도출된 메타데이터일 수 있거나 또는 전경 프로세싱 및 배경 프로세싱을 수행하기 위한 임의의 다른 유용한 메타데이터일 수 있는 특정한 메타데이터()에 의존한다.Alternatively, there may be a
분리된 박수 신호 부분들은, 트랜션트 신호들의 특정한(지각적으로 동기부여된) 특성들이 측정될 수 있는 측정 스테이지들로 공급될 수 있다. 그러한 사용 경우에 대한 예시적인 구성이 도 7a에 도시되며, 여기서, 뚜렷하고 개별적으로 인지가능한 전경 박수소리들의 밀도 뿐만 아니라 총 신호 에너지에 관한 전경 박수소리들의 에너지 비가 추정된다.The separated applause signal portions can be supplied to the measurement stages where specific (perceptually synchronized) characteristics of the transient signals can be measured. An exemplary configuration for such use cases is shown in Fig. 7A, where the energy ratio of the foreground applause sounds on the total signal energy as well as the density of the distinctively perceptible foreground applause sounds is estimated.
전경 밀도()를 추정하는 것은 초당 이벤트 레이트, 즉 초당 검출된 박수소리들의 수를 카운팅함으로써 행해질 수 있다. 전경 현저성()은 다음과 같이, 추정된 전경 박수소리 신호(C(n) 및 A(n))의 에너지 비율에 의해 주어진다:Foreground density ( ) Can be done by counting the event rate per second, i.e. the number of detected applause sounds per second. Foreground Is given by the energy ratio of the estimated foreground applause sound signals C (n) and A (n) as follows:
측정된 신호 특성들의 복원의 블록 다이어그램이 도 7b에 도시되며, 여기서, 및 파선들은 사이드 정보를 나타낸다.A block diagram of the reconstruction of the measured signal characteristics is shown in Figure 7B, And dashed lines indicate side information.
이전의 실시예에서, 신호 특성만이 측정되었지만, 시스템은 신호 특성들을 수정하는 데 사용된다. 일 실시예에서, 전경 프로세싱은 감소된 수의 검출된 전경 박수소리들을 출력하여, 더 낮은 밀도의 결과적인 출력 신호를 향한 밀도 수정을 초래할 수 있다. 다른 실시예에서, 전경 프로세싱은, 예를 들어, 지연된 버전의 전경 박수소리 신호를 그 자체에 부가함으로써, 증가된 수의 전경 박수소리들을 출력하여, 증가된 밀도를 향한 밀도 수정을 초래할 수 있다. 더욱이, 개개의 프로세싱 스테이지들에서 가중치들을 적용함으로써, 전경 박수소리들 및 잡음형인 배경의 밸런스가 수정될 수 있다. 부가적으로, 경로들 둘 모두에서 필터링, 잔향 부가, 지연 등과 같은 임의의 프로세싱은 박수 신호의 특성들을 수정하는 데 사용될 수 있다.In the previous embodiment, only the signal characteristics were measured, but the system is used to modify the signal characteristics. In one embodiment, foreground processing may output a reduced number of detected foreground clapping sounds, resulting in a density modification towards the resulting output signal of lower density. In another embodiment, the foreground processing may output an increased number of foreground applause sounds, for example, by adding a delayed version of the foreground applause sound signal to itself, resulting in a density modification towards the increased density. Moreover, by applying weights in the individual processing stages, the balance of the foreground applause sounds and background in the form of noise can be modified. Additionally, any processing, such as filtering, reverberation, delay, etc., in both paths can be used to modify the characteristics of the applause signal.
더욱이, 도 8은, 송신 또는 저장을 위해 전경 성분 신호의 인코딩된 표현 및 배경 성분 신호의 별개의 인코딩된 표현을 획득하기 위하여 전경 성분 신호 및 배경 성분 신호를 인코딩하기 위한 인코더 스테이지에 관한 것이다. 특히, 전경 인코더가 801에 예시되고, 배경 인코더가 802에 예시된다. 별개로 인코딩된 표현들(804 및 806)은, 별개의 표현들을 최종적으로 디코딩하는 전경 디코더(810) 및 배경 디코더(812)로 이루어진 디코더-측 디바이스(808)에 포워딩되며, 이어서, 디코딩된 표현들은 디코딩된 신호(a'(t))를 최종적으로 출력하도록 결합기(606)에 의해 결합된다.Furthermore, Figure 8 relates to an encoder stage for encoding an encoded representation of a foreground component signal for transmission or storage and a foreground component signal and a background component signal to obtain a separate encoded representation of the background component signal. In particular, a foreground encoder is illustrated at 801 and a background encoder is illustrated at 802. The separately encoded
후속하여, 추가적인 바람직한 실시예들이 도 3에 관해 논의된다. 특히, 도 3은 시간 라인(300) 상에서 주어진 입력 오디오 신호의 개략적인 표현을 예시하며, 여기서, 개략적인 표현은 시간적으로 중첩하는 블록들의 상황을 예시한다. 도 3에 예시된 것은 50%의 중첩 범위(302)가 존재하는 상황이다. 50% 초과 또는 50% 미만의 중첩 범위들(여기서, 50% 미만의 부분들만이 중첩함)을 갖는 다중첩 범위들과 같은 다른 중첩 범위들이 또한 사용가능하다.Subsequently, further preferred embodiments are discussed with respect to Fig. In particular, FIG. 3 illustrates a schematic representation of an input audio signal given on a
도 3의 실시예에서, 블록은 통상적으로, 높은 시간 해상도를 획득하기 위해, 600개 미만의 샘플링 값들 및 바람직하게는 오직 256개 또는 오직 128개의 샘플링 값들만을 갖는다.In the embodiment of FIG. 3, the block typically has fewer than 600 sampling values and preferably only 256 or only 128 sampling values to obtain a high temporal resolution.
예시적으로 예시된 중첩 블록들은, 예를 들어, 선행 블록(303) 또는 후속 블록(305)과 중첩 범위 내에서 중첩하는 현재 블록(304)으로 이루어진다. 따라서, 블록들의 그룹이 적어도 2개의 선행 블록들을 포함할 경우, 이러한 블록들의 그룹은 현재 블록(304)에 관한 선행 블록(303), 및 도 3에서 차수 3으로 표시된 추가적인 선행 블록으로 이루어진다. 더욱이 그리고 유사하게, 블록들의 그룹이 (시간 상) 적어도 2개의 후속 블록을 포함할 경우, 이들 2개의 후속 블록들은 차수 6으로 표시된 후속 블록(305) 및 차수 7로 예시된 추가적인 블록 7을 포함할 것이다.The overlapping blocks exemplarily illustrated are, for example, made up of a
이들 블록들은, 예를 들어, 이전에 언급된 DFT 또는 FFT(고속 푸리에 변환)와 같은 시간-스펙트럼 변환을 또한 바람직하게 수행하는 블록 생성기(110)에 의해 형성된다.These blocks are formed by a
시간-스펙트럼 변환의 결과는 스펙트럼 블록들 I 내지 VIII의 시퀀스이며, 여기서, 블록(110) 아래의 도 3에 예시된 각각의 스펙트럼 블록은 시간 라인(300)의 8개의 블록들 중 하나에 대응한다.The result of the time-spectrum transform is a sequence of spectral blocks I through VIII, wherein each spectral block illustrated in FIG. 3 below
바람직하게, 분리는 이어서, 주파수 도메인에서, 즉 스펙트럼 표현을 사용하여 수행되며, 여기서 오디오 신호 값들은 스펙트럼 값들이다. 분리에 후속하여, 다시 한번 블록들 I 내지 VIII으로 이루어진 전경 스펙트럼 표현 및 I 내지 VIII으로 이루어진 배경 표현이 획득된다. 당연히 그리고 임계화 연산에 의존하여, 분리(130)에 후속하는 전경 표현의 각각의 블록이 제로와는 상이한 값들을 반드시 가질 필요는 없다. 그러나, 바람직하게, 배경 성분의 스펙트럼 표현의 각각의 블록이 배경 신호 성분에서 에너지의 드롭 아웃을 피하기 위해 제로와는 상이한 값들을 갖는다는 것이 적어도 본 발명의 제1 양상에 의해 확인된다.Preferably, the separation is then performed in the frequency domain, i.e. using a spectral representation, wherein the audio signal values are spectral values. Following separation, a foreground spectral representation consisting of blocks I through VIII and a background representation consisting of I through VIII are obtained again. Of course, and depending on the thresholding operation, each block of the foreground
각각의 성분, 즉 전경 성분 및 배경 성분에 대해, 스펙트럼-시간 변환이 도 1c의 맥락에서 논의되었던 바와 같이 수행되며, 중첩 범위(302)에 관한 후속 페이드-아웃(fade-out)/페이드-인(fade-in)은, 전경 및 배경 성분들에 대해 블록(161a) 및 블록(161b)에서 각각 예시된 바와 같이 성분들 둘 모두에 대해 수행된다. 따라서, 결국, 전경 신호 및 배경 신호 둘 모두는 분리 이전에 오리지널 오디오 신호와 동일한 길이 L을 갖는다.For each component, foreground component and background component, a spectral-temporal transformation is performed as discussed in the context of FIG. 1C, and a subsequent fade-out / fade-in the fade-in is performed for both the components as illustrated in
바람직하게, 도 4b에 예시된 바와 같이, 가변성들 또는 임계치들을 계산하는 분리기(130)가 평활화된다.Preferably, as illustrated in FIG. 4B, the
특히, 단계(400)는 블록(400)에 예시된 바와 같이, 현재 블록에 대한 블록 특성과 평균 특성 사이의 비율 또는 일반적인 특성의 결정을 예시한다.In particular,
블록(402)에서, 원시 가변성이 현재 블록에 관해 계산된다. 블록(404)에서, 선행 또는 후속 블록들에 대한 원시 가변성들은, 블록(402 및 404)의 출력에 의해 원시 가변성들의 시퀀스를 획득하도록 계산된다. 블록(406)에서, 시퀀스가 평활화된다. 따라서, 블록(406)의 출력에서, 가변성들의 평활화된 시퀀스가 존재한다. 평활화된 시퀀스의 가변성들은 블록(408)에 예시된 바와 같이 대응하는 적응적 임계치들에 맵핑되어, 현재 블록에 대한 가변 임계치를 획득한다.At
대안적인 실시예가 도 4b에 예시되며, 여기서, 가변성들을 평활화하는 것과는 반대로, 임계치들이 평활화된다. 이를 위해, 다시 한번, 현재 블록에 대한 특성/비율이 블록(400)에 예시된 바와 같이 결정된다.An alternative embodiment is illustrated in FIG. 4B, where the thresholds are smoothed, as opposed to smoothing the variabilities. To do this, once again, the property / ratio for the current block is determined as illustrated in
블록(403)에서, 가변성들의 시퀀스는, 예를 들어, 정수 m에 의해 표시된 각각의 현재 블록에 대한 도 1f의 수학식 6을 사용하여 계산된다.At
블록(405)에서, 가변성들의 시퀀스는 수학식 8 및 수학식 9에 따라 원시 임계치들의 시퀀스에 맵핑되지만, 도 1f의 수학식 7과는 반대로 비-평활화된 가변성들과 맵핑된다.At
블록(407)에서, 원시 임계치들의 시퀀스는, 현재 블록에 대한 (평활화된) 임계치를 최종적으로 획득하기 위해 평활화된다.At
후속하여, 도 5는 블록들의 그룹 내의 특성의 가변성을 계산하기 위한 상이한 방식들을 예시하기 위해 더 상세히 논의된다.Subsequently, FIG. 5 is discussed in more detail to illustrate the different ways to calculate the variability of the characteristics within a group of blocks.
다시 한번, 단계(500)에서, 현재 블록 특성과 평균 블록 특성 사이의 특성 또는 비율이 계산된다.Once again, in
단계(502)에서, 블록들의 그룹에 대한 특성들/비율들에 걸친 평균 또는 일반적으로는 기대값이 계산된다.In
블록(504)에서, 특성들/비율들과 평균값/기대값 사이의 차이들이 계산되며, 블록(506)에 예시된 바와 같이, 차이들 또는 차이들로부터 도출된 특정한 값들의 가산이 바람직하게는 정규화를 이용하여 수행된다. 제곱된 차이들이 가산되는 경우, 단계들(502, 504, 506)의 시퀀스는 수학식 6에 관해 서술되었던 바와 같이 분산의 계산을 반영한다. 그러나, 예를 들어, 차이들의 크기들 또는 2와는 상이한 차이들의 다른 거듭제곱들이 함께 가산될 경우, 특성들과 평균/기대값 사이의 차이들로부터 도출된 상이한 통계 값이 가변성으로서 사용된다.At
그러나, 대안적으로, 단계(508)에 예시된 바와 같이, 인접한 블록들에 대한 시간-후속 특성들/비율들 사이의 차이들이 또한 계산되어 가변성 측정으로서 사용된다. 따라서, 블록(508)은, 평균값에 의존하는 것이 아니라 블록마다의 변화에 의존하는 가변성을 결정하며, 여기서, 도 6에 예시된 바와 같이, 인접한 블록들에 대한 특성들 사이의 차이들은 제곱된 것, 그들의 크기들 또는 그들의 거듭제곱들 중 어느 하나와 함께 가산되어, 분산과는 상이한 가변성으로부터의 다른 값을 최종적으로 획득할 수 있다. 도 5에 관해 논의되었던 것과는 상이한 다른 가변성 측정들이 또한 사용될 수 있다는 것은 당업자들에게 명백하다.Alternatively, however, as illustrated in
후속하여, 아래의 예들과는 별개로 또는 아래의 예들 중 임의의 예와 조합하여 사용될 수 있는 실시예들의 예들이 정의된다:Subsequently, examples of embodiments that may be used separately from the following examples or in combination with any of the following examples are defined:
실시예 1. 오디오 신호(100)를 배경 성분 신호(140) 및 전경 성분 신호(150)로 분해하기 위한 장치로서,1. An apparatus for decomposing an audio signal (100) into a background component signal (140) and a foreground component signal (150)
오디오 신호 값들의 블록들의 시간 시퀀스를 생성하기 위한 블록 생성기(110);A block generator (110) for generating a time sequence of blocks of audio signal values;
오디오 신호의 현재 블록의 블록 특성을 결정하고, 블록들의 그룹에 대한 평균 특성을 결정하기 위한 오디오 신호 분석기(120) ― 블록들의 그룹은 적어도 2개의 블록들을 포함함 ―; 및An audio signal analyzer (120) for determining a block characteristic of a current block of an audio signal and determining an average characteristic for a group of blocks, the group of blocks including at least two blocks; And
현재 블록의 블록 특성과 블록들의 그룹의 평균 특성의 비율에 응답하여 현재 블록을 배경 부분 및 전경 부분으로 분리시키기 위한 분리기(130)를 포함하며,And a separator (130) for separating the current block into a background portion and a foreground portion in response to a ratio of a block characteristic of a current block and an average characteristic of a group of blocks,
배경 성분 신호(140)는 현재 블록의 배경 부분을 포함하고, 전경 성분 신호(150)는 현재 블록의 전경 부분을 포함하는, 오디오 신호(100)를 배경 성분 신호(140) 및 전경 성분 신호(150)로 분해하기 위한 장치.The
실시예 2. 실시예 1에 있어서,Example 2 [0050] In Example 1,
오디오 신호 분석기는, 현재 블록의 특성으로서 진폭-관련 측정을 분석하고, 블록들의 그룹에 대한 평균 특성으로서 진폭-관련 특성을 분석하도록 구성되는, 오디오 신호(100)를 배경 성분 신호(140) 및 전경 성분 신호(150)로 분해하기 위한 장치.The audio signal analyzer includes an audio signal (100) configured to analyze an amplitude-related measurement as a characteristic of a current block and to analyze an amplitude-related characteristic as an average characteristic for a group of blocks, Into component signal (150).
실시예 3. 실시예 1 또는 실시예 2에 있어서,Example 3 In Example 1 or Example 2,
오디오 신호 분석기(120)는, 현재 블록에 대한 전력 측정 또는 에너지 측정을 분석하고, 블록들의 그룹에 대한 평균 전력 측정 또는 평균 에너지 측정을 분석하도록 구성되는, 오디오 신호(100)를 배경 성분 신호(140) 및 전경 성분 신호(150)로 분해하기 위한 장치.The
실시예 4. 실시예 1 내지 실시예 3 중 어느 하나의 실시예에 있어서,Embodiment 4 In any one of
분리기(130)는, 비율로부터 분리 이득을 계산하고, 분리 이득을 사용하여 현재 블록의 오디오 신호 값들을 가중시켜 현재 프레임의 전경 부분을 획득하며, 배경 성분을 결정해서, 배경 신호가 나머지 신호를 구성하도록 구성되거나, 또는The
분리기는, 비율로부터 분리 이득을 계산하고, 분리 이득을 사용하여 현재 블록의 오디오 신호 값들을 가중시켜 현재 프레임의 배경 부분을 획득하며, 전경 성분을 결정해서, 전경 성분 신호가 나머지 신호를 구성하도록 구성되는, 오디오 신호(100)를 배경 성분 신호(140) 및 전경 성분 신호(150)로 분해하기 위한 장치.The separator is configured to calculate the separation gain from the ratio, weight the audio signal values of the current block using the separation gain to obtain the background portion of the current frame, and determine the foreground component so that the foreground component signal constitutes the remaining signal To the background component signal (140) and the foreground component signal (150).
실시예 5. 실시예 1 내지 실시예 4 중 어느 하나의 실시예에 있어서,Embodiment 5 In any one of
분리기(130)는, 제로와는 상이한 미리 결정된 가중 인자를 사용하여 비율을 가중시키는 것을 사용해서 분리 이득을 계산하도록 구성되는, 오디오 신호(100)를 배경 성분 신호(140) 및 전경 성분 신호(150)로 분해하기 위한 장치.The
실시예 6. 실시예 5에 있어서,Example 6 In Example 5,
분리기(130)는, 항 을 사용하여 분리 이득을 계산하도록 구성되며,The
gN은 미리 결정된 인자이고, 는 비율이고, p는 제로보다 크고 정수 또는 비-정수인 거듭제곱이고, n은 블록 인덱스이고, max는 최대 함수인, 오디오 신호(100)를 배경 성분 신호(140) 및 전경 성분 신호(150)로 분해하기 위한 장치.g N is a predetermined factor, Where n is the block index and max is the maximum function of the
실시예 7. 실시예 1 내지 실시예 6 중 어느 하나의 실시예에 있어서,
분리기(130)는, 현재 블록의 비율이 임계치와 미리 결정된 관계에 있는 경우, 현재 블록의 비율을 임계치와 비교하고 현재 블록을 분리시키도록 구성되고,The
분리기(130)는 추가적인 블록을 분리시키지 않도록 구성되며,The
추가적인 블록은 임계치와의 미리 결정된 관계를 갖지 않는 비율을 가져서, 추가적인 블록은 배경 성분 신호(140)에 완전히 속하는, 오디오 신호(100)를 배경 성분 신호(140) 및 전경 성분 신호(150)로 분해하기 위한 장치.The additional block has a ratio that does not have a predetermined relationship with the threshold and the additional block decomposes the
실시예 8. 실시예 7에 있어서,Example 8 [0141] In the same manner as in Example 7,
분리기(130)는, 시간 상 현재 블록에 후속하는 후속 블록을, 후속 블록의 비율을 추가적인 릴리즈(release) 임계치와 비교하는 것을 사용하여 분리시키도록 구성되며,The
추가적인 릴리즈 임계치는, 임계치와 미리 결정된 관계에 있지 않는 블록 비율이 추가적인 릴리즈 임계치와 미리 결정된 관계에 있도록 세팅되는, 오디오 신호(100)를 배경 성분 신호(140) 및 전경 성분 신호(150)로 분해하기 위한 장치.The additional release threshold is determined by decomposing the
실시예 9. 실시예 8에 있어서,[Example 9]
미리 결정된 관계는 "보다 큰 것"이고, 릴리즈 임계치는 분리 임계치보다 낮거나, 또는The predetermined relationship is "larger ", the release threshold is lower than the separation threshold, or
미리 결정된 관계는 "보다 낮은 것"이고, 릴리즈 임계치는 분리 임계치보다 큰, 오디오 신호(100)를 배경 성분 신호(140) 및 전경 성분 신호(150)로 분해하기 위한 장치.The apparatus for decomposing an audio signal (100) into a background component signal (140) and a foreground component signal (150), wherein the predetermined relationship is "lower" and the release threshold is greater than a separation threshold.
실시예 10. 실시예 1 내지 실시예 9 중 어느 하나의 실시예에 있어서,
블록 생성기(110)는 오디오 신호 값들의 시간적으로 중첩하는 블록들을 결정하도록 구성되거나, 또는
시간적으로 중첩하는 블록들은 600보다 작거나 또는 그와 동일한 다수의 샘플링 값들을 갖는, 오디오 신호(100)를 배경 성분 신호(140) 및 전경 성분 신호(150)로 분해하기 위한 장치.Wherein the temporally overlapping blocks have a plurality of sampled values less than or equal to 600, into the background component signal (140) and the foreground component signal (150).
실시예 11. 실시예 1 내지 실시예 10 중 어느 하나의 실시예에 있어서,
블록 생성기는, 각각의 블록에 대한 스펙트럼 표현을 획득하기 위해 시간 도메인 오디오 신호의 주파수 도메인으로의 블록-단위(block-wise) 변환을 수행하도록 구성되며,Block generator is configured to perform a block-wise transform of the time domain audio signal into the frequency domain to obtain a spectral representation for each block,
오디오 신호 분석기는, 현재 블록의 스펙트럼 표현을 사용하여 특성을 계산하도록 구성되고,The audio signal analyzer is configured to calculate a property using a spectral representation of the current block,
분리기(130)는, 스펙트럼 표현을 배경 부분 및 전경 부분으로 분리시켜, 동일한 주파수에 대응하는 배경 부분 및 전경 부분의 스펙트럼 빈들에 대해, 배경 부분 및 전경 부분 각각이 제로와는 상이한 스펙트럼 값을 갖도록 구성되며,The
동일한 주파수 빈 내의 전경 부분의 스펙트럼 값과 배경 부분의 스펙트럼 값의 관계는 비율에 의존하는, 오디오 신호(100)를 배경 성분 신호(140) 및 전경 성분 신호(150)로 분해하기 위한 장치.The apparatus for decomposing an audio signal (100) into a background component signal (140) and a foreground component signal (150), wherein the relationship between the spectral value of the foreground part and the spectral value of the background part in the same frequency bin depends on the ratio.
실시예 12. 실시예 1 내지 실시예 11 중 어느 하나의 실시예에 있어서,12. Embodiment 12 In any one of
블록 생성기(110)는, 각각의 블록에 대한 스펙트럼 표현을 획득하기 위해 시간 도메인의 주파수 도메인으로의 블록-단위 변환을 수행하도록 구성되며,
시간 상 인접하는 블록들은 중첩 범위(302)에서 중첩하고,Blocks adjacent in time overlap in the
장치는, 배경 성분 신호를 합성하고 전경 성분 신호를 합성하기 위한 신호 합성기(160a, 161a, 160b, 161b)를 더 포함하며,The apparatus further includes signal synthesizers (160a, 161a, 160b, 161b) for synthesizing background component signals and synthesizing foreground component signals,
신호 합성기는, 배경 성분 신호 및 전경 성분 신호에 대한 주파수-시간 변환(161a, 160a, 160b)을 수행하고, 중첩 범위 내에서 시간 상-인접하는 블록들의 시간 표현들을 크로스-페이딩(cross-fade)(161a, 161b)하여, 시간 도메인 전경 성분 신호 및 별개의 시간 도메인 배경 성분 신호를 획득하도록 구성되는, 오디오 신호(100)를 배경 성분 신호(140) 및 전경 성분 신호(150)로 분해하기 위한 장치.The signal synthesizer performs frequency-to-time transforms (161a, 160a, 160b) on the background component signal and the foreground component signal and performs cross-fade temporal representations of temporally- (150) for decomposing an audio signal (100) into a background component signal (140) and a foreground component signal (150), wherein the audio component (161a, 161b) is configured to obtain a time domain foreground component signal and a separate time domain background component signal .
실시예 13. 실시예 1 내지 실시예 12 중 어느 하나의 실시예에 있어서,Embodiment 13. In any one of
오디오 신호 분석기(120)는, 블록들의 그룹 내의 블록들의 개별 특성들의 가중된 가산을 사용하여 블록들의 그룹에 대한 평균 특성을 결정하도록 구성되는, 오디오 신호(100)를 배경 성분 신호(140) 및 전경 성분 신호(150)로 분해하기 위한 장치.The
실시예 14. 실시예 1 내지 실시예 13 중 어느 하나의 실시예에 있어서,Embodiment 14. In any one of
오디오 신호 분석기(120)는, 블록들의 그룹 내의 블록들의 개별 특성들의 가중된 가산을 수행하도록 구성되며,The
현재 블록에 시간 상 가까운 블록의 특성에 대한 가중 값은 현재 블록에 시간 상 덜 가까운 추가적인 블록의 특성에 대한 가중 값보다 큰, 오디오 신호(100)를 배경 성분 신호(140) 및 전경 성분 신호(150)로 분해하기 위한 장치.The weighting value for the property of the block nearest in time to the current block is greater than the weighting value for the property of the additional block that is closest in time to the current block, and the
실시예 15. 실시예 13 또는 실시예 14에 있어서,Example 15. In Example 13 or Example 14,
오디오 신호 분석기(120)는, 블록들의 그룹이 대응하는 블록 이전에 적어도 20개의 블록들 또는 현재 블록에 후속하여 적어도 20개의 블록들을 포함하도록 블록들의 그룹을 결정하도록 구성되는, 오디오 신호(100)를 배경 성분 신호(140) 및 전경 성분 신호(150)로 분해하기 위한 장치.The
실시예 16. 실시예 1 내지 실시예 15 중 어느 하나의 실시예에 있어서,Embodiment 16. In any one of the
오디오 신호 분석기는, 블록들의 그룹 내의 블록들의 수에 의존하여 또는 블록들의 그룹 내의 블록들에 대한 가중 값들에 의존하여 정규화 값을 사용하도록 구성되는, 오디오 신호(100)를 배경 성분 신호(140) 및 전경 성분 신호(150)로 분해하기 위한 장치.The audio signal analyzer is configured to use the normalized value in dependence on the number of blocks in the group of blocks or in dependence on the weighted values for the blocks in the group of blocks, Into a foreground component signal (150).
실시예 17. 실시예 1 내지 실시예 16 중 어느 하나의 실시예에 있어서,Embodiment 17. In any one of the
배경 성분 신호들 또는 전경 성분 신호들 중 적어도 하나의 신호들의 신호 특성을 측정하기 위한 신호 특성 측정기(702, 704)를 더 포함하는, 오디오 신호(100)를 배경 성분 신호(140) 및 전경 성분 신호(150)로 분해하기 위한 장치.Further comprising a signal characteristic meter (702, 704) for measuring signal characteristics of at least one of the background component signals or the foreground component signals, wherein the background component signal (140) and the foreground component signal (150).
실시예 18. 실시예 17에 있어서,Example 18 [0141] In the same manner as in Example 17,
신호 특성 측정기는, 전경 성분 신호를 사용하여 전경 밀도(702)를 결정하거나, 또는 전경 성분 신호 및 오디오 입력 신호를 사용하여 전경 현저성(prominence)(704)을 결정하도록 구성되는, 오디오 신호(100)를 배경 성분 신호(140) 및 전경 성분 신호(150)로 분해하기 위한 장치.The signal characteristic meter is configured to determine the
실시예 19. 실시예 1 내지 실시예 18 중 어느 하나의 실시예에 있어서,Embodiment 19. In any one of
전경 성분 신호는 박수소리(clap) 신호들을 포함하며,The foreground component signal includes clap signals,
장치는, 박수소리들의 수를 증가시키거나 또는 박수소리들의 수를 감소시킴으로써 또는 전경 성분 신호 또는 배경 성분 신호에 가중치를 적용하여 잡음형 신호인 배경 성분 신호와 전경 박수소리 신호 사이의 에너지 관계를 수정함으로써, 전경 성분 신호를 수정하기 위한 신호 특성 수정기를 더 포함하는, 오디오 신호(100)를 배경 성분 신호(140) 및 전경 성분 신호(150)로 분해하기 위한 장치.The apparatus corrects the energy relationship between the background component signal, which is a noise type signal, and the foreground clapping sound signal, by increasing the number of applause sounds or by reducing the number of applause sounds or by applying a weight to the foreground component signal or background component signal To a background component signal (140) and a foreground component signal (150), the audio signal (100) further comprising a signal characteristic modifier for modifying the foreground component signal.
실시예 20. 실시예 1 내지 실시예 19 중 어느 하나의 실시예에 있어서,Embodiment 20. In any of the
오디오 신호의 채널들의 수보다 큰 다수의 출력 채널들을 갖는 표현으로 오디오 신호를 업믹싱(upmix)하기 위한 블라인드 업믹서(blind upmixer)를 더 포함하며,Further comprising a blind upmixer for upmixing the audio signal with a representation having a number of output channels that is greater than the number of channels of the audio signal,
업믹서는, 전경 성분 신호를 출력 채널들로 공간적으로 분배하고 ― 다수의 출력 채널들 내의 전경 성분 신호는 상관됨 ―, 배경 성분 신호를 출력 채널들로 스펙트럼적으로 분배하도록 구성되고,The upmixer is configured to spatially distribute the foreground component signal to the output channels and to correlate the foreground component signals within the plurality of output channels to spectrally distribute the background component signal to the output channels,
출력 채널들 내의 배경 성분 신호들은 전경 성분 신호들보다 덜 상관되거나, 또는 서로 상관되지 않는, 오디오 신호(100)를 배경 성분 신호(140) 및 전경 성분 신호(150)로 분해하기 위한 장치.Wherein the background component signals in the output channels are less correlated or correlated than the foreground component signals into the background component signal (140) and the foreground component signal (150).
실시예 21. 실시예 1 내지 실시예 20 중 어느 하나의 실시예에 있어서,Embodiment 21. In any one of
송신 또는 저장 또는 디코딩을 위해 전경 성분 신호의 인코딩된 표현(804) 및 배경 성분 신호(806)의 별개의 인코딩된 표현을 획득하기 위하여 전경 성분 신호 및 배경 성분 신호를 별개로 인코딩하기 위한 인코더 스테이지(801, 802)를 더 포함하는, 오디오 신호(100)를 배경 성분 신호(140) 및 전경 성분 신호(150)로 분해하기 위한 장치.An
실시예 22. 오디오 신호(100)를 배경 성분 신호(140) 및 전경 성분 신호(150)로 분해하는 방법으로서,22. A method of decomposing an audio signal (100) into a background component signal (140) and a foreground component signal (150)
오디오 신호 값들의 블록들의 시간 시퀀스를 생성하는 단계(110);Generating (110) a time sequence of blocks of audio signal values;
오디오 신호의 현재 블록의 블록 특성을 결정하고, 블록들의 그룹에 대한 평균 특성을 결정하는 단계(120) ― 블록들의 그룹은 적어도 2개의 블록들을 포함함 ―; 및Determining a block characteristic of a current block of an audio signal and determining an average characteristic for the group of blocks (120), the group of blocks including at least two blocks; And
현재 블록의 블록 특성과 블록들의 그룹의 평균 특성의 비율에 응답하여 현재 블록을 배경 부분 및 전경 부분으로 분리시키는 단계(130)를 포함하며,(130) separating the current block into a background portion and a foreground portion in response to a ratio of a block characteristic of a current block to an average characteristic of a group of blocks,
배경 성분 신호(140)는 현재 블록의 배경 부분을 포함하고, 전경 성분 신호(150)는 현재 블록의 전경 부분을 포함하는, 오디오 신호(100)를 배경 성분 신호(140) 및 전경 성분 신호(150)로 분해하는 방법.The
후속하여, 위의 예들과는 별개로 또는 위의 예들 중 임의의 예와 조합하여 사용될 수 있는 추가적인 예들이 정의된다:Subsequently, further examples are defined which may be used separately from the above examples or in combination with any of the above examples:
실시예 1. 오디오 신호를 배경 성분 신호 및 전경 성분 신호로 분해하기 위한 장치로서,1. An apparatus for decomposing an audio signal into a background component signal and a foreground component signal,
오디오 신호 값들의 블록들의 시간 시퀀스를 생성하기 위한 블록 생성기(110);A block generator (110) for generating a time sequence of blocks of audio signal values;
오디오 신호의 현재 블록의 특성을 결정하고, 블록들의 시퀀스 중 적어도 2개의 블록들을 포함하는 블록들의 그룹 내에서 특성의 가변성(variability)을 결정하기 위한 오디오 신호 분석기(120); 및An audio signal analyzer (120) for determining a characteristic of a current block of an audio signal and for determining a variability of the characteristic within a group of blocks comprising at least two of the sequences of blocks; And
현재 블록을 배경 부분(140) 및 전경 부분(150)으로 분리시키기 위한 분리기(130)를 포함하며,And a
분리기(130)는, 가변성에 기초하여 분리 임계치를 결정(182)하며, 현재 블록의 특성이 분리 임계치와 미리 결정된 관계에 있는 경우, 현재 블록을 배경 성분 신호(140) 및 전경 성분 신호(150)로 분리시키거나, 또는 현재 블록의 특성이 분리 임계치와 미리 결정된 관계에 있는 경우, 전체 현재 블록을 전경 성분 신호로서 결정하거나, 또는 현재 블록의 특성이 분리 임계치와 미리 결정된 관계에 있지 않은 경우, 전체 현재 블록을 배경 성분 신호로서 결정하도록 구성되는, 오디오 신호를 배경 성분 신호 및 전경 성분 신호로 분해하기 위한 장치.The
실시예 2. 실시예 1에 있어서,Example 2 [0050] In Example 1,
분리기(130)는, 제1 가변성(501)에 대한 제1 분리 임계치(401)를 결정하고 제2 가변성(502)에 대한 제2 분리 임계치(402)를 결정하도록 구성되며,The
제1 분리 임계치(401)는 제2 분리 임계치(402)보다 낮고, 제1 가변성(501)은 제2 가변성(502)보다 낮으며, 미리 결정된 관계는 크거나, 또는 제1 분리 임계치는 제2 분리 임계치보다 크고, 제1 가변성은 제2 가변성(502)보다 낮으며, 미리 결정된 관계는 낮은, 오디오 신호를 배경 성분 신호 및 전경 성분 신호로 분해하기 위한 장치.The
실시예 3. 실시예 1 또는 실시예 2에 있어서,Example 3 In Example 1 or Example 2,
분리기(130)는, 제1 분리 임계치(401)와 제2 분리 임계치(402) 사이를 보간하는 단조 보간 함수를 사용하여 또는 테이블 액세스를 사용하여 분리 임계치를 결정해서, 제3 가변성(503)에 대해 제3 분리 임계치(403)가 획득되고, 제4 가변성(504)에 대해 제4 분리 임계치(404)가 획득되도록 구성되며,The
제1 분리 임계치(401)는 제1 가변성(501)과 연관되고, 제2 분리 임계치(402)는 제2 가변성(502)과 연관되고,The
제3 가변성(503) 및 제4 가변성은 그들의 값들에 관해, 제1 가변성(501)과 제2 가변성(502) 사이에 위치되고, 제3 분리 임계치(403) 및 제4 분리 임계치(404)는 그들의 값들에 관해, 제1 분리 임계치(401)와 제2 분리 임계치(402) 사이에 위치되는, 오디오 신호를 배경 성분 신호 및 전경 성분 신호로 분해하기 위한 장치.The
실시예 4. 실시예 3에 있어서,Example 4 [0060] In Example 3,
단조 보간 함수는 선형 함수이거나, 또는 이차 함수 또는 삼차 함수(cubic function) 또는 3보다 큰 차수를 갖는 멱함수(power function)인, 오디오 신호를 배경 성분 신호 및 전경 성분 신호로 분해하기 위한 장치.Wherein the monotone interpolation function is a linear function or a quadratic function or a power function having a cubic function or a degree greater than three, into an background component signal and a foreground component signal.
실시예 5. 실시예 1 내지 실시예 4 중 어느 하나의 실시예에 있어서,Embodiment 5 In any one of
분리기(130)는, 현재 블록에 관한 특성의 가변성에 기초하여 원시(raw) 분리 임계치를 결정(405)하고, 적어도 하나의 선행 또는 후속 블록의 가변성에 기초하여 적어도 하나의 추가적인 원시 분리 임계치를 결정(405)하며, 원시 분리 임계치들의 시퀀스를 평활화(smooth)함으로써 현재 블록에 대한 분리 임계치를 결정(407)하도록 구성되고, 시퀀스는 원시 분리 임계치 및 적어도 하나의 추가적인 원시 분리 임계치를 포함하거나, 또는The
분리기(130)는, 현재 블록에 대한 특성의 원시 가변성(402)을 결정하고, 부가적으로는 선행 또는 후속 블록에 대한 원시 가변성을 계산(404)하도록 구성되고, 분리기(130)는, 현재 블록에 대한 원시 가변성 및 선행 또는 후속 블록에 대한 적어도 하나의 추가적인 원시 가변성을 포함하는 원시 가변성들의 시퀀스를 평활화하여, 가변성들의 평활화된 시퀀스를 획득하고, 현재 블록의 평활화된 가변성에 기초하여 분리 임계치들을 결정하도록 구성되는, 오디오 신호를 배경 성분 신호 및 전경 성분 신호로 분해하기 위한 장치.The
실시예 6. 실시예 1 내지 실시예 5 중 어느 하나의 실시예에 있어서,
오디오 신호 분석기(120)는, 특성들의 그룹을 획득하도록 블록들의 그룹 내의 각각의 블록의 특성을 계산함으로써 그리고 특성들의 그룹의 분산을 계산함으로써 가변성을 결정하도록 구성되며,The
가변성은, 분산에 대응하거나 또는 특성들의 그룹의 분산에 의존하는, 오디오 신호를 배경 성분 신호 및 전경 성분 신호로 분해하기 위한 장치.Wherein the variability corresponds to a variance or depends on a variance of a group of characteristics, for decomposing an audio signal into a background component signal and a foreground component signal.
실시예 7. 실시예 1 내지 실시예 6 중 어느 하나의 실시예에 있어서,
오디오 신호 분석기(120)는,The audio signal analyzer (120)
평균 또는 예상된 특성(502), 및 특성들의 그룹 내의 특성들과 평균 또는 예상된 특성 사이의 차이들(504)을 사용하여 가변성을 계산하거나, 또는
The average or expected
시간 상 후속하는 특성들의 그룹의 특성들 사이의 차이들(508)을 사용하여 가변성을 계산하도록
To calculate the
구성되는, 오디오 신호를 배경 성분 신호 및 전경 성분 신호로 분해하기 위한 장치.Wherein the audio signal is composed of a background component signal and a foreground component signal.
실시예 8. 실시예 1 내지 실시예 7 중 어느 하나의 실시예에 있어서,
오디오 신호 분석기(120)는, 현재 블록에 선행하는 적어도 2개의 블록들 또는 현재 블록에 후속하는 적어도 2개의 블록들을 포함하는 특성들의 그룹 내에서 특성의 가변성을 계산하도록 구성되는, 오디오 신호를 배경 성분 신호 및 전경 성분 신호로 분해하기 위한 장치.The
실시예 9. 실시예 1 내지 실시예 8 중 어느 하나의 실시예에 있어서,
오디오 신호 분석기(120)는, 적어도 30개의 블록들로 이루어진 블록들의 그룹 내에서 특성의 가변성을 계산하도록 구성되는, 오디오 신호를 배경 성분 신호 및 전경 성분 신호로 분해하기 위한 장치.The audio signal analyzer (120) is configured to calculate a variability of a characteristic within a group of blocks of at least 30 blocks, for decomposing an audio signal into a background component signal and a foreground component signal.
실시예 10. 실시예 1 내지 실시예 9 중 어느 하나의 실시예에 있어서,
오디오 신호 분석기(120)는, 현재 블록의 블록 특성과 적어도 2개의 블록들을 포함하는 블록들의 그룹에 대한 평균 특성의 비율로서 특성을 계산하도록 구성되며,The
분리기(130)는, 비율을, 블록들의 그룹 내의 현재 블록과 연관된 비율의 가변성에 기초하여 결정된 분리 임계치와 비교하도록 구성되는, 오디오 신호를 배경 성분 신호 및 전경 성분 신호로 분해하기 위한 장치.The separator (130) is configured to compare the ratio to a separation threshold determined based on a variability of the ratio associated with a current block in the group of blocks, for decomposing the audio signal into a background component signal and a foreground component signal.
실시예 11. 실시예 10에 있어서,Example 11 [0141] In Example 10,
오디오 신호 분석기(120)는, 평균 특성의 계산을 위해 그리고 가변성의 계산을 위해, 블록들의 동일한 그룹을 사용하도록 구성되는, 오디오 신호를 배경 성분 신호 및 전경 성분 신호로 분해하기 위한 장치.The audio signal analyzer (120) is configured to use the same group of blocks for calculation of the average characteristic and for calculation of variability, for decomposing the audio signal into a background component signal and a foreground component signal.
실시예 12. 실시예 1 내지 실시예 11 중 어느 하나의 실시예에 있어서,12. Embodiment 12 In any one of
오디오 신호 분석기는, 현재 블록의 특성으로서 진폭-관련 측정을 분석하고, 블록들의 그룹에 대한 평균 특성으로서 진폭-관련 특성을 분석하도록 구성되는, 오디오 신호를 배경 성분 신호 및 전경 성분 신호로 분해하기 위한 장치.The audio signal analyzer is configured to analyze an amplitude-related measurement as a characteristic of a current block and to analyze the amplitude-related characteristic as an average characteristic for a group of blocks, for decomposing the audio signal into a background component signal and a foreground component signal Device.
실시예 13. 실시예 1 내지 실시예 12 중 어느 하나의 실시예에 있어서,Embodiment 13. In any one of
분리기(130)는, 특성로부터 분리 이득을 계산하고, 분리 이득을 사용하여 현재 블록의 오디오 신호 값들을 가중시켜 현재 프레임의 전경 부분을 획득하며, 배경 성분을 결정해서, 배경 신호가 나머지 신호를 구성하도록 구성되거나, 또는The
분리기(130)는, 특성로부터 분리 이득을 계산하고, 분리 이득을 사용하여 현재 블록의 오디오 신호 값들을 가중시켜 현재 프레임의 배경 부분을 획득하며, 전경 성분을 결정해서, 전경 성분 신호가 나머지 신호를 구성하도록 구성되는, 오디오 신호를 배경 성분 신호 및 전경 성분 신호로 분해하기 위한 장치.The
실시예 14. 실시예 1 내지 실시예 13 중 어느 하나의 실시예에 있어서,Embodiment 14. In any one of
분리기(130)는, 시간 상 현재 블록에 후속하는 후속 블록을, 후속 블록의 특성을 추가적인 릴리즈(release) 임계치와 비교하는 것을 사용하여 분리시키도록 구성되며,The
추가적인 릴리즈 임계치는, 임계치와 미리 결정된 관계에 있지 않는 특성이 추가적인 릴리즈 임계치와 미리 결정된 관계에 있도록 세팅되는, 오디오 신호를 배경 성분 신호 및 전경 성분 신호로 분해하기 위한 장치.Wherein the additional release threshold is set such that a property that is not in a predetermined relationship to the threshold is set to a predetermined relationship with an additional release threshold.
실시예 15. 실시예 14에 있어서,Example 15. In Example 14,
분리기(130)는, 현재 블록의 특성이 릴리즈 임계치와 추가적인 미리 결정된 관계에 있는 경우, 가변성에 기초하여 릴리즈 임계치를 결정하고 후속 블록을 분리시키도록 구성되는, 오디오 신호를 배경 성분 신호 및 전경 성분 신호로 분해하기 위한 장치.The
실시예 16. 실시예 14 또는 실시예 15에 있어서,Example 16 In Example 14 or Example 15,
미리 결정된 관계는 "보다 큰 것"이고, 릴리즈 임계치는 분리 임계치보다 낮거나, 또는The predetermined relationship is "larger ", the release threshold is lower than the separation threshold, or
미리 결정된 관계는 "보다 낮은 것"이고, 릴리즈 임계치는 분리 임계치보다 큰, 오디오 신호(100)를 배경 성분 신호(140) 및 전경 성분 신호(150)로 분해하기 위한 장치.The apparatus for decomposing an audio signal (100) into a background component signal (140) and a foreground component signal (150), wherein the predetermined relationship is "lower" and the release threshold is greater than a separation threshold.
실시예 17. 실시예 1 내지 실시예 16 중 어느 하나의 실시예에 있어서,Embodiment 17. In any one of the
블록 생성기(110)는 오디오 신호 값들의 시간적으로 중첩하는 블록들을 결정하도록 구성되거나, 또는
시간적으로 중첩하는 블록들은 600보다 작거나 또는 그와 동일한 다수의 샘플링 값들을 갖는, 오디오 신호를 배경 성분 신호 및 전경 성분 신호로 분해하기 위한 장치.Wherein the temporally overlapping blocks have a plurality of sampled values less than or equal to 600, and for decomposing the audio signal into a background component signal and a foreground component signal.
실시예 18. 실시예 1 내지 실시예 17 중 어느 하나의 실시예에 있어서,Embodiment 18. In any one of
블록 생성기는, 각각의 블록에 대한 스펙트럼 표현을 획득하기 위해 시간 도메인 오디오 신호의 주파수 도메인으로의 블록-단위(block-wise) 변환을 수행하도록 구성되며,Block generator is configured to perform a block-wise transform of the time domain audio signal into the frequency domain to obtain a spectral representation for each block,
오디오 신호 분석기는, 현재 블록의 스펙트럼 표현을 사용하여 특성을 계산하도록 구성되고,The audio signal analyzer is configured to calculate a property using a spectral representation of the current block,
분리기(130)는, 스펙트럼 표현을 배경 부분 및 전경 부분으로 분리시켜, 동일한 주파수에 대응하는 배경 부분 및 전경 부분의 스펙트럼 빈들에 대해, 배경 부분 및 전경 부분 각각이 제로와는 상이한 스펙트럼 값을 갖도록 구성되며,The
동일한 주파수 빈 내의 전경 부분의 스펙트럼 값과 배경 부분의 스펙트럼 값의 관계는 특성에 의존하는, 오디오 신호를 배경 성분 신호 및 전경 성분 신호로 분해하기 위한 장치.A device for decomposing an audio signal into a background component signal and a foreground component signal, wherein the relationship between the spectral value of the foreground part and the spectral value of the background part in the same frequency bin is characteristic.
실시예 19. 실시예 1 내지 실시예 18 중 어느 하나의 실시예에 있어서,Embodiment 19. In any one of
오디오 신호 분석기(120)는, 블록들의 그룹의 스펙트럼 표현을 사용하여 현재 블록에 대한 가변성을 계산하기 위해 현재 블록의 스펙트럼 표현을 사용하여 특성을 계산하도록 구성되는, 오디오 신호를 배경 성분 신호 및 전경 성분 신호로 분해하기 위한 장치.The
실시예 20. 오디오 신호를 배경 성분 신호 및 전경 성분 신호로 분해하기 위한 방법으로서,20. A method for decomposing an audio signal into a background component signal and a foreground component signal,
오디오 신호 값들의 블록들의 시간 시퀀스를 생성하는 단계(110);Generating (110) a time sequence of blocks of audio signal values;
오디오 신호의 현재 블록의 특성을 결정하고, 블록들의 시퀀스 중 적어도 2개의 블록들을 포함하는 블록들의 그룹 내에서 특성의 가변성을 결정하는 단계(120); 및Determining a characteristic of a current block of the audio signal and determining a variability of the characteristic within the group of blocks comprising at least two of the sequences of blocks (120); And
현재 블록을 배경 부분(140) 및 전경 부분(150)으로 분리시키는 단계(130)를 포함하며,(130) the current block into a background portion (140) and a foreground portion (150)
분리 임계치는 가변성에 기초하여 결정되며, 현재 블록의 특성이 분리 임계치와 미리 결정된 관계에 있는 경우, 현재 블록은 배경 성분 신호(140) 및 전경 성분 신호(150)로 분리되거나, 또는 현재 블록의 특성이 분리 임계치와 미리 결정된 관계에 있는 경우, 전체 현재 블록은 전경 성분 신호로서 결정되거나, 또는 현재 블록의 특성이 분리 임계치와 미리 결정된 관계에 있지 않은 경우, 전체 현재 블록은 배경 성분 신호로서 결정되는, 오디오 신호를 배경 성분 신호 및 전경 성분 신호로 분해하기 위한 방법.The separation threshold is determined based on the variability, and if the current block has a predetermined relationship with the separation threshold, the current block is separated into the
본 발명의 인코딩된 오디오 신호는, 디지털 저장 매체 또는 비-일시적인 저장 매체 상에 저장될 수 있거나, 무선 송신 매체와 같은 송신 매체 또는 인터넷과 같은 유선 송신 매체 상에서 송신될 수 있다.The encoded audio signal of the present invention may be stored on a digital or non-temporal storage medium, or may be transmitted on a transmission medium such as a wireless transmission medium or on a wired transmission medium such as the Internet.
일부 양상들이 장치의 콘텍스트에서 설명되었지만, 이들 양상들이 또한 대응하는 방법의 설명을 표현한다는 것은 명확하며, 여기서, 블록 또는 디바이스는 방법 단계 또는 방법 단계의 특징에 대응한다. 유사하게, 방법 단계의 콘텍스트에서 설명된 양상들은 또한, 대응하는 장치의 대응하는 블록 또는 아이템 또는 특징의 설명을 표현한다.Although some aspects have been described in the context of a device, it is clear that these aspects also represent a description of the corresponding method, where the block or device corresponds to a feature of the method step or method step. Similarly, the aspects described in the context of a method step also represent a corresponding block or item or description of the feature in the corresponding device.
특정한 구현 요건들에 의존하면, 본 발명의 실시예들은 하드웨어 또는 소프트웨어로 구현될 수 있다. 구현은, 각각의 방법이 수행되도록 프로그래밍가능한 컴퓨터 시스템과 협력하는(또는 협력할 수 있는), 전자적으로 판독가능한 제어 신호들이 저장된 디지털 저장 매체, 예를 들어, 플로피 디스크, DVD, CD, ROM, PROM, EPROM, EEPROM 또는 FLASH 메모리를 사용하여 수행될 수 있다.Depending on the specific implementation requirements, embodiments of the present invention may be implemented in hardware or software. The implementation may be implemented in a digital storage medium, such as a floppy disk, a DVD, a CD, a ROM, a PROM, or the like, in which electronically readable control signals cooperate (or may cooperate) , EPROM, EEPROM or FLASH memory.
본 발명에 따른 일부 실시예들은, 본 명세서에 설명된 방법들 중 하나가 수행되도록 프로그래밍가능한 컴퓨터 시스템과 협력할 수 있는, 전자적으로 판독가능한 제어 신호들을 갖는 데이터 캐리어를 포함한다.Some embodiments in accordance with the present invention include a data carrier having electronically readable control signals that can cooperate with a programmable computer system to perform one of the methods described herein.
일반적으로, 본 발명의 실시예들은 프로그램 코드를 갖는 컴퓨터 프로그램 물건으로서 구현될 수 있으며, 프로그램 코드는, 컴퓨터 프로그램 물건이 컴퓨터 상에서 구동되는 경우 방법들 중 하나를 수행하기 위해 동작된다. 프로그램 코드는, 예를 들어, 머신 판독가능 캐리어 상에 저장될 수 있다.In general, embodiments of the present invention may be implemented as a computer program product having program code, wherein the program code is operated to perform one of the methods when the computer program product is run on a computer. The program code may be stored on, for example, a machine readable carrier.
다른 실시예들은, 머신 판독가능 캐리어 또는 비-일시적인 저장 매체 상에 저장되는, 본 명세서에 설명된 방법들 중 하나를 수행하기 위한 컴퓨터 프로그램을 포함한다.Other embodiments include a computer program for performing one of the methods described herein, stored on a machine readable carrier or non-temporary storage medium.
즉, 따라서, 본 발명의 방법의 실시예는, 컴퓨터 프로그램이 컴퓨터 상에서 구동되는 경우, 본 명세서에 설명된 방법들 중 하나를 수행하기 위한 프로그램 코드를 갖는 컴퓨터 프로그램이다.That is, therefore, an embodiment of the method of the present invention is a computer program having program code for performing one of the methods described herein when the computer program is run on a computer.
따라서, 본 발명의 방법들의 추가적인 실시예는, 본 명세서에 설명된 방법들 중 하나를 수행하기 위한 컴퓨터 프로그램(상부에 기록됨)을 포함하는 데이터 캐리어(또는 디지털 저장 매체, 또는 컴퓨터-판독가능 매체)이다.Thus, a further embodiment of the methods of the present invention is a data carrier (or digital storage medium, or computer-readable medium) comprising a computer program (recorded on top) for performing one of the methods described herein, to be.
따라서, 본 발명의 방법의 추가적인 실시예는, 본 명세서에 설명된 방법들 중 하나를 수행하기 위한 컴퓨터 프로그램을 표현하는 데이터 스트림 또는 신호들의 시퀀스이다. 데이터 스트림 또는 신호들의 시퀀스는, 예를 들어, 데이터 통신 연결을 통해, 예를 들어, 인터넷을 통해 전달되도록 구성될 수 있다.Thus, a further embodiment of the method of the present invention is a sequence of data streams or signals representing a computer program for performing one of the methods described herein. The sequence of data streams or signals may be configured to be transmitted, for example, over the Internet, e.g., via a data communication connection.
추가적인 실시예는, 본 명세서에 설명된 방법들 중 하나를 수행하도록 구성 또는 적응되는 프로세싱 수단, 예를 들어, 컴퓨터, 또는 프로그래밍가능 로직 디바이스를 포함한다.Additional embodiments include a processing means, e.g., a computer, or a programmable logic device, configured or adapted to perform one of the methods described herein.
추가적인 실시예는, 본 명세서에 설명된 방법들 중 하나를 수행하기 위한 컴퓨터 프로그램이 인스톨된 컴퓨터를 포함한다.Additional embodiments include a computer on which a computer program for performing one of the methods described herein is installed.
일부 실시예들에서, 프로그래밍가능 로직 디바이스(예를 들어, 필드 프로그래밍가능 게이트 어레이)는, 본 명세서에 설명된 방법들의 기능들 중 일부 또는 모두를 수행하기 위해 사용될 수 있다. 일부 실시예들에서, 필드 프로그래밍가능 게이트 어레이는, 본 명세서에 설명된 방법들 중 하나를 수행하기 위해 마이크로프로세서와 협력할 수 있다. 일반적으로, 방법들은 바람직하게 임의의 하드웨어 장치에 의해 수행된다.In some embodiments, a programmable logic device (e.g., a field programmable gate array) may be used to perform some or all of the functions of the methods described herein. In some embodiments, the field programmable gate array may cooperate with the microprocessor to perform one of the methods described herein. Generally, the methods are preferably performed by any hardware device.
위에서 설명된 실시예들은 단지, 본 발명의 원리들에 대해 예시적일 뿐이다. 본 명세서에 설명된 어레인지먼트(arrangement)들 및 세부사항들의 변형들 및 변경들이 당업자들에게는 명백할 것임을 이해한다. 따라서, 본 명세서의 실시예들의 설명 및 해설에 의해 제시된 특정한 세부사항들이 아니라 임박한 특허 청구항들의 범위에 의해서만 제한되는 것이 의도이다.The embodiments described above are merely illustrative of the principles of the present invention. It will be appreciated that variations and modifications of the arrangements and details described herein will be apparent to those skilled in the art. Accordingly, it is intended that the specific details presented by the description and the description of the embodiments herein be limited only by the scope of the imminent patent claims.
Claims (23)
오디오 신호 값들의 블록들의 시간 시퀀스를 생성하기 위한 블록 생성기(110);
상기 오디오 신호의 현재 블록의 블록 특성을 결정하고, 블록들의 그룹에 대한 평균 특성을 결정하기 위한 오디오 신호 분석기(120) ― 상기 블록들의 그룹은 적어도 2개의 블록들을 포함함 ―; 및
상기 현재 블록의 블록 특성과 상기 블록들의 그룹의 평균 특성의 비율에 응답하여 상기 현재 블록을 배경 부분 및 전경 부분으로 분리시키기 위한 분리기(130)를 포함하며,
상기 배경 성분 신호(140)는 상기 현재 블록의 배경 부분을 포함하고, 상기 전경 성분 신호(150)는 상기 현재 블록의 전경 부분을 포함하는, 오디오 신호(100)를 배경 성분 신호(140) 및 전경 성분 신호(150)로 분해하기 위한 장치.An apparatus for decomposing an audio signal (100) into a background component signal (140) and a foreground component signal (150)
A block generator (110) for generating a time sequence of blocks of audio signal values;
An audio signal analyzer (120) for determining a block characteristic of a current block of the audio signal and determining an average characteristic for a group of blocks, the group of blocks including at least two blocks; And
And a separator (130) for separating the current block into a background portion and a foreground portion in response to a ratio of a block characteristic of the current block and an average characteristic of the group of blocks,
The background component signal 140 includes a background portion of the current block and the foreground component signal 150 comprises a foreground portion of the current block, Into component signal (150).
상기 오디오 신호 분석기는, 상기 현재 블록의 특성으로서 진폭-관련 측정을 분석하고, 상기 블록들의 그룹에 대한 평균 특성으로서 상기 진폭-관련 특성을 분석하도록 구성되는, 오디오 신호(100)를 배경 성분 신호(140) 및 전경 성분 신호(150)로 분해하기 위한 장치.The method according to claim 1,
The audio signal analyzer is configured to analyze an amplitude-related measurement as a characteristic of the current block and to analyze the amplitude-related characteristic as an average characteristic for a group of the blocks. 140) and a foreground component signal (150).
상기 오디오 신호 분석기(120)는, 상기 현재 블록에 대한 전력 측정 또는 에너지 측정을 분석하고, 상기 블록들의 그룹에 대한 평균 전력 측정 또는 평균 에너지 측정을 분석하도록 구성되는, 오디오 신호(100)를 배경 성분 신호(140) 및 전경 성분 신호(150)로 분해하기 위한 장치.3. The method according to claim 1 or 2,
The audio signal analyzer (120) is configured to analyze a power measurement or an energy measurement for the current block, and to analyze an average power measurement or an average energy measurement for the group of blocks. Into a signal (140) and a foreground component signal (150).
상기 분리기(130)는, 상기 비율로부터 분리 이득을 계산하고, 상기 분리 이득을 사용하여 상기 현재 블록의 오디오 신호 값들을 가중시켜 상기 현재 블록의 전경 부분을 획득하며, 배경 성분을 결정해서, 상기 배경 신호가 나머지 신호를 구성하도록 구성되거나, 또는
상기 분리기는, 상기 비율로부터 상기 분리 이득을 계산하고, 상기 분리 이득을 사용하여 상기 현재 블록의 오디오 신호 값들을 가중시켜 상기 현재 블록의 배경 부분을 획득하며, 전경 성분을 결정해서, 상기 전경 성분 신호가 나머지 신호를 구성하도록 구성되는, 오디오 신호(100)를 배경 성분 신호(140) 및 전경 성분 신호(150)로 분해하기 위한 장치.4. The method according to any one of claims 1 to 3,
The separator 130 calculates a separation gain from the ratio and obtains the foreground portion of the current block by weighting the audio signal values of the current block using the separation gain, Signal is configured to configure the remaining signal, or
Wherein the separator calculates the separation gain from the ratio and obtains the background portion of the current block by weighting the audio signal values of the current block using the separation gain and determines a foreground component, To the background component signal (140) and the foreground component signal (150), the audio signal (100) being configured to compose the remaining signal.
상기 분리기(130)는, 제로와는 상이한 미리 결정된 가중 인자를 사용하여 상기 비율을 가중시키는 것을 사용해서 분리 이득을 계산하도록 구성되는, 오디오 신호(100)를 배경 성분 신호(140) 및 전경 성분 신호(150)로 분해하기 위한 장치.5. The method according to any one of claims 1 to 4,
The separator (130) is configured to calculate the separation gain using weighting the ratio using a predetermined weighting factor different from zero, wherein the separator (130) is configured to calculate the separation gain using the background component signal (140) and the foreground component signal (150).
상기 분리기(130)는, 항 을 사용하여 상기 분리 이득을 계산하도록 구성되며,
상기 gN은 상기 미리 결정된 인자이고, 상기 는 비율이고, 상기 p는 제로보다 크고 정수 또는 비-정수인 거듭제곱이고, 상기 n은 블록 인덱스이고, 상기 max는 최대 함수인, 오디오 신호(100)를 배경 성분 신호(140) 및 전경 성분 신호(150)로 분해하기 위한 장치.6. The method of claim 5,
The separator (130) To calculate the separation gain,
Wherein g N is the predetermined factor, Where n is the block index and max is the maximum function, the audio signal 100 is divided into a background component signal 140 and a foreground component signal < RTI ID = 0.0 > 150).
상기 분리기(130)는, 상기 현재 블록의 비율이 임계치와 미리 결정된 관계에 있는 경우, 상기 현재 블록의 비율을 상기 임계치와 비교하고 상기 현재 블록을 분리시키도록 구성되고,
상기 분리기(130)는 추가적인 블록을 분리시키지 않도록 구성되며,
상기 추가적인 블록은 상기 임계치와의 미리 결정된 관계를 갖지 않는 비율을 가져서, 상기 추가적인 블록은 상기 배경 성분 신호(140)에 완전히 속하는, 오디오 신호(100)를 배경 성분 신호(140) 및 전경 성분 신호(150)로 분해하기 위한 장치.7. The method according to any one of claims 1 to 6,
The separator 130 is configured to compare the ratio of the current block with the threshold and separate the current block if the ratio of the current block is in a predetermined relationship with the threshold,
The separator 130 is configured not to separate additional blocks,
Wherein the additional block has a ratio that does not have a predetermined relationship with the threshold such that the additional block includes an audio signal 100 that completely belongs to the background component signal 140 as the background component signal 140 and the foreground component signal 140 150).
상기 분리기(130)는, 시간 상 상기 현재 블록에 후속하는 후속 블록을, 상기 후속 블록의 비율을 추가적인 릴리즈(release) 임계치와 비교하는 것을 사용하여 분리시키도록 구성되며,
상기 추가적인 릴리즈 임계치는, 상기 임계치와 미리 결정된 관계에 있지 않는 블록 비율이 상기 추가적인 릴리즈 임계치와 미리 결정된 관계에 있도록 세팅되는, 오디오 신호(100)를 배경 성분 신호(140) 및 전경 성분 신호(150)로 분해하기 위한 장치.8. The method of claim 7,
The separator 130 is configured to separate subsequent blocks subsequent to the current block in time using a ratio of the following blocks to an additional release threshold,
Wherein the additional release threshold is set such that an audio signal (100) is divided into a background component signal (140) and a foreground component signal (150), wherein the background component signal (140) and the foreground component signal (150) are set such that a block ratio, which is not in a predetermined relationship with the threshold, .
상기 미리 결정된 관계는 "보다 큰 것"이고, 상기 릴리즈 임계치는 분리 임계치보다 낮거나, 또는
상기 미리 결정된 관계는 "보다 낮은 것"이고, 상기 릴리즈 임계치는 상기 분리 임계치보다 큰, 오디오 신호(100)를 배경 성분 신호(140) 및 전경 성분 신호(150)로 분해하기 위한 장치.9. The method of claim 8,
The predetermined relationship is "greater ", the release threshold is lower than the separation threshold, or
Wherein the predetermined relationship is a " lower "and the release threshold is greater than the separation threshold, into an background component signal (140) and a foreground component signal (150).
상기 블록 생성기(110)는 오디오 신호 값들의 시간적으로 중첩하는 블록들을 결정하도록 구성되거나, 또는
상기 시간적으로 중첩하는 블록들은 600보다 작거나 또는 그와 동일한 다수의 샘플링 값들을 갖는, 오디오 신호(100)를 배경 성분 신호(140) 및 전경 성분 신호(150)로 분해하기 위한 장치.10. The method according to any one of claims 1 to 9,
The block generator 110 may be configured to determine temporally overlapping blocks of audio signal values,
Wherein the temporally overlapping blocks have a plurality of sampled values less than or equal to 600. The apparatus of claim 1,
상기 블록 생성기는, 각각의 블록에 대한 스펙트럼 표현을 획득하기 위해 시간 도메인 오디오 신호의 주파수 도메인으로의 블록-단위(block-wise) 변환을 수행하도록 구성되며,
상기 오디오 신호 분석기는, 상기 현재 블록의 스펙트럼 표현을 사용하여 특성을 계산하도록 구성되고,
상기 분리기(130)는, 상기 스펙트럼 표현을 상기 배경 부분 및 상기 전경 부분으로 분리시켜, 동일한 주파수에 대응하는 상기 배경 부분 및 상기 전경 부분의 스펙트럼 빈들에 대해, 상기 배경 부분 및 상기 전경 부분 각각이 제로와는 상이한 스펙트럼 값을 갖도록 구성되며,
동일한 주파수 빈 내의 상기 전경 부분의 스펙트럼 값과 상기 배경 부분의 스펙트럼 값의 관계는 상기 비율에 의존하는, 오디오 신호(100)를 배경 성분 신호(140) 및 전경 성분 신호(150)로 분해하기 위한 장치.11. The method according to any one of claims 1 to 10,
Wherein the block generator is configured to perform block-wise transforms to a frequency domain of a time domain audio signal to obtain a spectral representation for each block,
Wherein the audio signal analyzer is configured to calculate a property using a spectral representation of the current block,
The separator (130) separates the spectral representation into the background portion and the foreground portion, and for spectral bins of the background portion and the foreground portion corresponding to the same frequency, each of the background portion and the foreground portion is zero Lt; RTI ID = 0.0 > a < / RTI >
(150) for decomposing an audio signal (100) into a background component signal (140) and a foreground component signal (150), wherein the relationship between the spectral value of the foreground part and the spectrum value of the background part in the same frequency bin depends on the ratio. .
상기 블록 생성기(110)는, 각각의 블록에 대한 스펙트럼 표현을 획득하기 위해 시간 도메인의 주파수 도메인으로의 블록-단위 변환을 수행하도록 구성되며,
시간 상 인접하는 블록들은 중첩 범위(302)에서 중첩하고,
상기 장치는, 상기 배경 성분 신호를 합성하고 상기 전경 성분 신호를 합성하기 위한 신호 합성기(160a, 161a, 160b, 161b)를 더 포함하며,
상기 신호 합성기는, 상기 배경 성분 신호 및 상기 전경 성분 신호에 대한 주파수-시간 변환(161a, 160a, 160b)을 수행하고, 상기 중첩 범위 내에서 시간 상-인접하는 블록들의 시간 표현들을 크로스-페이딩(cross-fade)(161a, 161b)하여, 시간 도메인 전경 성분 신호 및 별개의 시간 도메인 배경 성분 신호를 획득하도록 구성되는, 오디오 신호(100)를 배경 성분 신호(140) 및 전경 성분 신호(150)로 분해하기 위한 장치.12. The method according to any one of claims 1 to 11,
The block generator (110) is configured to perform block-to-frequency transforms into a frequency domain of a time domain to obtain a spectral representation for each block,
Blocks adjacent in time overlap in the overlap range 302,
The apparatus further comprises signal synthesizers (160a, 161a, 160b, 161b) for synthesizing the background component signals and synthesizing the foreground component signals,
The signal synthesizer performs frequency-to-time transforms (161a, 160a, 160b) on the background component signal and the foreground component signal and performs cross-fading on temporal representations of temporally- frequency component signal and a separate time-domain background component signal to produce a background component signal 140 and a foreground component signal 150, which are configured to cross-fade (161a, 161b) Apparatus for disassembly.
상기 오디오 신호 분석기(120)는, 상기 블록들의 그룹 내의 블록들의 개별 특성들의 가중된 가산을 사용하여 상기 블록들의 그룹에 대한 평균 특성을 결정하도록 구성되는, 오디오 신호(100)를 배경 성분 신호(140) 및 전경 성분 신호(150)로 분해하기 위한 장치.13. The method according to any one of claims 1 to 12,
The audio signal analyzer (120) is configured to determine an average characteristic for a group of blocks using a weighted addition of individual characteristics of the blocks within the group of blocks. An audio signal analyzer (120) And a foreground component signal (150).
상기 오디오 신호 분석기(120)는, 상기 블록들의 그룹 내의 블록들의 개별 특성들의 가중된 가산을 수행하도록 구성되며,
상기 현재 블록에 시간 상 가까운 블록의 특성에 대한 가중 값은 상기 현재 블록에 시간 상 덜 가까운 추가적인 블록의 특성에 대한 가중 값보다 큰, 오디오 신호(100)를 배경 성분 신호(140) 및 전경 성분 신호(150)로 분해하기 위한 장치.14. The method according to any one of claims 1 to 13,
The audio signal analyzer 120 is configured to perform a weighted addition of individual characteristics of the blocks within the group of blocks,
Wherein the weighting value for a characteristic of a block closest in time to the current block is greater than a weighting value for a characteristic of an additional block that is closest in time to the current block, (150).
상기 오디오 신호 분석기(120)는, 상기 블록들의 그룹이 대응하는 블록 이전에 적어도 20개의 블록들 또는 상기 현재 블록에 후속하여 적어도 20개의 블록들을 포함하도록 상기 블록들의 그룹을 결정하도록 구성되는, 오디오 신호(100)를 배경 성분 신호(140) 및 전경 성분 신호(150)로 분해하기 위한 장치.The method according to claim 13 or 14,
The audio signal analyzer (120) is configured to determine a group of blocks such that the group of blocks includes at least 20 blocks before the corresponding block or at least 20 blocks following the current block. (100) into a background component signal (140) and a foreground component signal (150).
상기 오디오 신호 분석기는, 상기 블록들의 그룹 내의 블록들의 수에 의존하여 또는 상기 블록들의 그룹 내의 블록들에 대한 가중 값들에 의존하여 정규화 값을 사용하도록 구성되는, 오디오 신호(100)를 배경 성분 신호(140) 및 전경 성분 신호(150)로 분해하기 위한 장치.16. The method according to any one of claims 1 to 15,
Wherein the audio signal analyzer is configured to use the normalization value depending on the number of blocks in the group of blocks or depending on the weighting values for the blocks in the group of blocks. 140) and a foreground component signal (150).
배경 성분 신호들 또는 전경 성분 신호들 중 적어도 하나의 신호들의 신호 특성을 측정하기 위한 신호 특성 측정기(702, 704)를 더 포함하는, 오디오 신호(100)를 배경 성분 신호(140) 및 전경 성분 신호(150)로 분해하기 위한 장치.17. The method according to any one of claims 1 to 16,
Further comprising a signal characteristic meter (702, 704) for measuring signal characteristics of at least one of the background component signals or the foreground component signals, wherein the background component signal (140) and the foreground component signal (150).
상기 신호 특성 측정기는, 상기 전경 성분 신호를 사용하여 전경 밀도(702)를 결정하거나, 또는 상기 전경 성분 신호 및 오디오 입력 신호를 사용하여 전경 현저성(prominence)(704)을 결정하도록 구성되는, 오디오 신호(100)를 배경 성분 신호(140) 및 전경 성분 신호(150)로 분해하기 위한 장치.18. The method of claim 17,
The signal characteristic meter may be configured to determine a foreground density 702 using the foreground component signal or to determine a foreground component 704 using the foreground component signal and the audio input signal. An apparatus for decomposing a signal (100) into a background component signal (140) and a foreground component signal (150).
상기 전경 성분 신호는 박수소리(clap) 신호들을 포함하며,
상기 장치는, 박수소리들의 수를 증가시키거나 또는 박수소리들의 수를 감소시킴으로써 또는 상기 전경 성분 신호 또는 상기 배경 성분 신호에 가중치를 적용하여 잡음형 신호인 상기 배경 성분 신호와 전경 박수소리 신호 사이의 에너지 관계를 수정함으로써, 상기 전경 성분 신호를 수정하기 위한 신호 특성 수정기를 더 포함하는, 오디오 신호(100)를 배경 성분 신호(140) 및 전경 성분 신호(150)로 분해하기 위한 장치.19. The method according to any one of claims 1 to 18,
Wherein the foreground component signal comprises clap signals,
The apparatus comprises means for increasing the number of clapping sounds or reducing the number of clapping sounds or applying a weight to the foreground component signal or the background component signal, Further comprising a signal characteristic modifier for modifying the foreground component signal by modifying the energy relationship to divide the audio signal into a background component signal (140) and a foreground component signal (150).
상기 오디오 신호의 채널들의 수보다 큰 다수의 출력 채널들을 갖는 표현으로 상기 오디오 신호를 업믹싱(upmix)하기 위한 블라인드 업믹서(blind upmixer)를 더 포함하며,
상기 업믹서는, 상기 전경 성분 신호를 상기 출력 채널들로 공간적으로 분배하고 ― 상기 다수의 출력 채널들 내의 전경 성분 신호는 상관됨 ―, 상기 배경 성분 신호를 상기 출력 채널들로 공간적으로 분배하도록 구성되고,
상기 출력 채널들 내의 배경 성분 신호들은 상기 전경 성분 신호들보다 덜 상관되거나, 또는 서로 상관되지 않는, 오디오 신호(100)를 배경 성분 신호(140) 및 전경 성분 신호(150)로 분해하기 위한 장치.20. The method according to any one of claims 1 to 19,
Further comprising a blind upmixer for upmixing the audio signal with a representation having a number of output channels greater than the number of channels of the audio signal,
Wherein the upmixer is configured to spatially distribute the foreground component signal to the output channels and to correlate the foreground component signals within the plurality of output channels to spatially distribute the background component signal to the output channels And,
Wherein the background component signals in the output channels are less correlated or uncorrelated than the foreground component signals into a background component signal (140) and a foreground component signal (150).
송신 또는 저장 또는 디코딩을 위해 상기 전경 성분 신호의 인코딩된 표현(804) 및 상기 배경 성분 신호(806)의 별개의 인코딩된 표현을 획득하기 위하여 상기 전경 성분 신호 및 상기 배경 성분 신호를 별개로 인코딩하기 위한 인코더 스테이지(801, 802)를 더 포함하는, 오디오 신호(100)를 배경 성분 신호(140) 및 전경 성분 신호(150)로 분해하기 위한 장치.21. The method according to any one of claims 1 to 20,
Separately encoding the foreground component signal and the background component signal to obtain an encoded representation (804) of the foreground component signal and a separate encoded representation of the background component signal (806) for transmission or storage or decoding Further comprising an encoder stage (801, 802) for decoding the audio signal (100) into a background component signal (140) and a foreground component signal (150).
오디오 신호 값들의 블록들의 시간 시퀀스를 생성하는 단계(110);
상기 오디오 신호의 현재 블록의 블록 특성을 결정하고, 블록들의 그룹에 대한 평균 특성을 결정하는 단계(120) ― 상기 블록들의 그룹은 적어도 2개의 블록들을 포함함 ―; 및
상기 현재 블록의 블록 특성과 상기 블록들의 그룹의 평균 특성의 비율에 응답하여 상기 현재 블록을 배경 부분 및 전경 부분으로 분리시키는 단계(130)를 포함하며,
상기 배경 성분 신호(140)는 상기 현재 블록의 배경 부분을 포함하고, 상기 전경 성분 신호(150)는 상기 현재 블록의 전경 부분을 포함하는, 오디오 신호(100)를 배경 성분 신호(140) 및 전경 성분 신호(150)로 분해하는 방법.A method for decomposing an audio signal (100) into a background component signal (140) and a foreground component signal (150)
Generating (110) a time sequence of blocks of audio signal values;
Determining (120) a block characteristic of a current block of the audio signal and determining an average characteristic for the group of blocks, the group of blocks including at least two blocks; And
(130) separating the current block into a background portion and a foreground portion in response to a ratio of a block characteristic of the current block to an average characteristic of the group of blocks,
The background component signal 140 includes a background portion of the current block and the foreground component signal 150 comprises a foreground portion of the current block, Component signal (150).
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
EP16199402.5A EP3324407A1 (en) | 2016-11-17 | 2016-11-17 | Apparatus and method for decomposing an audio signal using a ratio as a separation characteristic |
EP16199402.5 | 2016-11-17 | ||
PCT/EP2017/079516 WO2018091614A1 (en) | 2016-11-17 | 2017-11-16 | Apparatus and method for decomposing an audio signal using a ratio as a separation characteristic |
Publications (2)
Publication Number | Publication Date |
---|---|
KR20190085062A true KR20190085062A (en) | 2019-07-17 |
KR102427414B1 KR102427414B1 (en) | 2022-08-01 |
Family
ID=57348523
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
KR1020197017323A KR102427414B1 (en) | 2016-11-17 | 2017-11-16 | Apparatus and method for decomposing an audio signal using ratio as a separation characteristic |
Country Status (11)
Country | Link |
---|---|
US (1) | US11183199B2 (en) |
EP (2) | EP3324407A1 (en) |
JP (1) | JP7161215B2 (en) |
KR (1) | KR102427414B1 (en) |
CN (1) | CN110114828B (en) |
BR (1) | BR112019009944A2 (en) |
CA (1) | CA3043964C (en) |
ES (1) | ES2930268T3 (en) |
MX (1) | MX2019005739A (en) |
RU (1) | RU2729050C1 (en) |
WO (1) | WO2018091614A1 (en) |
Families Citing this family (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP3324407A1 (en) * | 2016-11-17 | 2018-05-23 | Fraunhofer Gesellschaft zur Förderung der Angewand | Apparatus and method for decomposing an audio signal using a ratio as a separation characteristic |
EP3324406A1 (en) * | 2016-11-17 | 2018-05-23 | Fraunhofer Gesellschaft zur Förderung der Angewand | Apparatus and method for decomposing an audio signal using a variable threshold |
US11023722B2 (en) * | 2018-07-11 | 2021-06-01 | International Business Machines Corporation | Data classification bandwidth reduction |
EP4150759A1 (en) * | 2020-06-23 | 2023-03-22 | Google LLC | Smart background noise estimator |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8379868B2 (en) * | 2006-05-17 | 2013-02-19 | Creative Technology Ltd | Spatial audio coding based on universal spatial cues |
KR101456640B1 (en) * | 2008-08-13 | 2014-11-12 | 프라운호퍼 게젤샤프트 쭈르 푀르데룽 데어 안겐반텐 포르슝 에. 베. | An Apparatus for Determining a Spatial Output Multi-Channel Audio Signal |
US20140358265A1 (en) * | 2013-05-31 | 2014-12-04 | Dolby Laboratories Licensing Corporation | Audio Processing Method and Audio Processing Apparatus, and Training Method |
Family Cites Families (80)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
IL84948A0 (en) * | 1987-12-25 | 1988-06-30 | D S P Group Israel Ltd | Noise reduction system |
US7006881B1 (en) | 1991-12-23 | 2006-02-28 | Steven Hoffberg | Media recording device with remote graphic user interface |
US6400996B1 (en) | 1999-02-01 | 2002-06-04 | Steven M. Hoffberg | Adaptive pattern recognition based control system and method |
JP2000250568A (en) | 1999-02-26 | 2000-09-14 | Kobe Steel Ltd | Voice section detecting device |
US6424960B1 (en) | 1999-10-14 | 2002-07-23 | The Salk Institute For Biological Studies | Unsupervised adaptation and classification of multiple classes and sources in blind signal separation |
JP4438144B2 (en) * | 1999-11-11 | 2010-03-24 | ソニー株式会社 | Signal classification method and apparatus, descriptor generation method and apparatus, signal search method and apparatus |
US7472059B2 (en) * | 2000-12-08 | 2008-12-30 | Qualcomm Incorporated | Method and apparatus for robust speech classification |
US7930170B2 (en) * | 2001-01-11 | 2011-04-19 | Sasken Communication Technologies Limited | Computationally efficient audio coder |
US7058889B2 (en) | 2001-03-23 | 2006-06-06 | Koninklijke Philips Electronics N.V. | Synchronizing text/visual information with audio playback |
US7283954B2 (en) * | 2001-04-13 | 2007-10-16 | Dolby Laboratories Licensing Corporation | Comparing audio using characterizations based on auditory events |
US7386217B2 (en) | 2001-12-14 | 2008-06-10 | Hewlett-Packard Development Company, L.P. | Indexing video by detecting speech and music in audio |
CN1830009B (en) | 2002-05-03 | 2010-05-05 | 哈曼国际工业有限公司 | Sound detection and localization system |
US7567845B1 (en) | 2002-06-04 | 2009-07-28 | Creative Technology Ltd | Ambience generation for stereo signals |
KR100908117B1 (en) * | 2002-12-16 | 2009-07-16 | 삼성전자주식회사 | Audio coding method, decoding method, encoding apparatus and decoding apparatus which can adjust the bit rate |
WO2004084467A2 (en) * | 2003-03-15 | 2004-09-30 | Mindspeed Technologies, Inc. | Recovering an erased voice frame with time warping |
KR100486736B1 (en) | 2003-03-31 | 2005-05-03 | 삼성전자주식회사 | Method and apparatus for blind source separation using two sensors |
JP4146489B2 (en) | 2004-05-26 | 2008-09-10 | 日本電信電話株式会社 | Audio packet reproduction method, audio packet reproduction apparatus, audio packet reproduction program, and recording medium |
DE102005014477A1 (en) * | 2005-03-30 | 2006-10-12 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Apparatus and method for generating a data stream and generating a multi-channel representation |
US8086451B2 (en) * | 2005-04-20 | 2011-12-27 | Qnx Software Systems Co. | System for improving speech intelligibility through high frequency compression |
US8249861B2 (en) * | 2005-04-20 | 2012-08-21 | Qnx Software Systems Limited | High frequency compression integration |
US7996216B2 (en) * | 2005-07-11 | 2011-08-09 | Lg Electronics Inc. | Apparatus and method of encoding and decoding audio signal |
KR101237413B1 (en) * | 2005-12-07 | 2013-02-26 | 삼성전자주식회사 | Method and apparatus for encoding/decoding audio signal |
JP2009529699A (en) | 2006-03-01 | 2009-08-20 | ソフトマックス,インコーポレイテッド | System and method for generating separated signals |
US7844453B2 (en) | 2006-05-12 | 2010-11-30 | Qnx Software Systems Co. | Robust noise estimation |
JP2008015481A (en) | 2006-06-08 | 2008-01-24 | Audio Technica Corp | Voice conference apparatus |
WO2008030104A1 (en) | 2006-09-07 | 2008-03-13 | Lumex As | Relative threshold and use of edges in optical character recognition process |
US8036767B2 (en) * | 2006-09-20 | 2011-10-11 | Harman International Industries, Incorporated | System for extracting and changing the reverberant content of an audio input signal |
JP5201602B2 (en) | 2007-04-13 | 2013-06-05 | 国立大学法人京都大学 | Sound source separation system, sound source separation method, and computer program for sound source separation |
EP2028651A1 (en) | 2007-08-24 | 2009-02-25 | Sound Intelligence B.V. | Method and apparatus for detection of specific input signal contributions |
RU2452043C2 (en) | 2007-10-17 | 2012-05-27 | Фраунхофер-Гезелльшафт цур Фёрдерунг дер ангевандтен Форшунг Е.Ф. | Audio encoding using downmixing |
JPWO2009051132A1 (en) | 2007-10-19 | 2011-03-03 | 日本電気株式会社 | Signal processing system, apparatus, method thereof and program thereof |
US9374453B2 (en) * | 2007-12-31 | 2016-06-21 | At&T Intellectual Property I, L.P. | Audio processing for multi-participant communication systems |
CN101981811B (en) | 2008-03-31 | 2013-10-23 | 创新科技有限公司 | Adaptive primary-ambient decomposition of audio signals |
US8645129B2 (en) * | 2008-05-12 | 2014-02-04 | Broadcom Corporation | Integrated speech intelligibility enhancement system and acoustic echo canceller |
US8630848B2 (en) * | 2008-05-30 | 2014-01-14 | Digital Rise Technology Co., Ltd. | Audio signal transient detection |
EP2144171B1 (en) * | 2008-07-11 | 2018-05-16 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Audio encoder and decoder for encoding and decoding frames of a sampled audio signal |
US8359205B2 (en) * | 2008-10-24 | 2013-01-22 | The Nielsen Company (Us), Llc | Methods and apparatus to perform audio watermarking and watermark detection and extraction |
JP5277887B2 (en) | 2008-11-14 | 2013-08-28 | ヤマハ株式会社 | Signal processing apparatus and program |
US20100138010A1 (en) | 2008-11-28 | 2010-06-03 | Audionamix | Automatic gathering strategy for unsupervised source separation algorithms |
US20100174389A1 (en) | 2009-01-06 | 2010-07-08 | Audionamix | Automatic audio source separation with joint spectral shape, expansion coefficients and musical state estimation |
EP2249334A1 (en) | 2009-05-08 | 2010-11-10 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Audio format transcoder |
RU2557455C2 (en) * | 2009-06-23 | 2015-07-20 | Войсэйдж Корпорейшн | Forward time-domain aliasing cancellation with application in weighted or original signal domain |
ES2524428T3 (en) | 2009-06-24 | 2014-12-09 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Audio signal decoder, procedure for decoding an audio signal and computer program using cascading stages of audio object processing |
US8498863B2 (en) | 2009-09-04 | 2013-07-30 | Massachusetts Institute Of Technology | Method and apparatus for audio source separation |
JP5493655B2 (en) | 2009-09-29 | 2014-05-14 | 沖電気工業株式会社 | Voice band extending apparatus and voice band extending program |
CN102044246B (en) | 2009-10-15 | 2012-05-23 | 华为技术有限公司 | Audio signal detection method and device |
EP2491548A4 (en) | 2009-10-19 | 2013-10-30 | Ericsson Telefon Ab L M | Method and voice activity detector for a speech encoder |
US20110099010A1 (en) * | 2009-10-22 | 2011-04-28 | Broadcom Corporation | Multi-channel noise suppression system |
EP2546831B1 (en) | 2010-03-09 | 2020-01-15 | Mitsubishi Electric Corporation | Noise suppression device |
US8447595B2 (en) * | 2010-06-03 | 2013-05-21 | Apple Inc. | Echo-related decisions on automatic gain control of uplink speech signal in a communications device |
JP5706782B2 (en) | 2010-08-17 | 2015-04-22 | 本田技研工業株式会社 | Sound source separation device and sound source separation method |
US8812322B2 (en) * | 2011-05-27 | 2014-08-19 | Adobe Systems Incorporated | Semi-supervised source separation using non-negative techniques |
CN102208188B (en) * | 2011-07-13 | 2013-04-17 | 华为技术有限公司 | Audio signal encoding-decoding method and device |
CN103959376B (en) * | 2011-12-06 | 2019-04-23 | 英特尔公司 | Low-power speech detection |
US9524730B2 (en) * | 2012-03-30 | 2016-12-20 | Ohio State Innovation Foundation | Monaural speech filter |
JP6064566B2 (en) | 2012-12-07 | 2017-01-25 | ヤマハ株式会社 | Sound processor |
US9338420B2 (en) | 2013-02-15 | 2016-05-10 | Qualcomm Incorporated | Video analysis assisted generation of multi-channel audio data |
US9076459B2 (en) | 2013-03-12 | 2015-07-07 | Intermec Ip, Corp. | Apparatus and method to classify sound to detect speech |
CN104078050A (en) * | 2013-03-26 | 2014-10-01 | 杜比实验室特许公司 | Device and method for audio classification and audio processing |
US9384741B2 (en) | 2013-05-29 | 2016-07-05 | Qualcomm Incorporated | Binauralization of rotated higher order ambisonics |
US20150127354A1 (en) | 2013-10-03 | 2015-05-07 | Qualcomm Incorporated | Near field compensation for decomposed representations of a sound field |
FR3013885B1 (en) * | 2013-11-28 | 2017-03-24 | Audionamix | METHOD AND SYSTEM FOR SEPARATING SPECIFIC CONTRIBUTIONS AND SOUND BACKGROUND IN ACOUSTIC MIXING SIGNAL |
CN104143326B (en) | 2013-12-03 | 2016-11-02 | 腾讯科技(深圳)有限公司 | A kind of voice command identification method and device |
US9922656B2 (en) | 2014-01-30 | 2018-03-20 | Qualcomm Incorporated | Transitioning of ambient higher-order ambisonic coefficients |
WO2015157013A1 (en) | 2014-04-11 | 2015-10-15 | Analog Devices, Inc. | Apparatus, systems and methods for providing blind source separation services |
DK3161787T3 (en) | 2014-06-30 | 2018-08-13 | Ventana Med Syst Inc | DETECTING EDGE OF A CELL CEREALS USING CAR ANALYSIS |
EP2980789A1 (en) | 2014-07-30 | 2016-02-03 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Apparatus and method for enhancing an audio signal, sound enhancing system |
RU2589298C1 (en) * | 2014-12-29 | 2016-07-10 | Александр Юрьевич Бредихин | Method of increasing legible and informative audio signals in the noise situation |
FR3031225B1 (en) * | 2014-12-31 | 2018-02-02 | Audionamix | IMPROVED SEPARATION METHOD AND COMPUTER PROGRAM PRODUCT |
CN105989852A (en) * | 2015-02-16 | 2016-10-05 | 杜比实验室特许公司 | Method for separating sources from audios |
EP3079151A1 (en) * | 2015-04-09 | 2016-10-12 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Audio encoder and method for encoding an audio signal |
TWI573133B (en) * | 2015-04-15 | 2017-03-01 | 國立中央大學 | Audio signal processing system and method |
US9747923B2 (en) * | 2015-04-17 | 2017-08-29 | Zvox Audio, LLC | Voice audio rendering augmentation |
BR112018005910B1 (en) * | 2015-09-25 | 2023-10-10 | Fraunhofer - Gesellschaft Zur Förderung Der Angewandten Forschung E.V | ENCODER AND METHOD FOR ENCODING AN AUDIO SIGNAL WITH REDUCED BACKGROUND NOISE USING LINEAR AND SYSTEM PREDICTIVE CODE CONVERSION |
US9812132B2 (en) * | 2015-12-31 | 2017-11-07 | General Electric Company | Acoustic map command contextualization and device control |
WO2017136018A1 (en) * | 2016-02-05 | 2017-08-10 | Nuance Communications, Inc. | Babble noise suppression |
US9881619B2 (en) | 2016-03-25 | 2018-01-30 | Qualcomm Incorporated | Audio processing for an acoustical environment |
EP3324407A1 (en) * | 2016-11-17 | 2018-05-23 | Fraunhofer Gesellschaft zur Förderung der Angewand | Apparatus and method for decomposing an audio signal using a ratio as a separation characteristic |
EP3324406A1 (en) * | 2016-11-17 | 2018-05-23 | Fraunhofer Gesellschaft zur Förderung der Angewand | Apparatus and method for decomposing an audio signal using a variable threshold |
US10504539B2 (en) * | 2017-12-05 | 2019-12-10 | Synaptics Incorporated | Voice activity detection systems and methods |
-
2016
- 2016-11-17 EP EP16199402.5A patent/EP3324407A1/en not_active Withdrawn
-
2017
- 2017-11-16 BR BR112019009944A patent/BR112019009944A2/en active Search and Examination
- 2017-11-16 KR KR1020197017323A patent/KR102427414B1/en active IP Right Grant
- 2017-11-16 ES ES17798236T patent/ES2930268T3/en active Active
- 2017-11-16 MX MX2019005739A patent/MX2019005739A/en unknown
- 2017-11-16 JP JP2019526478A patent/JP7161215B2/en active Active
- 2017-11-16 RU RU2019118471A patent/RU2729050C1/en active
- 2017-11-16 CN CN201780071526.0A patent/CN110114828B/en active Active
- 2017-11-16 CA CA3043964A patent/CA3043964C/en active Active
- 2017-11-16 EP EP17798236.0A patent/EP3542362B1/en active Active
- 2017-11-16 WO PCT/EP2017/079516 patent/WO2018091614A1/en active Search and Examination
-
2019
- 2019-05-17 US US16/415,392 patent/US11183199B2/en active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8379868B2 (en) * | 2006-05-17 | 2013-02-19 | Creative Technology Ltd | Spatial audio coding based on universal spatial cues |
KR101456640B1 (en) * | 2008-08-13 | 2014-11-12 | 프라운호퍼 게젤샤프트 쭈르 푀르데룽 데어 안겐반텐 포르슝 에. 베. | An Apparatus for Determining a Spatial Output Multi-Channel Audio Signal |
US20140358265A1 (en) * | 2013-05-31 | 2014-12-04 | Dolby Laboratories Licensing Corporation | Audio Processing Method and Audio Processing Apparatus, and Training Method |
Also Published As
Publication number | Publication date |
---|---|
WO2018091614A1 (en) | 2018-05-24 |
EP3324407A1 (en) | 2018-05-23 |
JP7161215B2 (en) | 2022-10-26 |
US11183199B2 (en) | 2021-11-23 |
CA3043964C (en) | 2022-06-28 |
BR112019009944A2 (en) | 2019-08-20 |
MX2019005739A (en) | 2019-09-11 |
ES2930268T3 (en) | 2022-12-09 |
KR102427414B1 (en) | 2022-08-01 |
EP3542362A1 (en) | 2019-09-25 |
CN110114828A (en) | 2019-08-09 |
JP2019537750A (en) | 2019-12-26 |
CA3043964A1 (en) | 2018-05-24 |
EP3542362B1 (en) | 2022-09-21 |
RU2729050C1 (en) | 2020-08-04 |
CN110114828B (en) | 2023-10-27 |
US20190272835A1 (en) | 2019-09-05 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11869519B2 (en) | Apparatus and method for decomposing an audio signal using a variable threshold | |
RU2711513C1 (en) | Apparatus and method of estimating inter-channel time difference | |
JP6289613B2 (en) | Audio object separation from mixed signals using object-specific time / frequency resolution | |
US11183199B2 (en) | Apparatus and method for decomposing an audio signal using a ratio as a separation characteristic | |
JP2008026914A (en) | Fidelity-optimized variable frame length encoding | |
EP2030199A1 (en) | Linear predictive coding of an audio signal | |
JP2019194704A (en) | Device and method for generating enhanced signal by using independent noise filling | |
JP2021519949A (en) | A device, method or computer program for estimating the time difference between channels | |
SE527713C2 (en) | Coding of polyphonic signals with conditional filters |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A201 | Request for examination | ||
AMND | Amendment | ||
E902 | Notification of reason for refusal | ||
AMND | Amendment | ||
E601 | Decision to refuse application | ||
AMND | Amendment | ||
E90F | Notification of reason for final refusal | ||
AMND | Amendment | ||
X701 | Decision to grant (after re-examination) | ||
GRNT | Written decision to grant |