RU2729050C1 - Устройство и способ для разложения звукового сигнала с использованием соотношения в качестве характеристики разделения - Google Patents
Устройство и способ для разложения звукового сигнала с использованием соотношения в качестве характеристики разделения Download PDFInfo
- Publication number
- RU2729050C1 RU2729050C1 RU2019118471A RU2019118471A RU2729050C1 RU 2729050 C1 RU2729050 C1 RU 2729050C1 RU 2019118471 A RU2019118471 A RU 2019118471A RU 2019118471 A RU2019118471 A RU 2019118471A RU 2729050 C1 RU2729050 C1 RU 2729050C1
- Authority
- RU
- Russia
- Prior art keywords
- signal
- block
- blocks
- foreground
- current block
- Prior art date
Links
- 230000005236 sound signal Effects 0.000 title claims abstract description 135
- 238000000034 method Methods 0.000 title claims description 39
- 238000000926 separation method Methods 0.000 title description 36
- 230000004044 response Effects 0.000 claims abstract description 10
- 230000003595 spectral effect Effects 0.000 claims description 34
- 230000000875 corresponding effect Effects 0.000 claims description 15
- 238000004590 computer program Methods 0.000 claims description 10
- 238000006243 chemical reaction Methods 0.000 claims description 7
- 230000005540 biological transmission Effects 0.000 claims description 6
- 238000005259 measurement Methods 0.000 claims description 6
- 230000004048 modification Effects 0.000 claims description 5
- 238000012986 modification Methods 0.000 claims description 5
- 230000002123 temporal effect Effects 0.000 claims description 5
- 230000009466 transformation Effects 0.000 claims description 5
- 230000002596 correlated effect Effects 0.000 claims description 4
- 238000010606 normalization Methods 0.000 claims description 3
- 238000005070 sampling Methods 0.000 claims description 3
- 230000003247 decreasing effect Effects 0.000 claims description 2
- 238000012545 processing Methods 0.000 abstract description 27
- 239000000126 substance Substances 0.000 abstract 1
- 230000006870 function Effects 0.000 description 18
- 230000003044 adaptive effect Effects 0.000 description 11
- 238000010586 diagram Methods 0.000 description 11
- 230000001052 transient effect Effects 0.000 description 11
- 238000000354 decomposition reaction Methods 0.000 description 4
- 238000001514 detection method Methods 0.000 description 4
- 238000009499 grossing Methods 0.000 description 4
- 238000012886 linear function Methods 0.000 description 4
- 238000001914 filtration Methods 0.000 description 3
- 230000008447 perception Effects 0.000 description 3
- 238000000638 solvent extraction Methods 0.000 description 3
- 238000013459 approach Methods 0.000 description 2
- 238000012888 cubic function Methods 0.000 description 2
- 239000006185 dispersion Substances 0.000 description 2
- 238000000605 extraction Methods 0.000 description 2
- 238000009527 percussion Methods 0.000 description 2
- 230000002829 reductive effect Effects 0.000 description 2
- 239000012925 reference material Substances 0.000 description 2
- 238000003786 synthesis reaction Methods 0.000 description 2
- 230000007704 transition Effects 0.000 description 2
- 238000012935 Averaging Methods 0.000 description 1
- MKYBYDHXWVHEJW-UHFFFAOYSA-N N-[1-oxo-1-(2,4,6,7-tetrahydrotriazolo[4,5-c]pyridin-5-yl)propan-2-yl]-2-[[3-(trifluoromethoxy)phenyl]methylamino]pyrimidine-5-carboxamide Chemical compound O=C(C(C)NC(=O)C=1C=NC(=NC=1)NCC1=CC(=CC=C1)OC(F)(F)F)N1CC2=C(CC1)NN=N2 MKYBYDHXWVHEJW-UHFFFAOYSA-N 0.000 description 1
- 230000003321 amplification Effects 0.000 description 1
- 230000033228 biological regulation Effects 0.000 description 1
- 230000015572 biosynthetic process Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000012937 correction Methods 0.000 description 1
- 230000003111 delayed effect Effects 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 230000009977 dual effect Effects 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 238000003199 nucleic acid amplification method Methods 0.000 description 1
- 238000004091 panning Methods 0.000 description 1
- 230000008569 process Effects 0.000 description 1
- 238000012887 quadratic function Methods 0.000 description 1
- 230000000717 retained effect Effects 0.000 description 1
- 230000002441 reversible effect Effects 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 238000000844 transformation Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/02—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
- G10L19/022—Blocking, i.e. grouping of samples in time; Choice of analysis windows; Overlap factoring
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0272—Voice signal separating
- G10L21/028—Voice signal separating using properties of sound source
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/008—Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L21/0216—Noise filtering characterised by the method used for estimating noise
- G10L21/0232—Processing in the frequency domain
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04S—STEREOPHONIC SYSTEMS
- H04S3/00—Systems employing more than two channels, e.g. quadraphonic
- H04S3/008—Systems employing more than two channels, e.g. quadraphonic in which the audio signals are in digital form, i.e. employing more than two discrete digital channels
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10H—ELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
- G10H2210/00—Aspects or methods of musical processing having intrinsic musical character, i.e. involving musical theory or musical parameters or relying on musical knowledge, as applied in electrophonic musical tools or instruments
- G10H2210/031—Musical analysis, i.e. isolation, extraction or identification of musical elements or musical parameters from a raw acoustic signal or from an encoded audio signal
- G10H2210/046—Musical analysis, i.e. isolation, extraction or identification of musical elements or musical parameters from a raw acoustic signal or from an encoded audio signal for differentiation between music and non-music signals, based on the identification of musical parameters, e.g. based on tempo detection
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10H—ELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
- G10H2250/00—Aspects of algorithms or signal processing methods without intrinsic musical character, yet specifically adapted for or used in electrophonic musical processing
- G10H2250/025—Envelope processing of music signals in, e.g. time domain, transform domain or cepstrum domain
- G10H2250/035—Crossfade, i.e. time domain amplitude envelope control of the transition between musical sounds or melodies, obtained for musical purposes, e.g. for ADSR tone generation, articulations, medley, remix
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10H—ELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
- G10H2250/00—Aspects of algorithms or signal processing methods without intrinsic musical character, yet specifically adapted for or used in electrophonic musical processing
- G10H2250/131—Mathematical functions for musical analysis, processing, synthesis or composition
- G10H2250/215—Transforms, i.e. mathematical transforms into domains appropriate for musical signal processing, coding or compression
- G10H2250/235—Fourier transform; Discrete Fourier Transform [DFT]; Fast Fourier Transform [FFT]
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04S—STEREOPHONIC SYSTEMS
- H04S2400/00—Details of stereophonic systems covered by H04S but not provided for in its groups
- H04S2400/01—Multi-channel, i.e. more than two input channels, sound reproduction with two speakers wherein the multi-channel information is substantially preserved
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Signal Processing (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- Human Computer Interaction (AREA)
- Health & Medical Sciences (AREA)
- Quality & Reliability (AREA)
- Mathematical Physics (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
- Circuit For Audible Band Transducer (AREA)
- Stereophonic System (AREA)
- Stereo-Broadcasting Methods (AREA)
- Signal Processing Not Specific To The Method Of Recording And Reproducing (AREA)
Abstract
Изобретение относится к средствам для обработки звукового сигнала. Технический результат заключается в повышении эффективности обработки звукового сигнала. Формируют (110) временную последовательность блоков значений аудиосигналов. Определяют (120) блочную характеристику текущего блока аудиосигнала и определяют среднюю характеристику для группы блоков, причем группа блоков содержит, по меньшей мере, два блока. Разделяют (130) текущий блок на фоновую часть и часть переднего плана в ответ на соотношение блочной характеристики текущего блока и средней характеристики группы блоков. При этом сигнал (140) фонового компонента содержит фоновую часть текущего блока и сигнал (150) компонента переднего плана содержит часть переднего плана текущего блока. 3 н. и 20 з.п. ф-лы, 15 ил.
Description
Подробное описание изобретения
Настоящее изобретение относится к аудиообработке и, в частности, к разложению аудиосигналов на сигнал фонового компонента и сигнал компонента переднего плана.
Существует значительное число ссылочных материалов, направленных на обработку аудиосигналов, причем некоторые из этих ссылочных материалов относятся к разложению аудиосигналов. Примерные ссылочные материалы являются следующими:
[1] S. Disch and A. Kuntz, A Dedicated Decorrelator for Parametric Spatial Coding of Applause-Like Audio Signals. Springer-Verlag, январь 2012 года, стр. 355-363.
[2] A. Kuntz, S. Disch, T. Bäckström and J. Robilliard, "The Transient Steering Decorrelator Tool in the Upcoming MPEG Unified Speech and Audio Coding Standard", in 131st Convention of the AES, Нью-Йорк, США, 2011 год.
[3] A. Walther, C. Uhle and S. Disch, "Using Transient Suppression in Blind Multi-channel Upmix Algorithms", in Proceedings, 122nd AES Pro Audio Expo and Convention, май 2007 года.
[4] G. Hotho, S. van de Par and J. Breebaart, "Multichannel coding of applause signals", EURASIP J. Adv. Signal Process, издание 2008, январь 2008 года. [Онлайн]. По адресу: http://dx.doi.org/10.1155/2008/531693
[5] D. FitzGerald, "Harmonic/Percussive Separation Using Median Filtering", in Proceedings of the 13th International Conference on Digital Audio Effects (DAFx-10), Грац, Австрия, 2010 год.
[6] J. P. Bello, L. Daudet, S. Abdallah, C. Duxbury, M. Davies and M. B. Sandler, "A Tutorial on Onset Detection in Music Signals", IEEE Transactions on Speech and Audio Processing, издание 13, номер 5, стр. 1035-1047, 2005.
[7] M. Goto and Y. Muraoka, "Beat tracking based on multiple-agent architecture - the real-time beat tracking system for audio signals", in Proceedings of the 2nd International Conference on Multiagent Systems, 1996 год, стр. 103-110.
[8] A. Klapuri, "Sound onset detection by applying psychoacoustic knowledge", in Proceedings of the International Conference on Acoustics, Speech and Signal Processing (ICASSP), издание 6, 1999 год, стр. 3089-3092, издание 6.
Кроме того, WO 2010017967 раскрывает устройство для определения пространственного выходного многоканального аудиосигнала на основе входного аудиосигнала, содержащее модуль семантического разложения для разложения входного аудиосигнала на первый разложенный сигнал, представляющий собой часть переднего плана сигнала, и на второй разложенный сигнал, представляющий собой фоновую часть сигнала. Кроме того, модуль рендеринга выполнен с возможностью рендеринга части переднего плана сигнала с использованием амплитудного панорамирования и рендеринга фоновой части сигнала посредством декорреляции. В завершение, первый подготовленный посредством рендеринга сигнал и второй подготовленный посредством рендеринга сигнал обрабатываются, чтобы получать пространственный выходной многоканальный аудиосигнал.
Кроме того, ссылочные материалы [1] и [2] раскрывают декоррелятор с регулированием переходных частей.
Еще не публикованная заявка на патент (Европа) 16156200.4 раскрывает обработку огибающей с высоким разрешением. Обработка огибающей с высоким разрешением представляет собой инструментальное средство для улучшенного кодирования сигналов, которые преимущественно состоят из множества плотных переходных событий, таких как аплодисменты, звуки дождя и т.д. На стороне кодера, инструментальное средство работает в качестве препроцессора с высоким временным разрешением перед фактическим перцепционным аудиокодеком посредством анализа входного сигнала, ослабления и за счет этого временного сглаживания высокочастотной части переходных событий и формирования небольшого объема вспомогательной информации, к примеру, 1-4 Кбит/с для стереосигналов. На стороне декодера, инструментальное средство работает в качестве постпроцессора после аудиокодека посредством повышения и за счет этого временного формирования высокочастотной части переходных событий, с использованием вспомогательной информации, которая сформирована во время кодирования.
Повышающее микширование обычно заключает в себе разложение сигналов на прямые и окружающие части сигнала, при этом прямой сигнал панорамируется между громкоговорителями, и окружающая часть декоррелируется и распределяется по данному числу каналов. Оставшиеся прямые компоненты, такие как переходные части, в окружающих сигналах, приводят к ухудшению результирующего воспринимаемого объемного окружения в повышающе микшированной звуковой сцене. В [3], предлагается обнаружение и обработка переходных частей, что уменьшает обнаруженные переходные части в окружающем сигнале. Один способ, предложенный для обнаружения переходных частей, содержит сравнение между взвешенной суммой частоты элементов разрешения в одном временном блоке и взвешенным средним значением выполнения длительного времени для определения того, должен или нет подавляться определенный блок.
В [4], рассматривается эффективное пространственное кодирование аудио сигналов аплодисментов. Предложенные способы понижающего микширования и повышающего микширования работают с полным сигналом аплодисментов.
Кроме того, ссылочный материал [5] раскрывает гармоническое/перкуссионное разделение, в котором сигналы разделяются в гармонике и перкуссионных компонентах сигнала посредством применения медианных фильтров к спектрограмме в горизонтальном и вертикальном направлении.
Ссылочный материал [6] представляет учебное руководство, содержащее подходы на основе частотной области, подходы на основе временной области, такие как модуль следования за огибающей или модуль следования за энергией, в контексте обнаружения вступления. Ссылочный материал [7] раскрывает отслеживание мощности в частотной области, к примеру, быстрое увеличение мощности, и ссылочный материал [8] раскрывает новый показатель для целей обнаружения вступления.
Разделение сигнала на часть переднего плана и фона сигнала, как описано в ссылочных материалах предшествующего уровня техники, является невыгодным вследствие того факта, что такие известные процедуры могут приводить к уменьшенному качеству звука результирующего сигнала или разложенных сигналов.
Цель настоящего изобретения заключается в том, чтобы предоставлять усовершенствованный принцип для целей разложения аудиосигнала на сигнал фонового компонента и сигнал компонента переднего плана.
Это цель достигается посредством устройства для разложения аудиосигнала на сигнал фонового компонента и сигнал компонента переднего плана по п. 1, способа для разложения аудиосигнала на сигнал фонового компонента и сигнал компонента переднего плана по п. 22 либо посредством компьютерной программы по п. 23.
В одном аспекте, устройство для разложения аудиосигнала на сигнал фонового компонента и сигнал компонента переднего плана содержит генератор блоков для формирования временной последовательности блоков значений аудиосигналов, анализатор аудиосигналов, соединенный с генератором блоков, и модуль разделения, соединенный с генератором блоков и анализатором аудиосигналов. В соответствии с первым аспектом, анализатор аудиосигналов выполнен с возможностью определения блочной характеристики текущего блока аудиосигнала и средней характеристики для группы блоков, причем группа блоков содержит, по меньшей мере, два блока, к примеру, предшествующий блок, текущий блок и следующий блок либо еще больше предшествующих блоков или больше следующих блоков.
Модуль разделения выполнен с возможностью разделения текущего блока на фоновую часть и часть переднего плана в ответ на соотношение блочной характеристики текущего блока и средней характеристики. Таким образом, сигнал фонового компонента содержит фоновую часть текущего блока, и сигнал компонента переднего плана содержит часть переднего плана текущего блока. Следовательно, текущий блок не определяется просто как фоновый или с переднего плана. Вместо этого, текущий блок фактически разделяется на ненулевую фоновую часть и ненулевую часть переднего плана. Эта процедура отражает такую ситуацию, что, типично, сигнал переднего плана никогда не существует отдельно в сигнале, а всегда комбинируется с фоновым компонентом сигнала. Таким образом, настоящее изобретение, в соответствии с этим первым аспектом, отражает такую ситуацию, что независимо от того, выполняется или нет определенная пороговая обработка, фактическое разделение либо без порогового значения, либо когда определенное пороговое значение достигается посредством соотношения, фоновая часть в дополнение к части переднего плана всегда остается.
Кроме того, разделение осуществляется посредством очень конкретного показателя разделения, т.е. соотношения блочной характеристики текущего блока и средней характеристики, извлекаемой, по меньшей мере, из двух блоков, т.е. извлекаемой из группы блоков. Таким образом, в зависимости от размера группы блоков, может задаваться достаточно медленно изменяющееся скользящее среднее или достаточно быстро изменяющееся скользящее среднее. Для высокого числа блоков в группе блоков, скользящее среднее является относительно медленно изменяющимися, тогда как для небольшого числа блоков в группе блоков, скользящее среднее является достаточно быстро изменяющимся. Кроме того, использование взаимосвязи между характеристикой из текущего блока и средней характеристикой по группе блоков отражает перцепционную ситуацию, т.е. то, что люди воспринимают определенный блок как содержащий компонент переднего плана, когда соотношение между характеристикой этого блока относительно среднего имеет определенное значение. Тем не менее, в соответствии с этим аспектом, это определенное значение не обязательно должно быть пороговым значением. Вместо этого, непосредственно соотношение уже может использоваться для выполнения количественного разделения текущего блока на фоновую часть и часть переднего плана. Высокое соотношение приводит к высокой части текущего блока, представляющей собой часть переднего плана, в то время как низкое соотношение приводит в ситуации, когда большая часть или весь текущий блок остается в фоновой части, и текущий блок имеет только небольшую часть переднего плана либо вообще не имеет части переднего плана.
Предпочтительно, связанная с амплитудой характеристика определяется, и эта связанная с амплитудой характеристика, такая как энергия текущего блока, сравнивается со средней энергией группы блоков, чтобы получать соотношение, на основе которого выполняется разделение. Чтобы удостоверяться в том, что в ответ на разделение фоновый сигнал остается, определяется коэффициент усиления, и этот коэффициент усиления затем управляет тем, сколько из средней энергии определенного блока остается в фоновом или шумоподобном сигнале, и тем, какая часть переходит в часть переднего плана сигнала, которая, например, может представлять собой переходный сигнал, такой как сигнал хлопков или сигнал дождя и т.п.
В дополнительном втором аспекте настоящего изобретения, который может использоваться в дополнение к первому аспекту или отдельно от первого аспекта, устройство для разложения аудиосигнала содержит генератор блоков, анализатор аудиосигналов и модуль разделения. Анализатор аудиосигналов выполнен с возможностью анализа характеристики текущего блока аудиосигнала. Характеристика текущего блока аудиосигнала может представлять собой соотношение, как пояснено относительно первого аспекта, но, альтернативно, также может представлять собой блочную характеристику, извлекаемую только из текущего блока без усреднения. Кроме того, анализатор аудиосигналов выполнен с возможностью определения изменчивости характеристики в группе блоков, причем группа блоков содержит, по меньшей мере, два блока и предпочтительно, по меньшей мере, два предшествующих блока с/без текущего блока или, по меньшей мере, два следующих блока с/без текущего блока либо, по меньшей мере, два предшествующих блока, по меньшей мере, два следующих блока, снова с/без текущего блока. В предпочтительных вариантах осуществления, число блоков превышает 30 или даже 40.
Кроме того, модуль разделения выполнен с возможностью разделения текущего блока на фоновую часть и часть переднего плана, причем этот модуль разделения выполнен с возможностью определять пороговое значение разделения на основе изменчивости, определенной посредством анализатора сигналов, и разделять текущий блок, когда характеристика текущего блока находится в предварительно определенной взаимосвязи с пороговым значением разделения, к примеру, больше, чем или равна пороговому значению разделения. Естественно, когда пороговое значение задается в качестве вида обратного значения, то предварительно определенная взаимосвязь может представлять собой взаимосвязь "меньше, чем" или взаимосвязь "меньше, чем или равно". Таким образом, пороговая обработка всегда выполняется таким образом, что когда характеристика находится в предварительно определенной взаимосвязи с пороговым значением разделения, то разделение на фоновую часть и часть переднего плана выполняется, тогда как, когда характеристика не находится в предварительно определенной взаимосвязи с пороговым значением разделения, то разделение не выполняется вообще.
В соответствии со вторым аспектом, который использует переменное пороговое значение в зависимости от изменчивости характеристики в группе блоков, разделение может представлять собой полное разделение, т.е. что полный блок значений аудиосигналов вводится в компонент переднего плана, когда разделение выполняется, или полный блок значений аудиосигналов напоминает фоновую часть сигнала, когда предварительно определенная взаимосвязь относительно переменного порогового значения разделения не удовлетворяется. В предпочтительном варианте осуществления этот аспект комбинируется с первым аспектом в том, что как только переменное пороговое значение обнаруживается как находящееся в предварительно определенной взаимосвязи с характеристикой, то недвоичное разделение выполняется, т.е. в том, что только часть значений аудиосигналов помещается в часть переднего плана сигнала, и оставшаяся часть остается в фоновом сигнале.
Предпочтительно, разделение части для части переднего плана сигнала и фоновой части сигнала определяется на основе коэффициента усиления, т.е. идентичные значения сигналов, в конечном счете, находятся в части переднего плана сигнала и фоновой части сигнала, но энергия значений сигналов в других частях отличается друг от друга и определяется посредством усиления при разделении, которое, в конечном счете, зависит от такой характеристики, как блочная характеристика самого текущего блока либо соотношение для текущего блока между блочной характеристикой для текущего блока и средней характеристикой для группы блоков, ассоциированных с текущим блоком.
Использование переменного порогового значения отражает такую ситуацию, что люди воспринимают часть переднего плана сигнала даже в качестве небольшого отклонения от достаточно стационарного сигнала, т.е. когда рассматривается определенный сигнал, который является очень стационарным, т.е. не имеет значительных флуктуаций. В таком случае, даже небольшая флуктуация уже воспринимается в качестве части переднего плана сигнала. Тем не менее, когда имеется сильно флуктуирующий сигнал, то очевидно, что непосредственно сильно флуктуирующий сигнал воспринимается в качестве фонового компонента сигнала, и небольшое отклонение от этого шаблона флуктуаций не воспринимается в качестве части переднего плана сигнала. Только более сильные отклонения от среднего или ожидаемого значения воспринимаются в качестве части переднего плана сигнала. Таким образом, предпочтительно использовать достаточно небольшое пороговое значение разделения для сигналов с небольшой дисперсией и использовать более высокое пороговое значение разделения для сигналов с высокой дисперсией. Тем не менее, когда рассматриваются обратные значения, ситуация является противоположной вышеуказанному.
Оба аспекта, т.е. первый аспект, имеющий недвоичное разделение на часть переднего плана сигнала и фоновую часть сигнала на основе соотношения между блочной характеристикой и средней характеристикой, и второй аспект, содержащий переменное пороговое значение в зависимости от изменчивости характеристики в группе блоков, могут использоваться отдельно друг от друга либо даже могут использоваться вместе, т.е. в комбинации друг с другом. Вторая альтернатива составляет предпочтительный вариант осуществления, как описано ниже.
Варианты осуществления изобретения относятся к системе, в которой входной сигнал разлагается на два компонента сигнала, к которым может применяться отдельная обработка, и в которой обработанные сигналы повторно синтезируются, чтобы формировать выходной сигнал. Аплодисменты, а также другие переходные сигналы могут наблюдаться в качестве наложения отчетливо и отдельно воспринимаемых переходных событий хлопков и более шумоподобного фонового сигнала. Чтобы модифицировать характеристики, такие как соотношение плотности сигналов переднего плана и фона и т.д. для таких сигналов, преимущественно иметь возможность применять отдельную обработку к каждой части сигнала. Дополнительно, получается разделение сигналов, обуславливаемое посредством человеческого восприятия. Кроме того, принцип также может использоваться в качестве измерительного устройства, чтобы измерять характеристики сигналов, к примеру, на веб-узле отправителя и восстанавливать эти характеристики на веб-узле приемника.
Варианты осуществления настоящего изобретения не направлены исключительно на формирование многоканального пространственного выходного сигнала. Входной моносигнал разлагается, и отдельные части сигнала обрабатываются и повторно синтезируются в выходной моносигнал. В некоторых вариантах осуществления, принцип, как задано в первом или втором аспекте, выводит измерения или вспомогательную информацию вместо звукового сигнала.
Дополнительно, разделение основано на перцепционном аспекте и предпочтительной количественной характеристике или значении, а не семантическом аспекте.
В соответствии с вариантами осуществления, разделение основано на отклонении мгновенной энергии относительно средней энергии в пределах рассматриваемого короткого временного кадра. Хотя переходное событие с энергетическим уровнем, близким или ниже средней энергии в таком временном кадре, не воспринимается в качестве существенно отличающегося от фона, события с высокоэнергетическим отклонением могут отличаться от фонового сигнала. Этот вид разделения сигналов приспосабливает принцип и предоставляет возможность обработки ближе к человеческому восприятию переходных событий и ближе к человеческому восприятию событий переднего плана по сравнению с фоновыми событиями.
Далее поясняются предпочтительные варианты осуществления настоящего изобретения со ссылками на прилагаемые чертежи, на которых:
Фиг. 1a является блок-схемой устройства для разложения аудиосигнала на основе соотношения в соответствии с первым аспектом;
Фиг. 1b является блок-схемой варианта осуществления принципа для разложения аудиосигнала на основе переменного порогового значения разделения в соответствии со вторым аспектом;
Фиг. 1c иллюстрирует блок-схему устройства для разложения аудиосигнала в соответствии с первым аспектом, вторым аспектом или обоими аспектами;
Фиг. 1d иллюстрирует предпочтительную иллюстрацию анализатора аудиосигналов и модуля разделения в соответствии с первым аспектом, вторым аспектом или обоими аспектами;
Фиг. 1e иллюстрирует вариант осуществления модуля разделения сигналов в соответствии со вторым аспектом;
Фиг. 1f иллюстрирует описание принципа для разложения аудиосигнала в соответствии с первым аспектом, вторым аспектом и посредством обращения к различным пороговым значениям;
Фиг. 2 иллюстрирует два различных способа для разделения значений аудиосигналов текущего блока на компонент переднего плана и фоновый компонент в соответствии с первым аспектом, вторым аспектом или обоими аспектами;
Фиг. 3 иллюстрирует схематичное представление перекрывающихся блоков, сформированных посредством генератора блоков, и формирование сигналов компонента переднего плана и сигналов фонового компонента временной области после разделения;
Фиг. 4a иллюстрирует первую альтернативу для определения переменного порогового значения на основе сглаживания необработанных изменчивостей;
Фиг. 4b иллюстрирует определение переменного порогового значения на основе сглаживания необработанных пороговых значений;
Фиг. 4c иллюстрирует различные функции для преобразования (сглаженных) изменчивостей в пороговые значения;
Фиг. 5 иллюстрирует предпочтительную реализацию для определения изменчивости по мере необходимости во втором аспекте;
Фиг. 6 иллюстрирует общее представление по разделению, обработке переднего плана и обработке фона и последующему повторному синтезу сигналов;
Фиг. 7 иллюстрирует измерение и восстановление характеристик сигналов с/без метаданных; и
Фиг. 8 иллюстрирует блок-схему для варианта использования кодера-декодера.
Фиг. 1a иллюстрирует устройство для разложения аудиосигнала на сигнал фонового компонента и сигнал компонента переднего плана. Аудиосигнал вводится на ввод 100 аудиосигналов. Ввод аудиосигналов соединяется с генератором 110 блоков для формирования временной последовательности блоков значений аудиосигналов, выводимых в линии 112. Кроме того, устройство содержит анализатор 120 аудиосигналов для определения блочной характеристики текущего блока аудиосигнала и для определения, помимо этого, средней характеристики для группы блоков, при этом группа блоков содержит, по меньшей мере, 2 блока. Предпочтительно, группа блоков содержит, по меньшей мере, один предшествующий блок или, по меньшей мере, один следующий блок и, помимо этого, текущий блок.
Кроме того, устройство содержит модуль 130 разделения для разделения текущего блока на фоновую часть и часть переднего плана в ответ на соотношение блочной характеристики текущего блока и средней характеристики. Таким образом, соотношение блочной характеристики текущего блока и средней характеристики используется в качестве характеристики, на основе которой выполняется разделение текущего блока значений аудиосигналов. В частности, сигнал фонового компонента в сигнале на выводе 140 сигналов содержит фоновую часть текущего блока, и сигнал компонента переднего плана, выводимый на выводе 150 сигналов компонента переднего плана, содержит часть переднего плана текущего блока. Процедура, проиллюстрированная на фиг. 1a, выполняется на поблочной основе, т.е. один блок временной последовательности блоков обрабатывается после другого таким образом, что, в конечном счете, когда последовательность блоков значений аудиосигналов, вводимых на ввод 100, обработана, соответствующая последовательность блоков сигнала фонового компонента и идентичная последовательность блоков сигнала компонента переднего плана существуют в линиях 140, 150, как поясняется ниже на относительно фиг. 3.
Предпочтительно, анализатор аудиосигналов выполнен с возможностью анализа связанного с амплитудой показателя в качестве блочной характеристики текущего блока, и дополнительно, анализатор 120 аудиосигналов выполнен с возможностью дополнительного анализа связанной с амплитудой характеристики для группы блоков также.
Предпочтительно, показатель мощности или показатель энергии для текущего блока и показатель средней мощности или показатель средней энергии для группы блоков определяются посредством анализатора аудиосигналов, и соотношение между этими двумя значениями для текущего блока используется посредством модуля 130 разделения, чтобы выполнять разделение.
Фиг. 2 иллюстрирует процедуру, выполняемую посредством модуля 130 разделения по фиг. 1a в соответствии с первым аспектом. Этап 200 представляет определение соотношения в соответствии с первым аспектом или характеристики в соответствии со вторым аспектом, что не должно обязательно представлять собой соотношение, но также может представлять собой, например, только блочную характеристику.
На этапе 202, усиление при разделении вычисляется из соотношения или характеристики. Затем сравнение с пороговым значением на этапе 204 может выполняться необязательно. Когда сравнение с пороговым значением выполняется на этапе 204, то результат может заключаться в том, что характеристика находится в предварительно определенной взаимосвязи с пороговым значением. Когда это имеет место, управление переходит к этапу 206. Тем не менее, когда на этапе 204 определяется то, что характеристика не находится во взаимосвязи с предварительно определенным пороговым значением, то разделение не выполняется, и управление переходит к следующему блоку в последовательности блоков.
В соответствии с первым аспектом, сравнение с пороговым значением на этапе 204 может выполняться либо, альтернативно, может не выполняться, как проиллюстрировано посредством пунктирной линии 208. Когда в блоке 204 определяется то, что характеристика находится в предварительно определенной взаимосвязи с пороговым значением разделения или, в альтернативе линии 208, в любом случае, выполняется этап 206, на котором аудиосигналы взвешиваются с использованием усиления при разделении. С этой целью, этап 206 принимает значения аудиосигналов для входного аудиосигнала во временном представлении или, предпочтительно, в спектральном представлении, как проиллюстрировано посредством линии 210. Затем в зависимости от применения усиления при разделении, компонент C переднего плана вычисляется так, как проиллюстрировано посредством уравнения непосредственно ниже фиг. 2. В частности, усиление при разделении, которое представляет собой функцию от gN и соотношения Ψ, используется не непосредственно, а в форме разности, т.е. функция вычитается из 1. Альтернативно, фоновый компонент N может непосредственно вычисляться посредством фактического взвешивания аудиосигнала A (k, n) посредством функции gN/Ψ(n).
Фиг. 2 иллюстрирует несколько возможностей для вычисления компонента переднего плана и фонового компонента, которые могут выполняться посредством модуля 130 разделения. Одна возможность состоит в том, что оба компонента вычисляются с использованием усиления при разделении. Альтернатива заключается в том, что только компонент переднего плана вычисляется с использованием усиления при разделении, и фоновый компонент N вычисляется посредством вычитания компонента переднего плана из значений аудиосигналов, как проиллюстрировано в 210. Тем не менее, другая альтернатива заключается в том, что фоновый компонент N вычисляется непосредственно с использованием усиления при разделении посредством блока 206, и после этого фоновый компонент N вычитается из аудиосигнала A, чтобы в завершение получать компонент C переднего плана. Таким образом, фиг. 2 иллюстрирует 3 различных варианта осуществления для вычисления фонового компонента и компонента переднего плана, в то время как каждая из этих альтернатив, по меньшей мере, содержит взвешивание значений аудиосигналов с использованием усиления при разделении.
Далее проиллюстрирован фиг. 1b, для того чтобы описывать второй аспект настоящего изобретения на основе переменного порогового значения разделения.
Фиг. 1b, представляющий второй аспект, основывается на аудиосигнале 100, который вводится в формирование 110 блоков, и генератор блоков соединен с анализатором 120 аудиосигналов через соединительную линию 122. Кроме того, аудиосигнал может вводиться в анализатор аудиосигналов непосредственно через дополнительную соединительную линию 111. Анализатор 120 аудиосигналов выполнен с возможностью определения характеристики текущего блока аудиосигнала, с одной стороны, и, дополнительно, определения изменчивости характеристики в группе блоков, причем группа блоков содержит, по меньшей мере, два блока и предпочтительно содержит, по меньшей мере, два предшествующих блока или два следующих блока либо также, по меньшей мере, два предшествующих блока, по меньшей мере, два следующих блока и текущий блок.
Характеристика текущего блока и изменчивость характеристики перенаправляются в модуль 130 разделения через соединительную линию 129. Модуль разделения затем выполнен с возможностью разделения текущего блока на фоновую часть и часть переднего плана, чтобы формировать сигнал 140 фонового компонента и сигнал 150 компонента переднего плана. В частности, модуль разделения выполнен с возможностью, в соответствии со вторым аспектом, определять пороговое значение разделения на основе изменчивости, определенной посредством анализатора аудиосигналов, и разделять текущий блок на часть сигнала фонового компонента и часть сигнала компонента переднего плана, когда характеристика текущего блока находится в предварительно определенной взаимосвязи с пороговым значением разделения. Тем не менее, когда характеристика текущего блока не находится в предварительно определенной взаимосвязи с (переменным) пороговым значением разделения, то разделение текущего блока не выполняется, и полный текущий блок перенаправляется либо используется или назначается в качестве сигнала 140 фонового компонента.
В частности, модуль 130 разделения выполнен с возможностью определять первое пороговое значение разделения для первой изменчивости и второе пороговое значение разделения для второй изменчивости, при этом первое пороговое значение разделения ниже второго порогового значения разделения, и первая изменчивость ниже второй изменчивости, и при этом предварительно определенная взаимосвязь составляет "больше, чем".
Пример проиллюстрирован на фиг. 4c, левая часть, на котором первое пороговое значение разделения указывается на 401, на котором второе пороговое значение разделения указывается на 402, на котором первая изменчивость указывается на 501, и вторая изменчивость указывается на 502. В частности, следует обратиться к верхней кусочно-линейной функции 410, представляющей пороговое значение разделения, тогда как нижняя кусочно-линейная функция 412 на фиг. 4c иллюстрирует пороговое значение сброса, которое описывается ниже. Фиг. 4c иллюстрирует ситуацию, в которой пороговые значения являются такими, что для увеличения изменчивостей, определяются увеличивающиеся пороговые значения. Тем не менее, когда ситуация реализуется таким образом, что, например, применяются обратные пороговые значения относительно пороговых значений на фиг. 4c, то ситуация является такой, что модуль разделения выполнен с возможностью определять первое пороговое значение разделения для первой изменчивости и второе пороговое значение разделения для второй изменчивости, при этом первое пороговое значение разделения превышает второе пороговое значение разделения, и первая изменчивость ниже второй изменчивости, и в этой ситуации, предварительно определенная взаимосвязь составляет "ниже, чем", а не "больше, чем", как в первой альтернативе, проиллюстрированной на фиг. 4c.
В зависимости от определенных реализаций, модуль 130 разделения выполнен с возможностью определять (переменное) пороговое значение разделения либо с использованием табличного доступа, при котором функции, проиллюстрированные на фиг. 4c, левая часть или правая часть, сохраняются, либо в соответствии с интерполяцией монотонной интерполяционной функции между первым пороговым значением 401 разделения и вторым пороговым значением 402 разделения таким образом, что для третьей изменчивости 503, получается третье пороговое значение 403 разделения, а для четвертой изменчивости 504, получается четвертое пороговое значение, при этом первое пороговое значение 401 разделения ассоциировано с первой изменчивостью 501, и второе пороговое значение 402 разделения ассоциировано со второй изменчивостью 502, и при этом третья и четвертая изменчивости 503, 504 расположены, относительно их значений, между первой и второй изменчивостями, и третье и четвертое пороговые значения 403, 404 разделения расположены относительно их значений, между первым и вторым пороговыми значениями 401, 402 разделения.
Как проиллюстрировано на фиг. 4c левая часть, монотонная интерполяция представляет собой линейную функцию, либо, как проиллюстрировано на фиг. 4c, правая часть, монотонная интерполяционная функция представляет собой кубическую функцию или любую степенную функцию с порядком, большим, чем 1.
Фиг. 6 иллюстрирует высокоуровневую блок-схему разделения сигналов аплодисментов, обработки и синтеза обработанных сигналов.
В частности, каскад 600 разделения, который проиллюстрирован подробно на фиг. 6, разделяет входной аудиосигнал a(t) на фоновый сигнал n(t) и сигнал c(t) переднего плана, фоновый сигнал вводится в каскад 602 обработки фона, и сигнал переднего плана вводится в каскад 604 обработки переднего плана, и после обработки, оба сигнала n'(t) и c'(t) комбинируются посредством модуля 606 комбинирования, чтобы в завершение получать обработанный сигнал a'(t).
Предпочтительно, на основе разделения/разложения сигналов для входного сигнала a(t) на отчетливо воспринимаемые хлопки c(t) и более шумоподобные фоновые сигналы n(t), реализуется отдельная обработка разложенных частей сигнала. После обработки, модифицированные сигналы c'(t) и n'(t) переднего плана и фона повторно синтезируются, что приводит к выходному сигналу a'(t).
Фиг. 1c иллюстрирует высокоуровневую схему предпочтительного каскада разделения аплодисментов. Модель аплодисментов приведена в уравнении 1 и проиллюстрирована на фиг. 1f, при этом сигнал A(k, n) аплодисментов состоит из наложения отчетливо и отдельно воспринимаемых хлопков C(k,n) на переднем плане и более шумоподобного фонового сигнала N(k,n). Сигналы рассматриваются в частотной области с высоким временным разрешением, тогда как k и n обозначают дискретные индексы частоты k и времени n короткого частотно-временного преобразования, соответственно.
В частности, система на фиг. 1c иллюстрирует DFT-процессор 110 в качестве генератора блоков, детектор переднего плана, имеющий функциональности анализатора 120 аудиосигналов и модуля 130 разделения по фиг. 1a или фиг. 1b, и дополнительные каскады модуля разделения сигналов, такие как модуль 152 взвешивания, выполняющий функциональность, поясненную относительно этапа 206 по фиг. 2, и вычитатель 154, реализующий функциональность, проиллюстрированную на этапе 210 по фиг. 2. Кроме того, предоставляется модуль компоновки сигналов, который компонует, из соответствующего представления в частотной области, сигнал c(t) переднего плана и фоновый сигнал n(t) временной области, при этом модуль компоновки сигналов содержит, для каждого компонента сигнала, DFT-блок 160a, 160b.
Входной сигнал a(t) аплодисментов, т.е. входной сигнал, содержащий фоновые компоненты и компоненты аплодисментов, подается в переключатель сигналов (не показан на фиг. 1c), а также в детектор 150 переднего плана, в котором, на основе характеристик сигналов, идентифицируются кадры, которые соответствуют хлопкам на переднем плане. Каскад 150 детектора выводит усиление gs(n) при разделении, которое подается в переключатель сигналов, и управляет величинами сигналов, маршрутизируемыми в отчетливо и отдельно воспринимаемый сигнал C(k,n) хлопков и более шумоподобный сигнал N(k,n). Переключатель сигналов проиллюстрирован в блоке 170 для иллюстрации двоичного переключателя, т.е. того, что определенный кадр или частотно-временной мозаичный фрагмент, т.е. только определенный элемент разрешения по частоте определенного кадра, маршрутизируется либо в C, либо в N, в соответствии со вторым аспектом. В соответствии с первым аспектом, усиление используется для разделения каждого кадра или нескольких элементов разрешения по частоте спектрального представления A(k, n) на компонент переднего плана и фоновый компонент таким образом, что в соответствии с усилением gs(n), которое основывается на соотношении между блочной характеристикой и средней характеристикой в соответствии с первым аспектом, полный кадр либо, по меньшей мере, один или более частотно-временных мозаичных фрагментов или элементов разрешения по частоте разделяются таким образом, что соответствующий элемент разрешения в каждом из сигналов C и N имеет идентичное значение, но с различной амплитудой, причем взаимосвязь амплитуд зависит от gs(n).
Фиг. 1d иллюстрирует более подробный вариант осуществления детектора 150 переднего плана, конкретно иллюстрирующий функциональности анализатора аудиосигналов. В варианте осуществления, анализатор аудиосигналов принимает спектральное представление, сформированное посредством генератора блоков, имеющего блок 110 DFT (дискретного преобразования Фурье) по фиг. 1c. Кроме того, анализатор аудиосигналов выполнен с возможностью выполнять фильтрацию верхних частот с определенной предварительно определенной частотой разделения в блоке 170. Затем анализатор 120 аудиосигналов фиг. 1a или 1b выполняет процедуру извлечения энергии в блоке 172. Процедура извлечения энергии приводит к мгновенной или текущей энергии Φinst(n) текущего блока и средней энергии Φavg(n).
Модуль 130 разделения сигналов на фиг. 1a или 1b затем определяет соотношение, как проиллюстрировано в 180, и дополнительно, определяет адаптивное или неадаптивное пороговое значение и выполняет соответствующую операцию 182 пороговой обработки.
Кроме того, когда операция адаптивной пороговой обработки в соответствии со вторым аспектом выполняется, то анализатор аудиосигналов дополнительно выполняет оценку изменчивости огибающей, как проиллюстрировано на этапе 174, и показатель v(n) изменчивости перенаправляется в модуль разделения и, в частности, в блок обработки адаптивной пороговой обработки 182, чтобы в завершение получать усиление gs(n), как описано ниже.
Блок-схема последовательности операций способа внутренних операций детектора сигналов переднего плана проиллюстрирована на фиг. 1d. Если только верхний тракт рассматривается, это соответствует случаю без адаптивной пороговой обработки, тогда как адаптивная пороговая обработка является возможной, если также учитывается нижний тракт. Сигнал, подаваемый в детектор сигналов переднего плана, фильтруется по верхним частотам, и его средняя и мгновенная энергия оценивается. Мгновенная энергия сигнала X(k, n) задается посредством , где ∥ · ∥ обозначает векторную норму, и средняя энергия задается посредством:
где w(n) обозначает весовую оконную функцию, применяемую к оценкам мгновенной энергии с длиной окна . В качестве индикатора касательно того, являются или нет отчетливые хлопки активными во входном сигнале, энергетическое соотношение мгновенной и средней энергии используется согласно следующему:
В более простом случае без адаптивной пороговой обработки, для моментов времени, в которых энергетическое соотношение превышает пороговое значение атаки, усиление при разделении, которое извлекает отчетливую часть хлопков из входного сигнала, задается равным 1; в силу этого шумоподобный сигнал является нулем в эти моменты времени. Блок-схема системы с жестким переключением сигналов проиллюстрирована на фиг. 1e. Если необходимо исключать выпадения сигнала в шумоподобном сигнале, корректировочный член может вычитаться из усиления. Хорошая начальная точка позволяет средней энергии входного сигнала оставаться в шумоподобном сигнале. Это осуществляется посредством вычитания или из усиления. Величина средней энергии также может управляться посредством введения усиления , которое управляет тем, сколько из средней энергии остается в шумоподобном сигнале. Это приводит к общей форме усиления при разделении:
В дополнительном варианте осуществления, вышеприведенное уравнение заменяется посредством следующего уравнения:
Примечание: если , величина сигнала, маршрутизируемого в отличительные хлопки, зависит только от энергетического соотношения и фиксированного усиления , обеспечивая в результате зависимое от сигнала мягкое решение. В хорошо настроенной системе, период времени, в который энергетическое соотношение превышает пороговые значения атаки, захватывает только фактическое переходное событие. В некоторых случаях, может быть желательным извлекать более длительный период временных кадров после того, как возникает атака. Это может осуществляться, например, посредством введения порогового значения сброса, указывающего уровень, до которого энергетическое соотношение должно снижаться после атаки до того, как усиление при разделении снова задается равным нулю:
В дополнительном варианте осуществления, непосредственно предшествующее уравнение заменяется посредством следующего уравнения:
Альтернатива, но более статический способ заключается в том, чтобы просто маршрутизировать определенное число кадров после обнаруженной атаки в отчетливый сигнал хлопков.
Чтобы повышать гибкость пороговой обработки, пороговые значения могут выбираться сигнально-адаптивным способом, который приводит к и , соответственно. Пороговые значения управляются посредством оценки изменчивости огибающей входного сигнала аплодисментов, при этом высокая изменчивость указывает присутствие отличительных и отдельно воспринимаемых хлопков, и достаточно низкая изменчивость указывает более шумоподобный и стационарный сигнал. Оценка изменчивости может осуществляться во временной области, а также в частотной области. Предпочтительный способ в этом случае должен заключаться а том, чтобы осуществлять оценку в частотной области:
где var (·) обозначает вычисление дисперсии. Чтобы обеспечивать в результате более стабильный сигнал, оцененная изменчивость сглаживается посредством фильтрации нижних частот, что обеспечивает в результате конечную оценку изменчивости огибающей:
где * обозначает свертку. Преобразование изменчивости огибающей в соответствующие пороговые значения может осуществляться посредством функций и преобразования таким образом, что:
В одном варианте осуществления, функция преобразования может быть реализована в качестве отсеченных линейных функций, что соответствует линейной интерполяции пороговых значений. Конфигурация для этого сценария проиллюстрирована на фиг. 4c. Кроме того, также в общем могут использоваться кубическая функция преобразования или функции с высшим порядком. В частности, седловые точки могут использоваться для того, чтобы задавать дополнительные пороговые уровни для значений изменчивости в промежутке между значениями, заданными для разреженных и плотных аплодисментов. Это примерно проиллюстрировано на фиг. 4c, правая сторона.
Разделенные сигналы получаются следующим образом:
Фиг. 1f иллюстрирует вышеописанные уравнения в общем представлении и относительно функциональных блоков на фиг. 1a и 1b.
Кроме того, фиг. 1f иллюстрирует ситуацию, в которой, в зависимости от конкретного варианта осуществления, применяется отсутствие порогового значения, одно пороговое значение или двойное пороговое значение.
Кроме того, как проиллюстрировано относительно уравнений (7)-(9) на фиг. 1f, могут использоваться адаптивные пороговые значения. Естественно, любое одно пороговое значение используется в качестве одного адаптивного порогового значения. В таком случае, только уравнение (8) является активным, и уравнение (9) не является активным. Тем не менее, предпочтительно выполнять двойную адаптивную пороговую обработку в определенном предпочтительном варианте осуществления, реализующем признаки первого аспекта и второго аспекта вместе.
Кроме того, фиг. 7 и 8 иллюстрируют дополнительные реализации касательно того, как можно реализовывать определенный вариант применения настоящего изобретения.
В частности, фиг. 7, левая часть, иллюстрирует модуль 700 измерений характеристик сигналов для измерения характеристики сигнала для сигнала фонового компонента или сигнала компонента переднего плана. В частности, модуль 700 измерений характеристик сигналов выполнен с возможностью определять плотность переднего плана в блоке 702, иллюстрирующем модуль вычисления плотности переднего плана с использованием сигнала компонента переднего плана, либо, альтернативно или дополнительно, модуль измерений характеристик сигналов выполнен с возможностью выполнять вычисление различимости переднего плана с использованием модуля 704 вычисления различимости переднего плана, который вычисляет долю части переднего плана относительно исходного входного сигнала a(t).
Альтернативно, как проиллюстрировано в правой части по фиг. 7, предусмотрены процессор 604 переднего плана и процессор 602 фона, причем эти процессоры, в отличие от фиг. 6, основываются на определенных метаданных Θ, которые могут представлять собой метаданные, извлекаемые посредством фиг. 7, левая часть, либо могут представлять собой любые другие полезные метаданные для выполнения обработки переднего плана и обработки фона.
Разделенные части сигнала аплодисментов могут подаваться в каскады измерения, в которых могут измеряться определенные (перцепционно обусловленные) характеристики переходных сигналов. На фиг. 7a проиллюстрирована примерная конфигурация для такого варианта использования, в котором оценивается плотность отчетливо и отдельно воспринимаемых хлопков на переднем плане, а также доля энергии хлопков на переднем плане относительно энергии полного сигнала.
Оценка плотности переднего плана может осуществляться посредством подсчета частоты событий в секунду, т.е. числа обнаруженных хлопков в секунду. Различимость переднего плана задается посредством энергетического соотношения оцененного сигнала C(n) хлопков на переднем плане и A(n):
На фиг. 7b проиллюстрирована блок-схема восстановления измеренных характеристик сигналов, на которой Θ и пунктирные линии обозначают вспомогательную информацию.
Хотя в предыдущем варианте осуществления, характеристика сигналов только измеряется, система используется для того, чтобы модифицировать характеристики сигналов. В одном варианте осуществления, обработка переднего плана может выводить сокращенное число обнаруженных хлопков на переднем плане, что приводит к модификации плотности до более низкой плотности результирующего выходного сигнала. В другом варианте осуществления, обработка переднего плана может выводить увеличенное число хлопков на переднем плане, например, посредством суммирования задержанной версии сигнала хлопков на переднем плане с собой, что приводит к модификации плотности к повышенной плотности. Кроме того, посредством применения весовых коэффициентов к соответствующим каскадам обработки, баланс хлопков на переднем плане и шумоподобного фона может модифицироваться. Дополнительно, любая обработка, такая как фильтрация, добавление реверберации, задержки и т.д. в обоих трактах может использоваться для того, чтобы модифицировать характеристики сигнала аплодисментов.
Кроме того, фиг. 8 относится к каскаду кодера для кодирования сигнала компонента переднего плана и сигнала фонового компонента, чтобы получать кодированное представление сигнала компонента переднего плана и отдельное кодированное представление сигнала фонового компонента для передачи или хранения. В частности, кодер переднего плана проиллюстрирован на 801, и кодер фона проиллюстрирован на 802. Отдельно кодированные представления 804 и 806 перенаправляются в устройство 808 на стороне декодера, состоящее из декодера 810 переднего плана и декодера 812 фона, которые в завершение декодируют отдельные представления и декодированные представления, и затем комбинируются посредством модуля 606 комбинирования, чтобы в завершение выводить декодированный сигнал a'(t).
Далее поясняются дополнительные предпочтительные варианты осуществления относительно фиг. 3. В частности, фиг. 3 иллюстрирует схематичное представление входного аудиосигнала, приведенное на временной шкале 300, при этом схематичное представление иллюстрирует ситуацию перекрывающихся во времени блоков. На фиг. 3 проиллюстрирована ситуация, когда существует диапазон 302 перекрытия в 50%. Также являются применимыми другие диапазоны перекрытия, такие как диапазоны с множественным перекрытием более чем с 50% или меньше диапазонов перекрытия, в которых перекрываются части только менее чем с 50%.
В варианте осуществления по фиг. 3, блок типично имеет меньше 600 значений дискретизации и, предпочтительно, только 256 или только 128 значений дискретизации, чтобы получать высокое временное разрешение.
Примерно проиллюстрированные перекрывающиеся блоки состоят, например, из текущего блока 304, который перекрывается в пределах диапазона перекрытия с предшествующим блоком 303 или следующим блоком 305. Таким образом, когда группа блоков содержит, по меньшей мере, два предшествующих блока, то эта группа блоков должна состоять из предшествующего блока 303 относительно текущего блока 304 и дополнительного предшествующего блока, указываемого с порядковым номером 3 на фиг. 3. Кроме того и аналогично, когда группа блоков содержит, по меньшей мере, два следующих блока (во времени), то два следующих блока должны содержать следующий блок 305, указываемый с порядковым номером 6, и дополнительный блок 7, проиллюстрированный с порядковым номером 7.
Эти блоки, например, формируются посредством генератора 110 блоков, который предпочтительно также выполняет временно-спектральное преобразование, такое как DFT, упомянутое выше, или FFT (быстрое преобразование Фурье).
Результат временно-спектрального преобразования представляет собой последовательность спектральных блоков I-VIII, при этом каждый спектральный блок, проиллюстрированный на фиг. 3 ниже блока 110, соответствует одному из восьми блоков временной шкалы 300.
Предпочтительно, разделение затем выполняется в частотной области, т.е. с использованием спектрального представления, в котором значения аудиосигналов являются спектральными значениями. После разделения, получаются спектральное представление переднего плана, также состоящее из блоков I-VIII, и фоновое представление, состоящее из I-VIII. Естественно и в зависимости от операции пороговой обработки, не обязательно имеет место то, что каждый блок представления переднего плана после разделения 130 имеет значения, отличающиеся от нуля. Тем не менее, предпочтительно, следует удостоверяться посредством, по меньшей мере, первого аспекта настоящего изобретения в том, что каждый блок в спектральном представлении фонового компонента имеет значения, отличающиеся от нуля, во избежание выпадения энергии в фоновом компоненте сигнала.
Для каждого компонента, т.е. компонента переднего плана и фонового компонента, спектрально-временное преобразование выполняется так, как поясняется в контексте фиг. 1c, и последующее постепенное затухание/постепенное нарастание относительно диапазона 302 перекрытия выполняется для обоих компонентов, как проиллюстрировано в блоке 161a и блоке 161b для компонентов переднего плана и фона, соответственно. Таким образом, в конечном счете, сигнал переднего плана и фоновый сигнал имеют идентичную длину L с исходным аудиосигналом перед разделением.
Предпочтительно, как проиллюстрировано на фиг. 4b, модуль 130 разделения, вычисляющий изменчивости или пороговые значения, сглаживается.
В частности, этап 400 иллюстрирует определение общей характеристики или соотношения между блочной характеристикой и средней характеристикой для текущего блока, как проиллюстрировано на 400.
В блоке 402, необработанная изменчивость вычисляется относительно текущего блока. В блоке 404, необработанные изменчивости для предшествования или следующих блоков вычисляются, чтобы получать, посредством вывода блока 402 и 404, последовательность необработанных изменчивостей. В блоке 406, последовательность сглаживается. Таким образом, в выводе блока 406 существует сглаженная последовательность изменчивостей. Изменчивости сглаженной последовательности преобразуются в соответствующие адаптивные пороговые значения, как проиллюстрировано на этапе 408, так что получается переменное пороговое значение для текущего блока.
На фиг. 4b проиллюстрирован альтернативный вариант осуществления, в котором, в отличие от сглаживания изменчивостей, сглаживаются пороговые значения. С этой целью, снова характеристика/соотношение для текущего блока определяется, как проиллюстрировано на этапе 400.
В блоке 403, последовательность изменчивостей вычисляется с использованием, например, уравнения 6 по фиг. 1f для каждого текущего блока, указываемого посредством целого числа m.
В блоке 405, последовательность изменчивостей преобразуется в последовательность необработанных пороговых значений в соответствии с уравнением 8 и уравнением 9, но с несглаженными изменчивостями, в отличие от уравнения 7 по фиг. 1f.
В блоке 407, последовательность необработанных пороговых значений сглаживается, чтобы в завершение получать (сглаженное) пороговое значение для текущего блока.
Далее подробнее поясняется фиг. 5, чтобы иллюстрировать различные способы для вычисления изменчивости характеристики в группе блоков.
Снова, на этапе 500, вычисляется характеристика или соотношение между текущей блочной характеристикой и средней блочной характеристикой.
На этапе 502, вычисляется среднее или, в общем, математическое ожидание для характеристик/соотношений для группы блоков.
В блоке 504, разности между характеристиками/соотношениями и средним значением/математически ожидаемым значением вычисляются, и как проиллюстрировано на этапе 506, суммирование разностей или определенных значений, извлеченных из разностей, выполняется предпочтительно с нормализацией. Когда квадраты разности суммируются, то последовательность этапов 502, 504, 506 отражает вычисление дисперсии, приведенное относительно уравнения 6. Тем не менее, например, когда абсолютные величины разностей или другие степени разностей, отличающихся от двух, суммируются между собой, то различное статистическое значение, извлеченное из разностей между характеристиками и средним/математически ожидаемым значением, используется в качестве изменчивости.
Тем не менее, альтернативно, как проиллюстрировано на этапе 508, также разности между следующими друг за другом во времени характеристиками/соотношениями для смежных блоков вычисляются и используются в качестве показателя изменчивости. Таким образом, блок 508 определяет изменчивость, которая не основывается на среднем значении, но которая основывается на изменении между блоками, при этом, как проиллюстрировано на фиг. 6, разности между характеристиками для смежных блоков могут суммироваться между собой как квадраты, как абсолютные величины или как их степени, чтобы в завершение получать другое значение из изменчивости, отличающейся от дисперсии. Специалистам в данной области техники должно быть очевидным, что также могут использоваться другие показатели изменчивости, отличающиеся от того, что пояснено относительно фиг. 5,.
Далее задаются примеры вариантов осуществления, которые могут использоваться отдельно от нижеприведенных примеров или в комбинации с любыми из нижеприведенных примеров:
1. Устройство для разложения аудиосигнала (100) на сигнал (140) фонового компонента и сигнал (150) компонента переднего плана, причем устройство содержит:
- генератор (110) блоков для формирования временной последовательности блоков значений аудиосигналов;
- анализатор (120) аудиосигналов для определения блочной характеристики текущего блока аудиосигнала и для определения средней характеристики для группы блоков, причем группа блоков содержит, по меньшей мере, два блока; и
- модуль (130) разделения для разделения текущего блока на фоновую часть и часть переднего плана в ответ на соотношение блочной характеристики текущего блока и средней характеристики группы блоков,
- при этом сигнал (140) фонового компонента содержит фоновую часть текущего блока, и сигнал (150) компонента переднего плана содержит часть переднего плана текущего блока.
2. Устройство по примеру 1,
- в котором анализатор аудиосигналов выполнен с возможностью анализа связанного с амплитудой показателя в качестве характеристики текущего блока и связанной с амплитудой характеристики в качестве средней характеристики для группы блоков.
3. Устройство по примеру 1 или 2,
- в котором анализатор (120) аудиосигналов выполнен с возможностью анализа показателя мощности или показателя энергии для текущего блока и показателя средней мощности или показателя средней энергии для группы блоков.
4. Устройство по одному из предшествующих примеров,
- в котором модуль (130) разделения выполнен с возможностью вычислять усиление при разделении из упомянутого соотношения, взвешивать значения аудиосигналов текущего блока с использованием усиления при разделении, чтобы получать часть переднего плана текущего кадра, и определять фоновый компонент таким образом, что фоновый сигнал составляет оставшийся сигнал, или
- в котором модуль разделения выполнен с возможностью вычислять усиление при разделении из упомянутого соотношения, взвешивать значения аудиосигналов текущего блока с использованием усиления при разделении, чтобы получать фоновую часть текущего кадра, и определять компонент переднего плана таким образом, что сигнал компонента переднего плана составляет оставшийся сигнал.
5. Устройство по одному из предшествующих примеров,
- в котором модуль (130) разделения выполнен с возможностью вычислять усиление при разделении с использованием взвешивания упомянутого соотношения с использованием предварительно определенного весового коэффициента, отличающегося от нуля.
6. Устройство по примеру 5,
- в котором модуль (130) разделения выполнен с возможностью вычислять усиление при разделении с использованием члена 1-(gN/ψ(n)p или (max(1-(gN/ψ(n)))p, где gN является предварительно определенным коэффициентом, ψ(n) является упомянутым соотношением, и p является степенью, большей нуля, и является целым числом или нецелым числом, и где n является индексом блока, и где max является функцией максимума.
7. Устройство по одному из предшествующих примеров,
- в котором модуль (130) разделения выполнен с возможностью сравнивать соотношение текущего блока с пороговым значением и разделять текущий блок, когда соотношение текущего блока находится в предварительно определенной взаимосвязи с пороговым значением, и при этом модуль (130) разделения выполнен с возможностью не разделять дополнительный блок, причем упомянутый дополнительный блок имеет соотношение, не имеющее предварительно определенную взаимосвязь с пороговым значением, так что упомянутый дополнительный блок полностью принадлежит сигналу (140) фонового компонента.
8. Устройство по примеру 7,
- в котором модуль (130) разделения выполнен с возможностью разделять следующий блок после текущего блока во времени с использованием сравнения соотношения следующего блока с пороговым значением дополнительного сброса,
- при этом пороговое значение дополнительного сброса задается таким образом, что соотношение блоков, которое не находится в предварительно определенной взаимосвязи с пороговым значением, находится в предварительно определенной взаимосвязи с пороговым значением дополнительного сброса.
9. Устройство по примеру 8,
- в котором предварительно определенная взаимосвязь составляет "больше, чем", и при этом пороговое значение сброса ниже порогового значения разделения, или
- в котором предварительно определенная взаимосвязь составляет "ниже, чем", и при этом пороговое значение сброса превышает пороговое значение разделения.
10. Устройство по одному из предшествующих примеров,
- в котором генератор (110) блоков выполнен с возможностью определять перекрывающиеся во времени блоки значений аудиосигналов, или
- в котором перекрывающиеся во времени блоки имеют число значений дискретизации, меньшее чем или равное 600.
11. Устройство по одному из предшествующих примеров,
- в котором генератор блоков выполнен с возможностью выполнять поблочное преобразование аудиосигнала временной области в частотную область, чтобы получать спектральное представление для каждого блока,
- в котором анализатор аудиосигналов выполнен с возможностью вычислять упомянутую характеристику с использованием спектрального представления текущего блока, и
- в котором модуль (130) разделения выполнен с возможностью разделять спектральное представление на фоновую часть и часть переднего плана таким образом, что для спектральных элементов разрешения фоновой части и части переднего плана, соответствующих идентичной частоте, каждый из них имеет спектральное значение, отличающееся от нуля, при этом взаимосвязь спектрального значения части переднего плана и спектрального значения фоновой части в идентичном элементе разрешения по частоте зависит от упомянутого соотношения.
12. Устройство по одному из предшествующих примеров,
- в котором генератор (110) блоков выполнен с возможностью выполнять поблочное преобразование временной области в частотную область, чтобы получать спектральное представление для каждого блока,
- при этом смежные во времени блоки перекрываются в перекрывающемся диапазоне (302),
- при этом устройство дополнительно содержит модуль (160a, 161a, 160b, 161b) компоновки сигналов для компоновки сигнала фонового компонента и для компоновки сигнала компонента переднего плана, при этом модуль компоновки сигналов выполнен с возможностью выполнения частотно-временного преобразования (161a, 160a, 160b) для сигнала фонового компонента и для сигнала компонента переднего плана, и для плавно переходящих (161a, 161b) временных представлений смежных во времени блоков в пределах перекрывающегося диапазона, чтобы получать сигнал компонента переднего плана временной области и отдельный сигнал фонового компонента временной области.
13. Устройство по одному из предшествующих примеров,
- в котором анализатор (120) аудиосигналов выполнен с возможностью определять среднюю характеристику для группы блоков с использованием взвешенного суммирования отдельных характеристик блоков в группе блоков.
14. Устройство по одному из предшествующих примеров,
- в котором анализатор (120) аудиосигналов выполнен с возможностью выполнять взвешенное суммирование отдельных характеристик блоков в группе блоков, при этом весовое значение для характеристики близкого во времени к текущему блоку блока превышает весовое значение для характеристики менее близкого во времени к текущему блоку дополнительного блока.
15. Устройство по примеру 13 или 14,
- в котором анализатор (120) аудиосигналов выполнен с возможностью определять группу блоков таким образом, что группа блоков содержит, по меньшей мере, двадцать блоков перед соответствующим блоком или, по меньшей мере, двадцать блоками после текущего блока.
16. Устройство по одному из предшествующих примеров,
- в котором анализатор аудиосигналов выполнен с возможностью использовать значение нормализации в зависимости от числа блоков в группе блоков или в зависимости от весовых значений для блоков в группе блоков.
17. Устройство по одному из предшествующих примеров,
- дополнительно содержащее модуль (702, 704) измерений характеристик сигналов для измерения характеристики сигналов, по меньшей мере, одного из сигналов фонового компонента или сигналов компонента переднего плана.
18. Устройство по примеру 17,
- в котором модуль измерений характеристик сигналов выполнен с возможностью определять плотность (702) переднего плана с использованием сигнала компонента переднего плана или определять различимость (704) переднего плана с использованием сигнала компонента переднего плана и входного аудиосигнала.
19. Устройство по одному из предшествующих примеров,
- в котором сигнал компонента переднего плана содержит сигналы хлопков, при этом устройство дополнительно содержит модуль модификации характеристики сигналов для модификации сигнала компонента переднего плана посредством увеличения числа хлопков или сокращения числа хлопков либо посредством применения весового коэффициента к сигналу компонента переднего плана или сигналу фонового компонента, чтобы модифицировать энергетическое соотношение между сигналом хлопков на переднем плане и сигналом фонового компонента, представляющим собой шумоподобный сигнал.
20. Устройство по одному из предшествующих примеров,
- дополнительно содержащее повышающий вслепую микшер для повышающего микширования аудиосигнала в представление, имеющее число выходных каналов, превышающих число каналов аудиосигнала,
- при этом повышающий микшер выполнен с возможностью пространственно распределять сигнал компонента переднего плана в выходные каналы, при этом сигнал компонента переднего плана в упомянутом числе выходных каналов коррелируется, и спектрально распределять сигнал фонового компонента в выходные каналы, при этом сигналы фонового компонента в выходных каналах в меньшей степени коррелируются, чем сигналы компонента переднего плана, либо декоррелируются по отношению друг к другу.
21. Устройство по одному из предшествующих примеров,
- дополнительно содержащее каскад (801, 802) кодера для отдельного кодирования сигнала компонента переднего плана и сигнала фонового компонента, чтобы получать кодированное представление (804) сигнала компонента переднего плана и отдельное кодированное представление сигнала (806) фонового компонента для передачи или хранения либо декодирования.
22. Способ разложения аудиосигнала (100) на сигнал (140) фонового компонента и сигнал (150) компонента переднего плана, при этом способ содержит:
- формирование (110) временной последовательности блоков значений аудиосигналов;
- определение (120) блочной характеристики текущего блока аудиосигнала и определение средней характеристики для группы блоков, причем группа блоков содержит, по меньшей мере, два блока; и
- разделение (130) текущего блока на фоновую часть и часть переднего плана в ответ на соотношение блочной характеристики текущего блока и средней характеристики группы блоков,
- при этом сигнал (140) фонового компонента содержит фоновую часть текущего блока, и сигнал (150) компонента переднего плана содержит часть переднего плана текущего блока.
Далее описываются дополнительные примеры, которые могут использоваться отдельно от вышеприведенных примеров или в комбинации с любыми из вышеприведенных примеров.
1. Устройство для разложения аудиосигнала на сигнал фонового компонента и сигнал компонента переднего плана, причем устройство содержит:
- генератор (110) блоков для формирования временной последовательности блоков значений аудиосигналов;
- анализатор (120) аудиосигналов для определения характеристики текущего блока аудиосигнала и для определения изменчивости характеристики в группе блоков, содержащих, по меньшей мере, два блока последовательности блоков; и
- модуль (130) разделения для разделения текущего блока на фоновую часть (140) и часть (150) переднего плана, при этом модуль (130) разделения выполнен с возможностью определять (182) пороговое значение разделения на основе изменчивости и разделять текущий блок на сигнал (140) фонового компонента и сигнал (150) компонента переднего плана, когда характеристика текущего блока находится в предварительно определенной взаимосвязи с пороговым значением разделения, или определять полный текущий блок в качестве сигнала компонента переднего плана, когда характеристика текущего блока находится в предварительно определенной взаимосвязи с пороговым значением разделения, или определять полный текущий блок в качестве сигнала фонового компонента, когда характеристика текущего блока не находится в предварительно определенной взаимосвязи с пороговым значением разделения.
2. Устройство по примеру 1,
- в котором модуль (130) разделения выполнен с возможностью определять первое пороговое значение (401) разделения для первой изменчивости (501) и второе пороговое значение (402) разделения для второй изменчивости (502),
- при этом первое пороговое значение (401) разделения ниже второго порогового значения (402) разделения, и первая изменчивость (501) ниже второй изменчивости (502), и при этом предварительно определенная взаимосвязь больше, или
- при этом первое пороговое значение разделения превышает второе пороговое значение разделения, при этом первая изменчивость ниже второй изменчивости, и при этом предварительно определенная взаимосвязь ниже.
3. Устройство по примеру 1 или 2,
- в котором модуль (130) разделения выполнен с возможностью определять пороговое значение разделения с использованием табличного доступа или с использованием монотонной интерполяционной функции, интерполирующей между первым пороговым значением (401) разделения и вторым пороговым значением (402) разделения таким образом, что для третьей изменчивости (503), получается третье пороговое значение (403) разделения, а для четвертой изменчивости (504), получается четвертое пороговое значение (404) разделения, при этом первое пороговое значение (401) разделения ассоциировано с первой изменчивостью (501), и второе пороговое значение (402) разделения ассоциировано со второй изменчивостью (502),
- при этом третья изменчивость (503) и четвертая изменчивость расположены, относительно их значений, между первой изменчивостью (501) и второй изменчивостью (502), и при этом третье пороговое значение (403) разделения и четвертое пороговое значение (404) разделения расположены, относительно их значений, между первым пороговым значением (401) разделения и вторым пороговым значением (402) разделения.
4. Устройство по примеру 3,
- в котором монотонная интерполяционная функция представляет собой линейную функцию или квадратическую функцию, или кубическую функцию, или степенную функцию с порядком, большим, чем 3.
5. Устройство по одному из примеров 1-4,
- в котором модуль (130) разделения выполнен с возможностью определять, на основе изменчивости характеристики относительно текущего блока, необработанное пороговое значение (405) разделения, и на основе изменчивости, по меньшей мере, одного предыдущего или следующего блока, по меньшей мере, одно дополнительное необработанное пороговое значение (405) разделения и определять (407) пороговое значение разделения для текущего блока посредством сглаживания последовательности необработанных пороговых значений разделения, причем последовательность содержит необработанное пороговое значение разделения и, по меньшей мере, одно дополнительное необработанное пороговое значение разделения, или
- в котором модуль (130) разделения выполнен с возможностью определять необработанную изменчивость (402) характеристики для текущего блока и, дополнительно, вычислять (404) необработанную изменчивость для предыдущего или следующего блока, и при этом модуль (130) разделения выполнен с возможностью сглаживания последовательности необработанных изменчивостей, содержащих необработанную изменчивость для текущего блока и, по меньшей мере, одну дополнительную необработанную изменчивость для предыдущего или следующего блока, чтобы получать сглаженную последовательность изменчивостей и определять пороговые значения разделения на основе сглаженной изменчивости текущего блока.
6. Устройство по одному из предшествующих примеров,
- в котором анализатор (120) аудиосигналов выполнен с возможностью определять изменчивость посредством вычисления характеристики каждого блока в группе блоков, чтобы получать группу характеристик, и посредством вычисления дисперсии группы характеристик, при этом изменчивость соответствует дисперсии или зависит от дисперсии группы характеристик.
7. Устройство по одному из предшествующих примеров,
- в котором анализатор (120) аудиосигналов выполнен с возможностью вычислять изменчивость с использованием среднего или ожидаемой характеристики (502) и разностей (504) между характеристиками в группе характеристик и средней или ожидаемой характеристики, или
- посредством вычисления изменчивости с использованием разностей (508) между характеристиками группы характеристик после во времени.
8. Устройство по одному из предшествующих примеров,
- в котором анализатор (120) аудиосигналов выполнен с возможностью вычислять изменчивость характеристики в группе характеристик, содержащих, по меньшей мере, два блока, предшествующих текущему блоку, или, по меньшей мере, два блока после текущего блока.
9. Устройство по одному из предшествующих примеров,
- в котором анализатор (120) аудиосигналов выполнен с возможностью вычислять изменчивость характеристики в группе блоков, состоящей, по меньшей мере, из тридцати блоков.
10. Устройство по одному из предшествующих примеров,
- в котором анализатор (120) аудиосигналов выполнен с возможностью вычислять упомянутую характеристику в качестве соотношения блочной характеристики текущего блока и средней характеристики для группы блоков, содержащих, по меньшей мере, два блока, и
- в котором модуль (130) разделения выполнен с возможностью сравнивать соотношение с пороговым значением разделения, определенным на основе изменчивости соотношения, ассоциированного с текущим блоком в группе блоков.
11. Устройство по примеру 10,
- в котором анализатор (120) аудиосигналов выполнен с возможностью использовать, для вычисления средней характеристики и для вычисления изменчивости, идентичную группу блоков.
12. Устройство по одному из предыдущих примеров, в котором анализатор аудиосигналов выполнен с возможностью анализа связанного с амплитудой показателя в качестве характеристики текущего блока и связанной с амплитудой характеристики в качестве средней характеристики для группы блоков.
13. Устройство по одному из предшествующих примеров,
- в котором модуль (130) разделения выполнен с возможностью вычислять усиление при разделении из характеристики, взвешивать значения аудиосигналов текущего блока с использованием усиления при разделении, чтобы получать часть переднего плана текущего кадра, и определять фоновый компонент таким образом, что фоновый сигнал составляет оставшийся сигнал, или
- в котором модуль разделения выполнен с возможностью вычислять усиление при разделении из характеристики, взвешивать значения аудиосигналов текущего блока с использованием усиления при разделении, чтобы получать фоновую часть текущего кадра, и определять компонент переднего плана таким образом, что сигнал компонента переднего плана составляет оставшийся сигнал.
14. Устройство по одному из предшествующих примеров,
- в котором модуль (130) разделения выполнен с возможностью разделять следующий блок после текущего блока во времени с использованием сравнения характеристики следующего блока с пороговым значением дополнительного сброса,
- при этом пороговое значение дополнительного сброса задается таким образом, что характеристика, которая не находится в предварительно определенной взаимосвязи с пороговым значением, находится в предварительно определенной взаимосвязи с пороговым значением дополнительного сброса.
15. Устройство по примеру 14,
- в котором модуль (130) разделения выполнен с возможностью определять пороговое значение сброса на основе изменчивости и разделять следующий блок, когда характеристика текущего блока находится в дополнительно предварительно определенной взаимосвязи с пороговым значением сброса.
16. Устройство по примеру 14 или 15,
- в котором предварительно определенная взаимосвязь составляет "больше, чем", и при этом пороговое значение сброса ниже порогового значения разделения, или
- в котором предварительно определенная взаимосвязь составляет "ниже, чем", и при этом пороговое значение сброса превышает пороговое значение разделения.
17. Устройство по одному из предшествующих примеров,
- в котором генератор (110) блоков выполнен с возможностью определять перекрывающиеся во времени блоки значений аудиосигналов, или
- в котором перекрывающиеся во времени блоки имеют число значений дискретизации, меньшее чем или равное 600.
18. Устройство по одному из предшествующих примеров,
- в котором генератор блоков выполнен с возможностью выполнять поблочное преобразование аудиосигнала временной области в частотную область, чтобы получать спектральное представление для каждого блока,
- в котором анализатор аудиосигналов выполнен с возможностью вычислять упомянутую характеристику с использованием спектрального представления текущего блока, и
- в котором модуль (130) разделения выполнен с возможностью разделять спектральное представление на фоновую часть и часть переднего плана таким образом, что для спектральных элементов разрешения фоновой части и части переднего плана, соответствующих идентичной частоте, каждый из них имеет спектральное значение, отличающееся от нуля, при этом взаимосвязь спектрального значения части переднего плана и спектрального значения фоновой части в идентичном элементе разрешения по частоте зависит от характеристики.
19. Устройство по одному из предшествующих примеров,
- в котором анализатор (120) аудиосигналов выполнен с возможностью вычислять упомянутую характеристику с использованием спектрального представления текущего блока, чтобы вычислять изменчивость для текущего блока с использованием спектрального представления группы блоков.
20. Способ для разложения аудиосигнала на сигнал фонового компонента и сигнал компонента переднего плана, при этом способ содержит:
- формирование (110) временной последовательности блоков значений аудиосигналов;
- определение (120) характеристики текущего блока аудиосигнала и определение изменчивости характеристики в группе блоков, содержащих, по меньшей мере, два блока последовательности блоков; и
- разделение (130) текущего блока на фоновую часть (140) и часть (150) переднего плана, при этом пороговое значение разделения определяется на основе изменчивости, и при этом текущий блок разделяется на сигнал (140) фонового компонента и сигнал (150) компонента переднего плана, когда характеристика текущего блока находится в предварительно определенной взаимосвязи с пороговым значением разделения, или при этом полный текущий блок определяется в качестве сигнала компонента переднего плана, когда характеристика текущего блока находится в предварительно определенной взаимосвязи с пороговым значением разделения, или при этом определяют то, что полный текущий блок определяется в качестве сигнала фонового компонента, когда характеристика текущего блока не находится в предварительно определенной взаимосвязи с пороговым значением разделения.
Изобретательно кодированный аудиосигнал может сохраняться на цифровом носителе хранения данных или энергонезависимом носителе хранения данных или может передаваться по передающей среде, такой как беспроводная среда передачи или проводная среда передачи, к примеру, Интернет.
Хотя некоторые аспекты описаны в контексте устройства, очевидно, что эти аспекты также представляют описание соответствующего способа, при этом блок или устройство соответствует этапу способа либо признаку этапа способа. Аналогично, аспекты, описанные в контексте этапа способа, также представляют описание соответствующего блока или элемента, или признака соответствующего устройства.
В зависимости от определенных требований к реализации, варианты осуществления изобретения могут быть реализованы в аппаратных средствах или в программном обеспечении. Реализация может выполняться с использованием цифрового носителя хранения данных, например, гибкого диска, DVD, CD, ROM, PROM, EPROM, EEPROM или флэш-памяти, имеющего сохраненные электронночитаемые управляющие сигналы, которые взаимодействуют (или допускают взаимодействие) с программируемой компьютерной системой таким образом, что осуществляется соответствующий способ.
Некоторые варианты осуществления согласно изобретению содержат носитель данных, имеющий электронночитаемые управляющие сигналы, которые допускают взаимодействие с программируемой компьютерной системой таким образом, что осуществляется один из способов, описанных в данном документе.
В общем, варианты осуществления настоящего изобретения могут быть реализованы как компьютерный программный продукт с программным кодом, при этом программный код выполнен с возможностью осуществления одного из способов, когда компьютерный программный продукт работает на компьютере. Программный код, например, может сохраняться на машиночитаемом носителе.
Другие варианты осуществления содержат компьютерную программу для осуществления одного из способов, описанных в данном документе, сохраненную на машиночитаемом носителе или на энергонезависимом носителе хранения данных.
Другими словами, вариант осуществления изобретаемого способа в силу этого представляет собой компьютерную программу, имеющую программный код для осуществления одного из способов, описанных в данном документе, когда компьютерная программа работает на компьютере.
Следовательно, дополнительный вариант осуществления изобретаемых способов представляет собой носитель хранения данных (цифровой носитель хранения данных или машиночитаемый носитель), содержащий записанную компьютерную программу для осуществления одного из способов, описанных в данном документе.
Следовательно, дополнительный вариант осуществления изобретаемого способа представляет собой поток данных или последовательность сигналов, представляющих компьютерную программу для осуществления одного из способов, описанных в данном документе. Поток данных или последовательность сигналов, например, может быть выполнена с возможностью передачи через соединение для передачи данных, например, через Интернет.
Дополнительный вариант осуществления содержит средство обработки, например, компьютер или программируемое логическое устройство, выполненное с возможностью осуществлять один из способов, описанных в данном документе.
Дополнительный вариант осуществления содержит компьютер, имеющий установленную компьютерную программу для осуществления одного из способов, описанных в данном документе.
В некоторых вариантах осуществления, программируемое логическое устройство (например, программируемая пользователем вентильная матрица) может использоваться для того, чтобы выполнять часть или все из функциональностей способов, описанных в данном документе. В некоторых вариантах осуществления, программируемая пользователем вентильная матрица может взаимодействовать с микропроцессором, чтобы осуществлять один из способов, описанных в данном документе. В общем, способы предпочтительно осуществляются посредством любого аппаратного устройства.
Вышеописанные варианты осуществления являются просто иллюстративными в отношении принципов настоящего изобретения. Следует понимать, что модификации и изменения компоновок и подробностей, описанных в данном документе, должны быть очевидными для специалистов в данной области техники. Следовательно, они подразумеваются как ограниченные только посредством объема нижеприведенной формулы изобретения, а не посредством конкретных подробностей, представленных посредством описания и пояснения вариантов осуществления в данном документе.
Claims (60)
1. Устройство для разложения аудиосигнала (100) на сигнал (140) фонового компонента и сигнал (150) компонента переднего плана, причем устройство содержит:
- генератор (110) блоков для формирования временной последовательности блоков значений аудиосигналов;
- анализатор (120) аудиосигналов для определения блочной характеристики текущего блока аудиосигнала и для определения средней характеристики для группы блоков, причем группа блоков содержит, по меньшей мере, два блока; и
- модуль (130) разделения для разделения текущего блока на фоновую часть и часть переднего плана в ответ на соотношение блочной характеристики текущего блока и средней характеристики группы блоков,
- при этом сигнал (140) фонового компонента содержит фоновую часть текущего блока, и сигнал (150) компонента переднего плана содержит часть переднего плана текущего блока.
2. Устройство по п. 1,
- в котором анализатор аудиосигналов выполнен с возможностью анализа связанного с амплитудой показателя в качестве характеристики текущего блока и связанной с амплитудой характеристики в качестве средней характеристики для группы блоков.
3. Устройство по п. 1,
- в котором анализатор (120) аудиосигналов выполнен с возможностью анализа показателя мощности или показателя энергии для текущего блока и показателя средней мощности или показателя средней энергии для группы блоков.
4. Устройство по п. 1,
- в котором модуль (130) разделения выполнен с возможностью вычислять усиление при разделении из упомянутого соотношения, взвешивать значения аудиосигналов текущего блока с использованием усиления при разделении, чтобы получать часть переднего плана текущего кадра, и определять фоновый компонент таким образом, что фоновый сигнал составляет оставшийся сигнал, или
- в котором модуль разделения выполнен с возможностью вычислять усиление при разделении из упомянутого соотношения, взвешивать значения аудиосигналов текущего блока с использованием усиления при разделении, чтобы получать фоновую часть текущего кадра, и определять компонент переднего плана таким образом, что сигнал компонента переднего плана составляет оставшийся сигнал.
5. Устройство по п. 1,
- в котором модуль (130) разделения выполнен с возможностью вычислять усиление при разделении с использованием взвешивания упомянутого соотношения с использованием предварительно определенного весового коэффициента, отличающегося от нуля.
6. Устройство по п. 5,
- в котором модуль (130) разделения выполнен с возможностью вычислять усиление при разделении с использованием члена 1-(gN/ψ(n)p или (max(1-(gN/ψ(n)))p, где gN является предварительно определенным коэффициентом, ψ(n) является упомянутым соотношением, и p является степенью, большей нуля, и является целым числом или нецелым числом, и где n является индексом блока, и где max является функцией максимума.
7. Устройство по п. 1,
- в котором модуль (130) разделения выполнен с возможностью сравнивать соотношение текущего блока с пороговым значением и разделять текущий блок, когда соотношение текущего блока находится в предварительно определенной взаимосвязи с пороговым значением, и при этом модуль (130) разделения выполнен с возможностью не разделять дополнительный блок, причем упомянутый дополнительный блок имеет соотношение, не имеющее предварительно определенную взаимосвязь с пороговым значением, так что упомянутый дополнительный блок полностью принадлежит сигналу (140) фонового компонента.
8. Устройство по п. 7,
- в котором модуль (130) разделения выполнен с возможностью разделять следующий блок после текущего блока во времени с использованием сравнения соотношения следующего блока с пороговым значением дополнительного сброса,
- при этом пороговое значение дополнительного сброса задается таким образом, что соотношение блоков, которое не находится в предварительно определенной взаимосвязи с пороговым значением, находится в предварительно определенной взаимосвязи с пороговым значением дополнительного сброса.
9. Устройство по п. 8,
- в котором предварительно определенная взаимосвязь составляет "больше, чем", и при этом пороговое значение сброса ниже порогового значения разделения, или
- в котором предварительно определенная взаимосвязь составляет "ниже, чем", и при этом пороговое значение сброса превышает пороговое значение разделения.
10. Устройство по п. 1,
- в котором генератор (110) блоков выполнен с возможностью определять перекрывающиеся во времени блоки значений аудиосигналов, или
- в котором перекрывающиеся во времени блоки имеют число значений дискретизации, меньшее чем или равное 600.
11. Устройство по п. 1,
- в котором генератор блоков выполнен с возможностью выполнять поблочное преобразование аудиосигнала временной области в частотную область, чтобы получать спектральное представление для каждого блока,
- в котором анализатор аудиосигналов выполнен с возможностью вычислять упомянутую характеристику с использованием спектрального представления текущего блока, и
- в котором модуль (130) разделения выполнен с возможностью разделять спектральное представление на фоновую часть и часть переднего плана таким образом, что для спектральных элементов разрешения фоновой части и части переднего плана, соответствующих идентичной частоте, каждый из них имеет спектральное значение, отличающееся от нуля, при этом взаимосвязь спектрального значения части переднего плана и спектрального значения фоновой части в идентичном элементе разрешения по частоте зависит от упомянутого соотношения.
12. Устройство по п. 1,
- в котором генератор (110) блоков выполнен с возможностью выполнять поблочное преобразование временной области в частотную область, чтобы получать спектральное представление для каждого блока,
- при этом смежные во времени блоки перекрываются в перекрывающемся диапазоне (302),
- при этом устройство дополнительно содержит модуль (160a, 161a, 160b, 161b) компоновки сигналов для компоновки сигнала фонового компонента и для компоновки сигнала компонента переднего плана, при этом модуль компоновки сигналов выполнен с возможностью выполнения частотно-временного преобразования (161a, 160a, 160b) для сигнала фонового компонента и для сигнала компонента переднего плана, и для плавно переходящих (161a, 161b) временных представлений смежных во времени блоков в пределах перекрывающегося диапазона, чтобы получать сигнал компонента переднего плана временной области и отдельный сигнал фонового компонента временной области.
13. Устройство по п. 1,
- в котором анализатор (120) аудиосигналов выполнен с возможностью определять среднюю характеристику для группы блоков с использованием взвешенного суммирования отдельных характеристик блоков в группе блоков.
14. Устройство по п. 1,
- в котором анализатор (120) аудиосигналов выполнен с возможностью выполнять взвешенное суммирование отдельных характеристик блоков в группе блоков, при этом весовое значение для характеристики близкого во времени к текущему блоку блока превышает весовое значение для характеристики менее близкого во времени к текущему блоку дополнительного блока.
15. Устройство по п. 13,
- в котором анализатор (120) аудиосигналов выполнен с возможностью определять группу блоков таким образом, что группа блоков содержит, по меньшей мере, двадцать блоков перед соответствующим блоком или, по меньшей мере, двадцать блоков после текущего блока.
16. Устройство по п. 1,
- в котором анализатор аудиосигналов выполнен с возможностью использовать значение нормализации в зависимости от числа блоков в группе блоков или в зависимости от весовых значений для блоков в группе блоков.
17. Устройство по п. 1,
- дополнительно содержащее модуль (702, 704) измерений характеристик сигналов для измерения характеристики сигналов, по меньшей мере, одного из сигналов фонового компонента или сигналов компонента переднего плана.
18. Устройство по п. 17,
- в котором модуль измерений характеристик сигналов выполнен с возможностью определять плотность (702) переднего плана с использованием сигнала компонента переднего плана или определять различимость (704) переднего плана с использованием сигнала компонента переднего плана и входного аудиосигнала.
19. Устройство по п. 1,
- в котором сигнал компонента переднего плана содержит сигналы хлопков, при этом устройство дополнительно содержит модуль модификации характеристики сигналов для модификации сигнала компонента переднего плана посредством увеличения числа хлопков или сокращения числа хлопков либо посредством применения весового коэффициента к сигналу компонента переднего плана или сигналу фонового компонента, чтобы модифицировать энергетическую взаимосвязь между сигналом хлопков на переднем плане и сигналом фонового компонента, представляющим собой шумоподобный сигнал.
20. Устройство по п. 1,
- дополнительно содержащее повышающий вслепую микшер для повышающего микширования аудиосигнала в представление, имеющее число выходных каналов, превышающее число каналов аудиосигнала,
- при этом повышающий микшер выполнен с возможностью пространственно распределять сигнал компонента переднего плана в выходные каналы, при этом сигнал компонента переднего плана в упомянутом числе выходных каналов коррелируется, и пространственно распределять сигнал фонового компонента в выходные каналы, при этом сигналы фонового компонента в выходных каналах в меньшей степени коррелируются, чем сигналы компонента переднего плана, либо декоррелируются по отношению друг к другу.
21. Устройство по п. 1,
- дополнительно содержащее каскад (801, 802) кодера для отдельного кодирования сигнала компонента переднего плана и сигнала фонового компонента, чтобы получать кодированное представление (804) сигнала компонента переднего плана и отдельное кодированное представление сигнала (806) фонового компонента для передачи или хранения либо декодирования.
22. Способ разложения аудиосигнала (100) на сигнал (140) фонового компонента и сигнал (150) компонента переднего плана, при этом способ содержит этапы, на которых:
- формируют (110) временную последовательность блоков значений аудиосигналов;
- определяют (120) блочную характеристику текущего блока аудиосигнала и определяют среднюю характеристику для группы блоков, причем группа блоков содержит, по меньшей мере, два блока; и
- разделяют (130) текущий блок на фоновую часть и часть переднего плана в ответ на соотношение блочной характеристики текущего блока и средней характеристики группы блоков,
- при этом сигнал (140) фонового компонента содержит фоновую часть текущего блока, и сигнал (150) компонента переднего плана содержит часть переднего плана текущего блока.
23. Запоминающий носитель, содержащий сохраненную на нем компьютерную программу для осуществления, при выполнении на компьютере или процессоре, способа по п. 22.
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
EP16199402.5A EP3324407A1 (en) | 2016-11-17 | 2016-11-17 | Apparatus and method for decomposing an audio signal using a ratio as a separation characteristic |
EP16199402.5 | 2016-11-17 | ||
PCT/EP2017/079516 WO2018091614A1 (en) | 2016-11-17 | 2017-11-16 | Apparatus and method for decomposing an audio signal using a ratio as a separation characteristic |
Publications (1)
Publication Number | Publication Date |
---|---|
RU2729050C1 true RU2729050C1 (ru) | 2020-08-04 |
Family
ID=57348523
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
RU2019118471A RU2729050C1 (ru) | 2016-11-17 | 2017-11-16 | Устройство и способ для разложения звукового сигнала с использованием соотношения в качестве характеристики разделения |
Country Status (11)
Country | Link |
---|---|
US (1) | US11183199B2 (ru) |
EP (2) | EP3324407A1 (ru) |
JP (1) | JP7161215B2 (ru) |
KR (1) | KR102427414B1 (ru) |
CN (1) | CN110114828B (ru) |
BR (1) | BR112019009944A2 (ru) |
CA (1) | CA3043964C (ru) |
ES (1) | ES2930268T3 (ru) |
MX (1) | MX2019005739A (ru) |
RU (1) | RU2729050C1 (ru) |
WO (1) | WO2018091614A1 (ru) |
Families Citing this family (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP3324407A1 (en) * | 2016-11-17 | 2018-05-23 | Fraunhofer Gesellschaft zur Förderung der Angewand | Apparatus and method for decomposing an audio signal using a ratio as a separation characteristic |
EP3324406A1 (en) * | 2016-11-17 | 2018-05-23 | Fraunhofer Gesellschaft zur Förderung der Angewand | Apparatus and method for decomposing an audio signal using a variable threshold |
US11023722B2 (en) * | 2018-07-11 | 2021-06-01 | International Business Machines Corporation | Data classification bandwidth reduction |
EP4150759A1 (en) * | 2020-06-23 | 2023-03-22 | Google LLC | Smart background noise estimator |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2002047068A2 (en) * | 2000-12-08 | 2002-06-13 | Qualcomm Incorporated | Method and apparatus for robust speech classification |
EP2154911A1 (en) * | 2008-08-13 | 2010-02-17 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | An apparatus for determining a spatial output multi-channel audio signal |
US20110099010A1 (en) * | 2009-10-22 | 2011-04-28 | Broadcom Corporation | Multi-channel noise suppression system |
US20130018660A1 (en) * | 2011-07-13 | 2013-01-17 | Huawei Technologies Co., Ltd. | Audio signal coding and decoding method and device |
US20140358265A1 (en) * | 2013-05-31 | 2014-12-04 | Dolby Laboratories Licensing Corporation | Audio Processing Method and Audio Processing Apparatus, and Training Method |
RU2589298C1 (ru) * | 2014-12-29 | 2016-07-10 | Александр Юрьевич Бредихин | Способ повышения разборчивости и информативности звуковых сигналов в шумовой обстановке |
WO2016133785A1 (en) * | 2015-02-16 | 2016-08-25 | Dolby Laboratories Licensing Corporation | Separating audio sources |
Family Cites Families (76)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
IL84948A0 (en) * | 1987-12-25 | 1988-06-30 | D S P Group Israel Ltd | Noise reduction system |
US7006881B1 (en) | 1991-12-23 | 2006-02-28 | Steven Hoffberg | Media recording device with remote graphic user interface |
US6400996B1 (en) | 1999-02-01 | 2002-06-04 | Steven M. Hoffberg | Adaptive pattern recognition based control system and method |
JP2000250568A (ja) | 1999-02-26 | 2000-09-14 | Kobe Steel Ltd | 音声区間検出装置 |
US6424960B1 (en) | 1999-10-14 | 2002-07-23 | The Salk Institute For Biological Studies | Unsupervised adaptation and classification of multiple classes and sources in blind signal separation |
JP4438144B2 (ja) * | 1999-11-11 | 2010-03-24 | ソニー株式会社 | 信号分類方法及び装置、記述子生成方法及び装置、信号検索方法及び装置 |
US7930170B2 (en) * | 2001-01-11 | 2011-04-19 | Sasken Communication Technologies Limited | Computationally efficient audio coder |
US7058889B2 (en) | 2001-03-23 | 2006-06-06 | Koninklijke Philips Electronics N.V. | Synchronizing text/visual information with audio playback |
US7283954B2 (en) * | 2001-04-13 | 2007-10-16 | Dolby Laboratories Licensing Corporation | Comparing audio using characterizations based on auditory events |
US7386217B2 (en) | 2001-12-14 | 2008-06-10 | Hewlett-Packard Development Company, L.P. | Indexing video by detecting speech and music in audio |
CN1830009B (zh) | 2002-05-03 | 2010-05-05 | 哈曼国际工业有限公司 | 声音检测和定位系统 |
US7567845B1 (en) | 2002-06-04 | 2009-07-28 | Creative Technology Ltd | Ambience generation for stereo signals |
KR100908117B1 (ko) * | 2002-12-16 | 2009-07-16 | 삼성전자주식회사 | 비트율 조절가능한 오디오 부호화 방법, 복호화 방법,부호화 장치 및 복호화 장치 |
WO2004084467A2 (en) * | 2003-03-15 | 2004-09-30 | Mindspeed Technologies, Inc. | Recovering an erased voice frame with time warping |
KR100486736B1 (ko) | 2003-03-31 | 2005-05-03 | 삼성전자주식회사 | 두개의 센서를 이용한 목적원별 신호 분리방법 및 장치 |
JP4146489B2 (ja) | 2004-05-26 | 2008-09-10 | 日本電信電話株式会社 | 音声パケット再生方法、音声パケット再生装置、音声パケット再生プログラム、記録媒体 |
DE102005014477A1 (de) * | 2005-03-30 | 2006-10-12 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Vorrichtung und Verfahren zum Erzeugen eines Datenstroms und zum Erzeugen einer Multikanal-Darstellung |
US8086451B2 (en) * | 2005-04-20 | 2011-12-27 | Qnx Software Systems Co. | System for improving speech intelligibility through high frequency compression |
US8249861B2 (en) * | 2005-04-20 | 2012-08-21 | Qnx Software Systems Limited | High frequency compression integration |
US7996216B2 (en) * | 2005-07-11 | 2011-08-09 | Lg Electronics Inc. | Apparatus and method of encoding and decoding audio signal |
KR101237413B1 (ko) * | 2005-12-07 | 2013-02-26 | 삼성전자주식회사 | 오디오 신호의 부호화 및 복호화 방법, 오디오 신호의부호화 및 복호화 장치 |
JP2009529699A (ja) | 2006-03-01 | 2009-08-20 | ソフトマックス,インコーポレイテッド | 分離信号を生成するシステムおよび方法 |
US7844453B2 (en) | 2006-05-12 | 2010-11-30 | Qnx Software Systems Co. | Robust noise estimation |
US8379868B2 (en) * | 2006-05-17 | 2013-02-19 | Creative Technology Ltd | Spatial audio coding based on universal spatial cues |
JP2008015481A (ja) | 2006-06-08 | 2008-01-24 | Audio Technica Corp | 音声会議装置 |
WO2008030104A1 (en) | 2006-09-07 | 2008-03-13 | Lumex As | Relative threshold and use of edges in optical character recognition process |
US8036767B2 (en) * | 2006-09-20 | 2011-10-11 | Harman International Industries, Incorporated | System for extracting and changing the reverberant content of an audio input signal |
JP5201602B2 (ja) | 2007-04-13 | 2013-06-05 | 国立大学法人京都大学 | 音源分離システム、音源分離方法及び音源分離用コンピュータプログラム |
EP2028651A1 (en) | 2007-08-24 | 2009-02-25 | Sound Intelligence B.V. | Method and apparatus for detection of specific input signal contributions |
RU2452043C2 (ru) | 2007-10-17 | 2012-05-27 | Фраунхофер-Гезелльшафт цур Фёрдерунг дер ангевандтен Форшунг Е.Ф. | Аудиокодирование с использованием понижающего микширования |
JPWO2009051132A1 (ja) | 2007-10-19 | 2011-03-03 | 日本電気株式会社 | 信号処理システムと、その装置、方法及びそのプログラム |
US9374453B2 (en) * | 2007-12-31 | 2016-06-21 | At&T Intellectual Property I, L.P. | Audio processing for multi-participant communication systems |
CN101981811B (zh) | 2008-03-31 | 2013-10-23 | 创新科技有限公司 | 音频信号的自适应主体-环境分解 |
US8645129B2 (en) * | 2008-05-12 | 2014-02-04 | Broadcom Corporation | Integrated speech intelligibility enhancement system and acoustic echo canceller |
US8630848B2 (en) * | 2008-05-30 | 2014-01-14 | Digital Rise Technology Co., Ltd. | Audio signal transient detection |
EP2144171B1 (en) * | 2008-07-11 | 2018-05-16 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Audio encoder and decoder for encoding and decoding frames of a sampled audio signal |
US8359205B2 (en) * | 2008-10-24 | 2013-01-22 | The Nielsen Company (Us), Llc | Methods and apparatus to perform audio watermarking and watermark detection and extraction |
JP5277887B2 (ja) | 2008-11-14 | 2013-08-28 | ヤマハ株式会社 | 信号処理装置およびプログラム |
US20100138010A1 (en) | 2008-11-28 | 2010-06-03 | Audionamix | Automatic gathering strategy for unsupervised source separation algorithms |
US20100174389A1 (en) | 2009-01-06 | 2010-07-08 | Audionamix | Automatic audio source separation with joint spectral shape, expansion coefficients and musical state estimation |
EP2249334A1 (en) | 2009-05-08 | 2010-11-10 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Audio format transcoder |
RU2557455C2 (ru) * | 2009-06-23 | 2015-07-20 | Войсэйдж Корпорейшн | Прямая компенсация наложения спектров во временной области с применением в области взвешенного или исходного сигнала |
ES2524428T3 (es) | 2009-06-24 | 2014-12-09 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Decodificador de señales de audio, procedimiento para decodificar una señal de audio y programa de computación que utiliza etapas en cascada de procesamiento de objetos de audio |
US8498863B2 (en) | 2009-09-04 | 2013-07-30 | Massachusetts Institute Of Technology | Method and apparatus for audio source separation |
JP5493655B2 (ja) | 2009-09-29 | 2014-05-14 | 沖電気工業株式会社 | 音声帯域拡張装置および音声帯域拡張プログラム |
CN102044246B (zh) | 2009-10-15 | 2012-05-23 | 华为技术有限公司 | 一种音频信号检测方法和装置 |
EP2491548A4 (en) | 2009-10-19 | 2013-10-30 | Ericsson Telefon Ab L M | VOICE ACTIVITY METHOD AND DETECTOR FOR SPEECH ENCODER |
EP2546831B1 (en) | 2010-03-09 | 2020-01-15 | Mitsubishi Electric Corporation | Noise suppression device |
US8447595B2 (en) * | 2010-06-03 | 2013-05-21 | Apple Inc. | Echo-related decisions on automatic gain control of uplink speech signal in a communications device |
JP5706782B2 (ja) | 2010-08-17 | 2015-04-22 | 本田技研工業株式会社 | 音源分離装置及び音源分離方法 |
US8812322B2 (en) * | 2011-05-27 | 2014-08-19 | Adobe Systems Incorporated | Semi-supervised source separation using non-negative techniques |
CN103959376B (zh) * | 2011-12-06 | 2019-04-23 | 英特尔公司 | 低功率语音检测 |
US9524730B2 (en) * | 2012-03-30 | 2016-12-20 | Ohio State Innovation Foundation | Monaural speech filter |
JP6064566B2 (ja) | 2012-12-07 | 2017-01-25 | ヤマハ株式会社 | 音響処理装置 |
US9338420B2 (en) | 2013-02-15 | 2016-05-10 | Qualcomm Incorporated | Video analysis assisted generation of multi-channel audio data |
US9076459B2 (en) | 2013-03-12 | 2015-07-07 | Intermec Ip, Corp. | Apparatus and method to classify sound to detect speech |
CN104078050A (zh) * | 2013-03-26 | 2014-10-01 | 杜比实验室特许公司 | 用于音频分类和音频处理的设备和方法 |
US9384741B2 (en) | 2013-05-29 | 2016-07-05 | Qualcomm Incorporated | Binauralization of rotated higher order ambisonics |
US20150127354A1 (en) | 2013-10-03 | 2015-05-07 | Qualcomm Incorporated | Near field compensation for decomposed representations of a sound field |
FR3013885B1 (fr) * | 2013-11-28 | 2017-03-24 | Audionamix | Procede et systeme de separation de contributions specifique et de fond sonore dans un signal acoustique de melange |
CN104143326B (zh) | 2013-12-03 | 2016-11-02 | 腾讯科技(深圳)有限公司 | 一种语音命令识别方法和装置 |
US9922656B2 (en) | 2014-01-30 | 2018-03-20 | Qualcomm Incorporated | Transitioning of ambient higher-order ambisonic coefficients |
WO2015157013A1 (en) | 2014-04-11 | 2015-10-15 | Analog Devices, Inc. | Apparatus, systems and methods for providing blind source separation services |
DK3161787T3 (en) | 2014-06-30 | 2018-08-13 | Ventana Med Syst Inc | DETECTING EDGE OF A CELL CEREALS USING CAR ANALYSIS |
EP2980789A1 (en) | 2014-07-30 | 2016-02-03 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Apparatus and method for enhancing an audio signal, sound enhancing system |
FR3031225B1 (fr) * | 2014-12-31 | 2018-02-02 | Audionamix | Procede de separation ameliore et produit programme d'ordinateur |
EP3079151A1 (en) * | 2015-04-09 | 2016-10-12 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Audio encoder and method for encoding an audio signal |
TWI573133B (zh) * | 2015-04-15 | 2017-03-01 | 國立中央大學 | 音訊處理系統及方法 |
US9747923B2 (en) * | 2015-04-17 | 2017-08-29 | Zvox Audio, LLC | Voice audio rendering augmentation |
BR112018005910B1 (pt) * | 2015-09-25 | 2023-10-10 | Fraunhofer - Gesellschaft Zur Förderung Der Angewandten Forschung E.V | Codificador e método para codificar um sinal de áudio com ruído de fundo reduzido com o uso de conversão em código preditiva linear e sistema |
US9812132B2 (en) * | 2015-12-31 | 2017-11-07 | General Electric Company | Acoustic map command contextualization and device control |
WO2017136018A1 (en) * | 2016-02-05 | 2017-08-10 | Nuance Communications, Inc. | Babble noise suppression |
US9881619B2 (en) | 2016-03-25 | 2018-01-30 | Qualcomm Incorporated | Audio processing for an acoustical environment |
EP3324407A1 (en) * | 2016-11-17 | 2018-05-23 | Fraunhofer Gesellschaft zur Förderung der Angewand | Apparatus and method for decomposing an audio signal using a ratio as a separation characteristic |
EP3324406A1 (en) * | 2016-11-17 | 2018-05-23 | Fraunhofer Gesellschaft zur Förderung der Angewand | Apparatus and method for decomposing an audio signal using a variable threshold |
US10504539B2 (en) * | 2017-12-05 | 2019-12-10 | Synaptics Incorporated | Voice activity detection systems and methods |
-
2016
- 2016-11-17 EP EP16199402.5A patent/EP3324407A1/en not_active Withdrawn
-
2017
- 2017-11-16 BR BR112019009944A patent/BR112019009944A2/pt active Search and Examination
- 2017-11-16 KR KR1020197017323A patent/KR102427414B1/ko active IP Right Grant
- 2017-11-16 ES ES17798236T patent/ES2930268T3/es active Active
- 2017-11-16 MX MX2019005739A patent/MX2019005739A/es unknown
- 2017-11-16 JP JP2019526478A patent/JP7161215B2/ja active Active
- 2017-11-16 RU RU2019118471A patent/RU2729050C1/ru active
- 2017-11-16 CN CN201780071526.0A patent/CN110114828B/zh active Active
- 2017-11-16 CA CA3043964A patent/CA3043964C/en active Active
- 2017-11-16 EP EP17798236.0A patent/EP3542362B1/en active Active
- 2017-11-16 WO PCT/EP2017/079516 patent/WO2018091614A1/en active Search and Examination
-
2019
- 2019-05-17 US US16/415,392 patent/US11183199B2/en active Active
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2002047068A2 (en) * | 2000-12-08 | 2002-06-13 | Qualcomm Incorporated | Method and apparatus for robust speech classification |
EP2154911A1 (en) * | 2008-08-13 | 2010-02-17 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | An apparatus for determining a spatial output multi-channel audio signal |
US20110099010A1 (en) * | 2009-10-22 | 2011-04-28 | Broadcom Corporation | Multi-channel noise suppression system |
US20130018660A1 (en) * | 2011-07-13 | 2013-01-17 | Huawei Technologies Co., Ltd. | Audio signal coding and decoding method and device |
US20140358265A1 (en) * | 2013-05-31 | 2014-12-04 | Dolby Laboratories Licensing Corporation | Audio Processing Method and Audio Processing Apparatus, and Training Method |
RU2589298C1 (ru) * | 2014-12-29 | 2016-07-10 | Александр Юрьевич Бредихин | Способ повышения разборчивости и информативности звуковых сигналов в шумовой обстановке |
WO2016133785A1 (en) * | 2015-02-16 | 2016-08-25 | Dolby Laboratories Licensing Corporation | Separating audio sources |
Also Published As
Publication number | Publication date |
---|---|
WO2018091614A1 (en) | 2018-05-24 |
EP3324407A1 (en) | 2018-05-23 |
JP7161215B2 (ja) | 2022-10-26 |
US11183199B2 (en) | 2021-11-23 |
CA3043964C (en) | 2022-06-28 |
BR112019009944A2 (pt) | 2019-08-20 |
MX2019005739A (es) | 2019-09-11 |
ES2930268T3 (es) | 2022-12-09 |
KR102427414B1 (ko) | 2022-08-01 |
KR20190085062A (ko) | 2019-07-17 |
EP3542362A1 (en) | 2019-09-25 |
CN110114828A (zh) | 2019-08-09 |
JP2019537750A (ja) | 2019-12-26 |
CA3043964A1 (en) | 2018-05-24 |
EP3542362B1 (en) | 2022-09-21 |
CN110114828B (zh) | 2023-10-27 |
US20190272835A1 (en) | 2019-09-05 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
RU2734288C1 (ru) | Устройство и способ для разложения звукового сигнала с использованием переменного порогового значения | |
JP6641018B2 (ja) | チャネル間時間差を推定する装置及び方法 | |
RU2642376C2 (ru) | Способ обработки аудиосигнала, блок обработки сигналов, стереофонический рендерер, аудиокодер и аудиодекодер | |
RU2537044C2 (ru) | Устройство для формирования выходного пространственного многоканального аудио сигнала | |
EP1738356B1 (en) | Apparatus and method for generating multi-channel synthesizer control signal and apparatus and method for multi-channel synthesizing | |
JP5818913B2 (ja) | 音声信号フレームにおけるイベントのスロット位置の符号化および復号化 | |
RU2729050C1 (ru) | Устройство и способ для разложения звукового сигнала с использованием соотношения в качестве характеристики разделения | |
US20090204397A1 (en) | Linear predictive coding of an audio signal | |
JP2019194704A (ja) | 独立したノイズ充填を用いた強化された信号を生成するための装置および方法 | |
GB2470059A (en) | Multi-channel audio processing using an inter-channel prediction model to form an inter-channel parameter | |
RU2820946C1 (ru) | Устройство, способ или компьютерная программа для обработки кодированной аудиосцены с использованием расширения полосы пропускания |