[go: up one dir, main page]
More Web Proxy on the site http://driver.im/

RU2523215C2 - Устройство для формирования выходного пространственного многоканального аудио сигнала - Google Patents

Устройство для формирования выходного пространственного многоканального аудио сигнала Download PDF

Info

Publication number
RU2523215C2
RU2523215C2 RU2011154551/08A RU2011154551A RU2523215C2 RU 2523215 C2 RU2523215 C2 RU 2523215C2 RU 2011154551/08 A RU2011154551/08 A RU 2011154551/08A RU 2011154551 A RU2011154551 A RU 2011154551A RU 2523215 C2 RU2523215 C2 RU 2523215C2
Authority
RU
Russia
Prior art keywords
signal
rendering
dirac
component
mono
Prior art date
Application number
RU2011154551/08A
Other languages
English (en)
Other versions
RU2011154551A (ru
Inventor
Саша ДИШ
Вилле ПУЛККИ
Микко-Вилле ЛАИТИНЕН
Кумхур ЭРКУТ
Original Assignee
Фраунхофер-Гезелльшафт цур Фёрдерунг дер ангевандтен Форшунг Е.Ф.
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Family has litigation
First worldwide family litigation filed litigation Critical https://patents.darts-ip.com/?family=40121202&utm_source=google_patent&utm_medium=platform_link&utm_campaign=public_patent_search&patent=RU2523215(C2) "Global patent litigation dataset” by Darts-ip is licensed under a Creative Commons Attribution 4.0 International License.
Application filed by Фраунхофер-Гезелльшафт цур Фёрдерунг дер ангевандтен Форшунг Е.Ф. filed Critical Фраунхофер-Гезелльшафт цур Фёрдерунг дер ангевандтен Форшунг Е.Ф.
Publication of RU2011154551A publication Critical patent/RU2011154551A/ru
Application granted granted Critical
Publication of RU2523215C2 publication Critical patent/RU2523215C2/ru

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S3/00Systems employing more than two channels, e.g. quadraphonic
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S7/00Indicating arrangements; Control arrangements, e.g. balance control
    • H04S7/30Control circuits for electronic adaptation of the sound field
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S7/00Indicating arrangements; Control arrangements, e.g. balance control
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2400/00Details of stereophonic systems covered by H04S but not provided for in its groups
    • H04S2400/11Positioning of individual sound objects, e.g. moving airplane, within a sound field
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2420/00Techniques used stereophonic systems covered by H04S but not provided for in its groups
    • H04S2420/03Application of parametric coding in stereophonic audio systems

Landscapes

  • Physics & Mathematics (AREA)
  • Engineering & Computer Science (AREA)
  • Acoustics & Sound (AREA)
  • Signal Processing (AREA)
  • Stereophonic System (AREA)

Abstract

Изобретение относится к средствам формирования выходного пространственного многоканального аудио сигнала на основе входного аудио сигнала. Технический результат заключается в уменьшении вычислительных затрат процесса декодирования/рендеринга. Раскладывают входной аудио сигнал на основе входного параметра для получения первой компоненты сигнала и второй компоненты сигнала, отличающихся друг от друга. Выполняют рендеринг первой компоненты сигнала для получения первого представления сигнала с первым семантическим свойством и рендеринг второй компоненты сигнала для получения второго представления сигнала с вторым семантическим свойством, отличающимся от первого семантического свойства. Обрабатывают первое представление сигнала и второе представление сигнала для получения выходного пространственного многоканального звукового сигнала. 3 н. и 2 з.п. ф-лы, 8 ил.

Description

Настоящее изобретение относится к области аудио обработки, особенно обработки пространственных свойств аудио.
Аудио обработка и/или кодирование усовершенствовались во многих отношениях. Все большим спросом пользуются создаваемые пространственные аудио-приложения. Во многих приложениях обработка аудио сигнала используется для декорелляции или рендеринга сигналов. Такие приложения могут, к примеру, осуществить преобразования моно в стерео, моно/стерео в многоканальный звук, создавать эффекты искусственной реверберации, расширения стерео (Stereo widening) или пользовательские интерактивные эффекты смешивания/рендеринга.
Для некоторых классов сигналов, например шумоподобных сигналов, таких как сигналы похожие на аплодисменты, обычные методы и системы имеют недостатки либо неудовлетворительное качество восприятия, или, если используется объектно-ориентированный подход, высокую вычислительную сложность из-за большого количества акустических событий, которые необходимо моделировать или обработать. Другой пример аудио материала, который является проблематичным, это обычно материал окружения, такой как, шумы, создаваемые стаей птиц, у морского побережья, скачущей лошадью, подразделением солдат на марше и т.д.
При обычных подходах используют, например, параметрическое стерео или кодирование MPEG-окружения (MPEG=Экспертная группа по вопросам движущегося изображения). На Фиг.6 изображено обычное применение декорреляции для преобразования моно сигнала в стерео. На фиг.6 изображен входной моно сигнал, подаваемый на декоррелятор 610, который обеспечивает декорреляцию входного сигнала на выходе. На смешивающую матрицу 620 подается входной сигнал вместе с сигналом с декоррелятора. В зависимости от параметров управления смешивающей матрицей 630 формируется выходной стерео сигнал. Декореллятор сигнала 610 генерирует декоррелированный сигнал D, поступающий на уровень смешивающей матрицы 620 вместе с чистым моно сигналом М. Внутри смешивающей матрицы 620 формируются стерео каналы L (L=левый стереоканал) и R (R=правый стереоканал) в соответствии со смешивающей матрицей Н. Коэффициенты матрицы Н могут быть фиксированы, зависеть от сигнала, или находится под контролем пользователя.
Кроме того, матрица может управляться сторонней информацией, передаваемой с сигналом, содержащей параметрическое описание того, как смешать сигналы для создания желаемого многоканального выходного сигнала. Эта информация обычно генерируется кодировщиком сигнала до процесса преобразования.
Обычно это делается в пространственном параметрическом аудио кодировании, как, например, в параметрическом стерео, см. J. Breebaart, S. van de Par, A. Kohlrausch, E. Schuijers, "High-Quality Parametric Spatial Audio Coding at Low Bitrates" in AES 116th Convention, Berlin, Preprint 6072, May 2004 и в MPEG Surround, cf. J. Herre, K. Kjorling, J. Breebaart, et. al., "MPEG Surround - the ISO/MPEG Standard for Efficient and Compatible Multi-Channel Audio Coding" in Proceedings of the 122nd AES Convention, Vienna, Austria, May 2007. Типичная структура параметрического стерео декодера показана на фиг.7. В этом примере процесс декорреляции выполняется с преобразованным сигналом, сформированным анализирующим банком фильтров 710, который преобразует входной моно сигнал в другое представление, например представление в виде ряда частотных диапазонов в частотной области.
В частотной области декоррелятор 720 генерирует соответствующий декореллированный сигнал, который преобразуется в смешивающей матрице 730. Смешивающая матрица 730 управляется параметрами, которые обеспечиваются блоком модификации параметров 740, который в свою очередь получает их с пространственными входными параметрами и объединяет с параметрами уровня контроля 750. В примере, показанном на фиг.7, пространственные параметры могут изменяться пользователем или дополнительными средствами, как, например, постобработка для стерео рендеринга/презентации. В этом случае параметры смешивания могут быть объединены с параметрами стерео фильтров, чтобы сформировать входные параметры для смешивающей матрицы 730. Измерение параметров может осуществляться блоком изменения параметров 740. Выход смешивающей матрицы 730 соединен с синтезирующим банком фильтров 760, который формирует выходной стерео сигнал.
Как описано выше, выходной сигнал L/R смешивающей матрицы H может быть вычислен из входного моно сигнала М и декоррелированного сигнала D, например, в соответствии с выражением:
[ L R ] = [ h 11 h 12 h 21 h 22 ] [ M D ]
Figure 00000001
.
Декоррелированный звук на выходе матрицы смешивания может управляться на основе передаваемых параметров, таких как, ICC (ICC=Межканальная корреляция) и/или смешанных или определяемых пользователем параметров.
Еще один традиционный подход основан на методе временных перестановок. Специальный метод декорреляции таких сигналов, как сигналы, похожие на аплодисменты, можно найти, например, в Gerard Hotho, Steven van de Par, Jeroen Breebaart, "Multichannel Coding of Applause Signals," in EURASIP Journal on Advances in Signal Processing, Vol.1, Art. 10, 2008. Здесь, монофонический аудио сигнал сегментируется с использованием перекрывающихся временных сегментов, которые временно перестанавливаются псевдослучайным образом в пределах «супер»-блока, чтобы сформировать декоррелированные выходные каналы. Перестановки являются взаимно независимыми для n выходных каналов.
Другой подход - чередующееся переключение оригинальных и задержанных копий каналов, чтобы получить декоррелированный сигнал, см. Немецкий патент 102007018032.4-55. В некоторых известных объектно-ориентированных системах, например, см. Wagner, Andreas; Walther, Andreas; Melchoir, Frank; StrauB, Michael; "Generation of Highly Immersive Atmospheres for Wave Field Synthesis Reproduction" at 116th International EAS Convention, Berlin, 2004, где описывается как создать эффекты, создающие эффект присутствия, для многих объектов, таких как один хлопок, с применением синтеза поля волн.
Еще одним подходом является так называемое направленное аудио кодирование (DirAC), которое является методом рендеринга звука и применимо для различных систем воспроизведения звука, см. Pulkki, Ville, "Spatial Sound Reproduction with Directional Audio Coding" in J. Audio Eng. Soc., Vol.55, No. 6, 2007. В части анализа в одном месте оцениваются диффузия и направление прибытия звука, зависящие от времени и частоты. В части синтеза сигналы от микрофонов делятся сначала на диффузные и недиффузные части и затем воспроизводятся с помощью различных методов.
Традиционные подходы имеют ряд недостатков. К примеру, управляемое или неуправляемое смешивание аудио сигналов, таких как аплодисменты, может потребовать сильную декорреляцию. Следовательно, с одной стороны, сильная декорреляция необходима для восстановления атмосферы присутствия, к примеру, в концертном зале. С другой стороны, подходящие декоррелирующие фильтры, как, например, фазовые фильтры, снижают качество воспроизведения переходных событий, таких как один хлопок, путем создания эффектов временного смазывания, таких как пре- и пост-эхо, и звон фильтра. Кроме того пространственное расположение событий одиночных хлопков должно быть, сделано на временной сетке с хорошим разрешением, в то время как декоррелированное окружение должно быть квазистационарным во времени.
Современные системы согласно J. Breebaart, S. van de Par, A. Kohlrausch, E. Schuijers, "High-Quality Parametric Spatial Audio Coding at Low Bitrates" in AES 116th Convention, Berlin, Preprint 6072, May 2004 and J. Herre, K. Kjorling, J. Breebaart, et. al., "MPEG Surround - the ISO/MPEG Standard for Efficient and Compatible Multi-Channel Audio Coding" in Proceedings of the 122nd AES Convention, Vienna, Austria, May 2007 представляют собой компромисс между временным разрешением и атмосферой устойчивости, между ухудшением качества переходных процессов и атмосферой декорреляции.
Например, если в системе используется метод временных перестановок, будет чувствоваться ухудшение восприятия звука из-за определенных повторяющихся эффектов выходного аудио сигнала. Это объясняется тем фактом, что один и тот же сегмент входного сигнала появляется неизмененным в каждом выходном канале, хотя и в другой момент времени. Более того, чтобы избежать увеличения плотности аплодисментов, некоторые оригинальные каналы не используются при смешивании и таким образом могут быть пропущены некоторые важные события в аудитории.
В известных объектно-ориентированных системах такие звуковые события создаются большой группой распределенных точечных источников, что приводит к реализации сложных вычислительных алгоритмов.
Объектом настоящего изобретения является улучшение концепции пространственной обработки аудио. Это достигается с использованием устройства по п.1 и метода по п.16 формулы изобретения.
В предлагаемом изобретении показано, что звуковой сигнал может быть разложен на несколько компонент, которые обеспечивают пространственный рендеринг, например, с точки зрения декорреляции или с точки зрения пространственного распределения амплитуд. Другими словами, настоящее изобретение основано на обосновании того, что, например, в сценарии с несколькими источниками звука источники переднего плана и фона можно разделить и представить или декоррелировать по-разному. Как правило, можно выделить различные пространственные глубины и/или протяженности аудио объектов.
Одним из ключевых пунктов настоящего изобретения является разложение сигналов, таких как звук приветствия аудитории, стаи птиц, морского побережья, скачущей лошади, подразделения солдат на марше и т.д., на сигналы переднего плана и заднего плана, где сигналы переднего плана содержат отдельные акустические события, создаваемые, например, близко расположенными источниками и источниками на заднем плане, создающими окружающий фон распределенных вдали событий. До окончательного смешивания, эти две части сигнала, обрабатываются отдельно, например, для того, чтобы синтезировать корреляции, сформировать пространственное распределение аудио сигнала и т.д.
Предложенные решения не ограничены различием только частей сигнала переднего плана и заднего плана, они могут отличить нескольких различных аудио частей, которые могут быть представлены или декоррелированы по-разному.
В общем случае аудио сигналы могут быть разбиты на n различных семантических компонентов, которые обрабатываются отдельно. Процесс разложения/разделения различных семантических компонентов может быть реализован во временной и/или в частотной области.
Предложенное решение может обеспечить наилучшее качество восприятия звука при умеренных вычислительных затратах. Предложенное решение обеспечивает новый метод декорреляции/рендеринга, который обеспечивает высокое качество восприятия по умеренным ценам, особенно при обработке сигналов, похожих на аплодисменты, как критического аудио материала или других аналогичных, создающих фон, таких как, например, шум, создаваемый стаей птиц, морским побережьем, скачущей лошадью, подразделением солдат на марше и т.д.
Воплощения настоящего изобретения будут подробно рассмотрены с помощью сопровождающих фигур:
Фиг.1а показывает воплощение устройства для определения пространственного многоканального аудио сигнала;
Фиг.1b показывает блок-схему другого решения;
Фиг.2 показывает решение, иллюстрирующие множество сигналов разложения;
Фиг.3 иллюстрирует решение с семантическим разложением сигналов переднего плана и фона;
Фиг.4 иллюстрирует пример метода для получения компонент сигнала фона;
Фиг.5 иллюстрирует синтез источников звука, имеющих большую протяженность;
Фиг.6 иллюстрирует одно применение декоррелятора во временной области в преобразователе моно сигнала в стерео; и
Фиг.7 показывает другое применение декоррелятора в частотной области в преобразователе моно сигнала в стерео.
На фиг.1 представлено устройство 100 для определения выходного пространственного многоканального аудио сигнала, основанного на входном звуковом сигнале. В некоторых вариантах устройство может быть выполнено с возможностью формирования выходного пространственного многоканального аудиосигнала на базе входного параметра. Входной параметр может быть создан локально или обеспечиваться вместе с входным аудио сигналом, например, как внешняя информация.
В решении, изображенном на фиг. 1, устройство 100 включает в себя декомпозитор 110 для разложения входного аудио и получения первой компоненты сигнала с первым семантическим свойством и второй компоненты сигнала со вторым семантическим свойством, отличающимся от первого семантического свойства.
Устройство 100 далее включает в себя блок рендеринга 120 для рендеринга первой компоненты сигнала, с помощью первой характеристики рендеринга для получения первого сигнала рендеринга, имеющего первое семантическое свойство, и для рендеринга второй компоненты сигнала, с помощью второй характеристики рендеринга для получения второго сигнала рендеринга, имеющего второе семантическое свойство.
Семантическое свойство может соответствовать пространственному свойству, такому как близко или далеко, сосредоточено или распределено, и/или динамическому свойству, как, например, является ли сигнал тональным, постоянным или переходным, и/или свойству доминирования, как например, является ли сигнал сигналом переднего плана или фоном, и мера этого соответственно.
Кроме того, в решении устройство 100 включает процессор 130 для того, чтобы обработать первый предоставленный сигнал и второй предоставленный сигнал и получить выходной пространственный многоканальный аудио сигнал.
Другими словами, декомпозитор 110 выполнен с возможностью разложения аудио сигнала, в некоторых решениях, работа декомпозитора основана на входном параметре. Разложение аудио сигнала основано на семантических, например, пространственных свойствах различных частей аудио сигнала. Кроме того рендеринг, осуществляемый в блоке рендеринга 120, в соответствии с первой и второй характеристиками рендеринга может также быть выполнен с возможностью учета пространственных свойств, которые позволяют, например, в сценарии, где первая компонента сигнала соответствует фону аудио сигнала, и вторая компонента сигнала соответствует основному аудио сигналу, использовать другой рендеринг или декорреляторы. Далее термин «переднего плана» понимается как ссылка на объект аудио, доминирующей в аудио среде так, что потенциальный слушатель может заметить объект аудио переднего плана. Аудио объект переднего плана или источник может быть различен или дифференцирован от фонового звука (звука заднего плана) объекта или источника. Фоновый звук объекта или источника не может быть заметен для потенциального слушателя в аудио среде, как менее доминирующий, чем аудио объект или источник переднего плана.
Воплощение изобретения на ограничено аудио объектами или источниками переднего плана, такими как точечный источник звука, где аудио объектам или источникам заднего плана могут соответствовать пространственно более протяженные аудио объекты или источники. Другими словами, в воплощении изобретения первая характеристика рендеринга может быть основана или соответствовать первому семантическому свойству и вторая характеристика рендеринга может быть основана или соответствовать второму семантическому свойству. В одном решении первое семантическое свойство и первая характеристика рендеринга соответствуют аудио источнику или объекту на переднем плане и блок рендеринга 120 может быть выполнен с возможностью использования пространственного распределения амплитуд первой компоненты сигнала. Блок рендеринга 120 может быть далее выполнен с возможностью обеспечения в качестве первого сигнала рендеринга двухамплитудной версии первой компоненты сигнала. В этом решении второму семантическому свойству и второй характеристике рендеринга соответствуют множество аудио источников или объектов фона, и блок рендеринга 120 может быть выполнен с возможностью применения декорреляции ко второй компоненте сигнала и обеспечения в качестве второго сигнала рендеринга второй компоненты сигнала и его декоррелированной версии. В решении блок рендеринга 120 можно далее приспособить для рендеринга первой компоненты сигнала, так что первая характеристика рендеринга не имеет особенности введения задержки. Другими словами, может не быть декорреляции первой компоненты сигнала. В другом решении первая характеристика рендеринга может иметь задержку, характеризующуюся величиной первой задержки, и вторая характеристика рендеринга может иметь вторую величину задержки, вторая величина задержки больше, чем первая величина задержки. Другими словами, в этом решении как первая компонента сигнала, так и вторая компонента сигнала может быть декоррелирована, однако уровень декорреляции может масштабироваться в соответствии с величинами задержек соответствующих компонент сигналов. Поэтому декорреляция может быть сильнее для второй компоненты сигнала, чем для первой компоненты сигнала.В решении первая компонента сигнала и вторая компонента сигнала могут перекрываться и/или могут быть синхронны во времени. Другими словами, обработка сигналов может осуществляться блочным методом, где один блок образцов входного аудио сигнала может разделяться декомпозитором 110 на ряд блоков компонент сигнала. В решении ряд компонент сигнала может, по крайней мере, частично перекрываться во временной области, то есть компоненты могут представлять собой перекрытие образцов во временной области. Другими словами, компоненты сигнала могут соответствовать частям входного аудио сигнала, которые перекрываются, то есть которые представляют, по крайней мере, частично одновременные аудиосигналы. В решении первая и вторая компоненты сигнала могут представлять отфильтрованные или преобразованные версии первоначального входного сигнала. Например, они могут представлять части сигнала, извлеченные из составного пространственного сигнала, например, соответствующие близкому источнику звука или более отдаленному источнику звука. В другом решении они могут соответствовать переходному и стационарному компонентам сигнала и т.д.
В решении блок рендеринга 120 может подразделяться на первый блок рендеринга и второй блок рендеринга, где первый блок рендеринга может быть выполнен с возможностью рендеринга первой компоненты сигнала и второй блок рендеринга может быть выполнен с возможностью рендеринга второй компоненты сигнала сигнал. В решении блок рендеринга 120 может осуществляться в виде программного обеспечения, например, как программы, хранящиеся в памяти для выполнения процессором или цифровым сигнальным процессором, который, в свою очередь, выполнен с возможностью для рендеринга компонент сигнала последовательно.
Блок рендеринга 120 может быть выполнен с возможностью декорреляции первой компоненты сигнала для получения первого декоррелированного сигнала и/или декорреляции второй компоненты сигнала для получения второго декоррелированного сигнала. Другими словами, блок рендеринга 120 может быть выполнен с возможностью декорреляции обоих компонент сигнала, однако, с использованием различных характеристик декорреляции или рендеринга. В решении блок рендеринга 120 может быть выполнен с возможностью использования распределения амплитуд одной из первой или второй компонент сигнала вместо или в дополнение к декорреляции.
Блок рендеринга 120 может быть выполнен с возможностью рендеринга первого и второго сигналов, каждый из которых имеет столько компонентов сколько каналов в пространственном многоканальном аудио сигнале, и процессор 130 может быть выполнен с возможностью объединения компонентов из первого и второго представлений сигналов для получения выходного пространственного многоканального звукового сигнала. В других решениях блок рендеринга 120 может быть выполнен с возможностью рендеринга первого и второго сигналов, каждый из которых имеет меньше компонентов, чем выходной пространственный многоканальный звуковой сигнал, и где процессор 130 может быть выполнен с возможностью смешивания компонентов первого и второго представлений сигналов для получения выходного пространственного многоканального звукового сигнала.
Фиг.1b иллюстрирует еще одно воплощение устройства 100, включающее аналогичные компоненты, которые были введены с помощью фиг.1а. Однако, фиг.1b иллюстрирует решение, имеющее больше деталей. На фиг.1b изображен декомпозитор 110 для получения аудио сигнала и, при необходимости, входного параметра. Как видно из фиг.1b, декомпозитор выполнен с возможностью формирования первой и второй компоненты сигнала для блока рендеринга 120, который обозначен пунктирной линией. В решении, иллюстрированном на фиг.1b, предполагается, что первая компонента сигнала соответствует точечному аудио источнику, как первому семантическому свойству, и что блок рендеринга 120 выполнен с возможностью выполнения пространственного распределения амплитуды, как первой характеристики рендеринга первой компоненты сигнала. В решении первая и вторая компоненты сигнала являются сменными, то есть в других решениях выполнение пространственного распределения амплитуды может применяться ко второй компоненте сигнала.
В решении на фиг.1b блока рендеринга 120 показаны два масштабируемых усилителя 121 и 122, расположенных на пути прохождения первой компоненты сигнала, усилители выполнены с возможностью усиления двух копий первой компоненты сигнала по-разному. Используемые в решении различные коэффициенты усиления определяются из входного параметра, в других воплощениях они могут быть определены из входного аудио сигнала, они могут быть предустановлены или сформированы локально, возможен, также ввод данных пользователем. Выходные сигналы двух масштабируемых усилителей 121 и 122 подаются на процессор 130, информация относительно которого будет представлена ниже.
Как видно из фиг.1b, декомпозитор 110 формирует вторую компоненту сигнала для блока рендеринга 120, который осуществляет другой рендеринг на пути обработки второй компоненты сигнала. В других решениях первая компонента сигнала может быть обработана в соответствии с приведенным путем обработки второй компоненты сигнала или вместо второй компоненты сигнала. Первая и вторая компоненты сигнала могут меняться местами.
В решении на фиг.1b, на пути обработки второй компоненты сигнала есть декоррелятор 123, следующий за блоком циклического сдвига или за блоком параметрического стерео, или за модулем смешения 124, как второй характеристики рендеринга. Декоррелятор 123 может быть выполнен с возможностью декорреляции второй компоненты сигнала X[k] и для формирования декоррелированной версии Q[k] второй компоненты сигнала для параметрического стерео или модуля смешения 124. На фиг.1b моно сигнал X[k] поступает на блок декоррелятора "D" 123 и на модуль смешения 124. Блок декоррелятора 123 может формировать декоррелированную версию входного сигнала Q[k], имеющую аналогичные частотные характеристики и аналогичную среднюю энергию. Модуль смешения 124 может на базе пространственных параметров вычислять коэффициенты смешивающей матрицы и синтезировать выходные каналы Y1[k] и Y2[k]. Модуль смешения описывается выражением:
[ Y 1 [ k ] Y 2 [ k ] ] = [ c l 0 0 c r ] [ cos ( α + β ) sin ( α + β ) cos ( α + β ) sin ( α + β ) ] [ X [ k ] Q [ k ] ]
Figure 00000002
;
где параметры сl, сr, α и β - константы или переменные, зависящие от времени или частоты, адаптивно вычисляемые из входного сигнала X[k], или передаваемые как внешняя информация вместе с входным сигналом X[k], например, в формате параметров ILD (ILD=Inter channel Level Difference) и параметров ICC (ICC=Inter Channel Correlation). Сигнал X[k] - принимаемый моно сигнал, Q[k] - декоррелированный сигнал, являющийся декоррелированной версией сигнала X[k]. Y1[k] и Y2[k] - выходные сигналы.
Декоррелятор 123 может быть реализован как фильтр IIR (IIR=Infinite Impulse Response), произвольный FIR фильтр (FIR=Finite Impulse response) или специальный FIR фильтр, использующий одно подсоединение просто для задержки сигнала.
Параметры сl, сr, α и β могут быть определены различными путями. В некоторых решениях они просто определяются входными параметрами, которые могут быть обеспечены вместе с входным аудио сигналом, например с данными нижнего уровня как внешняя информация. В других решениях они могут формироваться локально или выводиться из свойств входного аудио сигнала.
В решении, представленном на фиг.1b, блок рендеринга 120 выполнен с возможностью рендеринга второго сигнала в виде двух выходных сигналов Y1[k] и Y2[k], формируемых модулем смешения 124 и подаваемых на процессор 130.
В соответствии с маршрутом обработки первой компоненты сигнала две версии пространственного распределения амплитуд первой компоненты сигнала с выходов двух масштабируемых усилителей 121 и 122 также подаются на процессор 130. В других решениях масштабируемые усилители 121 и 122 могут присутствовать в процессоре 130, где только первая компонента сигнала и параметр пространственного распределения амплитуд (панорамирования) могут формироваться блоком рендеринга 120.
Как можно видеть на фиг. lb, процессор 130 может быть выполнен с возможностью обработки или объединения первого сигнала рендеринга и второго сигнала рендеринга, в этом решении просто путем объединения выходов, чтобы обеспечить стерео сигнал, имеющий левый канал L и правый канал R, соответствующие выходному пространственному многоканальному звуковому сигналу фиг. la. B решении на фиг. lb для обоих маршрутов сигналов определены левый и правый каналы стерео сигнала. На маршруте первой компоненты сигнала распределение амплитуд осуществляется двумя масштабируемыми усилителями 121 и 122, таким образом формируются две компоненты синфазных звуковых сигналов, которые масштабируются по-разному. Это создает впечатление точечного аудио источника как семантического свойства или характеристики рендеринга.На маршруте обработки второй компоненты сигнала, выходные сигналы Y1[k] и Y2[k], подаются на процессор 130 и обеспечивают сигналы левого и правого каналов, определяемые в модуле смешения 124. Параметры сl, сr, α и β определяют пространственную протяженность соответствующего аудио источника. Другими словами,, параметры сl, сr, α и β могут быть выбраны с использованием метода или в диапазоне так, что для R и L каналов любая корреляция между максимальной корреляцией и минимальной корреляцией может быть получена на втором маршруте обработки сигнала как вторая характеристика рендеринга. Более того, это можно осуществлять независимо для различных частотных полос. Другими словами, параметры сl, сr, α и β могут быть выбраны с использованием метода или в диапазоне так, что L и R каналы будут синфазные, при моделировании точечного аудио источника как семантического свойства.
Параметры сl, сr, α и β могу также быть выбраны с использованием метода или
в диапазоне так, что каналы L и R на втором маршруте обработки сигнала будут декоррелированы при моделировании пространственно распределенного источника звука как семантического свойства, т.е. моделирование источника звука на заднем плане или пространственно протяженного. Фиг. 2 иллюстрирует другое решение, которое является более общим. На Фиг. 2 изображен блок семантического разложения 210, которому соответствует декомпозитор 110. Выход блока семантического разложения 210 является входом стадии рендеринга 220, которому соответствует блок рендеринга 120. На стадии рендеринга 220 состоит из ряда отдельных модулей рендеринга 221-22n, то есть блок семантического разложения 210 выполнен с возможностью разложения моно/стерео входного сигнала на n компонент сигнала, имеющих n семантических свойств. Разложение может осуществляться на основе параметров контроля разложения, которые могут быть предоставлены вместе с моно/стерео входным сигналом, быть предустановленны, создаваться локально или вводиться пользователя и т.д.
Другими словами, декомпозитор 110 может быть выполнен с возможностью семантического разложения аудио сигнала, основанного на дополнительном входном параметре и/или для определения входного параметра из аудио сигнала. Выходные данные декорреляции или стадии рендеринга 220 подаются затем на блок смешения 230, который формирует многоканальный выходной сигнал на основе декорреляции или рендеринга сигналов и, при необходимости, на основе параметров управления смешением.
Как правило, устройство может разделить звуковой материал на n различных семантических компонент и декоррелировать каждый компонент отдельно с использованием декорреляторов D1-Dn, изображенных на фиг.2. Другими словами, в решении характеристики рендеринга соответствуют семантическим свойствам компонент сигналов. Каждый из декорреляторов или блоков рендеринга может быть выполнен с возможностью учета семантически свойств соответствующего компонента сигнала. Впоследствии обработанные компоненты могут смешаны для получения выходного многоканального сигнала. Различные компоненты могут, например, соответствовать моделируемым объектам переднего плана и фона.
Другими словами, блок рендеринга 110 может быть выполнен с возможностью объединения первой компоненты сигнала и первого декоррелированного сигнала для получения стерео или многоканального смешанного сигнала, как рендеринга первого сигнала и/или для объединения второй компоненты сигнала и второго декоррелированного сигнала для получения стерео смешанного сигнала как рендеринга второго сигнала.
Кроме того, блок рендеринга 120 может быть выполнен с возможностью рендеринга первой компоненты сигнала в соответствии с аудио характеристикой фона и/или для рендеринга второй компоненты сигнала в соответствии с основной характеристикой аудио или наоборот.
Поскольку, например, сигналы, похожие на аплодисменты, можно рассматривать как сигналы, состоящие из отдельных хлопков и шума как атмосферы, с очень плотными далекими хлопками, подходящее разложение такого сигнала может быть получено путем разделения изолированных хлопков переднего плана, как одного из компонентов, и фонового шума, как другого компонента. Другими словами, в одном решении n=2. В таком решении, например, блок рендеринга 120 может быть выполнен с возможностью рендеринга первой компоненты сигнала путем обеспечения пространственного распределения амплитуд (амплитудного панорамирования) первой компоненты сигнала. Другими словами, корреляция или рендеринг хлопков переднего плана может в решении достигаться в ячейке D1 амплитудного панорамирования на рассчитанное место каждого отдельного события.
В решении блок рендеринга 120 может быть выполнен с возможностью рендеринга первой и/или второй компоненты сигнала, например, с использованием фазовой фильтрации первой или второй компонент сигнала для получения первого или второго декоррелированного сигнала.
Другими словами, в решении фон может быть декоррелирован или подвергнут рендерингу с использованием m независимых друг от друга фазовых фильтров D 1 m . 2
Figure 00000003
В решении фазовыми фильтрами может быть обработан только квазистационарный фон, эффектов временного запаздывания, возникающих при использовании традиционных методов, можно таким образом избежать. При применении амплитудного панорамирования к событиям, создаваемым объектом переднего плана, исходная плотность аплодисментов переднего плана может быть примерно восстановлена в отличие от существующих систем, представленных, например, в работах J. Breebaart, S. van de Par, A. Kohlrausch, E. Schuijers, "High-Quality Parametric Spatial Audio Coding at Low Bitrates" in AES 116th Convention, Berlin, Preprint 6072, May 2004 and J.Herre, K.Kjorling, J.Breebaart, et. al., "MPEG Surround - the ISO/MPEG Standard for Efficient and Compatible Multi-Channel Audio Coding" in Proceedings of the 122nd AES Convention, Vienna, Austria, May 2007.
Другими словами, в решении декомпозитор 110 может быть выполнен с возможностью разложения входного аудио сигнала семантически на базе входного параметра, где входной параметр может передаваться вместе с аудио сигналом, как, например, внешняя информация. В таком решении декомпозитор 110 может быть выполнен с возможностью определения входного параметра из аудио сигнала. В других решениях декомпозитор 110 может быть выполнен с возможностью определения входного параметра как параметра управления, не зависящего от входного аудио сигнала, который может быть создан локально, предустановлен, или также может быть введен пользователем.
Конструкция блока рендеринга 120 может быть выполнена с возможностью получения пространственного распределения первого сигнала рендеринга или второго сигнала рендеринга путем применения широкополосного амплитудного панорамирования. Другими словами, в соответствии с описанием фиг. lb, данным выше, вместо создания точечного источника панорамированное местоположение источника может меняться во времени для того
чтобы создать аудио источник с определенным пространственным распределением. В решениях блок рендеринга 120 может быть выполнен с возможностью использования локально сформированного низкочастотного шума для амплитудного панорамирования, т.е. коэффициенты усиления амплитуды панорамирования, например, масштабируемых усилителей 121 и 122 на фиг.1b соответствуют значению локально созданного шума, то есть меняются во времени в определенной полосе частот.
Решения могут быть выполнены с возможностью эксплуатации в управляемом или неуправляемом режимах. Например, при управляемом режиме, например, см. блок, обведенный пунктирной линией на фиг. 2, декорреляция может быть достигнута путем применения стандартной технологии декорреляционных фильтров, управляемых на грубый временной сетке только для, например, фона или атмосферы, и обеспечить корреляцию путем перераспределения каждого отдельного события в, например, области переднего плана с использованием переменного во времени пространственного позиционирования с помощью широкополосного амплитудного панорамирования на гораздо более точной временной сетке. Другими словами, в решении блок рендеринга 120 может быть выполнен с возможностью работы декорреляторов различных компонент сигналов на разных временных сетках, т.е базирующихся на разных временных масштабах, которые могут выражаться в виде различных частот дискретизации или различных задержек для соответствующих декорреляторов. В одном решении разделения фона и переднего плана для области на переднем плане может использоваться амплитудное панорамирование, где амплитуда меняется на гораздо более точной временной сетке, чем в операции декорреляции, связанной с обработкой фона.
Кроме того, отметим, что для декорреляции, например, сигналов, похожих на аплодисменты, то есть квазистационарных случайных сигналов, точное пространственное положение каждого одиночного хлопка на переднем плане не может иметь такого значения, как восстановление общего распределения множества хлопков. Решение может иметь преимущество благодаря этому факту и может работать в неуправляемом режиме. В таком режиме, упомянутый выше фактор амплитудного панорамирования может контролироваться низкочастотным шумом. Фиг.3 иллюстрирует систему моно-стерео, осуществляющую этот сценарий. На фиг.3 изображен семантический блок разложения 310 соответствующего декомпозитора 110 для разложения входного моно сигнала на компоненту переднего плана и компоненту заднего плана.
Как видно на фиг.3, компонента сигнала заднего плана обрабатывается фазовым фильтром D1 320. Декоррелированный сигнал затем поступает вместе с необработанной компонентой заднего плана (фона) в блок смешения 330, соответствующий процессору 130. Компонента сигнала переднего плана поступает на стадию амплитудного панорамирования D2 340, которой соответствует блок рендеринга 120. Локально созданный низкочастотный шум 350 также поступает на стадию амплитудного панорамирования 340, которая формирует входной сигнал переднего плана блока смешения 330. Выходной сигнал стадии амплитудного панорамирования D2 340 может определяться, коэффициентом масштабирования k для выбора амплитуды из двух наборов стерео аудио каналов. Выбор коэффициента масштабирования k может быть основан на низкочастотном шуме.
Как видно из фиг.3, есть только одна стрелка между амплитудным панорамирование 340 и блоком смешения 330. Эта стрелка может также представлять амплитудно панорамированные сигналы, то есть в случае стерео блока смешения - левый и правый каналы. Как видно из фиг.3, блок смешения 330, соответствующий процессору 130, может быть выполнен с возможностью обработки или объединения компонент сигналов фона и переднего плана, чтобы получить выходной стерео сигнал.
Другие решения могут использовать естественную обработку для получения компонент фона и переднего плана или входных параметров для разложения. Декомпозитор 110 может быть выполнен с возможностью определения первой компоненты сигнала и/или второй компоненты сигнала на основе метода анализа кратковременных особенностей. Другими словами, декомпозитор 110 может быть выполнен с возможностью определения первой или второй компоненты сигнала, основываясь на методе разделения и другой компоненте сигнала, основанной на разнице между определенной компонентой сигнала и полным аудио сигналом. В других решениях первая или вторая компоненты сигнала могут быть определены на основе метода анализа кратковременных особенностей и вычисление другой компоненты сигнала может быть основано на разнице между первой или второй компонентами сигнала и полного аудио сигнала.
Декомпозитор 110 и/или блок рендеринга 120, и/или процессор 130 может включать DirAC моно стадию, и/или стадию DirAC synthesis, и/или DirAC стадию слияния. В решении декомпозитор 110 может быть выполнен с возможностью разложения входного аудио сигнала, блок рендеринга 120 может быть выполнен с возможностью рендеринга первой и/или второй компоненты сигнала, и/или процессор 130 может быть выполнен с возможностью обработки первой и/или второй компоненты с блока рендеринга в различных частотных диапазонах.
Решение может использовать следующее приближение для сигналов, похожих на аплодисменты. В то время как компонента переднего плана может быть получена методами обнаружения или разделения кратковременных особенностей, см. Pulkki, Ville; "Spatial Sound Reproduction with Directional Audio Coding" in J. Audio Eng. Soc., Vol.55, No. 6, 2007, компонента фона может быть получена с использованием разностного сигнала. На фиг.4 изображен пример, где описан подходящий метод для получения компоненты фона x'(n), например x(n), сигналов, похожих на аплодисменты, для реализации семантического разложения 310, см. фиг.3, то есть воплощение декомпозитора 120. На фиг.4 изображен дискретизированный во времени входной сигнал x(n), который является входным для блока ДПФ 410 (DFT=дискретное преобразование Фурье). Выходной сигнал блока ДПФ 410 подается на блок сглаживания спектра 420 и блок спектрального отбеливания 430 для спектрального отбеливания на основе результатов ДПФ 410 и выходных данных стадии сглаживания спектра 430.
Выходные данные блока спектрального отбеливания 430 затем подаются на блок сбора спектральных максимумов 440, который разделяет спектр и формирует два выходных сигнала, т.е. шум, переходные сигналы и тональный сигнал. Шум и переходные сигналы подаются на LPC фильтр 450 (LPC=Linear Prediction Coding), выходной сигнал остаточного шума которого подается на блок смешения 460 вместе с выходным тональным сигналом блока сбора спектральных максимумов 440. Выходные данные блока смешения 460 затем подаются на блок формирования спектра 470, который формирует спектр на основе сглаженного спектра, формируемого в блоке сглаживания спектра 420. Выходные данные блока формирования спектра 470 затем предоставляется на фильтр синтеза 480, то есть на блок обратного дискретного преобразования Фурье для получения сигнала x'(n), представляющего компонент фона. Основной компонент затем может быть получен как разница входного сигнала и выходного сигнала, то есть как x(n)-x'(n).
Настоящее изобретение может использоваться в приложениях виртуальной реальности, как, например, 3D играх. В таких приложениях синтез источников звука с большой пространственной протяженностью на основе известных решений может быть составным и сложным. Источниками звука могут быть, например, море, стая птиц, скачущая лошадь, подразделение солдат на марше или приветствия аудитории. Как правило, такие звуковые события пространственно формируются как большая группа точечных источников, что приводит к вычислительно сложным реализациям, см. Wagner, Andreas; Walther, Andreas; Melchoir, Frank; StrauB, Michael; "Generation of Highly Immersive Atmospheres for Wave Field Synthesis Reproduction" at 116th International EAS Convention, Berlin, 2004.
Предложенное решение может дать метод, который правдоподобно осуществляет синтез протяженных источников звука, но в то же время имеет меньшую структурную и вычислительную сложность. Решение может основываться на DirAC (DirAC=Directional Audio Coding),см. Pulkki, Ville; "Spatial Sound Reproduction with Directional Audio Coding ///J. Audio Eng. Soc., Vol.55, No. 6, 2007. Другими словами, решение декомпозитора 110 и/или средств рендеринга 120, и/или процессора 130 могут быть выполнены с возможностью обработки сигналов DirAC. Другими словами, декомпозитор 110 может включать стадию DirAC моно, блок рендеринга 120 может включать стадии DirAC синтеза и/или процессор может включать стадию DirAC слияния.
Решение может основываться на DirAC обработке, например, используя только две структуры синтеза, например, один - для источников звука переднего плана и один - для источников звука фона. Звук переднего плана может быть использован в одном DirAC потоке с данными контроля направления, что приводит к восприятию расположенных вблизи точечных источников. Фоновый звук также может быть воспроизведен с помощью одного потока с данными дифференциального контроля направления, что приводит к восприятию пространственно распределенных звуковых объектов. Два потока DirAC могут быть объединены и декодированы, например, для произвольной установки громкоговорителей или для наушников.
Фиг.5 иллюстрирует синтез пространственно протяженных источников звука. На фиг.5 показан верхний моно блок 610, который создает DirAC моно поток, ведущих к восприятию близлежащих точечных источников звука, таких как ближайшие хлопки аплодисментов аудитории. Нижний моно блок 620 используется для создания DirAC моно потока, ведущего к восприятию пространственно распределенного звука, который подходит, например, для создания фонового звука аплодисментов от аудитории. Выходные сигналы двух DirAC моно блоков 610 и 620 затем объединяются на этапе DirAC слияния 630. Фиг.5 показывает, что в этом решении используются только два блока DirAC синтеза 610 и 620. Один из них используется для создания звуковых событий, которые находятся на переднем плане, такие как звуки ближайших или расположенных поблизости птиц или ближайших или расположенных поблизости лиц аплодирующей аудитории, и другой создает фоновый звук, непрерывный звук стаи птиц и т.д.
Звук переднего плана преобразуется в DirAC моно поток DirAC моно блоком 610 способом, при котором азимутальные данные остаются неизменными с частотой, однако, изменяются случайно или под контролем внешнего процесса во времени. Параметр диффузии ψ имеет значение 0, то есть представляет точечный источник. Предполагается, что аудио входные данные блока 610 являются неперекрывающимся во времени звуками, такими как звуки криков отдельных птиц или хлопки аплодисментов, что создает восприятие близлежащих звуков таких источников, как птицы или аплодирующих персон. Пространственно распределенные звуковые события на переднем плане контролируется подстройкой 9 и 9range_foreground, что означает, что отдельные звуковые события будет восприниматься в направлениях θ±θrange_foreground, в то время как одно событие может быть воспринято как точечное. Другими словами, точечные источники звука создаются в возможных позициях в диапазоне θ±θrange_foreground .
Блок фона 620 принимает входной поток аудио сигналов, который содержит все остальные звуковые события, которые не представлены в аудио потоке переднего плана, которые включают множество дублированных во времени звуковых событий, например сотни птиц или большое количество далеких аплодисментов. Прилагаемые значения азимута устанавливаются случайно как во времени, так и по частоте, в пределах, учитывающих ограничение значений азимута θ±θrange_background. Пространственно протяженные фоновые звуки, таким образом, могут быть синтезированы с низкой сложностью вычислений. Параметром диффузии ψ также можно управлять. Если он был добавлен, DirAC декодер будет применять звук на всех направлениях, которые могут быть использованы, когда источник звука полностью окружает слушателя. Если этого окружения нет, диффузия в решении может оставаться низкой или близкой к 0, или нулевой.
Решение настоящего изобретения может предоставить преимущество, заключающееся в том, что отличное качество восприятия обработанных звуков может быть достигнуто при умеренных вычислительных затратах. Решение допускает модульную реализацию пространственного представления звука, как, например, показано на фиг.5.
В зависимости от определенных требований осуществления изобретения предложенные методы могут осуществляться в виде аппаратуры или программного обеспечения. Осуществление изобретения может быть выполнено с использованием цифрового носителя и, в частности, флэш-памяти, диска, DVD или CD, с которых могут быть считаны в электронной форме записанные управляющие сигналы, которые с программируемой компьютерной системой обеспечивают выполнение методов предлагаемого изобретения. Таким образом, как правило, настоящее изобретение является компьютерной программой с программным кодом, хранящемся на машиночитаемых носителях. Программный код осуществляет предложенные в изобретении методы, когда программа выполняется на компьютере. Другими словами,, предложенные в изобретении методы являются, таким образом, компьютерной программой, имеющей код для выполнения, по крайней мере, одного из предложенных методов, когда программа выполняется на компьютере.

Claims (5)

1. Устройство (100) для формирования выходного пространственного многоканального аудио сигнала на основе входного звукового сигнала, содержащее семантический декомпозитор (110), выполненный с возможностью разложения входного аудио сигнала для получения первой компоненты сигнала, имеющей первое семантическое свойство, первая компонента сигнала является сигналом области переднего плана, и второй компоненты сигнала, имеющей второе семантическое свойство, отличающееся от первого семантического свойства, вторая компонента сигнала является сигналом заднего плана;
блок рендеринга (120), выполненный с возможностью рендеринга первой компоненты сигнала с использованием первой характеристики рендеринга, чтобы получить первый сигнал рендеринга, имеющий первое семантическое свойство, и для рендеринга второй компоненты сигнала с использованием второй характеристики рендеринга, чтобы получить второй сигнал рендеринга, имеющий второе семантическое свойство, где первая характеристика рендеринга и вторая характеристика рендеринга отличаются друг от друга,
где блок рендеринга (120) разделен на первый блок рендеринга,включающий первый блок направленного аудио кодирования DirAC (610) для рендеринга части сигнала переднего плана, первый DirAC блок (610) выполнен с возможностью создания первого моно-DirAC потока, приводящего к восприятию близлежащего точечного источника, и второй блок рендеринга, включающий второй DirAC блок (620) для рендеринга части сигнала заднего плана, второй DirAC блок (620) выполнен с возможностью создания моно-DirAC потока, приводящего к восприятию пространственно распределённого звука; и
процессор (130) для обработки первого сигнала рендеринга и второго сигнала рендеринга, чтобы получить пространственный выходной многоканальный аудиосигнал, где процессор (130) включает блок DirAC слияния (630) для того, чтобы объединить первый моно-DirAC поток и второй моно-DirAC поток.
2. Устройство по п.1, в котором первый DirAC блок (610) выполнен так, чтобы данные об азимуте были сохранены постоянными с частотой и изменились случайно или под управлением во времени внешним процессом в пределах управляемого диапазона изменения азимута, и параметр диффузии был установлен в ноль, и в котором второй DirAC блок (620) выполнен так, чтобы данные об азимуте устанавливались случайно во времени и частоте в пределах величин ограничения азимута.
3. Способ для определения пространственного выходного многоканального аудиосигнала, основанный на входном аудиосигнале и входном параметре, включающий семантическое разложение входного аудиосигнала, чтобы получить первую компоненту сигнала, имеющую первую семантическую особенность, первая компонента сигнала является сигналом переднего плана, и вторую компоненту сигнала, имеющую вторую семантическую особенность, отличающуюся от первой семантической особенности, вторая компонента сигнала является сигналом заднего плана; рендеринг первой компоненты сигнала использует первую характеристику рендеринга, чтобы получить первый сигнал рендеринга, имеющий первую семантическую особенность, путем обработки первой компоненты сигнала в первом DirAC блоке (610), первый DirAC блок (610) выполнен с возможностью создания первого моно-DirAC потока, приводящего к восприятию близлежащего точечного источника; рендеринг второй компоненты сигнала использует вторую характеристику рендеринга, чтобы получить второй сигнал рендеринга, имеющий вторую семантическую особенность, путем обработки второй компоненты сигнала во втором DirAC блоке (620), второй DirAC блок (620) выполнен с возможностью создания моно- DirAC потока, приводящего к восприятию пространственно протяжённого источника; обработку первого сигнала рендеринга и второго сигнала рендеринга, чтобы получить пространственный выходной многоканальный аудиосигнал при использовании DirAC блока слияния (630) для того, чтобы объединить первый моно-DirAC поток и второй моно-DirAC поток.
4. Способ по п.З, в котором в первом DirAC блоке (610) данные об азимуте сохраняются постоянными с частотой и изменяются случайно или под управлением во времени внешним процессом в пределах заданного диапазона изменения азимута, и параметр диффузии устанавливается в ноль, и в котором во втором DirAC блоке (610) данные об азимуте устанавливаются случайно во времени и частоте в пределах заданных величин ограничения азимута.
5. Машиночитаемый носитель информации с компьютерной программой, имеющей программный код для выполнения способа по п.З, когда код программы выполняется на компьютере или процессоре.
RU2011154551/08A 2008-08-13 2011-12-27 Устройство для формирования выходного пространственного многоканального аудио сигнала RU2523215C2 (ru)

Applications Claiming Priority (4)

Application Number Priority Date Filing Date Title
US8850508P 2008-08-13 2008-08-13
US61/088,505 2008-08-13
EP08018793A EP2154911A1 (en) 2008-08-13 2008-10-28 An apparatus for determining a spatial output multi-channel audio signal
EP08018793.3 2008-10-28

Related Parent Applications (1)

Application Number Title Priority Date Filing Date
RU2011106583/08A Division RU2504847C2 (ru) 2008-08-13 2009-08-11 Устройство для формирования выходного пространственного многоканального аудио сигнала

Publications (2)

Publication Number Publication Date
RU2011154551A RU2011154551A (ru) 2013-07-10
RU2523215C2 true RU2523215C2 (ru) 2014-07-20

Family

ID=40121202

Family Applications (3)

Application Number Title Priority Date Filing Date
RU2011154550/08A RU2537044C2 (ru) 2008-08-13 2009-08-11 Устройство для формирования выходного пространственного многоканального аудио сигнала
RU2011106583/08A RU2504847C2 (ru) 2008-08-13 2009-08-11 Устройство для формирования выходного пространственного многоканального аудио сигнала
RU2011154551/08A RU2523215C2 (ru) 2008-08-13 2011-12-27 Устройство для формирования выходного пространственного многоканального аудио сигнала

Family Applications Before (2)

Application Number Title Priority Date Filing Date
RU2011154550/08A RU2537044C2 (ru) 2008-08-13 2009-08-11 Устройство для формирования выходного пространственного многоканального аудио сигнала
RU2011106583/08A RU2504847C2 (ru) 2008-08-13 2009-08-11 Устройство для формирования выходного пространственного многоканального аудио сигнала

Country Status (17)

Country Link
US (3) US8824689B2 (ru)
EP (4) EP2154911A1 (ru)
JP (3) JP5425907B2 (ru)
KR (5) KR101424752B1 (ru)
CN (3) CN102523551B (ru)
AU (1) AU2009281356B2 (ru)
BR (3) BR122012003329B1 (ru)
CA (3) CA2734098C (ru)
CO (1) CO6420385A2 (ru)
ES (3) ES2553382T3 (ru)
HK (4) HK1168708A1 (ru)
MX (1) MX2011001654A (ru)
MY (1) MY157894A (ru)
PL (2) PL2311274T3 (ru)
RU (3) RU2537044C2 (ru)
WO (1) WO2010017967A1 (ru)
ZA (1) ZA201100956B (ru)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
RU2712125C2 (ru) * 2015-09-25 2020-01-24 Фраунхофер-Гезелльшафт Цур Фердерунг Дер Ангевандтен Форшунг Е.Ф. Кодер и способ кодирования аудиосигнала с уменьшенным фоновым шумом с использованием кодирования с линейным предсказанием
RU2808102C1 (ru) * 2020-03-13 2023-11-23 Фраунхофер-Гезелльшафт Цур Фердерунг Дер Ангевандтен Форшунг Е.Ф. Оборудование и способ для синтезирования пространственно протяженного источника звука с использованием информационных элементов сигнальных меток
US12126986B2 (en) 2020-03-13 2024-10-22 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Apparatus and method for rendering a sound scene comprising discretized curved surfaces

Families Citing this family (62)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8107631B2 (en) * 2007-10-04 2012-01-31 Creative Technology Ltd Correlation-based method for ambience extraction from two-channel audio signals
KR101271972B1 (ko) * 2008-12-11 2013-06-10 프라운호퍼-게젤샤프트 추르 푀르데룽 데어 안제반텐 포르슝 에 파우 다채널 오디오 신호를 생성하기 위한 장치
US8139773B2 (en) * 2009-01-28 2012-03-20 Lg Electronics Inc. Method and an apparatus for decoding an audio signal
US9305550B2 (en) * 2009-12-07 2016-04-05 J. Carl Cooper Dialogue detector and correction
EP2586025A4 (en) * 2010-07-20 2015-03-11 Huawei Tech Co Ltd A tone signal
BR112013004362B1 (pt) 2010-08-25 2020-12-01 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. aparelho para a geração de um sinal descorrelacionado utilizando informação de fase transmitida
WO2012025580A1 (en) * 2010-08-27 2012-03-01 Sonicemotion Ag Method and device for enhanced sound field reproduction of spatially encoded audio input signals
EP2541542A1 (en) 2011-06-27 2013-01-02 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for determining a measure for a perceived level of reverberation, audio processor and method for processing a signal
US20140226842A1 (en) * 2011-05-23 2014-08-14 Nokia Corporation Spatial audio processing apparatus
WO2012160472A1 (en) * 2011-05-26 2012-11-29 Koninklijke Philips Electronics N.V. An audio system and method therefor
WO2013006330A2 (en) 2011-07-01 2013-01-10 Dolby Laboratories Licensing Corporation System and tools for enhanced 3d audio authoring and rendering
KR101901908B1 (ko) * 2011-07-29 2018-11-05 삼성전자주식회사 오디오 신호 처리 방법 및 그에 따른 오디오 신호 처리 장치
EP2600343A1 (en) * 2011-12-02 2013-06-05 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for merging geometry - based spatial audio coding streams
US9336792B2 (en) * 2012-05-07 2016-05-10 Marvell World Trade Ltd. Systems and methods for voice enhancement in audio conference
US9190065B2 (en) * 2012-07-15 2015-11-17 Qualcomm Incorporated Systems, methods, apparatus, and computer-readable media for three-dimensional audio coding using basis function coefficients
SG11201500783SA (en) 2012-08-03 2015-02-27 Fraunhofer Ges Forschung Decoder and method for a generalized spatial-audio-object-coding parametric concept for multichannel downmix/upmix cases
JP6169718B2 (ja) * 2012-12-04 2017-07-26 サムスン エレクトロニクス カンパニー リミテッド オーディオ提供装置及びオーディオ提供方法
CN109166588B (zh) 2013-01-15 2022-11-15 韩国电子通信研究院 处理信道信号的编码/解码装置及方法
WO2014112793A1 (ko) 2013-01-15 2014-07-24 한국전자통신연구원 채널 신호를 처리하는 부호화/복호화 장치 및 방법
CN104010265A (zh) 2013-02-22 2014-08-27 杜比实验室特许公司 音频空间渲染设备及方法
US9332370B2 (en) * 2013-03-14 2016-05-03 Futurewei Technologies, Inc. Method and apparatus for using spatial audio rendering for a parallel playback of call audio and multimedia content
WO2014171706A1 (ko) * 2013-04-15 2014-10-23 인텔렉추얼디스커버리 주식회사 가상 객체 생성을 이용한 오디오 신호 처리 방법
EP2806658B1 (en) * 2013-05-24 2017-09-27 Barco N.V. Arrangement and method for reproducing audio data of an acoustic scene
EP3005344A4 (en) 2013-05-31 2017-02-22 Nokia Technologies OY An audio scene apparatus
KR102149046B1 (ko) * 2013-07-05 2020-08-28 한국전자통신연구원 2차원 및 3차원 공간 상에서의 가상 음상 정위 방법
EP2830336A3 (en) 2013-07-22 2015-03-04 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Renderer controlled spatial upmix
EP2830064A1 (en) 2013-07-22 2015-01-28 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for decoding and encoding an audio signal using adaptive spectral tile selection
JP6242489B2 (ja) * 2013-07-29 2017-12-06 ドルビー ラボラトリーズ ライセンシング コーポレイション 脱相関器における過渡信号についての時間的アーチファクトを軽減するシステムおよび方法
JP6186503B2 (ja) 2013-10-03 2017-08-23 ドルビー ラボラトリーズ ライセンシング コーポレイション アップミキサーにおける適応的な拡散性信号生成
EP2866227A1 (en) 2013-10-22 2015-04-29 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Method for decoding and encoding a downmix matrix, method for presenting audio content, encoder and decoder for a downmix matrix, audio encoder and audio decoder
KR102231755B1 (ko) 2013-10-25 2021-03-24 삼성전자주식회사 입체 음향 재생 방법 및 장치
CN103607690A (zh) * 2013-12-06 2014-02-26 武汉轻工大学 一种3d音频中多声道信号的下混方法
EP3668125B1 (en) 2014-03-28 2023-04-26 Samsung Electronics Co., Ltd. Method and apparatus for rendering acoustic signal
EP2942982A1 (en) * 2014-05-05 2015-11-11 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. System, apparatus and method for consistent acoustic scene reproduction based on informed spatial filtering
CN110418274B (zh) * 2014-06-26 2021-06-04 三星电子株式会社 用于渲染声学信号的方法和装置及计算机可读记录介质
CN105336332A (zh) 2014-07-17 2016-02-17 杜比实验室特许公司 分解音频信号
EP2980789A1 (en) * 2014-07-30 2016-02-03 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for enhancing an audio signal, sound enhancing system
US9984693B2 (en) * 2014-10-10 2018-05-29 Qualcomm Incorporated Signaling channels for scalable coding of higher order ambisonic audio data
US10140996B2 (en) 2014-10-10 2018-11-27 Qualcomm Incorporated Signaling layers for scalable coding of higher order ambisonic audio data
WO2016060101A1 (ja) * 2014-10-16 2016-04-21 ソニー株式会社 送信装置、送信方法、受信装置および受信方法
CN111586552B (zh) 2015-02-06 2021-11-05 杜比实验室特许公司 用于自适应音频的混合型基于优先度的渲染系统和方法
CN105992120B (zh) 2015-02-09 2019-12-31 杜比实验室特许公司 音频信号的上混音
WO2016142002A1 (en) 2015-03-09 2016-09-15 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Audio encoder, audio decoder, method for encoding an audio signal and method for decoding an encoded audio signal
CN107980225B (zh) 2015-04-17 2021-02-12 华为技术有限公司 使用驱动信号驱动扬声器阵列的装置和方法
WO2018026963A1 (en) * 2016-08-03 2018-02-08 Hear360 Llc Head-trackable spatial audio for headphones and system and method for head-trackable spatial audio for headphones
US10901681B1 (en) * 2016-10-17 2021-01-26 Cisco Technology, Inc. Visual audio control
EP3324407A1 (en) * 2016-11-17 2018-05-23 Fraunhofer Gesellschaft zur Förderung der Angewand Apparatus and method for decomposing an audio signal using a ratio as a separation characteristic
EP3324406A1 (en) 2016-11-17 2018-05-23 Fraunhofer Gesellschaft zur Förderung der Angewand Apparatus and method for decomposing an audio signal using a variable threshold
KR102580502B1 (ko) * 2016-11-29 2023-09-21 삼성전자주식회사 전자장치 및 그 제어방법
US10659906B2 (en) * 2017-01-13 2020-05-19 Qualcomm Incorporated Audio parallax for virtual reality, augmented reality, and mixed reality
EP3382703A1 (en) 2017-03-31 2018-10-03 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and methods for processing an audio signal
GB2565747A (en) * 2017-04-20 2019-02-27 Nokia Technologies Oy Enhancing loudspeaker playback using a spatial extent processed audio signal
US10416954B2 (en) * 2017-04-28 2019-09-17 Microsoft Technology Licensing, Llc Streaming of augmented/virtual reality spatial audio/video
US11595774B2 (en) * 2017-05-12 2023-02-28 Microsoft Technology Licensing, Llc Spatializing audio data based on analysis of incoming audio data
SG11202003125SA (en) * 2017-10-04 2020-05-28 Fraunhofer Ges Forschung Apparatus, method and computer program for encoding, decoding, scene processing and other procedures related to dirac based spatial audio coding
KR20210027238A (ko) * 2018-07-02 2021-03-10 돌비 레버러토리즈 라이쎈싱 코오포레이션 몰입형 오디오 신호를 인코딩 및/또는 디코딩하기 위한 방법 및 디바이스
EP3818730A4 (en) * 2018-07-03 2022-08-31 Nokia Technologies Oy SIGNALING AND ENERGY REPORT SUMMARY
DE102018127071B3 (de) * 2018-10-30 2020-01-09 Harman Becker Automotive Systems Gmbh Audiosignalverarbeitung mit akustischer Echounterdrückung
GB2584630A (en) * 2019-05-29 2020-12-16 Nokia Technologies Oy Audio processing
KR102565131B1 (ko) * 2019-05-31 2023-08-08 디티에스, 인코포레이티드 포비에이티드 오디오 렌더링
WO2022054576A1 (ja) * 2020-09-09 2022-03-17 ヤマハ株式会社 音信号処理方法および音信号処理装置
CN113889125B (zh) * 2021-12-02 2022-03-04 腾讯科技(深圳)有限公司 音频生成方法、装置、计算机设备和存储介质

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
GB2353193B (en) * 1999-06-22 2004-08-25 Yamaha Corp Sound processing method and apparatus
RU2006114742A (ru) * 2003-10-02 2007-11-20 Фраунхофер-Гезелльшафт Цур Фердерунг Дер Ангевандтен Форшунг Е.Ф. (De) Совместимое многоканальное кодирование/декодирование
RU2329548C2 (ru) * 2004-01-20 2008-07-20 Фраунхофер-Гезелльшафт Цур Фердерунг Дер Ангевандтен Форшунг Е.Ф. Устройство и способ создания многоканального выходного сигнала или формирования низведенного сигнала

Family Cites Families (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
FR595335A (fr) * 1924-06-04 1925-09-30 Procédé d'élimination des parasites naturels ou artificiels, permettant l'emploi, en t. s. f., des appareils télégraphiques rapides dits
US5210366A (en) * 1991-06-10 1993-05-11 Sykes Jr Richard O Method and device for detecting and separating voices in a complex musical composition
GB9211756D0 (en) * 1992-06-03 1992-07-15 Gerzon Michael A Stereophonic directional dispersion method
JP4038844B2 (ja) * 1996-11-29 2008-01-30 ソニー株式会社 ディジタル信号再生装置、ディジタル信号再生方法、ディジタル信号記録装置、ディジタル信号記録方法及び記録媒体
JP3594790B2 (ja) * 1998-02-10 2004-12-02 株式会社河合楽器製作所 ステレオ楽音発生方法及びその装置
WO2000019415A2 (en) * 1998-09-25 2000-04-06 Creative Technology Ltd. Method and apparatus for three-dimensional audio display
KR100542129B1 (ko) * 2002-10-28 2006-01-11 한국전자통신연구원 객체기반 3차원 오디오 시스템 및 그 제어 방법
BRPI0409337A (pt) * 2003-04-17 2006-04-25 Koninkl Philips Electronics Nv método e dispositivo para sintetizar um sinal de áudio de saìda com base em um sinal de áudio de entrada, aparelho para fornecer um sinal de áudio de saìda, e, produto de programa de computador
ES2324926T3 (es) * 2004-03-01 2009-08-19 Dolby Laboratories Licensing Corporation Descodificacion de audio multicanal.
JP4989468B2 (ja) * 2004-07-14 2012-08-01 コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ オーディオチャネル変換
ATE464738T1 (de) * 2004-10-13 2010-04-15 Koninkl Philips Electronics Nv Echolöschung
KR101215868B1 (ko) * 2004-11-30 2012-12-31 에이저 시스템즈 엘엘시 오디오 채널들을 인코딩 및 디코딩하는 방법, 및 오디오 채널들을 인코딩 및 디코딩하는 장치
KR100714980B1 (ko) * 2005-03-14 2007-05-04 한국전자통신연구원 가상음원위치정보를 이용한 멀티채널 오디오 신호의 압축및 복원 방법
EP1969901A2 (en) * 2006-01-05 2008-09-17 Telefonaktiebolaget LM Ericsson (publ) Personalized decoding of multi-channel surround sound
US8345899B2 (en) * 2006-05-17 2013-01-01 Creative Technology Ltd Phase-amplitude matrixed surround decoder
US8374365B2 (en) * 2006-05-17 2013-02-12 Creative Technology Ltd Spatial audio analysis and synthesis for binaural reproduction and format conversion
DE102006050068B4 (de) * 2006-10-24 2010-11-11 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Vorrichtung und Verfahren zum Erzeugen eines Umgebungssignals aus einem Audiosignal, Vorrichtung und Verfahren zum Ableiten eines Mehrkanal-Audiosignals aus einem Audiosignal und Computerprogramm
JP4819742B2 (ja) 2006-12-13 2011-11-24 アンリツ株式会社 信号処理方法および信号処理装置
JP5554065B2 (ja) * 2007-02-06 2014-07-23 コーニンクレッカ フィリップス エヌ ヴェ 複雑さの軽減されたパラメトリックステレオデコーダ

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
GB2353193B (en) * 1999-06-22 2004-08-25 Yamaha Corp Sound processing method and apparatus
RU2006114742A (ru) * 2003-10-02 2007-11-20 Фраунхофер-Гезелльшафт Цур Фердерунг Дер Ангевандтен Форшунг Е.Ф. (De) Совместимое многоканальное кодирование/декодирование
RU2329548C2 (ru) * 2004-01-20 2008-07-20 Фраунхофер-Гезелльшафт Цур Фердерунг Дер Ангевандтен Форшунг Е.Ф. Устройство и способ создания многоканального выходного сигнала или формирования низведенного сигнала

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
RU2712125C2 (ru) * 2015-09-25 2020-01-24 Фраунхофер-Гезелльшафт Цур Фердерунг Дер Ангевандтен Форшунг Е.Ф. Кодер и способ кодирования аудиосигнала с уменьшенным фоновым шумом с использованием кодирования с линейным предсказанием
US10692510B2 (en) 2015-09-25 2020-06-23 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Encoder and method for encoding an audio signal with reduced background noise using linear predictive coding
RU2808102C1 (ru) * 2020-03-13 2023-11-23 Фраунхофер-Гезелльшафт Цур Фердерунг Дер Ангевандтен Форшунг Е.Ф. Оборудование и способ для синтезирования пространственно протяженного источника звука с использованием информационных элементов сигнальных меток
US12126986B2 (en) 2020-03-13 2024-10-22 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Apparatus and method for rendering a sound scene comprising discretized curved surfaces

Also Published As

Publication number Publication date
JP2011530913A (ja) 2011-12-22
JP5379838B2 (ja) 2013-12-25
CN102165797B (zh) 2013-12-25
EP2418877A1 (en) 2012-02-15
KR101456640B1 (ko) 2014-11-12
MY157894A (en) 2016-08-15
CN102523551A (zh) 2012-06-27
EP2311274A1 (en) 2011-04-20
CA2822867C (en) 2016-08-23
CA2822867A1 (en) 2010-02-18
RU2504847C2 (ru) 2014-01-20
US8824689B2 (en) 2014-09-02
WO2010017967A1 (en) 2010-02-18
JP2012068666A (ja) 2012-04-05
RU2011106583A (ru) 2012-08-27
RU2011154551A (ru) 2013-07-10
PL2421284T3 (pl) 2015-12-31
CA2827507C (en) 2016-09-20
KR101301113B1 (ko) 2013-08-27
BR122012003058B1 (pt) 2021-05-04
US8855320B2 (en) 2014-10-07
CN102348158B (zh) 2015-03-25
BRPI0912466A2 (pt) 2019-09-24
ZA201100956B (en) 2011-10-26
KR20110050451A (ko) 2011-05-13
EP2421284B1 (en) 2015-07-01
KR101424752B1 (ko) 2014-08-01
EP2154911A1 (en) 2010-02-17
KR20130073990A (ko) 2013-07-03
US20110200196A1 (en) 2011-08-18
HK1154145A1 (en) 2012-04-20
CA2734098A1 (en) 2010-02-18
CN102523551B (zh) 2014-11-26
JP5425907B2 (ja) 2014-02-26
KR101310857B1 (ko) 2013-09-25
KR20130027564A (ko) 2013-03-15
HK1164010A1 (en) 2012-09-14
JP2012070414A (ja) 2012-04-05
JP5526107B2 (ja) 2014-06-18
KR20120006581A (ko) 2012-01-18
EP2421284A1 (en) 2012-02-22
ES2553382T3 (es) 2015-12-09
ES2392609T3 (es) 2012-12-12
ES2545220T3 (es) 2015-09-09
CN102165797A (zh) 2011-08-24
HK1172475A1 (en) 2013-04-19
BRPI0912466B1 (pt) 2021-05-04
CA2827507A1 (en) 2010-02-18
AU2009281356B2 (en) 2012-08-30
US8879742B2 (en) 2014-11-04
MX2011001654A (es) 2011-03-02
EP2311274B1 (en) 2012-08-08
PL2311274T3 (pl) 2012-12-31
CA2734098C (en) 2015-12-01
US20120051547A1 (en) 2012-03-01
CO6420385A2 (es) 2012-04-16
KR20120016169A (ko) 2012-02-22
HK1168708A1 (en) 2013-01-04
CN102348158A (zh) 2012-02-08
BR122012003058A2 (pt) 2019-10-15
RU2537044C2 (ru) 2014-12-27
EP2418877B1 (en) 2015-09-09
US20120057710A1 (en) 2012-03-08
BR122012003329A2 (pt) 2020-12-08
RU2011154550A (ru) 2013-07-10
AU2009281356A1 (en) 2010-02-18
BR122012003329B1 (pt) 2022-07-05
KR101226567B1 (ko) 2013-01-28

Similar Documents

Publication Publication Date Title
RU2523215C2 (ru) Устройство для формирования выходного пространственного многоканального аудио сигнала
AU2011247872B2 (en) An apparatus for determining a spatial output multi-channel audio signal
AU2011247873A1 (en) An apparatus for determining a spatial output multi-channel audio signal