RU2798759C2

RU2798759C2 - Parametric encoding and decoding of multi-channel audio signals

Info

Publication number: RU2798759C2
Application number: RU2019131327A
Authority: RU
Inventors: Хейко ПУРНХАГЕН; Хайди-Мария Лехтонен; Януш КЛЕЙСА
Original assignee: Долби Интернешнл Аб
Priority date: 2014-10-31
Filing date: 2015-10-29
Publication date: 2023-06-27

Abstract

FIELD: computer technology.

SUBSTANCE: invention relates to the coding of audio signals. An audio decoding method, including reception of a two-channel downmix signal and upmix parameters for restoration of a M-channel audio signal based on the downmix signal, signal reception (S) indicating the selected one of at least two encoding formats of the M-channel audio signal divided into respective first and second groups of one or more channels, calculating the first upmix signal as a linear display of the downmix signal, calculating the second upmix signal as a linear display of the downmix signal, and combining the first and second signals upmixing to obtain a multidimensional reconstructed signal corresponding to the M-channel sound signal, while M-channel sound signal has a predetermined channel configuration, and said selected coding format is switched between at least two coding formats.

EFFECT: increased reliability when decoding the audio signal.

18 cl, 17 dwg, 1 tbl

Description

Перекрестные ссылки на смежные заявкиCross references to related applications

Настоящая заявка испрашивает приоритет по предварительной заявке на патент США № 62/073,642, поданной 31 октября 2014 г., и предварительной заявке на патент США № 62/128,425, поданной 4 марта 2015 г., полное содержание каждой из которых включено в настоящую заявку путем ссылки.This application claims priority over U.S. Provisional Application No. 62/073,642, filed October 31, 2014, and U.S. Provisional Application No. 62/128,425, filed March 4, 2015, the entire contents of which are hereby incorporated herein by links.

Область техникиTechnical field

Описанное в настоящей заявке изобретение по существу относится к параметрическому кодированию и декодированию аудиосигналов и, в частности, к параметрическому кодированию и декодированию распределенных по каналам аудиосигналов. The invention described in this application essentially relates to parametric coding and decoding of audio signals and, in particular, to parametric coding and decoding of channelized audio signals.

Предпосылки создания изобретенияPrerequisites for the creation of the invention

Для воспроизведения аудиоданных, представленных многоканальным аудиосигналом, часто используют системы воспроизведения аудио, содержащие множество громкоговорителей, причем соответствующие каналы многоканального аудиосигнала воспроизводят через соответствующие громкоговорители. Многоканальный аудиосигнал можно, например, записать с помощью множества акустических преобразователей или можно создать с помощью оборудования для создания аудио. Во многих случаях имеются ограничения по полосе пропускания при передаче аудиосигнала на оборудование для воспроизведения, и/или в компьютерном запоминающем устройстве или переносном устройстве для хранения данных ограничено пространство для хранения аудиосигнала. Существуют системы кодирования аудио для параметрического кодирования аудиосигналов с целью уменьшения полосы пропускания или размера для хранения данных. На стороне кодера эти системы обычно выполняют понижающее микширование многоканального аудиосигнала до сигнала понижающего микширования, который, как правило, представляет собой монофонический (одноканальный) или стереофонический (двухканальный) сигнал понижающего микширования, и извлекают дополнительную информацию, описывающую характеристики каналов посредством параметров, таких как разности уровней и взаимная корреляция. Сигнал понижающего микширования и дополнительную информацию затем кодируют и передают на сторону декодера. На стороне декодера по сигналу понижающего микширования с учетом параметров дополнительной информации выполняют реконструкцию, т. е. аппроксимацию, многоканального аудиосигнала.In order to reproduce audio data represented by a multi-channel audio signal, audio reproduction systems comprising a plurality of speakers are often used, with the respective channels of the multi-channel audio signal reproduced through the respective speakers. The multi-channel audio signal may, for example, be recorded with a plurality of acoustic transducers, or may be created with audio production equipment. In many cases, there are bandwidth limitations when transmitting the audio signal to the playback equipment, and/or there is limited space in the computer storage device or portable storage device for storing the audio signal. Audio coding systems exist for parametrically encoding audio signals to reduce bandwidth or data storage size. At the encoder side, these systems typically downmix the multi-channel audio signal to a downmix signal, which is typically a mono (single-channel) or stereo (two-channel) downmix signal, and extract additional information describing the characteristics of the channels through parameters such as differences levels and cross-correlation. The downmix signal and side information are then encoded and transmitted to the decoder side. On the decoder side, based on the downmix signal, taking into account the parameters of additional information, reconstruction, i.e., approximation, of the multichannel audio signal is performed.

Ввиду многообразия различных типов устройств и систем, подходящих для воспроизведения многоканальных аудиоданных, в том числе средств в недавно появившемся сегменте, ориентированном на бытовое применение конечными потребителями, актуальной является задача создания новых и альтернативных способов эффективного кодирования многоканальных аудиоданных, которые позволили бы снизить требования к полосе пропускания и/или к объему памяти для хранения, сделать более удобной реконструкцию многоканального аудиосигнала на стороне декодера и/или увеличить достоверность воспроизведения многоканального аудиосигнала, реконструированного на стороне декодера.In view of the variety of different types of devices and systems suitable for the reproduction of multichannel audio data, including tools in the recently emerging segment focused on home use by end users, it is urgent to create new and alternative ways to efficiently encode multichannel audio data that would reduce bandwidth requirements. bandwidth and/or storage capacity, make it more convenient to reconstruct the multi-channel audio signal on the decoder side, and/or increase the fidelity of the reproduction of the multi-channel audio signal reconstructed on the decoder side.

Краткое описание рисунковBrief description of the drawings

Примеры осуществления будут более подробно описаны ниже и со ссылкой на сопроводительные рисунки, причем:The embodiments will be described in more detail below and with reference to the accompanying drawings, wherein:

на Фиг. 1 и 2 представлены обобщенные структурные схемы секций кодирования для кодирования М-канальных аудиосигналов в виде двухканальных сигналов понижающего микширования и ассоциированных параметров повышающего микширования в соответствии с примерами осуществления;in FIG. 1 and 2 are generalized block diagrams of coding sections for encoding M -channel audio signals as two-channel downmix signals and associated upmix parameters in accordance with exemplary embodiments;

на Фиг. 3 представлена обобщенная структурная схема системы кодирования аудио, содержащей секцию кодирования, показанную на Фиг. 1, в соответствии с примером осуществления;in FIG. 3 is a generalized block diagram of an audio coding system comprising the coding section shown in FIG. 1, in accordance with the exemplary implementation;

на Фиг. 4 и 5 представлены блок-схемы способов кодирования аудио для кодирования М-канальных аудиосигналов в виде двухканальных сигналов понижающего микширования и ассоциированных параметров повышающего микширования в соответствии с примерами осуществления;in FIG. 4 and 5 are flowcharts of audio coding methods for encoding M -channel audio signals as two-channel downmix signals and associated upmix parameters in accordance with exemplary embodiments;

на Фиг. 6–8 представлены альтернативные способы разделения 11.1-канального (или 7.1 + 4-канального или 7.1.4-канального) аудиосигнала на группы каналов, представленные соответствующими каналами понижающего микширования, в соответствии с примерами осуществления;in FIG. 6-8 show alternative methods for dividing 11.1-channel (or 7.1 + 4-channel or 7.1.4-channel) audio signal into channel groups represented by respective downmix channels, in accordance with exemplary embodiments;

на Фиг. 9 представлена обобщенная структурная схема секции декодирования для реконструкции М-канального аудиосигнала на основе двухканального сигнала понижающего микширования и ассоциированных параметров повышающего микширования в соответствии с примером осуществления;in FIG. 9 is a generalized block diagram of a decoding section for reconstructing an M -channel audio signal based on a two-channel downmix signal and associated upmix parameters in accordance with an embodiment;

на Фиг. 10 представлена обобщенная структурная схема системы декодирования аудио, содержащей секцию декодирования, показанную на Фиг. 9, в соответствии с примером осуществления;in FIG. 10 is a generalized block diagram of an audio decoding system comprising the decoding section shown in FIG. 9, in accordance with the exemplary implementation;

на Фиг. 11 представлена обобщенная структурная схема секции микширования, содержащейся в секции декодирования, показанной на Фиг. 9, в соответствии с примером осуществления;in FIG. 11 is a generalized block diagram of the mixing section included in the decoding section shown in FIG. 9, in accordance with the exemplary implementation;

на Фиг. 12 представлена блок-схема способа декодирования аудио для реконструкции М-канального аудиосигнала на основе двухканального сигнала понижающего микширования и ассоциированных параметров повышающего микширования в соответствии с примером осуществления; иin FIG. 12 is a flowchart of an audio decoding method for reconstructing an M -channel audio signal based on a two-channel downmix signal and associated upmix parameters, in accordance with an embodiment; And

на Фиг. 13 представлена обобщенная структурная схема секции декодирования для реконструкции 13.1-канального аудиосигнала на основе 5.1-канального сигнала и ассоциированных параметров повышающего микширования в соответствии с примером осуществления;in FIG. 13 is a generalized block diagram of a decoding section for reconstructing a 13.1-channel audio signal based on a 5.1-channel signal and associated upmix parameters in accordance with an embodiment;

на Фиг. 14 представлена обобщенная структурная схема секции кодирования, выполненной с возможностью определения подходящего формата кодирования, который можно использовать для кодирования М-канального аудиосигнала (и возможных последующих каналов), и представления М-канального аудиосигнала в виде двухканального сигнала понижающего микширования и ассоциированных параметров повышающего микширования для выбранного формата;in FIG. 14 is a generalized block diagram of an encoding section configured to determine a suitable encoding format that can be used to encode an M -channel audio signal (and possible subsequent channels), and represent the M -channel audio signal as a two-channel downmix signal and associated upmix parameters for selected format;

на Фиг. 15 подробно представлена двухрежимная секция понижающего микширования в секции кодирования, показанной на Фиг. 14;in FIG. 15 details the dual mode downmix section in the coding section shown in FIG. 14;

на Фиг. 16 подробно представлена двухрежимная секция анализа в секции кодирования, показанной на Фиг. 14; иin FIG. 16 details the dual-mode analysis section in the encoding section shown in FIG. 14; And

на Фиг. 17 представлена блок-схема способа кодирования аудио, который может быть реализован компонентами, показанными на Фиг. 14–16.in FIG. 17 is a flowchart of an audio coding method that may be implemented by the components shown in FIG. 14–16.

Все фигуры являются схематическими, и на них по существу показаны те части, которые необходимы для разъяснения сути изобретения, тогда как другие части могут быть опущены или просто подразумеваться.All figures are schematic and essentially show those parts that are necessary to explain the essence of the invention, while other parts may be omitted or simply implied.

Описание примеров осуществленияDescription of exemplary embodiments

В настоящей заявке аудиосигнал может представлять собой отдельный аудиосигнал, аудиочасть аудиовизуального сигнала или мультимедийного сигнала или любой из таких сигналов в сочетании с метаданными. В настоящей заявке канал представляет собой аудиосигнал, связанный с заранее определенным/фиксированным пространственным положением/ориентацией или неопределенным пространственным положением, таким как «левый» или «правый».In the present application, an audio signal may be a single audio signal, an audio portion of an audiovisual signal or a multimedia signal, or any of such signals combined with metadata. In the present application, a channel is an audio signal associated with a predetermined/fixed spatial position/orientation or an undefined spatial position such as "left" or "right".

I. Обзор. Сторона декодераI. Overview. Decoder side

В соответствии с первым аспектом в примерах осуществления предложены системы декодирования аудио, способы декодирования аудио и связанные компьютерные программные продукты. Предлагаемые системы декодирования, способы и компьютерные программные продукты в соответствии с первым аспектом могут по существу иметь одни и те же общие возможности и преимущества.According to the first aspect, the embodiments provide audio decoding systems, audio decoding methods, and related computer program products. The proposed decoding systems, methods, and computer program products according to the first aspect may substantially share the same general features and benefits.

В соответствии с примерами осуществления предложен способ декодирования аудио, который включает получение двухканального сигнала понижающего микширования и параметров повышающего микширования для параметрической реконструкции М-канального аудиосигнала на основе сигнала понижающего микширования, причем M ≥ 4. Способ декодирования аудио включает получение сигнализацию, указывающую на выбранный один из по меньшей мере двух форматов кодирования М-канального аудиосигнала, причем форматы кодирования сопоставлены с соответствующими различными разделениями каналов М-канального аудиосигнала на соответствующую первую и вторую группы одного или более каналов. В указанном формате кодирования первый канал сигнала понижающего микширования соответствует линейной комбинации первой группы одного или более каналов М-канального аудиосигнала, а второй канал сигнала понижающего микширования соответствует линейной комбинации второй группы одного или более каналов М-канального аудиосигнала. Способ декодирования аудио дополнительно включает определение набора преддекорреляционных коэффициентов на основе указанного формата кодирования; вычисление входного сигнала декорреляции как линейного отображения сигнала понижающего микширования, причем к сигналу понижающего микширования применяют набор преддекорреляционных коэффициентов; создание декоррелированного сигнала на основе входного сигнала декорреляции; определение наборов коэффициентов повышающего микширования первого типа, которые в настоящей заявке называются «влажными» коэффициентами повышающего микширования, и второго типа, которые в настоящей заявке называются «сухими» коэффициентами повышающего микширования, на основе полученных параметров повышающего микширования и указанного формата кодирования; вычисление сигнала повышающего микширования первого типа, который в настоящей заявке называется «сухим» сигналом повышающего микширования, как линейного отображения сигнала понижающего микширования, причем к сигналу понижающего микширования применяют набор «сухих» коэффициентов повышающего микширования; вычисление сигнала повышающего микширования второго типа, который в настоящей заявке называется «влажным» сигналом повышающего микширования, как линейного отображения декоррелированного сигнала, причем к декоррелированному сигналу применяют набор «влажных» коэффициентов повышающего микширования; и объединение «сухого» и «влажного» сигналов повышающего микширования для получения многомерного реконструированного сигнала, соответствующего подлежащему реконструкции М-канальному аудиосигналу.According to exemplary embodiments, an audio decoding method is provided that includes obtaining a two-channel downmix signal and upmix parameters for parametrically reconstructing an M -channel audio signal based on the downmix signal, wherein M ≥ 4. The audio decoding method includes obtaining a signaling indicative of a selected one of at least two coding formats of the M -channel audio signal, the coding formats being mapped to respective different channelizations of the M -channel audio signal into respective first and second groups of one or more channels. In this coding format, the first channel of the downmix signal corresponds to a linear combination of the first group of one or more channels of the M -channel audio signal, and the second channel of the downmix signal corresponds to the linear combination of the second group of one or more channels of the M -channel audio signal. The audio decoding method further includes determining a set of pre-decorrelation coefficients based on the specified coding format; calculating the decorrelation input signal as a linear display of the downmix signal, wherein a set of pre-decorrelation coefficients is applied to the downmix signal; generating a decorrelated signal based on the input decorrelation signal; determining sets of upmix coefficients of the first type, which are called "wet" upmix coefficients in the present application, and the second type, which are called "dry" upmix coefficients in the present application, based on the obtained upmix parameters and the specified coding format; calculating a first type upmix signal, which is referred to as a "dry" upmix signal in the present application, as a linear display of the downmix signal, wherein a set of "dry" upmix coefficients is applied to the downmix signal; calculating a second type of upmix signal, which is referred to in the present application as a "wet" upmix signal, as a linear display of the decorrelated signal, wherein a set of "wet" upmix coefficients is applied to the decorrelated signal; and combining the dry and wet upmix signals to obtain a multi-dimensional reconstructed signal corresponding to the M -channel audio signal to be reconstructed.

В зависимости от аудиоданных М-канального аудиосигнала разные разделения каналов М-канального аудиосигнала на первую и вторую группы, при том что каждая группа вносит свой клад в канал сигнала понижающего микширования, могут подходить, например, для облегчения реконструкции М-канального аудиосигнала из сигнала понижающего микширования, в результате чего увеличивается (воспринимаемая) достоверность воспроизведения М-канального аудиосигнала, реконструированного из сигнала понижающего микширования, и/или повышается эффективность кодирования сигнала понижающего микширования. То, что способ декодирования аудио обеспечивает возможность получения сигнализации, указывающей на выбранный формат кодирования, и адаптации определения преддекорреляционных коэффициентов, а также «влажного» и «сухого» коэффициентов повышающего микширования для указанного формата кодирования, позволяет выбирать формат кодирования на стороне кодера, например, на основе аудиоданных М-канального аудиосигнала для использования сравнительных преимуществ применения этого конкретного формата кодирования для представления М-канального аудиосигнала.Depending on the audio data of the M -channel audio signal, different divisions of the channels of the M -channel audio signal into first and second groups, with each group contributing to the channel of the downmix signal, may be suitable, for example, to facilitate the reconstruction of the M -channel audio signal from the downmix signal. mixing, thereby increasing the (perceived) fidelity of the M -channel audio signal reconstructed from the downmix signal and/or increasing the coding efficiency of the downmix signal. That the audio decoding method is capable of obtaining signaling indicative of the selected coding format and adapting the definition of the pre-decoration coefficients and the wet and dry upmix coefficients for the specified coding format allows the selection of the coding format at the encoder side, for example, based on the audio data of the M -channel audio signal to take advantage of the comparative advantages of using this particular coding format to represent the M -channel audio signal.

В частности, определение преддекорреляционных коэффициентов на основе указанного формата кодирования может обеспечивать выбор канала или каналов сигнала понижающего микширования, из которых создается декоррелированный сигнал, и/или определять значимость такого канала или каналов на основе указанного формата кодирования до создания декоррелированного сигнала. Таким образом, то, что способ декодирования аудио обеспечивает возможность определения преддекорреляционных коэффициентов разным образом для разных форматов кодирования, может обеспечивать увеличение достоверности воспроизведения реконструированного М-канального аудиосигнала.In particular, determining the pre-decorrelation coefficients based on the specified coding format may select the channel or channels of the downmix signal from which the decorrelated signal is generated and/or determine the significance of such channel or channels based on the specified coding format prior to generating the decorrelated signal. Thus, the fact that the audio decoding method allows the pre-decoration coefficients to be determined differently for different coding formats can increase the fidelity of the reconstructed M -channel audio signal.

Первый канал сигнала понижающего микширования можно, например, сформировать на стороне кодера в виде линейной комбинации первой группы одного или более каналов в соответствии с указанным форматом кодирования. Аналогично второй канал сигнала понижающего микширования можно, например, сформировать на стороне кодера в виде линейной комбинации второй группы одного или более каналов в соответствии с указанным форматом кодирования.The first channel of the downmix signal may, for example, be formed on the encoder side as a linear combination of the first group of one or more channels in accordance with a specified coding format. Similarly, the second channel of the downmix signal can, for example, be formed on the encoder side as a linear combination of a second group of one or more channels in accordance with a specified coding format.

Каналы М-канального аудиосигнала могут образовывать, например, поднабор большего количества каналов, что вместе представляет звуковое поле.The channels of an M -channel audio signal may form, for example, a subset of a larger number of channels, which together represent a sound field.

Декоррелированный сигнал служит для увеличения размерности аудиоданных сигнала понижающего микширования при восприятии слушателем. Создание декоррелированного сигнала может включать, например, применение линейного фильтра к входному сигналу декорреляции.The decorrelated signal serves to increase the dimension of the audio data of the downmix signal as perceived by the listener. Creating a decorrelated signal may include, for example, applying a linear filter to the decorrelation input signal.

Под вычислением входного сигнала декорреляции как линейного отображения сигнала понижающего микширования подразумевается, что входной сигнал декорреляции получают путем первого линейного преобразования сигнала понижающего микширования. При первом линейном преобразовании в качестве входа берут два канала сигнала понижающего микширования, а в качестве выхода обеспечивают каналы входного сигнала декорреляции, а преддекорреляционные коэффициенты представляют собой коэффициенты, определяющие количественные характеристики этого первого линейного преобразования.By computing the decorrelation input signal as a linear mapping of the downmix signal, it is meant that the decorrelation input signal is obtained by first linearly transforming the downmix signal. The first linear transform takes two channels of the downmix signal as an input and provides the channels of the input decorrelation signal as an output, and the pre-decrelation coefficients are coefficients quantifying this first linear transform.

Под вычислением «сухого» сигнала повышающего микширования как линейного отображения сигнала понижающего микширования подразумевается, что «сухой» сигнал повышающего микширования получают путем второго линейного преобразования сигнала понижающего микширования. При втором линейном преобразовании в качестве входа берут два канала сигнала понижающего микширования, а в качестве выхода обеспечивают M каналов, а «сухие» коэффициенты повышающего микширования представляют собой коэффициенты, определяющие количественные характеристики этого второго линейного преобразования.By calculating the dry upmix signal as a linear mapping of the downmix signal, it is meant that the dry upmix signal is obtained by a second linear transformation of the downmix signal. The second linear conversion takes two channels of the downmix signal as an input and provides M channels as an output, and the dry upmix coefficients are coefficients quantifying this second linear conversion.

Под вычислением «влажного» сигнала повышающего микширования как линейного отображения декоррелированного сигнала подразумевается, что «влажный» сигнал повышающего микширования получают путем третьего линейного преобразования декоррелированного сигнала. При третьем линейном преобразовании в качестве входа берут каналы декоррелированного сигнала, а в качестве выхода обеспечивают M каналов, а «влажные» коэффициенты повышающего микширования представляют собой коэффициенты, определяющие количественные характеристики этого третьего линейного преобразования.By computing the wet upmix signal as a linear mapping of the decorrelated signal, it is meant that the wet upmix signal is obtained by a third linear transformation of the decorrelated signal. The third linear transform takes the channels of the decorrelated signal as an input and provides M channels as an output, and the wet upmix coefficients are coefficients that quantify this third linear transform.

Объединение «сухого» и «влажного» сигналов повышающего микширования может включать добавление аудиоданных из соответствующих каналов «сухого» сигнала повышающего микширования к аудиоданным соответствующих каналов «влажного» сигнала повышающего микширования, например, путем использования аддитивного микширования по образцам или по коэффициентам преобразования.Combining the dry and wet upmix signals may include adding audio data from the respective channels of the dry upmix signal to the audio data of the respective channels of the wet upmix signal, for example, by using additive mixing by samples or by transform coefficients.

Сигнализацию можно получить, например, вместе с сигналом понижающего микширования и/или параметрами повышающего микширования. Сигнал понижающего микширования, параметры повышающего микширования и сигнализацию можно, например, извлечь из битового потока.The signaling may be obtained, for example, together with the downmix signal and/or the upmix parameters. The downmix signal, upmix parameters, and signaling may, for example, be extracted from the bitstream.

В примере осуществления может присутствовать условие M = 5, т. е. М-канальный аудиосигнал может представлять собой пятиканальный аудиосигнал. Способ декодирования аудио в соответствии с настоящим примером осуществления можно использовать, например, для реконструкции пяти стандартных каналов в одном из актуальных установленных аудиоформатов 5.1 из двухканального сигнала понижающего микширования этих пяти каналов или для реконструкции пяти каналов на левой стороне или на правой стороне в 11.1-многоканальный аудиосигнал из двухканального сигнала понижающего микширования этих пяти каналов. В альтернативном варианте осуществления может присутствовать условие M = 4 или M ≥ 6.In an exemplary embodiment, the condition M = 5 may be present, i.e., the M -channel audio signal may be a five-channel audio signal. The audio decoding method according to the present embodiment can be used, for example, to reconstruct five standard channels in one of the currently established 5.1 audio formats from a two-channel downmix signal of these five channels, or to reconstruct five channels on the left side or right side into 11.1 multi-channel the audio signal from the two-channel downmix signal of these five channels. In an alternative embodiment, the condition M = 4 or M ≥ 6 may be present.

В примере осуществления каждый из входного сигнала декорреляции и декоррелированного сигнала может содержать M–2 каналов. В настоящем примере осуществления канал декоррелированного сигнала можно создать на основе не более одного канала входного сигнала декорреляции. Например, каждый канал декоррелированного сигнала можно создать на основе не более одного канала входного сигнала декорреляции, но разные каналы декоррелированного сигнала, например, можно создать на основе разных каналов входного сигнала декорреляции.In an exemplary embodiment, each of the decorrelation input and the decorrelated signal may contain M −2 channels. In the present embodiment, a decorrelated signal channel may be created based on at most one decorrelation input signal channel. For example, each decorrelated signal channel can be created based on at most one decorrelation input channel, but different decorrelated signal channels, for example, can be created based on different decorrelation input channels.

В настоящем примере осуществления преддекорреляционные коэффициенты могут определяться так, чтобы в каждом из форматов кодирования канал входного сигнала декорреляции получал вклад от не более одного канала сигнала понижающего микширования. Например, преддекорреляционные коэффициенты могут определяться так, чтобы в каждом из форматов кодирования каждый канал входного сигнала декорреляции совпадал с каналом сигнала понижающего микширования. Однако следует понимать, что по меньшей мере некоторые из каналов входного сигнала декорреляции могут совпадать, например, с разными каналами сигнала понижающего микширования в конкретном формате кодирования и/или в разных форматах кодирования.In the present exemplary embodiment, the pre-decrelation coefficients may be determined such that, in each of the coding formats, a decorrelation input signal channel receives a contribution from at most one downmix signal channel. For example, the pre-decrelation coefficients may be determined such that, in each of the coding formats, each channel of the decorrelation input signal matches a channel of the downmix signal. However, it should be understood that at least some of the channels of the decorrelation input signal may coincide with, for example, different channels of the downmix signal in a particular coding format and/or in different coding formats.

Поскольку в каждом конкретном формате кодирования два канала сигнала понижающего микширования представляют раздельные первую и вторую группы одного или более каналов, первую группу можно реконструировать из первого канала сигнала понижающего микширования с использованием, например, одного или более каналов декоррелированного сигнала, созданного на основе первого канала сигнала понижающего микширования, а вторую группу можно реконструировать из второго канала сигнала понижающего микширования с использованием, например, одного или более каналов декоррелированного сигнала, созданного на основе второго канала сигнала понижающего микширования В настоящем примере осуществления в каждом формате кодирования может не допускаться вклад от второй группы одного или более каналов в реконструированный вариант первой группы одного или более каналов посредством декоррелированного сигнала. Аналогично в каждом формате кодирования может не допускаться вклад от первой группы одного или более каналов в реконструированный вариант второй группы одного или более каналов посредством декоррелированного сигнала. Таким образом, в настоящем примере осуществления может быть предложено увеличение достоверности воспроизведения реконструированного М-канального аудиосигнала.Since, in a particular coding format, the two channels of the downmix signal represent separate first and second groups of one or more channels, the first group may be reconstructed from the first channel of the downmix signal using, for example, one or more channels of a decorrelated signal generated from the first channel of the signal. downmix signal, and the second group may be reconstructed from the second channel of the downmix signal using, for example, one or more channels of the decorrelated signal generated from the second channel of the downmix signal. In the present embodiment, each coding format may not allow contributions from the second group of one or more channels into a reconstructed version of the first group of one or more channels by means of a decorrelated signal. Likewise, in each coding format, contributions from a first group of one or more channels to a reconstructed version of a second group of one or more channels via a decorrelated signal may be prevented. Thus, in the present embodiment, an increase in the reproduction fidelity of the reconstructed M -channel audio signal can be proposed.

В примере осуществления преддекорреляционные коэффициенты могут определяться так, чтобы первый канал М-канального аудиосигнала вносил вклад в первый фиксированный канал входного сигнала декорреляции посредством сигнала понижающего микширования по меньшей мере в двух форматах кодирования. Другими словами, первый канал М-канального аудиосигнала может вносить вклад в один и тот же канал входного сигнала декорреляции посредством сигнала понижающего микширования в каждом из этих форматов кодирования. Следует понимать, что в настоящем примере осуществления в конкретном формате кодирования первый канал М-канального аудиосигнала может вносить вклад, например, в множество каналов входного сигнала декорреляции посредством сигнала понижающего микширования.In an exemplary embodiment, the pre-decrelation coefficients may be determined such that the first channel of the M -channel audio signal contributes to the first fixed channel of the decorrelation input signal via a downmix signal in at least two coding formats. In other words, the first channel of the M -channel audio signal may contribute to the same channel of the decorrelation input signal via the downmix signal in each of these coding formats. It should be understood that in the present embodiment, in a specific coding format, the first channel of the M -channel audio signal may contribute, for example, to a plurality of decorrelation input signal channels via a downmix signal.

В настоящем примере осуществления при переключении указанного формата кодирования между двумя форматами кодирования остается по меньшей мере часть первого фиксированного канала входного сигнала декорреляции. Это может обеспечивать более плавный и/или менее резкий переход между форматами кодирования для восприятия слушателем во время воспроизведения реконструированного М-канального аудиосигнала. В частности, авторы изобретения установили, что поскольку декоррелированный сигнал можно, например, создать на основе части сигнала понижающего микширования, соответствующей нескольким временным интервалам, во время которых в сигнале понижающего микширования может происходить переключение между форматами кодирования, в результате переключения между форматами кодирования в декоррелированном сигнале потенциально могут возникать различимые на слух искажения. Даже если в результате переключения между форматами кодирования осуществляется интерполяция «влажных» и «сухих» коэффициентов повышающего микширования, в реконструированном М-канальном аудиосигнале все равно могут оставаться искажения, появившиеся в декоррелированном сигнале. Обеспечение входного сигнала декорреляции в соответствии с настоящим примером осуществления позволяет подавлять такие искажения в декоррелированном сигнале, которые вызываются переключением между форматами кодирования, что может увеличивать качество воспроизведения реконструированного М-канального аудиосигнала.In the present exemplary embodiment, when switching said coding format between two coding formats, at least a portion of the first fixed channel of the decorrelation input signal remains. This may provide a smoother and/or less abrupt transition between coding formats for the listener's perception during playback of the reconstructed M -channel audio signal. In particular, the inventors have found that since a decorrelated signal can, for example, be created based on a part of the downmix signal corresponding to several time intervals during which switching between coding formats can occur in the downmix signal, as a result of switching between coding formats in the decorrelated audible distortion can potentially occur in the signal. Even if switching between coding formats interpolates wet and dry upmix coefficients, the reconstructed M -channel audio signal may still contain the distortion introduced in the decorrelated signal. Providing a decorrelation input signal according to the present embodiment can suppress such distortions in the decorrelated signal that are caused by switching between coding formats, which can improve the reproduction quality of the reconstructed M -channel audio signal.

В примере осуществления преддекорреляционные коэффициенты могут определяться так, чтобы второй канал М-канального аудиосигнала дополнительно вносил вклад во второй фиксированный канал входного сигнала декорреляции посредством сигнала понижающего микширования по меньшей мере в двух форматах кодирования. Другими словами, второй канал М-канального аудиосигнала вносит вклад в один и тот же канал входного сигнала декорреляции посредством сигнала понижающего микширования в каждом из этих форматов кодирования. В настоящем примере осуществления при переключении указанного формата кодирования между двумя форматами кодирования остается по меньшей мере часть второго фиксированного входного сигнала декорреляции. Таким образом, переход между форматами кодирования оказывает влияние только на один вход декоррелятора. Это может обеспечивать более плавный и/или менее резкий переход между форматами кодирования для восприятия слушателем во время воспроизведения реконструированного М-канального аудиосигнала.In an exemplary embodiment, the pre-decrelation coefficients may be determined such that the second channel of the M -channel audio signal further contributes to the second fixed channel of the decorrelation input signal via a downmix signal in at least two coding formats. In other words, the second channel of the M -channel audio signal contributes to the same channel of the decorrelation input signal via a downmix signal in each of these coding formats. In the present exemplary embodiment, switching said coding format between two coding formats leaves at least a portion of the second fixed decorrelation input signal. Thus, the transition between encoding formats affects only one input of the decorrelator. This may provide a smoother and/or less abrupt transition between coding formats for the listener's perception during playback of the reconstructed M -channel audio signal.

Первый и второй каналы М-канального аудиосигнала могут, например, отличаться друг от друга. Первый и второй фиксированные каналы входного сигнала декорреляции могут, например, отличаться друг от друга.The first and second channels of the M -channel audio signal may, for example, be different from each other. The first and second fixed channels of the decorrelation input signal may, for example, be different from each other.

В примере осуществления полученная сигнализация может указывать на выбранный один из по меньшей мере трех форматов кодирования, а преддекорреляционные коэффициенты могут определяться так, чтобы первый канал М-канального аудиосигнала вносил вклад в первый фиксированный канал входного сигнала декорреляции посредством сигнала понижающего микширования по меньшей мере в трех форматах кодирования. Другими словами, первый канал М-канального аудиосигнала вносит вклад в один и тот же канал входного сигнала декорреляции посредством сигнала понижающего микширования в этих трех форматах кодирования. В настоящем примере осуществления при переключении указанного формата кодирования между любыми из трех форматов кодирования остается по меньшей мере часть первого фиксированного канала входного сигнала декорреляции, что обеспечивает более плавный и/или менее резкий переход между форматами кодирования для восприятия слушателем во время воспроизведения реконструированного М-канального аудиосигнала.In an exemplary embodiment, the received signaling may indicate a selected one of at least three coding formats, and the pre-decrelation coefficients may be determined such that the first channel of the M -channel audio signal contributes to the first fixed channel of the decorrelation input signal via the downmix signal in at least three encoding formats. In other words, the first channel of the M -channel audio signal contributes to the same channel of the decorrelation input signal through the downmix signal in these three coding formats. In the present exemplary embodiment, when switching said coding format between any of the three coding formats, at least a portion of the first fixed channel of the decorrelation input signal remains, which provides a smoother and/or less abrupt transition between coding formats for the listener to perceive during playback of the reconstructed M -channel audio signal.

В примере осуществления преддекорреляционные коэффициенты могут определяться так, чтобы пара каналов М-канального аудиосигнала вносила вклад в третий фиксированный канал входного сигнала декорреляции посредством сигнала понижающего микширования по меньшей мере в двух форматах кодирования. Другими словами, пара каналов М-канального аудиосигнала вносит вклад в один и тот же канал входного сигнала декорреляции посредством сигнала понижающего микширования в каждом из этих форматов кодирования. В настоящем примере осуществления при переключении указанного формата кодирования между двумя форматами кодирования остается по меньшей мере часть третьего фиксированного канала входного сигнала декорреляции, что обеспечивает более плавный и/или менее резкий переход между форматами кодирования для восприятия слушателем во время воспроизведения реконструированного М-канального аудиосигнала.In an exemplary embodiment, the pre-decrelation coefficients may be determined such that a channel pair of the M -channel audio signal contributes to a third fixed channel of the decorrelation input signal via a downmix signal in at least two coding formats. In other words, a pair of channels of an M -channel audio signal contributes to the same channel of the decorrelation input signal via a downmix signal in each of these coding formats. In the present embodiment, switching said coding format between the two coding formats leaves at least a portion of the third fixed channel of the decorrelation input signal, providing a smoother and/or less abrupt transition between coding formats for the listener to experience during playback of the reconstructed M -channel audio signal.

Пара каналов может, например, отличаться от первого и второго каналов М-канального аудиосигнала. Третий фиксированный канал входного сигнала декорреляции может, например, отличаться от первого и второго фиксированных каналов входного сигнала декорреляции.The channel pair may, for example, be different from the first and second channels of the M -channel audio signal. The third fixed channel of the decorrelation input may, for example, be different from the first and second fixed channels of the decorrelation input.

В примере осуществления способ декодирования аудио может дополнительно включать выполнение постепенного перехода от значений преддекорреляционных коэффициентов, связанных с первым форматом кодирования, к значениям преддекорреляционных коэффициентов, связанных со вторым форматом кодирования, в ответ на определение факта переключения указанного формата кодирования с первого формата кодирования на второй формат кодирования. Использование постепенного перехода между значениями преддекорреляционных коэффициентов при переключении между форматами кодирования обеспечивает более плавный и/или менее резкий переход между форматами кодирования для восприятия слушателем во время воспроизведения реконструированного М-канального аудиосигнала. В частности, авторы изобретения установили, что поскольку декоррелированный сигнал можно, например, создать на основе части сигнала понижающего микширования, соответствующей нескольким временным интервалам, во время которых в сигнале понижающего микширования может происходить переключение между форматами кодирования, в результате переключения между форматами кодирования в декоррелированном сигнале потенциально могут возникать различимые на слух искажения. Даже если в результате переключения между форматами кодирования осуществляется интерполяция «влажных» и «сухих» коэффициентов повышающего микширования, в реконструированном М-канальном аудиосигнале все равно могут оставаться искажения, появившиеся в декоррелированном сигнале. Обеспечение входного сигнала декорреляции в соответствии с настоящим примером осуществления позволяет подавлять такие искажения в декоррелированном сигнале, которые вызываются переключением между форматами кодирования, что может увеличивать качество воспроизведения реконструированного М-канального аудиосигнала.In an exemplary embodiment, the audio decoding method may further include performing a gradual transition from pre-decoration coefficient values associated with the first coding format to pre-decoration coefficient values associated with the second coding format, in response to determining whether said coding format has switched from the first coding format to the second format. coding. The use of a gradual transition between the values of the pre-decoration coefficients when switching between coding formats provides a smoother and/or less abrupt transition between coding formats for the listener's perception during playback of the reconstructed M -channel audio signal. In particular, the inventors have found that since a decorrelated signal can, for example, be created based on a part of the downmix signal corresponding to several time intervals during which switching between coding formats can occur in the downmix signal, as a result of switching between coding formats in the decorrelated audible distortion can potentially occur in the signal. Even if switching between coding formats interpolates wet and dry upmix coefficients, the reconstructed M -channel audio signal may still contain the distortion introduced in the decorrelated signal. Providing a decorrelation input signal according to the present embodiment can suppress such distortions in the decorrelated signal that are caused by switching between coding formats, which can improve the reproduction quality of the reconstructed M -channel audio signal.

Постепенный переход может быть выполнен, например, посредством линейной или непрерывной интерполяции. Постепенный переход может быть выполнен, например, посредством интерполяции с ограниченной скоростью изменения.The gradual transition may be performed, for example, by linear or continuous interpolation. The gradual transition can be performed, for example, by interpolation with a limited rate of change.

В примере осуществления способ декодирования аудио может дополнительно включать выполнение интерполяции от значений «влажных» и «сухих» коэффициентов повышающего микширования, включая коэффициенты с нулевыми значениями, связанных с первым форматом кодирования, к значениям «влажных» и «сухих» коэффициентов повышающего микширования, также включая коэффициенты с нулевыми значениями, связанных со вторым форматом кодирования, в ответ на определение факта переключения указанного формата кодирования с первого формата кодирования на второй формат кодирования. Следует понимать, что каналы понижающего микширования соответствуют разным комбинациями каналов из изначально кодированного М-канального аудиосигнала, так что коэффициент повышающего микширования с нулевым значением в первом формате кодирования необязательно будет иметь нулевое значение и во втором формате кодирования, и наоборот. Предпочтительно коэффициенты повышающего микширования подвержены действию интерполяции, а не компактного представления коэффициентов, например описанного ниже представления.In an exemplary embodiment, the audio decoding method may further include interpolating from wet and dry upmix coefficient values, including coefficients with zero values, associated with the first coding format, to wet and dry upmix coefficient values, also including coefficients with zero values associated with the second coding format, in response to determining whether the specified coding format has switched from the first coding format to the second coding format. It should be understood that the downmix channels correspond to different combinations of channels from the originally encoded M -channel audio signal, so that an upmix factor with a value of zero in the first coding format will not necessarily have a value of zero in the second coding format, and vice versa. Preferably, the upmix coefficients are subject to interpolation rather than a compact representation of the coefficients, such as the representation described below.

Линейную или непрерывную интерполяцию между значениями коэффициентов повышающего микширования можно использовать, например, для обеспечения более плавного перехода между форматами кодирования для восприятия слушателем во время воспроизведения реконструированного М-канального аудиосигнала.Linear or continuous interpolation between the values of the upmix coefficients can be used, for example, to provide a smoother transition between coding formats for the listener's perception during playback of the reconstructed M -channel audio signal.

Интерполяция с большим градиентом, при которой в определенный момент времени, связанный с переключением между форматами кодирования, прежние значения коэффициентов повышающего микширования заменяются новыми значениями коэффициентов повышающего микширования, может, например, увеличивать достоверность воспроизведения реконструированного М-канального аудиосигнала, например, в случаях быстрого изменения аудиоданных М-канального аудиосигнала и переключения формата кодирования на стороне кодера в ответ на эти изменения для увеличения достоверности воспроизведения реконструированного М-канального аудиосигнала.Large gradient interpolation, in which at a certain point in time associated with switching between coding formats, the old values of the upmix coefficients are replaced by new values of the upmix coefficients, can, for example, increase the fidelity of the reconstructed M -channel audio signal, for example, in cases of rapid change audio data of the M -channel audio signal and switching the encoding format on the encoder side in response to these changes to increase the fidelity of the reconstructed M -channel audio signal.

В примере осуществления способ кодирования аудио может дополнительно включать получение сигнализации, указывающей на одну из множества интерполяционных схем, которую можно использовать для интерполяции «влажных» и «сухих» параметров повышающего микширования в рамках одного формата кодирования (т. е. при присвоении коэффициентам повышающего микширования новых значений в период времени, когда не происходит изменения формата кодирования), и использование указанной интерполяционной схемы. Сигнализацию, указывающую на одну из множества интерполяционных схем, можно получить, например, вместе с сигналом понижающего микширования и/или параметрами повышающего микширования. Предпочтительно интерполяционную схему, указанную сигнализацией, можно дополнительно использовать для перехода между форматами кодирования.In an exemplary embodiment, the audio coding method may further include deriving signaling indicative of one of a plurality of interpolation schemes that may be used to interpolate wet and dry upmix parameters within a single coding format (i.e., by assigning the upmix coefficients new values during the period of time when there is no change in the encoding format), and the use of the specified interpolation scheme. Signaling indicative of one of a plurality of interpolation schemes may be obtained, for example, together with the downmix signal and/or the upmix parameters. Preferably, the interpolation scheme indicated by the signaling can additionally be used to transition between coding formats.

На стороне кодера, где доступен М-канальный аудиосигнал, можно, например, выбрать интерполяционные схемы, особенно подходящие для фактических аудиоданных М-канального аудиосигнала. Например, линейную или непрерывную интерполяцию можно использовать в случаях, когда для общего впечатления о реконструированном М-канальном аудиосигнале важно обеспечить плавное переключение, а интерполяцию с большим градиентом, т. е. интерполяцию, при которой в определенный момент времени, связанный с переходом между форматами кодирования, прежние значения коэффициентов повышающего микширования заменяются новыми значениями коэффициентов повышающего микширования, можно использовать в случаях, когда для общего впечатления о реконструированном М-канальном аудиосигнале важно обеспечить быстрое переключение.On the encoder side where the M -channel audio signal is available, it is possible, for example, to select interpolation schemes particularly suitable for the actual audio data of the M -channel audio signal. For example, linear or continuous interpolation can be used in cases where it is important for the overall impression of the reconstructed M -channel audio signal to ensure smooth switching, and interpolation with a large gradient, i.e., interpolation in which at a certain point in time associated with the transition between formats coding, old values of the upmix coefficients are replaced by new values of the upmix coefficients, can be used in cases where fast switching is important for the overall impression of the reconstructed M -channel audio signal.

В примере осуществления по меньшей мере два формата кодирования могут включать первый формат кодирования и второй формат кодирования. Существует коэффициент усиления, контролирующий в каждом формате кодирования вклад от канала М-канального аудиосигнала в одну из линейных комбинаций, которой соответствуют каналы сигнала понижающего микширования. В настоящем примере осуществления коэффициент усиления в первом формате кодирования может совпадать с коэффициентом усиления во втором формате кодирования, который контролирует вклад от того же канала М-канального аудиосигнала.In an exemplary embodiment, the at least two coding formats may include a first coding format and a second coding format. There is a gain factor that controls, in each coding format, the contribution from a channel of the M -channel audio signal to one of the line patterns corresponding to the channels of the downmix signal. In the present embodiment, the gain in the first coding format may be the same as the gain in the second coding format that controls the contribution from the same channel of the M -channel audio signal.

Использование одних и тех же коэффициентов усиления в первом и втором форматах кодирования может, например, увеличивать сходство между объединенными аудиоданными каналов сигнала понижающего микширования в первом формате кодирования и объединенными аудиоданными каналов сигнала понижающего микширования во втором формате кодирования. Поскольку каналы сигнала понижающего микширования используются для реконструкции М-канального сигнала понижающего микширования, это может способствовать более плавным переходам между этими двумя форматами кодирования для восприятия слушателем.Using the same gain factors in the first and second coding formats can, for example, increase the similarity between the combined audio data of the downmix signal channels in the first coding format and the combined audio data of the downmix signal channels in the second coding format. Since the channels of the downmix signal are used to reconstruct the M -channel downmix signal, this can contribute to smoother transitions between the two coding formats for the listener's perception.

Использование одних и тех же коэффициентов усиления в первом и втором форматах кодирования может, например, способствовать увеличению сходства между аудиоданными первого и второго каналов соответственно сигнала понижающего микширования в первом формате кодирования и аудиоданными первого и второго каналов соответственно сигнала понижающего микширования во втором формате кодирования. Это может способствовать более плавным переходам между этими двумя форматами кодирования для восприятия слушателем.Using the same gain factors in the first and second coding formats can, for example, increase the similarity between the audio data of the first and second channels, respectively, of the downmix signal in the first coding format, and the audio data of the first and second channels, respectively, of the downmix signal in the second coding format. This may facilitate smoother transitions between the two encoding formats for the listener to perceive.

В настоящем примере осуществления для разных каналов М-канального аудиосигнала можно, например, использовать разные коэффициенты усиления. В первом примере значения всех коэффициентов усиления в первом и втором форматах кодирования могут составлять 1. В первом примере первый и второй каналы сигнала понижающего микширования могут соответствовать невзвешенным суммам первой и второй групп соответственно как в первом, так и во втором форматах кодирования. Во втором примере значения по меньшей мере некоторых коэффициентов усиления могут быть отличными от 1. Во втором примере первый и второй каналы сигнала понижающего микширования могут соответствовать взвешенным суммам первой и второй групп соответственно.In the present embodiment, different gain factors can be used for different channels of the M -channel audio signal, for example. In the first example, the values of all gain factors in the first and second coding formats may be 1. In the first example, the first and second channels of the downmix signal may correspond to the unweighted sums of the first and second groups, respectively, in both the first and second coding formats. In the second example, the values of at least some of the gain factors may be other than 1. In the second example, the first and second channels of the downmix signal may correspond to the weighted sums of the first and second groups, respectively.

В примере осуществления М-канальный аудиосигнал может содержать три канала, представляющих разные горизонтальные направления в среде воспроизведения для М-канального аудиосигнала, и два канала, представляющих направления, отделенные по вертикали от направлений вышеупомянутых трех каналов в среде воспроизведения. Другими словами, М-канальный аудиосигнал может содержать три канала, предназначенных для воспроизведения источниками звука, расположенными по существу на одной высоте со слушателем (или ушами слушателя) и/или распространяющими звук по существу горизонтально, и два канала, предназначенные для воспроизведения источниками звука, расположенными на другой высоте и/или распространяющими звук (по существу) негоризонтально. Два канала могут, например, представлять направления вверху.In an exemplary embodiment, the M -channel audio signal may comprise three channels representing different horizontal directions in the playback environment for the M -channel audio signal, and two channels representing directions that are vertically separated from the directions of the above three channels in the playback environment. In other words, an M -channel audio signal may comprise three channels intended to be reproduced by sound sources located substantially at the same height as the listener (or listener's ears) and/or propagating sound substantially horizontally, and two channels intended to be reproduced by sound sources located at a different height and/or propagating sound (substantially) non-horizontally. The two channels may, for example, represent directions from above.

В примере осуществления в первом формате кодирования вторая группа каналов может содержать два канала, представляющие направления, отделенные по вертикали от направлений вышеупомянутых трех каналов в среде воспроизведения. При наличии этих двух каналов во второй группе и использовании одного и того же канала сигнала понижающего микширования для представления этих двух каналов можно, например, увеличить достоверность воспроизведения реконструированного М-канального аудиосигнала в случаях, когда вертикальное измерение в среде воспроизведения важно для общего впечатления от М-канального аудиосигнала.In the exemplary embodiment, in the first coding format, the second channel group may comprise two channels representing directions vertically separated from the directions of the above three channels in the reproduction environment. By having these two channels in the second group, and using the same downmix signal channel to represent the two channels, it is possible, for example, to increase the fidelity of the reconstructed M -channel audio signal in cases where the vertical dimension in the playback environment is important to the overall M experience. - channel audio signal.

В примере осуществления в первом формате кодирования первая группа из одного или более каналов может содержать три канала, представляющих разные горизонтальные направления в среде воспроизведения М-канального аудиосигнала, а вторая группа из одного или более каналов может содержать два канала, представляющих направления, отделенные по вертикали от направлений вышеупомянутых трех каналов в среде воспроизведения. В настоящем примере осуществления первый формат кодирования позволяет представлять три канала посредством первого канала сигнала понижающего микширования и представлять два канала посредством второго канала сигнала понижающего микширования, в результате чего можно, например, увеличить достоверность воспроизведения реконструированного М-канального аудиосигнала в случаях, когда вертикальное измерение в среде воспроизведения важно для общего впечатления от М-канального аудиосигнала.In the exemplary embodiment, in the first coding format, the first group of one or more channels may comprise three channels representing different horizontal directions in an M -channel audio playback environment, and the second group of one or more channels may comprise two channels representing directions separated vertically. from the directions of the above three channels in the reproduction environment. In the present embodiment, the first coding format allows three channels to be represented by the first channel of the downmix signal and two channels to be represented by the second channel of the downmix signal, whereby, for example, the reproduction fidelity of the reconstructed M -channel audio signal can be increased in cases where the vertical dimension is in playback environment is important to the overall M -channel audio experience.

В примере осуществления во втором формате кодирования каждая из первой и второй группы может содержать один из двух каналов, представляющих направления, отделенные по вертикали от направлений вышеупомянутых трех каналов в среде воспроизведения М-канального аудиосигнала. При наличии этих двух каналов в разных группах и использовании разных каналов сигнала понижающего микширования для представления этих двух каналов можно, например, увеличить достоверность воспроизведения реконструированного М-канального аудиосигнала в случаях, когда вертикальное измерение в среде воспроизведения не столь важно для общего впечатления от М-канального аудиосигнала.In the exemplary embodiment, in the second coding format, each of the first and second groups may comprise one of two channels representing directions vertically separated from the directions of the above three channels in an M -channel audio reproduction environment. By having these two channels in different groups and using different channels of the downmix signal to represent the two channels, it is possible, for example, to increase the fidelity of the reconstructed M -channel audio signal in cases where the vertical dimension in the playback environment is not so important to the overall M-channel experience. channel audio.

В примере осуществления в формате кодирования, который в настоящей заявке называется конкретным форматом кодирования, первая группа из одного или более каналов может состоять из N каналов, где N ≥ 3. В настоящем примере осуществления, если указанный формат кодирования является конкретным форматом кодирования, преддекорреляционные коэффициенты могут определяться так, чтобы на основе первого канала сигнала понижающего микширования было создано N − 1 каналов декоррелированного сигнала; а «сухие» и «влажные» коэффициенты повышающего микширования могут определяться так, чтобы первая группа из одного или более каналов была реконструирована как линейное отображение первого канала сигнала понижающего микширования и N − 1 каналов декоррелированного сигнала, причем к первому каналу сигнала понижающего микширования применяют поднабор «сухих» коэффициентов повышающего микширования, а к N − 1 каналам декоррелированного сигнала применяют поднабор «влажных» коэффициентов повышающего микширования.In an exemplary embodiment, in a coding format referred to herein as a specific coding format, the first group of one or more channels may be composed of N channels, where N ≥ 3. In the present embodiment, if the specified coding format is a specific coding format, the pre-decorrelation coefficients may be determined such that, based on the first channel of the downmix signal, N − 1 channels of the decorrelated signal are generated; and the dry and wet upmix coefficients may be determined such that the first group of one or more channels is reconstructed as a linear mapping of the first channel of the downmix signal and N − 1 channels of the decorrelated signal, with a subset applied to the first channel of the downmix signal dry upmix coefficients, and a subset of wet upmix coefficients is applied to the N − 1 channels of the decorrelated signal.

Преддекорреляционные коэффициенты могут определяться, например, так, чтобы N − 1 каналов входного сигнала декорреляции совпадали с первым каналом сигнала понижающего микширования. N − 1 каналов декоррелированного сигнала можно создать, например, посредством обработки этих N − 1 каналов входного сигнала декорреляции.The pre-decrelation coefficients may be determined, for example, such that the N − 1 channels of the decorrelation input signal coincide with the first channel of the downmix signal. The N − 1 channels of the decorrelated signal can be created, for example, by processing these N − 1 channels of the decorrelation input signal.

Под реконструкцией первой группы одного или более каналов как линейного отображения первого канала сигнала понижающего микширования и N − 1 каналов декоррелированного сигнала понимается то, что реконструированный вариант первой группы одного или более каналов получают путем линейного преобразования первого канала сигнала понижающего микширования и N − 1 каналов декоррелированного сигнала. При этом линейном преобразовании N каналов берут в качестве входа и обеспечивают N каналов в качестве выхода, причем поднабор «сухих» коэффициентов повышающего микширования и поднабор «влажных» коэффициентов повышающего микширования вместе составляют коэффициенты, определяющие количественные характеристики этого линейного преобразования.By reconstructing the first group of one or more channels as a linear mapping of the first channel of the downmix signal and N − 1 channels of the decorrelated signal, it is understood that the reconstructed version of the first group of one or more channels is obtained by linearly transforming the first channel of the downmix signal and N − 1 channels of the decorrelated signal signal. This linear transformation takes N channels as an input and provides N channels as an output, with a subset of dry upmix coefficients and a subset of wet upmix coefficients together constituting the coefficients quantifying this linear transformation.

В примере осуществления полученные параметры повышающего микширования могут включать параметры повышающего микширования первого типа, называемые в настоящей заявке «влажными» параметрами повышающего микширования, и параметры повышающего микширования второго типа, называемые в настоящей заявке «сухими» параметрами повышающего микширования. В настоящем примере осуществления определение наборов «влажных» и «сухих» коэффициентов повышающего микширования в конкретном формате кодирования может включать определение поднабора «сухих» коэффициентов повышающего микширования на основе «сухих» параметров повышающего микширования; заполнение промежуточной матрицы, имеющей больше элементов, чем количество полученных «влажных» коэффициентов повышающего микширования, на основе полученных «влажных» коэффициентов повышающего микширования и наличия информации о том, что промежуточная матрица относится к классу заданных матриц; и получение поднабора «влажных» коэффициентов повышающего микширования путем умножения промежуточной матрицы на заданную матрицу, причем поднабор «влажных» коэффициентов повышающего микширования соответствует матрице, являющейся результатом умножения, и включает большее количество коэффициентов, чем количество элементов в промежуточной матрице.In an exemplary embodiment, the obtained upmix parameters may include first type upmix parameters, referred to herein as "wet" upmix parameters, and second type upmix parameters, referred to herein as "dry" upmix parameters. In the present embodiment, determining sets of wet and dry upmix coefficients in a particular coding format may include determining a subset of dry upmix coefficients based on the dry upmix parameters; populating an intermediate matrix having more elements than the number of obtained wet upmix coefficients based on the obtained wet upmix coefficients and knowing that the intermediate matrix belongs to a class of predetermined matrices; and obtaining a subset of wet upmix coefficients by multiplying the intermediate matrix by a predetermined matrix, wherein the subset of wet upmix coefficients corresponds to the matrix resulting from the multiplication and includes more coefficients than the number of elements in the intermediate matrix.

В настоящем примере осуществления количество «влажных» коэффициентов повышающего микширования в поднаборе «влажных» коэффициентов повышающего микширования больше количества полученных «влажных» параметров повышающего микширования. Использование информации о заданной матрице и классе заданных матриц для получения поднабора «влажных» коэффициентов повышающего микширования из полученных «влажных» параметров повышающего микширования позволяет уменьшить количество информации, необходимой для параметрической реконструкции первой группы из одного или более каналов, что позволяет уменьшить количество метаданных, передаваемых вместе с сигналом понижающего микширования со стороны кодера. Уменьшение количества данных, необходимых для параметрической реконструкции, позволяет уменьшить требуемую полосу пропускания для передачи параметрического представления М-канального аудиосигнала и/или требуемое пространство для хранения такого представления.In the present embodiment, the number of wet upmix coefficients in the subset of wet upmix coefficients is greater than the number of obtained wet upmix parameters. Using information about a given matrix and a class of given matrices to obtain a subset of wet upmix coefficients from the obtained wet upmix parameters can reduce the amount of information needed for parametric reconstruction of the first group from one or more channels, which can reduce the amount of metadata transmitted along with the downmix signal from the encoder side. Reducing the amount of data required for the parametric reconstruction makes it possible to reduce the required bandwidth for transmitting a parametric representation of an M -channel audio signal and/or the required storage space for such a representation.

Класс заданных матриц может быть связан с известными характеристиками по меньшей мере некоторых элементов матрицы, действительными для всех матриц в классе, такими как определенные взаимосвязи между некоторыми элементами матрицы или нулевые значения некоторых элементов матрицы. Наличие информации об этих характеристиках позволяет заполнять промежуточную матрицу на основе меньшего количества «влажных» параметров повышающего микширования по сравнению с полным количеством элементов матрицы в промежуточной матрице. На стороне кодера доступна информация по меньшей мере о характеристиках элементов, которые необходимы для вычисления всех элементов матрицы на основе меньшего количества «влажных» коэффициентов повышающего микширования, и о взаимосвязях между этими элементами.A class of given matrices may be associated with known characteristics of at least some of the matrix elements that are valid for all matrices in the class, such as certain relationships between some of the matrix elements or zero values of some of the matrix elements. Knowing these characteristics allows the intermediate matrix to be populated based on fewer wet upmix parameters compared to the total number of matrix elements in the intermediate matrix. On the encoder side, information is available at least on the characteristics of the elements that are needed to calculate all elements of the matrix based on a smaller number of wet upmix coefficients, and on the relationships between these elements.

Определение и использование заданной матрицы и класса заданных матриц более подробно описаны в предварительной заявке на патент США № 61/974,544 со строки 15 на странице 16 до строки 2 на странице 20; автор изобретения, чье имя указано первым: Lars Villemoes; дата подачи: 3 апреля 2014 г. В частности, в качестве примеров заданной матрицы см. выражение (9) в вышеупомянутом документе.The definition and use of a given matrix and class of given matrices are described in more detail in U.S. Provisional Application No. 61/974,544, line 15 on page 16 to line 2 on page 20; Inventor named first: Lars Villemoes; filing date: April 3, 2014. In particular, see expression (9) in the aforementioned document as examples of a given matrix.

В примере осуществления полученные параметры повышающего микширования могут включать N(N − 1)/2 «влажных» параметров повышающего микширования. В настоящем примере осуществления заполнение промежуточной матрицы может включать получение значений для (N − 1)² элементов матрицы на основе полученных N(N − 1)/2 «влажных» параметров повышающего микширования и наличия информации о принадлежности промежуточной матрицы к классу заданных матриц. Это может включать ввод значений «влажных» параметров повышающего микширования сразу как элементов матрицы или обработку «влажных» параметров повышающего микширования подходящим образом с целью получения значений для элементов матрицы. В настоящем примере осуществления заданная матрица может включать N(N − 1) элементов, а поднабор «влажных» параметров повышающего микширования может включать N(N − 1) коэффициентов. Например, полученные параметры повышающего микширования могут включать не более N(N − 1)/2 независимо присваиваемых «влажных» параметров повышающего микширования, и/или количество «влажных» параметров повышающего микширования может быть не больше половины количества «влажных» параметров повышающего микширования в поднаборе «влажных» параметров повышающего микширования.In an exemplary embodiment, the resulting upmix parameters may include N(N − 1)/2 wet upmix parameters. In the present embodiment, populating the intermediate matrix may include deriving values for (N − 1) ² matrix elements based on the N(N − 1)/2 obtained wet upmix parameters and knowing whether the intermediate matrix belongs to the class of given matrices. This may include entering wet upmix parameter values directly as matrix elements, or processing the wet upmix parameters appropriately to obtain values for matrix elements. In the present exemplary embodiment, the given matrix may include N(N − 1) elements, and the subset of wet upmix parameters may include N(N − 1) coefficients. For example, the resulting upmix parameters may include no more than N(N − 1)/2 independently assigned wet upmix parameters, and/or the number of wet upmix parameters may be no more than half the number of wet upmix parameters in a subset of wet upmix parameters.

В примере осуществления полученные параметры повышающего микширования могут включать (N − 1) «сухих» параметров повышающего микширования. В настоящем примере осуществления поднабор «сухих» параметров повышающего микширования может включать N коэффициентов, и поднабор «сухих» параметров повышающего микширования может определяться на основе полученных (N − 1) «сухих» параметров повышающего микширования и на основе заданной взаимосвязи между коэффициентами в поднаборе «сухих» параметров повышающего микширования. Например, полученные параметры повышающего микширования могут включать не более (N − 1) независимо присваиваемых «сухих» параметров повышающего микширования.In an exemplary embodiment, the obtained upmix parameters may include (N − 1) dry upmix parameters. In the present embodiment, the subset of dry upmix parameters may include N coefficients, and the subset of dry upmix parameters may be determined based on the obtained (N − 1) dry upmix parameters and based on a predetermined relationship between the coefficients in the subset dry” upmix parameters. For example, the resulting upmix parameters may include no more than (N − 1) independently assigned "dry" upmix parameters.

В примере осуществления класс заданных матриц может представлять собой один вариант верхних или нижних треугольных матриц, причем известные характеристики всех матриц в классе включают нулевые элементы заданной матрицы; симметричных матриц, причем известные характеристики всех матриц в классе включают равные элементы заданной матрицы (с обеих сторон главной диагонали); и произведения ортогональной матрицы и диагональной матрицы, причем известные характеристики всех матриц в классе включают известные взаимосвязи между элементами заданной матрицы. Другими словами, класс заданных матриц может быть классом нижних треугольных матриц, классом верхних треугольных матриц, классом симметричных матриц или классом произведений ортогональной матрицы и диагональной матрицы. Общим свойством для каждого из вышеупомянутых классов является то, что их размерность меньше полного количества элементов матрицы.In an exemplary implementation, a class of given matrices may be one variant of upper or lower triangular matrices, where the known characteristics of all matrices in the class include zero elements of the given matrix; symmetric matrices, and the known characteristics of all matrices in the class include equal elements of a given matrix (on both sides of the main diagonal); and products of an orthogonal matrix and a diagonal matrix, wherein the known characteristics of all matrices in the class include known relationships between the elements of a given matrix. In other words, the class of given matrices can be the class of lower triangular matrices, the class of upper triangular matrices, the class of symmetric matrices, or the class of products of an orthogonal matrix and a diagonal matrix. A common property for each of the above classes is that their dimension is less than the total number of matrix elements.

В примере осуществления заданная матрица и/или класс заданных матриц могут быть связаны с указанным форматом кодирования, за счет чего, например, обеспечивается возможность соответствующей адаптации определения набора «влажных» параметров повышающего микширования в рамках способа декодирования.In an exemplary embodiment, a given matrix and/or a class of given matrices can be associated with a given coding format, whereby, for example, the definition of the set of wet upmix parameters within the decoding method can be appropriately adapted.

В соответствии с примерами осуществления предложен способ декодирования аудио, включающий получение сигнализации, указывающей на одну из по меньшей мере двух заданных конфигураций каналов; осуществление любого из способов декодирования аудио в соответствии с первым аспектом в ответ на обнаружение полученной сигнализации, указывающей на первую заданную конфигурацию каналов. Способ декодирования аудио в ответ на обнаружение полученной сигнализации, указывающей на вторую заданную конфигурацию каналов, может включать получение двухканального сигнала понижающего микширования и ассоциированных параметров повышающего микширования; выполнение параметрической реконструкции первого трехканального аудиосигнала на основе первого канала сигнала понижающего микширования и по меньшей мере некоторых из параметров повышающего микширования; и выполнение параметрической реконструкции второго трехканального аудиосигнала на основе второго канала сигнала понижающего микширования и по меньшей мере некоторых из параметров повышающего микширования.In accordance with the exemplary embodiments, a method for decoding audio is provided, including receiving a signaling indicative of one of at least two given channel patterns; performing any of the audio decoding methods according to the first aspect in response to detecting received signaling indicative of the first predetermined channel pattern. A method for decoding audio in response to detecting received signaling indicative of a second predetermined channel pattern may include obtaining a two-channel downmix signal and associated upmix parameters; performing parametric reconstruction of the first three-channel audio signal based on the first channel of the downmix signal and at least some of the upmix parameters; and performing parametric reconstruction of the second three-channel audio signal based on the second channel of the downmix signal and at least some of the upmix parameters.

Первая заданная конфигурация каналов может соответствовать М-канальному аудиосигналу, представленному полученным двухканальным сигналом понижающего микширования и ассоциированными параметрами повышающего микширования. Вторая заданная конфигурация каналов может соответствовать первому и второму трехканальным аудиосигналам, представленным первым и вторым каналами полученного сигнала понижающего микширования соответственно и ассоциированными параметрами повышающего микширования.The first given channel configuration may correspond to an M -channel audio signal represented by the received two-channel downmix signal and associated upmix parameters. The second predetermined channel pattern may correspond to the first and second three-channel audio signals represented by the first and second channels of the received downmix signal, respectively, and the associated upmix parameters.

Возможность получения сигнализации, указывающей на одну из по меньшей мере двух заданных конфигураций каналов, и выполнения параметрической реконструкции на основе указанной конфигурации каналов может обеспечить использование общего формата для машиночитаемого носителя, содержащего параметрическое представление или М-канального аудиосигнала, или двух трехканальных аудиосигналов, со стороны кодера на стороне декодера.The ability to obtain signaling indicative of one of at least two given channel patterns and perform parametric reconstruction based on said channel pattern can provide a common format for a computer-readable medium containing a parametric representation of either an M -channel audio signal or two three-channel audio signals, from the side encoder on the decoder side.

В соответствии с примерами осуществления предложена система декодирования аудио, содержащая секцию декодирования, выполненную с возможностью реконструкции М-канального аудиосигнала на основе двухканального сигнала понижающего микширования и ассоциированных параметров повышающего микширования, причем M ≥ 4. Система декодирования аудио содержит секцию управления, выполненную с возможностью получения сигнализации, указывающей на выбранный формат из по меньшей мере двух форматов кодирования М-канального аудиосигнала. Форматы кодирования сопоставлены с соответствующими различными разделениями каналов М-канального аудиосигнала на соответствующие первую и вторую группы одного или более каналов. В указанном формате кодирования первый канал сигнала понижающего микширования соответствует линейной комбинации первой группы одного или более каналов М-канального аудиосигнала, а второй канал сигнала понижающего микширования соответствует линейной комбинации второй группы одного или более каналов М-канального аудиосигнала. Секция декодирования содержит секцию преддекорреляции, выполненную с возможностью определения набора преддекорреляционных коэффициентов на основе указанного формата кодирования и вычисления входного сигнала декорреляции как линейного отображения сигнала понижающего микширования, причем к сигналу понижающего микширования применяют набор преддекорреляционных коэффициентов; и секцию декорреляции, выполненную с возможностью создания декоррелированного сигнала на основе входного сигнала декорреляции. Секция декодирования содержит секцию микширования, выполненную с возможностью определения наборов «влажных» и «сухих» коэффициентов повышающего микширования на основе полученных параметров повышающего микширования и указанного формата кодирования; вычисления «сухого» сигнала повышающего микширования как линейного отображения сигнала понижающего микширования, причем к сигналу понижающего микширования применяют набор «сухих» коэффициентов повышающего микширования; вычисления «влажного» сигнала повышающего микширования как линейного отображения декоррелированного сигнала, причем к декоррелированному сигналу применяют набор «влажных» коэффициентов повышающего микширования; и сочетания «сухого» и «влажного» сигналов повышающего микширования для получения многомерного реконструированного сигнала, соответствующего подлежащему реконструкции М-канальному аудиосигналу.According to exemplary embodiments, an audio decoding system is provided comprising a decoding section configured to reconstruct an M -channel audio signal based on a two-channel downmix signal and associated upmix parameters, with M ≥ 4. The audio decoding system comprises a control section configured to obtain signaling indicating a selected format from at least two M -channel audio coding formats. The coding formats are mapped to respective different channelizations of the M -channel audio signal into respective first and second groups of one or more channels. In this coding format, the first channel of the downmix signal corresponds to a linear combination of the first group of one or more channels of the M -channel audio signal, and the second channel of the downmix signal corresponds to the linear combination of the second group of one or more channels of the M -channel audio signal. The decoding section comprises a pre-decorrelation section configured to determine a set of pre-decorrelation coefficients based on a specified coding format and calculate an input decorrelation signal as a linear display of the downmix signal, wherein the set of pre-decorrelation coefficients is applied to the downmix signal; and a decorrelation section configured to generate a decorrelated signal based on the input decorrelation signal. The decoding section comprises a mixing section configured to determine sets of wet and dry upmix coefficients based on the obtained upmix parameters and a specified coding format; calculating the dry upmix signal as a linear display of the downmix signal, wherein a set of dry upmix coefficients is applied to the downmix signal; calculating the wet upmix signal as a linear display of the decorrelated signal, wherein a set of wet upmix coefficients is applied to the decorrelated signal; and combining dry and wet upmix signals to obtain a multi-dimensional reconstructed signal corresponding to the M -channel audio signal to be reconstructed.

В примере осуществления система декодирования аудио может дополнительно содержать дополнительную секцию декодирования, выполненную с возможностью реконструкции дополнительного М-канального аудиосигнала на основе дополнительного двухканального сигнала понижающего микширования и ассоциированных дополнительных параметров повышающего микширования. Система управления может быть выполнена с возможностью получения сигнализации, указывающей на выбранный формат из по меньшей мере двух форматов кодирования дополнительного М-канального аудиосигнала. Форматы кодирования дополнительного М-канального аудиосигнала могут быть сопоставлены с соответствующими различными разделениями каналов дополнительного М-канального аудиосигнала на соответствующие первую и вторую группы одного или более каналов. В указанном формате кодирования дополнительного М-канального аудиосигнала первый канал дополнительного сигнала понижающего микширования может соответствовать линейной комбинации первой группы одного или более каналов дополнительного М-канального аудиосигнала, а второй канал дополнительного сигнала понижающего микширования может соответствовать линейной комбинации второй группы одного или более каналов дополнительного М-канального аудиосигнала. Дополнительная секция декодирования может содержать дополнительную секцию преддекорреляции, выполненную с возможностью определения дополнительного набора преддекорреляционных коэффициентов на основе указанного формата кодирования дополнительного М-канального аудиосигнала и вычисления дополнительного входного сигнала декорреляции как линейного отображения дополнительного сигнала понижающего микширования, причем к дополнительному сигналу понижающего микширования применяют дополнительный набор преддекорреляционных коэффициентов; и дополнительную секцию декорреляции, выполненную с возможностью создания дополнительного декоррелированного сигнала на основе дополнительного входного сигнала декорреляции. Дополнительная секция декодирования может дополнительно содержать дополнительную секцию микширования, выполненную с возможностью определения дополнительных наборов «влажных» и «сухих» коэффициентов повышающего микширования на основе полученных дополнительных параметров повышающего микширования и указанного формата кодирования дополнительного М-канального аудиосигнала; вычисления дополнительного «сухого» сигнала повышающего микширования как линейного отображения дополнительного сигнала понижающего микширования, при этом к дополнительному сигналу понижающего микширования применяют дополнительный набор «сухих» коэффициентов повышающего микширования; вычисления дополнительного «влажного» сигнала повышающего микширования как линейного отображения дополнительного декоррелированного сигнала, при этом к дополнительному декоррелированному сигналу применяют дополнительный набор «влажных» коэффициентов повышающего микширования; и сочетания дополнительных «сухого» и «влажного» сигналов повышающего микширования для получения дополнительного многомерного реконструированного сигнала, соответствующего подлежащему реконструкции дополнительному М-канальному аудиосигналу.In an exemplary embodiment, the audio decoding system may further comprise an additional decoding section configured to reconstruct the additional M -channel audio signal based on the additional two-channel downmix signal and the associated additional upmix parameters. The control system may be configured to receive signaling indicative of a selected format from at least two additional M -channel audio coding formats. The coding formats of the additional M -channel audio signal may be mapped to respective different channelizations of the additional M -channel audio signal into respective first and second groups of one or more channels. In this coding format of the additional M -channel audio signal, the first channel of the additional downmix signal may correspond to a linear combination of the first group of one or more channels of the additional M -channel audio signal, and the second channel of the additional downmix signal may correspond to a linear combination of the second group of one or more channels of the additional M - channel audio signal. The additional decoding section may comprise an additional pre-decorrelation section configured to determine an additional set of pre-decoration coefficients based on the specified coding format of the additional M -channel audio signal and calculate the additional decorrelation input as a linear mapping of the additional downmix signal, wherein the additional set is applied to the additional downmix signal. pre-decoration coefficients; and an additional decorrelation section configured to generate an additional decorrelated signal based on the additional decorrelation input signal. The additional decoding section may further comprise an additional mixing section configured to determine additional sets of wet and dry upmix coefficients based on the additional upmix parameters obtained and the specified additional M -channel audio coding format; calculating the additional dry upmix signal as a linear mapping of the additional downmix signal, wherein an additional set of dry upmix coefficients is applied to the additional downmix signal; calculating the additional wet upmix signal as a linear mapping of the additional decorrelated signal, wherein an additional set of wet upmix coefficients is applied to the additional decorrelated signal; and combining the additional dry and wet upmix signals to obtain an additional multi-dimensional reconstructed signal corresponding to the additional M -channel audio signal to be reconstructed.

В настоящем примере осуществления дополнительная секция декодирования, дополнительная секция преддекорреляции, дополнительная секция декорреляции и дополнительная секция микширования могут быть выполнены, например, с возможностью функционирования независимо от секции декодирования, секции преддекорреляции, секции декорреляции и секции микширования.In the present embodiment, the additional decoding section, the additional pre-decorrelation section, the additional decorrelation section, and the additional mixing section may be configured to operate independently of the decoding section, the pre-decorrelation section, the decorrelation section, and the mixing section, for example.

В настоящем примере осуществления дополнительная секция декодирования, дополнительная секция преддекорреляции, дополнительная секция декорреляции и дополнительная секция микширования могут быть, например, функционально эквивалентными секции декодирования, секции преддекорреляции, секции декорреляции и секции микширования соответственно (или выполненными по аналогии с ними). В альтернативном варианте осуществления по меньшей мере одна из дополнительной секции декодирования, дополнительной секции преддекорреляции, дополнительной секции декорреляции и дополнительной секции микширования могут быть выполнены, например, с возможностью осуществления по меньшей мере одного типа интерполяции, отличающегося от осуществляемого секцией декодирования, секцией преддекорреляции, секцией декорреляции и секцией микширования.In the present embodiment, the additional decoding section, the additional pre-decorrelation section, the additional decorrelation section, and the additional mixing section may be, for example, functionally equivalent to the decoding section, the pre-decorrelation section, the decorrelation section, and the mixing section, respectively (or similar). In an alternative embodiment, at least one of the additional decoding section, the additional pre-decorrelation section, the additional decorrelation section, and the additional mixing section can be performed, for example, with the possibility of performing at least one type of interpolation different from that performed by the decoding section, the pre-decorrelation section, the section decorrelation and mixing section.

Например, полученная сигнализация может указывать на разные форматы кодирования для М-канального аудиосигнала и дополнительного М-канального аудиосигнала. В альтернативном варианте осуществления форматы кодирования М-канальных аудиосигналов могут, например, всегда совпадать, а полученная сигнализация может указывать на выбранный формат из по меньшей мере двух общих форматов кодирования для двух М-канальных аудиосигналов.For example, the received signaling may indicate different coding formats for the M -channel audio signal and the additional M -channel audio signal. In an alternative embodiment, the coding formats of the M -channel audio signals may, for example, always match, and the received signaling may indicate a selected format from at least two common coding formats for the two M -channel audio signals.

Интерполяционные схемы, используемые для постепенных переходов между преддекорреляционными коэффициентами в ответ на переключение между форматами кодирования М-канального аудиосигнала, могут совпадать с интерполяционными схемами, используемыми для постепенных переходов между дополнительными преддекорреляционными коэффициентами в ответ на переключение между форматами кодирования дополнительного М-канального аудиосигнала, или могут отличаться от этих схем.The interpolation schemes used for fading between pre-decoration coefficients in response to switching between M -channel audio coding formats may be the same as the interpolation schemes used for fading between additional pre-decorrelation coefficients in response to switching between additional M -channel audio coding formats, or may differ from these schemes.

Аналогично интерполяционные схемы, используемые для интерполяции значений «влажных» и «сухих» коэффициентов повышающего микширования в ответ на переключение между форматами кодирования М-канального аудиосигнала, могут совпадать с интерполяционными схемами, используемыми для интерполяции значений дополнительных «влажных» и «сухих» коэффициентов повышающего микширования в ответ на переключение между форматами кодирования дополнительного М-канального аудиосигнала, или могут отличаться от этих схем.Similarly, the interpolation schemes used to interpolate the wet and dry upmix coefficient values in response to switching between M -channel audio coding formats may be the same as the interpolation schemes used to interpolate the additional wet and dry upmix coefficient values. mixing in response to switching between additional M -channel audio coding formats, or may differ from these schemes.

В примере осуществления система декодирования аудио может дополнительно содержать демультиплексор, выполненный с возможностью извлечения из битового потока сигнала понижающего микширования, параметров повышающего микширования, ассоциированных с сигналом понижающего микширования, и дискретно-кодированного аудиоканала. Система декодирования может дополнительно содержать одноканальную секцию декодирования, выполненную с возможностью декодирования дискретно-кодированного аудиоканала. Дискретно-кодированный аудиоканал может быть, например, кодированным в битовом потоке при помощи перцептуального аудиокодека, такого как Dolby Digital, MPEG AAC или их производных, а одноканальная секция декодирования может содержать, например, базовый декодер для декодирования дискретно-кодированного аудиоканала. Одноканальная секция декодирования может быть, например, выполнена с возможностью декодирования дискретно-кодированного аудиоканала независимо от секции декодирования.In an exemplary embodiment, the audio decoding system may further comprise a demultiplexer configured to extract from the bitstream of the downmix signal, the upmix parameters associated with the downmix signal, and the discretely encoded audio channel. The decoding system may further comprise a single-channel decoding section configured to decode the discretely encoded audio channel. The discretely encoded audio channel may be, for example, bitstream encoded with a perceptual audio codec such as Dolby Digital, MPEG AAC, or derivatives thereof, and the single-channel decoding section may comprise, for example, a core decoder for decoding the discretely encoded audio channel. The single-channel decoding section may, for example, be configured to decode the discrete-coded audio channel independently of the decoding section.

В соответствии с примерами осуществления предложен компьютерный программный продукт, содержащий машиночитаемый носитель с командами, для осуществления любого из способов по первому аспекту.In accordance with the exemplary embodiments, a computer program product is provided, comprising a computer-readable medium with instructions for carrying out any of the methods of the first aspect.

II. Обзор. Сторона кодераII. Review. encoder side

В соответствии со вторым аспектом в примерах осуществления предложены системы кодирования аудио, а также способы кодирования аудио и ассоциированные компьютерные программные продукты. Предлагаемые системы кодирования, способы и компьютерные программные продукты в соответствии со вторым аспектом могут по существу иметь одни и те же общие возможности и преимущества. Более того, представленные выше преимущества для признаков систем кодирования, способов и компьютерных программных продуктов в соответствии с первым аспектом могут быть по существу действительными и для соответствующих признаков систем кодирования, способов и компьютерных программных продуктов в соответствии со вторым аспектом.According to a second aspect, the exemplary embodiments provide audio coding systems as well as audio coding methods and associated computer software products. The proposed coding systems, methods, and computer program products according to the second aspect may have essentially the same general features and benefits. Moreover, the advantages presented above for the features of the coding systems, methods, and computer program products according to the first aspect may be substantially valid for the corresponding features of the coding systems, methods, and computer program products according to the second aspect.

В соответствии с примерами осуществления предложен способ кодирования аудио, включающий получение М-канального аудиосигнала, для которого M ≥ 4. Способ кодирования аудио включает повторяющийся выбор одного формата из по меньшей мере двух форматов кодирования на основе любого подходящего критерия выбора, например характеристик сигнала, загрузки системы, предпочтений пользователя, условий сети. Выбор можно повторять один раз для каждого временного интервала аудиосигнала или один раз для каждого n^-го временного интервала, что может привести к выбору другого формата по сравнению с изначально выбранным; в альтернативном варианте осуществления выбор может управляться событиями. Форматы кодирования сопоставлены с соответствующими различными разделениями каналов М-канального аудиосигнала на соответствующие первую и вторую группы одного или более каналов. В каждом из форматов кодирования двухканальный сигнал понижающего микширования включает первый канал, образованный в виде линейной комбинации первой группы одного или более каналов М-канального аудиосигнала, и второй канал, образованный в виде линейной комбинации второй группы одного или более каналов М-канального аудиосигнала. Для выбранного формата кодирования канал понижающего микширования вычисляют на основе М-канального аудиосигнала. После вычисления сигнала понижающего микширования выбранного в данный момент формата кодирования осуществляют вывод сигнализации, указывающей выбранный в данный момент формат кодирования, и дополнительной информации, в результате чего обеспечивается возможность параметрической реконструкции М-канального аудиосигнала. Если выбор приводит к переключению первого выбранного формата кодирования на второй (отличающийся) выбранный формат кодирования, может быть запущен переход, в результате чего осуществляют вывод плавного перехода сигнала понижающего микширования в соответствии с первым выбранным форматом кодирования и сигнала понижающего микширования в соответствии со вторым выбранным форматом кодирования. В данном случае плавный переход может представлять собой линейную или нелинейную интерполяцию двух сигналов. Например, выражениеAccording to exemplary embodiments, an audio coding method is provided, including obtaining an M -channel audio signal for which M ≥ 4. The audio coding method includes repeatedly selecting one format from at least two coding formats based on any suitable selection criteria, such as signal characteristics, loading system, user preferences, network conditions. The selection may be repeated once for each time slot of the audio signal, or once for every ^nth time slot, which may result in a different format being selected than originally selected; in an alternative embodiment, the selection may be event driven. The coding formats are mapped to respective different channelizations of the M -channel audio signal into respective first and second groups of one or more channels. In each of the coding formats, the two-channel downmix signal includes a first channel formed as a linear combination of the first group of one or more channels of the M -channel audio signal, and a second channel formed as a linear combination of the second group of one or more channels of the M -channel audio signal. For the selected coding format, the downmix channel is calculated based on the M -channel audio signal. After the downmix signal of the currently selected coding format is calculated, a signaling indicating the currently selected coding format and additional information is output, thereby allowing parametric reconstruction of the M -channel audio signal. If the selection results in switching the first selected coding format to a second (different) selected coding format, a transition can be triggered, resulting in a smooth transition output of the downmix signal according to the first selected coding format and the downmix signal according to the second selected format. coding. In this case, the smooth transition may be a linear or non-linear interpolation of the two signals. For example, the expression

y(t) = tx₁(t) + (1 − t)x₂(t), t ∈ [0,1]y(t) = tx ₁ (t) + (1 − t)x ₂ (t), t ∈ [0,1]

обеспечивает плавный переход y от функции x₂ к функции x₁ с линейной зависимостью от времени, причем x₁, x₂ могут представлять собой векторнозначные функции времени, представляющие сигналы понижающего микширования в соответствии с соответствующими форматами кодирования. Для упрощения изображения масштаб временного интервала, на котором осуществляется плавный переход, был изменен на [0, 1], где t = 0 представляет начало плавного перехода, а t = 1 представляет момент времени, когда плавный переход завершен.provides a smooth transition y from function x ₂ to function x ₁ with a linear dependence on time, and x ₁ , x ₂ can be vector-valued functions of time representing the downmix signals in accordance with the respective coding formats. To simplify the display, the time interval over which the fade occurs has been scaled to [0, 1], where t = 0 represents the start of the fade and t = 1 represents the point in time when the fade is completed.

Местоположение моментов t = 0 и t = 1 в физических единицах может быть важно для воспринимаемого выходного качества реконструированного аудио. В качестве рекомендации по расположению плавного перехода: его начало может находиться как можно раньше после определения необходимости изменения формата, и/или завершение плавного перехода может происходить за максимально возможно короткое время, чтобы это было незаметно для восприятия. Таким образом, для вариантов реализации, в которых выбор формата кодирования повторяют в каждый временной интервал, в соответствии с некоторыми примерами осуществления плавный переход начинают (t = 0) в начале временного интервала, а точку завершения плавного перехода (t = 1) располагают как можно ближе, но при этом достаточно далеко так, чтобы среднестатистический слушатель не смог различить искажения или ухудшения из-за перехода между двумя реконструкциями общего М-канального аудиосигнала (с обычным содержимым) на основе двух отличающихся форматов кодирования. В одном примере осуществления сигнал понижающего микширования, выводимый в рамках способа кодирования аудио, сегментируют на временные интервалы, и плавный переход может занимать один интервал. В другом примере осуществления сигнал понижающего микширования, выводимый в рамках способа кодирования аудио, сегментируют на перекрывающиеся временные интервалы, и длительность плавного перехода соответствует шагу от одного временного интервала до другого.The location of times t = 0 and t = 1 in physical units can be important to the perceived output quality of the reconstructed audio. As a guideline for the location of the fade, it can start as early as possible after the need to change the format is determined, and/or finish the fade as soon as possible so that it is imperceptible to perception. Thus, for implementations in which the choice of coding format is repeated every time interval, according to some embodiments, the soft transition is started (t = 0) at the beginning of the time interval, and the end point of the soft transition (t = 1) is located as far as possible. closer, yet far enough away that the average listener cannot discern distortion or degradation due to the transition between two reconstructions of a common M -channel audio signal (with normal content) based on two different coding formats. In one embodiment, the downmix signal output from the audio coding method is segmented into time slots, and the fade may span one slot. In another embodiment, the downmix signal output from the audio coding method is segmented into overlapping time slots, and the duration of the fade corresponds to a step from one time slot to another.

В примерах осуществления сигнализация, указывающая на выбранный в данный момент формат кодирования, может быть кодирована на основе следующих друг за другом временных интервалов. В альтернативном варианте осуществления сигнализация может быть дифференцирована по времени в том смысле, что такую сигнализацию можно не активировать на одном или более последовательных временных интервалах, если не происходит изменения выбранного формата кодирования. На стороне декодера такая последовательность временных интервалов может быть интерпретирована так, что выбранным остается самый недавний сигнализируемый формат кодирования.In exemplary embodiments, signaling indicative of the currently selected coding format may be encoded based on consecutive time slots. In an alternative embodiment, the signaling may be time-differentiated in the sense that such signaling may not be activated for one or more consecutive time slots unless the selected coding format changes. At the decoder side, such a sequence of slots can be interpreted such that the most recently signaled coding format remains selected.

В зависимости от аудиоданных М-канального аудиосигнала для захвата и эффективного кодирования М-канального аудиосигнала и сохранения достоверности при реконструкции этого сигнала из сигнала понижающего микширования и ассоциированных параметров повышающего микширования могут подходить различные разделения каналов М-канального аудиосигнала на первую и вторую группы, представленные соответствующими каналами сигнала понижающего микширования. Следовательно, достоверность реконструированного М-канального аудиосигнала можно повысить путем выбора подходящего формата кодирования, а именно — лучше всего подходящего из числа заданных форматов кодирования.Depending on the audio data of the M -channel audio signal, various divisions of the channels of the M -channel audio signal into first and second groups, represented by the corresponding downmix signal channels. Therefore, the reliability of the reconstructed M -channel audio signal can be improved by selecting an appropriate coding format, namely the best fit among the given coding formats.

В примере осуществления дополнительная информация включает «сухие» и «влажные» коэффициенты повышающего микширования в том же смысле, как эти термины были употреблены в настоящей заявке выше. Если речь не идет о задачах особой реализации, обычно достаточно вычислить дополнительную информацию (в частности, «сухие» и «влажные» коэффициенты повышающего микширования) для выбранного в данный момент формата кодирования. В частности, набор «сухих» коэффициентов повышающего микширования (которые могут быть представлены в виде матрицы размерностью M × 2) может задавать линейное отображение соответствующего сигнала понижающего микширования, аппроксимирующего М-канальный аудиосигнал. Набор «влажных» коэффициентов повышающего микширования (которые могут быть представлены в виде матрицы размерностью M × P, где количество декорреляторов P может составлять P = M − 2) определяет линейное отображение декоррелированного сигнала, так что ковариация сигнала, полученного путем указанного линейного отображения декоррелированного сигнала, дополняет ковариацию М-канального аудиосигнала, аппроксимированного путем линейного отображения сигнала понижающего микширования выбранного формата кодирования. Отображение декоррелированного сигнала, который определяется набором «влажных» коэффициентов повышающего микширования, дополнит ковариацию М-канального (аппроксимированного) аудиосигнала в том смысле, что ковариация суммы М-канального аудиосигнала и отображения декоррелированного сигнала обычно ближе к ковариации полученного М-канального аудиосигнала. Эффект от введения дополнительной ковариации может заключаться в увеличении достоверности реконструированного сигнала на стороне декодера.In the exemplary embodiment, the additional information includes "dry" and "wet" upmix coefficients in the same sense as these terms have been used in the present application above. If we are not talking about the tasks of a special implementation, it is usually sufficient to calculate additional information (in particular, "dry" and "wet" upmix coefficients) for the currently selected encoding format. In particular, a set of dry upmix coefficients (which may be represented as an M ×2 matrix) may define a linear mapping of the corresponding downmix signal approximating an M -channel audio signal. A set of wet upmix coefficients (which can be represented as an M × P matrix, where the number of decorrelators P can be P = M − 2) defines a linear mapping of the decorrelated signal, so that the covariance of the signal obtained by the specified linear mapping of the decorrelated signal , complements the covariance of the M -channel audio signal approximated by a linear mapping of the downmix signal of the selected coding format. Displaying the decorrelated signal, which is defined by a set of wet upmix coefficients, will complement the covariance of the M -channel (approximated) audio signal in that the covariance of the sum of the M -channel audio signal and the display of the decorrelated signal is usually closer to the covariance of the received M -channel audio signal. The effect of introducing additional covariance may be to increase the reliability of the reconstructed signal at the decoder side.

Линейное отображение сигнала понижающего микширования обеспечивает аппроксимацию М-канального аудиосигнала. При реконструкции М-канального аудиосигнала на стороне декодера декоррелированный сигнал используют для увеличения размерности аудиоданных сигнала понижающего микширования, и сигнал, полученный путем линейного отображения декоррелированного сигнала, объединяют с сигналом, полученным путем линейного отображения сигнала понижающего микширования, для увеличения достоверности аппроксимации М-канального аудиосигнала. Поскольку декоррелированный сигнал определяют на основе по меньшей мере одного канала сигнала понижающего микширования и декоррелированный сигнал не содержит каких-либо аудиоданных от М-канального аудиосигнала, который еще не доступен в сигнале понижающего микширования, разность между ковариацией полученного М-канального аудиосигнала и ковариацией М-канального аудиосигнала, аппроксимированного путем линейного отображения сигнала понижающего микширования, может указывать не только на достоверность М-канального аудиосигнала, аппроксимированного путем линейного отображения сигнала понижающего микширования, но и на достоверность М-канального аудиосигнала, реконструированного при помощи как сигнала понижающего микширования, так и декоррелированного сигнала. В частности, уменьшенная разность между ковариацией полученного М-канального аудиосигнала и ковариацией М-канального аудиосигнала, аппроксимированного путем линейного отображения сигнала понижающего микширования, может указывать на увеличенную достоверность реконструированного М-канального аудиосигнала. Отображение декоррелированного сигнала, который задается набором «влажных» коэффициентов повышающего микширования, дополняет ковариацию М-канального аудиосигнала (полученного из сигнала понижающего микширования) в том смысле, что ковариация суммы М-канального аудиосигнала и отображения декоррелированного сигнала ближе к ковариации полученного М-канального аудиосигнала. Следовательно, выбор одного из форматов кодирования на основе соответствующих вычисленных разностей позволяет увеличить достоверность реконструированного М-канального аудиосигнала.The linear display of the downmix signal provides an approximation of an M -channel audio signal. In the reconstruction of the M -channel audio signal at the decoder side, the decorrelated signal is used to increase the dimension of the audio data of the downmix signal, and the signal obtained by linear mapping of the decorrelated signal is combined with the signal obtained by linear mapping of the downmix signal to increase the approximation reliability of the M -channel audio signal. . Since the decorrelated signal is determined based on at least one channel of the downmix signal and the decorrelated signal does not contain any audio data from the M -channel audio signal that is not yet available in the downmix signal, the difference between the covariance of the obtained M -channel audio signal and the covariance of M - of a channel audio signal approximated by a linear display of the downmix signal can indicate not only the validity of an M -channel audio signal approximated by a linear display of the downmix signal, but also the validity of an M -channel audio signal reconstructed by both the downmix signal and decorrelated signal. In particular, the reduced difference between the covariance of the received M -channel audio signal and the covariance of the M -channel audio signal approximated by linear mapping of the downmix signal may indicate increased fidelity of the reconstructed M -channel audio signal. The display of the decorrelated signal, which is given by a set of wet upmix coefficients, complements the covariance of the M -channel audio signal (derived from the downmix signal) in that the covariance of the sum of the M -channel audio signal and the display of the decorrelated signal is closer to the covariance of the received M -channel audio signal . Therefore, the choice of one of the coding formats based on the respective calculated differences can increase the reliability of the reconstructed M -channel audio signal.

Следует понимать, что формат кодирования можно выбрать, например, непосредственно на основе вычисленных разностей или на основе коэффициентов и/или значений, определенных на основе вычисленных разностей.It should be understood that the coding format may be selected, for example, directly based on the calculated differences, or on the basis of coefficients and/or values determined based on the calculated differences.

Кроме того, следует понимать, что формат кодирования можно выбрать, например, на основе соответствующих вычисленных «сухих» коэффициентов повышающего микширования дополнительно к соответствующим вычисленным разностям.In addition, it should be understood that the coding format can be selected, for example, based on the corresponding calculated "dry" upmix coefficients in addition to the corresponding calculated differences.

Набор «сухих» коэффициентов повышающего микширования может определяться, например, посредством аппроксимации по минимальной среднеквадратической ошибке при допущении, что для реконструкции доступен только сигнал понижающего микширования, т. е. при допущении, что для реконструкции не используется декоррелированный сигнал.A set of "dry" upmix coefficients can be determined, for example, by a minimum standard error approximation, assuming that only the downmix signal is available for reconstruction, i.e., assuming that no decorrelated signal is used for reconstruction.

Вычисленные разности могут представлять собой, например, разности между полученной ковариационной матрицей М-канального аудиосигнала и ковариационными матрицами М-канального аудиосигнала, аппроксимированного путем соответствующих линейных отображений сигнала понижающего микширования разных форматов кодирования. Выбор одного из форматов кодирования может включать, например, вычисление матричных норм для соответствующих разностей между ковариационными матрицами и выбор одного из форматов кодирования на основе вычисленных матричных норм, например, выбор формата кодирования, связанного с минимальной из вычисленных матричных норм.The calculated differences may be, for example, the differences between the obtained M -channel audio covariance matrix and the M -channel audio covariance matrices approximated by respective downmix signal line mappings of different coding formats. Selecting one of the encoding formats may include, for example, calculating matrix norms for the respective differences between the covariance matrices, and selecting one of the encoding formats based on the calculated matrix norms, for example, selecting an encoding format associated with the minimum of the calculated matrix norms.

Декоррелированный сигнал может, например, включать по меньшей мере один канал и не более M − 2 каналов.A decorrelated signal may, for example, include at least one channel and at most M − 2 channels.

Под набором «сухих» коэффициентов повышающего микширования, определяющим линейное отображение сигнала понижающего микширования, аппроксимирующее М-канальный сигнал понижающего микширования, подразумевается, что аппроксимацию М-канального сигнала понижающего микширования осуществляют путем линейного преобразования сигнала понижающего микширования. При этом линейном преобразовании в качестве входа берут два канала сигнала понижающего микширования и обеспечивают M каналов в качестве выхода, а «сухие» коэффициенты повышающего микширования представляют собой коэффициенты, определяющие количественные характеристики этого линейного преобразования.By a set of dry upmix coefficients defining a linear mapping of the downmix signal approximating the M -channel downmix signal, it is meant that the approximation of the M -channel downmix signal is carried out by linear transformation of the downmix signal. This linear conversion takes two channels of a downmix signal as an input and provides M channels as an output, and the dry upmix coefficients are the coefficients quantifying this linear conversion.

Аналогично «влажные» параметры повышающего микширования определяют количественные характеристики линейного преобразования, при котором каналы (-ы) декоррелированного сигнала берут в качестве входа и обеспечивают M каналов в качестве выхода.Similarly, the "wet" upmix parameters define the quantitative characteristics of the linear transformation, in which the channels (s) of the decorrelated signal are taken as an input and provide M channels as an output.

В примере осуществления «влажные» параметры повышающего микширования могут определяться так, чтобы ковариация сигнала, полученного путем линейного отображения (которое задается «влажными» параметрами повышающего микширования) декоррелированного сигнала, аппроксимировала разность между ковариацией полученного М-канального аудиосигнала и ковариацией М-канального аудиосигнала, аппроксимированного путем линейного отображения сигнала понижающего микширования выбранного формата кодирования. Другими словами, ковариация суммы первого линейного отображения (определенного «сухими» параметрами повышающего микширования) сигнала понижающего микширования и второго линейного отображения (определенного «влажными» параметрами повышающего микширования, определенными в соответствии с этим примером осуществления) декоррелированного сигнала будет близка к ковариации М-канального аудиосигнала, выражающей входные данные для способа кодирования аудио, описанного выше в настоящей заявке. Определение «влажных» коэффициентов повышающего микширования в соответствии с настоящим примером осуществления может увеличить достоверность реконструированного М-канального аудиосигнала.In an exemplary embodiment, the wet upmix parameters may be determined such that the covariance of the signal obtained by linear mapping (which is given by the wet upmix parameters) of the decorrelated signal approximates the difference between the covariance of the received M -channel audio signal and the covariance of the M -channel audio signal, approximated by a linear mapping of the downmix signal of the selected coding format. In other words, the covariance of the sum of the first linear mapping (defined by the dry upmix parameters) of the downmix signal and the second linear mapping (defined by the wet upmixing parameters defined according to this embodiment) of the decorrelated signal will be close to the covariance of the M -channel an audio signal expressing input to the audio coding method described above in this application. Determining wet upmix coefficients in accordance with the present embodiment can increase the fidelity of the reconstructed M -channel audio signal.

В альтернативном варианте осуществления «влажные» параметры повышающего микширования могут определяться так, чтобы ковариация сигнала, полученного путем линейного отображения декоррелированного сигнала, аппроксимировала часть разности между ковариацией полученного М-канального аудиосигнала и ковариацией М-канального аудиосигнала, аппроксимированного путем линейного отображения сигнала понижающего микширования выбранного формата кодирования. Если, например, на стороне декодера доступно ограниченное количество декорреляторов, полное восстановление ковариации полученного М-канального аудиосигнала может быть невозможно. В таком примере на стороне кодера могут определяться «влажные» параметры повышающего микширования, подходящие для частичной реконструкции ковариации М-канального аудиосигнала, с использованием меньшего количества декорреляторов.In an alternative embodiment, the wet upmix parameters may be determined such that the covariance of the signal obtained by linearly mapping the decorrelated signal approximates a portion of the difference between the covariance of the received M -channel audio signal and the covariance of the M -channel audio signal approximated by linearly mapping the downmix signal of the selected encoding format. If, for example, a limited number of decorrelators are available at the decoder side, it may not be possible to completely reconstruct the covariance of the received M -channel audio signal. In such an example, wet upmix parameters suitable for partial reconstruction of the M -channel audio covariance using fewer decorrelators can be determined at the encoder side.

В примере осуществления способ кодирования аудио может дополнительно включать для каждого из по меньшей мере двух форматов кодирования определение набора «влажных» коэффициентов повышающего микширования, которые вместе с «сухими» коэффициентами повышающего микширования (этого формата кодирования) позволяют осуществлять параметрическую реконструкцию М-канального аудиосигнала из сигнала понижающего микширования (этого формата кодирования) и из декоррелированного сигнала, определенного на основе сигнала понижающего микширования (этого формата), причем набор «влажных» коэффициентов повышающего микширования задает линейное отображение декоррелированного сигнала так, чтобы ковариация сигнала, полученного путем линейного отображения декоррелированного сигнала, аппроксимировала разность между ковариацией полученного М-канального аудиосигнала и ковариацией М-канального аудиосигнала, аппроксимированного путем линейного отображения сигнала понижающего микширования (этого формата). В настоящем примере осуществления выбранный формат кодирования можно выбирать на основе значений соответствующих определенных наборов «влажных» коэффициентов повышающего микширования.In an exemplary embodiment, the audio coding method may further include, for each of the at least two coding formats, defining a set of wet upmix coefficients that, together with dry upmix coefficients (of that coding format), allow parametric reconstruction of an M -channel audio signal from a downmix signal (of this coding format) and from a decorrelated signal determined based on the downmix signal (of this format), wherein the set of wet upmix coefficients defines a linear mapping of the decorrelated signal such that the covariance of the signal obtained by linear mapping of the decorrelated signal, approximated the difference between the covariance of the received M -channel audio signal and the covariance of the M -channel audio signal approximated by a linear display of the downmix signal (of this format). In the present exemplary embodiment, the selected coding format may be selected based on the values of the respective specific sets of wet upmix coefficients.

Указание на достоверность реконструированного М-канального аудиосигнала можно получить, например, на основе определенных «влажных» коэффициентов повышающего микширования. Выбор формата кодирования может быть основан, например, на взвешенных или невзвешенных суммах определенных «влажных» коэффициентов повышающего микширования, на взвешенных или невзвешенных суммах модулей определенных «влажных» коэффициентов повышающего микширования и/или на взвешенных или невзвешенных суммах квадратов определенных «влажных» коэффициентов повышающего микширования, кроме того, например, на соответствующих суммах соответствующих вычисленных «сухих» коэффициентов повышающего микширования.An indication of the validity of the reconstructed M -channel audio signal can be obtained, for example, based on certain "wet" upmix coefficients. The choice of coding format may be based, for example, on the weighted or unweighted sums of the determined wet upmix coefficients, on the weighted or unweighted sums of the moduli of the determined wet upmix coefficients, and/or on the weighted or unweighted sums of the squares of the determined wet upmix coefficients. mixing, in addition, for example, on the respective sums of the respective calculated "dry" upmix coefficients.

«Влажные» параметры повышающего микширования могут, например, вычисляться для множества полос частот М-канального сигнала, а выбор формата кодирования может быть основан, например, на значениях соответствующих определенных наборов «влажных» коэффициентов повышающего микширования в соответствующих полосах частот.The wet upmix parameters may, for example, be computed for a plurality of M -channel signal bands, and the choice of coding format may be based, for example, on the values of respective specific sets of wet upmix coefficients in the respective frequency bands.

В примере осуществления переход между первым и вторым форматами кодирования включает вывод дискретных значений «сухих» и «влажных» коэффициентов повышающего микширования первого формата кодирования на одном временном интервале и второго формата кодирования — на последующем временном интервале. Функции декодера, в конечном итоге обеспечивающие реконструкцию М-канального сигнала, могут включать интерполяцию коэффициентов повышающего микширования между выводимыми дискретными значениями. Благодаря таким функциям на стороне декодера можно эффективно обеспечить плавный переход от первого формата кодирования ко второму. Как и в случае плавного перехода, используемого для сигнала понижающего микширования, как описано выше, такой плавный переход может приводить к меньшей вероятности восприятия перехода между форматами кодирования при реконструкции М-канального аудиосигнала.In an exemplary embodiment, the transition between the first and second coding formats includes outputting discrete values of dry and wet upmix coefficients of the first coding format at one time interval and the second coding format at a subsequent time interval. The functions of the decoder that ultimately provide reconstruction of the M -channel signal may include the interpolation of the upmix coefficients between the output samples. With such functions on the decoder side, a smooth transition from the first coding format to the second can be effectively ensured. As with the smooth transition used for the downmix signal as described above, such a smooth transition may result in less likelihood of perceiving a transition between coding formats when reconstructing an M -channel audio signal.

Понятно, что коэффициенты, используемые для вычисления сигнала понижающего микширования на основе М-канального аудиосигнала, можно интерполировать, т. е. от значений, связанных с временным интервалом, на котором вычисляют сигнал понижающего микширования в соответствии с первым форматом кодирования, до значений, связанных с временным интервалом, на котором вычисляют сигнал понижающего микширования в соответствии со вторым форматом кодирования. По меньшей мере если понижающее микширование происходит во временной области, плавный переход понижающего микширования в результате интерполяции коэффициентов будет эквивалентен плавному переходу понижающего микширования в результате интерполяции коэффициентов, выполненной непосредственно в отношении соответствующих сигналов понижающего микширования. Следует понимать, что значения коэффициентов, использованные для вычисления сигнала понижающего микширования, обычно не зависят от сигналов, но могут задаваться для каждого из доступных форматов кодирования.It will be understood that the coefficients used to calculate the downmix signal based on the M -channel audio signal can be interpolated, i.e., from values associated with the time interval over which the downmix signal is calculated according to the first coding format, to values associated with a time interval at which the downmix signal is calculated according to the second coding format. At least if the downmix occurs in the time domain, the soft transition of the downmix as a result of coefficient interpolation will be equivalent to the smooth transition of the downmix as a result of coefficient interpolation performed directly on the respective downmix signals. It should be understood that the coefficient values used to calculate the downmix signal are typically independent of the signals, but may be specified for each of the available coding formats.

Если говорить о плавном переходе сигнала понижающего микширования и коэффициентах повышающего микширования, преимущество заключается в том, что обеспечивается синхронизация между двумя плавными переходами. Предпочтительно возможно совпадение соответствующих периодов переходов для сигнала понижающего микширования и коэффициентов повышающего микширования. В частности, средства, отвечающие за соответствующие плавные переходы, могут контролироваться общим потоком данных управления. Такие данные управления могут включать точки начала и точки завершения плавного перехода и необязательно кривую плавного перехода, такую как линейная, нелинейная кривая и т. д. Относительно коэффициентов повышающего микширования кривая плавного перехода может быть установлена заданным правилом интерполяции, которое определяет режим устройства декодирования; однако точки начала и завершения плавных переходов могут контролироваться опосредованно по положениям, в которых заданы и/или выведены дискретные значения коэффициентов повышающего микширования. Сходство временной зависимости двух процессов плавных переходов обеспечивает высокую степень соответствия между сигналом понижающего микширования и параметрами, обеспеченными для его реконструкции, что может привести к уменьшению искажений на стороне декодера.When it comes to the fading of the downmix signal and the upmix coefficients, the advantage is that synchronization between the two fadings is ensured. Preferably, it is possible to match the respective transition periods for the downmix signal and the upmix coefficients. In particular, the means responsible for the respective smooth transitions can be controlled by the overall flow of control data. Such control data may include soft transition start and end points, and optionally a soft transition curve such as linear, non-linear curve, etc. Regarding the upmix coefficients, the soft transition curve may be set by a predetermined interpolation rule that determines the mode of the decoding apparatus; however, the start and end points of smooth transitions can be controlled indirectly by the positions at which the discrete values of the upmix coefficients are set and/or output. The similarity of the time dependence of the two smooth transition processes provides a high degree of correspondence between the downmix signal and the parameters provided for its reconstruction, which can lead to reduced distortion on the decoder side.

В примере осуществления выбор формата кодирования основан на сравнении разности ковариаций полученного М-канального сигнала и реконструированного М-канального сигнала по сигналу понижающего микширования. В частности, реконструкция может совпадать с линейным отображением сигнала понижающего микширования, определенным только «сухими» коэффициентами повышающего микширования, т. е. без вклада от сигнала, определенного при помощи декорреляции (например, для увеличения размерности аудиоданных сигнала понижающего микширования). В частности, при сравнении не должен учитываться какой-либо вклад линейного отображения, определенного каким-либо набором «влажных» коэффициентов повышающего микширования. Другими словами, сравнение осуществляют при условии отсутствия доступа к декоррелированному сигналу. Этот принцип может способствовать выбору формата кодирования, который обеспечивает возможность более точного воспроизведения. После выполнения этого сравнения и принятия решения о выборе формата кодирования необязательно определяется набор «влажных» коэффициентов повышающего микширования. Связанное с этим процессом преимущество заключается в том, что не происходит двойного определения «влажных» коэффициентов повышающего микширования для конкретной части полученного М-канального аудиосигнала.In an exemplary embodiment, the choice of coding format is based on a comparison of the difference in covariance between the received M -channel signal and the reconstructed M -channel signal from the downmix signal. In particular, the reconstruction may coincide with a linear display of the downmix signal, defined only by "dry" upmix coefficients, i.e., without the contribution from the signal, determined by decorrelation (for example, to increase the dimension of the audio data of the downmix signal). In particular, the comparison should not take into account any contribution from the linear mapping defined by any set of wet upmix coefficients. In other words, the comparison is carried out under the condition that the decorrelated signal is not available. This principle can help select an encoding format that allows for more accurate reproduction. After performing this comparison and deciding on the choice of coding format, a set of "wet" upmix coefficients is optionally determined. An advantage associated with this process is that there is no double determination of wet upmix coefficients for a particular portion of the received M -channel audio signal.

В соответствии с модификацией примера осуществления, описанного в предыдущем параграфе, «сухие» и «влажные» коэффициенты повышающего микширования вычисляют для всех форматов кодирования, а в качестве основы для выбора формата кодирования используют количественную меру «влажных» коэффициентов повышающего микширования. Действительно, количественная характеристика, вычисленная на основе определенных «влажных» коэффициентов повышающего микширования, может обеспечивать (инверсное) указание на достоверность реконструированного М-канального аудиосигнала. Выбор формата кодирования может быть основан, например, на взвешенных или невзвешенных суммах определенных «влажных» коэффициентов повышающего микширования, на взвешенных или невзвешенных суммах модулей определенных «влажных» коэффициентов повышающего микширования и/или на взвешенных или невзвешенных суммах квадратов определенных «влажных» коэффициентов повышающего микширования. Каждый из этих вариантов можно использовать в сочетании с соответствующими суммами соответствующих вычисленных «сухих» коэффициентов повышающего микширования. «Влажные» параметры повышающего микширования могут, например, вычисляться для множества полос частот М-канального сигнала, а выбор формата кодирования может быть основан, например, на значениях соответствующих определенных наборов «влажных» коэффициентов повышающего микширования в соответствующих полосах частот.According to a modification of the exemplary embodiment described in the previous paragraph, dry and wet upmix coefficients are calculated for all coding formats, and a quantitative measure of the wet upmix coefficients is used as the basis for selecting the coding format. Indeed, a score calculated from certain wet upmix coefficients may provide an (inverse) indication of the validity of the reconstructed M -channel audio signal. The choice of coding format may be based, for example, on the weighted or unweighted sums of the determined wet upmix coefficients, on the weighted or unweighted sums of the moduli of the determined wet upmix coefficients, and/or on the weighted or unweighted sums of the squares of the determined wet upmix coefficients. mixing. Each of these options can be used in conjunction with the respective sums of the respective calculated "dry" upmix coefficients. The wet upmix parameters may, for example, be computed for a plurality of M -channel signal bands, and the choice of coding format may be based, for example, on the values of respective specific sets of wet upmix coefficients in the respective frequency bands.

В примере осуществления способ кодирования аудио может дополнительно включать вычисление суммы квадратов соответствующих «влажных» коэффициентов повышающего микширования и суммы квадратов соответствующих «сухих» коэффициентов повышающего микширования для каждого из по меньшей мере двух форматов кодирования. В настоящем примере осуществления выбранный формат кодирования можно выбирать на основе сумм квадратов. Авторы изобретения обнаружили, что вычисленные суммы квадратов могут обеспечивать особенно точное указание на уменьшение достоверности при восприятии слушателем, которое будет происходить при реконструкции М-канального аудиосигнала на основе смешанного вклада сигналов при «влажных» и «сухих» параметрах.In an exemplary embodiment, the audio coding method may further include calculating the sum of squares of respective wet upmix coefficients and the sum of squares of respective dry upmix coefficients for each of the at least two coding formats. In the present embodiment, the selected coding format may be selected based on sums of squares. The inventors have found that the computed sums of squares can provide a particularly accurate indication of the loss of listener confidence that will occur when an M -channel audio signal is reconstructed based on the mixed wet and dry signal contributions.

Например, для каждого формата кодирования может создаваться отношение на основе вычисленных сумм квадратов для соответствующего формата кодирования, и выбранный формат может быть связан с минимальным или максимальным из созданных отношений. Создание отношения может включать, например, деление, с одной стороны, суммы квадратов «влажных» коэффициентов повышающего микширования на, с другой стороны, сумму суммы квадратов «сухих» коэффициентов повышающего микширования и суммы квадратов «влажных» коэффициентов повышающего микширования. В альтернативном варианте осуществления отношение может создаваться путем деления суммы квадратов «влажных» коэффициентов повышающего микширования на сумму квадратов «сухих» коэффициентов повышающего микширования.For example, for each coding format, a ratio can be created based on the computed sums of squares for the corresponding coding format, and the selected format can be associated with the minimum or maximum of the generated ratios. The creation of the ratio may include, for example, dividing, on the one hand, the sum of the squares of the wet upmix coefficients by, on the other hand, the sum of the sum of the squares of the dry upmix coefficients and the sum of the squares of the wet upmix coefficients. In an alternative embodiment, the ratio can be created by dividing the sum of squares of the wet upmix coefficients by the sum of the squares of the dry upmix coefficients.

В примере осуществления в способе предложено кодирование М-канального аудиосигнала и по меньшей мере одного связанного (M ₂-канального) аудиосигнала. Аудиосигналы могут быть связаны в том смысле, что могут описывать общие аудиоданные, например, когда записаны одновременно или сформированы в ходе одного и того же процесса создания аудиоданных. Аудиосигналы необязательно кодировать с помощью общего сигнала понижающего микширования, их можно кодировать с помощью отдельных процессов. При таких параметрах выбор одного из форматов кодирования дополнительно учитывает данные, относящиеся к указанному по меньшей мере одному дополнительному аудиоканалу, и формат кодирования, таким образом, выбирают с целью использования для кодирования как М-канального аудиосигнала, так и связанного (M ₂-канального) аудиосигнала.In an exemplary embodiment, the method proposes encoding an M -channel audio signal and at least one associated ( M ₂ -channel) audio signal. Audio signals can be linked in the sense that they can describe common audio data, for example, when recorded simultaneously or generated during the same audio data creation process. The audio signals need not be encoded with a common downmix signal, but may be encoded with separate processes. With such parameters, the choice of one of the coding formats additionally takes into account the data related to the specified at least one additional audio channel, and the coding format is thus chosen to be used for encoding both the M -channel audio signal and the associated ( M ₂ -channel) audio signal.

В примере осуществления сигнал понижающего микширования, выводимый посредством способа кодирования аудио, можно сегментировать с разделением на временные интервалы, выбор формата кодирования может осуществляться один раз за временной интервал, и выбранный формат кодирования может поддерживаться для по меньшей мере заданного количества временных интервалов до выбора другого формата кодирования. Выбор формата кодирования для временного интервала может осуществляться любым из способов, например путем рассмотрения разностей между ковариациями, рассмотрения значений «влажных» коэффициентов повышающего микширования для доступных форматов кодирования и т. п. Поддерживание выбранного формата кодирования для минимального количества временных интервалов может позволить, например, избежать повторяющихся переключений между форматами кодирования. В настоящем примере осуществления можно, например, обеспечить улучшение качества воспроизведения реконструированного М-канального аудиосигнала при восприятии слушателем.In the exemplary embodiment, the downmix signal output by the audio coding method may be segmented into time slots, the coding format selection may be performed once per time slot, and the selected coding format may be maintained for at least a given number of time slots until another format is selected. coding. The choice of coding format for a timeslot can be done in any of the following ways, such as by considering differences between covariances, considering wet upmix coefficient values for available coding formats, and the like. Maintaining the chosen coding format for a minimum number of timeslots can allow, for example, avoid repeated switching between encoding formats. In the present exemplary embodiment, it is possible, for example, to improve the reproduction quality of the reconstructed M -channel audio signal as perceived by the listener.

Минимальное количество временных интервалов может составлять, например, 10.The minimum number of timeslots can be, for example, 10.

Полученный М-канальный аудиосигнал, например, можно буферизировать для минимального количества временных интервалов, а выбор формата кодирования может осуществляться, например, на основе мажоритарного решения по движущемуся окну, содержащему некоторое количество временных интервалов, выбранных с учетом указанного минимального количества временных интервалов, чтобы поддерживался выбранный формат кодирования. Реализация такой стабилизирующей функции может включать один из множества сглаживающих фильтров, в частности сглаживающие фильтры с конечной импульсной характеристикой, известные в области обработки цифровых сигналов. В качестве альтернативы этому подходу формат кодирования можно переключать на новый формат кодирования при обнаружении того, что для указанного минимального количества временных интервалов по порядку выбран новый формат кодирования. Для реализации этого критерия движущееся временное окно с минимальным количеством последовательных временных интервалов можно применить к прошлым выборам формата кодирования, например для буферизированных временных интервалов. Если после последовательности временных интервалов первого формата кодирования для каждого временного интервала в движущемся окне остался выбранным второй формат кодирования, то подтверждают переход ко второму формату кодирования, который вступает в действие от начала движущегося окна и далее. Реализация вышеупомянутой стабилизирующей функции может содержать конечный автомат.The received M -channel audio signal, for example, can be buffered for a minimum number of time slots, and the choice of coding format can be made, for example, based on a majority decision over a moving window containing a number of time slots, selected taking into account the specified minimum number of time slots, in order to support selected encoding format. The implementation of such a stabilizing function may include one of a variety of anti-aliasing filters, in particular finite impulse response anti-aliasing filters known in the field of digital signal processing. As an alternative to this approach, the coding format may be switched to a new coding format upon detecting that a new coding format has been selected in order for a specified minimum number of time slots. To implement this criterion, a moving time window with a minimum number of consecutive time slots can be applied to past coding format choices, such as for buffered time slots. If, after the sequence of slots of the first coding format, for each slot in the moving window, the second coding format remains selected, then the transition to the second coding format, which takes effect from the beginning of the moving window onwards, is confirmed. The implementation of the above stabilizing function may include a state machine.

В примере осуществления предложено компактное представление «сухих» и «влажных» параметров повышающего микширования, которое помимо прочего включает создание промежуточной матрицы, которая за счет принадлежности к классу заданных матриц уникальным образом определена меньшим количеством параметров по сравнению с количеством элементов в матрице. Аспекты этого компактного представления были описаны выше в настоящем описании и, в частности, со ссылкой на предварительную заявку на патент США № 61/974,544, автор, чье имя указано первым: Lars Villemoes; дата подачи: 3 апреля 2014 г.In an exemplary embodiment, a compact representation of dry and wet upmix parameters is proposed, which includes, among other things, the creation of an intermediate matrix, which, due to belonging to a class of given matrices, is uniquely determined by fewer parameters compared to the number of elements in the matrix. Aspects of this compact representation have been described above in the present description and, in particular, with reference to US Provisional Application No. 61/974,544, the author, whose name is listed first: Lars Villemoes; filing date: April 3, 2014

В примере осуществления в выбранном формате кодирования первая группа из одного или более каналов М-канального аудиосигнала может состоять из N каналов, где N ≥ 3. Для первой группы из одного или более каналов может быть характерна возможность реконструкции из первого канала сигнала понижающего микширования и N − 1 каналов декоррелированного сигнала путем применения по меньшей мере «влажных» и «сухих» коэффициентов повышающего микширования.In an exemplary embodiment, in the selected coding format, the first group of one or more channels of the M -channel audio signal may consist of N channels, where N ≥ 3. The first group of one or more channels may be characterized by the possibility of reconstruction from the first channel of the downmix signal and N − 1 channels of decorrelated signal by applying at least wet and dry upmix coefficients.

В настоящем примере осуществления определение набора «сухих» коэффициентов повышающего микширования выбранного формата кодирования может включать определение поднабора «сухих» коэффициентов повышающего микширования выбранного формата кодирования для определения линейного отображения первого канала сигнала понижающего микширования выбранного формата кодирования для аппроксимации первой группы из одного или более каналов выбранного формата кодирования.In the present embodiment, determining a set of dry upmix coefficients of the selected coding format may include determining a subset of dry upmix coefficients of the selected coding format to determine a linear mapping of the first channel of the downmix signal of the selected coding format to approximate a first group of one or more channels of the selected encoding format.

В настоящем примере осуществления определение набора «влажных» коэффициентов повышающего микширования выбранного формата кодирования может включать определение промежуточной матрицы на основе разности между ковариацией первой группы из полученных одного или более каналов выбранного формата кодирования и ковариацией первой группы из одного или более каналов выбранного формата кодирования, аппроксимированных путем линейного отображения первого канала сигнала понижающего микширования выбранного формата кодирования. Произведение промежуточной матрицы и заданной матрицы может соответствовать поднабору «влажных» коэффициентов повышающего микширования выбранного формата кодирования, в результате чего определяется линейное отображение N − 1 каналов декоррелированного сигнала как часть параметрической реконструкции первой группы из одного или более каналов выбранного формата кодирования. Поднабор «влажных» коэффициентов повышающего микширования выбранного формата кодирования может включать большее количество коэффициентов по сравнению с количеством элементов в промежуточной матрице.In the present embodiment, determining the set of wet upmix coefficients of the selected coding format may include determining an intermediate matrix based on the difference between the first group covariance from the received one or more channels of the selected coding format and the covariance of the first group from one or more channels of the selected coding format approximated by by linearly displaying the first channel of the downmix signal of the selected coding format. The product of the intermediate matrix and the given matrix may correspond to a subset of the wet upmix coefficients of the selected coding format, resulting in a linear mapping of N − 1 channels of the decorrelated signal as part of a parametric reconstruction of the first group from one or more channels of the selected coding format. The subset of wet upmix coefficients of the selected coding format may include more coefficients than the number of elements in the intermediate matrix.

В настоящем примере осуществления выходные параметры повышающего микширования могут включать набор параметров повышающего микширования первого типа, называемых в настоящей заявке «сухими» параметрами повышающего микширования, из которого можно выделить поднабор «сухих» параметров повышающего микширования, и набор параметров повышающего микширования второго типа, называемых в настоящей заявке «влажными» параметрами повышающего микширования, которые уникальным образом определяют промежуточную матрицу, при условии, что она принадлежит к классу заданных матриц. Промежуточная матрица может иметь больше элементов по сравнению с количеством элементов в поднаборе «влажных» параметров повышающего микширования выбранного формата кодирования.In the present exemplary embodiment, the output upmix parameters may include a set of first type upmix parameters, referred to herein as "dry" upmix parameters, from which a subset of "dry" upmix parameters can be extracted, and a set of second type upmix parameters, referred to in the present application as the present application with "wet" upmix parameters that uniquely define an intermediate matrix, provided that it belongs to the class of given matrices. The intermediate matrix may have more elements compared to the number of elements in the wet upmix subset of the selected coding format.

В настоящем примере осуществления копия параметрической реконструкции первой группы из одного или более каналов на стороне декодера включает, в качестве одного вклада, «сухой» сигнал повышающего микширования, сформированный в результате линейного отображения первого канала сигнала понижающего микширования, и, в качестве дополнительного вклада, «влажный» сигнал повышающего микширования, сформированный в результате линейного отображения N − 1 каналов декоррелированного сигнала. Поднабор «сухих» коэффициентов повышающего микширования определяет линейное отображение первого канала сигнала понижающего микширования, а поднабор «влажных» коэффициентов повышающего микширования определяет линейное отображение декоррелированного сигнала. В результате выдачи «влажных» параметров повышающего микширования, количество которых меньше количества коэффициентов в поднаборе «влажных» коэффициентов повышающего микширования и из которых можно выделить поднабор «влажных» коэффициентов повышающего микширования на основе заданной матрицы и класса заданных матриц, можно уменьшить количество информации, переданной на сторону декодера для обеспечения возможности реконструкции М-канального аудиосигнала. Уменьшение количества данных, необходимых для параметрической реконструкции, позволяет уменьшить требуемую полосу пропускания для передачи параметрического представления М-канального аудиосигнала и/или требуемое пространство для хранения такого представления.In the present embodiment, a copy of the parametric reconstruction of the first group of one or more channels on the decoder side includes, as one contribution, a "dry" upmix signal generated by linear mapping of the first channel of the downmix signal, and, as an additional contribution, " a wet" upmix signal resulting from a linear mapping of N − 1 channels of a decorrelated signal. A subset of dry upmix coefficients defines a linear mapping of the first channel of the downmix signal, and a subset of wet upmix coefficients defines a linear mapping of the decorrelated signal. As a result of issuing wet upmix parameters, the number of which is less than the number of coefficients in the subset of wet upmix coefficients and from which the subset of wet upmix coefficients can be extracted based on the predetermined matrix and the class of predetermined matrices, it is possible to reduce the amount of information transmitted to the decoder side to enable reconstruction of the M -channel audio signal. Reducing the amount of data required for the parametric reconstruction makes it possible to reduce the required bandwidth for transmitting a parametric representation of an M -channel audio signal and/or the required storage space for such a representation.

Промежуточную матрицу можно определить, например, так, чтобы ковариация сигнала, полученного путем линейного отображения N − 1 каналов декоррелированного сигнала, дополняла ковариацию первой группы из одного или более каналов, аппроксимированных путем линейного отображения первого канала сигнала понижающего микширования.The intermediate matrix can be defined, for example, such that the covariance of a signal obtained by linearly mapping the N − 1 channels of the decorrelated signal complements the covariance of the first group of one or more channels approximated by linearly mapping the first channel of the downmix signal.

Определение и использование заданной матрицы и класса заданных матриц более подробно описаны в вышеупомянутой предварительной заявке на патент США № 61/974,544 со строки 15 на странице 16 до строки 2 на странице 20. В частности, в качестве примеров заданной матрицы см. выражение (9) в вышеупомянутом документе.The definition and use of a given matrix and a class of given matrices are described in more detail in the aforementioned provisional application for US patent No. 61/974,544 from line 15 on page 16 to line 2 on page 20. In particular, as examples of a given matrix, see expression (9) in the above document.

В примере осуществления определение промежуточной матрицы может включать такое определение промежуточной матрицы, при котором ковариация сигнала, полученного путем линейного отображения N − 1 каналов декоррелированного сигнала, определенного поднабором «влажных» коэффициентов повышающего микширования, аппроксимирует разность между ковариацией первой группы из полученных одного или более каналов и ковариацией первой группы из одного или более каналов, аппроксимированных путем линейного отображения первого канала сигнала понижающего микширования, или по существу совпадает с этой разностью. Другими словами, промежуточная матрица может определяться так, чтобы копия реконструкции первой группы из одного или более каналов, полученных как сумма «сухого» сигнала повышающего микширования, образованного путем линейного отображения первого канала сигнала понижающего микширования, и «влажного» сигнала повышающего микширования, образованного путем линейного отображения N − 1 каналов декоррелированного сигнала полностью или по меньшей мере приблизительно, восстанавливала ковариацию первой группы полученного одного или более каналов.In an exemplary embodiment, the definition of the intermediate matrix may include defining the intermediate matrix such that the covariance of the signal obtained by linearly mapping N − 1 channels of the decorrelated signal determined by a subset of wet upmix coefficients approximates the difference between the covariance of the first group of the obtained one or more channels and the covariance of the first group of one or more channels approximated by a linear mapping of the first channel of the downmix signal, or essentially the same as this difference. In other words, the intermediate matrix may be defined such that a reconstruction copy of the first group of one or more channels obtained as the sum of the dry upmix signal generated by linearly mapping the first channel of the downmix signal and the wet upmix signal generated by linear mapping of the N − 1 channels of the decorrelated signal completely or at least approximately restores the covariance of the first group of the received one or more channels.

В примере осуществления «влажные» параметры повышающего микширования могут включать не более N(N − 1)/2 независимо присваиваемых «влажных» параметров повышающего микширования. В настоящем примере осуществления промежуточная матрица может иметь (N − 1)² элементов матрицы и может уникальным образом определяться «влажными» параметрами повышающего микширования при условии, что промежуточная матрица относится к классу заданных матриц. В настоящем примере осуществления поднабор «влажных» коэффициентов повышающего микширования может включать N(N − 1) коэффициентов.In an exemplary embodiment, the wet upmix parameters may include at most N(N − 1)/2 independently assigned wet upmix parameters. In the present embodiment, the intermediate matrix may have (N − 1) ² matrix elements and may be uniquely determined by wet upmix parameters, provided that the intermediate matrix belongs to the class of given matrices. In the present exemplary embodiment, the subset of wet upmix coefficients may include N(N − 1) coefficients.

В примере осуществления поднабор «сухих» коэффициентов повышающего микширования может включать N коэффициентов. В настоящем примере осуществления «сухие» параметры повышающего микширования могут включать не более N − 1 «сухих» параметров повышающего микширования, а поднабор «сухих» коэффициентов повышающего микширования можно выделить из N − 1 «сухих» параметров повышающего микширования при помощи заданного правила.In an exemplary embodiment, the subset of dry upmix coefficients may include N coefficients. In the present embodiment, the dry upmix parameters may include at most N − 1 dry upmix parameters, and a subset of the dry upmix coefficients may be extracted from the N − 1 dry upmix parameters by a predetermined rule.

В примере осуществления определенный поднабор «сухих» коэффициентов повышающего микширования может определять линейное отображение первого канала сигнала понижающего микширования, соответствующее аппроксимации по минимальной среднеквадратической ошибке первой группы из одного или более каналов, т. е. по набору линейных отображений первого канала сигнала понижающего микширования, причем определенный набор «сухих» коэффициентов повышающего микширования может определять линейное отображение, которое наилучшим образом аппроксимирует первую группу из одного или более каналов при минимальной среднеквадратической ошибке.In an exemplary embodiment, a certain subset of dry upmix coefficients may define a linear mapping of the first channel of the downmix signal corresponding to the minimum standard error approximation of the first group of one or more channels, i.e., the set of linear mappings of the first channel of the downmix signal, wherein a certain set of "dry" upmix coefficients may define a linear mapping that best approximates the first group of one or more channels with a minimum mean square error.

В примере осуществления предложена система кодирования аудио, содержащая секцию кодирования, выполненную с возможностью кодирования М-канального аудиосигнала в виде двухканального аудиосигнала и ассоциированных параметров повышающего микширования, причем M ≥ 4. Секция кодирования содержит секцию понижающего микширования, выполненную с возможностью вычисления двухканального сигнала понижающего микширования на основе М-канального аудиосигнала для по меньшей мере одного из по меньшей мере двух форматов кодирования, сопоставленных с различными разделениями каналов М-канального аудиосигнала на соответствующие первую и вторую группы из одного или более каналов, в соответствии с форматом кодирования. Первый канал сигнала понижающего микширования образован в виде линейной комбинации первой группы из одного или более каналов М-канального аудиосигнала, а второй канал сигнала понижающего микширования образован в виде линейной комбинации второй группы из одного или более каналов М-канального аудиосигнала.In an exemplary embodiment, an audio coding system is provided, comprising an encoding section configured to encode an M -channel audio signal as a two-channel audio signal and associated upmix parameters, with M ≥ 4. The encoding section comprises a downmix section configured to compute a two-channel downmix signal based on the M -channel audio signal for at least one of at least two coding formats mapped to different channelizations of the M -channel audio signal into respective first and second groups of one or more channels, in accordance with the coding format. The first channel of the downmix signal is formed as a linear combination of the first group of one or more channels of the M -channel audio signal, and the second channel of the downmix signal is formed as a linear combination of the second group of one or more channels of the M -channel audio signal.

Система кодирования аудио дополнительно содержит секцию управления, выполненную с возможностью выбора одного из форматов кодирования на основе любого подходящего критерия, например характеристик сигнала, загрузки системы, предпочтений пользователя, условий сети. Система кодирования аудио дополнительно содержит интерполятор понижающего микширования, выполненный с возможностью осуществления плавных переходов сигнала понижающего микширования между двумя форматами кодирования при запросе перехода со стороны секции управления. Во время такого перехода можно вычислить сигналы понижающего микширования для обоих форматов кодирования. Дополнительно к выдаче сигнала понижающего микширования или, когда применимо, к осуществлению его плавного перехода система кодирования аудио выполнена с возможностью выдачи по меньшей мере сигнализации, указывающей на выбранный в данный момент формат кодирования, и дополнительной информации, в результате чего обеспечивается возможность параметрической реконструкции М-канального аудиосигнала на основе сигнала понижающего микширования. Если система содержит множество секций кодирования, которые работают параллельно, например, для кодирования соответствующих групп аудиоканалов, то секция управления может быть реализована с возможностью независимой от каждой из них работы и может отвечать за выбор общего формата кодирования, который будет использоваться каждой из секций кодирования.The audio encoding system further comprises a control section configured to select one of the encoding formats based on any suitable criteria such as signal characteristics, system loading, user preferences, network conditions. The audio coding system further comprises a downmix interpolator configured to make smooth transitions of the downmix signal between the two coding formats upon a transition request from the control section. During such a transition, it is possible to compute downmix signals for both coding formats. In addition to outputting the downmix signal or, when applicable, fading it, the audio coding system is configured to output at least a signaling indicative of the currently selected coding format and additional information, thereby enabling parametric reconstruction M - channel audio signal based on the downmix signal. If the system contains a plurality of coding sections that operate in parallel, for example, to encode respective groups of audio channels, then the control section may be implemented to operate independently of each of them and may be responsible for selecting a common coding format to be used by each of the coding sections.

В примере осуществления предложен компьютерный программный продукт, содержащий машиночитаемый носитель с командами, для осуществления любого из способов, описанных в данном разделе.In an exemplary embodiment, a computer program product is provided, comprising a computer readable medium with instructions for performing any of the methods described in this section.

III. Примеры осуществленияIII. Implementation examples

На Фиг. 6–8 представлены альтернативные варианты разделения 11.1-канального аудиосигнала на группы каналов для параметрического кодирования 11.1-канального аудиосигнала в виде 5.1-канального аудиосигнала. 11.1-канальный аудиосигнал содержит каналы L (левый), LS (левый боковой), LB (левый тыловой), TFL (верхний фронтальный левый), TBL (верхний тыловой левый), R (правый), RS (правый боковой), RB (правый тыловой), TFR (верхний фронтальный правый), TBR (верхний тыловой правый), C (центральный) и LFE (канал низкочастотных эффектов). Пять каналов L, LS, LB, TFL и TBL образуют пятиканальный аудиосигнал, представляющий в среде воспроизведения 11.1-канального аудиосигнала левую половину пространства. Три канала L, LS и LB представляют в среде воспроизведения разные горизонтальные направления, а два канала TFL и TBL представляют направления, отделенные по вертикали от трех каналов L, LS и LB. Два канала TFL и TBL могут быть предназначены, например, для воспроизведения в потолочных громкоговорителях. Аналогично пять каналов R, RS, RB, TFR и TBR образуют дополнительный пятиканальный аудиосигнал, представляющий в среде воспроизведения правую половину, причем три канала R, RS и RB представляют в среде воспроизведения разные горизонтальные направления, а два канала TFR и TBR представляют направления, отделенные по вертикали от трех каналов R, RS и RB.On FIG. 6-8 show alternative ways of dividing 11.1-channel audio signal into channel groups for parametric encoding of 11.1-channel audio signal as 5.1-channel audio signal. 11.1-channel audio contains L (Left), LS (Surround Left), LB (Surround Left), TFL (Front Top Left), TBL (Surround Back Left), R (Right), RS (Right Side), RB ( right back), TFR (top front right), TBR (top back right), C (center), and LFE (low frequency effects channel). The five channels L, LS, LB, TFL, and TBL form a five-channel audio signal representing the left half of space in an 11.1-channel audio playback environment. The three channels L, LS and LB represent different horizontal directions in the playback environment, and the two channels TFL and TBL represent directions separated vertically from the three channels L, LS and LB. The two channels TFL and TBL can be used, for example, for playback in ceiling loudspeakers. Similarly, five channels R, RS, RB, TFR and TBR form an additional five-channel audio signal representing the right half in the playback environment, with three channels R, RS and RB representing different horizontal directions in the playback environment, and two channels TFR and TBR representing directions separated vertically from the three channels R, RS and RB.

Для представления 11.1-канального аудиосигнала в виде 5.1-канального аудиосигнала набор каналов L, LS, LB, TFL, TBL, R, RS, RB, TFR, TBR, C и LFE можно разделить на группы каналов, представленные соответствующими каналами понижающего микширования и ассоциированными параметрами повышающего микширования. Пятиканальный аудиосигнал L, LS, LB, TFL, TBL может быть представлен двухканальным сигналом понижающего микширования L₁, L₂ и ассоциированными параметрами повышающего микширования, а пятиканальный аудиосигнал R, RS, RB, TFR, TBR может быть представлен дополнительным двухканальным сигналом понижающего микширования R₁, R₂ и ассоциированными дополнительными параметрами повышающего микширования. Каналы C и LFE также можно разделить в 5.1-канальном представлении 11.1-канального аудиосигнала.To represent 11.1-channel audio as 5.1-channel audio, the set of L, LS, LB, TFL, TBL, R, RS, RB, TFR, TBR, C, and LFE channels can be divided into channel groups represented by the respective downmix channels and associated upmix settings. The five-channel audio signal L, LS, LB, TFL, TBL can be represented by a two-channel downmix signal L ₁ , L ₂ and associated upmix parameters, and the five-channel audio signal R, RS, RB, TFR, TBR can be represented by an additional two-channel downmix signal R ₁ , R ₂ and associated additional upmix parameters. The C and LFE channels can also be separated in 5.1-channel representation of 11.1-channel audio.

На Фиг. 6 представлен первый формат кодирования F₁, в котором пятиканальный аудиосигнал L, LS, LB, TFL, TBL разделен на первую группу 601 каналов L, LS, LB и вторую группу 602 каналов TFL, TBL и в котором дополнительный пятиканальный аудиосигнал R, RS, RB, TFR, TBR разделен на дополнительную первую группу 603 каналов R, RS, RB и дополнительную вторую группу 604 каналов TFR, TBR. В первом формате кодирования F₁ первая группа 601 каналов представлена первым каналом L₁ двухканального сигнала понижающего микширования, а вторая группа 602 каналов представлена вторым каналом L₂ двухканального сигнала понижающего микширования. Первый канал L₁ сигнала понижающего микширования может соответствовать сумме каналов первой группы 601, т. е. L₁ = L + LS + LB, а второй канал L₂ сигнала понижающего микширования может соответствовать сумме каналов второй группы 602, т. е. L₂ = TFL + TBL.On FIG. 6 shows a first coding format F ₁ in which a five-channel audio signal L, LS, LB, TFL, TBL is divided into a first L, LS, LB channel group 601 and a second TFL, TBL channel group 602, and in which an additional five-channel audio signal R, RS, RB, TFR, TBR is divided into an optional first R, RS, RB channel group 603 and an optional second TFR, TBR channel group 604. In the first F ₁ coding format, the first channel group 601 is represented by the first channel L ₁ of the two-channel downmix signal, and the second channel group 602 is represented by the second channel L ₂ of the two-channel downmix signal. The first channel L ₁ of the downmix signal may correspond to the sum of the channels of the first group 601, i.e., L ₁ = L + LS + LB, and the second channel L ₂ of the downmix signal may correspond to the sum of the channels of the second group 602, i.e., L ₂ = TFL + TBL.

В примерах осуществления масштаб некоторых или всех каналов можно изменить до суммирования так, чтобы первый канал L₁ сигнала понижающего микширования мог соответствовать линейной комбинации первой группы 601 каналов, т. е. L₁ = c₁ L + c₂ LS + c₃ LB, а второй канал L₂ сигнала понижающего микширования мог соответствовать линейной комбинации второй группы 602 каналов, т. е. L₂ = c₄ TFL + c₅ TBL. Коэффициенты усиления c₂, c₃, c₄, c₅, например, могут совпадать, а коэффициент усиления c₁, например, может иметь другое значение; например, c₁ может соответствовать полному отсутствию масштабирования. Например, можно использовать значения c₁ = 1 и c₂ = c₃ = c₄ = c₅ = 1/√2. Если, например, коэффициенты усиления c₁, ..., c₅, действующие в отношении соответствующих каналов L, LS, LB, TFL, TBL в первом формате кодирования F₁, совпадают с коэффициентами усиления, действующими в отношении этих каналов в других форматах кодирования F₂ и F₃, описанных ниже применительно к Фиг. 7 и 8, эти коэффициенты усиления не влияют на то, как сигнал понижающего микширования изменяется при переключении между разными форматами кодирования F₁, F₂, F₃, а масштабированные каналы c₁ L, c₂ LS, c₃ LB, c₄ TFL, c₅ TBL, следовательно, могут обрабатываться так же, как если бы они были исходными каналами L, LS, LB, TFL, TBL. С другой стороны, если для изменения масштаба тех же каналов в разных форматах кодирования действуют разные коэффициенты усиления, то переключение между этими форматами кодирования может приводить, например, к переходам между вариантами каналов L, LS, LB, TFL, TBL с разным масштабированием в сигнале понижающего микширования, что может приводить к различимым на слух искажениям на стороне декодера. Такие искажения, например, можно подавлять путем применения интерполяции от коэффициентов, используемых для создания сигнала понижающего микширования до переключения формата кодирования, до коэффициентов, используемых для создания сигнала понижающего микширования после переключения формата кодирования, и/или путем применения интерполяции преддекорреляционных коэффициентов, как описано ниже в связи с выражениями (3) и (4).In exemplary embodiments, some or all of the channels may be pre-stacked so that the first channel L ₁ of the downmix signal may correspond to a linear combination of the first channel group 601, i.e., L ₁ = c ₁ L + c ₂ LS + c ₃ LB, and the second channel L ₂ of the downmix signal could correspond to a linear combination of the second channel group 602, i.e., L ₂ = c ₄ TFL + c ₅ TBL. The gains c ₂ , c ₃ , c ₄ , c ₅ , for example, may be the same, and the gain c ₁ , for example, may have a different value; for example, c ₁ could correspond to no scaling at all. For example, you can use the values c ₁ = 1 and c ₂ = c ₃ = c ₄ = c ₅ = 1/√2. If, for example, the gains c ₁ , ..., c ₅ that apply to the respective channels L, LS, LB, TFL, TBL in the first coding format F ₁ coincide with the gains that apply to these channels in other formats coding F ₂ and F ₃ , described below with respect to FIG. 7 and 8, these gains do not affect how the downmix signal changes when switching between different coding formats F ₁ , F ₂ , F ₃ , but the scaled channels c ₁ L, c ₂ LS, c ₃ LB, c ₄ TFL , c ₅ TBL, therefore, can be processed in the same way as if they were the original channels L, LS, LB, TFL, TBL. On the other hand, if different gain factors act to change the scale of the same channels in different coding formats, then switching between these coding formats can lead, for example, to transitions between L, LS, LB, TFL, TBL channel variants with different scaling in the signal downmix, which can lead to audible distortion on the decoder side. Such distortion can, for example, be suppressed by interpolating from the coefficients used to create the downmix signal before switching the coding format to the coefficients used to create the downmix signal after switching the coding format, and/or by applying interpolation of pre-decorrelation coefficients, as described below. in connection with expressions (3) and (4).

Аналогично дополнительная первая группа 603 каналов представлена первым каналом дополнительного сигнала понижающего микширования R₁, а дополнительная вторая группа 604 каналов представлена вторым каналом дополнительного сигнала понижающего микширования R₂.Similarly, the additional first channel group 603 is represented by the first channel of the additional downmix signal R ₁ and the additional second group of channels 604 is represented by the second channel of the additional downmix signal R ₂ .

Первый формат кодирования F₁ обеспечивает каналы понижающего микширования L₂ и R₂, специально предназначенные для представления потолочных каналов TFL, TBL, TFR и TBR. Следовательно, использование первого формата кодирования F₁ может обеспечивать возможность параметрической реконструкции 11.1-канального аудиосигнала с относительно высокой степенью достоверности в случаях, когда, например, в среде воспроизведения для общего восприятия 11.1-канального аудиосигнала важно вертикальное измерение.The first coding format F ₁ provides downmix channels L ₂ and R ₂ specifically designed to represent overhead channels TFL, TBL, TFR and TBR. Therefore, the use of the first coding format F ₁ can enable the parametric reconstruction of the 11.1-channel audio signal with a relatively high degree of certainty in cases where, for example, in a playback environment, the vertical dimension is important for the overall perception of the 11.1-channel audio signal.

На Фиг. 7 представлен второй формат кодирования F₂, в котором пятиканальный аудиосигнал L, LS, LB, TFL, TBL разделен на первую группу 701 и вторую группу 702 каналов, которые представлены соответствующими каналами сигнала понижающего микширования L₁, L₂, причем каналы L₁ и L₂ соответствуют суммам соответствующих групп 701 и 702 каналов или линейным комбинациям соответствующих групп 701 и 702 каналов с применением тех же коэффициентов усиления c₁, ..., c₅ для изменения масштаба соответствующих каналов L, LS, LB, TFL, TBL, что и в первом формате кодирования F₁. Аналогично дополнительный пятиканальный аудиосигнал R, RS, RB, TFR, TBR разделен на дополнительные первую группу 703 и вторую группу 704 каналов, которые представлены соответствующими каналами R₁ и R₂.On FIG. 7 shows a second coding format F ₂ in which a five-channel audio signal L, LS, LB, TFL, TBL is divided into a first channel group 701 and a second channel group 702, which are represented by the respective channels of the downmix signal L ₁ , L ₂ , wherein the channels L ₁ and L ₂ correspond to the sums of the respective channel groups 701 and 702 or linear combinations of the respective channel groups 701 and 702 using the same gains c ₁ , ..., c ₅ to scale the respective channels L, LS, LB, TFL, TBL, which and in the first coding format F ₁ . Similarly, the additional five-channel audio signal R, RS, RB, TFR, TBR is divided into additional first channel group 703 and second channel group 704, which are represented by the respective channels R ₁ and R ₂ .

Второй формат кодирования F₂ не обеспечивает каналы понижающего микширования, специально предназначенные для представления потолочных каналов TFL, TBL, TFR и TBR, но может обеспечивать возможность параметрической реконструкции 11.1-канального аудиосигнала с относительно высокой степенью достоверности в случаях, когда, например, в среде воспроизведения для общего впечатления от 11.1-канального аудиосигнала не столь важно вертикальное измерение.The second coding format F ₂ does not provide downmix channels specifically designed to represent the overhead channels TFL, TBL, TFR and TBR, but may allow relatively high fidelity parametric reconstruction of 11.1-channel audio in cases where, for example, in a playback environment for the overall impression of 11.1-channel audio, the vertical dimension is not so important.

На Фиг. 8 представлен третий формат кодирования F₃, в котором пятиканальный аудиосигнал L, LS, LB, TFL, TBL разделен на первую группу 801 и вторую группу 802 из одного или более каналов, которые представлены соответствующими каналами L₁ и L₂ сигнала понижающего микширования, причем каналы L₁ и L₂ соответствуют суммам соответствующих групп 801 и 802 из одного или более каналов или линейным комбинациям соответствующих групп 801 и 802 из одного или более каналов с применением тех же коэффициентов c₁, ..., c₅ для изменения масштаба соответствующих каналов L, LS, LB, TFL, TBL, что и в первом формате кодирования F₁. Аналогично дополнительный пятиканальный сигнал R, RS, RB, TFR, TBR разделен на дополнительные первую группу 803 и вторую группу 804 каналов, которые представлены соответствующими каналами R₁ и R₂. В третьем формате кодирования F₃ только канал L представлен первым каналом L₁ сигнала понижающего микширования, а четыре канала LS, LB, TFL и TBL представлены вторым каналом L₂ сигнала понижающего микширования.On FIG. 8 shows a third coding format F ₃ in which a five-channel audio signal L, LS, LB, TFL, TBL is divided into a first group 801 and a second group 802 of one or more channels, which are represented by the corresponding channels L ₁ and L ₂ of the downmix signal, wherein channels L ₁ and L ₂ correspond to sums of respective groups 801 and 802 from one or more channels, or linear combinations of respective groups 801 and 802 from one or more channels, using the same coefficients c ₁ , ..., c ₅ to rescale the respective channels L, LS, LB, TFL, TBL, as in the first coding format F ₁ . Similarly, the additional five-channel signal R, RS, RB, TFR, TBR is divided into additional first channel group 803 and second channel group 804, which are represented by the respective channels R ₁ and R ₂ . In the third coding format F _{3 ,} only the channel L is represented by the first channel L ₁ of the downmix signal, and the four channels LS, LB, TFL and TBL are represented by the second channel L ₂ of the downmix signal.

Как описано применительно к Фиг. 1–5, на стороне кодера вычисляют двухканальный сигнал понижающего микширования L₁, L₂ как линейное отображение пятиканального аудиосигнала X = [L LS LB TFL TBL]^T в соответствии с выражениемAs described with respect to FIG. 1 to 5, the encoder side calculates the two-channel downmix signal L ₁ , L ₂ as a linear mapping of the five-channel audio signal X = [L LS LB TFL TBL] ^T according to the expression

где d_n,m, при n = 1, 2, m = 1…,5 — коэффициенты понижающего микширования, представленные матрицей понижающего микширования D. Как описано применительно к Фиг. 9–13, на стороне декодера выполняют параметрическую реконструкцию пятиканального аудиосигнала [L LS LB TFL TBL]^T в соответствии с выражениемwhere d _n,m , with n = 1, 2, m = 1...,5, are the downmix coefficients represented by the downmix matrix D. As described with respect to FIG. 9-13, on the decoder side, the parametric reconstruction of the five-channel audio signal [L LS LB TFL TBL] ^T is performed according to the expression

где c_n,m, при n = 1, ..., 5, m = 1, 2 — «сухие» коэффициенты повышающего микширования, представленные «сухой» матрицей повышающего микширования β_L, p_n,k, при n = 1, ..., 5, k = 1, 2, 3 — «влажные» коэффициенты повышающего микширования, представленные «влажной» матрицей повышающего микширования γ_L, а z_k, при k = 1, 2, 3 — каналы трехканального декоррелированного сигнала Z, созданного на основе сигнала понижающего микширования L₁, L₂.where c _n,m , for n = 1, ..., 5, m = 1, 2, are the dry upmix coefficients represented by the dry upmix matrix β _L , p _n,k , for n = 1, ..., 5, k = 1, 2, 3 are the “wet” upmix coefficients represented by the “wet” upmix matrix γ _L , and z _k , at k = 1, 2, 3 are the channels of the three-channel decorrelated signal Z, created on the basis of the downmix signal L ₁ , L ₂ .

На Фиг. 1 представлена обобщенная структурная схема секции 100 кодирования для кодирования М-канального аудиосигнала в виде двухканального сигнала понижающего микширования и ассоциированных параметров повышающего микширования в соответствии с примером осуществления.On FIG. 1 is a generalized block diagram of an encoding section 100 for encoding an M -channel audio signal as a two-channel downmix signal and associated upmix parameters in accordance with an embodiment.

В настоящей заявке пример М-канального аудиосигнала представляет собой пятиканальный аудиосигнал L, LS, LB, TFL и TBL, описанный применительно к Фиг. 6–8. Кроме того, могут быть предусмотрены примеры осуществления, в соответствии с которыми секция 100 кодирования выполнена с возможностью вычисления двухканального сигнала понижающего микширования на основе М-канального аудиосигнала, причем M = 4 или M ≥ 6.In the present application, an example of an M -channel audio signal is the five-channel audio signal L, LS, LB, TFL, and TBL described with respect to FIG. 6–8. In addition, embodiments may be provided in accordance with which the encoding section 100 is configured to calculate a two-channel downmix signal based on an M -channel audio signal, where M = 4 or M ≥ 6.

Секция 100 кодирования содержит секцию 110 понижающего микширования и секцию 120 анализа. Для каждого из форматов кодирования F₁, F₂, F₃, описанных применительно к Фиг. 6–8, в соответствии с форматом кодирования секция 110 понижающего микширования может вычислять двухканальный сигнал понижающего микширования L₁, L₂ на основе пятиканального аудиосигнала L, LS, LB, TFL, TBL. Например, в первом формате кодирования F₁ первый канал L₁ сигнала понижающего микширования сформирован в виде линейной комбинации (например, суммы) первой группы 601 каналов пятиканального аудиосигнала L, LS, LB, TFL, TBL, а второй канал L₂ сигнала понижающего микширования сформирован в виде линейной комбинации (например, суммы) второй группы 602 каналов пятиканального аудиосигнала L, LS, LB, TFL, TBL. Действие, выполняемое секцией 110 понижающего микширования, может быть описано, например, выражением (1).The encoding section 100 contains a downmix section 110 and an analysis section 120 . For each of the coding formats F ₁ , F ₂ , F ₃ described in connection with FIG. 6-8, according to the coding format, the downmix section 110 can calculate a two-channel downmix signal L ₁ , L ₂ based on the five-channel audio signal L, LS, LB, TFL, TBL. For example, in the first coding format F ₁ , the first channel L ₁ of the downmix signal is formed as a linear combination (for example, the sum) of the first group 601 of five-channel audio channels L, LS, LB, TFL, TBL, and the second channel L ₂ of the downmix signal is formed in the form of a linear combination (for example, the sum) of the second group 602 channels of the five-channel audio signal L, LS, LB, TFL, TBL. The action performed by the downmix section 110 may be described by expression (1), for example.

Для каждого из форматов кодирования F₁, F₂, F₃ секция 120 анализа определяет набор «сухих» коэффициентов повышающего микширования β_L, определяющих линейное отображение соответствующего сигнала понижающего микширования L₁, L₂, аппроксимирующее пятиканальный аудиосигнал L, LS, LB, TFL, TBL, и вычисляет разность между ковариацией полученного пятиканального аудиосигнала L, LS, LB, TFL, TBL и ковариацией пятиканального аудиосигнала, аппроксимированного путем соответствующего линейного отображения соответствующего сигнала понижающего микширования L₁, L₂. В настоящей заявке вычисленная разность проиллюстрирована на примере разности между ковариационной матрицей полученного пятиканального аудиосигнала L, LS, LB, TFL, TBL и ковариационной матрицей пятиканального аудиосигнала, аппроксимированного соответствующим линейным отображением соответствующего сигнала понижающего микширования L₁, L₂. Для каждого из форматов кодирования F₁, F₂, F₃ секция 120 анализа определяет набор «влажных» коэффициентов повышающего микширования γ_L на основе соответствующей вычисленной разности, который вместе с «сухими» коэффициентами повышающего микширования β_L обеспечивает возможность параметрической реконструкции в соответствии с выражением (2) пятиканального аудиосигнала L, LS, LB, TFL, TBL из сигнала понижающего микширования L₁, L₂ и из трехканального декоррелированного сигнала, определенного на стороне декодера на основе сигнала понижающего микширования L₁, L₂. Набор «влажных» коэффициентов повышающего микширования γ_L определяет линейное отображение декоррелированного сигнала, при котором ковариационная матрица сигнала, полученного путем линейного отображения декоррелированного сигнала, аппроксимирует разность между ковариационной матрицей полученного пятиканального аудиосигнала L, LS, LB, TFL, TBL и ковариационной матрицей пятиканального аудиосигнала, аппроксимированного путем линейного отображения сигнала понижающего микширования L₁, L₂.For each of the coding formats F ₁ , F ₂ , F ₃ analysis section 120 determines a set of dry upmix coefficients β _L defining a linear mapping of the corresponding downmix signal L ₁ , L ₂ approximating a five-channel audio signal L, LS, LB, TFL , TBL, and calculates the difference between the covariance of the received five-channel audio signal L, LS, LB, TFL, TBL, and the covariance of the five-channel audio signal approximated by corresponding linear mapping of the corresponding downmix signal L ₁ , L ₂ . In the present application, the calculated difference is illustrated by the example of the difference between the covariance matrix of the received five-channel audio signal L, LS, LB, TFL, TBL and the covariance matrix of the five-channel audio signal, approximated by the corresponding linear display of the corresponding downmix signal L ₁ , L ₂ . For each of the coding formats F ₁ , F ₂ , F _{3 ,} analysis section 120 determines a set of wet upmix coefficients γ _L based on the corresponding calculated difference, which, together with dry upmix coefficients β _L , enables parametric reconstruction according to expression (2) of the five-channel audio signal L, LS, LB, TFL, TBL from the downmix signal L ₁ , L ₂ and from the three-channel decorrelated signal determined at the decoder side based on the downmix signal L ₁ , L ₂ . A set of wet upmix coefficients γ _L defines a linear display of the decorrelated signal, in which the covariance matrix of the signal obtained by linear mapping of the decorrelated signal approximates the difference between the covariance matrix of the received five-channel audio signal L, LS, LB, TFL, TBL and the covariance matrix of the five-channel audio signal , approximated by a linear mapping of the downmix signal L ₁ , L ₂ .

Секция 110 понижающего микширования может, например, вычислять сигнал понижающего микширования L₁, L₂ во временной области, т. е. на основе представления во временной области пятиканального аудиосигнала L, LS, LB, TFL, TBL, или в частотной области, т. е. на основе представления в частотной области пятиканального аудиосигнала L, LS, LB, TFL, TBL.The downmix section 110 may, for example, calculate the downmix signal L ₁ , L ₂ in the time domain, i.e., based on the time domain representation of the five-channel audio signal L, LS, LB, TFL, TBL, or in the frequency domain, i.e. e. Based on the frequency domain representation of the five-channel audio signal L, LS, LB, TFL, TBL.

Секция 120 анализа может, например, определять «сухие» коэффициенты повышающего микширования β_L и «влажные» коэффициенты повышающего микширования γ_L на основе анализа в частотной области пятиканального аудиосигнала L, LS, LB, TFL, TBL. Секция 120 анализа может, например, получать сигнал понижающего микширования L₁, L₂, вычисленный секцией 110 понижающего микширования, или может вычислять собственный вариант сигнала понижающего микширования L₁, L₂ для определения «сухих» коэффициентов повышающего микширования β_L и «влажных» коэффициентов повышающего микширования γ_L.The analysis section 120 may, for example, determine dry upmix coefficients β _L and wet upmix coefficients γ _L based on frequency domain analysis of the five-channel audio signal L, LS, LB, TFL, TBL. The analysis section 120 may, for example, receive the downmix signal L ₁ , L ₂ calculated by the downmix section 110, or may calculate its own version of the downmix signal L ₁ , L ₂ to determine dry upmix coefficients β _L and wet upmix coefficients γ _L .

На Фиг. 3 представлена обобщенная структурная схема системы 300 кодирования аудио, содержащей секцию 100 кодирования, описанную применительно к Фиг. 1, в соответствии с одним примером осуществления. В настоящем примере осуществления аудиоданные, например, записанные одним или более акустическими преобразователями 301 или сгенерированные оборудованием 301 для создания аудио, представлены в форме 11.1-канального аудиосигнала, описанного применительно к Фиг. 6–8. Секция 302 анализа квадратурным зеркальным фильтром (QMF) (или банком фильтров) преобразует пятиканальный аудиосигнал L, LS, LB, TFL, TBL, один временной сегмент за другим, в область QMF для обработки секцией 100 анализа пятиканального аудиосигнала L, LS, LB, TFL, TBL, форма время-частотных плиток. (Как будет более подробно описано ниже, секция 302 QMF-анализа и противоположный элемент, секция 305 QMF-синтеза, являются необязательными). Система 300 кодирования аудио содержит дополнительную секцию 303 кодирования, аналогичную секции 100 кодирования и приспособленную для кодирования дополнительного пятиканального аудиосигнала R, RS, RB, TFR и TBR в виде дополнительного двухканального сигнала понижающего микширования R₁, R₂, и ассоциированных дополнительных «сухих» параметров повышающего микширования β_R, и дополнительных «влажных» параметров повышающего микширования γ_R. Секция 302 QMF-анализа также преобразует дополнительный пятиканальный аудиосигнал R, RS, RB, TFR и TBR в QMF-область для обработки дополнительной секцией 303 кодирования.On FIG. 3 is a generalized block diagram of an audio encoding system 300 comprising an encoding section 100 described in connection with FIG. 1, in accordance with one embodiment. In the present embodiment, audio data, such as that recorded by one or more acoustic transducers 301 or generated by audio production equipment 301, is in the form of an 11.1-channel audio signal described with respect to FIG. 6–8. The quadrature mirror filter (QMF) (or filter bank) analysis section 302 converts the five-channel L, LS, LB, TFL, TBL audio signal, one time segment after another, into a QMF region for processing by the analysis section 100 of the five-channel L, LS, LB, TFL audio signal , TBL, shape of time-frequency tiles. (As will be described in more detail below, the QMF analysis section 302 and the opposite element, the QMF synthesis section 305, are optional). Audio coding system 300 comprises an additional coding section 303 similar to coding section 100 and adapted to encode an additional five-channel audio signal R, RS, RB, TFR, and TBR as an additional two-channel downmix signal R ₁ , R ₂ , and associated additional dry parameters upmix β _R , and additional "wet" upmix parameters γ _R . The QMF analysis section 302 also converts the additional five-channel audio signal R, RS, RB, TFR, and TBR into a QMF region for processing by the additional encoding section 303 .

Секция 304 управления выбирает один из форматов кодирования F₁, F₂, F₃ на основе «влажных» и «сухих» коэффициентов повышающего микширования γ_L, γ_R и β_L, β_R, определенных секцией 100 кодирования и дополнительной секцией 303 кодирования для соответствующих форматов кодирования F₁, F₂, F₃. Например, для каждого из форматов кодирования F₁, F₂, F₃ секция 304 управления может вычислять соотношениеThe control section 304 selects one of the coding formats F ₁ , F ₂ , F ₃ based on the wet and dry upmix coefficients γ _L , γ _R and β _L , β _R determined by the coding section 100 and the additional coding section 303 for corresponding coding formats F ₁ , F ₂ , F ₃ . For example, for each of the coding formats F ₁ , F ₂ , F ₃ control section 304 may calculate the ratio

,

где E_{«влажный»} — сумма квадратов «влажных» коэффициентов повышающего микширования γ_L и γ_R, а E_{«сухой»} — сумма квадратов «сухих» коэффициентов повышающего микширования β_L, β_R. Выбранный формат кодирования может быть связан с минимальным из соотношений E форматов кодирования F₁, F₂, F₃, т. е. секция 304 управления может выбирать формат кодирования, соответствующий наименьшему отношению E. Авторы изобретения обнаружили, что сниженное значение соотношения E может быть показателем увеличенной достоверности воспроизведения 11.1-канального аудиосигнала, реконструированного из соответствующего формата кодирования.where E _wet is the sum of the squares of the wet upmix coefficients γ _L and γ _R , and E _dry is the sum of the squares of the dry upmix coefficients β _L , β _R . The selected coding format may be related to the minimum ratio E of the coding formats F ₁ , F ₂ , F ₃ , i.e., the control section 304 may select the coding format corresponding to the smallest ratio E. The inventors have found that a reduced value of the ratio E can be indicative of the increased fidelity of the 11.1-channel audio signal reconstructed from the corresponding coding format.

В некоторых примерах осуществления сумма квадратов E_{«сухой»} «сухих» коэффициентов повышающего микширования β_L, β_R может, например, включать дополнительный параметр со значением 1, соответствующий тому факту, что канал C передается на сторону декодера и может реконструироваться без декорреляции, например, с использованием лишь «сухого» коэффициента повышающего микширования со значением 1.In some embodiments, the sum of squares E _{dry of} the dry upmix coefficients β _L , β _R may, for example, include an additional parameter with a value of 1 corresponding to the fact that channel C is transmitted to the decoder side and can be reconstructed without decorrelation, for example , using only a dry upmix factor of 1.

В некоторых примерах осуществления секция 304 управления может выбирать форматы кодирования для двух пятиканальных аудиосигналов L, LS, LB, TFL, TBL и R, RS, RB, TFR, TBR независимо один от другого на основе «влажных» и «сухих» коэффициентов повышающего микширования γ_L, β_L и дополнительных «влажных» и «сухих» коэффициентов повышающего микширования γ_R, β_R соответственно.In some embodiments, the control section 304 may select coding formats for the two five-channel audio signals L, LS, LB, TFL, TBL, and R, RS, RB, TFR, TBR independently of each other based on wet and dry upmix coefficients. γ _L , β _L and additional "wet" and "dry" upmix coefficients γ _R , β _R respectively.

Система 300 кодирования аудио затем может вывести сигнал понижающего микширования L₁, L₂ и дополнительный сигнал понижающего микширования R₁, R₂ выбранного формата кодирования, параметры повышающего микширования α, из которых можно получить «сухие» и «влажные» коэффициенты повышающего микширования β_L, γ_L и дополнительные «сухие» и «влажные» коэффициенты повышающего микширования β_R, γ_R, связанные с выбранным форматом кодирования, и сигнализацию S, указывающую выбранный формат кодирования.The audio encoding system 300 can then output the downmix signal L ₁ , L ₂ and the additional downmix signal R ₁ , R ₂ of the selected coding format, the upmix parameters α from which the dry and wet upmix coefficients β _L can be derived. , γ _L and additional dry and wet upmix coefficients β _R , γ _R associated with the selected coding format, and a signaling S indicating the selected coding format.

В настоящем примере осуществления секция 304 управления выводит сигнал понижающего микширования L₁, L₂ и дополнительный сигнал понижающего микширования R₁, R₂ выбранного формата кодирования, параметры повышающего микширования α, из которых можно получить «сухие» и «влажные» коэффициенты повышающего микширования β_L, γ_L и дополнительные «сухие» и «влажные» коэффициенты повышающего микширования β_R, γ_R, связанные с выбранным форматом кодирования, и сигнализацию S, показывающую выбранный формат кодирования. Сигнал понижающего микширования L₁, L₂ и дополнительный сигнал понижающего микширования R₁, R₂ преобразуются обратно из области QMF посредством секции 305 QMF-синтеза (или банка фильтров) и преобразуются в область модифицированного дискретного косинусного преобразования (МДКП) секцией 306 преобразования. Секция 307 квантования квантует параметры повышающего микширования α. Например, можно использовать равномерное квантование с размером шага 0,1 или 0,2 (безразмерное) с последующим энтропийным кодированием в виде кодирования Хаффмана. Более грубое квантование с размером шага 0,2 можно использовать, например, для экономии полосы пропускания при передаче, а более тонкое квантование с размером шага 0,1 можно использовать, например, для увеличения достоверности реконструкции на стороне декодера. Каналы C и LFE также преобразуются в область МДКП секцией 308 преобразования. Преобразованные МДКП сигналы понижающего микширования и каналы, квантованные параметры повышающего микширования и сигнализацию затем объединяют в битовый поток B мультиплексором 309 для передачи на сторону декодера. Система 300 кодирования аудио также может содержать базовый кодер (не показан на Фиг. 3), выполненный с возможностью кодирования сигнала понижающего микширования L₁, L₂, дополнительного сигнала понижающего микширования R₁, R₂ и каналов C и LFE с использованием перцептуального аудиокодека, такого как Dolby Digital, MPEG AAC или их производные, до передачи сигналов понижающего микширования и каналов C и LFE на мультиплексор 309. Коэффициент усиления, например, соответствующий –8,7 дБ, можно, например, применить к сигналу понижающего микширования L₁, L₂, дополнительному сигналу понижающего микширования R₁, R₂ и каналу C до формирования битового потока B. В альтернативном варианте осуществления, поскольку параметры не зависят от абсолютного уровня, коэффициенты усиления также можно применить ко всем входным каналам до формирования линейных комбинаций, соответствующих L₁, L₂.In the present embodiment, the control section 304 outputs a downmix signal L ₁ , L ₂ and an additional downmix signal R ₁ , R ₂ of the selected coding format, upmix parameters α from which dry and wet upmix coefficients β can be obtained. _L , γ _L and additional dry and wet upmix coefficients β _R , γ _R associated with the selected coding format, and a signaling S indicating the selected coding format. The downmix signal L ₁ , L ₂ and the additional downmix signal R ₁ , R ₂ are converted back from the QMF domain by a QMF synthesis (or filter bank) section 305 and converted to a modified discrete cosine transform (MDCT) domain by a transform section 306 . The quantization section 307 quantizes the upmix parameters α. For example, you can use uniform quantization with a step size of 0.1 or 0.2 (dimensionless) followed by entropy coding in the form of Huffman coding. A coarser quantization with a step size of 0.2 can be used, for example, to save transmission bandwidth, and a finer quantization with a step size of 0.1 can be used, for example, to increase the reliability of the reconstruction at the decoder side. The C and LFE channels are also converted to the MDCT region by transform section 308 . The transformed MDCT downmix signals and channels, the quantized upmix parameters and signaling are then combined into bitstream B by the multiplexer 309 for transmission to the decoder side. The audio coding system 300 may also comprise a core encoder (not shown in FIG. 3) configured to encode the downmix signal L ₁ , L ₂ , the additional downmix signal R ₁ , R ₂ , and the C and LFE channels using a perceptual audio codec, such as Dolby Digital, MPEG AAC, or derivatives thereof, before transmitting the downmix signals and C and LFE channels to the multiplexer 309. A gain, for example, corresponding to -8.7 dB, can, for example, be applied to the downmix signal L ₁ , L ₂ , an additional downmix signal R ₁ , R ₂ , and channel C until bitstream B is generated _. , L ₂ .

Также могут быть предусмотрены варианты осуществления, в которых секция 304 управления получает только «влажные» и «сухие» коэффициенты повышающего микширования γ_L, γ_R, β_L, β_R для разных форматов кодирования F₁, F₂, F₃ (или суммы квадратов «влажных» и «сухих» коэффициентов повышающего микширования для разных форматов кодирования) для выбора формата кодирования, т. е. секция 304 управления не должна обязательно получать сигналы понижающего микширования L₁, L₂ R₁, R₂ для разных форматов кодирования. В таких вариантах осуществления секция 304 управления может, например, управлять секциями 100, 303 кодирования для передачи сигналов понижающего микширования L₁, L₂, R₁, R₂, «сухих» коэффициентов повышающего микширования β_L, β_R и «влажных» коэффициентов повышающего микширования γ_L, γ_R для выбранного формата кодирования в качестве выхода системы 300 кодирования аудио или в качестве входа на мультиплексор 309.Embodiments may also be envisaged in which the control section 304 obtains only wet and dry upmix coefficients γ _L , γ _R , β _L , β _R for different coding formats F ₁ , F ₂ , F ₃ (or the sum squared wet and dry upmix coefficients for different coding formats) to select the coding format, i.e., the control section 304 need not necessarily receive the downmix signals L ₁ , L ₂ R ₁ , R ₂ for different coding formats. In such embodiments, control section 304 may, for example, control coding sections 100, 303 to transmit downmix signals L ₁ , L ₂ , R ₁ , R ₂ , dry upmix coefficients β _L , β _R and wet coefficients upmix γ _L , γ _R for the selected coding format as an output of the audio coding system 300 or as an input to the multiplexer 309.

Если происходит переключение выбранного формата кодирования, то можно, например, выполнить интерполяцию между значениями коэффициентов понижающего микширования, использованными до и после переключения формата кодирования, чтобы сформировать сигнал понижающего микширования в соответствии с уравнением (1). Это по существу эквивалентно интерполяции сигналов понижающего микширования, полученных в соответствии с соответствующими наборами значений коэффициентов понижающего микширования.If the selected coding format is switched, it is possible, for example, to interpolate between the values of the downmix coefficients used before and after the coding format switch to generate a downmix signal according to equation (1). This is essentially equivalent to interpolating the downmix signals obtained according to the respective sets of downmix coefficient values.

Хотя на Фиг. 3 показано, каким образом сигнал понижающего микширования можно получить в области QMF, а затем в дальнейшем преобразовать обратно во временную область, можно обеспечить альтернативный кодер, выполняющий те же функции без использования QMF-секций 302, 305, и тем самым он будет вычислять сигнал понижающего микширования непосредственно во временной области. Это возможно в ситуациях, в которых коэффициенты понижающего микширования не являются частотнозависимыми, как это обычно и бывает. При использовании альтернативного кодера переключения форматов кодирования можно обрабатывать либо путем плавного перехода между двумя сигналами понижающего микширования соответствующих форматов кодирования, либо путем интерполяции коэффициентов понижающего микширования (включая коэффициенты, которые имеют нулевые значения в одном из форматов), создающих сигналы понижающего микширования. Для такого альтернативного кодера может быть характерна меньшая задержка/латентность и/или меньшая вычислительная сложность.Although in Fig. 3 shows how a downmix signal can be obtained in the QMF domain and then further converted back to the time domain, an alternative encoder can be provided that performs the same functions without using the QMF sections 302, 305, and thereby calculates the downmix signal. mixing directly in the time domain. This is possible in situations where the downmix coefficients are not frequency dependent, as is usually the case. When using an alternative encoder, coding format switching can be processed either by smoothly transitioning between two downmix signals of the respective coding formats, or by interpolation of downmix coefficients (including coefficients that have zero values in one of the formats) producing downmix signals. Such an alternative encoder may have lower delay/latency and/or lower computational complexity.

На Фиг. 2 представлена обобщенная структурная схема секции 200 кодирования, сходной с секцией 100 кодирования, описанной применительно к Фиг. 1, в соответствии с одним примером осуществления. Секция 200 кодирования содержит секцию 210 понижающего микширования и секцию 220 анализа. Как и в секции 100 кодирования, описанной применительно к Фиг. 1, секция 210 понижающего микширования вычисляет двухканальный сигнал понижающего микширования L₁, L₂ на основе пятиканального аудиосигнала L, LS, LB, TFL, TBL для каждого из форматов кодирования F₁, F₂, F₃, а секция 220 анализа определяет соответствующие наборы «сухих» коэффициентов повышающего микширования β_L и вычисляет разности Δ_L между ковариационной матрицей полученного пятиканального аудиосигнала L, LS, LB, TFL, TBL и ковариационными матрицами пятиканального аудиосигнала, аппроксимированными соответствующими линейными отображениями соответствующих сигналов понижающего микширования.On FIG. 2 is a generalized block diagram of an encoding section 200 similar to the encoding section 100 described in connection with FIG. 1, in accordance with one embodiment. The encoding section 200 contains a downmix section 210 and an analysis section 220 . As in the encoding section 100 described with respect to FIG. 1, the downmix section 210 calculates a two-channel downmix signal L ₁ , L ₂ based on the five-channel audio signal L, LS, LB, TFL, TBL for each of the coding formats F ₁ , F ₂ , F ₃ , and the analysis section 220 determines the corresponding sets dry upmix coefficients β _L and calculates the differences Δ _L between the covariance matrix of the received five-channel audio signal L, LS, LB, TFL, TBL and the covariance matrices of the five-channel audio signal approximated by the corresponding linear mappings of the respective downmix signals.

В отличие от секции 120 анализа в секции 100 кодирования, описанной применительно к Фиг. 1, секция 220 анализа не вычисляет «влажные» параметры повышающего микширования для всех форматов кодирования. Вместо этого в секцию 304 управления (см. Фиг. 3) передаются вычисленные разности Δ_L для выбора формата кодирования. После выбора формата кодирования на основе вычисленных разностей Δ_L секция 304 управления может определить «влажные» коэффициенты повышающего микширования (для включения в набор параметров повышающего микширования) для выбранного формата кодирования. В альтернативном варианте осуществления секция 304 управления отвечает за выбор формата кодирования на основе вычисленных разностей Δ_L между вышеописанными ковариационными матрицами, но посредством сигнализации, направленной в обратную сторону, дает секции 220 анализа команду вычислить «влажные» коэффициенты повышающего микширования γ_L; в соответствии с этим альтернативным вариантом (не показан) секция 220 анализа способна выводить как разности, так и «влажные» коэффициенты повышающего микширования.Unlike the analysis section 120, in the encoding section 100 described with respect to FIG. 1, analysis section 220 does not calculate wet upmix parameters for all coding formats. Instead, the calculated differences _ΔL are passed to the control section 304 (see FIG. 3) to select the coding format. After selecting the coding format based on the calculated differences _ΔL, the control section 304 may determine wet upmix coefficients (to be included in the upmix parameter set) for the selected coding format. In an alternative embodiment, the control section 304 is responsible for selecting the coding format based on the computed differences Δ _L between the above-described covariance matrices, but instructs the analysis section 220 to calculate the wet upmix coefficients γ _L via signaling backwards; according to this alternative (not shown), the analysis section 220 is capable of outputting both differences and wet upmix coefficients.

В настоящем примере осуществления набор «влажных» коэффициентов повышающего микширования определяют таким образом, чтобы ковариационная матрица сигнала, полученного путем линейного отображения декоррелированного сигнала, определяемого «влажными» коэффициентами повышающего микширования, дополняла ковариационную матрицу пятиканального аудиосигнала, аппроксимированного линейным отображением сигнала понижающего микширования выбранного формата кодирования. Иными словами, необязательно определять «влажные» параметры повышающего микширования, чтобы обеспечить полную ковариационную реконструкцию при реконструировании пятиканального аудиосигнала L, LS, LB, TFL, TBL на стороне декодера. «Влажные» параметры повышающего микширования можно определить, чтобы увеличить достоверность воспроизведения реконструированного пятиканального аудиосигнала, но если, например, количество декорреляторов на стороне декодера ограничено, то «влажные» параметры повышающего микширования можно определить, чтобы можно было максимально реконструировать ковариационную матрицу пятиканального аудиосигнала L, LS, LB, TFL, TBL.In the present exemplary embodiment, a set of wet upmix coefficients is determined such that the covariance matrix of a signal obtained by linear mapping of the decorrelated signal determined by the wet upmix coefficients complements the covariance matrix of a five-channel audio signal approximated by a linear mapping of the downmix signal of the selected coding format . In other words, it is not necessary to define wet upmix parameters in order to achieve full covariance reconstruction when reconstructing the L, LS, LB, TFL, TBL five-channel audio signal at the decoder side. Wet upmix parameters can be determined to increase the fidelity of the reconstructed five-channel audio signal, but if, for example, the number of decorrelators on the decoder side is limited, then wet upmix parameters can be determined so that the five-channel audio covariance matrix L can be reconstructed as much as possible, LS, LB, TFL, TBL.

Могут быть предусмотрены варианты осуществления, в которых системы кодирования аудио, сходные с системой 300 кодирования аудио, описанной применительно к Фиг. 3, содержат одну или более секций 200 кодирования того типа, который описан применительно к Фиг. 2.Embodiments may be envisaged in which audio coding systems similar to the audio coding system 300 described in connection with FIG. 3 comprise one or more coding sections 200 of the type described in connection with FIG. 2.

На Фиг. 4 представлена блок-схема способа 400 кодирования аудио для кодирования М-канального аудиосигнала в двухканальный сигнал понижающего микширования и ассоциированные параметры повышающего микширования в соответствии с одним примером осуществления. Пример способа 400 кодирования аудио в настоящей заявке представляет собой способ, осуществляемый системой кодирования аудио, содержащей секцию 200 кодирования, описанную применительно к Фиг. 2.On FIG. 4 is a flow diagram of an audio encoding method 400 for encoding an M -channel audio signal into a two-channel downmix signal and associated upmix parameters, in accordance with one embodiment. An example of an audio encoding method 400 in the present application is a method implemented by an audio encoding system comprising an encoding section 200 described with respect to FIG. 2.

Способ 400 кодирования аудио включает получение 410 пятиканального аудиосигнала L, LS, LB, TFL, TBL; вычисление 420 в соответствии с первым из форматов кодирования F₁, F₂, F₃, описанным применительно к Фиг. 6–8, двухканального сигнала понижающего микширования L₁, L₂ на основе пятиканального аудиосигнала L, LS, LB, TFL, TBL; определение 430 набора «сухих» коэффициентов повышающего микширования β_L в соответствии с форматом кодирования и вычисление 440 разности Δ_L в соответствии с форматом кодирования. Способ 400 кодирования аудио включает определение 450 того, были ли вычислены разности Δ_L для каждого из форматов кодирования F₁, F₂, F₃. Если по меньшей мере для одного формата кодирования еще нужно определить разность Δ_L, то способ 400 кодирования аудио возвращается к вычислению 420 сигнала понижающего микширования L₁, L₂ в соответствии со следующим по очереди форматом кодирования, как обозначено буквой N на блок-схеме.The audio encoding method 400 includes obtaining 410 a five-channel audio signal L, LS, LB, TFL, TBL; calculation 420 in accordance with the first of the coding formats F ₁ , F ₂ , F ₃ described in connection with FIG. 6-8, two-channel downmix signal L ₁ , L ₂ based on five-channel audio signal L, LS, LB, TFL, TBL; determining 430 a set of dry upmix coefficients β _L according to the coding format; and calculating 440 a difference Δ _L according to the coding format. The audio encoding method 400 includes determining 450 whether differences _ΔL have been computed for each of the coding formats F ₁ , F ₂ , F ₃ . If the difference _ΔL still needs to be determined for at least one coding format, then the audio coding method 400 returns to calculating 420 the downmix signal L ₁ , L ₂ in accordance with the next coding format in turn, as indicated by the letter N in the block diagram.

Если разности Δ_L вычислены для каждого из форматов кодирования F₁, F₂, F₃, как обозначено буквой Y на блок-схеме, способ 400 переходит к выбору 460 одного из форматов кодирования F₁, F₂, F₃ на основании соответствующих вычисленных разностей Δ_L и определению 470 набора «влажных» коэффициентов повышающего микширования, которые в совокупности с «сухими» коэффициентами повышающего микширования β_L выбранного формата кодирования позволяют осуществить параметрическую реконструкцию пятиканального аудиосигнала L, LS, LB, TFL, TBLM в соответствии с уравнением (2). Способ 400 кодирования аудио дополнительно включает вывод 480 сигнала понижающего микширования L₁, L₂ выбранного формата кодирования и параметров повышающего микширования, из которых можно получить «сухие» и «влажные» коэффициенты повышающего микширования, связанные с выбранным форматом кодирования; и вывод 490 сигнализации S, обозначающей выбранный формат кодирования.If the differences _ΔL are computed for each of the coding formats F ₁ , F ₂ , F ₃ , as denoted by Y in the block diagram, method 400 proceeds to select 460 one of the coding formats F ₁ , F ₂ , F ₃ based on the respective calculated differences Δ _L and determining 470 a set of wet upmix coefficients, which, together with dry upmix coefficients β _L of the selected coding format, allow the parametric reconstruction of a five-channel audio signal L, LS, LB, TFL, TBLM in accordance with equation (2 ). The audio encoding method 400 further includes outputting 480 a downmix signal L ₁ , L ₂ of the selected coding format and upmix parameters from which to derive dry and wet upmix coefficients associated with the selected coding format; and output 490 signaling S indicating the selected coding format.

На Фиг. 5 представлена блок-схема способа 500 кодирования аудио для кодирования М-канального аудиосигнала в двухканальный сигнал понижающего микширования и ассоциированные параметры повышающего микширования в соответствии с одним примером осуществления. Пример способа 500 кодирования аудио в настоящей заявке представляет собой способ, осуществляемый системой 300 кодирования аудио, описанной применительно к Фиг. 3.On FIG. 5 is a flowchart of an audio encoding method 500 for encoding an M -channel audio signal into a two-channel downmix signal and associated upmix parameters, in accordance with one embodiment. An example of an audio encoding method 500 in the present application is a method implemented by the audio encoding system 300 described with respect to FIG. 3.

Аналогично способу 400 кодирования аудио, описанному применительно к Фиг. 4, способ 500 кодирования аудио включает получение 410 пятиканального аудиосигнала L, LS, LB, TFL, TBL; вычисление 420 в соответствии с первым из форматов кодирования F₁, F₂, F₃ двухканального сигнала понижающего микширования L₁, L₂ на основе пятиканального аудиосигнала L, LS, LB, TFL, TBL; определение 430 набора «сухих» коэффициентов повышающего микширования β_L в соответствии с форматом кодирования; и вычисление 440 разности Δ_L в соответствии с форматом кодирования. Способ 500 кодирования аудио дополнительно включает определение 560 набора «влажных» коэффициентов повышающего микширования γ_L, которые в совокупности с «сухими» коэффициентами повышающего микширования β_L формата кодирования позволяют выполнить параметрическую реконструкцию М-канального аудиосигнала в соответствии с уравнением (2). Способ 500 кодирования аудио включает определение 550 того, были ли вычислены «влажные» и «сухие» коэффициенты повышающего микширования γ_L, β_L для каждого из форматов кодирования F₁, F₂, F₃. Если по меньшей мере для одного формата кодирования еще нужно вычислить «влажные» и «сухие» коэффициенты повышающего микширования γ_L, β_L, то способ 500 кодирования аудио возвращается к вычислению 420 сигнала понижающего микширования L₁, L₂ в соответствии со следующим по очереди форматом кодирования, как обозначено буквой N на блок-схеме.Similar to the audio encoding method 400 described with respect to FIG. 4, the audio encoding method 500 includes deriving 410 a five-channel L, LS, LB, TFL, TBL audio signal; calculating 420 according to the first of the coding formats F ₁ , F ₂ , F ₃ a two-channel downmix signal L ₁ , L ₂ based on the five-channel audio signal L, LS, LB, TFL, TBL; determining 430 a set of dry upmix coefficients β _L in accordance with the coding format; and calculating 440 the difference _ΔL in accordance with the coding format. The audio encoding method 500 further includes determining 560 a set of wet upmix coefficients γ _L , which, in combination with the dry coding format upmix coefficients β _L , allow parametric reconstruction of the M -channel audio signal in accordance with equation (2). Audio encoding method 500 includes determining 550 whether wet and dry upmix coefficients γ _L , β _L have been computed for each of the coding formats F ₁ , F ₂ , F ₃ . If at least one coding format still needs to calculate wet and dry upmix coefficients γ _L , β _L , then the audio encoding method 500 returns to the calculation 420 of the downmix signal L ₁ , L ₂ in accordance with the following in turn coding format, as indicated by the letter N in the block diagram.

Если «влажные» и «сухие» коэффициенты повышающего микширования γ_L, β_L вычислены для каждого из форматов кодирования F₁, F₂, F₃, как обозначено буквой Y на блок-схеме, способ 500 кодирования аудио переходит к выбору 570 одного из форматов кодирования F₁, F₂, F₃ на основании соответствующих вычисленных «влажных» и «сухих» коэффициентов повышающего микширования γ_L, β_L; выводу 480 сигнала понижающего микширования L₁, L₂ выбранного формата кодирования и параметров повышающего микширования, из которых можно получить «сухие» и «влажные» коэффициенты повышающего микширования β_L, γ_L, связанные с выбранным форматом кодирования; и выводу 490 сигнализации, обозначающей выбранный формат кодирования.If the wet and dry upmix coefficients γ _L , β _L are computed for each of the coding formats F ₁ , F ₂ , F ₃ , as indicated by Y in the block diagram, the audio encoding method 500 proceeds to select 570 one of coding formats F ₁ , F ₂ , F ₃ based on the respective calculated wet and dry upmix coefficients γ _L , β _L ; outputting 480 the downmix signal L ₁ , L ₂ of the selected coding format and upmix parameters from which dry and wet upmix coefficients β _L , γ _L associated with the selected coding format can be derived; and a signaling output 490 indicating the selected coding format.

На Фиг. 9 представлена обобщенная структурная схема секции 900 декодирования для реконструкции М-канального аудиосигнала на основе двухканального сигнала понижающего микширования и ассоциированных параметров повышающего микширования α_L в соответствии с одним примером осуществления.On FIG. 9 is a generalized block diagram of a decoding section 900 for reconstructing an M -channel audio signal based on a two-channel downmix signal and associated upmix parameters α _L , in accordance with one embodiment.

В настоящем примере осуществления пример сигнала понижающего микширования представляет собой сигнал понижающего микширования L₁, L₂, который выводится секцией 100 кодирования, описанной применительно к Фиг. 1. В настоящем примере осуществления «сухие» и «влажные» коэффициенты повышающего микширования β_L, γ_L, которые выводятся секцией 100 кодирования и которые приспособлены для параметрической реконструкции пятиканального аудиосигнала L, LS, LB, TFL, TBL, получают из параметров повышающего микширования α_L. Однако также могут быть предусмотрены варианты осуществления, в которых параметры повышающего микширования α_L приспособлены для параметрической реконструкции М-канального аудиосигнала, где М = 4 или М ≥ 6.In the present embodiment, an example of the downmix signal is the L ₁ , L ₂ downmix signal that is output by the encoding section 100 described with respect to FIG. 1. In the present embodiment, the dry and wet upmix coefficients β _L , γ _L , which are output by the encoding section 100 and which are adapted for parametric reconstruction of the five-channel audio signal L, LS, LB, TFL, TBL, are obtained from the upmix parameters α _L . However, embodiments may also be envisaged in which the upmix parameters α _L are adapted for parametric reconstruction of an M -channel audio signal, where M = 4 or M ≥ 6.

Секция 900 декодирования содержит секцию 910 преддекорреляции, секцию 920 декорреляции и секцию 930 микширования. Секция 910 преддекорреляции определяет набор преддекорреляционных коэффициентов на основе выбранного формата кодирования, использованного на стороне кодера для кодирования пятиканального аудиосигнала L, LS, LB, TFL, TBL. Как описано ниже применительно к Фиг. 10, выбранный формат кодирования может быть обозначен при помощи сигнализации со стороны кодера. Секция 910 преддекорреляции вычисляет входной сигнал декорреляции D₁, D₂, D₃ как линейного отображения сигнала понижающего микширования L₁, L₂, где к сигналу понижающего микширования L₁, L₂ применяют набор преддекорреляционных коэффициентов.Section 900 decoding contains section 910 predecrelation, section 920 decorrelation and section 930 mixing. The pre-decorrelation section 910 determines a set of pre-decorrelation coefficients based on the selected coding format used on the encoder side to encode the L, LS, LB, TFL, TBL five-channel audio signal. As described below with respect to FIG. 10, the selected coding format may be indicated by signaling from the encoder side. The pre-decrelation section 910 calculates the input decorrelation signal D ₁ , D ₂ , D ₃ as a linear mapping of the down-mix signal L ₁ , L ₂ , where a set of pre-decoration coefficients is applied to the down-mix signal L ₁ , L ₂ .

Секция 920 декорреляции генерирует декоррелированный сигнал на основе входного сигнала декорреляции D₁, D₂, D₃. В настоящем документе примером декоррелированного сигнала являются три канала, каждый из которых сгенерирован путем обработки одного из каналов входного сигнала декорреляции в декорреляторе 921–923 секции 920 декорреляции, например, включая применение линейных фильтров к соответствующим каналам входного сигнала декорреляции D₁, D₂, D₃.The decorrelation section 920 generates a decorrelated signal based on the decorrelation input D ₁ , D ₂ , D ₃ . Here, an example of a decorrelated signal is three channels, each generated by processing one of the decorrelation input channels in the decorrelator 921-923 of the decorrelation section 920, for example, including applying linear filters to the corresponding decorrelation input channels D ₁ , D ₂ , D ₃ .

Секция 930 микширования определяет набор «влажных» и «сухих» коэффициентов повышающего микширования β_L, γ_L на основе полученных параметров повышающего микширования α_L и выбранного формата кодирования, использованного на стороне кодера для кодирования пятиканального аудиосигнала L, LS, LB, TFL, TBL. Секция 930 микширования выполняет параметрическую реконструкцию пятиканального аудиосигнала L, LS, LB, TFL, TBL в соответствии с уравнением (2), т. е. вычисляет «сухой» сигнал повышающего микширования как линейного отображения сигнала понижающего микширования L₁, L₂, причем к сигналу понижающего микширования L₁, L₂ применяют набор «сухих» коэффициентов повышающего микширования β_L; вычисляет «влажный» сигнал повышающего микширования как линейного отображения декоррелированного сигнала, причем к декоррелированному сигналу применяют набор «влажных» коэффициентов повышающего микширования γ_L; и объединяет «сухой» и «влажный» сигналы повышающего микширования для получения многомерного реконструированного аудиосигнала

, соответствующего подлежащему реконструкции пятиканальному аудиосигналу L, LS, LB, TFL, TBL.The mixing section 930 determines a set of wet and dry upmix coefficients β _L , γ _L based on the obtained upmix parameters α _L and the selected coding format used on the encoder side to encode the five-channel audio signal L, LS, LB, TFL, TBL . The mixing section 930 performs parametric reconstruction of the five-channel audio signal L, LS, LB, TFL, TBL in accordance with equation (2), i.e., calculates the dry upmix signal as a linear display of the downmix signal L ₁ , L ₂ , and to the downmix signal L ₁ , L ₂ apply a set of "dry" upmix coefficients β _L ; calculates the wet upmix signal as a linear mapping of the decorrelated signal, wherein a set of wet upmix coefficients γ _L is applied to the decorrelated signal; and combines dry and wet upmix signals to produce a multi-dimensional reconstructed audio signal

corresponding to the five-channel audio signal to be reconstructed L, LS, LB, TFL, TBL.

В некоторых примерах осуществления полученные параметры повышающего микширования α_L могут включать сами «влажные» и «сухие» коэффициенты повышающего микширования β_L, γ_L, или же они могут соответствовать более компактной форме, включающей меньшее количество параметров, чем количество «влажных» и «сухих» коэффициентов повышающего микширования β_L, γ_L, из которых можно получать «влажные» и «сухие» коэффициенты повышающего микширования β_L, γ_L на стороне декодера, зная используемую компактную форму.In some embodiments, the obtained upmix parameters α _L may include the wet and dry upmix coefficients β _L , γ _L themselves, or they may follow a more compact form including fewer parameters than the number of wet and dry upmix coefficients β _L , γ _L , from which wet and dry upmix coefficients β _L , γ _L can be obtained on the decoder side, knowing the compact form used.

На Фиг. 11 показана работа секции 930 микширования, описанной применительно к Фиг. 9, в одном примере сценария, в котором сигнал понижающего микширования L₁, L₂ представляет пятиканальный аудиосигнал L, LS, LB, TFL, TBL в соответствии с первым форматом кодирования F₁, описанным применительно к Фиг. 6. Следует понимать, что в примерах сценариев, в которых сигнал понижающего микширования L₁, L₂ представляет пятиканальный аудиосигнал L, LS, LB, TFL, TBL в соответствии с любым из второго и третьего форматов кодирования F₂, F₃, работа секции 930 микширования может быть аналогичной. В частности, секция 930 микширования может временно активировать дополнительные экземпляры секций повышающего микширования и объединяющих секций, которые будут описаны далее, и обеспечивать плавный переход между двумя форматами кодирования, что может потребовать одновременной доступности вычисленных сигналов понижающего микширования.On FIG. 11 shows the operation of the mixing section 930 described in connection with FIG. 9, in one example scenario in which the downmix signal L ₁ , L ₂ represents a five-channel audio signal L, LS, LB, TFL, TBL according to the first coding format F ₁ described with respect to FIG. 6. It should be understood that in example scenarios in which the downmix signal L ₁ , L ₂ represents a five-channel audio signal L, LS, LB, TFL, TBL in accordance with any of the second and third coding formats F ₂ , F ₃ , section operation 930 mixing may be similar. In particular, the mixing section 930 may temporarily activate additional instances of upmix sections and merging sections, which will be described later, and provide a smooth transition between the two coding formats, which may require the computed downmix signals to be available simultaneously.

В настоящем примере сценария первый канал L₁ сигнала понижающего микширования представляет три канала L, LS, LB, а второй канал L₂ сигнала понижающего микширования представляет два канала TFL, TBL. Секция 910 преддекорреляции определяет преддекорреляционные коэффициенты, чтобы генерировать два канала декоррелированного сигнала на основе первого канала L₁ сигнала понижающего микширования и чтобы генерировать один канал декоррелированного сигнала на основе второго канала L₂ сигнала понижающего микширования.In the present scenario example, the first channel L ₁ of the downmix signal represents three channels L, LS, LB, and the second channel L ₂ of the downmix signal represents two channels TFL, TBL. The pre-decorrelation section 910 determines pre-decrelation coefficients to generate two channels of a decorrelated signal based on the first channel L ₁ of the downmix signal and to generate one channel of the decorrelated signal based on the second channel L ₂ of the downmix signal.

Первая «сухая» секция 931 повышающего микширования обеспечивает трехканальный «сухой» сигнал повышающего микширования X₁ как линейного отображения первого канала L₁ сигнала понижающего микширования, причем поднабор «сухих» коэффициентов повышающего микширования, которые можно получить из полученных параметров повышающего микширования α_L, применяют к первому каналу L₁ сигнала понижающего микширования. Первая «влажная» секция 932 повышающего микширования обеспечивает трехканальный «влажный» сигнал повышающего микширования Y₁ как линейного отображения двух каналов декоррелированного сигнала, причем поднабор «влажных» коэффициентов повышающего микширования, которые можно получить из полученных параметров повышающего микширования α_L, применяют к двум каналам декоррелированного сигнала. Первая объединяющая секция 933 объединяет первый «сухой» сигнал повышающего микширования X₁ и первый «влажный» сигнал повышающего микширования Y₁ в реконструированные варианты

каналов L, LS, LB.The first dry upmix section 931 provides a three-channel dry upmix signal X ₁ as a linear mapping of the first channel L ₁ of the downmix signal, wherein a subset of the dry upmix coefficients that can be obtained from the obtained upmix parameters α _L are applied to the first channel L ₁ of the downmix signal. The first wet upmix section 932 provides a three-channel wet upmix signal Y ₁ as a linear mapping of the two channels of the decorrelated signal, with a subset of wet upmix coefficients that can be obtained from the obtained upmix parameters α _L applied to the two channels decorrelated signal. The first merging section 933 combines the first dry upmix signal X ₁ and the first wet upmix signal Y ₁ into reconstructed versions.

channels L, LS, LB.

Аналогично вторая «сухая» секция 934 повышающего микширования обеспечивает двухканальный «сухой» сигнал повышающего микширования X₂ как линейного отображения второго канала L₂ сигнала понижающего микширования, а вторая «влажная» секция 935 повышающего микширования обеспечивает двухканальный «влажный» сигнал повышающего микширования Y₂ в виде линейной комбинации одного канала декоррелированного сигнала. Вторая объединяющая секция 936 объединяет второй «сухой» сигнал повышающего микширования X₂ и второй «влажный» сигнал повышающего микширования Y₂ в реконструированные варианты

каналов TFL, TBL.Similarly, the second dry upmix section 934 provides a two-channel dry upmix signal X ₂ as a line mapping of the second channel L ₂ of the downmix signal, and the second wet upmix section 935 provides a two-channel wet upmix signal Y ₂ in in the form of a linear combination of one channel of the decorrelated signal. The second merging section 936 combines the second dry upmix signal X ₂ and the second wet upmix signal Y ₂ into reconstructed versions.

channels TFL, TBL.

На Фиг. 10 представлена обобщенная структурная схема системы 1000 декодирования аудио, содержащей секцию 900 декодирования, описанную применительно к Фиг. 9, в соответствии с одним примером осуществления. Секция 1001 получения, например, включающая демультиплексор, получает битовый поток B, переданный от системы 300 кодирования аудио, описанной применительно к Фиг. 3, и извлекает сигнал понижающего микширования L₁, L₂, дополнительный сигнал понижающего микширования R₁, R₂ и параметры повышающего микширования α, а также каналы C и LFE из битового потока B. Параметры повышающего микширования α могут, например, содержать первый и второй поднаборы α_L и α_R, связанные с левой стороной и правой стороной соответственно 11.1-канального аудиосигнала L, LS, LB, TFL, TBL, R, RS, RB, TFR, TBR, C, LFE, который следует реконструировать.On FIG. 10 is a generalized block diagram of an audio decoding system 1000 comprising a decoding section 900 described in connection with FIG. 9 in accordance with one embodiment. An acquisition section 1001, for example including a demultiplexer, obtains the B bitstream transmitted from the audio coding system 300 described with respect to FIG. 3 and extracts the downmix signal L ₁ , L ₂ , the additional downmix signal R ₁ , R ₂ , and the upmix parameters α as well as the C and LFE channels from bitstream B. The upmix parameters α may, for example, comprise the first and the second subsets α _L and α _R associated with the left side and right side, respectively, of the 11.1-channel audio signal L, LS, LB, TFL, TBL, R, RS, RB, TFR, TBR, C, LFE to be reconstructed.

Если сигнал понижающего микширования L₁, L₂, дополнительный сигнал понижающего микширования R₁, R₂ и/или каналы C и LFE закодированы в битовом потоке B с использованием перцептуального аудиокодека, такого как Dolby Digital, MPEG AAC или их производные, система 1000 декодирования аудио может содержать базовый декодер (не показан на Фиг. 10), выполненный с возможностью декодирования соответствующих сигналов и каналов при извлечении из битового потока B.If the downmix signal L ₁ , L ₂ , the additional downmix signal R ₁ , R ₂ , and/or the C and LFE channels are encoded in the B bitstream using a perceptual audio codec such as Dolby Digital, MPEG AAC or derivatives thereof, decoding system 1000 the audio may comprise a basic decoder (not shown in FIG. 10) configured to decode the respective signals and channels when extracted from bitstream B.

Секция 1002 преобразования преобразует сигнал понижающего микширования L₁, L₂ путем выполнения обратного МДКП, а секция 1003 QMF-анализа преобразует сигнал понижающего микширования L₁, L₂ в область QMF для обработки секцией 900 декодирования сигнала понижающего микширования L₁, L₂, форма время-частотных плиток. Секция 1004 деквантования деквантует первый поднабор параметров повышающего микширования α_L, например, из формата энтропийного кодирования, перед его передачей в секцию 900 декодирования. Как описано применительно к Фиг. 3, квантование может быть выполнено с использованием одного из двух разных размеров шага, например 0,1 или 0,2. Реальный использованный размер шага можно предварительно задать или можно передать с помощью сигнализации в систему 1000 декодирования аудио со стороны кодера, например, через битовый поток B.The conversion section 1002 converts the L ₁ , L ₂ downmix signal by performing inverse MDCT, and the QMF analysis section 1003 converts the L ₁ , L ₂ downmix signal to a QMF domain for processing by the L ₁ , L ₂ downmix signal decoding section 900, form time-frequency tiles. The dequantization section 1004 dequantizes the first subset of the upmixing parameters α _L , for example, from the entropy encoding format, before passing it to the decoding section 900 . As described with respect to FIG. 3, quantization may be performed using one of two different step sizes, such as 0.1 or 0.2. The actual step size used may be predetermined or may be signaled to the audio decoding system 1000 by the encoder, such as via bitstream B.

В настоящем примере осуществления система 1000 декодирования аудио содержит дополнительную секцию 1005 декодирования, аналогичную секции 900 декодирования. Дополнительная секция 1005 декодирования выполнена с возможностью получения дополнительного двухканального сигнала понижающего микширования R₁, R₂, описанного применительно к Фиг. 3, и второго поднабора α_R параметров повышающего микширования и обеспечения реконструированного варианта

дополнительного пятиканального аудиосигнала R, RS, RB, TFR, TBR на основе дополнительного сигнала понижающего микширования R₁, R₂ и второго поднабора α_R параметров повышающего микширования.In the present embodiment, the audio decoding system 1000 includes an additional decoding section 1005 similar to the decoding section 900 . The additional decoding section 1005 is configured to obtain an additional two-channel downmix signal R ₁ , R ₂ described in connection with FIG. 3 and a second subset α _R of the upmix and provide reverse engineer parameters

an additional five-channel audio signal R, RS, RB, TFR, TBR based on the additional downmix signal R ₁ , R ₂ and the second subset α _R of the upmix parameters.

Секция 1006 преобразования преобразует дополнительный сигнал понижающего микширования R₁, R₂ путем выполнения обратного МДКП, а секция 1007 QMF-анализа преобразует дополнительный сигнал понижающего микширования R₁, R₂ в область QMF для обработки дополнительной секцией 1005 декодирования дополнительного сигнала понижающего микширования R₁, R₂, форма время-частотных плиток. Секция 1008 деквантования деквантует второй поднабор параметров повышающего микширования α_R, например, из формата энтропийного кодирования, перед их передачей в дополнительную секцию 1005 декодирования.The conversion section 1006 converts the additional downmix signal R ₁ , R ₂ by performing inverse MDCT, and the QMF analysis section 1007 converts the additional downmix signal R ₁ , R ₂ into a QMF region for processing by the additional section 1005 decoding the additional downmix signal R ₁ , R ₂ , the shape of the time-frequency tiles. The dequantizing section 1008 dequantizes the second subset of the upmixing parameters α _R , for example, from the entropy encoding format, before passing them to the further decoding section 1005 .

В примерах осуществления, в которых коэффициент усиления применяли к сигналу понижающего микширования L₁, L₂, дополнительному сигналу понижающего микширования R₁, R₂ и каналу C на стороне кодера, соответствующий коэффициент, например, соответствующий 8,7 дБ, можно применить к этим сигналам в системе 1000 декодирования аудио для компенсации коэффициента усиления.In embodiments in which a gain factor has been applied to the downmix signal L ₁ , L ₂ , the additional downmix signal R ₁ , R _{2 ,} and channel C on the encoder side, an appropriate gain, for example corresponding to 8.7 dB, can be applied to these signals in audio decoding system 1000 for gain compensation.

Секция 1009 управления получает сигнализацию S, указывающую формат, выбранный из форматов кодирования F₁, F₂, F₃, использованный на стороне кодера для кодирования 11.1-канального аудиосигнала в сигнал понижающего микширования L₁, L₂, а также дополнительный сигнал понижающего микширования R₁, R₂ и ассоциированные параметры повышающего микширования α. Секция 1009 управления управляет секцией 900 декодирования (например, входящей в нее секцией 910 преддекорреляции и секцией 920 микширования) и дополнительной секцией (1005) декодирования и выполняет параметрическую реконструкцию в соответствии с указанным форматом кодирования.The control section 1009 receives the signaling S indicating the format selected from the coding formats F ₁ , F ₂ , F ₃ used on the encoder side to encode the 11.1-channel audio signal into the downmix signal L ₁ , L ₂ , as well as the additional downmix signal R ₁ , R ₂ and associated upmix parameters α. The control section 1009 controls the decoding section 900 (for example, its included pre-decorrelation section 910 and mixing section 920) and the additional decoding section (1005), and performs parametric reconstruction in accordance with the specified encoding format.

В настоящем примере осуществления реконструированные варианты пятиканального аудиосигнала L, LS, LB, TFL, TBL и дополнительного пятиканального аудиосигнала R, RS, RB, TFL, TBL, выведенные секцией 900 декодирования и дополнительной секцией 1005 декодирования соответственно, преобразуются обратно из QMF-области посредством секции 1011 QMF-синтеза, а затем выводятся вместе с каналами C и LFE в качестве выхода системы 1000 декодирования аудио для воспроизведения на многоколоночной системе 1012. Секция 1010 преобразования преобразует каналы C и LFE во временную область посредством выполнения обратного МДКП, а затем эти каналы включаются в выход системы 1000 декодирования аудио.In the present embodiment, the reconstructed versions of the five-channel audio signal L, LS, LB, TFL, TBL and the additional five-channel audio signal R, RS, RB, TFL, TBL output by the decoding section 900 and the additional decoding section 1005, respectively, are converted back from the QMF region by the section 1011 QMF synthesis, and then output together with the C and LFE channels as the output of the audio decoding system 1000 for playback on the multi-column system 1012. The conversion section 1010 converts the C and LFE channels into the time domain by performing inverse MDCT, and then these channels are included in the output of the audio decoding system 1000.

Каналы C и LFE можно, например, извлечь из битового потока B в дискретно-кодированной форме, и система 1000 декодирования аудио может, например, содержать одноканальные секции декодирования (не показаны на Фиг. 10), выполненные с возможностью декодирования соответствующих дискретно-кодированных каналов. Одноканальные секции декодирования могут, например, включать базовые декодеры для декодирования аудиоданных, закодированных при помощи перцептуального аудиокодека, такого как Dolby Digital, MPEG AAC или их производные.Channels C and LFE may, for example, be extracted from bitstream B in a discretely encoded form, and the audio decoding system 1000 may, for example, comprise single-channel decoding sections (not shown in FIG. 10) configured to decode the respective discretely encoded channels. . The single-channel decoding sections may, for example, include core decoders for decoding audio data encoded with a perceptual audio codec such as Dolby Digital, MPEG AAC, or derivatives thereof.

В настоящем примере осуществления преддекорреляционные коэффициенты определяются секцией 910 преддекорреляции таким образом, чтобы в каждом из форматов кодирования F₁, F₂, F₃ каждый из каналов входного сигнала декорреляции D₁, D₂, D₃ совпадал с каналом сигнала понижающего микширования L₁, L₂, в соответствии с таблицей 1.In the present exemplary embodiment, the pre-decrelation coefficients are determined by the pre-decrelation section 910 such that, in each of the coding formats F ₁ , F ₂ , F ₃ , each of the decorrelation input signal channels D ₁ , D ₂ , D ₃ coincides with the downmix signal channel L ₁ , L ₂ in accordance with table 1.

Как можно видеть в таблице 1, канал TBL вносит вклад через сигнал понижающего микширования L₁, L₂ в третий канал D3 входного сигнала декорреляции во всех трех форматах кодирования F₁, F₂, F₃, тогда как каждая из пар каналов LS, LB и TFL, TBL вносит вклад через сигнал понижающего микширования L₁, L₂ в третий канал D3 входного сигнала декорреляции по меньшей мере в двух форматах кодирования соответственно.As can be seen in Table 1, the TBL channel contributes via the downmix signal L ₁ , L ₂ to the third channel D3 of the decorrelation input signal in all three coding formats F ₁ , F ₂ , F ₃ , while each of the channel pairs LS, LB and TFL, TBL contributes via the downmix signal L ₁ , L ₂ to the third decorrelation signal channel D3 in at least two coding formats, respectively.

В таблице 1 показано, что каждый из каналов L и TFL вносит вклад через сигнал понижающего микширования L₁, L₂ в первый канал D1 входного сигнала декорреляции в двух форматах кодирования соответственно, а пара каналов LS, LB вносит вклад через сигнал понижающего микширования L₁, L₂ в первый канал D1 входного сигнала декорреляции по меньшей мере в двух форматах кодирования.Table 1 shows that each of the channels L and TFL contributes via the downmix signal L ₁ , L ₂ to the first channel D1 of the input decorrelation signal in two coding formats, respectively, and the pair of channels LS, LB contributes via the downmix signal L ₁ , L ₂ into the first channel D1 of the decorrelation input signal in at least two coding formats.

В таблице 1 также показано, что три канала LS, LB, TBL вносят вклад через сигнал понижающего микширования L₁, L₂ во второй канал D2 входного сигнала декорреляции как во втором, так и в третьем формате кодирования F₃, F₃, тогда как пара каналов LS, LB вносит вклад через сигнал понижающего микширования L₁, L₂ во второй канал D2 входного сигнала декорреляции во всех трех форматах кодирования F₁, F₂, F₃.Table 1 also shows that the three channels LS, LB, TBL contribute via the downmix signal L ₁ , L ₂ to the second channel D2 of the decorrelation input signal in both the second and third coding formats F ₃ , F ₃ , while the channel pair LS, LB contributes via the downmix signal L ₁ , L ₂ to the second channel D2 of the decorrelation input signal in all three coding formats F ₁ , F ₂ , F ₃ .

При переключении между разными форматами кодирования изменяется входной сигнал к декорреляторам 921–923. В настоящем примере осуществления по меньшей мере некоторые части входных сигналов декорреляции D1, D2, D3 при переключении сохранятся, т. е. по меньшей мере один канал пятиканального аудиосигнала L, LS, LB, TFL, TBL останется в каждом канале входного сигнала декорреляции D1, D2, D3 при любом переключении между двумя форматами кодирования F₁, F₂, F₃, что позволит выполнить более плавный переход между форматами кодирования при восприятии слушателем при воспроизведении реконструированного М-канального аудиосигнала.Switching between different coding formats changes the input signal to decorrelators 921-923. In the present embodiment, at least some portions of the decorrelation inputs D1, D2, D3 will be retained when switching, i.e., at least one channel of the five-channel audio signal L, LS, LB, TFL, TBL will remain in each channel of the decorrelation input D1, D2, D3 at any switch between the two coding formats F ₁ , F ₂ , F ₃ , which will allow a smoother transition between coding formats when perceived by the listener when playing the reconstructed M -channel audio signal.

Авторы изобретения обнаружили, что поскольку декоррелированный сигнал может генерироваться на основе фрагмента сигнала понижающего микширования L₁, L₂, соответствующего нескольким временным интервалам, в течение которых может произойти переключение формата кодирования, потенциально возможно образование различимых на слух искажений в декоррелированном сигнале в результате переключения форматов кодирования. Даже если «влажные» и «сухие» коэффициенты повышающего микширования β_L, γ_L интерполируются в ответ на переход между форматами кодирования, возникшие в декоррелированном сигнале искажения все равно могут присутствовать в реконструированном пятиканальном аудиосигнале L, LS, LB, TFL, TBL. Предоставление входного сигнала декорреляции D1, D2, D3 в соответствии с таблицей 1 может подавлять различимые на слух искажения в декоррелированном сигнале, вызванные переключением формата кодирования, и может улучшать качество воспроизведения реконструированного пятиканального аудиосигнала L, LS, LB, TFL, TBL.The inventors have found that since a decorrelated signal can be generated based on a portion of the downmix signal L ₁ , L ₂ corresponding to several time intervals during which coding format switching can occur, it is potentially possible for audible distortions to be generated in the decorrelated signal as a result of format switching coding. Even if the wet and dry upmix coefficients β _L , γ _L are interpolated in response to the transition between coding formats, the distortions that have occurred in the decorrelated signal may still be present in the reconstructed five-channel audio signal L, LS, LB, TFL, TBL. Providing decorrelation input D1, D2, D3 according to Table 1 can suppress audible distortion in the decorrelated signal caused by coding format switching, and can improve the playback quality of the reconstructed L, LS, LB, TFL, TBL five-channel audio signal.

Хотя таблица 1 выражается в терминах форматов кодирования F₁, F₂, F₃, для которых каналы сигнала понижающего микширования L₁, L₂ генерируются в виде сумм первой и второй групп каналов соответственно, те же значения преддекорреляционных коэффициентов можно, например, использовать, когда каналы сигнала понижающего микширования сформированы в виде линейных комбинаций первой и второй групп каналов соответственно, так что каналы входного сигнала декорреляции D1, D2, D3 совпадают с каналами сигнала понижающего микширования L₁, L₂ в соответствии с таблицей 1. Следует понимать, что качество воспроизведения реконструированного пятиканального аудиосигнала таким способом можно также улучшить, если каналы сигнала понижающего микширования сформированы в виде линейных комбинаций первой и второй группы каналов соответственно.Although Table 1 is expressed in terms of the coding formats F ₁ , F ₂ , F ₃ for which the downmix signal channels L ₁ , L ₂ are generated as the sums of the first and second channel groups, respectively, the same values of the pre-decoration coefficients can, for example, be used, when the downmix signal channels are formed as linear combinations of the first and second channel groups, respectively, so that the decorrelation signal input channels D1, D2, D3 coincide with the downmix signal channels L ₁ , L ₂ in accordance with Table 1. It should be understood that the quality reproduction of the reconstructed five-channel audio signal in this manner can also be improved if the channels of the downmix signal are formed as linear combinations of the first and second channel groups, respectively.

Для дополнительного улучшения качества воспроизведения реконструированного пятиканального аудиосигнала можно, например, выполнить интерполяцию значений преддекорреляционных коэффициентов в ответ на переключение формата кодирования. В первом формате кодирования F₁ входной сигнал декорреляции D1, D2, D3 можно определить следующим образом:To further improve the reproduction quality of the reconstructed five-channel audio signal, for example, interpolation of the values of pre-decoration coefficients can be performed in response to switching the coding format. In the first coding format F _{1 ,} the decorrelation input signal D1, D2, D3 can be defined as follows:

тогда как во втором формате кодирования F₂ входной сигнал декорреляции D1, D2, D3 можно определить следующим образом:while in the second coding format F ₂ the decorrelation input signal D1, D2, D3 can be defined as follows:

В ответ на переключение с первого формата кодирования F₁ на второй формат кодирования F₂ можно, например, выполнить непрерывную или линейную интерполяцию между преддекорреляционной матрицей в уравнении (3) и преддекорреляционной матрицей в уравнении (4).In response to switching from the first coding format F ₁ to the second coding format F ₂ , continuous or linear interpolation can be performed between the pre-decoration matrix in equation (3) and the pre-decoration matrix in equation (4), for example.

Сигнал понижающего микширования L₁, L₂ в уравнениях (3) и (4) может, например, присутствовать в QMF-области, и при переключении между форматами кодирования коэффициенты понижающего микширования, примененные на стороне кодера для вычисления сигнала понижающего микширования L₁, L₂ согласно уравнению (1), можно интерполировать, например, на протяжении 32 QMF-интервалов. Интерполяцию преддекорреляционных коэффициентов (или матриц) можно, например, синхронизировать с интерполяцией коэффициентов понижающего микширования, например, ее можно выполнить на протяжении тех же 32 QMF-интервалов. Интерполяция преддекорреляционных коэффициентов может представлять собой, например, широкополосную интерполяцию, например, использованную для всех полос частот, декодированных системой 1000 декодирования аудио.The downmix signal L ₁ , L ₂ in equations (3) and (4) may, for example, be present in the QMF region, and when switching between coding formats, the downmix coefficients applied at the encoder side to calculate the downmix signal L ₁ , L ₂ according to equation (1) can be interpolated over 32 QMF intervals, for example. The interpolation of the pre-decoration coefficients (or matrices) may, for example, be synchronized with the interpolation of the downmix coefficients, for example, it may be performed over the same 32 QMF intervals. The interpolation of the pre-decoration coefficients may be, for example, a wideband interpolation, such as used for all frequency bands decoded by the audio decoding system 1000.

«Сухие» и «влажные» коэффициенты повышающего микширования β_L, γ_L также можно интерполировать. Интерполяциями «сухих» и «влажных» коэффициентов повышающего микширования β_L, γ_L можно, например, управлять при помощи сигнализации S со стороны кодера для улучшения обработки переходов. При переключении формата кодирования интерполяционная схема, выбранная на стороне кодера для интерполяции «сухих» и «влажных» коэффициентов повышающего микширования β_L, γ_L на стороне декодера, может представлять собой, например, интерполяционную схему, подходящую для переключения формата кодирования, которая может отличаться от интерполяционных схем, применяемых для «сухих» и «влажных» коэффициентов повышающего микширования β_L, γ_L при отсутствии переключений форматов кодирования.The dry and wet upmix coefficients β _L , γ _L can also be interpolated. The interpolations of the dry and wet upmix coefficients β _L , γ _L can, for example, be controlled by signaling S on the encoder side to improve transition processing. When switching the coding format, the interpolation scheme selected at the encoder side to interpolate dry and wet upmix coefficients β _L , γ _L at the decoder side may be, for example, an interpolation scheme suitable for switching the coding format, which may be different from the interpolation schemes used for dry and wet upmix coefficients β _L , γ _L in the absence of coding format switching.

В некоторых примерах осуществления в секции 900 декодирования может применяться по меньшей мере одна интерполяционная схема, отличающаяся от дополнительной секции 1005 декодирования.In some embodiments, at least one interpolation scheme different from additional decoding section 1005 may be applied in decoding section 900.

На Фиг. 12 представлена блок-схема способа 1200 декодирования аудио для реконструкции М-канального аудиосигнала на основе двухканального сигнала понижающего микширования и ассоциированных параметров повышающего микширования в соответствии с одним примером осуществления. Пример способа 1200 декодирования в настоящей заявке представляет собой способ декодирования, который может быть реализован системой 1000 декодирования аудио, описанной применительно к Фиг. 10.On FIG. 12 is a flowchart of an audio decoding method 1200 for reconstructing an M -channel audio signal based on a two-channel downmix signal and associated upmix parameters, in accordance with one embodiment. An example of a decoding method 1200 in the present application is a decoding method that can be implemented by the audio decoding system 1000 described with respect to FIG. 10.

Способ 1200 декодирования аудио включает получение 1201 двухканального сигнала понижающего микширования L₁, L₂ и параметров повышающего микширования α_L для параметрической реконструкции пятиканального аудиосигнала L, LS, LB, TFL, TBL, описанного применительно к Фиг. 6–8, на основе сигнала понижающего микширования L₁, L₂; получение 1202 сигнализации S, указывающий формат, выбранный из форматов кодирования F₁, F₂, F₃, описанных применительно к Фиг. 6–8; и определение 1203 набора преддекорреляционных коэффициентов на основе указанного формата кодирования.An audio decoding method 1200 includes deriving 1201 a two-channel downmix signal L ₁ , L ₂ and upmix parameters α _L to parametrically reconstruct the five-channel audio signal L, LS, LB, TFL, TBL described with respect to FIG. 6-8, based on the downmix signal L ₁ , L ₂ ; receiving 1202 signaling S indicating a format selected from the coding formats F ₁ , F ₂ , F ₃ described in connection with FIG. 6–8; and determining 1203 a set of pre-decoration coefficients based on the specified coding format.

Способ 1200 декодирования аудио включает обнаружение 1204 того, происходит ли переключение с одного формата кодирования на другой. Если переключение не обнаружено, как обозначено на блок-схеме буквой N, то следующим этапом является вычисление 1205 входного сигнала декорреляции D₁, D₂, D₃ как линейного отображения сигнала понижающего микширования L₁, L₂, причем к сигналу понижающего микширования применяют набор преддекорреляционных коэффициентов. С другой стороны, если обнаружено переключение формата кодирования, как обозначено буквой Y на блок-схеме, то вместо этого следующим шагом является выполнение 1206 интерполяции в форме постепенного перехода от значений преддекорреляционных коэффициентов одного формата кодирования к значениям преддекорреляционных коэффициентов другого формата кодирования, а затем вычисление 1205 входного сигнала декорреляции D₁, D₂, D₃ с использованием интерполированных значений преддекорреляционных коэффициентов.Audio decoding method 1200 includes detecting 1204 whether a switch is in progress from one encoding format to another. If the switch is not detected, as indicated by N in the block diagram, then the next step is to compute 1205 the decorrelation input D ₁ , D ₂ , D ₃ as a linear mapping of the downmix signal L ₁ , L ₂ , with the set of predecorrelation coefficients. On the other hand, if a coding format switch is detected, as indicated by the letter Y in the flowchart, then instead the next step is to interpolate 1206 in the form of a gradual transition from pre-decoration coefficient values of one coding format to pre-decoration coefficient values of another coding format, and then calculate 1205 decorrelation input signal D ₁ , D ₂ , D ₃ using the interpolated values of the pre-decoration coefficients.

Способ 1200 декодирования аудио включает создание 1207 декоррелированного сигнала на основе входного сигнала декорреляции D₁, D₂, D₃; и определение 1208 набора «влажных» и «сухих» коэффициентов повышающего микширования β_L, γ_L на основе полученных параметров повышающего микширования и указанного формата кодирования.An audio decoding method 1200 includes generating 1207 a decorrelated signal based on the decorrelation input signal D ₁ , D ₂ , D ₃ ; and determining 1208 a set of wet and dry upmix coefficients β _L , γ _L based on the obtained upmix parameters and the specified coding format.

Если переключение формата кодирования не обнаружено, как обозначено ветвью N от блока 1209 проверки условия, то способ 1200 переходит к вычислению 1210 «сухого» сигнала повышающего микширования как линейного отображения сигнала понижающего микширования, причем к сигналу понижающего микширования L₁, L₂ применяют набор «сухих» коэффициентов повышающего микширования β_L; и вычислению 1211 «влажного» сигнала повышающего микширования как линейного отображения декоррелированного сигнала, причем к декоррелированному сигналу применяют набор «влажных» коэффициентов повышающего микширования γ_L. С другой стороны, если обнаружено переключение с одного формата кодирования на другой, как обозначено на блок-схеме ветвью Y от блока 1209 проверки условия, то способ вместо этого переходит к выполнению 1212 интерполяции от значений «сухих» и «влажных» коэффициентов повышающего микширования (включая нулевые значения коэффициентов), применимых к одному формату кодирования, к значениям «сухих» и «влажных» коэффициентов повышающего микширования (включая нулевые значения коэффициентов), применимых к другому формату кодирования; вычислению 1210 «сухого» сигнала повышающего микширования как линейного отображения сигнала понижающего микширования L₁, L₂, причем к сигналу понижающего микширования L₁, L₂ применяют интерполированный набор «сухих» коэффициентов повышающего микширования; и вычислению 1211 «влажного» сигнала повышающего микширования как линейного отображения декоррелированного сигнала, причем к декоррелированному сигналу применяют интерполированный набор «влажных» коэффициентов повышающего микширования. Способ также включает объединение 1213 «сухих» и «влажных» сигналов повышающего микширования для получения многомерного реконструированного аудиосигнала

, соответствующего подлежащему реконструкции пятиканальному аудиосигналу.If no coding format switch is detected, as indicated by branch N from condition check block 1209, then method 1200 proceeds to compute 1210 the dry upmix signal as a linear mapping of the downmix signal, with _the set _" dry" upmix coefficients β _L ; and calculating 1211 the wet upmix signal as a linear mapping of the de-correlated signal, wherein a set of wet up-mix coefficients γ _L is applied to the de-correlated signal. On the other hand, if a switch from one coding format to another is detected, as indicated in the flow diagram by the Y branch from the condition check block 1209, then the method instead proceeds to perform 1212 interpolation from the dry and wet upmix coefficient values ( including coefficients of zero) applicable to one coding format to dry and wet upmix coefficients (including coefficients of zero) applicable to another coding format; calculating 1210 the dry upmix signal as a linear mapping of the downmix signal L ₁ , L ₂ , wherein an interpolated set of dry upmix coefficients is applied to the downmix signal L ₁ , L ₂ ; and calculating 1211 the wet upmix signal as a linear mapping of the decorrelated signal, wherein an interpolated set of wet upmix coefficients is applied to the decorrelated signal. The method also includes combining 1213 dry and wet upmix signals to obtain a multi-dimensional reconstructed audio signal.

corresponding to the five-channel audio signal to be reconstructed.

На Фиг. 13 представлена обобщенная структурная схема секции 1300 декодирования для реконструкции 13.1-канального аудиосигнала на основе 5.1-канального аудиосигнала и ассоциированных параметров повышающего микширования α в соответствии с одним примером осуществления.On FIG. 13 is a generalized block diagram of a decoding section 1300 for reconstructing a 13.1-channel audio signal based on a 5.1-channel audio signal and associated upmix parameters α, in accordance with one embodiment.

В настоящем примере осуществления примером 13.1-канального аудиосигнала являются каналы LW (левый широкий), LSCRN (левый экранный), TFL (верхний фронтальный левый), LS (левый боковой), LB (левый тыловой), TBL (верхний тыловой левый), RW (правый широкий), RSCRN (правый экранный), TFR (верхний фронтальный правый), RS (правый боковой), RB (правый тыловой), TBR (верхний тыловой правый), C (центральный) и LFE (канал низкочастотных эффектов). Данный 5.1-канальный сигнал включает сигнал понижающего микширования L₁, L₂, для которого первый канал L₁ соответствует линейной комбинации каналов LW, LSCRN, TFL и для которого второй канал L₂ соответствует линейной комбинации каналов LS, LB, TBL; и дополнительный сигнал понижающего микширования R₁, R₂, для которого первый канал R₁ соответствует линейной комбинации каналов RW, RSCRN, TFR и для которого второй канал R₂ соответствует линейной комбинации каналов RS, RB, TBR; и каналы C и LFE.In the present embodiment, 13.1-channel audio examples are LW (Wide Left), LSCRN (Screen Left), TFL (Front Top Left), LS (Surround Left), LB (Surround Left), TBL (Surround Top Left), RW (Wide Right), RSCRN (Screen Right), TFR (Top Front Right), RS (Right Side), RB (Right Surround), TBR (Top Surround Right), C (Center), and LFE (Low Frequency Effects Channel). This 5.1-channel signal includes a downmix signal L ₁ , L ₂ for which the first channel L ₁ corresponds to a linear combination of channels LW, LSCRN, TFL and for which the second channel L ₂ corresponds to a linear combination of channels LS, LB, TBL; and an additional downmix signal R ₁ , R ₂ , for which the first channel R ₁ corresponds to a linear combination of channels RW, RSCRN, TFR and for which the second channel R ₂ corresponds to a linear combination of channels RS, RB, TBR; and channels C and LFE.

Первая секция 1310 повышающего микширования реконструирует каналы LW, LSCRN и TFL на основе первого канала L₁ сигнала понижающего микширования под управлением по меньшей мере некоторых из параметров повышающего микширования α; вторая секция 1320 повышающего микширования реконструирует каналы LS, LB, TBL на основе второго канала L₂ сигнала понижающего микширования под управлением по меньшей мере некоторых из параметров повышающего микширования α; третья секция 1330 повышающего микширования реконструирует каналы RW, RSCRN, TFR на основе первого канала R₁ дополнительного сигнала понижающего микширования под управлением по меньшей мере некоторых из параметров повышающего микширования α; а четвертая секция 1340 повышающего микширования реконструирует каналы RS, RB, TBR на основе второго канала R₂ сигнала понижающего микширования под управлением по меньшей мере некоторых из параметров повышающего микширования α. Реконструированный вариант

13.1-канального аудиосигнала может обеспечиваться в качестве выхода секции 1310 декодирования.The first upmix section 1310 reconstructs the channels LW, LSCRN and TFL based on the first channel L ₁ of the downmix signal under the control of at least some of the upmix parameters α; the second upmix section 1320 reconstructs the channels LS, LB, TBL based on the second channel L ₂ of the downmix signal under the control of at least some of the upmix parameters α; the third upmix section 1330 reconstructs the channels RW, RSCRN, TFR based on the first channel R ₁ of the additional downmix signal under the control of at least some of the upmix parameters α; and the fourth upmix section 1340 reconstructs the channels RS, RB, TBR based on the second channel R ₂ of the downmix signal under the control of at least some of the upmix parameters α. Remodeled variant

A 13.1-channel audio signal may be provided as an output of the decoding section 1310.

В примере осуществления система 1000 декодирования аудио, описанная применительно к Фиг. 10, может содержать секцию 1300 декодирования в дополнение к секциям 900 и 1005 декодирования или может по меньшей мере функционировать с возможностью реконструкции 13.1-канального сигнала способом, сходным с осуществляемым в секции 1300 декодирования. Сигнализация S, извлеченная из битового потока B может, например, показывать, представляет ли полученный 5.1-канальный аудиосигнал L₁, L₂, R₁, R₂, C, LFE и ассоциированные параметры повышающего микширования 11.1-канальный сигнал, как описано применительно к Фиг. 10, или же он представляет 13.1-канальный аудиосигнал, как описано применительно к Фиг. 13.In an exemplary embodiment, the audio decoding system 1000 described in connection with FIG. 10 may include a decoding section 1300 in addition to the decoding sections 900 and 1005, or may at least be capable of reconstructing a 13.1 channel signal in a manner similar to that performed in the decoding section 1300. Signaling S extracted from bitstream B may, for example, indicate whether the received 5.1-channel audio signal L ₁ , L ₂ , R ₁ , R ₂ , C, LFE and associated upmix parameters represents a 11.1-channel signal as described in relation to Fig. 10, or it represents a 13.1 channel audio signal as described with respect to FIG. 13.

Секция 1009 управления может определять, обозначает ли полученная сигнализация S 11.1-канальную или 13.1-канальную конфигурацию, и может управлять другими секциями системы 1000 декодирования аудио при выполнении параметрической реконструкции либо 11.1-канального аудиосигнала, как описано применительно к Фиг. 10, либо 13.1-канального аудиосигнала, как описано применительно к Фиг. 13. Для 13.1-канальной конфигурации можно, например, использовать единственный формат кодирования вместо двух или трех форматов кодирования, используемых для 11.1-канальной конфигурации. Если сигнализация S обозначает 13.1-канальную конфигурацию, формат кодирования, таким образом, может быть указан неявно, и может отсутствовать необходимость в сигнализации S, явным образом указывающей выбранный формат кодирования.The control section 1009 may determine whether the received signaling S indicates an 11.1-channel or 13.1-channel configuration, and may control other sections of the audio decoding system 1000 when performing parametric reconstruction of either the 11.1-channel audio signal as described with respect to FIG. 10 or 13.1 channel audio as described with respect to FIG. 13. For a 13.1-channel configuration, for example, a single coding format can be used instead of the two or three coding formats used for a 11.1-channel configuration. If the S signaling indicates a 13.1-channel configuration, the coding format may thus be implicitly specified, and there may be no need for S signaling to explicitly indicate the selected coding format.

Следует понимать, что хотя примеры осуществления, описанные применительно к Фиг. 1–5, изложены в терминах 11.1-канального аудиосигнала, описанного применительно к Фиг. 6–8, могут быть предусмотрены системы кодирования, которые могут включать любое количество секций кодирования и которые могут быть выполнены с возможностью кодирования любого количества М-канальных аудиосигналов, где M ≥ 4. Аналогично следует понимать, что хотя примеры осуществления, описанные применительно к Фиг. 9–12, изложены в терминах 11.1-канального аудиосигнала, описанного применительно к Фиг. 6–8, могут быть предусмотрены системы декодирования, которые могут включать любое количество секций декодирования и которые могут быть выполнены с возможностью реконструкции любого количества М-канальных аудиосигналов, где M ≥ 4.It should be understood that while the embodiments described with respect to FIGS. 1-5 are set forth in terms of the 11.1-channel audio signal described with respect to FIG. 6-8, coding systems may be provided that may include any number of coding sections and that may be configured to encode any number of M -channel audio signals, where M ≥ 4. Similarly, it should be understood that while the embodiments described with respect to FIG. . 9-12 are set forth in terms of the 11.1-channel audio signal described with respect to FIG. 6-8, decoding systems may be provided which may include any number of decoding sections and which may be capable of reconstructing any number of M -channel audio signals, where M ≥ 4.

В некоторых примерах осуществления сторона кодера может выбирать между тремя форматами кодирования F₁, F₂, F₃. В других примерах осуществления сторона кодера может выбирать только между двумя форматами кодирования, например первым и вторым форматами кодирования F₁, F₂.In some embodiments, the encoder side can choose between three coding formats F ₁ , F ₂ , F ₃ . In other embodiments, the encoder side can only choose between two coding formats, such as the first and second coding formats F ₁ , F ₂ .

На Фиг. 14 представлена обобщенная структурная схема секции 1400 кодирования для кодирования М-канального аудиосигнала в виде двухканального сигнала понижающего микширования и ассоциированных «сухих» и «влажных» коэффициентов повышающего микширования в соответствии с одним примером осуществления. Секция 1400 кодирования может находиться в системе кодирования аудио типа, показанного на Фиг. 3. Более конкретно, она может быть расположена в месте, занимаемом секцией 100 кодирования. Как станет очевидно из описания внутренней работы показанных компонентов, секция 1400 кодирования может функционировать в двух разных форматах кодирования; однако можно реализовать сходные секции кодирования, не выходящие за рамки объема изобретения, которые способны работать в трех или более форматах кодирования.On FIG. 14 is a generalized block diagram of an encoding section 1400 for encoding an M -channel audio signal as a two-channel downmix signal and associated dry and wet upmix coefficients, in accordance with one embodiment. The coding section 1400 may be in an audio coding system of the type shown in FIG. 3. More specifically, it may be located in the space occupied by the encoding section 100. As will become apparent from the description of the internal workings of the shown components, the encoding section 1400 can operate in two different encoding formats; however, it is possible to implement similar coding sections within the scope of the invention that are capable of operating in three or more coding formats.

Секция 1400 кодирования содержит секцию 1410 понижающего микширования и секцию 1420 анализа. По меньшей мере для одного выбранного формата (см. ниже описание секции управления 1430 из секции 1400 кодирования) из форматов кодирования F₁, F₂, который может представлять собой один из форматов, описанных применительно к Фиг. 6–7, или какой-либо из других форматов, секция 1410 понижающего микширования вычисляет в соответствии с форматом кодирования двухканальный сигнал понижающего микширования L₁, L₂ на основе пятиканального аудиосигнала L, LS, LB, TFL, TBL. Например, в первом формате кодирования F₁ первый канал L₁ сигнала понижающего микширования формируется в виде линейной комбинации (например, суммы) первой группы каналов пятиканального аудиосигнала L, LS, LB, TFL, TBL, а второй канал L₂ сигнала понижающего микширования формируется в виде линейной комбинации (например, суммы) второй группы каналов пятиканального аудиосигнала L, LS, LB, TFL, TBL. Действие, выполняемое секцией 1410 понижающего микширования, может быть описано, например, выражением (1).The encoding section 1400 contains a downmix section 1410 and an analysis section 1420. For at least one selected format (see description of control section 1430 of encoding section 1400 below) from encoding formats F ₁ , F ₂ , which may be one of the formats described with respect to FIG. 6-7, or any of the other formats, the downmix section 1410 calculates, according to the coding format, a two-channel downmix signal L ₁ , L ₂ based on the five-channel audio signal L, LS, LB, TFL, TBL. For example, in the first coding format F ₁ , the first channel L ₁ of the downmix signal is formed as a linear combination (for example, the sum) of the first group of channels of the five-channel audio signal L, LS, LB, TFL, TBL, and the second channel L ₂ of the downmix signal is formed in in the form of a linear combination (for example, sum) of the second group of channels of a five-channel audio signal L, LS, LB, TFL, TBL. The action performed by the downmix section 1410 can be described by expression (1), for example.

Для указанного по меньшей мере одного выбранного формата из форматов кодирования F₁, F₂ секция 1420 анализа определяет набор «сухих» коэффициентов повышающего микширования β_L, определяющих линейное отображение соответствующего сигнала понижающего микширования L₁, L₂, аппроксимирующее пятиканальный аудиосигнал L, LS, LB, TFL, TBL. Для каждого из форматов кодирования F₁, F₂ секция 1420 анализа дополнительно определяет набор «влажных» коэффициентов повышающего микширования γ_L на основе соответствующей вычисленной разности, которые в сочетании с «сухими» коэффициентами повышающего микширования β_L позволяют осуществить параметрическую реконструкцию согласно уравнению (2) пятиканального аудиосигнала L, LS, LB, TFL, TBL из сигнала понижающего микширования L₁, L₂ и из трехканального декоррелированного сигнала, определенного на стороне декодера на основе сигнала понижающего микширования L₁, L₂. Набор «влажных» коэффициентов повышающего микширования γ_L определяет линейное отображение декоррелированного сигнала, при котором ковариационная матрица сигнала, полученного путем линейного отображения декоррелированного сигнала, аппроксимирует разность между ковариационной матрицей полученного пятиканального аудиосигнала L, LS, LB, TFL, TBL и ковариационной матрицей пятиканального аудиосигнала, аппроксимированного путем линейного отображения сигнала понижающего микширования L₁, L₂.For said at least one selected format from the coding formats F ₁ , F _{2 ,} analysis section 1420 determines a set of dry upmix coefficients β _L defining a linear mapping of the corresponding downmix signal L ₁ , L ₂ approximating a five-channel audio signal L, LS, LB, TFL, TBL. For each of the coding formats F ₁ , F ₂ , analysis section 1420 further determines a set of wet upmix coefficients γ _L based on the corresponding computed difference, which, in combination with dry upmix coefficients β _L , allow parametric reconstruction according to equation (2 ) five-channel audio signal L, LS, LB, TFL, TBL from the downmix signal L ₁ , L ₂ and from the three-channel decorrelated signal determined at the decoder side based on the downmix signal L ₁ , L ₂ . A set of wet upmix coefficients γ _L defines a linear display of the decorrelated signal, in which the covariance matrix of the signal obtained by linear mapping of the decorrelated signal approximates the difference between the covariance matrix of the received five-channel audio signal L, LS, LB, TFL, TBL and the covariance matrix of the five-channel audio signal , approximated by a linear mapping of the downmix signal L ₁ , L ₂ .

Секция 1410 понижающего микширования может, например, вычислять сигнал понижающего микширования L₁, L₂ во временной области, т. е. на основе представления во временной области пятиканального аудиосигнала L, LS, LB, TFL, TBL, или в частотной области, т. е. на основе представления в частотной области пятиканального аудиосигнала L, LS, LB, TFL, TBL. Вычисление L₁, L₂ во временной области является возможным, по меньшей мере если выбор формата кодирования не является частотно-избирательным, и следовательно применимым ко всем частотным компонентам М-канального аудиосигнала; в настоящее время это является предпочтительным вариантом.The downmix section 1410 may, for example, calculate the downmix signal L ₁ , L ₂ in the time domain, i.e., based on the time domain representation of the five-channel audio signal L, LS, LB, TFL, TBL, or in the frequency domain, i.e. e. Based on the frequency domain representation of the five-channel audio signal L, LS, LB, TFL, TBL. Calculating L ₁ , L ₂ in the time domain is possible, at least if the choice of coding format is not frequency selective, and therefore applicable to all frequency components of the M -channel audio signal; this is currently the preferred option.

Секция 1420 анализа может, например, определять «сухие» коэффициенты повышающего микширования β_L и «влажные» коэффициенты повышающего микширования γ_L на основе анализа в частотной области пятиканального аудиосигнала L, LS, LB, TFL, TBL. Анализ в частотной области можно выполнить на кадрированном участке М-канального аудиосигнала. Для кадрирования можно, например, использовать разъединенные прямоугольные или перекрывающиеся треугольные окна. Секция 1420 анализа может, например, получать сигнал понижающего микширования L₁, L₂, вычисленный секцией 1410 понижающего микширования (не показана на Фиг. 14), или может вычислять собственный вариант сигнала понижающего микширования L₁, L₂ для конкретной цели определения «сухих» коэффициентов повышающего микширования β_L и «влажных» коэффициентов повышающего микширования γ_L.The analysis section 1420 may, for example, determine dry upmix coefficients β _L and wet upmix coefficients γ _L based on frequency domain analysis of the five-channel audio signal L, LS, LB, TFL, TBL. Frequency domain analysis can be performed on a cropped portion of an M -channel audio signal. Cropping can, for example, use split rectangular or overlapping triangular windows. The analysis section 1420 may, for example, receive the _downmix signal L ₁ , L ₂ calculated by the downmix section 1410 (not shown _in FIG. » upmix coefficients β _L and wet upmix coefficients γ _L .

Секция 1400 кодирования дополнительно содержит секцию 1430 управления, которая отвечает за выбор формата, используемого в данный момент. Нет необходимости в том, чтобы секция 1430 управления использовала определенный критерий или определенное основание при принятии решения о выборе формата кодирования. Значение сигнализации S, сгенерированное секцией 1430 управления, обозначает результат принятого секцией 1430 управления решения для рассмотренного в данный момент участка (например, временного интервала) М-канального аудиосигнала. Сигнализацию S можно включить в битовый поток B, генерируемый системой 300 кодирования, в которую входит секция 1400 кодирования, чтобы упростить реконструкцию закодированного аудиосигнала. Кроме того, сигнализация S передается и в каждую из секции 1410 понижающего микширования и секции 1420 анализа для информирования этих секций об используемом формате кодирования. Как и секция 1420 анализа, секция 1430 управления может рассматривать кадрированные участки М-канального сигнала. Для полноты следует отметить, что секция 1410 понижающего микширования может работать с задержкой в 1 или 2 кадра и, возможно, с дополнительным опережением относительно секции 1430 управления. Сигнализация S также может необязательно содержать информацию, относящуюся к обеспечению плавного перехода сигнала понижающего микширования, создаваемого секцией 1410 понижающего микширования, и/или информацию, относящуюся к интерполяции на стороне декодера дискретных значений «сухих» и «влажных» коэффициентов повышающего микширования, которую предоставляет секция 1420 анализа, для обеспечения синхронности на субкадровой временной шкале.The encoding section 1400 further comprises a control section 1430 which is responsible for selecting the format currently in use. It is not necessary for the control section 1430 to use a certain criterion or a certain basis when deciding on the selection of an encoding format. The signaling value S generated by the control section 1430 indicates the result of the decision made by the control section 1430 for the currently considered portion (eg, time slot) of the M -channel audio signal. The S signaling may be included in the B bitstream generated by the coding system 300, which includes the coding section 1400, to simplify the reconstruction of the encoded audio signal. In addition, signaling S is transmitted to each of the downmix section 1410 and the analysis section 1420 to inform these sections of the coding format being used. Like the analysis section 1420, the control section 1430 may consider cropped portions of the M -channel signal. For completeness, it should be noted that the downmix section 1410 may operate with a delay of 1 or 2 frames, and possibly with an additional advance relative to the control section 1430. Signaling S may also optionally contain information related to ensuring a smooth transition of the downmix signal generated by the downmix section 1410 and/or information related to decoder-side interpolation of the sample values of dry and wet coefficients of the upmix that the section provides. 1420 analysis, to ensure synchronism on the sub-frame timeline.

В качестве необязательного компонента секция 1400 кодирования может включать стабилизатор 1440, расположенный непосредственно после секции 1430 управления и воздействующий на ее выходной сигнал непосредственно перед его обработкой другими компонентами. На основе этого выходного сигнала стабилизатор 1440 предоставляет дополнительную информацию S последующим компонентам. Стабилизатор 1440 может обеспечивать достижение желаемой цели: не менять формат кодирования слишком часто. Для этой цели стабилизатор 1440 может учитывать количество выборов формата кодирования на протяжении прошедших временных интервалов М-канального аудиосигнала и обеспечивать, чтобы выбранный формат кодирования сохранялся по меньшей мере в течение заданного количества временных интервалов. В альтернативном варианте осуществления стабилизатор может применить усредняющий фильтр к некоторому количеству выполненных выборов формата кодирования (например, представленному дискретной переменной), что может создать эффект сглаживания. В еще одном варианте осуществления стабилизатор 1440 может содержать конечный автомат, выполненный с возможностью передачи дополнительной информации S для всех временных интервалов в движущемся временном окне, если конечный автомат определит, что выбор формата кодирования, выполненный секцией 1430 управления, остался неизменным на протяжении движущегося временного окна. Движущееся временное окно может соответствовать буферу, хранящему результаты выбора форматов кодирования для некоторого числа прошедших временных интервалов. Специалист, изучающий настоящее описание, легко поймет, что такие функции стабилизации, возможно, потребуется сопроводить увеличением операционной задержки между стабилизатором 1440, и по меньшей мере секцией 1410 понижающего микширования, и секцией 1420 анализа. Задержку можно реализовать при помощи секций буферизации М-канального аудиосигнала.As an optional component, the encoding section 1400 may include a stabilizer 1440 located immediately after the control section 1430 and acting on its output just before it is processed by other components. Based on this output, stabilizer 1440 provides additional information S to downstream components. Stabilizer 1440 may achieve the desired goal of not changing the coding format too often. To this end, stabilizer 1440 may take into account the number of coding format selections over the elapsed time slots of the M -channel audio signal and ensure that the selected coding format is retained for at least a given number of time slots. In an alternative embodiment, the stabilizer may apply an averaging filter to a number of coding format choices made (eg, represented by a discrete variable), which may create a smoothing effect. In yet another embodiment, stabilizer 1440 may comprise a state machine configured to transmit side information S for all slots in the moving time window if the state machine determines that the coding format selection made by control section 1430 has remained unchanged throughout the moving time window. . The moving time window may correspond to a buffer storing the results of the selection of coding formats for a certain number of elapsed time intervals. One skilled in the art will readily appreciate that such stabilization functions may need to be accompanied by an increase in operational delay between the stabilizer 1440 and at least the downmix section 1410 and the analysis section 1420. The delay can be implemented using M -channel audio buffering sections.

Как описано выше, Фиг. 14 представляет собой частичный вид системы кодирования, показанной на Фиг. 3. Хотя компоненты, показанные на Фиг. 14, относятся только к обработке левосторонних каналов L, LS, LB, TFL, TBL, система кодирования обрабатывает также по меньшей мере правосторонние каналы R, RS, RB, TFR, TBR. Например, дополнительный экземпляр (например, функционально эквивалентная копия) секции 1400 кодирования может работать параллельно, кодируя правосторонний сигнал, включая указанные каналы R, RS, RB, TFR, TBR. Хотя левосторонние и правосторонние каналы участвуют в двух отдельных сигналах понижающего микширования (или по меньшей мере в отдельных группах каналов общего сигнала понижающего микширования), для всех каналов предпочтительно использовать общий формат кодирования. Иными словами, секция 1430 управления в левосторонней секции 1400 кодирования может отвечать за принятие решения об общем формате кодирования для использования как левосторонними, так и правосторонними каналами; таким образом, предпочтительно, чтобы секция 1430 управления также имела доступ к правосторонним каналам R, RS, RB, TFR, TBR или к количественным показателям, полученным по этим сигналам, например, ковариации, сигналу понижающего микширования и т. п., и могла учитывать их при выборе используемого формата кодирования. Затем сигнализация S передается не только к секции 1410 понижающего микширования и секции 1420 анализа секции 1430 управления (левосторонней), но также и к эквивалентным секциям правосторонней секции кодирования (не показана). В альтернативном варианте осуществления можно достигнуть цели использования общего формата кодирования для всех каналов, если сама секция 1430 управления будет общей для левостороннего и правостороннего экземпляра секции 1400 управления. В схеме того типа, который показан на Фиг. 3, секция 1430 кодирования может быть выполнена вне как секции 100 кодирования, так и дополнительной секции 303 кодирования, отвечающих за левосторонние и правосторонние каналы соответственно, и может получать все левосторонние и правосторонние каналы L, LS, LB, TFL, TBL, R, RS, RB, TFR, TBR и выводить сигнализацию S, которая обозначает выбор формата кодирования и передается по меньшей мере к секции 100 кодирования и дополнительной секции 303 кодирования.As described above, FIG. 14 is a partial view of the coding system shown in FIG. 3. Although the components shown in FIG. 14 relate only to the processing of the left-side channels L, LS, LB, TFL, TBL, the coding system also processes at least the right-side channels R, RS, RB, TFR, TBR. For example, an additional instance (eg, a functionally equivalent copy) of the coding section 1400 may operate in parallel to encode a right side signal, including the indicated R, RS, RB, TFR, TBR channels. Although the left and right channels participate in two separate downmix signals (or at least separate channel groups of the common downmix signal), it is preferable to use a common coding format for all channels. In other words, the control section 1430 in the left-side coding section 1400 may be responsible for deciding on a common coding format for use by both left-side and right-side channels; thus, it is preferable that the control section 1430 also has access to the right-side channels R, RS, RB, TFR, TBR or scores obtained from these signals, for example, covariance, downmix signal, etc., and can take into account them when choosing the encoding format to use. Then, signaling S is transmitted not only to the downmix section 1410 and the analysis section 1420 of the control section 1430 (left-hand), but also to the equivalent sections of the right-hand coding section (not shown). In an alternative embodiment, the goal of using a common coding format for all channels can be achieved if the control section 1430 itself is common to the left and right instances of the control section 1400. In a circuit of the type shown in Fig. 3, the encoding section 1430 can be performed outside of both the encoding section 100 and the additional encoding section 303 responsible for the left-side and right-side channels, respectively, and can receive all the left-side and right-side channels L, LS, LB, TFL, TBL, R, RS. , RB, TFR, TBR, and output signaling S, which indicates the selection of the coding format, and is transmitted to at least the coding section 100 and the additional coding section 303.

На Фиг. 15 схематично представлена возможная реализация секции 1410 понижающего микширования, выполненной с возможностью переключения в соответствии с сигнализацией S между двумя заданными форматами кодирования F₁, F₂ и обеспечения плавного перехода между ними. Секция 1410 понижающего микширования содержит две подсекции 1411, 1412 понижающего микширования, выполненные с возможностью получения М-канального аудиосигнала и вывода двухканального сигнала понижающего микширования. Две подсекции 1411, 1412 понижающего микширования могут быть функционально эквивалентными копиями одной схемы, хотя выполненными с разными параметрами понижающего микширования (например, значениями коэффициентов для получения сигнала понижающего микширования L₁, L₂ на основе М-канального аудиосигнала). При нормальной работе две подсекции 1411, 1412 понижающего микширования вместе обеспечивают один сигнал понижающего микширования L₁(F₁), L₂(F₁) в соответствии с первым форматом кодирования F₁ и/или один сигнал понижающего микширования L₁(F₂), L₂(F₂) в соответствии со вторым форматом кодирования F₂. После подсекций 1411, 1412 понижающего микширования расположены первая секция 1413 интерполяции понижающего микширования и вторая секция 1414 интерполяции понижающего микширования. Первая секция 1413 интерполяции понижающего микширования выполнена с возможностью интерполяции, в том числе обеспечения плавного перехода, первого канала L₁ сигнала понижающего микширования, а вторая секция 1414 интерполяции понижающего микширования выполнена с возможностью интерполяции, в том числе обеспечения плавного перехода, второго канала L₂ сигнала понижающего микширования. Первая секция 1413 интерполяции понижающего микширования может работать по меньшей мере в следующих состояниях:On FIG. 15 schematically shows a possible implementation of a downmix section 1410 configured to switch according to signaling S between two given coding formats F ₁ , F ₂ and provide a smooth transition between them. The downmix section 1410 comprises two downmix subsections 1411, 1412 configured to receive an M -channel audio signal and output a two-channel downmix signal. The two downmix subsections 1411, 1412 may be functionally equivalent copies of the same circuit, albeit with different downmix parameters (eg, coefficient values for deriving an L ₁ , L ₂ downmix signal based on an M -channel audio signal). In normal operation, the two downmix subsections 1411, 1412 together provide one downmix signal L ₁ (F ₁ ), L ₂ (F ₁ ) according to the first coding format F ₁ and/or one downmix signal L ₁ (F ₂ ) , L ₂ (F ₂ ) in accordance with the second coding format F ₂ . After the downmix subsections 1411, 1412, the first downmix interpolation section 1413 and the second downmix interpolation section 1414 are located. The first downmix interpolation section 1413 is configured to interpolate, including providing a smooth transition, the first channel L ₁ of the downmix signal, and the second downmix interpolation section 1414 is configured to interpolate, including ensuring a smooth transition, the second signal channel L ₂ downmix. The first downmix interpolation section 1413 may operate in at least the following states:

a) только первый формат кодирования (L₁ = L₁(F₁)) можно использовать при стабильной работе в первом формате кодирования;a) only the first coding format (L ₁ = L ₁ (F ₁ )) can be used with stable operation in the first coding format;

b) только второй формат кодирования (L₁ = L₁(F₂)) можно использовать при стабильной работе во втором формате кодирования; иb) only the second coding format (L ₁ = L ₁ (F ₂ )) can be used with stable operation in the second coding format; And

c) объединение каналов понижающего микширования в соответствии с обоими форматами кодирования (L₁ = α₁L₁(F₁) + α₂L₁(F₂), причем 0 < α₁ < 1 и 0 < α₂ < 1) можно использовать при переходе от первого ко второму формату кодирования или наоборот.c) combining downmix channels according to both coding formats (L ₁ = α ₁ L ₁ (F ₁ ) + α ₂ L ₁ (F ₂ ), where 0 < α ₁ < 1 and 0 < α ₂ < 1) can be to be used when switching from the first to the second encoding format or vice versa.

Для состояния объединения (c) может быть необходимо, чтобы были доступны сигналы понижающего микширования как с первой, так и со второй подсекций понижающего микширования 1411, 1412. Предпочтительно первая секция 1413 интерполяции понижающего микширования может работать во множестве состояний объединения (c), чтобы был возможен переход мелкими подшагами или даже с псевдонепрерывным плавным переходом. Преимущество этого заключается в том, что плавный переход становится менее заметным. Например, в схеме интерполятора, где α₁ + α₂ = 1, возможен пятиступенчатый плавный переход, если определены следующие значения (α₁, α₂): (0,2; 0,8); (0,4; 0,6); (0,6; 0,4); (0,8; 0,2). Вторая секция 1414 интерполяции понижающего микширования может иметь идентичные или сходные возможности.It may be necessary for the combining state (c) that downmix signals from both the first and second downmix subsections 1411, 1412 are available. it is possible to transition in small substeps or even with a pseudo-continuous smooth transition. This has the advantage that the smooth transition becomes less noticeable. For example, in the interpolator scheme, where α ₁ + α ₂ = 1, a five-step smooth transition is possible if the following values (α ₁ , α ₂ ) are defined: (0.2; 0.8); (0.4; 0.6); (0.6; 0.4); (0.8; 0.2). The second downmix interpolation section 1414 may have identical or similar capabilities.

В одной версии вышеуказанного варианта осуществления секции 1410 понижающего микширования, указанной пунктирной линией на Фиг. 15, сигнализация S может также подаваться на первую и вторую подсекции 1411, 1412 понижающего микширования. Как описано выше, создание сигнала понижающего микширования, связанного с невыбранным форматом кодирования, далее может подавляться. Это может снизить среднюю вычислительную нагрузку.In one version of the above embodiment, the downmix section 1410, indicated by the dotted line in FIG. 15, signaling S may also be applied to the first and second downmix subsections 1411, 1412. As described above, the generation of the downmix signal associated with the unselected coding format may be further suppressed. This can reduce the average computing load.

В качестве дополнения или альтернативы этой версии плавный переход между сигналами понижающего микширования двух разных форматов кодирования можно осуществлять путем плавного перехода коэффициентов понижающего микширования. В первую подсекцию 1411 понижающего микширования затем можно передать коэффициенты понижающего микширования, генерируемые интерполятором коэффициентов (не показан), который хранит заданные значения коэффициентов понижающего микширования для использования в доступных форматах кодирования F₁, F₂ и получает в качестве входа сигнализацию S. В такой конфигурации всю вторую подсекцию 1412 понижающего микширования и первую и вторую подсекции 1413, 1414 интерполяции можно убрать или полностью деактивировать.As an addition or alternative to this version, a smooth transition between the downmix signals of two different coding formats can be done by smooth transition of the downmix coefficients. The first downmix sub-section 1411 can then be fed with downmix coefficients generated by a coefficient interpolator (not shown), which stores downmix coefficient preset values for use in the available coding formats F ₁ , F ₂ , and receives signaling S as input. In such a configuration the entire second downmix subsection 1412 and the first and second interpolation subsections 1413, 1414 can be removed or completely deactivated.

Сигнализация S, которую получает секция 1410 понижающего микширования, передается по меньшей мере к секциям 1413, 1414 интерполяции понижающего микширования, но не обязательно к подсекциям 1411, 1412 понижающего микширования. Необходимо передавать сигнализацию S к подсекциям 1411, 1412 понижающего микширования, если желательным является попеременное функционирование, т. е. если нужно уменьшить количество избыточного понижающего микширования вне переключений форматов кодирования. Сигнализация может представлять собой низкоуровневые команды, например, относящиеся к разным режимам работы секций 1413, 1414 интерполяции понижающего микширования, или она может быть связана с высокоуровневыми инструкциями, например, порядком выполнения заданной программы плавных переходов (например, последовательностью режимов работы, где каждый имеет заданную продолжительность) в заданной начальной точке.The S signaling that the downmix section 1410 receives is transmitted to at least the downmix interpolation sections 1413, 1414, but not necessarily to the downmix subsections 1411, 1412. It is necessary to send the S signaling to the downmix subsections 1411, 1412 if intermittent operation is desired, i.e. if the amount of redundant downmix is to be reduced outside of coding format switching. The signaling may be low-level instructions, such as those related to different modes of operation of the downmix interpolation sections 1413, 1414, or it may be associated with high-level instructions, such as the order in which a given glide program is executed (for example, a sequence of modes of operation where each has a given duration) at a given starting point.

На Фиг. 16 представлено возможное осуществление секции 1420 анализа, выполненной с возможностью попеременной работы, в соответствии с сигнализацией S, в двух заданных форматах кодирования F₁, F₂. Секция 1420 анализа содержит две подсекции 1421, 1422 анализа, выполненные с возможностью получения М-канального аудиосигнала и вывода «сухих» и «влажных» коэффициентов повышающего микширования. Эти две подсекции 1421, 1422 анализа могут представлять собой функционально эквивалентные копии одной схемы. При нормальной работе две подсекции 1421, 1422 анализа вместе обеспечивают один набор «сухих» и «влажных» коэффициентов повышающего микширования β_L(F₁), γ_L(F₁) в соответствии с первым форматом кодирования F₁ и/или один набор «сухих» и «влажных» коэффициентов повышающего микширования β_L(F₂), γ_L(F₂) в соответствии со вторым форматом кодирования F₂.On FIG. 16 shows a possible implementation of an analysis section 1420 operable alternately according to signaling S in two given coding formats F ₁ , F ₂ . Analysis section 1420 includes two analysis subsections 1421, 1422 configured to receive an M -channel audio signal and output dry and wet upmix coefficients. These two analysis subsections 1421, 1422 may be functionally equivalent copies of the same schema. In normal operation, the two analysis subsections 1421, 1422 together provide one set of dry and wet upmix coefficients β _L (F ₁ ), γ _L (F ₁ ) according to the first coding format F ₁ and/or one set of " dry and wet upmix coefficients β _L (F ₂ ), γ _L (F ₂ ) according to the second coding format F ₂ .

Как описано выше для секции 1420 анализа в целом, текущий сигнал понижающего микширования можно получать из секции 1410 понижающего микширования, или дубликат этого сигнала может генерироваться в секции 1420 анализа. Более точно, первая подсекция 1421 анализа может либо получать сигнал понижающего микширования L₁(F₁), L₂(F₁) в соответствии с первым форматом кодирования F₁ от первой подсекции 1411 понижающего микширования секции 1410 понижающего микширования, либо может генерировать свой собственный дубликат. Аналогично вторая подсекция 1422 анализа может либо получать сигнал понижающего микширования L₁(F₂), L₂(F₂) в соответствии со вторым форматом кодирования F₂ от второй подсекции 1412 понижающего микширования или может генерировать свой собственный дубликат этого сигнала.As described above for analysis section 1420 as a whole, the current downmix signal may be obtained from downmix section 1410, or a duplicate of this signal may be generated in analysis section 1420. More specifically, the first analysis subsection 1421 may either receive the downmix signal L ₁ (F ₁ ), L ₂ (F ₁ ) according to the first F ₁ coding format from the first downmix subsection 1411 of the downmix section 1410, or may generate its own duplicate. Similarly, the second analysis subsection 1422 may either receive the downmix signal L ₁ (F ₂ ), L ₂ (F ₂ ) according to the second F ₂ coding format from the second downmix subsection 1412 or may generate its own duplicate of this signal.

После секций 1421, 1422 анализа расположены селектор 1423 «сухих» коэффициентов повышающего микширования и селектор 1424 «влажных» коэффициентов повышающего микширования. Селектор 1423 «сухих» коэффициентов повышающего микширования выполнен с возможностью перенаправления набора «сухих» коэффициентов повышающего микширования β_L либо от первой, либо от второй подсекции 1421, 1422 анализа, а селектор 1424 «влажных» коэффициентов повышающего микширования выполнен с возможностью перенаправления набора «влажных» коэффициентов повышающего микширования γ_L либо от первой, либо от второй подсекции 1421, 1422 анализа. Селектор 1423 «сухих» коэффициентов повышающего микширования может работать по меньшей мере в состояниях (a) и (b), описанных выше применительно к первой секции 1413 интерполяции понижающего микширования. Однако если система кодирования, показанная на Фиг. 3, часть которой описана в данной части раздела, выполнена с возможностью совместной работы с системой декодирования, например, показанной на Фиг. 9, которая выполняет параметрическую реконструкцию на основе интерполированных дискретных значений полученных коэффициентов повышающего микширования, то нет необходимости настраивать состояние объединения, такое как (c), определенное для секций 1413, 1414 интерполяции понижающего микширования. Селектор 1424 «влажных» коэффициентов повышающего микширования может иметь сходные возможности.Following the analysis sections 1421, 1422 are a dry upmix coefficient selector 1423 and a wet upmix coefficient selector 1424. The dry upmix coefficient selector 1423 is configured to redirect the dry upmix coefficient set β _L from either the first or second analysis subsection 1421, 1422, and the wet upmix coefficient selector 1424 is configured to redirect the wet upmix coefficient set. » upmix coefficients γ _L from either the first or second analysis subsection 1421, 1422. The dry upmix coefficient selector 1423 may operate in at least the states (a) and (b) described above with respect to the first downmix interpolation section 1413. However, if the coding system shown in FIG. 3, part of which is described in this part of the section, is configured to work with a decoding system such as that shown in FIG. 9 that performs parametric reconstruction based on the interpolated samples of the obtained upmix coefficients, it is not necessary to adjust the combining state such as (c) defined for the downmix interpolation sections 1413, 1414. Wet upmix coefficient selector 1424 may have similar capabilities.

Сигнализация S, которую получает секция 1420 анализа, передается по меньшей мере к селекторам 1423, 1424 «влажных» и «сухих» коэффициентов повышающего микширования. Нет необходимости в том, чтобы подсекции 1421, 1422 анализа получали сигнализацию, хотя выгодно избежать излишних вычислений коэффициентов повышающего микширования вне переходов. Сигнализация может представлять собой низкоуровневые команды, например, относящиеся к разным режимам работы селекторов 1423, 1424 «сухих» и «влажных» коэффициентов повышающего микширования, или она может быть связана с высокоуровневыми командами, такими как порядок перехода от одного формата кодирования к другому в конкретном временном интервале. Как описано выше, предпочтительно это включает операцию обеспечения плавного перехода, но может сводиться к определению значений коэффициентов повышающего микширования для подходящей временной точки или определению этих значений для применения в подходящий момент времени.The signaling S that the analysis section 1420 receives is transmitted to at least the wet and dry upmix coefficient selectors 1423, 1424. It is not necessary for the analysis subsections 1421, 1422 to receive signaling, although it is advantageous to avoid unnecessary calculations of upmix coefficients outside of transitions. The signaling may be low-level commands, such as those related to the different modes of operation of the dry and wet upmix ratio selectors 1423, 1424, or it may be associated with high-level commands, such as the order in which one coding format should be changed to another in a particular time interval. As described above, this preferably includes the operation of providing a smooth transition, but may be as simple as determining the values of the upmix coefficients for an appropriate time point, or determining these values to apply at an appropriate point in time.

Далее будет описан способ 1700, который представляет собой вариант способа кодирования М-канального аудиосигнала в виде двухканального сигнала понижающего микширования в соответствии с одним примером осуществления, который схематически показан в виде блок-схемы на Фиг. 17. Приведенный в данной части раздела в качестве примера способ может осуществляться системой кодирования аудио, содержащей секцию 1400 кодирования, описанную выше применительно к Фиг. 14–16.Next, a method 1700 will be described, which is a variant of a method for encoding an M -channel audio signal as a two-channel downmix signal according to one embodiment, which is schematically shown as a block diagram in FIG. 17. The exemplary method described in this part of the section may be implemented by an audio encoding system comprising an encoding section 1400 described above with respect to FIG. 14–16.

Способ 1700 кодирования аудио включает получение 1710 М-канального аудиосигнала L, LS, LB, TFL, TBL; выбор 1720 одного из по меньшей мере двух форматов кодирования F₁, F₂, F₃, описанных применительно к Фиг. 6–8; вычисление 1730 для выбранного формата кодирования двухканального сигнала понижающего микширования L₁, L₂ на основе М-канального аудиосигнала L, LS, LB, TFL, TBL; вывод 1740 сигнала понижающего микширования L₁, L₂ выбранного формата кодирования и дополнительной информации α, позволяющей выполнить параметрическую реконструкцию М-канального аудиосигнала на основе сигнала понижающего микширования; и вывод 1750 сигнализации S, обозначающей выбранный формат кодирования. Способ повторяется, например, для каждого временного интервала М-канального аудиосигнала. Если выходной сигнал операции выбора 1720 имеет иной формат кодирования, чем тот, который был сразу выбран ранее, то сигнал понижающего микширования заменяется на подходящее время плавным переходом между сигналами понижающего микширования в соответствии с предыдущим и текущим форматами кодирования. Как уже описано выше, выполнение плавного перехода дополнительной информации, которую можно подвергнуть внутренней интерполяции на стороне декодера, является необязательным или невозможным.Audio encoding method 1700 includes: deriving 1710 M -channel L, LS, LB, TFL, TBL audio signal; selecting 1720 one of at least two coding formats F ₁ , F ₂ , F ₃ described in connection with FIG. 6–8; calculating 1730 for the selected coding format of the two-channel downmix signal L ₁ , L ₂ based on the M -channel audio signal L, LS, LB, TFL, TBL; outputting 1740 the downmix signal L ₁ , L ₂ of the selected coding format and side information α allowing parametric reconstruction of the M -channel audio signal based on the downmix signal; and output 1750 signaling S indicating the selected coding format. The method is repeated, for example, for each time interval of the M -channel audio signal. If the output signal of the selection operation 1720 has a different coding format than the one immediately selected previously, then the downmix signal is replaced at an appropriate time by a smooth transition between the downmix signals according to the previous and current coding formats. As already described above, performing a smooth transition of side information, which can be subjected to internal interpolation at the decoder side, is optional or impossible.

Следует отметить, что способ, описанный в настоящем документе, можно реализовать без одного или более из четырех этапов 430, 440, 450 и 470, показанных на Фиг. 4.It should be noted that the method described herein may be implemented without one or more of the four steps 430, 440, 450, and 470 shown in FIG. 4.

IV. Эквиваленты, расширения, альтернативы и прочие положенияIV. Equivalents, Extensions, Alternatives and Miscellaneous Provisions

Хотя в настоящей заявке описаны и показаны конкретные примеры осуществления, изобретение не ограничивается этими конкретными примерами. В описанные выше примеры осуществления можно вносить модификации и изменения без выхода за рамки объема изобретения, который определяется только прилагаемой формулой изобретения.Although the present application describes and shows specific embodiments, the invention is not limited to these specific examples. Modifications and changes can be made to the above described embodiments without departing from the scope of the invention, which is defined only by the appended claims.

В формуле изобретения слово «содержащий» не исключает других элементов или этапов, а использование единственного числа не исключает множество. Простой факт, что определенные измерения указаны во взаимно отличающихся зависимых пунктах формулы изобретения, не указывает на то, что при необходимости нельзя применить комбинацию этих измерений. Любые ссылочные позиции в формуле изобретения не должны считаться ограничивающими область изобретения.In the claims, the word "comprising" does not exclude other elements or steps, and the use of the singular does not exclude many. The mere fact that certain measurements are indicated in mutually different dependent claims does not mean that a combination of these measurements cannot be used if necessary. Any reference positions in the claims should not be considered as limiting the scope of the invention.

Описанные выше устройства и способы могут быть реализованы в виде программного обеспечения, программно-аппаратного обеспечения, аппаратного обеспечения или их комбинации. В аппаратной реализации разделение задач между функциональными блоками, упомянутыми в описании выше, необязательно соответствует разделению на физические блоки; напротив, один физический компонент может иметь несколько функциональностей, и одна задача может выполняться распределенным образом несколькими физическими компонентами совместно. Определенные компоненты или все компоненты могут быть реализованы в виде программного обеспечения, исполняемого цифровым процессором, процессором сигналов или микропроцессором, или могут быть реализованы в виде аппаратного обеспечения или в виде специализированной интегральной микросхемы. Такое программное обеспечение может распространяться на машиночитаемых носителях, которые могут содержать компьютерные носители данных (или энергонезависимые носители) и средства коммуникации (или промежуточные носители). Как хорошо известно специалисту в данной области техники, термин «компьютерные носители данных» включает как энергозависимые, так и энергонезависимые, как съемные, так и несъемные носители данных, реализованные с помощью любого способа или технологии хранения информации, таких как машиночитаемые команды, структуры данных, программные модули или другие данные. Компьютерные носители данных включают, без ограничений, RAM, ROM, EEPROM, флэш-память или другие технологии памяти, CD-ROM, цифровые универсальные диски (DVD) или другие накопители на оптических дисках, магнитные кассеты, накопители на магнитной ленте, магнитных дисках, или другие магнитные устройства хранения, или любой другой носитель данных, который можно использовать для хранения нужной информации и к которому может получить доступ компьютер. Кроме того, специалисту в данной области хорошо известно, что средства коммуникации обычно реализуют машиночитаемые команды, структуры данных, программные модули или другие данные в виде модулированного сигнала данных, такого как несущая волна или другой механизм переноса, и включают какое-либо средство доставки информации.The devices and methods described above may be implemented in software, firmware, hardware, or a combination thereof. In a hardware implementation, the division of tasks between the functional blocks mentioned in the description above does not necessarily correspond to the division into physical blocks; on the contrary, one physical component may have multiple functionalities, and one task may be performed in a distributed manner by several physical components together. Certain or all of the components may be implemented as software executable by a digital processor, signal processor, or microprocessor, or may be implemented as hardware or as an ASIC. Such software may be distributed on computer-readable media, which may include computer storage media (or non-volatile media) and communications media (or intermediate media). As is well known to those skilled in the art, the term "computer storage media" includes both volatile and non-volatile, removable and non-removable storage media implemented in any method or technology for storing information such as computer readable instructions, data structures, program modules or other data. Computer storage media includes, without limitation, RAM, ROM, EEPROM, flash memory or other memory technologies, CD-ROM, digital versatile disks (DVD) or other optical disc drives, magnetic cassettes, magnetic tape drives, magnetic disks, or other magnetic storage devices, or any other storage medium that can be used to store the desired information and that can be accessed by a computer. In addition, the person skilled in the art is well aware that communication media typically implements computer readable instructions, data structures, program modules, or other data in the form of a modulated data signal, such as a carrier wave or other transfer mechanism, and includes some means of delivering information.

Claims

1. An audio decoding method (1200), including:

receiving (1201) a two-channel downmix signal (L ₁ , L ₂ ) and upmix parameters to reconstruct the M -channel audio signal based on the downmix signal;

receiving (1202) a signaling (S) indicative of a selected one of at least two M -channel audio coding formats, the coding formats corresponding to the M -channel audio channels divided into respective first and second groups (601, 602) of one or more channels, wherein, in said coding format, the first channel of the downmix signal corresponds to a first linear combination of one or more channels of the M -channel audio signal, and the second channel of the downmix signal corresponds to a second linear combination of one or more channels of the M -channel audio signal;

calculating the first upmix signal as a linear mapping of the downmix signal, the first set of upmix coefficients being applied to the downmix signal;

calculating a second upmix signal as a linear display of the downmix signal, the second set of upmix coefficients being applied to the downmix signal; And

combining (1213) the first and second upmix signals to obtain a multi-dimensional reconstructed signal corresponding to the M -channel audio signal to be restored,

characterized in that

The M -channel audio signal has a predetermined channel configuration, and said selected coding format is switched between at least two coding formats.

2. An audio decoding method according to claim 1, further comprising determining the existence of a set of coefficients based on the specified coding format.

3. Method for decoding sound according to any one of paragraphs. 1, 2, characterized in that the set of coefficients is adapted based on the M -channel audio signal.

4. The method of decoding sound according to any one of paragraphs. 1-3, characterized in that it additionally includes:

determining (1203) a set of pre-decoration coefficients based on the specified coding format;

calculating (1205) the input decorrelation signal (D ₁ , D ₂ , D ₃ ) as a linear mapping of the downmix signal, wherein a set of pre-decoration coefficients are applied to the downmix signal, the pre-decoration coefficients being determined such that the first channel (TBL) of the M -channel the audio signal contributes, via the downmix signal, to the first fixed channel (D3) of the decorrelation input signal in at least two coding formats;

generating (1207) a decorrelated signal based on the input decorrelation signal; And

determining the second upmix signal as a linear mapping of the decorrelated signal.

5. Method for decoding sound according to any one of paragraphs. 1-4, characterized in that each of the input decorrelation signal and the decorrelated signal contains M -2 channels, and the channel of the decorrelated signal is generated based on no more than one channel of the decorrelation input signal, and the pre-decrelation coefficients are determined in such a way that in each of the coding formats, the decorrelation input signal channel receives a contribution from at most one downmix signal channel.

6. Method for decoding sound according to any one of paragraphs. 1-5, characterized in that the pre-decrelation coefficients are determined in such a way that additionally the second channel (L) of the M -channel audio signal contributes via the downmix signal to the second fixed channel (D1) of the input decorrelation signal in at least two coding formats; and/or wherein the pre-decrelation coefficients are determined such that a channel pair (LS, LB) of the M -channel audio signal contributes via a downmix signal to a third fixed channel (D2) of the decorrelation input signal in at least two coding formats.

7. Method for decoding sound according to any one of paragraphs. 1-6, characterized in that it additionally includes:

responsive to detecting a switch of said coding format from the first coding format to the second coding format, performing (1206) a gradual transition from pre-decoration coefficient values associated with the first coding format to pre-decoration coefficient values associated with the second coding format.

8. Method for decoding sound according to any one of paragraphs. 1-7, characterized in that, in response to the detection of the received signaling, indicating the first predefined channel configuration, further includes:

receiving a two-channel downmix signal (L ₁ , L ₂ ) and associated upmix parameters (α); And

performing parametric reconstruction of the first audio signal based on the first channel (L ₁ ), the downmix signal, and at least some of the upmix parameters.

9. Method for decoding sound according to any one of paragraphs. 1-8, characterized in that, in response to detecting the received signaling indicative of the first predetermined channel configuration, further provides for performing parametric reconstruction of the second audio signal based on the second channel (L ₂ ), the downmix signal, and at least some of the parameters upmix.

10. An audio decoding system (1000), comprising one or more components configured to perform the method of claim 1.

11. The audio decoding system according to claim 10, characterized in that it additionally provides for determining the existence of a set of coefficients based on the specified coding format.

12. The audio decoding system according to any one of paragraphs. 10, 11, characterized in that the set of coefficients is adapted based on the M -channel audio signal.

13. The audio decoding system according to any one of paragraphs. 10-12, characterized in that it additionally provides:

calculating (1205) the input decorrelation signal (D ₁ , D ₂ , D ₃ ) as a linear mapping of the downmix signal, wherein a set of pre-decoration coefficients are applied to the downmix signal, the pre-decoration coefficients being determined such that the first channel (TBL) of the M -channel the audio signal contributes, via the downmix signal, to the first fixed channel (D3) of the decorrelation input signal in at least two coding formats;

14. The audio decoding system according to any one of paragraphs. 10-13, characterized in that each of the input decorrelation signal and the decorrelated signal contains M -2 channels, and the channel of the decorrelated signal is generated based on no more than one channel of the decorrelation input signal, and the pre-decrelation coefficients are determined in such a way that in each of the coding formats, the decorrelation input signal channel receives a contribution from at most one downmix signal channel.

15. The audio decoding system according to any one of paragraphs. 10-14, characterized in that the pre-decrelation coefficients are determined such that additionally the second channel (L) of the M -channel audio signal contributes via the downmix signal to the second fixed channel (D1) of the input decorrelation signal in at least two coding formats; and/or wherein the pre-decrelation coefficients are determined such that a channel pair (LS, LB) of the M -channel audio signal contributes via a downmix signal to a third fixed channel (D2) of the decorrelation input signal in at least two coding formats.

16. The audio decoding system according to any one of paragraphs. 10-15, characterized in that it additionally provides:

17. The audio decoding system according to any one of paragraphs. 10-16, characterized in that, in response to the detection of the received signaling indicating the first predetermined channel configuration, further provides:

18. The audio decoding system according to any one of paragraphs. 10-17, characterized in that, in response to detecting the received signaling indicative of the first predetermined channel configuration, it further provides for performing parametric reconstruction of the second audio signal based on the second channel (L ₂ ), the downmix signal, and at least some of the parameters upmix.