[go: up one dir, main page]
More Web Proxy on the site http://driver.im/

RU2799400C2 - Audio signal processing device for stereo signal encoding into bitstream signal and method for bitstream signal decoding into stereo signal implemented by using audio signal processing device - Google Patents

Audio signal processing device for stereo signal encoding into bitstream signal and method for bitstream signal decoding into stereo signal implemented by using audio signal processing device Download PDF

Info

Publication number
RU2799400C2
RU2799400C2 RU2020122022A RU2020122022A RU2799400C2 RU 2799400 C2 RU2799400 C2 RU 2799400C2 RU 2020122022 A RU2020122022 A RU 2020122022A RU 2020122022 A RU2020122022 A RU 2020122022A RU 2799400 C2 RU2799400 C2 RU 2799400C2
Authority
RU
Russia
Prior art keywords
signal
stereo
frequency
encoder
encoding
Prior art date
Application number
RU2020122022A
Other languages
Russian (ru)
Other versions
RU2020122022A (en
Inventor
Хейко ПУРНХАГЕН
Понтус КАРЛЬССОН
Кристофер КЬЁРЛИНГ
Original Assignee
Долби Интернешнл Аб
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Долби Интернешнл Аб filed Critical Долби Интернешнл Аб
Publication of RU2020122022A publication Critical patent/RU2020122022A/en
Application granted granted Critical
Publication of RU2799400C2 publication Critical patent/RU2799400C2/en

Links

Images

Abstract

FIELD: audio signal processing.
SUBSTANCE: technical result consists in providing the possibility of combining PS-coding using the residual signal and adaptive perceptual stereo L/R-or M/S-coding. The technical result is achieved by generating the first signal and the second signal by perceptual decoding of the bitstream signal; generating, in a frequency-dependent or frequency-independent manner, a downmix signal and a residual signal based on: the sum of the first signal and the second signal and the difference of the first signal and the second signal, or the first signal and the second signal; generating an average stereo signal by performing an upmix operation in response to the downmix signal, the residual signal, and parametric stereo coding parameters, wherein the residual signal indicates an error associated with displaying the first signal and the second signal by the downmix signal and parametric stereo coding parameters; and generating a stereo signal by performing an SBR stereo decoding operation in response to the average stereo signal and the SBR stereo parameters.
EFFECT: possibility of combining PS-coding using the residual signal and adaptive perceptual stereo L/R-or M/S-coding.
10 cl, 26 dwg

Description

Область технического примененияScope of technical application

Заявка относится к кодированию звуковых сигналов, в частности, к кодированию стереофонических звуковых сигналов, объединяющему технологии параметрического кодирования и кодирования формы сигнала.The application relates to the coding of audio signals, in particular to the coding of stereo audio signals, combining parametric coding and waveform coding technologies.

Предпосылки изобретенияBackground of the invention

Совместное кодирование левого (L) и правого (R) каналов стереофонического сигнала позволяет осуществлять более эффективное кодирование по сравнению с независимым кодированием L и R. Традиционным подходом к совместному стереофоническому кодированию является кодирование средних/побочных (M/S) сигналов. В этом случае средний (M) сигнал формируется путем сложения сигналов L и R, например, сигнал М может иметь формуJoint coding of the left (L) and right (R) channels of a stereo signal allows for more efficient coding compared to independent coding of L and R. The traditional approach to joint stereo coding is mid/side (M/S) coding. In this case, the average (M) signal is formed by adding the L and R signals, for example, the M signal can be of the form

Figure 00000001
.
Figure 00000001
.

Аналогично, побочный (S) сигнал формируется путем вычитания каналов L и R, например, сигнал S имеет формуSimilarly, the side (S) signal is formed by subtracting the L and R channels, for example, the S signal has the form

Figure 00000002
.
Figure 00000002
.

В случае M/S-кодирования вместо сигналов L и R кодируются сигналы M и S.In the case of M/S coding, instead of the L and R signals, the M and S signals are encoded.

В стандарте MPEG (Moving Picture Experts Group) AAC (Advanced Audio Coding) (см. документ стандарта ISO/IEC 13818-7) стереофоническое L/R- кодирование и стереофоническое M/S-кодирование могут быть выбраны зависящими от времени и зависящими от частоты образом. Так, стереофонический кодер может применять L/R-кодирование для некоторых частотных полос стереофонического сигнала, в то время как M/S-кодирование используется для кодирования других частотных полос стереофонического сигнала (зависящий от частоты способ). Кроме того, кодер может переключаться между L/R-кодированием и M/S-кодированием с течением времени (зависящий от времени способ). В MPEG AAC стереофоническое кодирование выполняется в частотной области, точнее, в области MDCT (модифицированного дискретного косинусного преобразования). Это позволяет адаптивно делать выбор между L/R-кодированием и M/S-кодированием зависящим от частоты, а также от времени образом. Решение о выборе между стереофоническим L/R-кодированием и стереофоническим M/S-кодированием может базироваться на оценке побочного сигнала: когда энергия побочного сигнала мала, должно использоваться стереофоническое M/S-кодирование, которое является более эффективным. В альтернативном варианте принятия решения о выборе между двумя схемами кодирования могут испытываться обе эти схемы, и выбор может базироваться на результирующих попытках квантования, т.е. на наблюдаемой перцептуальной энтропии.In the MPEG (Moving Picture Experts Group) AAC (Advanced Audio Coding) standard (see ISO/IEC standard document 13818-7), stereo L/R coding and stereo M/S coding can be selected as time dependent and frequency dependent. way. Thus, a stereo encoder may apply L/R encoding to some frequency bands of the stereo signal, while M/S encoding is used to encode other frequency bands of the stereo signal (frequency dependent method). In addition, the encoder may switch between L/R encoding and M/S encoding over time (time dependent method). In MPEG AAC, stereo coding is done in the frequency domain, more specifically in the MDCT (Modified Discrete Cosine Transform) domain. This allows adaptive selection between L/R coding and M/S coding in a frequency-dependent manner as well as in a time-dependent manner. The decision to choose between L/R stereo coding and M/S stereo coding can be based on side signal estimation: when the side signal energy is small, M/S stereo coding, which is more efficient, should be used. Alternatively, deciding between two coding schemes, both of these schemes may be tested, and the selection may be based on the resulting quantization attempts, i.e. on the observed perceptual entropy.

Альтернативным подходом к совместному стереофоническому кодированию является параметрическое стереофоническое (PS) кодирование. В этом случае стереофонический сигнал передается как монофонический низведенный сигнал после кодирования низведенного сигнала традиционным кодером звуковых сигналов, таким как кодер AAC. Низведенный сигнал представляет собой суперпозицию каналов L и R. Монофонический низведенный сигнал передается в комбинации с дополнительными параметрами PS-кодирования, зависящими от времени и от частоты, такими как разность интенсивностей между каналами (IID) и взаимная корреляция между каналами (ICC). В декодере, на основе декодированного низведенного сигнала и параметров параметрического стереофонического кодирования, реконструируется стереофонический сигнал, который является приближением воспринимаемого пространственного изображения оригинального стереофонического сигнала. Для реконструкции декоррелятор генерирует декоррелированную версию низведенного сигнала. Указанный декоррелятор может реализовываться посредством соответствующего фазового фильтра. PS-кодирование и декодирование описано в статье "Low Complexity Parametric Stereo Coding in MPEG-4", H. Purnhagen, Proc. Of the 7th Int. Conference on Digital Audio Effects (DAFx'04), Naples, Italy, October 5-8, 2004, pages 163-168. Раскрытие из этого документа ссылкой включается в настоящее описание.An alternative approach to joint stereo coding is parametric stereo (PS) coding. In this case, the stereo signal is transmitted as a mono downmix signal after encoding the downmix signal with a conventional audio encoder such as an AAC encoder. The downmix signal is a superposition of the L and R channels. The mono downmix signal is transmitted in combination with additional time- and frequency-dependent PS encoding parameters such as inter-channel intensity difference (IID) and inter-channel cross-correlation (ICC). In the decoder, based on the decoded downmix signal and parametric stereo encoding parameters, a stereo signal is reconstructed that is an approximation of the perceived spatial image of the original stereo signal. For reconstruction, the decorrelator generates a decorrelated version of the downmix signal. Said decorrelator may be implemented by means of an appropriate phase filter. PS encoding and decoding is described in "Low Complexity Parametric Stereo Coding in MPEG-4", H. Purnhagen, Proc. Of the 7th Int. Conference on Digital Audio Effects (DAFx'04), Naples, Italy, October 5-8, 2004, pages 163-168. The disclosure from this document is incorporated herein by reference.

Стандарт MPEG Surround (см. документ ISO/IEC 23003-1) использует концепцию PS-кодирования. В декодере MPEG Surround множество выходных каналов создается на основе меньшего количества входных каналов и управляющих параметров. Декодеры и кодеры MPEG Surround строятся путем каскадного размещения параметрических стереофонических модулей, которые в стандарте MPEG Surround называются модулями ОТТ (модулями «от одного к двум») для кодера, и модулями R-OTT (обратными модулями «от одного к двум») - для кодера. Модуль ОТТ определяет два выходных канала посредством единого входного канала (низведенный сигнал), сопровождаемого параметрами PS-кодирования. Модуль ОТТ соответствует PS-декодеру, а модуль R-OTT соответствует PS-кодеру. Параметрическое стереофоническое кодирование может реализовываться с использованием MPEG Surround с одним модулем ОТТ на стороне декодера и одним модулем R-OTT - на стороне кодера; это также называется режимом "MPEG Surround 2-1-2". Синтаксис битового потока может отличаться, но лежащая в его основе теория и обработка сигнала являются одинаковыми. Поэтому в нижеследующем описании все отсылки к PS-кодированию также включают параметрическое стереофоническое кодирование на основе "MPEG Surround 2-1-2" или MPEG Surround.The MPEG Surround standard (see document ISO/IEC 23003-1) uses the concept of PS encoding. In an MPEG Surround decoder, a plurality of output channels is created based on a smaller number of input channels and control parameters. MPEG Surround decoders and encoders are built by cascading parametric stereo modules, which in the MPEG Surround standard are called OTT (One-to-Two) modules for the encoder, and R-OTT (Reverse One-to-Two) modules for encoder. The OTT module defines two output channels through a single input channel (downmix) followed by PS encoding parameters. The OTT module corresponds to the PS decoder, and the R-OTT module corresponds to the PS encoder. Parametric stereo coding can be implemented using MPEG Surround with one OTT module on the decoder side and one R-OTT module on the encoder side; this is also called "MPEG Surround 2-1-2" mode. The bitstream syntax may differ, but the underlying theory and signal processing are the same. Therefore, in the following description, all references to PS coding also include parametric stereo coding based on "MPEG Surround 2-1-2" or MPEG Surround.

В PS-кодере (например, в PS-кодере MPEG Surround) может определяться остаточный сигнал (RES), который передается в дополнение к низведенному сигналу. Этот остаточный сигнал указывает на погрешность, связанную с отображением оригинальных каналов посредством их понижающего микширования и параметров PS-кодирования. В декодере остаточный сигнал может использоваться вместо декоррелированной версии низведенного сигнала. Это позволяет лучше реконструировать форму сигналов оригинальных каналов L и R. Использование дополнительного остаточного сигнала описано, например, в стандарте MPEG Surround (см. документ ISO/EEC 23003-1) и в статье "MPEG Surround - The ISO/MPEG Standard for Efficient and Compatible Multi-Channel Audio Coding”, J. Herre et al., Audio Engineering Convention Paper 7084, 122nd Convention, May 5-8, 2007. Раскрытия из обоих документов, в частности, ремарки, относящиеся в них к остаточному сигналу, ссылкой включаются в настоящее описание.In a PS encoder (eg, an MPEG Surround PS encoder), a residual signal (RES) may be defined that is transmitted in addition to the downmix signal. This residual signal indicates the error associated with displaying the original channels through their downmix and PS encoding parameters. At the decoder, the residual signal may be used instead of a decorrelated version of the downmix signal. This makes it possible to better reconstruct the waveforms of the original L and R channels. The use of an additional residual signal is described, for example, in the MPEG Surround standard (see document ISO/EEC 23003-1) and in the article "MPEG Surround - The ISO/MPEG Standard for Efficient and Compatible Multi-Channel Audio Coding”, J. Herre et al., Audio Engineering Convention Paper 7084, 122 nd Convention, May 5-8, 2007. Disclosures from both documents, in particular their remarks relating to residual signal, are referenced included in this description.

PS-кодирование с остаточным сигналом является более общим подходом к совместному кодированию стереофонического сигнала, чем M/S-кодирование: M/S-кодирование выполняет вращение сигнала при преобразовании L/R-сигналов в M/S-сигналы. PS-кодирование с остаточным сигналом также выполняет вращение сигнала при преобразовании L/R-сигналов в низведенный и остаточный сигналы. Однако в последнем случае вращение сигнала является варьируемым и зависит от параметров PS-кодирования.PS residual coding is a more general stereo joint coding approach than M/S coding: M/S coding performs signal rotation when converting L/R signals to M/S signals. Residual PS encoding also performs signal rotation when converting L/R signals to downmix and residual signals. However, in the latter case, the signal rotation is variable and depends on the PS encoding parameters.

По причине большей общности подхода PS-кодирования с остатком, PS-кодирование с остатком позволяет более эффективно, чем M/S-кодирование, кодировать определенные типы сигналов, такие как панорамированный монофонический сигнал. Так, предложенный кодер позволяет эффективно комбинировать технологии параметрического стереофонического кодирования с технологиями стереофонического кодирования на основе кодирования формы сигнала.Because of the greater generality of the residual PS coding approach, residual PS coding allows certain types of signals, such as a panned mono signal, to be encoded more efficiently than M/S coding. Thus, the proposed encoder makes it possible to efficiently combine parametric stereo coding technologies with stereo coding technologies based on waveform coding.

Часто перцептуальные стереофонические кодеры, такие как перцептуальный стереофонический кодер MPEG AAC, могут принимать решение о выборе между стереофоническим L/R-кодированием и стереофоническим M/S-кодированием, где в последнем случае средний/побочный сигнал генерируется на основе стереофонического сигнала. Этот выбор может зависеть от частоты, т.е. для некоторых частотных полос может использоваться стереофоническое L/R-кодирование, в то время как для других частотных полос может использоваться стереофоническое M/S-кодирование.Often, perceptual stereo encoders, such as the MPEG AAC perceptual stereo encoder, can decide between stereo L/R encoding and stereo M/S encoding, where in the latter case the middle/side signal is generated based on the stereo signal. This choice may be frequency dependent, i.e. some frequency bands may use stereo L/R encoding, while other frequency bands may use stereo M/S encoding.

В ситуации, когда каналы L и R по существу представляют собой независимые сигналы, указанный перцептуальный стереофонический кодер, как правило, не будет использовать стереофоническое M/S-кодирование, поскольку в данной ситуации эта схема кодирования не обеспечивает никакого улучшения кодирования по сравнению со стереофоническим L/R-кодированием. Кодер перейдет обратно на уровень простого стереофонического L/R-кодирования, по существу обрабатывающего L и R независимо.In a situation where the L and R channels are essentially independent signals, the specified perceptual stereo encoder will generally not use stereo M/S coding, since in this situation this coding scheme does not provide any improvement in coding compared to stereo L /R-encoding. The encoder will go back to the level of simple stereo L/R encoding essentially processing L and R independently.

В такой же ситуации система PS-кодера будет создавать низведенный сигнал, который содержит оба канала, L и R, что препятствует независимой обработке каналов L и R. Для PS-кодирования с остаточным сигналом это может означать менее эффективное кодирование по сравнению со стереофоническим кодированием, где адаптивно выбирается стереофоническое L/R-кодирование или стереофоническое M/S-кодирование.In the same situation, a PS encoder system will produce a downmix signal that contains both the L and R channels, which prevents the L and R channels from being processed independently. For residual PS encoding, this may mean less efficient encoding compared to stereo encoding, where the stereo L/R coding or stereo M/S coding is adaptively selected.

Таким образом, существуют ситуации, в которых PS-кодер превосходит перцептуальный стереофонический кодер с адаптивным выбором между стереофоническим L/R-кодированием и стереофоническим M/S-кодированием, в то время как в других ситуациях последний кодер превосходит PS-кодер.Thus, there are situations in which the PS encoder outperforms the perceptual stereo encoder with adaptive selection between stereo L/R coding and stereo M/S coding, while in other situations the latter encoder outperforms the PS encoder.

Краткое описание изобретенияBrief description of the invention

Настоящая заявка описывает систему кодера звуковых сигналов и способ кодирования, которые основываются на идее комбинирования PS-кодирования с использованием остаточного сигнала и адаптивного перцептуального стереофонического L/R- или M/S-кодирования (например, перцептуального совместного стереофонического кодирования ААС в области MDCT). Это позволяет комбинировать преимущества адаптивного стереофонического L/R- или M/S-кодирования (например, используемого в MPEG AAC) с преимуществами PS-кодирования с остаточным сигналом (например, используемого в MPEG Surround). Кроме того, заявка описывает соответствующую систему декодера звуковых сигналов и способ декодирования.The present application describes an audio encoder system and coding method that is based on the idea of combining PS coding using a residual signal and adaptive perceptual stereo L/R or M/S coding (e.g. AAC perceptual stereo coding in the MDCT domain). This allows you to combine the benefits of adaptive stereo L/R or M/S coding (eg used in MPEG AAC) with the benefits of PS coding with residual signal (eg used in MPEG Surround). In addition, the application describes a corresponding audio signal decoder system and a decoding method.

Первый аспект заявки относится к системе кодера, предназначенной для кодирования стереофонического сигнала в сигнал битового потока. Согласно одному из вариантов осуществления системы кодера, система кодера включает этап понижающего микширования, предназначенный для генерирования на основе стереофонического сигнала низведенного сигнала и остаточного сигнала. Остаточный сигнал может покрывать весь или только часть используемого частотного диапазона звукового сигнала. Кроме того, система кодера включает этап определения параметров, предназначенный для определения таких параметров PS-кодирования, как разность интенсивностей между каналами и взаимная корреляция между каналами. Предпочтительно параметры PS-кодирования являются зависящими от частоты. Указанные этапы понижающего микширования и определения параметров, как правило, составляют часть PS-кодера.The first aspect of the application relates to an encoder system for encoding a stereo signal into a bitstream signal. According to one embodiment of the encoder system, the encoder system includes a downmix step for generating a downmix signal and a residual signal based on the stereo signal. The residual signal may cover all or only part of the usable frequency range of the audio signal. In addition, the encoder system includes a parameter determination step for determining PS encoding parameters such as inter-channel intensity difference and inter-channel cross-correlation. Preferably, the PS encoding parameters are frequency dependent. These steps of downmixing and parameter determination are typically part of a PS encoder.

Кроме того, система кодера включает средства перцептуального кодирования в нисходящем направлении относительно этапа понижающего микширования, где производится выбор между двумя схемами кодирования:In addition, the encoder system includes means for perceptual coding in the downstream direction relative to the downmix stage, where a choice is made between two coding schemes:

- кодированием на основе суммы низведенного сигнала и остаточного сигнала и на основе разности между низведенным сигналом и остаточным сигналом; или- coding based on the sum of the downmix signal and the residual signal and on the basis of the difference between the downmix signal and the residual signal; or

- кодированием на основе низведенного сигнала и на основе остаточного сигнала.- coding based on the downmix signal and based on the residual signal.

Следует отметить, что в случае кодирования на основе низведенного сигнала и остаточного сигнала низведенный сигнал и остаточный сигнал могут являться кодированными, или могут являться кодированными сигналы, пропорциональные этим сигналам. В случае кодирования, на основе суммы и разности, сумма и разность могут являться кодированными, или могут являться кодированными сигналы, пропорциональные этим сигналам.It should be noted that in the case of encoding based on the downmix signal and the residual signal, the downmix signal and the residual signal may be encoded, or signals proportional to these signals may be encoded. In the case of sum and difference based coding, the sum and difference may be encoded, or may be encoded signals proportional to these signals.

Выбор может быть зависящим от частоты (или зависящим от времени), т.е. для первой полосы частот может делаться выбор в пользу кодирования, основанного на суммарном сигнале и разностном сигнале, в то время как для второй полосы частот может делаться выбор в пользу кодирования, основанного на низведенном сигнале и на остаточном сигнале.The choice may be frequency dependent (or time dependent), i.e. for the first frequency band, coding based on the sum signal and the difference signal may be selected, while for the second frequency band, coding based on the downmix signal and the residual signal may be selected.

Такая система кодера имеет преимущество, которое позволяет переключаться между стереофоническим L/R-кодированием и PS-кодированием с остаточным сигналом (предпочтительно, зависящим от частоты образом): если средства перцептуального кодирования делают выбор (для конкретной полосы или для всего частотного диапазона) в пользу кодирования, на основе низведенного и остаточного сигналов, система кодирования ведет себя как система, использующая стандартное PS-кодирование с остаточным сигналом. Однако если средства перцептуального кодирования делают выбор (для конкретной полосы или для всего частотного диапазона) в пользу кодирования, на основе суммарного сигнала низведенного сигнала и остаточного сигнала и разностном сигнале низведенного сигнала и остаточного сигнала, при определенных условиях, операции суммирования и вычитания в значительной мере компенсируют предшествующую операцию понижающего микширования (за исключением случая, возможно, отличающегося коэффициента усиления), и, таким образом, система в целом фактически может выполнять L/R-кодирование для всего стереофонического сигнала или для одной из его частотных полос. Например, такие условия возникают тогда, когда каналы L и R стереофонического сигнала независимы и имеют одинаковый уровень, что более подробно будет разъяснено позднее.Such an encoder system has the advantage of being able to switch between stereo L/R encoding and PS encoding with residual signal (preferably in a frequency dependent manner): if the perceptual encoding means make a choice (for a specific band or for the entire frequency range) in favor of coding, based on downmix and residual signals, the coding system behaves like a system using standard PS coding with residual signal. However, if the perceptual encoding means make a choice (for a specific band or for the entire frequency range) in favor of coding, based on the sum signal of the downmix signal and the residual signal and the difference signal of the downmix signal and the residual signal, under certain conditions, the summation and subtraction operations are largely compensate for the previous downmix operation (except in the case of a possibly different gain) and thus the overall system can actually L/R encode the entire stereo signal or one of its frequency bands. For example, such conditions occur when the L and R channels of a stereo signal are independent and have the same level, which will be explained in more detail later.

Предпочтительно, адаптация схемы кодирования зависит от времени и от частоты. Так, предпочтительно, некоторые полосы частот стереофонического сигнала кодируются посредством схемы L/R-кодирования, в то время как другие полосы частот стереофонического сигнала кодируются посредством схемы PS-кодирования с остаточным сигналом.Preferably, the adaptation of the coding scheme is time and frequency dependent. Thus, preferably, some frequency bands of the stereo signal are encoded with an L/R coding scheme, while other frequency bands of the stereo signal are encoded with a PS coding scheme with a residual signal.

Следует отметить, что в случае кодирования, на основе низведенного сигнала и остаточного сигнала, как обсуждалось выше, фактический сигнал, который является входным в базовый кодер, может быть сформирован двумя последовательными операциями на низведенном сигнале и остаточном сигнале, которые являются обратными (за исключением случая, возможно, отличающегося коэффициента усиления). Например, низведенный сигнал и остаточный сигнал подаются на этап преобразования M/S в L/R, а затем выходной сигнал этапа преобразования подается на этап преобразования L/R в M/S. Результирующий сигнал (который затем используется для кодирования) соответствует низведенному сигналу и остаточному сигналу (за исключением случая, возможно, отличающегося коэффициента усиления).It should be noted that in the case of encoding based on the downmix signal and the residual signal, as discussed above, the actual signal that is input to the core encoder can be generated by two successive operations on the downmix signal and the residual signal, which are inverse (except in the case , possibly a different gain). For example, the downmix signal and the residual signal are supplied to the M/S to L/R conversion stage, and then the output signal of the conversion stage is supplied to the L/R to M/S conversion stage. The resulting signal (which is then used for encoding) corresponds to the downmix signal and the residual signal (except in the case of a possibly different gain).

Нижеследующий вариант осуществления изобретения использует эту идею. Согласно одному из вариантов осуществления системы кодера, система кодера, как обсуждалось выше, включает этап понижающего микширования и этап определения параметров. Кроме того, система кодера включает этап преобразования (например, составляющий часть средств кодирования, описанных выше). Этап преобразования генерирует псевдо-L/R-стереофонический сигнал путем выполнения преобразования низведенного сигнала и остаточного сигнала. Этап преобразования предпочтительно выполняет преобразования в сумму и разность, где низведенный сигнал и остаточный сигнал суммируются, генерируя один канал псевдо-стереофонического сигнала (сумма, возможно, умножается на некоторый коэффициент), и вычитаются один из другого, генерируя второй канал псевдо-стереофонического сигнала (разность, возможно, умножается на некоторый коэффициент). Предпочтительно, первый канал (например, псевдо-левый канал) псевдо-стереофонического сигнала пропорционален сумме низведенного и остаточного сигналов, где второй канал (например, псевдо-правый канал) псевдо-стереофонического сигнала пропорционален разности низведенного и остаточного сигналов. Таким образом, низведенный сигнал DMX и остаточный сигнал RES из PS-кодера могут быть конвертированы в псевдо-стереофонический сигнал Lp, Rp в соответствии со следующими уравнениями:The following embodiment of the invention uses this idea. According to one embodiment of the encoder system, the encoder system, as discussed above, includes a downmix step and a parameter determination step. In addition, the encoder system includes a transformation step (eg, forming part of the encoding means described above). The conversion step generates a pseudo-L/R stereo signal by performing a conversion on the downmix signal and the residual signal. The conversion step preferably performs sum-and-difference conversions where the downmix and residual signal are summed to generate one channel of the pseudo-stereo signal (the sum is possibly multiplied by some factor), and subtract one from the other, generating a second channel of the pseudo-stereo signal ( the difference is possibly multiplied by some factor). Preferably, the first channel (eg, pseudo-left channel) of the pseudo stereo signal is proportional to the sum of the downmix and residual signals, where the second channel (eg, pseudo-right channel) of the pseudo stereo signal is proportional to the difference between the downmix and residual signals. Thus, the downmix signal DMX and the residual signal RES from the PS encoder can be converted to a pseudo-stereo signal L p , R p according to the following equations:

Lp=g(DMX+RES) Lp =g(DMX+RES)

Rp = g(DMX–RES). Rp = g(DMX-RES).

В приведенных выше уравнениях нормировочный коэффициент усиления g, например, имеет значение

Figure 00000003
.In the above equations, the normalization gain g, for example, has the value
Figure 00000003
.

Псевдо-стереофонический сигнал предпочтительно обрабатывается перцептуальным стереофоническим кодером (например, составляющим часть средств кодирования). Для кодирования выбирается стереофоническое L/R-кодирование или стереофоническое M/S-кодирование. Адаптивный перцептуальный стереофонический L/R- или M/S-кодер может представлять собой кодер на базе ААС. Предпочтительно выбор между стереофоническим L/R-кодированием и стереофоническим M/S-кодированием зависит от частоты; так, выбор может варьироваться для различных частотных полос, как обсуждалось выше. Кроме того, выбор между L/R-кодированием и M/S-кодированием, предпочтительно, зависит от времени. Решение о выборе между L/R-кодированием и M/S-кодированием предпочтительно принимается перцептуальным стереофоническим кодером.The pseudo stereo signal is preferably processed by a perceptual stereo encoder (eg, part of the encoding means). For encoding, select L/R stereo encoding or M/S stereo encoding. The adaptive perceptual stereo L/R or M/S encoder may be an AAC-based encoder. Preferably, the choice between stereo L/R encoding and stereo M/S encoding is frequency dependent; thus, the choice may vary for different frequency bands, as discussed above. In addition, the choice between L/R encoding and M/S encoding is preferably time dependent. The choice between L/R encoding and M/S encoding is preferably made by the perceptual stereo encoder.

Указанный перцептуальный стереофонический кодер для M/S-кодирования обладает возможностью внутреннего вычисления (псевдо-) сигналов M и S (во временной области или в выбранных полосах частот) на основе псевдо-стереофонического сигнала L/R. Указанные сигналы M и S соответствуют низведенному и остаточному сигналам (за исключением случая, возможно, отличающегося коэффициента усиления). Таким образом, если перцептуальный стереофонический кодер делает выбор в пользу M/S-кодирования, то он фактически кодирует низведенный и остаточный сигналы (которые соответствуют псевдо-сигналам М и S), как это могло бы выполняться в системе, использующей стандартное PS-кодирование с остаточным сигналом.The specified perceptual stereo encoder for M/S encoding has the ability to internally calculate (pseudo-) M and S signals (in the time domain or in selected frequency bands) based on the pseudo-stereo L/R signal. The indicated M and S signals correspond to the downmix and the residual signals (except in the case of a possibly different gain). Thus, if a perceptual stereo encoder opts for M/S encoding, then it actually encodes the downmix and residual signals (which correspond to pseudo M and S signals) as might be done in a system using standard PS encoding with residual signal.

Кроме того, в специфических условиях этап преобразования в значительной мере компенсирует предшествующую операцию понижающего микширования (за исключением случая, возможно, отличающегося коэффициента усиления), и, таким образом, система кодера в целом может фактически выполнять L/R-кодирование всего стереофонического сигнала или одной из его частотных полос (если перцептуальным кодером выбрано L/R-кодирование). Этот случай соответствует, например, случаю, когда каналы L и R стереофонического сигнала независимы и имеют одинаковый уровень, что более подробно будет разъяснено позднее. Таким образом, для данной полосы частот псевдо-стереофонический сигнал в значительной мере соответствует или является пропорциональным стереофоническому сигналу, если - для этой полосы частот - левый и правый каналы стереофонического сигнала, в значительной мере, независимы и имеют, в значительной мере, одинаковый уровень.In addition, under specific conditions, the transform step largely compensates for the previous downmix operation (except in the case of a possibly different gain), and thus the encoder system as a whole can actually L/R encode the entire stereo signal, or one from its frequency bands (if L/R encoding is selected by the perceptual encoder). This case corresponds, for example, to the case where the L and R channels of a stereo signal are independent and have the same level, which will be explained in more detail later. Thus, for a given frequency band, a pseudo-stereo signal matches or is substantially proportional to a stereo signal if - for that frequency band - the left and right channels of the stereo signal are substantially independent and have substantially the same level.

Таким образом, система кодера фактически позволяет осуществлять переключение между стереофоническим L/R-кодированием и PS-кодированием с остаточным сигналом с целью получения возможности адаптации к свойствам данного входного стереофонического сигнала. Предпочтительно, адаптация схемы кодирования зависит от времени и от частоты. Так, предпочтительно, некоторые полосы частот стереофонического сигнала кодируются посредством схемы L/R-кодирования, в то время как другие полосы частот стереофонического сигнала кодируются посредством схемы PS-кодирования с остаточным сигналом. Следует отметить, что M/S-кодирование по существу представляет собой частный случай PS-кодирования с остаточным сигналом (поскольку преобразование L/R в M/S представляет собой частный случай операции понижающего микширования при PS-кодировании), и, таким образом, система кодера также может выполнять полное M/S-кодирование.Thus, the encoder system actually allows switching between stereo L/R encoding and PS encoding with residual signal in order to be able to adapt to the properties of a given stereo input signal. Preferably, the adaptation of the coding scheme is time and frequency dependent. Thus, preferably, some frequency bands of the stereo signal are encoded with an L/R coding scheme, while other frequency bands of the stereo signal are encoded with a PS coding scheme with a residual signal. It should be noted that M/S encoding is essentially a special case of PS encoding with residual signal (because L/R to M/S conversion is a special case of PS encoding downmix operation), and thus the system encoder can also perform full M/S encoding.

Указанный вариант осуществления изобретения, содержащий этап преобразования в нисходящем направлении относительно PS-кодера и в восходящем направлении относительно перцептуального стереофонического L/R- или M/S-кодера, имеет преимущество, которое заключается в том, что могут быть использованы традиционный PS-кодер и традиционный перцептуальный кодер. Тем не менее, PS-кодер, или перцептуальный кодер, в данном случае может адаптироваться для специфического использования.This embodiment, comprising the step of converting downstream to the PS encoder and upstream to the perceptual stereo L/R or M/S encoder, has the advantage that a conventional PS encoder and traditional perceptual encoder. However, the PS encoder, or perceptual encoder, in this case can be adapted for a specific use.

Новая концепция повышает эффективность стереофонического кодирования, позволяя эффективно комбинировать PS-кодирование и совместное стереофоническое кодирование.The new concept improves the efficiency of stereo coding by allowing PS coding and joint stereo coding to be efficiently combined.

В соответствии с альтернативным вариантом осуществления изобретения, средства кодирования, которые обсуждались выше, включают этап преобразования, предназначенный для выполнения преобразования в сумму и разность на основе низведенного сигнала и остаточного сигнала для одной или нескольких частотных полос (например, для всего используемого частотного диапазона или только для одной полосы частот). Это преобразование может выполняться в частотной области или во временной области. Этап преобразования генерирует псевдо-левый/правый стереофонический сигнал для одной или нескольких частотных полос. Один канал псевдо-стереофонического сигнала соответствует сумме, а второй канал псевдо-стереофонического сигнала соответствует разности.In accordance with an alternative embodiment of the invention, the coding means discussed above includes a transform step for performing a sum and difference transform based on the downmix signal and the residual signal for one or more frequency bands (for example, for the entire usable frequency band or only for one frequency band). This transformation may be performed in the frequency domain or in the time domain. The conversion step generates a pseudo-left/right stereo signal for one or more frequency bands. One channel of the pseudo-stereo signal corresponds to the sum, and the second channel of the pseudo-stereo signal corresponds to the difference.

Таким образом, в случае, когда кодирование основывается на суммарном и разностном сигналах, выходной сигнал этапа преобразования может использоваться для кодирования, в то время как в случае, когда кодирование основывается на низведенном сигнале и остаточном сигнале, для кодирования могут использоваться сигналы в восходящем направлении относительно этапа кодирования. Таким образом, этот вариант осуществления изобретения не использует два последовательных преобразования в сумму и разность на низведенном сигнале и остаточном сигнале, приводящих к низведенному сигналу и остаточному сигналу (за исключением случая, возможно, отличающегося коэффициента усиления).Thus, in the case where the encoding is based on the sum and difference signals, the output signal of the transformation step can be used for encoding, while in the case where the encoding is based on the downmix and the residual signal, upstream signals relative to coding stage. Thus, this embodiment does not use two successive sum and difference conversions on the downmix and residual, resulting in the downmix and residual (except in the case of a possibly different gain).

При выборе кодирования на основе низведенного сигнала и остаточного сигнала, выбирается параметрическое стереофоническое кодирование стереофонического сигнала. При выборе кодирования на основе суммы и разности (т.е. кодирования на основе псевдо-стереофонического сигнала), выбирается L/R-кодирование стереофонического сигнала.When selecting encoding based on the downmix signal and the residual signal, the parametric stereo encoding of the stereo signal is selected. When sum-and-difference coding is selected (ie pseudo-stereo coding), L/R coding of the stereo signal is selected.

Этап преобразования может представлять собой этап преобразования L/R в M/S, составляющий часть перцептуального кодера с адаптивным выбором между стереофоническим L/R- и M/S-кодированием (возможно, в отличии от традиционного этапа преобразования L/R в M/S, коэффициенты усиления отличаются). Следует отметить, что решение о выборе между стереофоническим L/R- и M/S-кодированием должно быть обратимым. Таким образом, кодирование, на основе низведенного сигнала и остаточного сигнала, выбирается (т.е. кодированный сигнал не проходит этап преобразования) тогда, когда средства принятия решения принимают решение о перцептуальном M/S-декодировании, а кодирование, на основе псевдо-стереофонического сигнала, генерируемом этапом преобразования, выбирается (т.е. кодированный проходит этап преобразования) тогда, когда средства принятия решения принимают решение о перцептуальном L/R-декодировании.The transform step may be an L/R to M/S transform step that is part of a perceptual encoder with an adaptive choice between stereo L/R and M/S encoding (possibly unlike the traditional L/R to M/S transform step). , the gains are different). It should be noted that the decision to choose between stereo L/R and M/S encoding should be reversible. Thus, an encoding based on the downmix signal and a residual signal is selected (i.e., the encoded signal does not pass the transform stage) when the decision means decides on perceptual M/S decoding, and the encoding based on pseudo-stereo of the signal generated by the transform step is selected (ie, the encoded one passes the transform step) when the decision means make a decision about perceptual L/R decoding.

Система кодера согласно любому из обсужденных выше вариантов осуществления изобретения может включать дополнительный SBR-кодер (репликации спектральной полосы). SBR представляет собой одну из форм HFR (высокочастотной реконструкции). SBR-кодер определяет дополнительную информацию для реконструкции более высокого частотного диапазона звукового сигнала в декодере. Перцептуальным кодером кодируется только более низкий частотный диапазон, что уменьшает битовую скорость передачи данных. Предпочтительно SBR-кодер присоединяется в восходящем направлении относительно PS-кодера. Таким образом, SBR-кодер может находиться в стереофонической области и генерировать параметры SBR для стереофонического сигнала. Это будет более подробно обсуждаться в связи с графическими материалами.An encoder system according to any of the embodiments of the invention discussed above may include an additional SBR (spectral band replication) encoder. SBR is a form of HFR (High Frequency Reconstruction). The SBR encoder determines additional information for reconstructing the higher frequency range of the audio signal in the decoder. The perceptual encoder encodes only the lower frequency range, which reduces the bit rate. Preferably, the SBR encoder is connected upstream of the PS encoder. Thus, the SBR encoder may be in the stereo region and generate SBR parameters for the stereo signal. This will be discussed in more detail in connection with the graphics.

Предпочтительно, PS-кодер (т.е. этап понижающего микширования и этап определения параметров) выполняет операции в передискретизированной частотной области (PS-кодер, который обсуждается ниже, также предпочтительно выполняет операции в передискретизированной частотной области). Для преобразования из временной области в частотную в восходящем направлении относительно PS-кодера может использоваться гибридный блок комплекснозначных фильтров, содержащий QMF (квадратурный зеркальный фильтр) и фильтр Найквиста, как описано в стандарте MPEG Surround (см. документ ISO/IEC 23003-1). Это позволяет выполнять адаптивную обработку сигнала во времени и по частоте в отсутствие слышимых артефактов наложения спектров. Адаптивное L/R- или M/S-кодирование, с другой стороны, предпочтительно осуществляется в области критически дискретизированного MDCT (например, как описано в ААС) с целью обеспечения эффективного представления квантованного сигнала.Preferably, the PS encoder (ie, the downmix step and the parameter determination step) operates in the resampled frequency domain (the PS encoder, which is discussed below, also preferably operates in the resampled frequency domain). For upstream time-to-frequency conversion with respect to the PS encoder, a hybrid complex-valued filter bank containing a QMF (quadrature mirror filter) and a Nyquist filter can be used as described in the MPEG Surround standard (see ISO/IEC 23003-1 document). This allows adaptive signal processing in time and frequency in the absence of audible aliasing artifacts. Adaptive L/R or M/S coding, on the other hand, is preferably performed in the region of the critically sampled MDCT (eg, as described in AAC) in order to provide an efficient representation of the quantized signal.

Конверсия между низведенным и остаточным сигналами и псевдо-L/R-стереофоническим сигналом может осуществляться во временной области, поскольку PS-кодер и перцептуальный стереофонический кодер, как правило, в любом случае связываются во временной области. Таким образом, этап преобразования, предназначенный для генерирования сигнала псевдо-L/R может выполнять операции во временной области.The conversion between the downmix and residual signals and the pseudo L/R stereo signal can be done in the time domain, since the PS encoder and the perceptual stereo encoder are usually coupled in the time domain anyway. Thus, the conversion step for generating the pseudo-L/R signal can perform operations in the time domain.

В других вариантах осуществления изобретения, которые обсуждаются в связи с графическими материалами, этап преобразования выполняет операции в передискретизированной частотной области или области критически дискретизированного MDCT.In other embodiments of the invention, which are discussed in connection with the drawings, the transform step performs operations in the oversampled frequency domain or critically sampled MDCT domain.

Второй аспект заявки относится к системе декодера, предназначенной для декодирования сигнала битового потока, генерируемого обсужденной выше системой кодера.The second aspect of the application relates to a decoder system for decoding a bitstream signal generated by the encoder system discussed above.

Согласно одному из вариантов осуществления системы декодера, система декодера включает средства перцептуального декодирования, предназначенные для декодирования на основе сигнала битового потока. Средства декодирования сконфигурированы для генерирования посредством декодирования (внутреннего) первого сигнала и (внутреннего) второго сигнала и для вывода низведенного сигнала и остаточного сигнала. Низведенный сигнал и остаточный сигнал селективно основываются наAccording to one embodiment of a decoder system, the decoder system includes perceptual decoding means for decoding based on a bitstream signal. The decoding means is configured to generate by decoding the (internal) first signal and the (internal) second signal, and to output the downmix signal and the residual signal. The downmix signal and the residual signal are selectively based on

- сумме первого сигнала и второго сигнала и на разности первого сигнала и второго сигнала- the sum of the first signal and the second signal and on the difference between the first signal and the second signal

илиor

- на первом сигнале и на втором сигнале.- on the first signal and on the second signal.

Как обсуждалось выше в связи с системой кодера, в данном случае, выбор также может быть зависящим от частоты и независящим от частоты.As discussed above in connection with the encoder system, in this case, the choice can also be frequency dependent and frequency independent.

Кроме того, система включает этап повышающего микширования, предназначенный для генерирования стереофонического сигнала на основе низведенного сигнала и остаточного сигнала, где операция повышающего микширования на этапе повышающего микширования зависит от одного или нескольких параметров параметрического стереофонического кодирования.In addition, the system includes an upmix step for generating a stereo signal based on the downmix signal and the residual signal, where the upmix operation of the upmix step depends on one or more parametric stereo coding parameters.

Аналогично системе кодера, система декодера фактически позволяет переключаться между L/R-декодированием и PS-декодированием с остаточным сигналом, предпочтительно, зависящим от времени и от частоты образом.Similar to the encoder system, the decoder system actually allows switching between L/R decoding and PS decoding with residual signal, preferably in a time and frequency dependent manner.

Согласно другому варианту осуществления изобретения система декодера включает перцептуальный стереофонический декодер (например, составляющий часть средств декодирования), предназначенный для декодирования сигнала битового потока, где декодер генерирует псевдо-стереофонический сигнал. Перцептуальный декодер может представлять собой декодер на базе ААС. Для перцептуального стереофонического декодера перцептуальное L/R-декодирование или перцептуальное M/S-декодирование выбирается зависящим от частоты или независящим от частоты образом (фактический выбор предпочтительно управляется решением кодера, которое передается как дополнительная информация в битовом потоке). Декодер делает выбор схемы декодирования на основе схемы кодирования, использованной для кодирования. Используемая схема кодирования может указываться декодеру посредством информации, содержащейся в принимаемом битовом потоке.According to another embodiment of the invention, the decoder system includes a perceptual stereo decoder (eg, part of the decoding means) for decoding the bitstream signal, where the decoder generates a pseudo stereo signal. The perceptual decoder may be an AAC-based decoder. For a perceptual stereo decoder, perceptual L/R decoding or perceptual M/S decoding is selected in a frequency-dependent or frequency-independent manner (the actual selection is preferably controlled by the encoder's decision, which is transmitted as side information in the bitstream). The decoder makes a choice of decoding scheme based on the encoding scheme used for encoding. The coding scheme to be used may be indicated to the decoder by information contained in the received bitstream.

Кроме того, предусматривается этап преобразования, предназначенный для генерирования низведенного сигнала и остаточного сигнала путем выполнения преобразования псевдо-стереофонического сигнала. Иными словами, псевдо-стереофонический сигнал, получаемый из перцептуального декодера конвертируется обратно в низведенный и остаточный сигналы. Это преобразование представляет собой преобразование в сумму и разность: результирующий низведенный сигнал пропорционален сумме левого канала и правого канала псевдо-стереофонического сигнала, результирующий остаточный сигнал пропорционален разности левого канала и правого канала псевдо-стереофонического сигнала. Таким образом, осуществляется квази-преобразование L/R в M/S. Псевдо-стреофонический сигнал с двумя каналами Lp, Rр может конвертироваться в низведенный и остаточный сигналы в соответствии со следующими уравнениями:In addition, a conversion step is provided for generating a downmix signal and a residual signal by performing a pseudo-stereo signal conversion. In other words, the pseudo-stereo signal received from the perceptual decoder is converted back into downmix and residual signals. This conversion is a sum and difference conversion: the resulting downmix is proportional to the sum of the left channel and right channel of the pseudo stereo signal, the resulting residual signal is proportional to the difference of the left channel and right channel of the pseudo stereo signal. Thus, a quasi-conversion of L/R to M/S is carried out. A pseudo-stereo signal with two channels L p , R p can be converted into downmix and residual signals according to the following equations:

Figure 00000004
.
Figure 00000004
.

В приведенных выше уравнениях нормировочный коэффициент усиления g может, например, иметь значение

Figure 00000005
. Остаточный сигнал RES, используемый в декодере, может покрывать весь используемый диапазон частот звукового сигнала или только часть используемого диапазона частот звукового сигнала.In the above equations, the normalization gain g may, for example, be
Figure 00000005
. The residual signal RES used in the decoder may cover the entire usable frequency range of the audio signal, or only a portion of the usable frequency range of the audio signal.

Низведенный и остаточный сигналы затем обрабатываются на этапе повышающего микширования PS-декодера для получения конечного стереофонического выходного сигнала. Повышающее микширование низведенного и остаточного сигналов в стереофонический сигнал зависит от принимаемых параметров PS-кодирования.The downmix and residual signals are then processed in the upmix step of the PS decoder to produce the final stereo output signal. The upmixing of the downmix and residual signals to a stereo signal depends on the received PS encoding parameters.

Согласно альтернативному варианту осуществления изобретения средства перцептуального декодирования могут включать этап преобразования в сумму и разность, предназначенный для выполнения преобразования на основе первого сигнала и второго сигнала для одной или нескольких частотных полос (например, для всего используемого диапазона частот). Таким образом, этап преобразования генерирует низведенный сигнал и остаточный сигнал в случае, когда низведенный сигнал и остаточный сигнал базируются на сумме первого сигнала и второго сигнала и на разности первого сигнала и второго сигнала. Этап преобразования может выполнять операции во временной области или в частотной области.According to an alternative embodiment of the invention, the perceptual decoding means may include a sum-and-difference transform step for performing a transform based on the first signal and the second signal for one or more frequency bands (eg, for the entire usable frequency band). Thus, the conversion step generates a downmix signal and a residual signal in the case where the downmix signal and the residual signal are based on the sum of the first signal and the second signal and on the difference of the first signal and the second signal. The transform step may perform operations in the time domain or in the frequency domain.

Как сходным образом обсуждалось в связи с системой кодера, этап преобразования может представлять собой этап преобразования M/S в L/R, составляющий часть перцептуального декодера с адаптивным выбором между стереофоническим L/R- и M/S-декодированием (возможно, коэффициент усиления, в отличие от традиционного этапа преобразования M/S в L/R, отличается). Следует отметить, что выбор между стереофоническим L/R- и M/S-декодированием должен быть обратимым.As similarly discussed in connection with the encoder system, the transform step may be an M/S to L/R transform step forming part of a perceptual decoder with an adaptive choice between stereo L/R and M/S decoding (perhaps the gain different from the traditional M/S to L/R conversion step is different). It should be noted that the choice between stereo L/R and M/S decoding should be reversible.

Система декодера согласно любому из предшествующих вариантов осуществления изобретения может включать дополнительный SBR-декодер, предназначенный для декодирования дополнительной информации из SBR-кодера и для генерирования высокочастотной составляющей звукового сигнала. Предпочтительно SBR-декодер располагается в нисходящем направлении относительно PS-декодера. Это будет более подробно обсуждаться в связи с графическими материалами.The decoder system according to any of the previous embodiments of the invention may include an additional SBR decoder for decoding additional information from the SBR encoder and for generating a high frequency component of the audio signal. Preferably, the SBR decoder is located downstream of the PS decoder. This will be discussed in more detail in connection with the graphics.

Предпочтительно, этап повышающего микширования выполняет операции в передискретизированной частотной области, например, в восходящем направлении относительно PS-декодера может, как описывалось выше, использоваться гибридный блок фильтров.Preferably, the upmixing step performs operations in the oversampled frequency domain, for example, in the upstream direction relative to the PS decoder, a hybrid filterbank can be used as described above.

Преобразование L/R в M/S может проводиться во временной области, поскольку перцептуальный декодер и PS-декодер (включая этап повышающего микширования), как правило, связаны во временной области.The L/R to M/S conversion can be performed in the time domain, since the perceptual decoder and the PS decoder (including the upmix step) are typically time domain coupled.

В других вариантах осуществления изобретения, описанных в связи с графическими материалами, преобразование L/R в M/S проводится в передискретизированной частотной области (например, QMF) или в критически дискретизированной частотной области (например, MDCT).In other embodiments of the invention described in connection with the drawings, L/R to M/S conversion is performed in the oversampled frequency domain (eg, QMF) or in the critically sampled frequency domain (eg, MDCT).

Третий аспект заявки относится к способу кодирования стереофонического сигнала в сигнал битового потока. Способ выполняет операции аналогично системе кодера, обсужденной выше. Таким образом, приведенные выше ремарки, относящиеся к системе кодера в основном также применимы и к способу кодирования.The third aspect of the application relates to a method for encoding a stereo signal into a bitstream signal. The method performs operations similar to the encoder system discussed above. Thus, the above remarks regarding the encoder system basically also apply to the encoding method.

Четвертый аспект заявки относится к способу декодирования сигнала битового потока, включающего параметры PS-кодирования, с целью генерирования стереофонического сигнала. Способ выполняет операции так же, как система декодера, обсужденная выше. Таким образом, приведенные выше ремарки, относящиеся к системе декодера в основном также применимы и к способу декодирования.The fourth aspect of the application relates to a method for decoding a bitstream signal including PS encoding parameters to generate a stereo signal. The method performs operations in the same way as the decoder system discussed above. Thus, the above remarks related to the decoder system basically also apply to the decoding method.

Ниже изобретение разъясняется посредством иллюстративных примеров с отсылкой к сопроводительным графическим материалам, гдеThe invention is explained below by means of illustrative examples with reference to the accompanying drawings, where

фиг. 1 - один из вариантов осуществления системы кодера, где, необязательно, параметры PS-кодирования содействуют психоакустическому управлению в перцептуальном стереофоническом кодере;fig. 1 illustrates one embodiment of an encoder system where, optionally, PS encoding parameters facilitate psychoacoustic control in a perceptual stereo encoder;

фиг. 2 - один из вариантов осуществления PS-кодера;fig. 2 shows one embodiment of a PS encoder;

фиг. 3 - один из вариантов осуществления системы декодера;fig. 3 shows one embodiment of a decoder system;

фиг. 4 - один из дополнительных вариантов осуществления PS-кодера, включающего детектор, предназначенный для деактивации PS-кодирования, если предпочтительным является L/R-кодирование;fig. 4 shows one further embodiment of a PS encoder including a detector for deactivating PS encoding if L/R encoding is preferred;

фиг. 5 - один из вариантов осуществления традиционной системы PS-кодера, содержащей дополнительный SBR-кодер для низведенного сигнала;fig. 5 shows one embodiment of a conventional PS encoder system including an additional SBR encoder for the downmix signal;

фиг. 6 - один из вариантов осуществления системы кодера, содержащей дополнительный SBR-кодер для низведенного сигнала;fig. 6 shows one embodiment of an encoder system comprising an additional SBR encoder for the downmix signal;

фиг. 7 - один из вариантов осуществления системы кодера, содержащей дополнительный SBR-кодер в стереофонической области;fig. 7 shows one embodiment of an encoder system comprising an additional SBR encoder in the stereo region;

фиг. 8а-8d - различные частотно-временные представления одного из двух выходных каналов на выходе декодера;fig. 8a-8d are different time-frequency representations of one of the two output channels at the output of the decoder;

фиг. 9a - один из вариантов осуществления базового кодера;fig. 9a shows one embodiment of a basic encoder;

фиг. 9b - один из вариантов осуществления кодера, который позволяет осуществлять переключение между кодированием в области линейного предсказания (как правило, только для монофонических сигналов) и кодированием в области преобразования (как правило, и для монофонических, и для стереофонических сигналов);fig. 9b shows one embodiment of an encoder that allows switching between linear prediction domain coding (typically for mono signals only) and transform domain coding (typically for both mono and stereo signals);

фиг. 10 - один из вариантов осуществления системы кодера;fig. 10 shows one embodiment of an encoder system;

фиг. 11a - часть одного из вариантов осуществления системы кодера;fig. 11a is part of one embodiment of an encoder system;

фиг. 11b - иллюстративная реализация варианта осуществления изобретения по фиг. 11а;fig. 11b is an exemplary implementation of the embodiment of the invention of FIG. 11a;

фиг. 11с - альтернатива варианту осуществления изобретения по фиг. 11а;fig. 11c shows an alternative to the embodiment of FIG. 11a;

фиг. 12 - один из вариантов осуществления системы кодера;fig. 12 shows one embodiment of an encoder system;

фиг. 13 - один из вариантов осуществления стереофонического кодера, составляющего часть системы кодера по фиг. 12;fig. 13 shows one embodiment of a stereo encoder forming part of the encoder system of FIG. 12;

фиг. 14 - один из вариантов осуществления системы декодера, предназначенной для декодирования сигнала битового потока, генерируемого системой кодера по фиг. 6;fig. 14 shows one embodiment of a decoder system for decoding a bitstream signal generated by the encoder system of FIG. 6;

фиг. 15 - один из вариантов осуществления системы декодера, предназначенной для декодирования сигнала битового потока, генерируемого системой кодера по фиг. 7;fig. 15 shows one embodiment of a decoder system for decoding a bitstream signal generated by the encoder system of FIG. 7;

фиг. 16a - часть одного из вариантов осуществления системы декодера;fig. 16a is part of one embodiment of a decoder system;

фиг. 16b - иллюстративная реализация варианта осуществления изобретения по фиг. 16а;fig. 16b is an exemplary implementation of the embodiment of the invention of FIG. 16a;

фиг. 16c - альтернатива варианту осуществления изобретения по фиг. 16а;fig. 16c is an alternative to the embodiment of the invention of FIG. 16a;

фиг. 17 - один из вариантов осуществления системы кодера; иfig. 17 shows one embodiment of an encoder system; And

фиг. 18 - один из вариантов осуществления системы декодера.fig. 18 shows one embodiment of a decoder system.

На фиг. 1 показан вариант осуществления системы кодера, которая объединяет PS-кодирование с использованием остаточного сигнала и адаптивное перцептуальное стереофоническое L/R- или M/S-кодирование. Этот вариант осуществления изобретения является лишь иллюстрацией принципов настоящей заявки. Следует понимать, что модификации и изменения этого варианта осуществления изобретения будут очевидны для специалистов в данной области. Система кодера включает PS-кодер 1, принимающий стереофонический сигнал L, R. PS-кодер 1 содержит этап понижающего микширования, предназначенный для генерирования низведенного DMX и остаточного RES сигналов на основе стереофонического сигнала L, R. Эту операцию можно описать при помощи матрицы H–1 понижающего микширования H–1 размера 2×2, которая конвертирует сигналы L и R в низведенный сигнал DMX и остаточный сигнал RES:In FIG. 1 shows an embodiment of an encoder system that combines PS coding using residual signal and adaptive perceptual stereo L/R or M/S coding. This embodiment of the invention is only an illustration of the principles of the present application. It should be understood that modifications and variations of this embodiment of the invention will be apparent to those skilled in the art. The encoder system includes a PS encoder 1 that receives an L, R stereo signal. PS encoder 1 contains a downmix stage for generating downmixed DMX and residual RES signals based on the L, R stereo signal. This operation can be described using a matrix H − 1 downmix H –1 of size 2x2 that converts the L and R signals into a downmixed DMX signal and a residual RES signal:

Figure 00000006
.
Figure 00000006
.

Как правило, матрица H–1 является зависящей от частоты или зависящей от времени, т.е. элементы матрицы H–1 изменяются с частотой и изменяются от одного кванта времени к другому. Матрица H–1 может обновляться с каждым кадром (например, каждые 21 или 48 мс) и может иметь частотное разрешение множества полос, например, 28, 20 или 10 полос (называемых «полосами параметров») на перцептуально ориентированной шкале частот (типа шкалы Барка).Typically, the matrix H –1 is frequency dependent or time dependent, i.e. the elements of the H -1 matrix change with frequency and change from one time quantum to another. The H -1 matrix may be updated with each frame (eg, every 21 or 48 ms) and may have a frequency resolution of multiple bands, such as 28, 20, or 10 bands (called "parameter bands") on a perceptually oriented frequency scale (such as the Bark scale). ).

Элементы матрицы H–1 зависят от зависящих от времени и от частоты параметров PS-кодирования: IID (разности интенсивностей между каналами; также называется CLD - разность уровней каналов) и ICC (взаимной корреляции между каналами). Для определения параметров 5 PS-кодирования, например, IID и ICC, PS-кодер 1 включает этап определения параметров. Пример вычисления матричных элементов обратной матрицы Н имеет следующий вид и описан в спецификации стандарта MPEG Surround, документ ISO/IEC 23003-1, подпункт 6.5.3.2, которая ссылкой включается в настоящее описание:The elements of the H –1 matrix depend on the time- and frequency-dependent PS encoding parameters: IID (intensity difference between channels; also called CLD - channel level difference) and ICC (cross-correlation between channels). To determine PS encoding parameters 5, such as IID and ICC, PS encoder 1 includes a parameter determination step. An example of calculating the matrix elements of the inverse matrix H has the following form and is described in the MPEG Surround standard specification, document ISO/IEC 23003-1, subclause 6.5.3.2, which is incorporated herein by reference:

Figure 00000007
,
Figure 00000007
,

гдеWhere

Figure 00000008
, и
Figure 00000009
,
Figure 00000008
, And
Figure 00000009
,

гдеWhere

Figure 00000010
,
Figure 00000010
,

и где

Figure 00000011
.and where
Figure 00000011
.

Кроме того, система кодера включает этап 2 преобразования, который конвертирует низведенный сигнал DMX и остаточный сигнал RES из PS-кодера 1 в псевдо-стереофонический сигнал Lp, Rp, например, в соответствии со следующими уравнениями:In addition, the encoder system includes a conversion step 2 that converts the downmix signal DMX and the residual signal RES from the PS encoder 1 into a pseudo-stereo signal L p , R p , for example, according to the following equations:

Figure 00000012
.
Figure 00000012
.

В приведенных выше уравнениях нормировочный коэффициент усиления g имеет, например, значение

Figure 00000013
. Для
Figure 00000013
два уравнения псевдо-стереофонического сигнала Lp, Rp можно переписать как:In the above equations, the normalization gain g has, for example, the value
Figure 00000013
. For
Figure 00000013
the two pseudo-stereo signal equations L p , R p can be rewritten as:

Figure 00000014
.
Figure 00000014
.

Псевдо-стереофонический сигнал Lp, Rp затем подается в перцептуальный стереофонический кодер 3, который адаптивно делает выбор между стереофоническим L/R-кодированием и стереофоническим M/S-кодированием. M/S-кодирование представляет собой одну из форм совместного стереофонического кодирования. L/R-кодирование может также базироваться на некоторых аспектах совместного кодирования, например, биты для каналов L и R могут совместно распределяться из общего хранилища битов.The pseudo stereo signal L p , R p is then fed to the perceptual stereo encoder 3 which adaptively selects between stereo L/R coding and stereo M/S coding. M/S coding is a form of joint stereo coding. L/R coding may also be based on some aspect of joint coding, for example, the bits for the L and R channels may be jointly allocated from a common bit store.

Выбор между стереофоническим L/R- или M/S-кодированием, предпочтительно, является зависящим от частоты, т.е. некоторые полосы частот могут подвергаться L/R-кодированию, в то время как другие полосы частот могут подвергаться M/S-кодированию. Один из вариантов реализации выбора между стереофоническим L/R- или M/S-кодированием описан в документе "Sum-Difference Stereo Transform Coding", J. D. Johnston et al., IEEE International Conference on Acoustics, Speech, and Signal Processing (ICASSP) 1992, pages 569-572. Обсуждение выбора между стереофоническим L/R- или M/S-кодированием в этом документе, в частности, разделы 5.1 и 5.2, ссылкой включаются в настоящее описание.The choice between stereo L/R or M/S encoding is preferably frequency dependent, ie. some frequency bands may be L/R encoded while other frequency bands may be M/S encoded. One implementation of the choice between stereo L/R or M/S encoding is described in "Sum-Difference Stereo Transform Coding", J. D. Johnston et al., IEEE International Conference on Acoustics, Speech, and Signal Processing (ICASSP) 1992 , pages 569-572. The discussion of the choice between stereo L/R or M/S encoding in this document, in particular sections 5.1 and 5.2, is incorporated by reference herein.

На основе псевдо-стереофонического сигнала Lp, Rp перцептуальный кодер 3 может выполнить внутреннее вычисление (псевдо-) средних/побочных сигналов Mp, Sp. Эти сигналы по существу соответствуют низведенному сигналу DMX и остаточному сигналу RES (за исключением случая, возможно, отличающегося коэффициента усиления). Тогда, если перцептуальный кодер 3 делает выбор в пользу M/S-кодирования полосы частот, то перцептуальный кодер 3 по существу кодирует для этой полосы частот низведенный сигнал DMX и остаточный сигнал RES (за исключением случая, возможно, отличающегося коэффициента усиления), как это может быть выполнено также и в традиционной системе перцептуального кодера с использованием традиционного PS-кодирования с остаточным сигналом. Параметры 5 PS-кодирования и выходной битовый поток 4 перцептуального кодера 3 мультиплексируются в единый битовый поток 6 посредством мультиплексора 7.Based on the pseudo-stereo signal L p , R p , the perceptual encoder 3 can internally calculate the (pseudo-) middle/side signals M p , S p . These signals essentially correspond to the downmix DMX signal and the residual RES signal (except in the case of a possibly different gain). Then, if perceptual encoder 3 chooses to M/S-code a frequency band, then perceptual encoder 3 essentially encodes for that frequency band the downmix signal DMX and the residual signal RES (except in the case of a possibly different gain) as can also be performed in a conventional perceptual encoder system using conventional PS coding with a residual signal. The PS encoding parameters 5 and the output bit stream 4 of the perceptual encoder 3 are multiplexed into a single bit stream 6 by means of a multiplexer 7.

В дополнение к PS-кодированию стереофонического сигнала система кодера по фиг. 1, как будет описано ниже, позволяет выполнять L/R-кодирование стереофонического сигнала. Как обсуждалось выше, элементы матрицы H–1 понижающего микширования кодера (а также элементы матрицы Н повышающего микширования, используемой в декодере) зависят от зависящих от времени и от частоты параметров PS-кодирования: IID (разности интенсивностей между каналами; также называется CLD - разность уровней каналов) и ICC (взаимной корреляции между каналами). Пример вычисления матричных элементов матрицы Н повышающего микширования описан выше. В случае использования кодирования остаточного сигнала, правый столбец матрицы Н повышающего микширования размера 2×2 имеет вид:In addition to PS encoding the stereo signal, the encoder system of FIG. 1, as will be described below, allows L/R encoding of a stereo signal. As discussed above, the elements of the encoder downmix matrix H –1 (as well as the elements of the upmix matrix H used in the decoder) depend on the time- and frequency-dependent PS encoding parameters: IID (intensity difference between channels; also called CLD - difference channel levels) and ICC (cross-correlation between channels). An example of calculating the matrix elements of the upmix matrix H is described above. In the case of residual signal coding, the right column of the 2x2 upmix matrix H is:

Figure 00000015
.
Figure 00000015
.

Однако вместо этого правый столбец матрицы Н размера 2×2, предпочтительно, должен модифицироваться какHowever, instead, the right column of the 2×2 matrix H should preferably be modified as

Figure 00000016
.
Figure 00000016
.

Левый столбец предпочтительно вычисляется так, как это дано в спецификации MPEG Surround.The left column is preferably calculated as given in the MPEG Surround specification.

Модификация правого столбца матрицы Н повышающего микширования обеспечивает то, что при IID = 0 дБ и ICC = 0 (т.е. в случае, когда для соответствующей полосы стереофонические каналы L и R являются независимыми и имеют одинаковый уровень), для полосы получается следующая матрица Н повышающего микширования:The modification of the right column of the upmix matrix H ensures that at IID = 0 dB and ICC = 0 (i.e. in the case when for the corresponding band the stereo channels L and R are independent and have the same level), the following matrix is obtained for the band H upmix:

Figure 00000017
.
Figure 00000017
.

Следует отметить, что матрица Н повышающего микширования, а также матрица Н–1 понижающего микширования, как правило, являются зависящими от частоты и зависящими от времени. Таким образом, значения матриц различны для различных временных/частотных мозаичных элементов (мозаичный элемент соответствует пересечению конкретной полосы частот и конкретного периода времени). В рассмотренном выше случае матрица Н–1 понижающего микширования идентична матрице Н повышающего микширования. Таким образом, псевдо-стереофонический сигнал Lp, Rp для полосы можно вычислить по следующему уравнению:It should be noted that the upmix matrix H as well as the downmix matrix H -1 are generally frequency dependent and time dependent. Thus, the values of the matrices are different for different time/frequency tiles (the tile corresponds to the intersection of a specific frequency band and a specific time period). In the case above, the downmix matrix H -1 is identical to the upmix matrix H. Thus, the pseudo-stereo signal L p , R p for a band can be calculated from the following equation:

Figure 00000018
.
Figure 00000018
.

Таким образом, в этом случае, PS-кодирование с остаточным сигналом, использующее матрицу Н–1 понижающего микширования с последующим генерированием псевдо-сигнала L/R на этапе 2 преобразования, соответствует единичной матрице и совсем не изменяет стереофонический сигнал для соответствующей полосы частот, т.е.Thus, in this case, PS coding with a residual signal using a downmix matrix H -1 followed by generation of a pseudo L/R signal in transform step 2 corresponds to an identity matrix and does not change the stereo signal at all for the corresponding frequency band, i.e. .e.

Figure 00000019
.
Figure 00000019
.

Иными словами, этап 2 преобразования компенсирует матрицу Н–1 понижающего микширования так, чтобы псевдо-стереофонический сигнал Lp, Rp соответствовал входному стереофоническому сигналу L, R.In other words, the conversion step 2 compensates the downmix matrix H -1 so that the pseudo-stereo signal L p , R p corresponds to the input stereo signal L, R.

Это позволяет кодировать оригинальный входной стереофонический сигнал L, R посредством перцептуального кодера 3 для конкретной полосы. Когда перцептуальным кодером 3 для кодирования конкретной полосы выбирается L/R-кодирование, система кодера ведет себя как перцептуальный L/R-кодер, предназначенный для кодирования полосы стереофонического входного сигнала L, R.This allows the original stereo input signal L, R to be encoded by a perceptual encoder 3 for a particular band. When L/R encoding is selected by the perceptual encoder 3 to encode a particular band, the encoder system behaves as a perceptual L/R encoder for encoding the L, R stereo input band.

Система кодера по фиг. 1 позволяет осуществлять плавное адаптивное переключение между L/R-кодированием и PS-кодированием с остаточным сигналом, зависящим от частоты и от времени образом. Система кодера избегает неоднородностей в форме сигнала при переключении между схемами кодирования. Это препятствует появлению артефактов. С целью достижения гладких переходов к элементам матрицы H–1 в кодере и матрицы Н в декодере для дискретных значений между двумя модификациями стереофонических параметров может применяться линейная интерполяция.The encoder system of FIG. 1 allows smooth adaptive switching between L/R coding and PS coding with residual signal in a frequency- and time-dependent manner. The encoder system avoids discontinuities in the waveform when switching between encoding schemes. This prevents artifacts from appearing. In order to achieve smooth transitions to the elements of the matrix H –1 in the encoder and the matrix H in the decoder for discrete values between two modifications of the stereo parameters, linear interpolation can be applied.

На фиг. 2 показан один из вариантов осуществления PS-кодера 1. PS-кодер 1 включает этап 8 понижающего микширования, который на основе стереофонического сигнала L, R генерирует низведенный сигнал DMX и остаточный сигнал RES. Кроме того, PS-кодер 1 включает этап 9 оценки параметров, предназначенный для оценки параметров 5 PS-кодирования на основе стереофонического сигнала L, R.In FIG. 2 shows one embodiment of the PS encoder 1. The PS encoder 1 includes a downmix step 8 which, based on the stereo signal L, R, generates a downmix DMX signal and a residual signal RES. In addition, the PS encoder 1 includes a parameter estimation step 9 for estimating the PS encoding parameters 5 based on the stereo signal L, R.

На фиг. 3 показан один из вариантов осуществления соответствующей системы декодера, сконфигурированной для декодирования битового потока 6, генерируемого системой кодера по фиг. 1. Этот вариант осуществления изобретения является лишь иллюстрацией принципов настоящей заявки. Следует понимать, что модификации и изменения этого варианта осуществления изобретения будут очевидны для специалистов в данной области. Система декодера включает демультиплексор 10, предназначенный для разделения параметров 5 PS-кодирования и битового потока 4 звукового сигнала, генерируемых перцептуальным кодером 3. Битовый поток 4 звукового сигнала подается в перцептуальный стереофонический декодер 11, который способен селективно декодировать L/R-кодированный битовый поток, или M/S-кодированный битовый поток звукового сигнала. Операции декодера 11 обратны по отношению к операциям кодера 3. Аналогично перцептуальному кодеру 3, перцептуальный декодер 11, предпочтительно, позволяет осуществлять зависящую от частоты и зависящую от времени схему кодирования. Некоторые полосы частот, подвергнутые L/R-кодированию кодером 3, подвергаются L/R-декодированию декодером 11, в то время как другие полосы частот, подвергнутые M/S-кодированию кодером 3, подвергаются M/S-декодированию декодером 11. Декодер 11 выводит псевдо-стереофонический сигнал Lp, Rp, который до этого являлся входным сигналом перцептуального кодера 3. Псевдо-стереофонический сигнал Lp, Rp, получаемый из перцептуального декодера 11, конвертируется обратно в низведенный сигнал DMX и остаточный сигнал RES посредством этапа 12 преобразования L/R в M/S. Операции этапа 12 преобразования L/R в M/S на стороне декодера обратны операциям этапа 2 преобразования на стороне кодера. Предпочтительно, этап 12 преобразования определяет низведенный сигнал DMX и остаточный сигнал RES в соответствии со следующими уравнениями:In FIG. 3 shows one embodiment of a corresponding decoder system configured to decode bitstream 6 generated by the encoder system of FIG. 1. This embodiment of the invention is only an illustration of the principles of the present application. It should be understood that modifications and variations of this embodiment of the invention will be apparent to those skilled in the art. The decoder system includes a demultiplexer 10 for separating the PS encoding parameters 5 and the audio bitstream 4 generated by the perceptual encoder 3. The audio bitstream 4 is supplied to the perceptual stereo decoder 11, which is capable of selectively decoding the L/R encoded bitstream, or M/S-encoded audio bitstream. The operations of the decoder 11 are inverse to those of the encoder 3. Like the perceptual encoder 3, the perceptual decoder 11 preferably allows a frequency-dependent and a time-dependent coding scheme to be implemented. Some frequency bands L/R encoded by encoder 3 are L/R decoded by decoder 11, while other frequency bands M/S encoded by encoder 3 are M/S decoded by decoder 11. Decoder 11 outputs the pseudo-stereo signal L p , R p , which was previously input to the perceptual encoder 3. The pseudo-stereo signal L p , R p received from the perceptual decoder 11 is converted back into the downmixed DMX signal and the residual signal RES by step 12 L/R to M/S conversions. The operations of L/R to M/S conversion step 12 on the decoder side are inverse to those of the conversion step 2 on the encoder side. Preferably, conversion step 12 determines the downmix signal DMX and the residual signal RES according to the following equations:

Figure 00000020
.
Figure 00000020
.

В приведенных выше уравнениях нормировочный коэффициент усиления g идентичен нормировочному коэффициенту усиления g на стороне кодера и, например, имеет значение

Figure 00000021
.In the equations above, the normalization gain g is identical to the normalization gain g at the encoder side and, for example, has the value
Figure 00000021
.

Низведенный сигнал DMX и остаточный сигнал RES затем обрабатываются PS-декодером 13 для получения конечных выходных сигналов L и R. Этап повышающего микширования в процессе декодирования в случае PS-кодирования с остаточным сигналом можно описать при помощи матрицы Н повышающего микширования размера 2×2, которая конвертирует низведенный сигнал DMX и остаточный сигнал RES обратно в каналы L и R:The downmix signal DMX and the residual signal RES are then processed by the PS decoder 13 to obtain the final L and R output signals. converts the downmixed DMX signal and the residual RES signal back into the L and R channels:

Figure 00000022
.
Figure 00000022
.

Вычисление элементов матрицы Н повышающего микширования уже обсуждалось выше.The calculation of the elements of the upmix matrix H has already been discussed above.

Процессы PS-кодирования и PS-декодирования в PS-кодере 1 и PS-декодере 13 предпочтительно осуществляются в передискретизированной частотной области. Для частотно-временного преобразования в восходящем направлении относительно PS-кодера может использоваться гибридный блок комплекснозначных фильтров, содержащий QMF (квадратурный зеркальный фильтр) и фильтр Найквиста, такой как, например, блок фильтров, описанный в стандарте MPEG Surround (см. документ ISO/IEC 23003-1). Представление сигнала комплексным QMF является передискретизированным в 2 раза, поскольку оно является комплекснозначным и не действительнозначным. Это позволяет осуществлять адаптивную по времени и частоте обработку сигнала без слышимых артефактов наложения спектров. Указанный гибридный блок фильтров, как правило, обеспечивает высокое разрешение по частоте (узкую полосу) при низких частотах, в то время как при высоких частотах несколько полос QMF группируются в более широкую полосу. Статья "Low Complexity Parametric Stereo Coding in MPEG-4", H. Purnhagen, Proc. of the 7th Int. Conference on Digital Audio Effects (DAFx'04), Naples, Italy, October 5-8, 2004, pages 163-168, описывает вариант осуществления гибридного блока фильтров (см. раздел 3.2 и фиг. 4). Это раскрытие ссылкой включается в настоящее описание. В указанном документе допускается частота дискретизации 48 кГц с (номинальной) шириной полосой пропускания полосы из 64-полосного блока QMF 375 Гц. Перцептуальная шкала частот Барка, однако, требует ширины полосы пропускания, приблизительно, 100 Гц для частот ниже 500 Гц. Поэтому первые 3 полосы QMF могут быть расщеплены на еще более узкие поддиапазоны посредством блока фильтров Найквиста. Первая полоса QMF может быть расщеплена на 4 полосы (плюс еще две для отрицательных частот), а вторая и третья полосы QMF могут быть расщеплены на две полосы каждая.The PS encoding and PS decoding processes in the PS encoder 1 and PS decoder 13 are preferably carried out in the oversampled frequency domain. For upstream time-frequency conversion with respect to the PS encoder, a hybrid complex-valued filter bank containing a QMF (Quadrature Mirror Filter) and a Nyquist filter, such as, for example, the filter bank described in the MPEG Surround standard, can be used (see ISO/IEC document 23003-1). The complex QMF representation of the signal is resampled by a factor of 2 because it is complex-valued and not real-valued. This allows time and frequency adaptive signal processing without audible aliasing artifacts. This hybrid filter bank typically provides high frequency resolution (narrow band) at low frequencies, while at high frequencies multiple QMF bands are grouped into a wider band. Article "Low Complexity Parametric Stereo Coding in MPEG-4", H. Purnhagen, Proc. of the 7th Int. Conference on Digital Audio Effects (DAFx'04), Naples, Italy, October 5-8, 2004, pages 163-168, describes an embodiment of a hybrid filter bank (see section 3.2 and FIG. 4). This disclosure is incorporated herein by reference. The referenced document allows a sampling rate of 48 kHz with a (nominal) bandwidth from a 64-band QMF block of 375 Hz. Bark's perceptual frequency scale, however, requires a bandwidth of approximately 100 Hz for frequencies below 500 Hz. Therefore, the first 3 QMF bands can be split into even narrower subbands by means of a Nyquist filter bank. The first QMF band can be split into 4 bands (plus two more for negative frequencies), and the second and third QMF bands can be split into two bands each.

С другой стороны, адаптивное L/R- или M/S-кодирование предпочтительно осуществляется в области критически дискретизированного MDCT (как описано, например, в ААС) для того, чтобы обеспечить эффективное представление квантованного сигнала. Конверсия низведенного сигнала DMX и остаточного сигнала RES в псевдо-стереофонический сигнал Lp, Rp на этапе 2 преобразования может осуществляться во временной области, поскольку PS-кодер 1 и перцептуальный кодер 3 в любом случае могут быть связаны во временной области. В системе декодирования перцептуальный стереофонический декодер 11 и PS-декодер 13 также предпочтительно связаны во временной области. Поэтому конверсия псевдо-стереофонического сигнала Lp, Rp в низведенный сигнал DMX и остаточный сигнал RES на этапе 12 преобразования также может осуществляться во временной области.On the other hand, adaptive L/R or M/S coding is preferably performed in the region of the critically sampled MDCT (as described, for example, in AAC) in order to provide an efficient representation of the quantized signal. The conversion of the downmix signal DMX and the residual signal RES into a pseudo-stereo signal L p , R p in the conversion step 2 can be done in the time domain since the PS encoder 1 and the perceptual encoder 3 can in any case be coupled in the time domain. In the decoding system, the perceptual stereo decoder 11 and the PS decoder 13 are also preferably coupled in the time domain. Therefore, the conversion of the pseudo-stereo signal L p , R p into the downmix signal DMX and the residual signal RES in the conversion step 12 can also be performed in the time domain.

Адаптивный стереофонический L/R- или M/S-кодер, такой как кодер 3, на фиг. 1, как правило, представляет собой перцептуальный кодер звукового сигнала, который включает психоакустическую модель, позволяющую с высокой эффективностью осуществлять кодирование при низких битовых скоростях передачи данных. Примером такого кодера является кодер ААС, который использует кодирование преобразования в критически дискретизированной области MDCT в сочетании с зависящим от времени и от частоты квантованием, которое управляется с использованием психоакустической модели. Кроме того, принятие зависящего от времени и от частоты решения о выборе между L/R- и M/S-кодированием, как правило, управляется при помощи критериев перцептуальной энтропии, которые вычисляются с использованием психоакустической модели.An adaptive stereo L/R or M/S encoder such as encoder 3 in FIG. 1 is typically a perceptual audio encoder that incorporates a psychoacoustic model to enable high-efficiency encoding at low bit rates. An example of such an encoder is an AAC encoder that uses MDCT critically sampled domain transform coding in combination with time- and frequency-dependent quantization that is driven using a psychoacoustic model. In addition, the time- and frequency-dependent decision to choose between L/R and M/S encoding is typically driven by perceptual entropy criteria that are computed using a psychoacoustic model.

Перцептуальный стереофонический кодер (такой как кодер 3 на фиг. 1) выполняет операции на псевдо-стереофоническом сигнале L/R (см. Lp, Rp на фиг. 1). Для оптимизации эффективности кодирования стереофонического кодера (в частности, для того, чтобы он принимал правильное решение о выборе между L/R-кодированием и M/S-кодированием) предпочтительна модификация механизма психоакустического управления (включая механизм управления, принимающий решение о выборе между стереофоническим L/R-кодированием и стереофоническим M/S-кодированием, механизм управления, который управляет зависящим от времени и от частоты квантованием) в перцептуальном стереофоническом кодере для того, чтобы он учитывал модификации сигнала (конверсию псевдо-L/R в DMX и RES с последующим PS-кодированием), которые применяются в декодере при генерировании конечного стереофонического выходного сигнала L, R. Эти модификации сигнала могут влиять на эффекты бинаурального маскирования, которые эксплуатируются механизмами психоакустического управления. Поэтому механизмы психоакустического управления, предпочтительно, должны быть надлежащим образом адаптированы. Для этого может оказаться полезным, чтобы механизмы психоакустического управления имели доступ не только к сигналу псевдо-L/R (см. Lp, Rp на фиг. 1), но и к параметрам PS-кодирования (см. позицию 5 на фиг. 1) и/или к оригинальному стереофоническому сигналу L, R. Доступ механизмов психоакустического управления к параметрам PS-кодирования и к стереофоническому сигналу L, R показан на фиг. 1 штриховой линией. Например, на основе этой информации может (могут) быть адаптирован (адаптированы) порог (пороги) маскирования.A perceptual stereo encoder (such as encoder 3 in FIG. 1) operates on a pseudo-stereo L/R signal (see L p , R p in FIG. 1). In order to optimize the coding efficiency of the stereo encoder (in particular, so that it makes the right choice between L/R encoding and M/S encoding), modification of the psychoacoustic control mechanism (including the control mechanism deciding between stereo L /R encoding and stereo M/S encoding, a control mechanism that controls the time- and frequency-dependent quantization) in the perceptual stereo encoder so that it takes into account signal modifications (pseudo-L/R conversion to DMX and RES followed by PS encoding) that are applied in the decoder when generating the final L, R stereo output signal. These signal modifications can affect the binaural masking effects that are exploited by the psychoacoustic control mechanisms. Therefore, psychoacoustic control mechanisms should preferably be suitably adapted. For this, it may be useful for psychoacoustic control mechanisms to have access not only to the pseudo-L/R signal (see L p , R p in Fig. 1), but also to the PS encoding parameters (see position 5 in Fig. 1) and/or the original L, R stereo signal. The access of the psychoacoustic control mechanisms to the PS encoding parameters and the L, R stereo signal is shown in FIG. 1 dashed line. For example, masking threshold(s) can be adapted based on this information.

Альтернативный подход к оптимизации психоакустического управления заключается в прибавлении к системе кодера детектора, формирующего этап деактивации, который обладает способностью при необходимости эффективно деактивировать PS-кодирование, предпочтительно, зависящим от времени и от частоты образом. Деактивация PS-кодирования является адекватной, например, тогда, когда ожидается, что стереофоническое L/R-кодирование будет более полезным, или когда психоакустическое управление может испытывать трудности с эффективным кодированием сигнала псевдо-L/R. PS-кодирование может быть эффективно деактивировано при задании матрицы Н–1 понижающего микширования таким образом, чтобы матрица Н–1 понижающего микширования с последующим преобразованием (см. этап 2 на фиг. 1) соответствовала единичной матрице (т.е. операции отождествления) или единичной матрице, умноженной на некоторый коэффициент. Например, PS-кодирование может эффективно деактивироваться путем принудительного присвоения параметрам PS-кодирования IID = 0 дБ и ICC = 0. В этом случае, как обсуждалось выше, псевдо-стереофонический сигнал Lp, Rp соответствует стереофоническому сигналу L, R.An alternative approach to optimizing psychoacoustic control is to add to the encoder system a deactivation step detector that has the ability to effectively deactivate PS encoding when needed, preferably in a time and frequency dependent manner. Deactivating PS encoding is appropriate, for example, when stereo L/R encoding is expected to be more useful, or when psychoacoustic control may have difficulty encoding the pseudo-L/R signal effectively. PS encoding can be effectively deactivated by specifying the downmix matrix H -1 such that the downmix matrix H -1 with subsequent transformation (see step 2 in FIG. 1) corresponds to the identity matrix (i.e., the matching operation) or identity matrix multiplied by some factor. For example, PS encoding can be effectively disabled by forcing the PS encoding parameters IID = 0 dB and ICC = 0. In this case, as discussed above, the pseudo-stereo signal L p , R p corresponds to the stereo signal L, R.

Указанное управление модификацией параметров PS-кодирования посредством детектора показано на фиг. 4. В данном случае детектор 20 принимает параметры 5 PS-кодирования, определяемые этапом 9 оценки параметров. Когда детектор не деактивирует PS-кодирование, детектор 20 пропускает параметры PS-кодирования на этап 8 понижающего микширования и к мультиплексору 7, т.е. в этом случае параметры 5 PS-кодирования соответствуют параметрам 5' PS-кодирования, подаваемым на этап 8 понижающего микширования. В случае, если детектор обнаруживает, что PS-кодирование неблагоприятно и должно быть деактивировано (для одной или нескольких частотных полос), детектор модифицирует затрагиваемые параметры 5 PS-кодирования (например, присваивает параметрам PS-кодирования, IID и/или ICC, значения IID = 0 дБ и ICC = 0) и подает модифицированные параметры 5' PS-кодирования на этап 8 понижающего микширования. Детектор, необязательно, также может учитывать левый и правый сигналы L, R для принятия решения о модификации параметров PS-кодирования (см. штриховые линии на фиг. 4).Said modification control of PS encoding parameters by the detector is shown in FIG. 4. In this case, the detector 20 receives the PS encoding parameters 5 determined by the parameter estimation step 9 . When the detector does not deactivate the PS encoding, the detector 20 passes the PS encoding parameters to the downmix step 8 and to the multiplexer 7, i.e. in this case, the PS encoding parameters 5 correspond to the PS encoding parameters 5' supplied to the downmix step 8. In the event that the detector detects that the PS encoding is unfavorable and should be deactivated (for one or more frequency bands), the detector modifies the affected PS encoding parameters 5 (eg, sets the PS encoding parameters, IID and/or ICC, to IID = 0 dB and ICC = 0) and feeds the modified PS encoding parameters 5' to the downmix step 8. The detector may optionally also take into account the left and right signals L, R to decide whether to modify the PS encoding parameters (see dashed lines in FIG. 4).

На нижеследующих фигурах термин QMF (квадратурный зеркальный фильтр или блок фильтров) также включает блок фильтров поддиапазонов QMF в сочетании с блоком фильтров Найквиста, т.е. конструкцию гибридного блока фильтров. Кроме того, все величины в нижеследующем описании могут быть зависящими от частоты, например, различные матрицы понижающего и повышающего микширования могут извлекаться для различных диапазонов частот. Кроме того, кодирование остаточного сигнала может покрывать только часть используемого диапазона частот звукового сигнала (т.е. остаточный сигнал кодируется лишь для части используемого диапазона частот звукового сигнала). Аспекты понижающего микширования, описываемые ниже, для некоторых частотных диапазонов могут проявляться в области QMF (например, в соответствии с известным уровнем техники), в то время как для других частотных диапазонов только, например, фазовые аспекты будут производиться в области комплексного QMF, а преобразование амплитуды будет производиться в области действительнозначного MDCT.In the following figures, the term QMF (quadrature mirror filter or filter bank) also includes the QMF subband filter bank in combination with the Nyquist filter bank, i.e. design of the hybrid filter unit. In addition, all quantities in the following description may be frequency dependent, for example, different downmix and upmix matrices may be derived for different frequency ranges. In addition, the residual signal encoding may cover only a portion of the usable audio frequency band (ie, the residual signal is encoded for only a portion of the usable audio frequency band). The downmixing aspects described below for some frequency bands may appear in the QMF domain (e.g., in accordance with the prior art), while for other frequency bands only, for example, the phase aspects will be in the complex QMF domain, and the conversion amplitude will be produced in the real-valued MDCT region.

На фиг. 5 изображена традиционная система PS-кодера. Каждый из стереофонических каналов L, R в первую очередь анализируется комплексным QMF 30 с М поддиапазонов, например, QMF с М=64 поддиапазонами. Сигналы поддиапазонов используются в PS-кодере 31 для оценки параметров 5 PS-кодирования и низведенного сигнала DMX. Низведенный сигнал DMX используется в SBR-кодере 32 для оценки параметров 33 SBR (репликации спектральной полосы). SBR-кодер 32 извлекает параметры 33 SBR, отображающие огибающую спектра оригинального высокополосного сигнала, возможно, в сочетании с критериями шума и тональности. В отличие от PS-кодера 31, SBR-кодер 32 не оказывает влияния на сигнал, проходящий к базовому кодеру 34. Низведенный сигнал DMX PS-кодера 31 синтезируется с использованием обратного QMF 35 с N поддиапазонами. Например, может использоваться комплексный QMF c N=32, где синтезируются только 32 самых низких поддиапазона из 64 поддиапазонов, используемых PS-кодером 31 и SBR-кодером 32. Таким образом, при использовании половины от общего количества поддиапазонов при том же размере кадра получается и проходит в базовый кодер 34 сигнал во временной области, содержащий половину ширины полосы пропускания в сравнении с входным сигналом. Из-за уменьшенной ширины полосы пропускания частота дискретизации может быть уменьшена наполовину (не показано). Базовый кодер 34 преобразовывает перцептуальное кодирование монофонического входного сигнала для генерирования битового потока 36. Параметры PS-кодирования внедряются в битовый поток 36 при помощи мультиплексора (не показан).In FIG. 5 shows a conventional PS encoder system. Each of the stereo channels L, R is first analyzed by a complex QMF of 30 with M subbands, eg a QMF with M=64 subbands. The subband signals are used in the PS encoder 31 to estimate the PS encoding parameters 5 and the downmix DMX signal. The downmix DMX signal is used in the SBR encoder 32 to estimate the SBR (spectral band replication) parameters 33 . The SBR encoder 32 extracts SBR parameters 33 representing the spectrum envelope of the original highband signal, possibly combined with noise and tone criteria. Unlike the PS encoder 31, the SBR encoder 32 does not affect the signal passing to the base encoder 34. The DMX downmix of the PS encoder 31 is synthesized using inverse QMF 35 with N subbands. For example, a complex QMF with N=32 can be used where only the 32 lowest subbands out of the 64 subbands used by PS encoder 31 and SBR encoder 32 are synthesized. passes to the core encoder 34 a time domain signal containing half the bandwidth of the input signal. Due to the reduced bandwidth, the sampling rate may be reduced by half (not shown). Core encoder 34 converts the perceptual encoding of the mono input signal to generate bitstream 36. The PS encoding parameters are embedded in bitstream 36 using a multiplexer (not shown).

На фиг. 6 показан следующий вариант осуществления системы кодера, которая объединяет PS-кодирование с использованием остаточного сигнала со стереофоническим базовым кодером 48, где стереофонический базовый кодер 48 пригоден для адаптивного перцептуального стереофонического L/R- и M/S-кодирования. Этот вариант осуществления изобретения является лишь иллюстрацией принципов настоящей заявки. Следует понимать, что модификации и изменения этого варианта осуществления изобретения будут очевидны для специалистов в данной области. Входные каналы L, R, представляющие оригинальные левый и правый каналы, анализируются комплексным QMF 30 способом, сходным с обсужденным в связи с фиг. 5. В отличие от PS-кодера 31 по фиг. 5, PS-кодер 41 по фиг. 6 не только выводит низведенный сигнал DMX, но также выводит и остаточный сигнал RES. Низведенный сигнал DMX используется SBR-кодером 32 для определения параметров 33 SBR низведенного сигнала DMX. На этапе 2 преобразования к низведенному DMX и остаточному RES сигналам применяется фиксированное преобразование DMX/RES в псевдо-L/R (например, преобразование M/S в L/R). Этап 2 преобразования на фиг. 6 соответствует этапу 2 преобразования на фиг. 1. Этап 2 преобразования создает сигнал Lp, Rp «псевдо-» левого и правого каналов для выполнения на них операций базовым кодером 48. В этом варианте осуществления изобретения обратное преобразование L/R в M/S применяется в области QMF перед синтезом поддиапазонов блоками фильтров 35. Предпочтительно количество N (например, N=32) поддиапазонов для синтеза соответствует половине количества М (например, М=64) поддиапазонов, используемых для анализа, и базовый кодер 48 выполняет операции на половинной частоте дискретизации. Следует отметить, что нет ограничений для использования 64 каналов поддиапазонов для QMF-анализа в кодере и 32 поддиапазонов для синтеза, так же возможны и другие значения в зависимости от того, какая частота дискретизации желательна для сигнала, принимаемого базовым кодером 48. Базовый стереофонический кодер 48 выполняет перцептуальное кодирование сигнала блоков фильтров 35 для генерирования сигнала 46 битового потока. Параметры 5 PS-кодирования внедряются в сигнал 46 битового потока посредством мультиплексора (не показан). Необязательно, базовым кодером 48 могут использоваться параметры PS-кодирования и/или оригинальный входной сигнал L/R. Эта информация указывает базовому кодеру 48 на то, как PS-кодер 41 вращается в стереофоническом пространстве. Эта информация может направлять базовый кодер 48 на то, как управлять квантованием оптимальным с точки зрения восприятия образом. Это показано на фиг. 6 штриховыми линиями.In FIG. 6 shows a further embodiment of an encoder system that combines PS coding using a residual signal with a stereo core encoder 48, where the stereo core encoder 48 is suitable for adaptive perceptual stereo L/R and M/S coding. This embodiment of the invention is only an illustration of the principles of the present application. It should be understood that modifications and variations of this embodiment of the invention will be apparent to those skilled in the art. The L, R input channels representing the original left and right channels are analyzed by the complex QMF 30 in a manner similar to that discussed in connection with FIG. 5. In contrast to the PS encoder 31 of FIG. 5, the PS encoder 41 of FIG. 6 not only outputs the downmixed DMX signal, but also outputs the residual RES signal. The downmixed DMX signal is used by the SBR encoder 32 to determine the SBR parameters 33 of the downmixed DMX signal. In conversion step 2, a fixed DMX/RES to pseudo-L/R conversion (eg, M/S to L/R conversion) is applied to the downmixed DMX and residual RES signals. Step 2 of the conversion in FIG. 6 corresponds to conversion step 2 in FIG. 1. Transform step 2 generates the "pseudo" left and right channel signal L p , R p to be operated on by core encoder 48. In this embodiment, an inverse L/R to M/S transform is applied in the QMF domain prior to subband synthesis. filter banks 35. Preferably, the number N (eg, N=32) of subbands for synthesis corresponds to half the number of M (eg, M=64) subbands used for analysis, and core encoder 48 operates at half the sample rate. It should be noted that there is no limit to using 64 subband channels for QMF analysis in the encoder and 32 subbands for synthesis, and other values are possible depending on what sampling rate is desired for the signal received by the core encoder 48. Basic stereo encoder 48 performs perceptual encoding of the filter bank signal 35 to generate a bitstream signal 46 . The PS encoding parameters 5 are embedded in the bitstream signal 46 by a multiplexer (not shown). Optionally, the base encoder 48 may use the PS encoding parameters and/or the original L/R input signal. This information indicates to the base encoder 48 how the PS encoder 41 rotates in stereo space. This information may guide core encoder 48 on how to manage quantization in a perceptually optimal manner. This is shown in FIG. 6 dashed lines.

На фиг. 7 показан следующий вариант осуществления системы кодера, которая сходна с системой по фиг. 6. В отличие от варианта осуществления изобретения по фиг. 6, на фиг. 7 SBR-кодер 42 присоединяется в восходящем направлении относительно PS-кодера 41. На фиг. 7 SBR-кодер 42 помещается перед PS-кодером 41 и, таким образом, выполняет операции на левом и правом каналах (в данном случае, в области QMF) вместо того, чтобы, как на фиг. 6, выполнять операции на низведенном сигнале DMX.In FIG. 7 shows a further embodiment of an encoder system that is similar to the system of FIG. 6. In contrast to the embodiment of the invention according to FIG. 6, in FIG. 7, the SBR encoder 42 is attached in the upstream direction relative to the PS encoder 41. In FIG. 7, the SBR encoder 42 is placed in front of the PS encoder 41 and thus performs operations on the left and right channels (in this case, in the QMF region) instead of, as in FIG. 6, perform operations on the downmixed DMX signal.

По причине перестановки SBR-кодера 42, PS-кодер 41 может конфигурироваться для выполнения операций не на всей полосе пропускания входного сигнала, но, например, лишь на диапазоне частот ниже частоты перехода SBR. На фиг. 7 параметры 43 SBR для диапазона SBR находятся в стереофоническом пространстве, а выход соответствующего PS-декодера, как будет обсуждаться позднее в связи с фиг. 15, генерирует исходный стереофонический частотный диапазон для выполнения операций SBR-декодером. Эта модификация, т.е. присоединение модуля 42 SBR-кодера в восходящем направлении относительно модуля 41 PS-кодера в системе кодера, и, соответственно, размещение модуля SBR-декодера после PS-декодера в системе декодера (см. фиг. 15), имеет преимущество, которое заключается в том, что можно уменьшить использование декоррелированного сигнала для генерирования стереофонического выходного сигнала. Следует отметить, что в случае полного отсутствия остаточного сигнала или его отсутствия для конкретной полосы частот, вместо него в PS-декодере используется декоррелированная версия низведенного сигнала DMX. Однако реконструкция, основанная на декоррелированном сигнале снижает качество звука. Поэтому уменьшение использования декоррелированного сигнала приводит к увеличению качества звука.Due to the permutation of the SBR encoder 42, the PS encoder 41 may be configured to operate not over the entire bandwidth of the input signal, but, for example, only at a frequency range below the SBR transition frequency. In FIG. 7, the SBR parameters 43 for the SBR band are in stereo space, and the output of the corresponding PS decoder, as will be discussed later in connection with FIG. 15 generates an original stereo frequency band for operation by the SBR decoder. This modification, ie. attaching the SBR encoder module 42 in the upstream direction relative to the PS encoder module 41 in the encoder system, and accordingly placing the SBR decoder module after the PS decoder in the decoder system (see FIG. 15), has the advantage that , which can reduce the use of a decorrelated signal to generate a stereo output signal. It should be noted that if there is no or no residual signal for a particular frequency band, the PS decoder uses a decorrelated version of the downmixed DMX signal instead. However, the reconstruction based on the decorrelated signal reduces the sound quality. Therefore, reducing the use of the decorrelated signal leads to an increase in audio quality.

Указанное преимущество варианта осуществления изобретения по фиг. 7 по сравнению с вариантом осуществления изобретения по фиг. 6 будет более подробно описано с отсылкой к фиг. 8а-8d.This advantage of the embodiment of the invention according to FIG. 7 compared to the embodiment of the invention of FIG. 6 will be described in more detail with reference to FIG. 8a-8d.

На фиг. 8а визуализировано частотно-временное представление одного из двух выходных каналов L, R (на стороне декодера). В случае фиг. 8а используется кодер, где модуль PS-кодирования размещается перед модулем SBR-кодирования, как в кодере по фиг. 5 или фиг. 6 (в декодере PS-декодер размещается после SBR-декодера, см. фиг. 14). Кроме того, остаточный сигнал кодируется только в частотном диапазоне 50 с низкой полосой пропускания, который является меньшим, чем частотный диапазон 51 базового кодера. Как видно из визуализации по фиг. 8а, частотный диапазон 52, где декоррелированный сигнал, который должен использоваться PS-декодером, покрывает весь частотный диапазон, кроме менее высокочастотного диапазона 50, покрываемого путем использования остаточного сигнала. Кроме того, SBR покрывает частотный диапазон 53, который начинается значительно выше, чем частотный диапазон декоррелированного сигнала. Таким образом, полный частотный диапазон разделяется на следующие частотные диапазоны: в более низкочастотном диапазоне (см. диапазон 50 на фиг. 8а) используется кодирование формы сигнала; в среднем частотном диапазоне (см. область пересечения частотных диапазонов 51 и 52) используется кодирование формы сигнала в комбинации с декоррелированным сигналом; и в более высокочастотном диапазоне (см. частотный диапазон 53) используется регенерированный сигнал SBR, регенерируемый из более низких частот, в сочетании с декоррелированным сигналом, который генерируется PS-декодером.In FIG. 8a shows the time-frequency representation of one of the two output channels L, R (on the decoder side). In the case of FIG. 8a, an encoder is used where the PS encoding module is placed before the SBR encoding module, as in the encoder of FIG. 5 or FIG. 6 (in the decoder, the PS decoder is placed after the SBR decoder, see FIG. 14). In addition, the residual signal is encoded only in the low bandwidth frequency band 50, which is smaller than the base encoder frequency band 51. As seen from the visualization of Fig. 8a, frequency range 52, where the decorrelated signal to be used by the PS decoder covers the entire frequency range except for the lower frequency range 50 covered by using the residual signal. In addition, the SBR covers a frequency range of 53 that starts much higher than the decorrelated signal's frequency range. Thus, the entire frequency range is divided into the following frequency ranges: in the lower frequency range (see range 50 in Fig. 8a), waveform coding is used; in the middle frequency range (see the area of intersection of frequency ranges 51 and 52), waveform coding is used in combination with a decorrelated signal; and in the higher frequency band (see frequency band 53) a regenerated SBR signal regenerated from lower frequencies is used in combination with a decorrelated signal which is generated by the PS decoder.

На фиг. 8b частотно-временное представление одного из двух выходных каналов L, R (на стороне декодера) визуализировано для случая, когда SBR-кодер присоединяется в восходящем направлении относительно PS-кодера в системе кодера (и SBR-декодер располагается после PS-декодера в системе декодера). На фиг. 8b показан сценарий с низкой битовой скоростью передачи данных, где полоса пропускания 60 остаточного сигнала (там, где выполняется кодирование остаточного сигнала) находится ниже полосы пропускания базового кодера 61. Поскольку процесс SBR-декодирования выполняется на стороне декодера после PS-декодера (см. фиг. 15), остаточный сигнал, используемый для низких частот, также используется и для реконструкции, по меньшей мере, части (см. частотный диапазон 64) более высоких частот в диапазоне 63 SBR.In FIG. 8b, a time-frequency representation of one of the two output channels L, R (at the decoder side) is rendered for the case where the SBR encoder is attached upstream of the PS encoder in the encoder system (and the SBR decoder is located after the PS decoder in the decoder system). ). In FIG. 8b shows a low bit rate scenario where the residual signal bandwidth 60 (where the residual signal is coded) is below the bandwidth of the core encoder 61. Since the SBR decoding process is performed on the decoder side after the PS decoder (see FIG. 15), the residual signal used for the low frequencies is also used to reconstruct at least a portion (see frequency band 64) of the higher frequencies in the 63 SBR band.

Это преимущество становится еще более очевидным при выполнении операции на промежуточных битовых скоростях передачи данных, где ширина полосы пропускания остаточного сигнала приближается к, или становится равной, ширине полосы пропускания базового кодера. В этом случае частотно-временное представление по фиг. 8а (где используется порядок PS-кодирования и SBR-кодирования по фиг. 6) приводит к частотно-временному представлению, показанному на фиг. 8с. На фиг. 8с остаточный сигнал покрывает, в значительной мере, весь низкополосный диапазон 51 базового кодера; в частотном диапазоне 53 SBR PS-декодером используется декоррелированный сигнал. На фиг. 8d визуализировано частотно-временное представление в случае предпочтительного порядка расположения кодирующих/декодирующих модулей (т.е. SBR-кодирование выполняется на стереофоническом сигнале перед PS-кодированием, как показано на фиг. 7). В данном случае модуль PS-декодирования в декодере выполняет операции перед модулем SBR-декодирования, как показано на фиг. 15. Таким образом, остаточный сигнал является частью низкочастотной полосы, используемой для высокочастотной реконструкции. Когда ширина полосы пропускания остаточного сигнала становится равной ширине полосы пропускания низведенного монофонического сигнала, никакая информация декоррелированного сигнала для декодера выходного сигнала не требуется (см. полный частотный диапазон, который на фиг. 8d заштрихован).This advantage becomes even more pronounced when operating at intermediate bit rates, where the residual signal bandwidth approaches or becomes equal to the bandwidth of the base encoder. In this case, the time-frequency representation of FIG. 8a (using the order of PS encoding and SBR encoding of FIG. 6) results in the time-frequency representation shown in FIG. 8s. In FIG. 8c, the residual signal covers substantially the entire low-band range 51 of the core encoder; in the 53 SBR frequency band, the PS decoder uses a decorrelated signal. In FIG. 8d visualizes the time-frequency representation in the case of the preferred order of encoder/decoder modules (i.e., SBR encoding is performed on the stereo signal before PS encoding, as shown in FIG. 7). In this case, the PS decoding module in the decoder performs operations before the SBR decoding module, as shown in FIG. 15. Thus, the residual signal is part of the low frequency band used for the high frequency reconstruction. When the bandwidth of the residual signal becomes equal to the bandwidth of the downmixed mono signal, no decorrelated signal information is needed for the output decoder (see full frequency range, which is shaded in FIG. 8d).

На фиг. 9а показан вариант осуществления базового стереофонического кодера 48 с адаптивным выбором стереофонического L/R- или M/S-кодирования в области MDCT-преобразования. Указанный стереофонический кодер 48 может быть использован на фиг. 6 и 7. Базовый монофонический кодер 34, показанный на фиг. 5, можно рассматривать как частный случай базового стереофонического кодера 48 по фиг. 9а, в котором обрабатывается только один монофонический входной канал (т.е. тогда, когда отсутствует второй входной канал, показанный на фиг. 9а штриховой линией).In FIG. 9a shows an embodiment of a basic stereo encoder 48 with adaptive selection of stereo L/R or M/S coding in the MDCT transform domain. Said stereo encoder 48 may be used in FIG. 6 and 7. The basic mono encoder 34 shown in FIG. 5 can be seen as a special case of the basic stereo encoder 48 of FIG. 9a, in which only one mono input channel is processed (i.e., when there is no second input channel, shown in dashed line in FIG. 9a).

На фиг. 9b показан более обобщенный кодер. Для монофонических сигналов кодирование может переключаться между кодированием в области линейного предсказания (см. блок 71) и кодированием в области преобразования (см. блок 48). Кодер этого типа вводит несколько способов кодирования, которые могут адаптивно использоваться в зависимости от характеристик входного сигнала. В данном случае кодер может делать выбор между кодированием сигнала с использованием кодера 48 с преобразованием ААС-типа (пригодного для монофонических и стереофонических сигналов, с адаптивным выбором L/R- или M/S-кодирования в случае стереофонических сигналов) и с использованием кодера 71, относящегося к типу AMR-WB+ (Adaptive Multi Rate - WideBand Plus), пригодного только для монофонических сигналов. Базовый кодер 71 AMR-WB+ оценивает остаточный сигнал линейного предсказателя 72 и, в свою очередь, также делает выбор между подходом кодирования преобразования остаточного сигнала линейного предсказания и классическим подходом речевого кодера ACELP (Algebraic Code Excited Linear Prediction) для кодирования остаточного сигнала линейного предсказания. Для выбора между кодером 48 с преобразованием ААС-типа и базовым кодером 71, относящимся к типу AMR-WB+, используется этап 73 принятия решения о выборе режима, который принимает решение о выборе между кодерами 48 и 71 на основе входного сигнала.In FIG. 9b shows a more general encoder. For mono signals, the coding may switch between linear prediction domain coding (see block 71) and transform domain coding (see block 48). This type of encoder introduces several coding methods that can be used adaptively depending on the characteristics of the input signal. In this case, the encoder can choose between encoding the signal using encoder 48 with an AAC-type transform (suitable for mono and stereo signals, with adaptive selection of L/R or M/S encoding in the case of stereo signals) and using encoder 71 of the AMR-WB+ (Adaptive Multi Rate - WideBand Plus) type, suitable for mono signals only. The core AMR-WB+ encoder 71 evaluates the residual signal of the linear predictor 72 and in turn also chooses between the transform coding approach of the linear prediction residual signal and the classic ACELP (Algebraic Code Excited Linear Prediction) speech encoder approach for encoding the linear prediction residual signal. To select between AAC-type transform encoder 48 and AMR-WB+ type core encoder 71, a mode selection decision step 73 is used, which decides between encoders 48 and 71 based on the input signal.

Кодер 48 представляет собой кодер ААС-типа на основе MDCT. Если этап 73 принятия решения о выборе режима направляет входной сигнал на использование кодирования на основе MDCT, сигналы, входной монофонический входной сигнал или стереофонические входные сигналы, кодируются MDCT-кодером 48 на базе ААС. MDCT-кодер 48 выполняет MDCT-анализ одного или двух сигналов на этапах MDCT 74. В случае стереофонического сигнала на этапе 75 перед квантованием и кодированием также выполняется принятие решения о выборе M/S или L/R на основании полосы частот. Стереофоническое L/R-кодирование или стереофоническое M/S-кодирование выбирается зависящим от частоты образом. Этап 75 также выполняет преобразование L/R в M/S. Если для конкретной полосы частот принимается решение о M/S-кодировании, этап 75 выводит для этой полосы частот сигнал M/S. В противном случае этап 75 выводит для этой полосы частот сигнал L/R.Encoder 48 is an AAC-type MDCT-based encoder. If the mode decision step 73 directs the input signal to use MDCT-based coding, the signals, the mono input signal or the stereo input signals, are encoded by the AAC-based MDCT encoder 48 . MDCT encoder 48 performs MDCT analysis of one or two signals in MDCT steps 74. In the case of a stereo signal, step 75 also makes M/S or L/R selection based on bandwidth before quantization and encoding. Stereo L/R coding or stereo M/S coding is selected in a frequency dependent manner. Step 75 also performs L/R to M/S conversion. If an M/S encoding decision is made for a particular frequency band, step 75 outputs an M/S signal for that frequency band. Otherwise, step 75 outputs an L/R signal for that frequency band.

Таким образом, если используется режим кодирования преобразования, функция стереофонического кодирования лежащего в ее основе базового кодера может быть использована для стереофонического сигнала с полной эффективностью.Thus, if a transform coding mode is used, the stereo coding function of the underlying base encoder can be used for the stereo signal with full efficiency.

Если этап 73 принятия решения о выборе режима направляет монофонический сигнал в кодер 71 в области линейного предсказания, монофонический сигнал затем анализируется посредством анализа линейного предсказания в блоке 72. Затем принимается решение о кодировании остаточного сигнала LP посредством кодера 76 ACELP-типа во временной области или кодером 77, относящимся к типу TCX (Transform Coded eXcitation), который выполняет операции в области MDCT. Кодер 71 в области линейного предсказания не обладает какой-либо присущей ему способностью к стереофоническому кодированию. Поэтому для того, чтобы позволить кодеру 71 в области линейного предсказания кодировать стереофонический сигнал, может быть использована конфигурация кодера, сходная с конфигурацией, приведенной на фиг. 5. В этой конфигурации PS-кодер генерирует параметры 5 PS-кодирования и низведенный монофонический сигнал DMX, который затем кодируется кодером в области линейного предсказания.If the mode decision step 73 sends the mono signal to the encoder 71 in the linear prediction domain, the mono signal is then analyzed by linear prediction analysis in block 72. It is then decided to encode the LP residual signal by the ACELP-type encoder 76 in the time domain or by the encoder 77 of the TCX (Transform Coded eXcitation) type, which performs operations in the MDCT region. The linear prediction encoder 71 does not have any inherent stereo coding capability. Therefore, in order to allow the encoder 71 in the linear prediction domain to encode a stereo signal, an encoder configuration similar to that shown in FIG. 5. In this configuration, the PS encoder generates PS encoding parameters 5 and a downmixed mono DMX signal, which is then encoded in the linear prediction domain by the encoder.

На фиг. 10 показан следующий вариант осуществления системы кодера, где части по фиг. 7 и фиг. 9 объединены по-новому. Блок 2 преобразования DMX/RES в псевдо-L/R, описанный на фиг. 7, располагается внутри низводящего кодера 70 ААС-типа перед этапом стереофонического MDCT-анализа 74. Этот вариант осуществления изобретения обладает тем преимуществом, что преобразование 2 DMX/RES в псевдо-L/R применяется только тогда, когда используется базовый стереофонический MDCT-кодер. Поэтому, когда используется режим кодирования преобразования, полная эффективность функции стереофонического кодирования лежащего в ее основе базового кодера может использоваться для стереофонического кодирования частотного диапазона, покрываемого остаточным сигналом.In FIG. 10 shows a further embodiment of an encoder system, where the parts of FIG. 7 and FIG. 9 combined in a new way. The DMX/RES to pseudo-L/R conversion unit 2 described in FIG. 7 is located within the AAC-type downstream encoder 70 prior to the stereo MDCT analysis step 74. This embodiment has the advantage that the 2 DMX/RES to pseudo-L/R conversion is applied only when a basic stereo MDCT encoder is used. Therefore, when the transform coding mode is used, the full performance of the stereo coding function of the underlying core encoder can be used to stereo code the frequency range covered by the residual signal.

В то время, как этап 73 принятия решения о выборе режима по фиг. 9b выполняет операции как на монофоническом входном сигнале, так и на стереофоническом входном сигнале, этап принятия решения 73' по фиг. 10 выполняет операции на низведенном сигнале DMX и остаточном сигнале RES. В случае монофонического входного сигнала, монофонический сигнал может непосредственно использоваться как сигнал DMX, сигнал RES может приравнивается нулю, и параметрам PS-кодирования по умолчанию могут присваиваться значения IID = 0 дБ и ICC = 1.While the mode selection decision step 73 of FIG. 9b performs operations on both the mono input signal and the stereo input signal, the decision step 73' of FIG. 10 performs operations on the downmix signal DMX and the residual signal RES. In the case of a mono input signal, the mono signal can be directly used as a DMX signal, the RES signal can be set to zero, and the default PS encoding parameters can be set to IID = 0 dB and ICC = 1.

Если этап 73' принятия решения о выборе режима направляет низведенный сигнал DMX в кодер 71 в области линейного предсказания, низведенный сигнал DMX затем анализируется посредством анализа линейного предсказания в блоке 72. Затем принимается решение о том, кодировать ли остаточный сигнал LP посредством кодера 76 ACELP-типа во временной области или посредством кодера 77, относящегося к типу TCX (Transform Coded eXcitation), который выполняет операции в области MDCT. Кодер 71 в области линейного предсказания не обладает какой-либо присущей ему способностью к стереофоническому кодированию, которая могла бы использоваться для кодирования остаточного сигнала в дополнение к низведенному сигналу DMX. Поэтому при кодировании низведенного сигнала DMX кодером 71 в области линейного предсказания для кодирования остаточного сигнала RES используется специализированный кодер 78 остаточного сигнала. Этот кодер может, например, представлять собой монофонический кодер ААС.If the mode decision step 73' sends the downmixed DMX signal to the encoder 71 in the linear prediction region, the downmixed DMX signal is then analyzed by linear prediction analysis in block 72. It is then decided whether to encode the residual LP signal by the encoder 76 ACELP- type in the time domain, or by means of an encoder 77 of the TCX (Transform Coded eXcitation) type, which performs operations in the MDCT domain. The linear prediction encoder 71 does not have any inherent stereo coding capability that could be used to encode the residual signal in addition to the downmixed DMX signal. Therefore, when encoding the downmixed DMX signal by the encoder 71 in the linear prediction region, a dedicated residual signal encoder 78 is used to encode the residual signal RES. This encoder may, for example, be a mono AAC encoder.

Следует отметить, что кодеры 71 и 78 по фиг. 10 могут быть пропущены (в этом случае этап 73' принятия решения о выборе режима более не является необходимым).It should be noted that the encoders 71 and 78 of FIG. 10 can be omitted (in which case the mode decision step 73' is no longer necessary).

На фиг. 11а показаны подробности следующего, альтернативного варианта осуществления системы кодера, который достигает тех же преимуществ, что и вариант осуществления изобретения по фиг. 10. В отличие от варианта по фиг. 10, на фиг.  11а преобразование 2 DMX/RES в псевдо-L/R размещается после MDCT-анализа 74 базового кодера 70, т.е. преобразование выполняется в области MDCT. Преобразование в блоке 2 является линейным и независящим от времени, и поэтому может размещаться после MDCT-анализа 74. Остальные блоки по фиг. 10, которые не показаны на фиг. 11, могут, необязательно, добавляться так же, как на фиг. 11а. В альтернативном варианте блоки MDCT-анализа 74 также могут размещаться после блока 2 преобразования.In FIG. 11a shows details of a further, alternative embodiment of an encoder system that achieves the same advantages as the embodiment of the invention of FIG. 10. In contrast to the embodiment of FIG. 10 in FIG. 11a, the DMX/RES to pseudo-L/R transform 2 is placed after the MDCT analysis 74 of the base encoder 70, i. e. the transformation is performed in the MDCT region. The transform in block 2 is linear and time independent and can therefore be placed after the MDCT analysis 74. The remaining blocks of FIG. 10 which are not shown in FIG. 11 may optionally be added in the same way as in FIG. 11a. Alternatively, the MDCT analysis blocks 74 may also be placed after the transform block 2.

На фиг. 11b проиллюстрирована одна из реализаций варианта осуществления изобретения по фиг. 11а. На фиг. 11b показана иллюстративная реализация этапа 75 выбора между M/S-кодированием и L/R-кодированием. Этап 75 включает этап 98 преобразования в сумму и разность (точнее, этап преобразования L/R в M/S), который принимает псевдо-стереофонический сигнал Lp, Rp. Этап 98 преобразования генерирует псевдо-средний/побочный сигнал Mp, Sp путем выполнения преобразования L/R в M/S. За исключением возможного коэффициента усиления, применяются следующие уравнения: Mp=DMX, Sp=RES.In FIG. 11b illustrates one implementation of the embodiment of the invention of FIG. 11a. In FIG. 11b shows an exemplary implementation of step 75 of selecting between M/S encoding and L/R encoding. Step 75 includes a sum and difference conversion step 98 (more specifically, an L/R to M/S conversion step) that receives a pseudo-stereo signal L p , R p . The transform step 98 generates a pseudo-mid/side signal M p , S p by performing an L/R to M/S transform. Except for possible gain, the following equations apply: M p =DMX, S p =RES.

Этап 75 принимает решение о выборе между L/R-кодированием и M/S-кодированием. На основе сделанного выбора выбирается (см. селекторный переключатель) или псевдо-стереофонический сигнал Lp, Rp, или псевдо-средний/побочный сигнал Mp, Sp, который кодируется в блоке 97 ААС. Следует отметить, что также могут использоваться два блока 97 ААС (не показанные на фиг. 11b), где первый блок 97 ААС предназначен для псевдо-стереофонического сигнала Lp, Rp, и второй блок 97 ААС предназначен для псевдо-среднего/побочного сигнала Mp, Sp. В этом случае выбор L/R или M/S делается путем выбора или выходного сигнала первого блока 97 ААС, или выходного сигнала второго блока 97 ААС.Step 75 decides between L/R encoding and M/S encoding. Based on the selection made, either the pseudo-stereo signal L p , R p , or the pseudo-middle/side signal M p , S p is selected (see selector switch), which is encoded in block 97 of the AAC. It should be noted that two AAC blocks 97 (not shown in FIG. 11b) can also be used, where the first AAC block 97 is for the pseudo stereo signal L p , R p , and the second AAC block 97 is for the pseudo mid/side signal. M p , S p . In this case, the choice of L/R or M/S is made by selecting either the output signal of the first block 97 AAC, or the output signal of the second block 97 AAC.

На фиг. 11с показан альтернативный вариант осуществления изобретения по фиг. 11а. В данном случае этап 2 преобразования в явном виде не используется. Вместо этого этап 2 преобразования и этап 75 объединяются в единый этап 75'. Низведенный сигнал DMX и остаточный сигнал RES подаются на этап 99 преобразования в сумму и разность (точнее, на этап преобразования DMX/RES в псевдо-L/R), составляющий часть этапа 75'. Этап 99 преобразования генерирует псевдо-стереофонический сигнал Lp, Rp. Этап 99 преобразования DMX/RES в псевдо-L/R по фиг. 11с сходен с этапом 98 преобразования L/R в M/S по фиг. 11b (за исключением, возможно, отличающегося коэффициента усиления). Тем не менее, на фиг. 11с выбор между M/S-декодированием и L/R-декодированием необходимо инвертировать относительно фиг. 11b. Следует отметить, что на фиг. 11b и 11с положение переключателя для выбора L/R или M/S показано в положении Lp/Rp,которое является верхним на фиг. 11b и нижним - на фиг. 11с. Так визуализируется представление об обратном значении выбора L/R или M/S.In FIG. 11c shows an alternative embodiment of the invention of FIG. 11a. In this case, step 2 of the transformation is not explicitly used. Instead, the conversion step 2 and step 75 are combined into a single step 75'. The downmix signal DMX and the residual signal RES are fed to a sum and difference conversion step 99 (more precisely, a DMX/RES to pseudo-L/R conversion step), which is part of step 75'. The conversion step 99 generates a pseudo-stereo signal L p , R p . The DMX/RES to pseudo-L/R conversion step 99 of FIG. 11c is similar to L/R to M/S conversion step 98 of FIG. 11b (except possibly for a different gain). However, in FIG. 11c, the choice between M/S decoding and L/R decoding needs to be inverted with respect to FIG. 11b. It should be noted that in FIG. 11b and 11c, the switch position for selecting L/R or M/S is shown at the L p /R p position, which is the top position in FIG. 11b and lower - in FIG. 11s. This visualizes the idea of the inverse meaning of choosing L/R or M/S.

Следует отметить, что на фиг. 11b и 11с для каждой полосы частот в области MDCT предпочтительно существует отдельный переключатель, и, таким образом, выбор между L/R и M/S может быть как зависящим от времени, так и зависящим от частоты. Иными словами, положение переключателя предпочтительно зависит от частоты. Этапы 98 и 99 преобразования могут преобразовывать весь используемый диапазон частот или только одну частотную полосу.It should be noted that in FIG. 11b and 11c, there is preferably a separate switch for each frequency band in the MDCT region, and thus the choice between L/R and M/S can be either time dependent or frequency dependent. In other words, the switch position preferably depends on the frequency. The conversion steps 98 and 99 may convert the entire usable frequency range or only one frequency band.

Кроме того, следует учитывать, что все блоки, 2, 98 и 99, могут быть названы «блоками преобразования в сумму и разность», поскольку все эти блоки реализуют матрицу преобразования в формеAlso, note that all blocks 2, 98, and 99 can be referred to as "sum-and-difference transformation blocks" because these blocks all implement a transformation matrix of the form

Figure 00000023
.
Figure 00000023
.

Единственное, что может отличаться в блоках 2, 98, 99, — это коэффициент усиления с.The only thing that can be different in blocks 2, 98, 99 is the gain c.

На фиг. 12 описан следующий вариант осуществления системы кодера. Он использует расширенный набор параметров PS-кодирования, который, в дополнение к IID и ICC (описанным выше), включает еще два параметра: IPD (разность фаз между каналами, см.

Figure 00000024
ниже) и OPD (общую разность фаз, см. 
Figure 00000025
ниже), которые позволяют характеризовать фазовое соотношение между двумя каналами, L и R, стереофонического сигнала. Пример этих фазовых параметров приведен в стандарте ISO/IEC 14496-3, подпункт 8.6.4.6.3, который ссылкой включается в настоящее описание. При использовании фазовых параметров результирующая матрица
Figure 00000026
повышающего микширования (и обратная ей матрица
Figure 00000027
) становится комплекснозначной в соответствии с уравнением:In FIG. 12 describes the following embodiment of an encoder system. It uses an extended set of PS encoding parameters, which, in addition to IID and ICC (described above), includes two more parameters: IPD (Inter-Channel Phase Difference, see below).
Figure 00000024
below) and OPD (Total Phase Difference, see
Figure 00000025
below) that characterize the phase relationship between two channels, L and R, of a stereo signal. An example of these phase parameters is given in ISO/IEC 14496-3, subclause 8.6.4.6.3, which is incorporated herein by reference. When using phase parameters, the resulting matrix
Figure 00000026
upmix (and its inverse matrix
Figure 00000027
) becomes complex-valued according to the equation:

Figure 00000028
,
Figure 00000028
,

гдеWhere

Figure 00000029
,
Figure 00000029
,

и гдеand where

Figure 00000030
.
Figure 00000030
.

Этап 80 PS-кодера, который выполняет операции в области комплексного QMF, принимает во внимание только фазовые зависимости каналов L, R. Низводящий поворот (т.е. преобразование из области L/R в область DMX/RES, которая описывается приведенной выше матрицей Н–1) принимается во внимание в области MDCT, составляющего часть базового стереофонического кодера 81. Поэтому фазовые зависимости между двумя каналами извлекаются в области комплексного QMF, в то время как остальные, действительнозначные, зависимости формы сигналов извлекаются в действительнозначной области критически дискретизированного MDCT, составляющего часть механизма стереофонического кодирования используемого базового кодера. Это обладает тем преимуществом, что извлечение линейных зависимостей между каналами может быть плотно интегрировано в стереофоническое кодирование базового кодера (хотя, для предотвращения наложения спектров, в области критически дискретизированного MDCT, — только для диапазона частот, который покрывается кодированием остаточного сигнала, возможно, за вычетом «защитной полосы» на оси частот).The PS encoder step 80, which performs operations in the complex QMF domain, takes into account only the phase dependencies of the L, R channels. –1 ) is taken into account in the MDCT domain, which is part of the basic stereo encoder 81. Therefore, the phase dependencies between the two channels are extracted in the complex QMF domain, while the remaining real-valued waveform dependencies are extracted in the real-valued domain of the critically sampled MDCT, which is part of the the stereo encoding mechanism of the base encoder used. This has the advantage that the extraction of linear relationships between channels can be tightly integrated into the base encoder's stereo coding (although, to prevent aliasing, in the critically sampled MDCT region, only for the frequency range covered by the residual coding, possibly minus "guard band" on the frequency axis).

Этап 80 регулирования фазы PS-кодера по фиг. 12 извлекает параметры PS-кодирования, связанные с фазой, например, параметры IPD (разность фаз между каналами) и OPD (общую разность фаз). Поэтому матрица

Figure 00000031
регулирования фазы, которую он генерирует, может соответствовать следующему уравнению:Step 80 of adjusting the phase of the PS encoder of FIG. 12 extracts phase-related PS encoding parameters, such as IPD (inter-channel phase difference) and OPD (total phase difference) parameters. Therefore, the matrix
Figure 00000031
the phase control that it generates can correspond to the following equation:

Figure 00000032
.
Figure 00000032
.

Как обсуждалось выше, часть низводящего вращения модуля PS-кодирования имеет дело с модулем 81 стереофонического кодирования базового кодера по фиг. 12. Модуль 81 стереофонического кодирования, который выполняет операции в области MDCT, показан на фиг. 13. Модуль 81 стереофонического кодирования принимает стереофонический сигнал

Figure 00000033
с отрегулированной фазой в области MDCT. Этот сигнал подвергается понижающему микшированию на этапе 82 понижающего микширования посредством матрицы
Figure 00000034
низводящего вращения, которая, как обсуждалось выше, представляет собой действительнозначную часть комплексной матрицы
Figure 00000035
понижающего микширования, и, таким образом, генерируются низведенный сигнал DMX и остаточный сигнал RES. За операцией понижающего микширования следует преобразование L/R в M/S согласно настоящей заявке (см. этап 2 преобразования), и, таким образом, генерируется псевдо-стереофонический сигнал Lp, Rp. Псевдо-стереофонический сигнал Lp, Rp обрабатывается посредством алгоритма стереофонического кодирования (см. адаптивный стереофонический M/S- или L/R-кодер 83), в данном конкретном варианте осуществления изобретения механизм стереофонического кодирования, который зависит от критериев перцептуальной энтропии, принимает решение о кодировании L/R-представления сигнала или M/S-представления сигнала. Это решение предпочтительно зависит от времени и от частоты.As discussed above, the down-rotation portion of the PS encoding unit deals with the stereo encoding unit 81 of the core encoder of FIG. 12. A stereo encoding unit 81 that performs operations in the MDCT region is shown in FIG. 13. The stereo encoding module 81 receives a stereo signal
Figure 00000033
with adjusted phase in the MDCT region. This signal is downmixed in a downmix step 82 by a matrix
Figure 00000034
descending rotation, which, as discussed above, is the real-valued part of the complex matrix
Figure 00000035
downmix, and thus a downmixed DMX signal and a residual RES signal are generated. The downmix operation is followed by L/R to M/S conversion according to the present application (see conversion step 2), and thus a pseudo-stereo signal L p , R p is generated. The pseudo-stereo signal L p , R p is processed by a stereo coding algorithm (see adaptive stereo M/S or L/R encoder 83), in this particular embodiment, a stereo coding engine that depends on perceptual entropy criteria adopts deciding whether to encode the L/R representation of the signal or the M/S representation of the signal. This solution preferably depends on time and frequency.

На фиг. 14 показан вариант осуществления системы декодера, которая пригодна для декодирования битового потока 46, генерируемого системой кодера, показанной на фиг. 6. Этот вариант осуществления изобретения является лишь иллюстрацией принципов настоящей заявки. Следует понимать, что модификации и изменения этого варианта осуществления изобретения будут очевидны для специалистов в данной области. Базовый декодер 90 декодирует битовый поток 46 в псевдо-левый и псевдо-правый каналы, которые преобразовываются в область QMF блоками фильтров 91. Затем на этапе 12 преобразования выполняется преобразование полученного псевдо-стереофонического сигнала Lp, Rp из L/R в DMX/RES, и, таким образом, создаются низведенный сигнал DMX и остаточный сигнал RES. При использовании SBR-кодирования эти сигналы являются низкополосными сигналами, например, низведенный сигнал DMX и остаточный сигнал RES могут содержать только информацию о звуковом сигнале для низкочастотной полосы с частотой до, приблизительно, 8 КГц. Низведенный сигнал DMX используется SBR-декодером 93 для реконструкции высокочастотной полосы на основе принятых параметров SBR (не показаны). Выходной сигнал SBR-декодера 93 (включающий низкочастотную и реконструированную высокочастотную полосы низведенного сигнала DMX) и остаточный сигнал RES вводятся в PS-декодер 94, выполняющий операции в области QMF (в частности, в области гибридного блока QMF-фильтр + фильтр Найквиста). Низведенный сигнал DMX на входе PS-декодера 94 также содержит информацию о звуковом сигнале в высокочастотной полосе (например, с частотой до 20 КГц), в то время как остаточный сигнал RES на входе в PS-декодер 94 представляет собой низкополосный сигнал (например, ограниченный частотой до 8 КГц). Поэтому для высокочастотной полосы (например, для полосы с частотой от 8 КГц до 20 КГц) PS-декодер 94 вместо остаточного сигнала RES с ограниченной полосой использует декоррелированную версию низведенного сигнала DMX. Таким образом, декодированные сигналы на выходе PS-декодера 94 базируются на остаточном сигнале только до частоты 8 КГц. После PS-декодирования оба выходных канала PS-декодера 94 преобразовываются во временную область блоками фильтров 95, и, таким образом, генерируется выходной стереофонический сигнал L, R.In FIG. 14 shows an embodiment of a decoder system that is suitable for decoding bitstream 46 generated by the encoder system shown in FIG. 6. This embodiment of the invention is only an illustration of the principles of the present application. It should be understood that modifications and variations of this embodiment of the invention will be apparent to those skilled in the art. The base decoder 90 decodes the bit stream 46 into pseudo-left and pseudo-right channels, which are converted into the QMF region by filter banks 91. Then, in a conversion step 12, the received pseudo-stereo signal L p , R p is converted from L/R to DMX/ RES, and thus a downmixed DMX signal and a residual RES signal are created. When using SBR encoding, these signals are low-band signals, for example, the DMX downmix and the RES residual can only contain audio information for the low band up to about 8 kHz. The downmix DMX signal is used by the SBR decoder 93 to reconstruct the high frequency band based on the received SBR parameters (not shown). The output of the SBR decoder 93 (including the low and reconstructed high bands of the DMX downmix signal) and the residual signal RES are input to the PS decoder 94, which performs operations in the QMF region (in particular, in the QMF + Nyquist hybrid block region). The downmix DMX signal at the input of the PS decoder 94 also contains information about the audio signal in the high frequency band (for example, up to 20 kHz), while the residual signal RES at the input to the PS decoder 94 is a low-band signal (for example, limited frequency up to 8 kHz). Therefore, for the high frequency band (eg, the 8 kHz to 20 kHz band), the PS decoder 94 uses a decorrelated version of the downmix DMX signal instead of the bandlimited residual signal RES. Thus, the decoded signals at the output of the PS decoder 94 are based on the residual signal only up to 8 kHz. After PS decoding, both output channels of the PS decoder 94 are converted to the time domain by the filter banks 95, and thus a stereo L, R output signal is generated.

На фиг. 15 показан вариант осуществления системы декодирования, которая пригодна для декодирования битового потока 46, генерируемого системой кодера по фиг. 7. Этот вариант осуществления изобретения является единственно иллюстрацией принципов настоящей заявки. Следует понимать, что модификации и изменения этого варианта осуществления изобретения будут очевидны для специалистов в данной области. Принцип действия варианта осуществления изобретения по фиг. 15 сходен с принципом действия системы декодера, описанной на фиг. 14. В отличие от фиг. 14, SBR-декодер 96 на фиг. 15 располагается на выходе PS-декодера 14. Кроме того, SBR-декодер использует параметры SBR (на показаны), формирующие данные об огибающей спектра, в отличие от монофонических параметров SBR по фиг. 14. Низведенный и остаточный сигналы на входе PS-декодера 94, как правило, представляют собой низкополосные сигналы, например, низведенный сигнал DMX и остаточный сигнал RES могут содержать информацию о звуковом сигнале только для низкочастотной полосы, например, с частотой до, приблизительно, 8 КГц. На основе низкополосных низведенного сигнала DMX и остаточного сигнала RES PS-кодер 94 определяет низкополосный стереофонический сигнал, например с частотой до, приблизительно, 8 КГц. На основе низкополосного стереофонического сигнала и стереофонических параметров SBR, SBR-декодер 96 реконструирует высокочастотную часть стереофонического сигнала. По сравнению с вариантом осуществления изобретения по фиг. 14, вариант осуществления изобретения по фиг. 15 обеспечивает преимущество, которое заключается в том, что декоррелированный сигнал не требуется (см. также фиг. 8d), и, таким образом, достигается улучшенное качество звука, в то время как на фиг. 14 для высокочастотной части требуется декоррелированный сигнал (см. также фиг. 8с), что, таким образом, снижает качество звука.In FIG. 15 shows an embodiment of a decoding system that is suitable for decoding bitstream 46 generated by the encoder system of FIG. 7. This embodiment of the invention is solely illustrative of the principles of the present application. It should be understood that modifications and variations of this embodiment of the invention will be apparent to those skilled in the art. The principle of operation of the embodiment of the invention according to FIG. 15 is similar to the operation of the decoder system described in FIG. 14. In contrast to FIG. 14, SBR decoder 96 in FIG. 15 is located at the output of the PS decoder 14. In addition, the SBR decoder uses SBR parameters (shown) generating spectrum envelope data, unlike the mono SBR parameters of FIG. 14. The downmix and residual signals at the input of the PS decoder 94 are typically low-band signals, for example, the DMX downmix signal and the RES residual signal may only contain audio signal information for the low frequency band, for example, up to about 8 kHz. Based on the low-band DMX downmix signal and the RES residual signal, the PS encoder 94 determines a low-band stereo signal, eg up to about 8 kHz. Based on the low-bandwidth stereo signal and the SBR stereo parameters, the SBR decoder 96 reconstructs the high frequency portion of the stereo signal. Compared to the embodiment of the invention according to FIG. 14, the embodiment of the invention of FIG. 15 provides the advantage that a decorrelated signal is not required (see also FIG. 8d) and thus improved audio quality is achieved, while FIG. 14, a decorrelated signal is required for the high frequency part (see also FIG. 8c), thus degrading the sound quality.

На фиг. 16а показан вариант осуществления системы декодирования, которая является обратной по отношению к системе кодирования по фиг. 11а. Входной сигнал битового потока подается в блок 100 декодера, который генерирует первый декодированный сигнал 102 и второй декодированный сигнал 103. В декодере выбирается M/S-кодирование или L/R-кодирование. Выбор указывается в принимаемом битовом потоке. На основе этой информации на этапе 101 делается выбор M/S или L/R. В случае, если декодером выбрано M/S, первый 102 и второй 103 сигналы преобразовываются в сигнал (псевдо-) L/R. В случае, если декодером выбрано L/R, первый 102 и второй 103 сигналы могут проходить этап 103 без преобразования. Сигнал псевдо-L/R, Lp, Rp, на выходе этапа 101 конвертируется в сигнал DMX/RES посредством этапа 12 преобразования (на этом этапе выполняется квази-преобразование L/R в M/S). Предпочтительно, этапы 100, 101 и 12 по фиг. 16а выполняют операции в области MDCT. Для преобразования низведенного сигнала DMX и остаточного сигнала RES во временную область могут использоваться блоки 104 конверсии. Затем полученный сигнал подается в PS-декодер (не показан) и, необязательно, в SBR-декодер, как показано на фиг. 14 и 15. В альтернативном варианте блоки 104 также могут размещаться и перед блоком 12.In FIG. 16a shows an embodiment of a decoding system that is inverse to the coding system of FIG. 11a. The input bitstream signal is applied to the decoder section 100, which generates the first decoded signal 102 and the second decoded signal 103. At the decoder, M/S encoding or L/R encoding is selected. The choice is indicated in the received bitstream. Based on this information, in step 101, a selection of M/S or L/R is made. In case M/S is selected by the decoder, the first 102 and second 103 signals are converted to a (pseudo) L/R signal. In the event that L/R is selected by the decoder, the first 102 and second 103 signals may pass step 103 without being converted. The pseudo-L/R signal, L p , R p , at the output of step 101 is converted into a DMX/RES signal by a conversion step 12 (in this step, quasi L/R to M/S conversion is performed). Preferably, steps 100, 101 and 12 of FIG. 16a perform operations in the MDCT area. Conversion blocks 104 may be used to convert the downmixed DMX signal and the residual RES signal into the time domain. The received signal is then applied to a PS decoder (not shown) and optionally to an SBR decoder as shown in FIG. 14 and 15. Alternatively, blocks 104 may also be placed before block 12.

На фиг. 16b проиллюстрирована реализация варианта осуществления изобретения по фиг. 16а. На фиг. 16b показана иллюстративная реализация этапа 101, предназначенного для выбора между M/S-декодированием и L/R-декодированием. Этап 101 включает этап 105 преобразования в сумму и разность (преобразования M/S в L/R), который принимает первый 102 и второй 103 сигналы.In FIG. 16b illustrates an implementation of the embodiment of the invention of FIG. 16a. In FIG. 16b shows an exemplary implementation of step 101 for selecting between M/S decoding and L/R decoding. Step 101 includes a sum and difference (M/S to L/R) transform step 105 that receives first 102 and second 103 signals.

На основе информации о кодировании, предоставляемой в битовом потоке, этап 101 делает выбор между L/R-кодированием и M/S-кодированием. Если делается выбор в пользу L/R-кодирования, то выходной сигнал блока 100 декодирования подается на этап 12 преобразования.Based on the encoding information provided in the bitstream, step 101 makes a choice between L/R encoding and M/S encoding. If a choice is made in favor of L/R encoding, then the output signal of the decoding block 100 is applied to the conversion step 12 .

На фиг. 16с показана альтернатива варианту осуществления изобретения по фиг. 16а. В данном случае этап 12 преобразования в явном виде не используется. Вместо этого этап 12 преобразования и этап 101 объединяются в единый этап 101'. Первый 102 и второй 103 сигналы подаются на этап 105' преобразования в сумму и разность (точнее, на этап преобразования псевдо-L/R в DMX/RES), составляющий часть этапа 101'. Этап 105' преобразования генерирует сигнал DMX/RES. Этап 105' преобразования по фиг. 16с сходен с этапом 105 преобразования по фиг. 16b или идентичен ему (за исключением, возможно, отличающегося коэффициента усиления). На фиг. 16с выбор между M/S-декодированием и L/R-декодированием необходимо инвертировать относительно фиг. 16b. На фиг. 16с переключатель находится в нижнем положении, в то время как на фиг. 16b переключатель находится в верхнем положении. Так визуализируется инверсия выбора L/R или M/S (сигнал выбора может инвертироваться просто посредством обратного преобразователя).In FIG. 16c shows an alternative to the embodiment of FIG. 16a. In this case, the conversion step 12 is not explicitly used. Instead, the conversion step 12 and step 101 are combined into a single step 101'. The first 102 and second 103 signals are applied to the sum and difference conversion stage 105' (more precisely, to the pseudo-L/R to DMX/RES conversion stage), which is part of the stage 101'. The conversion step 105' generates a DMX/RES signal. The conversion step 105' of FIG. 16c is similar to the transform step 105 of FIG. 16b or identical to it (except possibly for a different gain). In FIG. 16c, the choice between M/S decoding and L/R decoding needs to be inverted with respect to FIG. 16b. In FIG. 16c the switch is in the down position, while in FIG. 16b the switch is in the up position. This visualizes the inversion of the L/R or M/S selection (the selection signal can simply be inverted by means of an inverse converter).

Следует отметить, что на фиг. 16b и 16с для каждой полосы частот в области MDCT предпочтительно существует индивидуальный переключатель, и, таким образом, выбор между L/R и M/S может зависеть как от времени, так и от частоты. Этапы 105 и 105' преобразования могут преобразовывать весь используемый частотный диапазон или только единичную полосу частот.It should be noted that in FIG. 16b and 16c, there is preferably an individual switch for each frequency band in the MDCT region, and thus the choice between L/R and M/S can be both time and frequency dependent. The conversion steps 105 and 105' may convert the entire usable frequency range or only a single frequency band.

На фиг. 17 показан следующий вариант осуществления системы кодирования, предназначенной для кодирования стереофонического сигнала L, R в сигнал битового потока. Система кодирования включает этап 8 понижающего микширования, предназначенный для генерирования на основе стереофонического сигнала низведенного сигнала DMX и остаточного сигнала RES. Кроме того, система кодирования включает этап 9 определения параметров, предназначенный для определения одного или нескольких параметров 5 параметрического стереофонического кодирования. Кроме того, система кодирования включает средства 110 перцептуального кодирования в нисходящем направлении относительно этапа 8 понижающего микширования. Выбираются следующие режимы кодирования:In FIG. 17 shows a further embodiment of a coding system for encoding a stereo signal L, R into a bitstream signal. The coding system includes a downmix step 8 for generating a downmix DMX signal and a residual signal RES based on the stereo signal. In addition, the encoding system includes a parameter determination step 9 for determining one or more parametric stereo encoding parameters 5 . In addition, the encoding system includes means 110 perceptual encoding in the downstream direction relative to stage 8 downmixing. The following encoding modes are selectable:

- кодирование, на основе суммарного сигнала низведенного сигнала DMX и остаточного сигнала RES и на разностном сигнале низведенного сигнала DMX и остаточного сигнала RES, или- encoding, based on the sum signal of the downmix DMX signal and the residual signal RES and on the difference signal of the downmix DMX signal and the residual signal RES, or

- кодирование, на основе низведенного сигнала DMX и остаточного сигнала RES.- coding, based on the downmixed DMX signal and the residual RES signal.

Предпочтительно, выбор зависит от времени и от частоты.Preferably, the selection is time and frequency dependent.

Средства 110 кодирования включают этап 111 преобразования в сумму и разность, который генерирует суммарный и разностный сигналы. Кроме того, средства 110 кодирования включают блок 112 выбора, предназначенный для выбора кодирования на основе суммарного и разностного сигналов или на основе низведенного сигнала DMX и остаточного сигнала RES. Кроме того, предусматривается блок 113 кодирования. В альтернативном варианте может использоваться два блока 113 кодирования, где первый блок 113 кодирования кодирует сигналы DMX и RES, и второй блок 113 кодирования кодирует суммарный и разностный сигналы. В этом случае блок 112 выбора находится в нисходящем направлении относительно двух блоков 113 кодирования.The encoding means 110 includes a sum-and-difference transform 111 which generates a sum and a difference signal. In addition, the encoding means 110 includes a selector 112 for selecting encoding based on the sum and difference signals, or based on the DMX downmix and the residual RES. In addition, a coding unit 113 is provided. Alternatively, two encoding units 113 may be used, where the first encoding unit 113 encodes the DMX and RES signals, and the second encoding unit 113 encodes the sum and difference signals. In this case, the selection block 112 is in the downstream direction with respect to the two encoding blocks 113 .

Блок 111 преобразования в сумму и разность имеет форму:The sum-and-difference conversion block 111 has the form:

Figure 00000036
.
Figure 00000036
.

Блок 111 преобразования может соответствовать блоку преобразования 99 по фиг. 11с.The transform block 111 may correspond to the transform block 99 of FIG. 11s.

Выходной сигнал перцептуального кодера 110 комбинируется с параметрами 5 параметрического стереофонического сигнала в мультиплексоре 7, образуя результирующий битовый поток 6.The output of the perceptual encoder 110 is combined with the parameters 5 of the parametric stereo signal in the multiplexer 7 to form the resulting bit stream 6.

В отличие от конструкции по фиг. 17, кодирование на основе низведенного сигнала DMX и остаточного сигнала RES может быть реализовано путем кодирования результирующего сигнала, который генерируется путем преобразования низведенного сигнала DMX и остаточного сигнала RES посредством двух последовательных преобразований в сумму и разность, как показано на фиг. 11b (см. два блока 2 и 98 преобразования). Результирующий сигнал после двух преобразований в сумму и разность соответствует низведенному сигналу DMX и остаточному сигналу RES (за исключением, возможно, отличающегося коэффициента усиления).In contrast to the design of FIG. 17, encoding based on the downmix signal DMX and the residual signal RES can be realized by encoding the resultant signal which is generated by converting the downmix signal DMX and the residual signal RES through two successive sum and difference transformations as shown in FIG. 11b (see two conversion blocks 2 and 98). The resulting signal, after two sum-and-difference conversions, corresponds to the downmix DMX signal and the residual RES signal (except possibly for a different gain).

На фиг. 18 показан вариант осуществления системы декодера, которая является обратной по отношению к системе кодера по фиг. 17. Система декодера включает средства 120, предназначенные для перцептуального декодирования на основе сигнала битового потока. Перед декодированием параметры PS-кодирования отделяются от сигнала 6 битового потока в демультиплексоре 10. Средства 120 декодирования включают базовый декодер 121, который (путем декодирования) генерирует первый сигнал 122 и второй сигнал 123. Средства декодирования выводят низведенный сигнал DMX и остаточный сигнал RES.In FIG. 18 shows an embodiment of a decoder system which is the inverse of the encoder system of FIG. 17. The decoder system includes means 120 for perceptual decoding based on a bitstream signal. Before decoding, the PS encoding parameters are separated from the bitstream signal 6 in the demultiplexer 10. The decoding means 120 includes a base decoder 121 which (by decoding) generates a first signal 122 and a second signal 123. The decoding means outputs a downmixed DMX signal and a residual signal RES.

Низведенный сигнал DMX и остаточный сигнал RES являются селективноThe downmix signal DMX and the residual signal RES are selectively

- на основе суммы первого сигнала 122 и второго сигнала 123 и на разности первого сигнала 122 и второго сигнала 123,- based on the sum of the first signal 122 and the second signal 123 and on the difference between the first signal 122 and the second signal 123,

илиor

- на основе первого сигнала 122 и второго сигнала 123.- based on the first signal 122 and the second signal 123.

Предпочтительно, выбор зависит от времени и от частоты. Выбор выполняется на этапе 125 выбора.Preferably, the selection is time and frequency dependent. The selection is made in selection step 125 .

Средства 120 декодирования включают этап 124 преобразования в сумму и разность, который генерирует суммарный и разностный сигналы.The decoding means 120 includes a sum-and-difference transform 124 that generates the sum and difference signals.

Преобразование в сумму и разность в блоке 124 имеет форму:The conversion to sum and difference in block 124 is of the form:

Figure 00000037
.
Figure 00000037
.

Блок 124 преобразования может соответствовать блоку 105' по фиг. 16с.Transform block 124 may correspond to block 105' of FIG. 16s.

После выбора сигналы DMX и RES подаются на этап 126 повышающего микширования для генерирования стереофонического сигнала L, R на основе низведенного сигнала DMX и остаточного сигнала RES. Операция повышающего микширования зависит от параметров 5 PS-кодирования.Once selected, the DMX and RES signals are fed to an upmix step 126 to generate a stereo L, R signal based on the downmixed DMX signal and the residual RES signal. The upmix operation depends on the PS encoding parameters 5 .

Предпочтительно, выбор на фиг. 17 и 18 является зависящим от частоты. На фиг. 17, например, преобразование времени в частоту (например, посредством MDCT или блока анализирующих фильтров) может выполняться в качестве первого этапа в средствах 110 перцептуального кодирования. На фиг. 18, например, преобразование частоты во время (например, посредством обратного MDCT или блока синтезирующих фильтров) может выполняться на последнем этапе в средствах 120 перцептуального декодирования.Preferably, the selection in FIG. 17 and 18 is frequency dependent. In FIG. 17, for example, time-to-frequency conversion (eg, by MDCT or analysis filter bank) may be performed as a first step in perceptual encoding means 110. In FIG. 18, for example, frequency-to-time conversion (eg, by inverse MDCT or synthesis filter bank) may be performed in the last step in perceptual decoding means 120.

Следует отметить, что в описанных выше вариантах осуществления изобретения сигналы, параметры и матрицы могут быть зависящими от частоты или независящими от частоты, и/или зависящими от времени или независящими от времени. Описанные этапы вычислений могут осуществляться для отдельных частот или для полной полосы частот звукового сигнала.It should be noted that in the embodiments described above, the signals, parameters, and matrices may be frequency dependent or frequency independent, and/or time dependent or time independent. The calculation steps described can be carried out for individual frequencies or for the entire bandwidth of the audio signal.

Кроме того, следует отметить, что все различные преобразования в сумму и разность, т.е. преобразование DMX/RES в псевдо-L/R, преобразование псевдо-L/R в DMX/RES, преобразование L/R в M/S и преобразование M/S в L/R, имеют формуIn addition, it should be noted that all the various transformations to sum and difference, i.e. DMX/RES to Pseudo L/R conversion, Pseudo L/R to DMX/RES conversion, L/R to M/S conversion, and M/S to L/R conversion, are of the form

Figure 00000037
.
Figure 00000037
.

Единственное, что может отличаться, — это коэффициент усиления с. Поэтому, в принципе, каждое из этих преобразований может быть заменено другим преобразованием из числа указанных преобразований. Если усиление в процессе кодирования не является корректным, его можно компенсировать в ходе процесса декодирования. Кроме того, если разместить два одинаковых или два различных преобразования в сумму и разность последовательно, результирующее преобразование будет соответствовать единичной матрице (возможно, умноженной на коэффициент усиления).The only thing that may differ is the gain c. Therefore, in principle, each of these transformations can be replaced by another transformation from among the indicated transformations. If the gain during the encoding process is not correct, it can be compensated during the decoding process. Also, if you place two identical or two different sum and difference transforms in series, the resulting transform will correspond to an identity matrix (perhaps multiplied by a gain).

В системе кодера, включающей PS-кодер и SBR-кодер, возможны различные конфигурации PS/SBR. В первой конфигурации, показанной на фиг. 6, SBR-кодер 32 присоединяется в нисходящем направлении относительно PS-кодера 41. Во второй конфигурации, показанной на фиг. 7, SBR-кодер 42 присоединяется в восходящем направлении относительно PS-кодера 41. В зависимости, например, от требуемой целевой битовой скорости передачи данных, свойств базового кодера и/или одного или нескольких различных факторов, с целью обеспечения наилучших рабочих характеристик, одним конфигурациям может отдаваться предпочтение перед другими конфигурациями. Как правило, для менее высоких битовых скоростей передачи данных, может быть более предпочтительной первая конфигурация, в то время как для более высоких битовых скоростей передачи данных может оказаться более предпочтительной вторая конфигурация. Поэтому желательно, чтобы система кодера поддерживала обе эти конфигурации для того, чтобы она была способна делать выбор предпочтительной конфигурации в зависимости от, например, требуемой целевой битовой скорости передачи данных и/или одного или нескольких других критериев.In an encoder system including a PS encoder and an SBR encoder, various PS/SBR configurations are possible. In the first configuration shown in FIG. 6, the SBR encoder 32 is attached downstream of the PS encoder 41. In the second configuration shown in FIG. 7, the SBR encoder 42 is coupled upstream of the PS encoder 41. Depending on, for example, the desired target bit rate, properties of the core encoder, and/or one or more different factors, in order to provide the best performance, one configuration may be preferred over other configurations. Generally, for lower bit rates, the first configuration may be more preferable, while for higher bit rates, the second configuration may be more preferable. Therefore, it is desirable for the encoder system to support both of these configurations in order to be able to make a choice of the preferred configuration depending on, for example, the desired target bit rate and/or one or more other criteria.

В системе декодера, включающей PS-декодер и SBR-декодер, также возможны различные конфигурации PS/SBR. В первой конфигурации, показанной на фиг. 14, SBR-декодер 93 присоединяется в восходящем направлении относительно PS-декодера 94. Во второй конфигурации, показанной на фиг. 15, SBR-декодер 96 присоединяется в нисходящем направлении относительно PS-декодера 94. Для достижения корректного выполнения операций конфигурация системы декодера должна соответствовать конфигурации системы кодера. Если кодер конфигурируется в соответствии с фиг. 6, то декодер, соответственно, конфигурируется в соответствии с фиг. 14. Если кодер конфигурируется в соответствии с фиг. 7, то декодер, соответственно, конфигурируется в соответствии с фиг. 15. Для того чтобы обеспечить корректное выполнение операций, кодер предпочтительно подает в декодер сигнал о конфигурации PS/SBR, которая была выбрана для кодирования (и, таким образом, о конфигурации PS/SBR, которая должна быть выбрана для декодирования). На основе этой информации декодер делает выбор надлежащей конфигурации декодера.In a decoder system including a PS decoder and an SBR decoder, various PS/SBR configurations are also possible. In the first configuration shown in FIG. 14, the SBR decoder 93 is connected in the upstream direction with respect to the PS decoder 94. In the second configuration shown in FIG. 15, the SBR decoder 96 is coupled downstream of the PS decoder 94. To achieve correct operation, the system configuration of the decoder must match the system configuration of the encoder. If the encoder is configured according to FIG. 6, the decoder is respectively configured according to FIG. 14. If the encoder is configured in accordance with FIG. 7, the decoder is respectively configured according to FIG. 15. In order to ensure correct operation, the encoder preferably signals to the decoder the PS/SBR configuration that has been selected for encoding (and thus the PS/SBR configuration that is to be selected for decoding). Based on this information, the decoder makes a selection of the proper decoder configuration.

Как обсуждалось выше, для обеспечения корректной работы декодера предпочтительно существует механизм передачи из кодера в декодер, сигнала о конфигурации, которая должна использоваться в декодере. Это может выполняться явно (например, посредством специализированного бита или поля в заголовке конфигурации битового потока, как будет обсуждаться ниже) или неявно (например, путем проверки, являются данные SBR монофоническими или стереофоническими в случае присутствия данных PS-кодирования).As discussed above, in order to ensure correct operation of the decoder, there is preferably a mechanism for signaling from the encoder to the decoder the configuration to be used in the decoder. This may be done explicitly (eg, via a specialized bit or field in the bitstream configuration header, as will be discussed below) or implicitly (eg, by checking whether the SBR data is mono or stereo when PS encoding data is present).

Как обсуждалось выше, для передачи сигнала о выбранной конфигурации PS/SBR может использоваться специализированный элемент в заголовке битового потока, передаваемого из кодера в декодер. Указанный заголовок битового потока несет необходимую информацию о конфигурации, которая требуется для предоставления декодеру возможности корректно декодировать данные в битовом потоке. Специализированный элемент в заголовке битового потока может представлять собой, например, однобитный флаг, поле или индекс, указывающий на конкретную запись в таблице, которая определяет различные конфигурации декодера.As discussed above, a specialized element in the header of the bitstream transmitted from the encoder to the decoder can be used to signal the selected PS/SBR configuration. The specified bitstream header carries the necessary configuration information that is required to enable the decoder to correctly decode the data in the bitstream. The specialized element in the header of the bitstream may be, for example, a one-bit flag, field, or index pointing to a particular entry in a table that defines various decoder configurations.

Вместо включения в заголовок битового потока дополнительного специализированного элемента для передачи сигнала о конфигурации PS/SBR, для выбора корректной конфигурации PS/SBR системой декодирования может производиться оценка информации, которая уже присутствует в битовом потоке. Например, выбор конфигурации PS/SBR может выводиться из информации о конфигурации PS-декодера и SBR-декодера в заголовке битового потока. Информация о конфигурации, как правило, указывает, следует конфигурировать SBR-декодер для монофонических операций или для стереофонических операций. Если, например, PS-декодер задействован, и SBR-декодер сконфигурирован для монофонических операций (как указывается в информации о конфигурации), может быть выбрана конфигурация PS/SBR согласно фиг. 14. Если, например, PS-декодер задействован, и SBR-декодер сконфигурирован для стереофонических операций (как указывается в информации о конфигурации), может быть выбрана конфигурация PS/SBR согласно фиг. 15.Instead of including an additional specialized element in the header of the bitstream to signal the PS/SBR configuration, information that is already present in the bitstream can be evaluated by the decoding system to select the correct PS/SBR configuration. For example, the PS/SBR configuration selection may be inferred from the PS decoder and SBR decoder configuration information in the bitstream header. The configuration information generally indicates whether the SBR decoder should be configured for mono operations or stereo operations. If, for example, a PS decoder is enabled and the SBR decoder is configured for mono operations (as indicated in the configuration information), the PS/SBR configuration according to FIG. 14. If, for example, a PS decoder is enabled and the SBR decoder is configured for stereo operations (as indicated in the configuration information), the PS/SBR configuration according to FIG. 15.

Описанные выше варианты осуществления изобретения являются лишь иллюстрацией принципов настоящей заявки. Следует понимать, что изменения и модификации конфигураций и деталей, описанных в данном описании, будут очевидны для специалистов в данной области. Поэтому предполагается, что объем притязаний заявки не ограничивается конкретными деталями, представленными путем описания и разъяснения вариантов осуществления изобретения в данном описании.The embodiments of the invention described above are merely illustrative of the principles of the present application. It should be understood that changes and modifications to the configurations and details described in this specification will be apparent to those skilled in the art. Therefore, it is intended that the scope of the claims of the application is not limited to the specific details presented by describing and explaining the embodiments of the invention in this specification.

Системы и способы, раскрытые в данной заявке могут быть реализованы в качестве программного обеспечения, встроенного программного обеспечения, аппаратного обеспечения или их комбинации. Некоторые, или все, компоненты могут быть реализованы как программное обеспечение, запускаемое на процессоре цифровой обработки сигналов или микропроцессоре, или реализованы как аппаратное обеспечение или как специализированные интегральные микросхемы.The systems and methods disclosed in this application may be implemented as software, firmware, hardware, or a combination thereof. Some, or all, of the components may be implemented as software running on a digital signal processor or microprocessor, or implemented as hardware or ASICs.

Типичными устройствами, применяющими раскрытые системы и способы, являются портативные аудиоплейеры, устройства мобильной связи, телевизионные приставки, телевизоры, AVR (аудио-видео тюнеры), персональные компьютеры и т.д.Typical devices using the disclosed systems and methods are portable audio players, mobile communication devices, set-top boxes, televisions, AVRs (Audio Video Tuners), personal computers, and the like.

Claims (35)

1. Устройство обработки звуковых сигналов для кодирования стереофонического сигнала в сигнал битового потока, содержащее один или более компонентов, которые:1. An audio signal processing device for encoding a stereo signal into a bitstream signal, comprising one or more components that: генерируют средний стереофонический сигнал и стереофонические параметры SBR в ответ на стереофонический сигнал;generating an average stereo signal and SBR stereo parameters in response to the stereo signal; генерируют сигнал понижающего микширования, остаточный сигнал, и один или более параметров параметрического стереофонического кодирования на основе среднего стереофонического сигнала,generating a downmix signal, a residual signal, and one or more parametric stereo coding parameters based on the average stereo signal, при этом остаточный сигнал указывает на погрешность, связанную с отображением среднего сигнала посредством сигнала понижающего микширования и одного или более параметров параметрического стереофонического кодирования;wherein the residual signal is indicative of an error associated with displaying the average signal by the downmix signal and one or more parametric stereo coding parameters; генерируют, зависящим от частоты или независящим от частоты образом, первый сигнал и второй сигнал на основе:generating, in a frequency-dependent or frequency-independent manner, a first signal and a second signal based on: суммы сигнала понижающего микширования и остаточного сигнала и разности сигнала понижающего микширования и остаточного сигнала или сигнала понижающего микширования и остаточного сигнала;the sum of the downmix signal and the residual signal and the difference of the downmix signal and the residual signal, or the downmix signal and the residual signal; генерируют кодированный стереофонический сигнал посредством перцептуального кодирования первого сигнала и второго сигнала; иgenerating an encoded stereo signal by perceptually encoding the first signal and the second signal; And генерируют сигнал битового потока посредством комбинирования стереофонических параметров SBR, параметров параметрического стереофонического кодирования и кодированного стереофонического сигнала.generating a bitstream signal by combining the SBR stereo parameters, the parametric stereo coding parameters, and the encoded stereo signal. 2. Устройство обработки звуковых сигналов по п. 1, отличающееся тем, что перцептуальное кодирование включает: генерирование, зависящим от частоты или независящим от частоты образом, кодированного стереофонического сигнала путем выполнения:2. An audio signal processing device according to claim 1, characterized in that the perceptual encoding includes: generating, in a frequency-dependent or frequency-independent manner, an encoded stereo signal by performing: перцептуального левого/правого кодирования первого сигнала и второго сигнала или перцептуального среднего/побочного кодирования первого сигнала и второго сигнала.perceptual left/right coding of the first signal and the second signal; or perceptual middle/side coding of the first signal and the second signal. 3. Устройство обработки звуковых сигналов по п. 2, отличающееся тем, что перцептуальное кодирование включает выбор, зависящим от частоты или независящим от частоты образом, и на основе первого сигнала, и второго сигнала, между перцептуальным левым/правым кодированием первого сигнала и второго сигнала и перцептуальным средним/побочным кодированием первого сигнала и второго сигнала.3. An audio signal processing apparatus according to claim 2, wherein the perceptual encoding comprises selecting, in a frequency-dependent or frequency-independent manner, and based on the first signal and the second signal, between the perceptual left/right encoding of the first signal and the second signal and perceptual middle/side coding of the first signal and the second signal. 4. Устройство обработки звуковых сигналов по п. 2, отличающееся тем, что перцептуальное левое/правое кодирование первого сигнала и второго сигнала выполняется для некоторых полос частот, и перцептуальное среднее/побочное кодирование первого сигнала и второго сигнала выполняется для других полос частот.4. An audio signal processing device according to claim 2, characterized in that the perceptual left/right encoding of the first signal and the second signal is performed for some frequency bands, and the perceptual middle/side encoding of the first signal and the second signal is performed for other frequency bands. 5. Устройство обработки звуковых сигналов для декодирования сигнала битового потока, включающего стереофонические параметры SBR и один или более параметров параметрического стереофонического кодирования в стереофонический сигнал, содержащее один или более компонентов, которые:5. An audio signal processing device for decoding a bitstream signal including SBR stereo parameters and one or more parametric stereo encoding parameters into a stereo signal containing one or more components that: генерируют первый сигнал и второй сигнал посредством перцептуального декодирования сигнала битового потока;generating a first signal and a second signal by perceptually decoding the bitstream signal; генерируют, зависящим от частоты или независящим от частоты образом, сигнал понижающего микширования и остаточный сигнал на основе:generating, in a frequency-dependent or frequency-independent manner, a downmix signal and a residual signal based on: суммы первого сигнала и второго сигнала и разности первого сигнала и второго сигнала или первого сигнала и второго сигнала;the sum of the first signal and the second signal and the difference between the first signal and the second signal or the first signal and the second signal; генерируют средний стереофонический сигнал путем выполнения операции повышающего микширования в ответ на сигнал понижающего микширования, остаточный сигнал и параметры параметрического стереофонического кодирования,generating an average stereo signal by performing an upmix operation in response to the downmix signal, the residual signal, and parametric stereo coding parameters, при этом остаточный сигнал указывает на погрешность, связанную с отображением первого сигнала и второго сигнала посредством сигнала понижающего микширования, и параметров параметрического стереофонического кодирования; иwherein the residual signal indicates an error associated with displaying the first signal and the second signal by the downmix signal and parametric stereo coding parameters; And генерируют стереофонический сигнал путем выполнения операции стереофонического декодирования SBR в ответ на средний стереофонический сигнал и стереофонические параметры SBR.generating a stereo signal by performing an SBR stereo decoding operation in response to the average stereo signal and the SBR stereo parameters. 6. Устройство обработки звуковых сигналов по п. 5, отличающееся тем, что перцептуальное декодирование сигнала битового потока включает:6. An audio signal processing device according to claim 5, characterized in that the perceptual decoding of the bitstream signal includes: генерирование, зависящим от частоты или независящим от частоты образом, первого сигнала и второго сигнала путем выполнения:generating, in a frequency-dependent or frequency-independent manner, the first signal and the second signal by doing: перцептуального левого/правого декодирования сигнала битового потока или перцептуального среднего/побочного декодирования сигнала битового потока.perceptual left/right decoding of the bitstream signal; or perceptual middle/side decoding of the bitstream signal. 7. Устройство обработки звуковых сигналов по п. 6, отличающееся тем, что перцептуальное левое/правое декодирование сигнала битового потока выполняется для некоторых полос частот, и перцептуальное среднее/побочное декодирование сигнала битового потока выполняется для других полос частот.7. An audio signal processing apparatus according to claim 6, characterized in that perceptual left/right decoding of the bitstream signal is performed for some frequency bands, and perceptual middle/side decoding of the bitstream signal is performed for other frequency bands. 8. Устройство обработки звуковых сигналов по п. 5, отличающееся тем, что параметры параметрического стереофонического кодирования включают:8. An audio signal processing device according to claim 5, characterized in that the parametric stereo encoding parameters include: зависящий от частоты или независящий от частоты параметр, указывающий на разность интенсивностей между каналами, иa frequency-dependent or frequency-independent parameter indicative of the intensity difference between channels, and зависящий от частоты или независящий от частоты параметр, указывающий на взаимную корреляцию между каналами.a frequency-dependent or frequency-independent parameter indicating cross-correlation between channels. 9. Способ, осуществляемый устройством обработки звуковых сигналов, для декодирования сигнала битового потока, включающего стереофонические параметры SBR и один или более параметров параметрического стереофонического кодирования, в стереофонический сигнал, причем способ включает:9. A method performed by an audio signal processor for decoding a bitstream signal including SBR stereo parameters and one or more parametric stereo coding parameters into a stereo signal, the method comprising: генерирование первого сигнала и второго сигнала посредством перцептуального декодирования сигнала битового потока;generating a first signal and a second signal by perceptually decoding the bitstream signal; генерирование, зависящим от частоты или независящим от частоты образом, сигнала понижающего микширования и остаточного сигнала на основе:generating, in a frequency-dependent or frequency-independent manner, the downmix signal and the residual signal based on: суммы первого сигнала и второго сигнала и на основе разности первого сигнала и второго сигнала илиthe sum of the first signal and the second signal, and based on the difference between the first signal and the second signal, or первого сигнала и второго сигнала;the first signal and the second signal; генерирование среднего стереофонического сигнала путем выполнения операции повышающего микширования в ответ на сигнал понижающего микширования, остаточный сигнал и параметры параметрического стереофонического кодирования,generating an average stereo signal by performing an upmix operation in response to the downmix signal, the residual signal, and parametric stereo coding parameters, при этом остаточный сигнал указывает на погрешность, связанную с отображением первого сигнала и второго сигнала посредством сигнала понижающего микширования, и параметров параметрического стереофонического кодирования; и генерирование стереофонического сигнала путем выполнения операции стереофонического декодирования SBR в ответ на средний стереофонический сигнал и стереофонические параметры SBR;wherein the residual signal indicates an error associated with displaying the first signal and the second signal by the downmix signal and parametric stereo coding parameters; and generating a stereo signal by performing an SBR stereo decoding operation in response to the average stereo signal and the SBR stereo parameters; при этом способ выполняют, по меньшей мере частично, с помощью одного или более компонентов устройства обработки звуковых сигналов.wherein the method is performed at least in part by one or more components of the audio signal processing device. 10. Энергонезависимый машиночитаемый носитель данных, содержащий последовательность команд, где при выполнении устройством обработки звуковых сигналов последовательность команд заставляет устройство обработки звуковых сигналов осуществлять способ по п. 9.10. A non-volatile computer-readable storage medium containing a sequence of commands, where, when executed by the audio signal processing device, the sequence of commands causes the audio signal processing device to carry out the method according to claim 9.
RU2020122022A 2009-03-17 2020-07-03 Audio signal processing device for stereo signal encoding into bitstream signal and method for bitstream signal decoding into stereo signal implemented by using audio signal processing device RU2799400C2 (en)

Applications Claiming Priority (4)

Application Number Priority Date Filing Date Title
US16070709P 2009-03-17 2009-03-17
US61/160,707 2009-03-17
US21948409P 2009-06-23 2009-06-23
US61/219,484 2009-06-23

Related Parent Applications (1)

Application Number Title Priority Date Filing Date
RU2017108988A Division RU2730469C2 (en) 2009-03-17 2017-03-17 Improved stereo coding based on a combination of adaptively selected left/right or middle/side stereophonic coding and parametric stereophonic coding

Related Child Applications (1)

Application Number Title Priority Date Filing Date
RU2023117249A Division RU2804032C1 (en) 2009-03-17 2023-06-29 Audio signal processing device for stereo signal encoding into bitstream signal and method for bitstream signal decoding into stereo signal implemented by using audio signal processing device

Publications (2)

Publication Number Publication Date
RU2020122022A RU2020122022A (en) 2022-01-04
RU2799400C2 true RU2799400C2 (en) 2023-07-05

Family

ID=

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
RU2251750C2 (en) * 1998-11-23 2005-05-10 Телефонактиеболагет Лм Эрикссон (Пабл) Method for detection of complicated signal activity for improved classification of speech/noise in audio-signal
US20080120117A1 (en) * 2006-11-17 2008-05-22 Samsung Electronics Co., Ltd. Method, medium, and apparatus with bandwidth extension encoding and/or decoding
US20080221907A1 (en) * 2005-09-14 2008-09-11 Lg Electronics, Inc. Method and Apparatus for Decoding an Audio Signal
US20080255859A1 (en) * 2005-10-20 2008-10-16 Lg Electronics, Inc. Method for Encoding and Decoding Multi-Channel Audio Signal and Apparatus Thereof
US20080255856A1 (en) * 2005-07-14 2008-10-16 Koninklijke Philips Electroncis N.V. Audio Encoding and Decoding

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
RU2251750C2 (en) * 1998-11-23 2005-05-10 Телефонактиеболагет Лм Эрикссон (Пабл) Method for detection of complicated signal activity for improved classification of speech/noise in audio-signal
US20080255856A1 (en) * 2005-07-14 2008-10-16 Koninklijke Philips Electroncis N.V. Audio Encoding and Decoding
US20080221907A1 (en) * 2005-09-14 2008-09-11 Lg Electronics, Inc. Method and Apparatus for Decoding an Audio Signal
US20080255859A1 (en) * 2005-10-20 2008-10-16 Lg Electronics, Inc. Method for Encoding and Decoding Multi-Channel Audio Signal and Apparatus Thereof
US20080120117A1 (en) * 2006-11-17 2008-05-22 Samsung Electronics Co., Ltd. Method, medium, and apparatus with bandwidth extension encoding and/or decoding

Similar Documents

Publication Publication Date Title
RU2730469C2 (en) Improved stereo coding based on a combination of adaptively selected left/right or middle/side stereophonic coding and parametric stereophonic coding
RU2799400C2 (en) Audio signal processing device for stereo signal encoding into bitstream signal and method for bitstream signal decoding into stereo signal implemented by using audio signal processing device
RU2804032C1 (en) Audio signal processing device for stereo signal encoding into bitstream signal and method for bitstream signal decoding into stereo signal implemented by using audio signal processing device
AU2018200340B2 (en) Advanced stereo coding based on a combination of adaptively selectable left/right or mid/side stereo coding and of parametric stereo coding