EA040874B1 - BACKWARDS COMPATIBLE ARRANGEMENT OF A HARMONIC TRANSPOSER FOR RECONSTRUCTION OF HIGH FREQUENCY SOUND SIGNALS - Google Patents
BACKWARDS COMPATIBLE ARRANGEMENT OF A HARMONIC TRANSPOSER FOR RECONSTRUCTION OF HIGH FREQUENCY SOUND SIGNALS Download PDFInfo
- Publication number
- EA040874B1 EA040874B1 EA202191156 EA040874B1 EA 040874 B1 EA040874 B1 EA 040874B1 EA 202191156 EA202191156 EA 202191156 EA 040874 B1 EA040874 B1 EA 040874B1
- Authority
- EA
- Eurasian Patent Office
- Prior art keywords
- audio
- bitstream
- data
- signal
- metadata
- Prior art date
Links
Description
Область техники, к которой относится изобретениеThe technical field to which the invention belongs
Варианты осуществления имеют отношение к обработке звуковых сигналов, а точнее, к кодированию, декодированию или перекодированию звуковых битовых потоков с управляющими данными, задающими то, должна ли выполняться над звуковыми данными базовая форма реконструкции высоких частот (HFR) или усовершенствованная форма HFR.The embodiments are related to audio signal processing, more specifically to encoding, decoding or transcoding audio bitstreams with control data specifying whether a basic form of high frequency reconstruction (HFR) or an advanced form of HFR is to be performed on the audio data.
Уровень техники изобретенияState of the art invention
Типичный звуковой битовый поток включает в себя как звуковые данные (например, кодированные звуковые данные), указывающие один или более каналов звукового контента, так и метаданные, указывающие по меньшей мере одну характеристику звуковых данных или звукового контента. Одним из широко известных форматов для формирования кодированного звукового битового потока является формат Перспективного звукового кодирования (AAC) MPEG-4, описанный в стандарте ISO/IEC 14496-3:2009 MPEG. В стандарте MPEG-4, AAC обозначает перспективное звуковое кодирование, а HE-AAC обозначает высокоэффективное перспективное звуковое кодирование.A typical audio bitstream includes both audio data (eg, encoded audio data) indicative of one or more audio content channels and metadata indicative of at least one characteristic of the audio data or audio content. One well-known format for generating an encoded audio bitstream is the MPEG-4 Advanced Audio Coding (AAC) format described in the ISO/IEC 14496-3:2009 MPEG standard. In the MPEG-4 standard, AAC stands for Advanced Audio Coding and HE-AAC stands for High Efficiency Advanced Audio Coding.
Стандарт AAC MPEG-4 определяет несколько звуковых профилей, которые определяют, какие объекты и средства кодирования присутствуют в совместимом кодировщике или декодере. Тремя из этих звуковых профилей являются (1) профиль AAC, (2) профиль HE-AAC и (3) профиль HE-AAC v2. Профиль AAC включает в себя тип объекта малой сложности AAC (или AAC-LC). Объект AAC-LC является аналогом для профиля малой сложности AAC MPEG-2 с некоторыми корректировками и не включает в себя ни тип объекта репликации полос спектра (SBR), ни тип объекта параметрической стереофонии (PS). Профиль HE-AAC является надмножеством профиля AAC и дополнительно включает в себя тип объекта SBR. Профиль HE-AAC v2 является надмножеством профиля HE-AAC и дополнительно включает в себя тип объекта PS.The AAC MPEG-4 standard defines several audio profiles that define what objects and encoders are present in a compatible encoder or decoder. Three of these audio profiles are (1) the AAC profile, (2) the HE-AAC profile, and (3) the HE-AAC v2 profile. The AAC Profile includes the AAC (or AAC-LC) Low Complexity Object Type. The AAC-LC entity is analogous to the MPEG-2 AAC Low Complexity Profile with some adjustments, and includes neither the Spectrum Band Replication (SBR) entity type nor the Parametric Stereo (PS) entity type. The HE-AAC profile is a superset of the AAC profile and additionally includes the SBR object type. The HE-AAC v2 profile is a superset of the HE-AAC profile and additionally includes the PS object type.
Тип объекта SBR содержит в себе средство репликации полос спектра, которое является важным средством кодирования реконструкции высоких частот (HFR), которое значительно улучшает эффективность сжатия перцепционных звуковых кодеков. SBR реконструирует высокочастотные составляющие звукового сигнала на стороне приемника (например, в декодере). Таким образом, кодировщику нужно кодировать и передавать только низкочастотные составляющие, предоставляя возможность для гораздо более высокого качества звука на низких скоростях передачи данных. SBR основана на репликации последовательностей гармоник, ранее усеченных, для того чтобы уменьшить скорость передачи данных, из имеющегося в распоряжении сигнала с ограниченной шириной полосы частот и управляющих данных, полученных из кодировщика. Соотношение между тональными и шумоподобными составляющими поддерживается посредством адаптивной обратной фильтрации, а также необязательным добавлением шума и синусоидальных сигналов. В стандарте AAC MPEG-4, средство SBR выполняет спектральную вклейку (также называемое линейным преобразованием или спектральным преобразованием), в котором некоторое количество следующих друг за другом поддиапазонов квадратурных зеркальных фильтров (КЗФ, QMF) копируются (или вклеиваются) из переданной части полосы низких частот звукового сигнала в часть полосы высоких частот звукового сигнала, которая формируется в декодере.The SBR object type contains a band replication engine, which is an important high frequency reconstruction (HFR) coding engine that greatly improves the compression efficiency of perceptual audio codecs. SBR reconstructs the high frequency components of the audio signal at the receiver side (eg, in a decoder). Thus, the encoder only needs to encode and transmit the low frequency components, allowing for much higher audio quality at low bit rates. SBR is based on the replication of harmonic sequences, previously truncated in order to reduce the data rate, from the available bandwidth limited signal and the control data received from the encoder. The relationship between tonal and noise-like components is maintained through adaptive inverse filtering, as well as the optional addition of noise and sinusoidal signals. In the MPEG-4 AAC standard, the SBR facility performs a spectral patch (also called a linear transform or spectral transform) in which a number of successive quadrature mirror filter (QMF) subbands are copied (or pasted) from the transmitted portion of the low frequency band. of the audio signal into a part of the high frequency band of the audio signal, which is formed in the decoder.
Спектральная вклейка или линейное преобразование могут не быть идеальными для некоторых типов звукового сигнала, таких как музыкальный контент с относительно низкими частотами разделения. Поэтому необходимы технологии для улучшения репликации полос спектра.Spectral patching or linear transformation may not be ideal for some types of audio signal, such as music content with relatively low crossover frequencies. Therefore, technologies are needed to improve the replication of spectrum bands.
Краткое описание вариантов осуществления изобретенияBrief description of embodiments of the invention
Раскрыта первая группа вариантов осуществления, которая относится к способу для декодирования кодированного звукового битового потока. Способ включает в себя прием кодированного звукового битового потока и декодирование звуковых данных для формирования декодированного звукового сигнала в полосе низких частот. Способ дополнительно включает в себя извлечение метаданных реконструкции высоких частот и фильтрацию декодированного звукового сигнала в полосе низких частот гребенкой фильтров разложения сигнала для формирования фильтрованного звукового сигнала в полосе низких частот. Способ дополнительно включает в себя извлечение флажкового признака, указывающего, должны ли выполняться над звуковыми данными спектральное преобразование или гармоническая транспозиция, и восстановление части высоких частот звукового сигнала с использованием фильтрованного звукового сигнала в полосе низких частот и метаданных реконструкции высоких частот в соответствии с флажковым признаком. В заключение, способ включает в себя комбинирование фильтрованного звукового сигнала в полосе низких частот и восстановленной части полосы высоких частот для формирования широкополосного звукового сигнала.A first group of embodiments is disclosed that relates to a method for decoding an encoded audio bitstream. The method includes receiving an encoded audio bit stream and decoding the audio data to generate a decoded audio signal in a low band. The method further includes extracting high frequency reconstruction metadata and filtering the decoded low band audio signal with a signal decomposition filter bank to generate a filtered low band audio signal. The method further includes extracting a flag flag indicating whether spectral transformation or harmonic transposition should be performed on the audio data, and restoring a high frequency portion of the audio signal using a filtered audio signal in the low band and high frequency reconstruction metadata in accordance with the flag flag. Finally, the method includes combining the filtered low band audio signal and the reconstructed high band portion to form a wideband audio signal.
Вторая группа вариантов осуществления относится к звуковому декодеру для декодирования кодированного звукового битового потока. Декодер включает в себя входной интерфейс для приема кодированного звукового битового потока, где кодированный звуковой битовый поток включает в себя звуковые данные, представляющие собой часть низких частот звукового сигнала, и основной декодер для декодирования звуковых данных, чтобы формировать декодированный звуковой сигнал в полосе низких частот. Декодер также включает в себя демультиплексор для извлечения из кодированного звукового битового потока метаданных реконструкции высоких частот, где метаданные реконструкции высоких частот включают в себя рабочие параметры для процесса реконструкции высоких частот, который ли- 1 040874 нейно преобразует некоторое количество следующих друг за другом поддиапазонов из части полосы низких частот звукового сигнала в часть полосы высоких частот звукового сигнала, и гребенку фильтров разложения сигнала для фильтрации декодированного звукового сигнала в полосе низких частот, чтобы формировать фильтрованный звуковой сигнал в полосе низких частот. Декодер дополнительно включает в себя демультиплексор для извлечения из кодированного звукового битового потока флажкового признака, указывающего, должны ли выполняться над звуковыми данными линейное преобразование или гармоническая транспозиция, и восстановитель высоких частот для восстановления части высоких частот звукового сигнала с использованием фильтрованного звукового сигнала в полосе низких частот и метаданных реконструкции высоких частот в соответствии с флажковым признаком. В заключение, декодер включает в себя гребенку фильтров синтеза сигнала для комбинирования фильтрованного звукового сигнала в полосе низких частот и восстановленной части полосы высоких частот, чтобы формировать широкополосный звуковой сигнал.The second group of embodiments relates to an audio decoder for decoding an encoded audio bitstream. The decoder includes an input interface for receiving an encoded audio bitstream, where the encoded audio bitstream includes audio data constituting a low frequency part of an audio signal, and a main decoder for decoding audio data to generate a decoded audio signal in a low band. The decoder also includes a demultiplexer for extracting high frequency reconstruction metadata from the encoded audio bitstream, where the high frequency reconstruction metadata includes operating parameters for a high frequency reconstruction process that linearly transforms a number of consecutive subbands from a portion a low band of the audio signal to a high band part of the audio signal, and a signal decomposition filter bank for filtering the decoded audio signal in the low band to generate a filtered audio signal in the low band. The decoder further includes a demultiplexer for extracting from the encoded audio bitstream a flag indicating whether a linear transformation or a harmonic transposition should be performed on the audio data, and a high frequency restorer for restoring the high frequency part of the audio signal using the filtered audio signal in the low band. and high frequency reconstruction metadata according to the flag. Finally, the decoder includes a signal synthesis filter bank for combining the filtered low band audio signal and the reconstructed high band portion to generate a wideband audio signal.
Другие группы вариантов осуществления относятся к кодированию и перекодированию звуковых битовых потоков, содержащих в себе метаданные, идентифицирующие, должна ли выполняться обработка усовершенствованной репликации полос спектра (eSBR).Other groups of embodiments relate to the encoding and transcoding of audio bitstreams containing metadata identifying whether enhanced spectrum band replication (eSBR) processing is to be performed.
Краткое описание чертежейBrief description of the drawings
Фиг. 1 - структурная схема варианта осуществления системы, которая может быть выполнена с возможностью выполнять вариант осуществления обладающего признаками изобретения способа.Fig. 1 is a block diagram of an embodiment of a system that may be configured to perform an embodiment of an inventive method.
Фиг. 2 - структурная схема кодировщика, который является вариантом осуществления обладающего признаками изобретения блока обработки звукового сигнала.Fig. 2 is a block diagram of an encoder which is an embodiment of an inventive audio processing unit.
Фиг. 3 - структурная схема системы, включающей в себя декодер, который является вариантом осуществления обладающего признаками изобретения блока обработки звукового сигнала и, по выбору, также постпроцессор, присоединенный к нему.Fig. 3 is a block diagram of a system including a decoder, which is an embodiment of an inventive audio processing unit, and optionally also a post-processor coupled thereto.
Фиг. 4 - структурная схема декодера, который является вариантом осуществления обладающего признаками изобретения блока обработки звукового сигнала.Fig. 4 is a block diagram of a decoder which is an embodiment of an inventive audio processing unit.
Фиг. 5 - структурная схема декодера, который является еще одним вариантом осуществления обладающего признаками изобретения блока обработки звукового сигнала.Fig. 5 is a block diagram of a decoder which is another embodiment of an inventive audio processing unit.
Фиг. 6 - структурная схема еще одного варианта осуществления обладающего признаками изобретения блока обработки звукового сигнала.Fig. 6 is a block diagram of yet another embodiment of an inventive audio processing unit.
Фиг. 7 - схема блока битового потока AAC MPEG-4, включающего в себя сегменты, на которые он разделен.Fig. 7 is a block diagram of an AAC MPEG-4 bitstream including segments into which it is divided.
Система обозначений и терминологияNotation and terminology
На всем протяжении данного описания изобретения, в том числе в формуле изобретения, выражение выполнение операции над сигналом или данными (например, фильтрацией, масштабированием, преобразованием или применением коэффициента передачи к сигналу или данным) используется в широком смысле для обозначения выполнения операции непосредственно над сигналом или данными, или над обработанным вариантом сигнала или данных (например, над вариантом сигнала, который подвергся предварительной фильтрации или предварительной обработке перед выполнением операции над ним).Throughout this specification, including in the claims, the expression performing an operation on a signal or data (e.g., filtering, scaling, transforming, or applying a gain to a signal or data) is used broadly to mean performing an operation directly on a signal or data, or on a processed version of a signal or data (for example, on a signal version that has undergone pre-filtering or pre-processing before performing an operation on it).
На всем протяжении этого описания изобретения, в том числе в формуле изобретения, выражение блок обработки звукового сигнала или звуковой процессор используется в широком смысле для обозначения системы, устройства или установки, выполненных с возможностью обрабатывать звуковых данных. Примеры блоков обработки звукового сигнала включают в себя, но не в качестве ограничения, кодировщики, перекодировщики, декодеры, кодеки, системы предварительной обработки, системы постобработки и системы обработки битового потока (иногда упоминаемые как средства обработки битового потока). Практически вся бытовая электроника, такая как мобильные телефоны, телевизоры, дорожные компьютеры, планшетные компьютеры, содержит в себе блок обработки звукового сигнала или звуковой процессор.Throughout this specification, including in the claims, the expression audio processing unit or audio processor is used in a broad sense to refer to a system, device, or installation capable of processing audio data. Examples of audio signal processing units include, but are not limited to, encoders, transcoders, decoders, codecs, pre-processing systems, post-processing systems, and bitstream processing systems (sometimes referred to as bitstream processors). Almost all consumer electronics, such as mobile phones, televisions, laptops, tablet computers, contain an audio signal processing unit or sound processor.
На всем протяжении этого описания изобретения, в том числе, в формуле изобретения, термин присоединяется или присоединен используется в широком смысле, чтобы означать прямое или опосредованное соединение. Таким образом, если первое устройство присоединяется к второму устройству, соединение может происходить через прямое соединение или через опосредованное соединение с помощью других устройств и соединений. Более того, компоненты, которые объединены в или с другими компонентами, также соединены друг с другом.Throughout this description of the invention, including in the claims, the term attached or attached is used in a broad sense to mean a direct or indirect connection. Thus, if a first device is connected to a second device, the connection may be through a direct connection or through an indirect connection using other devices and connections. Moreover, components that are combined in or with other components are also connected to each other.
Подробное описание вариантов осуществления изобретенияDetailed description of embodiments of the invention
Стандарт AAC MPEG-4 предполагает, что кодированный битовый поток AAC MPEG-4 включает в себя метаданные, указывающие каждый тип обработки реконструкции высоких частот (HFR), которая должна выполняться (если какая-нибудь должна выполняться) декодером для декодирования звукового контента битового потока, и/или которые управляют такой обработкой HFR и/или указывают по меньшей мере одну характеристику или параметр по меньшей мере одного средства HFR, подлежащего применению для декодирования звукового контента битового потока. В материалах настоящего изобретения, мы используем выражение метаданные SBR для обозначения метаданных этого типа, который описан или упоминается в стандарте AAC MPEG-4 для использования с репликацией полос спектраThe MPEG-4 AAC standard assumes that an MPEG-4 AAC encoded bitstream includes metadata indicating each type of High Frequency Reconstruction (HFR) processing to be performed (if any) by a decoder to decode the audio content of the bitstream, and/or which control such HFR processing and/or indicate at least one characteristic or parameter of at least one HFR means to be used for decoding the audio content of the bitstream. Throughout the present invention, we use the expression SBR metadata to refer to this type of metadata, which is described or referred to in the AAC MPEG-4 standard for use with spectrum band replication.
- 2 040874 (SBR). Как принимается во внимание специалистом в данной области техники, SBR является разновидностью HFR.- 2 040874 (SBR). As will be appreciated by those skilled in the art, SBR is a subset of HFR.
SBR предпочтительно используется в качестве системы с двойной частотой дискретизации, причем, лежащий в основе кодек работает на половине исходной частоты дискретизации, в то время как SBR функционирует на исходной частоте дискретизации. Кодировщик SBR работает параллельно с лежащим в основе основным кодеком, хотя и на более высокой частоте дискретизации. Хотя SBR главным образом является постобработкой в декодере, важные параметры извлекаются в кодировщике, для того чтобы обеспечивать наиболее точную реконструкцию высоких частот в декодере. Кодировщик оценивает огибающую спектра диапазона SBR, что касается частотно-временного диапазона/разрешения по времени и частоте, подходящих для характеристик текущих сегментов входного сигнала. Огибающая спектра оценивается посредством разложения сигнала с помощью комплексных КЗФ и последующего расчета энергии. Разрешения по времени и частоте огибающих спектра могут выбираться с высокой степенью свободы, для того чтобы обеспечивать наилучшее разрешение по времени и частоте для данного сегмента входного сигнала. Оценка огибающей должна учитывать, что переходный процесс в оригинале, главным образом расположенный в области высоких частот (например, высокий выброс), будет присутствовать в незначительной степени в сформированной SBR полосе высоких частот перед коррекцией огибающей, поскольку полоса высоких частот в декодере основана на полосе низких частот, где переходный процесс выражен в гораздо меньшей степени по сравнению с полосой высоких частот. Этот аспект накладывает иные требования на разрешение по времени и частоте данных огибающей спектра по сравнению с традиционной оценкой огибающей спектра, как используемая в других алгоритмах звукового кодирования.SBR is preferably used as a dual sample rate system, wherein the underlying codec operates at half the original sample rate while SBR operates at the original sample rate. The SBR encoder runs in parallel with the underlying main codec, albeit at a higher sampling rate. Although SBR is primarily post-processed in the decoder, important parameters are extracted in the encoder in order to provide the most accurate high frequency reconstruction in the decoder. The encoder estimates the spectral envelope of the SBR band as to the time-frequency range/time and frequency resolution appropriate for the characteristics of the current segments of the input signal. The envelope of the spectrum is estimated by decomposing the signal with complex FFTs and then calculating the energy. The time and frequency resolutions of the spectrum envelopes can be selected with a high degree of freedom in order to provide the best time and frequency resolution for a given segment of the input signal. Envelope estimation should take into account that a transient in the original, mainly located in the high frequency region (e.g., high overshoot), will be present to a small extent in the SBR generated high band before envelope correction, since the high band in the decoder is based on the low band. frequencies, where the transient process is expressed to a much lesser extent compared to the high frequency band. This aspect imposes different requirements on the time and frequency resolution of the spectrum envelope data compared to conventional spectrum envelope estimation as used in other audio coding algorithms.
Кроме огибающей спектра, извлекаются несколько дополнительных параметров, представляющих собой спектральные характеристики входного сигнала для разных частотно-временных областей. Поскольку кодировщик естественно имеет доступ к исходному сигналу, а также к информации о том, каким образом блок SBR в декодере будет создавать полосу высоких частот, при условии определенного набора параметров управления, можно, чтобы система справлялась с ситуациями, где полоса низких частот составляет мощный гармонический ряд, а полоса высоких частот, которая должна быть воссоздана, главным образом составляет случайные составляющие сигнала, а также ситуации, где мощные тональные составляющие присутствуют в исходной полосе высоких частот без аналогов в полосе низких частот, на которой основана область полосы высоких частот. Более того, кодировщик SBR работает в тесной зависимости от лежащего в основе основного кодека, чтобы оценивать, какой частотный диапазон должен быть охвачен SBR в данный момент времени. Данные SBR рационально кодируются перед передачей посредством использования энтропийного кодирования, а также зависимостей каналов управляющих данных, в случае стереофонических сигналов.In addition to the spectrum envelope, several additional parameters are extracted, which are the spectral characteristics of the input signal for different frequency-time domains. Since the encoder naturally has access to the original signal, as well as information on how the SBR block in the decoder will create the high frequency band, given a certain set of control parameters, it is possible for the system to cope with situations where the low frequency band is a powerful harmonic series, and the high frequency band to be recreated mainly constitutes random signal components, as well as situations where strong tonal components are present in the original high frequency band with no analogues in the low frequency band on which the high frequency region is based. Moreover, the SBR encoder works closely with the underlying underlying codec to estimate which frequency range should be covered by the SBR at a given time. The SBR data is rationally encoded before transmission by using entropy coding as well as control data channel dependencies, in the case of stereo signals.
Алгоритмы извлечения параметров управления типично необходимо тщательно настраивать под лежащий в основе кодек на заданной скорости передачи битов и заданной частоте дискретизации. Это происходит вследствие того обстоятельства, что более низкая скорость передачи битов обычно полагается на больший диапазон SBR по сравнению с высокой скоростью передачи битов, и разные частоты дискретизации соответствуют разным разрешениям по времени кадров SBR.Control parameter extraction algorithms typically need to be carefully tuned to the underlying codec at a given bit rate and a given sample rate. This is due to the fact that a lower bit rate typically relies on a larger SBR range compared to a high bit rate, and different sample rates correspond to different time resolutions of the SBR frames.
Декодер SBR типично включает в себя несколько разных частей. Он содержит модуль декодирования битового потока, модуль восстановления высоких частот (HFR), модуль дополнительных высокочастотных составляющих и модуль корректора огибающей. Система основана на гребенке фильтров из комплекснозначных КЗФ. В модуле извлечения битового потока, управляющие данные считываются из битового потока и декодируются. Время/частотная сетка получается для текущего кадра перед считыванием данных огибающей из битового потока. Лежащий в основе основной декодер декодирует звуковой сигнал текущего кадра (хотя и с более низкой частотой дискретизации), для создания отсчетов звукового сигнала во временной области. Результирующий кадр звуковых данных используется для реконструкции высоких частот модулем HFR. Декодированный сигнал в полосе низких частот затем подвергается разложению сигнала с использованием гребенки фильтров из КЗФ. Реконструкция высоких частот и коррекция огибающей впоследствии выполняются над отсчетами поддиапазонов гребенки фильтров из КЗФ. Высокие частоты реконструируются из полосы низких частот гибким образом на основании заданных параметров управления. Более того, реконструированная полоса высоких частот адаптивно фильтруется на основе каналов поддиапазона согласно управляющим данным, чтобы обеспечить надлежащие спектральные характеристики данной частотно/временной области.An SBR decoder typically includes several different parts. It contains a bitstream decoding module, a high frequency restoration (HFR) module, an additional high frequency components module, and an envelope corrector module. The system is based on a filter bank of complex-valued KZFs. In the bitstream extractor, control data is read from the bitstream and decoded. The time/frequency grid is obtained for the current frame before the envelope data is read from the bitstream. The underlying main decoder decodes the audio signal of the current frame (albeit at a lower sampling rate) to create audio samples in the time domain. The resulting audio data frame is used to reconstruct the high frequencies by the HFR module. The decoded lowband signal is then subjected to signal decomposition using a filterbank of the CPF. High frequency reconstruction and envelope correction are subsequently performed on the filterbank sub-band samples from the FAP. The high frequencies are reconstructed from the low frequency band in a flexible manner based on the given control parameters. Moreover, the reconstructed high band is adaptively filtered based on the subband channels according to the control data to provide proper spectral response in a given frequency/time domain.
Верхним уровнем битового потока AAC MPEG-4 является последовательность блоков данных (элементов raw data block), каждый из которых является сегментом данных (в материалах настоящего изобретения упоминаемым как block), который содержит в себе звуковые данные (типично для периода времени в 1024 или 960 отсчетов) и связанную информацию и/или другие данные. В материалах настоящего изобретения, мы используем термин блок для обозначения сегмента битового потока AAC MPEG-4, содержащего звуковые данные (и соответствующих метаданных и, по выбору, также других связанных данных), которые определяют или являются указывающими один (но не более чем один) элемент raw_data_block.The upper level of an MPEG-4 AAC bitstream is a sequence of data blocks (raw data block elements), each of which is a data segment (referred to herein as a block) that contains audio data (typically for a time period of 1024 or 960 samples) and related information and/or other data. Throughout the present invention, we use the term block to refer to a segment of an MPEG-4 AAC bitstream containing audio data (and associated metadata, and optionally also other associated data) that specifies or is indicative of one (but not more than one) raw_data_block element.
Каждый блок битового потока AAC MPEG-4 может включать в себя некоторое количество синтак- 3 040874 сических элементов (каждый из которых также материализован в битовом потоке в виде сегмента данных). Семь типов таких синтаксических элементов определено в стандарте AAC MPEG-4. Каждый синтаксический элемент идентифицируется разным значением элемента id_syn_ele данных. Примеры синтаксических элементов включают в себя single_channel_element(), channel_pair_element() и fill_element(). Элемент одиночного канала является контейнером, включающим в себя звуковые данные одиночного звукового канала (монофонического звукового сигнала). Элемент пары каналов включает в себя звуковые данные двух звуковых каналов (то есть стереофонический звуковой сигнал).Each block of an AAC MPEG-4 bitstream may include a number of syntax elements (each of which is also materialized in the bitstream as a data segment). Seven types of such syntax elements are defined in the AAC MPEG-4 standard. Each syntax element is identified by a different value of the id_syn_ele data element. Examples of syntax elements include single_channel_element(), channel_pair_element(), and fill_element(). A single channel element is a container including audio data of a single audio channel (mono audio signal). The channel pair element includes audio data of two audio channels (ie, a stereo audio signal).
Элемент заполнения является контейнером информации, включающей в себя идентификатор (например, значение отмеченного выше элемента id syn ele), сопровождаемый данными, которые упоминаются как данные заполнения. Элементы заполнения исторически использовались для коррекции мгновенной скорости передачи битов битовых потоков, которые должны передаваться по каналу с постоянной скоростью передачи. Добавлением надлежащего количества данных заполнения в каждый блок, может достигаться постоянная скорость передачи данных.The padding element is a container of information including an identifier (eg, the value of the element id syn ele noted above) followed by data, which is referred to as padding data. Padding elements have historically been used to correct the instantaneous bit rate of bit streams to be transmitted over a constant bit rate channel. By adding an appropriate amount of padding data to each block, a constant data rate can be achieved.
В соответствии с вариантами осуществления у изобретения данные заполнения могут включать в себя одну или более полезных нагрузок расширения, которые расширяют тип данных (например, метаданные), допускающих передачу в битовом потоке. Декодер, который принимает битовые потоки будут с данными заполнения, содержащими в себе новый тип данных, по выбору может использоваться устройством, принимающим битовый поток (например, декодером) для расширения функциональных возможностей устройства. Таким образом, как может быть принято во внимание специалистом в данной области техники, элементы заполнения являются специальным типом структуры данных и отличаются от структур данных, типично используемых для передачи звуковых данных (например, полезных нагрузок звукового сигнала, содержащих в себя канальные данные).In accordance with embodiments of the invention, the padding data may include one or more extension payloads that extend the type of data (eg, metadata) capable of being transmitted in the bitstream. The decoder that receives the bitstreams will be padding data containing the new data type, optionally used by the device receiving the bitstream (eg, decoder) to extend the functionality of the device. Thus, as can be appreciated by one of ordinary skill in the art, padding elements are a special type of data structure and are distinct from data structures typically used to convey audio data (eg, audio payloads containing channel data).
В некоторых вариантах осуществления изобретения идентификатор, используемый для идентификации элемента заполнения, может состоять из трехбитного беззнакового целого числа, передаваемого старшим битом вперед (uimsbf), имеющего значение 0x6. В одном блоке могут появляться несколько экземпляров одного и того же типа синтаксического элемента (например, несколько элементов заполнения).In some embodiments of the invention, the identifier used to identify the padding element may consist of a three-bit unsigned integer, transmitted most significant bit first (uimsbf), having a value of 0x6. Multiple instances of the same type of syntax element can appear in the same block (for example, multiple padding elements).
Еще одним стандартом для кодирования звуковых битовых потоков является стандарт унифицированного кодирования речи и звуковых сигналов (USAC) MPEG (ISO/IEC 23003-3:2012). Стандарт USAC MPEG описывает кодирование и декодирование звукового контента с использованием обработки репликации полос спектра (в том числе, обработки SBR, как описанная в стандарте AAC MPEG-4, и, к тому же, включающую в себя другие усовершенствованные формы обработки репликации полос спектра). Эта обработка применяет средства репликации полос спектра (иногда в материалах настоящего изобретения упоминаемые как средства усовершенствованной SBR или средства eSBR) расширенного и усовершенствованного варианта набора средств SBR, описанных в стандарте AAC MPEG-4. Таким образом, eSBR (как определенная в стандарте USAC) является усовершенствованием в отношении SBR (как определенная в стандарте AAC MPEG-4).Another standard for encoding audio bitstreams is the MPEG Unified Voice and Audio Coding (USAC) standard (ISO/IEC 23003-3:2012). The USAC MPEG standard describes the encoding and decoding of audio content using band replication processing (including SBR processing as described in the AAC MPEG-4 standard, and further including other advanced forms of band replication processing). This processing uses spectrum band replication tools (sometimes referred to in the materials of the present invention as advanced SBR tools or eSBR tools) of an extended and improved version of the SBR tool set described in the AAC MPEG-4 standard. Thus, eSBR (as defined in the USAC standard) is an improvement over SBR (as defined in the AAC MPEG-4 standard).
В материалах настоящего изобретения мы используем выражение обработка усовершенствованной SBR (или обработка eSBR) для обозначения обработки репликации полос спектра с использованием по меньшей мере одного средства eSBR (например, по меньшей мере одного средства eSBR, которое описано или упомянуто в стандарте USAC MPEG), которое не описано и не упомянуто в стандарте AAC MPEG-4. Примерами таких средств eSBR являются гармоническая транспозиция и дополнительная предварительная обработка вклейки с помощью КЗФ или предварительное выравнивание.Throughout the present invention, we use the term advanced SBR processing (or eSBR processing) to refer to spectrum band replication processing using at least one eSBR facility (e.g., at least one eSBR facility as described or referred to in the USAC MPEG standard) that not described or mentioned in the AAC MPEG-4 standard. Examples of such eSBR tools are harmonic transposition and post-pasting post-processing with CZF or pre-alignment.
Гармонический транспозер целочисленного порядка T отображает синусоиду с частотой со в синусоиду с частотой Тсо, тем временем сохраняя длительность сигнала. Три порядка, T=2, 3, 4, типично используются последовательно для создания каждой части желательного выходного частотного диапазона с использованием наименьшего возможного порядка транспозиции. Если требуется выходной сигнал выше диапазона транспозиции четвертого порядка, он может формироваться посредством сдвигов по частоте. Когда возможно, почти критически дискретизированные временные области основной полосы создаются для обработки, чтобы минимизировать вычислительную сложность.An integer-order harmonic transposer T maps a sinusoid of frequency co to a sinusoid of frequency Tco, while preserving the signal's duration. Three orders, T=2, 3, 4, are typically used sequentially to create each portion of the desired output frequency range using the smallest transposition order possible. If an output signal above the fourth order transposition range is required, it can be generated by frequency shifts. When possible, nearly critically sampled baseband time domains are created for processing to minimize computational complexity.
Битовый поток, сформированный в соответствии со стандартом USAC MPEG (в материалах настоящего изобретения иногда упоминаемый как битовый поток USAC), включает в себя кодированный звуковой контент и типично включает в себя метаданные, указывающие каждый тип обработки репликации полос спектра, которая должна применяться декодером для декодирования звукового контента битового потока USAC, и/или метаданные, которые управляют такой обработкой репликации полос спектра или указывают по меньшей мере одну характеристику или параметр по меньшей мере одного средства SBR и/или средства eSBR, которое должно применяться для декодирования звукового контента битового потока USAC.A bitstream generated in accordance with the USAC MPEG standard (sometimes referred to as a USAC bitstream in the present invention) includes encoded audio content and typically includes metadata indicating each type of spectrum replication processing to be applied by a decoder for decoding audio content of the USAC bitstream, and/or metadata that controls such replication processing of the spectrum bands or indicates at least one characteristic or parameter of at least one SBR and/or eSBR that should be used to decode the audio content of the USAC bitstream.
В материалах настоящего изобретения используем выражение метаданные усовершенствованной SBR (или метаданные eSBR) для обозначения метаданных, указывающих каждый тип обработки репликации полос спектра, которая должна применяться декодером для декодирования звукового контента кодированного звукового битового потока (например, битового потока USAC), и/или которые управляют такой обработкой репликации полос спектра и/или указывает по меньшей мере одну характеристику илиThroughout the present invention, we use the expression advanced SBR metadata (or eSBR metadata) to refer to metadata indicating each type of spectrum replication processing that should be applied by a decoder to decode the audio content of an encoded audio bitstream (e.g., a USAC bitstream), and/or which control such spectral band replication processing and/or indicate at least one characteristic or
- 4 040874 параметр по меньшей мере одного средства SBR и/или средства eSBR, подлежащего применению для декодирования такого звукового контента, но которые не описаны и не упомянуты в стандарте AAC MPEG-4. Примером метаданных eSBR являются метаданные (указывающие или предназначенные для управления обработкой репликации полос спектра), которые описаны или упомянуты в стандарте USAC MPEG, но не в стандарте AAC MPEG-4. Таким образом, метаданные eSBR в материалах настоящего изобретения обозначают метаданные, которые не являются метаданными SBR, a метаданные SBR в материалах настоящего изобретения обозначают метаданные, которые не являются метаданными eSBR.- 4 040874 parameter of at least one SBR and/or eSBR to be used to decode such audio content, but which is not described or mentioned in the AAC MPEG-4 standard. An example of eSBR metadata is metadata (indicating or intended to control the processing of spectrum band replication) that is described or referred to in the USAC MPEG standard, but not in the AAC MPEG-4 standard. Thus, eSBR metadata in the materials of the present invention refers to metadata that is not SBR metadata, and SBR metadata in the materials of the present invention refers to metadata that is not eSBR metadata.
Битовый поток USAC может включать в себя как метаданные SBR, так и метаданные eSBR. Точнее, битовый поток USAC может включать в себя метаданные eSBR, которые управляют выполнением обработки eSBR декодером, и метаданные SBR, которые управляют выполнением обработки SBR декодером. В соответствии с типичными вариантами осуществления настоящего изобретения, метаданные Esbr (например, специфичные eSBR конфигурационные данные), в соответствии с настоящим изобретением, включенные в битовый поток AAC MPEG-4 (например, в контейнере sbr_extension() в конце полезной нагрузки SBR).The USAC bitstream may include both SBR metadata and eSBR metadata. More specifically, the USAC bitstream may include eSBR metadata that controls the execution of eSBR processing by the decoder and SBR metadata that controls the execution of SBR processing by the decoder. In accordance with exemplary embodiments of the present invention, Esbr metadata (eg, eSBR specific configuration data) according to the present invention included in an MPEG-4 AAC bitstream (eg, in the sbr_extension() container at the end of the SBR payload).
Выполнение обработки eSBR во время декодирования кодированного битового потока с использованием средства eSBR (содержащего по меньшей мере одно средство eSBR), установленного декодером, восстанавливает полосу высоких частот звукового сигнала на основании репликации последовательностей гармоник, которые были усечены во время кодирования. Такая обработка eSBR типично корректирует огибающую спектра сформированной полосы высоких частот и применяет обратную фильтрацию, добавляет шумовые и синусоидальные составляющие для того, чтобы воссоздать спектральные характеристики исходного звукового сигнала.Performing eSBR processing during decoding of the encoded bitstream using the eSBR facility (comprising at least one eSBR facility) set by the decoder recovers the audio highband based on the replication of the harmonic sequences that were truncated during encoding. Such eSBR processing typically corrects the spectral envelope of the shaped high frequency band and applies inverse filtering, noise and sine components in order to recreate the spectral characteristics of the original audio signal.
В соответствии с типичными вариантами осуществления изобретения, метаданные eSBR включены (например, небольшое количество управляющих битов, которые являются метаданными eSBR, включено) в один или более сегментов метаданных кодированного звукового битового потока (например, битового потока AAC MPEG-4), который также включает в себя кодированные звуковые данные в других сегментах (сегментах звуковых данных). Типично по меньшей мере один такой сегмент метаданных каждого блока битового потока представляет собой (или включает в себя) элемент заполнения (включающий в себя идентификатор, указывающий начало элемента заполнения), и метаданные eSBR включены в элемент заполнения после идентификатора. Фиг. 1 - структурная схема примерной цепи обработки звукового сигнала (системы обработки звуковых данных), в которой один или более из элементов системы может быть выполнен в соответствии с вариантом осуществления настоящего изобретения. Система включает в себя следующие элементы, соединенные друг с другом, как показано: кодировщик 1, подсистему 2 доставки, декодер 3 и блок 4 постобработки. В разновидностях показанной системы, не включены в состав один или более элементов, или включены в состав дополнительные блоки обработки звуковых данных.In accordance with exemplary embodiments of the invention, eSBR metadata is included (e.g., a small number of control bits that are eSBR metadata are included) in one or more metadata segments of an encoded audio bitstream (e.g., an MPEG-4 AAC bitstream), which also includes encoded audio data in other segments (audio data segments). Typically, at least one such metadata segment of each bitstream block is (or includes) a padding element (including an identifier indicating the start of the padding element), and the eSBR metadata is included in the padding element after the identifier. Fig. 1 is a block diagram of an exemplary audio signal processing circuit (audio data processing system) in which one or more of the system elements may be implemented in accordance with an embodiment of the present invention. The system includes the following elements connected to each other as shown: an encoder 1, a delivery subsystem 2, a decoder 3 and a post-processing unit 4. In variations of the system shown, one or more elements are not included, or additional audio data processing units are included.
В некоторых реализациях кодировщик 1 (который по выбору включает в себя блок предварительной обработки) выполнен с возможностью принимать отсчеты PCM (временной области), содержащие звуковой контент, в качестве входного сигнала и выдавать кодированный звуковой битовый поток (имеющий формат, который совместим со стандартом AAC MPEG-4), который является указывающим звуковой контент. Данные битового потока, которые указывают звуковой контент, в материалах настоящего изобретения иногда упоминаются как звуковые данные или кодированные звуковые данные. Если кодировщик выполнен в соответствии с типичным вариантом осуществления настоящего изобретения, звуковой битовый поток, выдаваемый из кодировщика, включает в себя метаданные eSBR (и, к тому же, типично другие метаданные), а также звуковые данные.In some implementations, encoder 1 (which optionally includes a pre-processor) is configured to receive PCM (time domain) samples containing audio content as input and output an encoded audio bitstream (having a format that is compatible with the AAC standard). MPEG-4) which is indicative of audio content. Bitstream data that indicates audio content is sometimes referred to as audio data or encoded audio data in the materials of the present invention. If the encoder is implemented in accordance with an exemplary embodiment of the present invention, the audio bitstream output from the encoder includes eSBR metadata (and typically other metadata as well) as well as audio data.
Один или более кодированных звуковых потоков, выдаваемых из кодировщика 1, могут предъявляться в подсистему 2 доставки кодированного звукового сигнала. Подсистема 2 выполнена с возможностью сохранять и/или доставлять каждый кодированный битовый поток, выдаваемый из кодировщика 1. Кодированный звуковой битовый поток, выведенный из кодировщика 1, может сохраняться подсистемой 2 (например, в виде DVD или диска Bluray) или передаваться подсистемой 2 (которая может реализовывать канал или сеть передачи), или может как сохраняться, так и передаваться подсистемой 2.One or more encoded audio streams output from encoder 1 may be presented to encoded audio delivery subsystem 2. Subsystem 2 is configured to store and/or deliver each encoded bitstream output from encoder 1. The encoded audio bitstream output from encoder 1 may be stored by subsystem 2 (for example, as a DVD or Bluray disc) or transmitted by subsystem 2 (which may implement a transmission channel or network), or may be both stored and transmitted by subsystem 2.
Декодер 3 выполнен с возможностью декодировать кодированный звуковой битовый поток AAC MPEG-4 (сформированный кодировщиком 1), который он принимает через подсистему 2. В некоторых вариантах осуществления, декодер 3 выполнен с возможностью извлекать метаданные eSBR из каждого блока битового потока и декодировать битовый поток (в том числе, посредством выполнения обработки eSBR с использованием извлеченных метаданных eSBR) для формирования декодированных звуковых данных (например, потоков декодированных звуковых отсчетов PCM). В некоторых вариантах осуществления декодер 3 выполнен с возможностью извлекать метаданные SBR из битового потока (но игнорировать метаданные eSBR, включенные в битовый поток) и декодировать битовый поток (в том числе, посредством выполнения обработки SBR с использованием извлеченных метаданных SBR) для формирования декодированных звуковых данных (например, потоков декодированных отсчетов звукового сигнала PCM. Типично, декодер 3 включает в себя буфер, который хранит (например, неэфемерным образом) сегменты кодированного звукового битового потока, принятого из подсистемы 2.Decoder 3 is configured to decode an encoded AAC MPEG-4 audio bitstream (generated by encoder 1) that it receives via subsystem 2. In some embodiments, decoder 3 is configured to extract eSBR metadata from each block of the bitstream and decode the bitstream ( including by performing eSBR processing using the extracted eSBR metadata) to generate decoded audio data (eg, PCM decoded audio sample streams). In some embodiments, the decoder 3 is configured to extract the SBR metadata from the bitstream (but ignore the eSBR metadata included in the bitstream) and decode the bitstream (including by performing SBR processing using the extracted SBR metadata) to generate decoded audio data. (e.g., streams of decoded PCM audio samples. Typically, decoder 3 includes a buffer that stores (e.g., in a non-ephemeral manner) segments of the encoded audio bitstream received from subsystem 2.
- 5 040874- 5 040874
Блок 4 постобработки по фиг. 1 выполнен с возможностью принимать поток декодированных звуковых данных из декодера 3 (например, отсчеты звукового сигнала PCM) и выполнять постобработку над ним. Блок постобработки также может быть выполнен с возможностью воспроизводить подвергнутый постобработке звуковой контент (или декодированный звуковой сигнал, принятый из декодера 3) для проигрывания одним или более громкоговорителей.The post-processing block 4 of FIG. 1 is configured to receive the decoded audio data stream from the decoder 3 (eg, PCM audio samples) and perform post-processing on it. The post-processing unit may also be configured to play the post-processed audio content (or the decoded audio signal received from the decoder 3) for playback by one or more speakers.
Фиг. 2 - структурная схема кодировщика (100), который является вариантом осуществления обладающего признаками изобретения блока обработки звукового сигнала. Любые из компонентов или элементов кодировщика 100 могут быть реализованы в виде одного или более процессов и/или одной или более схем (например, ASIC (специализированных интегральных схем), FPGA (программируемых пользователем вентильных матриц) или других интегральных схем) в аппаратных средствах, программном обеспечении или комбинации аппаратных средств и программного обеспечения. Кодировщик 100 включает в себя кодировщик 105, каскад 107 заполнителя/форматера, каскад 106 формирования метаданных и буферную память 109, соединенные как показано. К тому же, типично, кодировщик 100 включает в себя другие элементы обработки (не показаны). Кодировщик 100 выполнен с возможностью преобразовывать входной звуковой битовый поток в кодированный выходной битовый поток AAC MPEG-4.Fig. 2 is a block diagram of an encoder (100), which is an embodiment of an inventive audio processing unit. Any of the components or elements of encoder 100 may be implemented as one or more processes and/or one or more circuits (e.g., ASICs, FPGAs, or other integrated circuits) in hardware, software, software or a combination of hardware and software. The encoder 100 includes an encoder 105, a filler/formatter stage 107, a metadata generation stage 106, and a buffer memory 109 connected as shown. Also, encoder 100 typically includes other processing elements (not shown). The encoder 100 is configured to convert the input audio bitstream into an AAC MPEG-4 encoded output bitstream.
Генератор 106 метаданных присоединен и выполнен с возможностью формировать (и/или пропускать насквозь в каскад 107) метаданные (в том числе, метаданные eSBR и метаданные SBR), которые должны быть включены каскадом 107 в кодированный битовый поток, подлежащий выводу из кодировщика 100.Metadata generator 106 is coupled and configured to generate (and/or pass through to cascade 107) metadata (including eSBR metadata and SBR metadata) to be included by cascade 107 in the encoded bitstream to be output from encoder 100.
Кодировщик 105 присоединен и выполнен с возможностью кодировать (например, выполняя сжатие над ними) входные звуковые данные и предъявлять результирующий кодированный звуковой сигнал в каскад 107 для включения в кодированный битовый поток, который должен выдаваться из каскада 107.An encoder 105 is coupled to and configured to encode (eg, compress) the input audio data and provide the resulting encoded audio signal to stage 107 for inclusion in an encoded bitstream to be output from stage 107.
Каскад 107 выполнен с возможностью мультиплексировать кодированный звуковой сигнал из кодировщика 105 и метаданные (в том числе, метаданные eSBR и метаданные SBR) из генератора 106 для формирования кодированного битового потока, который должен выдаваться из каскада 107, предпочтительно так, чтобы кодированный битовый поток имел формат, как заданный одним из вариантов осуществления настоящего изобретения.Stage 107 is configured to multiplex the encoded audio signal from encoder 105 and metadata (including eSBR metadata and SBR metadata) from generator 106 to generate an encoded bitstream to be output from stage 107, preferably such that the encoded bitstream has the format , as given by one of the embodiments of the present invention.
Буферная память 109 выполнена с возможностью хранить (например, неэфемерным образом) по меньшей мере один блок кодированного звукового битового потока, выведенного из каскада 107, и последовательность блоков кодированного звукового битового потока затем предъявляется из буферной памяти 109 в качестве выходного сигнала из кодировщика 100 в систему доставки.Buffer memory 109 is configured to store (eg, in a non-ephemeral manner) at least one block of the encoded audio bitstream output from stage 107, and the sequence of blocks of encoded audio bitstream is then presented from buffer memory 109 as output from encoder 100 to the system. delivery.
Фиг. 3 - структурная схема системы, включающей в себя декодер (200), который является вариантом осуществления обладающего признаками изобретения блока обработки звукового сигнала и, по выбору, также постпроцессор (300), присоединенный к нему. Любые из компонентов или элементов декодера 200 и постпроцессора 300 могут быть реализованы в виде одного или более процессов и/или одной или более схем (например, ASIC (специализированных интегральных схем), FPGA (программируемых пользователем вентильных матриц) или других интегральных схем) в аппаратных средствах, программном обеспечении или комбинации аппаратных средств и программного обеспечения. Декодер 200 содержит буферную память 201, деформатер 205 (синтаксический анализатор) полезной нагрузки битового потока, подсистему 202 декодирования звукового сигнала (иногда упоминаемую как каскад основного декодирования или подсистема основного декодирования), каскад 203 обработки eSBR и каскад 204 формирования управляющих битов, соединенные как показано. К тому же, типично, декодер 200 включает в себя другие элементы обработки (не показаны).Fig. 3 is a block diagram of a system including a decoder (200), which is an embodiment of an inventive audio processing unit, and optionally also a post-processor (300) coupled thereto. Any of the components or elements of decoder 200 and post processor 300 may be implemented as one or more processes and/or one or more circuits (e.g., ASICs (Application Specific Integrated Circuits), FPGAs (Field Programmable Gate Arrays), or other integrated circuits) in hardware means, software, or a combination of hardware and software. The decoder 200 includes a buffer memory 201, a bitstream payload deformer (parser) 205, an audio signal decoding subsystem 202 (sometimes referred to as a main decoding stage or a main decoding subsystem), an eSBR processing stage 203, and a control bit generating stage 204 connected as shown. . Also, typically, decoder 200 includes other processing elements (not shown).
Буферная память 201 (буфер) хранит (например, неэфемерным образом) по меньшей мере один блок кодированного звукового битового потока AAC MPEG-4, принятого декодером 200. При эксплуатации декодера 200, последовательность блоков битового потока предъявляется из буфера 201 в деформатер 205.Buffer memory 201 (buffer) stores (e.g., in a non-ephemeral manner) at least one block of the MPEG-4 AAC encoded audio bitstream received by decoder 200. In operation of decoder 200, a sequence of bitstream blocks is presented from buffer 201 to deformer 205.
В разновидности варианта осуществления на фиг. 3, APU, который не является декодером (например, APU 500 по фиг. 6) включает в себя буферную память (например, буферную память, идентичную буферу 201), которая хранит (например, неэфемерным образом) по меньшей мере один блок кодированного звукового битового потока (например, звукового битового потока AAC MPEG-4) того же самого типа, принятого буфером 201 по фиг. 3 или фиг. 4 (то есть кодированного звукового битового потока, который включает в себя метаданные eSBR).In a variation of the embodiment in FIG. 3, an APU that is not a decoder (eg, APU 500 of FIG. 6) includes a buffer memory (eg, buffer memory identical to buffer 201) that stores (eg, in a non-ephemeral manner) at least one encoded audio bit block. a stream (eg, an AAC MPEG-4 audio bitstream) of the same type received by the buffer 201 of FIG. 3 or fig. 4 (ie, an encoded audio bitstream that includes eSBR metadata).
Вновь со ссылкой на фиг. 3, деформатер 205 присоединен и выполнен с возможностью демультиплексировать каждый блок битового потока для извлечения метаданных SBR (в том числе, данные квантованной огибающей) и метаданных eSBR (и типично также других метаданных) из него, предъявлять по меньшей мере метаданные eSBR и метаданные SBR в каскад 203 обработки eSBR и типично также предъявлять другие извлеченные метаданные в подсистему 202 декодирования (и, по выбору, также в генератор 204 управляющих битов). Деформатер 205 также присоединен и выполнен с возможностью извлекать звуковые данные из каждого блока битового потока и предъявлять извлеченные звуковые данные в подсистему 202 декодирования (каскад декодирования).Again with reference to FIG. 3, a deformer 205 is coupled and configured to demultiplex each bitstream block to extract SBR metadata (including quantized envelope data) and eSBR metadata (and typically other metadata as well) from it, present at least the eSBR metadata and SBR metadata in eSBR processing stage 203 and typically also present other extracted metadata to decoding subsystem 202 (and optionally also to control bit generator 204). A deformer 205 is also attached and configured to extract audio data from each bitstream block and present the extracted audio data to a decoding subsystem 202 (decoding stage).
Система по фиг. 3 по выбору также включает в себя постпроцессор 300. Постпроцессор 300 вклю- 6 040874 чает в себя буферную память 301 (буфер) и другие элементы обработки (не показаны), в том числе по меньшей мере один элемент обработки, присоединенный к буферу 301. Буфер 301 хранит (например, неэфемерным образом) по меньшей мере один блок (или кадр) декодированных звуковых данных, принятых постпроцессором 300 из декодера 200. Элементы обработки постпроцессора 300 присоединены и выполнены с возможностью принимать и адаптивно обрабатывать последовательность блоков (или кадров) декодированного звукового сигнала, выведенного из буфера 301, с использованием метаданных, выведенных из подсистемы 202 декодирования (и/или деформатера 205), и/или управляющих битов, выведенных из каскада 204 декодера 200.The system according to Fig. 3 optionally also includes a post processor 300. The post processor 300 includes a buffer memory 301 (buffer) and other processing elements (not shown), including at least one processing element attached to the buffer 301. Buffer 301 stores (eg, in a non-ephemeral manner) at least one block (or frame) of decoded audio data received by post processor 300 from decoder 200. Processing elements of post processor 300 are coupled and configured to receive and adaptively process a sequence of blocks (or frames) of decoded audio signal outputted from buffer 301 using metadata outputted from decoding subsystem 202 (and/or deformer 205) and/or control bits outputted from stage 204 of decoder 200.
Подсистема 202 декодирования звукового сигнала декодера 200 выполнена с возможностью декодировать звуковые данные, извлеченные синтаксическим анализатором 205 (такое декодирование может упоминаться как операция основного декодирования), для формирования декодированных звуковых данных и предъявлять декодированные звуковые данные в каскад 203 обработки eSBR. Декодирование выполняется в частотной области и типично включает в себя обращенное квантование, сопровождаемое спектральной обработкой. Типично завершающий каскад обработки в подсистеме 202 применяет преобразование из частотной области во временную область к декодированным звуковым данным частотной области, так чтобы выходными данными подсистемы были декодированные звуковые данные временной области. Каскад 203 выполнен с возможностью применять средства SBR и средства eSBR, указанные метаданными SBR и метаданными eSBR (извлеченными синтаксическим анализатором 205), к декодированным звуковым данным (то есть выполнять обработку SBR и eSBR над выходными данными подсистемы 202 декодирования с использованием метаданных SBR и eSBR) для формирования полностью декодированных звуковых данных, которые выводятся (например, в постпроцессор 300) из декодера 200. Типично декодер 200 включает в себя память (доступную из подсистемы 202 и каскада 203), которая хранит деформатированные звуковые данные и метаданные, выданные из деформатера 205, а каскад 203 выполнен с возможностью осуществлять доступ к звуковым данным и метаданным (в том числе, метаданным SBR и метаданным eSBR) по мере надобности во время обработки SBR и eSBR. Обработка SBR и обработка eSBR в каскаде 203 может считаться постобработкой на выходе из подсистемы 202 основного декодирования. По выбору декодер 200 также включает в себя подсистему завершающего повышающего микширования (которая может применять средства параметрической стереофонии (PS), определенные в стандарте AAC MPEG-4, с использованием метаданных PS, извлеченных деформатером 205, и/или управляющих битов, сформированных в подсистеме 204), которая присоединена и выполнена с возможностью выполнять повышающее микширование над выходным сигналом каскада 203, чтобы формировать полностью декодированный подвергнутый повышающему микшированию звуковой сигнал, который выводится из декодера 200. В качестве альтернативы постпроцессор 300 выполнен с возможностью выполнять повышающее микширование над выходным сигналом декодера 200 (например, с использованием метаданных PS, извлеченных деформатером 205, и/или управляющих битов, сформированных в подсистеме 204).The audio decoding subsystem 202 of the decoder 200 is configured to decode the audio data extracted by the parser 205 (such decoding may be referred to as a main decoding operation) to generate decoded audio data and provide the decoded audio data to the eSBR processing stage 203. The decoding is performed in the frequency domain and typically includes dequantization followed by spectral processing. Typically, the final processing stage in subsystem 202 applies a frequency domain to time domain transform to the decoded frequency domain audio data such that the output of the subsystem is the decoded time domain audio data. Cascade 203 is configured to apply SBR and eSBR means indicated by SBR metadata and eSBR metadata (extracted by parser 205) to decoded audio data (i.e., perform SBR and eSBR processing on the output of decoding subsystem 202 using SBR and eSBR metadata) to generate fully decoded audio data that is output (e.g., to post processor 300) from decoder 200. Typically, decoder 200 includes memory (accessible from subsystem 202 and stage 203) that stores deformed audio data and metadata output from deformer 205, and stage 203 is configured to access audio data and metadata (including SBR metadata and eSBR metadata) as needed during SBR and eSBR processing. The SBR processing and eSBR processing in the cascade 203 may be considered post-processing at the output of the main decoding subsystem 202 . Optionally, decoder 200 also includes a post-upmix subsystem (which may apply the parametric stereo (PS) facilities defined in the MPEG-4 AAC standard using PS metadata extracted by deformer 205 and/or control bits generated in subsystem 204 ) that is coupled to and configured to up-mix the output of stage 203 to generate a fully decoded up-mixed audio signal that is output from decoder 200. Alternatively, post-processor 300 is configured to up-mix the output of decoder 200 ( eg, using PS metadata extracted by deformer 205 and/or control bits generated in subsystem 204).
В ответ на метаданные, извлеченные деформатером 205, генератор 204 управляющих битов может формировать управляющие данные, и управляющие данные могут использоваться в пределах декодера 200 (например, в подсистеме завершающего повышающего микширования) и/или предъявляться в качестве выходного сигнала декодера 200 (например, в постпроцессор 300 для использования при постобработке). В ответ на метаданные, извлеченные из входного битового потока (и, по выбору, также в ответ на управляющие данные), каскад 204 может формировать (и предъявлять в постпроцессор 300) управляющие биты, указывающие, что декодированные звуковые данные, выдаваемые из каскада 203 обработки eSBR, должны подвергаться конкретному типу постобработки. В некоторых вариантах осуществления декодер 200 выполнен с возможностью предъявлять метаданные, извлеченные деформатером 205 из входного битового потока, в постпроцессор 300, а постпроцессор 300 выполнен с возможностью выполнять постобработку над декодированными звуковыми данными, выведенными из декодера 200, с использованием метаданных.In response to the metadata extracted by the deformer 205, the control bit generator 204 may generate control data, and the control data may be used within the decoder 200 (e.g., in a post-upmix subsystem) and/or presented as an output signal of the decoder 200 (e.g., in post processor 300 for use in post-processing). In response to metadata extracted from the input bitstream (and optionally also in response to control data), stage 204 may generate (and present to post processor 300) control bits indicating that the decoded audio data output from processing stage 203 eSBR must be subject to a particular type of post-processing. In some embodiments, decoder 200 is configured to provide metadata extracted by deformer 205 from the input bitstream to post processor 300, and post processor 300 is configured to perform post processing on the decoded audio data output from decoder 200 using the metadata.
Фиг. 4 - структурная схема блока (210) обработки звукового сигнала (APU), который является еще одним вариантом осуществления обладающего признаками изобретения блока обработки звукового сигнала. APU 210 является унаследованным декодером, который не выполнен с возможностью выполнять обработку eSBR. Любые из компонентов или элементов APU 210 могут быть реализованы в виде одного или более процессов и/или одной или более схем (например, ASIC (специализированных интегральных схем), FPGA (программируемых пользователем вентильных матриц) или других интегральных схем) в аппаратных средствах, программном обеспечении или комбинации аппаратных средств и программного обеспечения. APU 210 содержит буферную память 201, деформатер 215 (синтаксический анализатор) полезной нагрузки битового потока, подсистему 202 декодирования звукового сигнала (иногда упоминаемую как каскад основного декодирования или подсистема основного декодирования), и каскад 213 обработки SBR, соединенные, как показано. К тому же, типично APU 210 включает в себя другие элементы обработки (не показаны). APU 210, например, может представлять собой кодировщик, декодер или перекодировщик звукового сигнала.Fig. 4 is a block diagram of an audio processing unit (APU) (210), which is another embodiment of an inventive audio processing unit. APU 210 is a legacy decoder that is not configured to perform eSBR processing. Any of the components or elements of the APU 210 may be implemented as one or more processes and/or one or more circuits (e.g., ASICs, FPGAs, or other integrated circuits) in hardware, software, software or a combination of hardware and software. The APU 210 includes a buffer memory 201, a bitstream payload deformer (parser) 215, an audio signal decoding subsystem 202 (sometimes referred to as a main decoding stage or a main decoding subsystem), and an SBR processing stage 213 connected as shown. Also, typically APU 210 includes other processing elements (not shown). APU 210, for example, may be an audio encoder, decoder, or transcoder.
Элементы 201 и 202 APU 210 идентичны одинаково пронумерованным элементам декодера 200 (поElements 201 and 202 of APU 210 are identical to the identically numbered elements of decoder 200 (according to
- 7 040874 фиг. 3), и вышеприведенное их описание повторяться не будет. При эксплуатации APU 210 последовательность блоков кодированного звукового битового потока (битового потока AAC MPEG-4), принимаемого APU 210, предъявляется из буфера 201 в деформатер 215.- 7 040874 fig. 3), and the above description of them will not be repeated. In operation of the APU 210, a block sequence of the encoded audio bitstream (MPEG-4 AAC bitstream) received by the APU 210 is presented from the buffer 201 to the deformer 215.
Деформатер 215 присоединен и выполнен с возможностью демультиплексировать каждый блок битового потока, чтобы извлекать метаданные SBR (в том числе данные квантованной огибающей) и также типично другие метаданные из него, но игнорировать метаданные eSBR, которые могут быть включены в битовый поток, в соответствии с любым вариантом осуществления настоящего изобретения. Деформатер 215 выполнен с возможностью добавлять по меньшей мере метаданные SBR в каскад 213 обработки SBR. Деформатер 215 также присоединен и выполнен с возможностью извлекать звуковые данные из каждого блока битового потока, и предъявлять извлеченные звуковые данные в подсистему 202 декодирования (каскад декодирования).A deformer 215 is attached and configured to demultiplex each bitstream block to extract SBR metadata (including quantized envelope data) and also typically other metadata from it, but ignore eSBR metadata that may be included in the bitstream, according to any embodiment of the present invention. The deformer 215 is configured to add at least SBR metadata to the SBR processing stage 213 . A deformer 215 is also attached and configured to extract audio data from each block of the bitstream, and present the extracted audio data to a decoding subsystem 202 (decoding stage).
Подсистема 202 декодирования звука декодера 200 выполнена с возможностью декодировать звуковые данные, извлеченные деформатером 215 (такое декодирование может упоминаться как операция основного декодирования), для формирования декодированных звуковых данных и предъявлять декодированные звуковые данные в каскад 213 обработки SBR. Декодирование выполняется в частотной области. Типично, завершающий каскад обработки в подсистеме 202 применяет преобразование из частотной области во временную область к декодированным звуковым данным частотной области так, чтобы выходными данными подсистемы были декодированные звуковые данные временной области. Каскад 213 выполнен с возможностью применять средства SBR (но не средства eSBR), указанные метаданными SBR (извлеченными деформатером 215), к декодированным звуковым данным (то есть выполнять обработку SBR над выходными данными подсистемы 202 декодирования с использованием метаданных SBR) для формирования полностью декодированных звуковых данных, которые выводятся (например, в постпроцессор 300) из APU 210. Типично APU 210 включает в себя память (доступную из подсистемы 202 и каскада 213), которая хранит деформатированные звуковые данные и метаданные, выданные из деформатера 215, а каскад 213 выполнен с возможностью осуществлять доступ к звуковым данным и метаданным (в том числе, метаданным SBR) по мере надобности во время обработки SBR. Обработка SBR в каскаде 213 может считаться последующей обработкой на выходе из подсистемы 202 основного декодирования. По выбору APU 210 также включает в себя подсистему завершающего повышающего микширования (которая может применять средства параметрической стереофонии (PS), определенные в стандарте AAC MPEG-4, с использованием метаданных PS, извлеченных деформатером 215), которая присоединена и выполнена с возможностью выполнять повышающее микширование над выходным сигналом каскада 213, чтобы формировать полностью декодированный подвергнутый повышающему микшированию звуковой сигнал, который выводится из APU 210. В качестве альтернативы постпроцессор выполнен с возможностью выполнять повышающее микширование над выходным сигналом APU 210 (например, с использованием метаданных PS, извлеченных деформатером 215, и/или управляющих битов, сформированных в APU 210).The audio decoding subsystem 202 of the decoder 200 is configured to decode the audio data extracted by the deformer 215 (such decoding may be referred to as a main decoding operation) to generate decoded audio data and provide the decoded audio data to the SBR processing stage 213 . The decoding is performed in the frequency domain. Typically, the final processing stage in subsystem 202 applies a frequency domain to time domain transform to the decoded frequency domain audio data such that the output of the subsystem is the decoded time domain audio data. Stage 213 is configured to apply the SBR means (but not the eSBR means) indicated by the SBR metadata (extracted by the deformer 215) to the decoded audio data (i.e., perform SBR processing on the output of the decoding subsystem 202 using the SBR metadata) to generate fully decoded audio data that is output (eg, to post processor 300) from APU 210. Typically, APU 210 includes a memory (accessible from subsystem 202 and stage 213) that stores deformed audio data and metadata output from deformer 215, and stage 213 is configured with the ability to access audio data and metadata (including SBR metadata) as needed during SBR processing. The SBR processing at stage 213 may be considered post-processing at the output of main decoding subsystem 202. Optionally, the APU 210 also includes a post-upmix subsystem (which can apply the Parametric Stereo (PS) facilities defined in the AAC MPEG-4 standard using the PS metadata extracted by the deformer 215) that is coupled and configured to perform the upmix. over the output of stage 213 to generate a fully decoded upmixed audio signal that is output from APU 210. Alternatively, a post processor is configured to upmix the output of APU 210 (for example, using PS metadata extracted by deformer 215, and /or control bits generated in the APU 210).
Различные реализации кодировщика 100, декодера 200 и APU 210 выполнены с возможностью выполнять разные варианты осуществления обладающего признаками изобретения способа.Various implementations of encoder 100, decoder 200, and APU 210 are configured to perform various embodiments of the inventive method.
В соответствии с некоторыми вариантами осуществления метаданные eSBR включены (например, небольшое количество управляющих битов, которые являются метаданными eSBR, включены) в кодированный звуковой битовый поток (например, битовый поток AAC MPEG-4), так чтобы унаследованные декодеры (которые не выполнены с возможностью синтаксически анализировать метаданные eSBR и использовать какое бы то ни было средство eSBR, к которому относятся метаданные eSBR), могут игнорировать метаданные eSBR, но, тем не менее, декодировать битовый поток, насколько возможно без использования метаданных eSBR или какого бы то ни было средства eSBR, к которому относятся метаданные eSBR, типично без какого бы то ни было значительного ухудшения качества декодированного звукового сигнала. Однако декодеры eSBR, выполненные с возможностью синтаксически анализировать битовый поток для идентификации метаданных eSBR и для использования по меньшей мере одного средства eSBR в ответ на метаданные eSBR, будут обладать выгодами использования по меньшей мере одного такого средства eSBR. Поэтому варианты осуществления изобретения предусматривают средство для рациональной передачи управляющих данных усовершенствованной репликации полос спектра (eSBR) или метаданных обратно совместимым образом.In accordance with some embodiments, eSBR metadata is included (e.g., a small number of control bits that are eSBR metadata are included) in an encoded audio bitstream (e.g., an MPEG-4 AAC bitstream) so that legacy decoders (which are not configured to parse the eSBR metadata and use whatever eSBR facility the eSBR metadata refers to) may ignore the eSBR metadata but still decode the bitstream as far as possible without using the eSBR metadata or any eSBR facility , to which the eSBR metadata refers, typically without any significant degradation in the quality of the decoded audio signal. However, eSBR decoders configured to parse the bitstream to identify eSBR metadata and to use at least one eSBR engine in response to the eSBR metadata will benefit from using at least one such eSBR engine. Therefore, embodiments of the invention provide a means for intelligently transmitting enhanced spectrum band replication (eSBR) control data or metadata in a backwards compatible manner.
Типично метаданные eSBR в битовом потоке являются указывающими (например служат признаком по меньшей мере одной характеристики или параметра) одного или более из следующих средств eSBR (которые описаны в стандарте MPEG USAC и которые могли быть или могли не быть примененными кодировщиком во время формирования битового потока):Typically, eSBR metadata in a bitstream is indicative of (e.g., indicative of at least one characteristic or parameter) one or more of the following eSBR facilities (which are described in the MPEG USAC standard and which may or may not have been applied by the encoder at the time the bitstream was generated): :
гармоническая транспозиция; и дополнительная предварительная обработка вклейкой с помощью КЗФ (предварительное выравнивание).harmonic transposition; and additional pre-treatment by bonding with KZF (pre-levelling).
Например, метаданные eSBR, включенные в битовый поток, могут быть указывающими значения параметров (описанных в стандарте USAC MPEG и в настоящем изобретении): sbrPatchingMode[ch], sbrOversamplingFlag[ch], sbrPitchInBins[ch], sbrPitchInBins[ch] и bs_sbr_preprocessing.For example, eSBR metadata included in the bitstream may be indicative of parameter values (described in the USAC MPEG standard and in the present invention): sbrPatchingMode[ch], sbrOversamplingFlag[ch], sbrPitchInBins[ch], sbrPitchInBins[ch], and bs_sbr_preprocessing.
- 8 040874- 8 040874
В материалах настоящего изобретения обозначение X[ch], где X -некоторый параметр, обозначает, что параметр относится к каналу (ch) звукового контента кодированного битового потока, подлежащего декодированию. Ради простоты мы иногда опускаем выражение [ch] и допускаем, что соответствующий параметр относится к каналу звукового контента.In the materials of the present invention, the notation X[ch], where X is some parameter, denotes that the parameter refers to the channel (ch) of the audio content of the encoded bitstream to be decoded. For the sake of simplicity, we sometimes omit the [ch] expression and assume that the corresponding parameter refers to an audio content channel.
В материалах настоящего изобретения обозначение X[ch][env], где X - некоторый параметр, обозначает, что параметр относится к огибающей (env) SBR канала (ch) звукового контента кодированного битового потока, подлежащего декодированию. Ради простоты мы иногда опускаем выражения [env] и [ch] и допускаем, что соответствующий параметр относится к огибающей SBR канала звукового контента.In the materials of the present invention, the notation X[ch][env], where X is a parameter, indicates that the parameter refers to the envelope (env) of the SBR channel (ch) of the audio content of the encoded bitstream to be decoded. For the sake of simplicity, we sometimes omit the expressions [env] and [ch] and assume that the corresponding parameter refers to the SBR envelope of the audio content channel.
Во время декодирования кодированного битового потока выполнение гармонической транспозиции во время стадии обработки eSBR декодирования(для каждого канала, ch, звукового контента, указанного битовым потоком) управляется следующими параметрами метаданных eSBR: sbrPatchingMode[ch]: sbrOversamplingFlag[ch]; sbrPitchInBinsFlag[ch]; и sbrPitchInBins[ch].During decoding of an encoded bitstream, the performance of harmonic transposition during the eSBR processing stage of decoding (for each channel, ch, of the audio content indicated by the bitstream) is controlled by the following eSBR metadata parameters: sbrPatchingMode[ch]: sbrOversamplingFlag[ch]; sbrPitchInBinsFlag[ch]; and sbrPitchInBins[ch].
Значение sbrPatchingMode[ch] указывает тип транспозера, используемый в eSBR: sbrPatchingMode[ch]=1 указывает негармоническую вклейку, как описано в разделе 4.6.18.6.3 стандарта AAC MPEG-4; sbrPatchingMode[ch]=0 указывает гармоническую вклейку SBR, как указанная в разделе 7.5.3 или 7.5.4 стандарта USAC MPEG USAC.The value of sbrPatchingMode[ch] indicates the type of transposer used in eSBR: sbrPatchingMode[ch]=1 indicates non-harmonic patching as described in section 4.6.18.6.3 of the AAC MPEG-4 standard; sbrPatchingMode[ch]=0 specifies SBR harmonic patching as specified in section 7.5.3 or 7.5.4 of the USAC MPEG USAC standard.
Значение sbrOversamplingFlag[ch] указывает использование адаптивной по отношению к сигналу передискретизации частотной области в eSBR в комбинации основанной на ДПФ гармонической вклейки SBR, как описано в разделе 7.5.3 стандарта USAC MPEG. Этот флажковый признак управляет размером ДПФ, которые используются в транспозере: 1 указывает активированную адаптивную по отношению к сигналу передискретизацию частотной области, как описано в разделе 7.5.3.1 стандарта USAC MPEG; 0 указывает деактивированную адаптивную по отношению к сигналу передискретизацию частотной области, как описано в разделе 7.5.3.1 стандарта USAC MPEG.The value of sbrOversamplingFlag[ch] specifies the use of signal-adaptive frequency domain oversampling in the eSBR in combination with DFT-based SBR harmonic patching as described in section 7.5.3 of the USAC MPEG standard. This flag controls the size of the DFTs that are used in the transposer: 1 indicates signal-adaptive frequency domain resampling is enabled, as described in section 7.5.3.1 of the USAC MPEG standard; 0 indicates signal-adaptive frequency domain resampling disabled, as described in section 7.5.3.1 of the USAC MPEG standard.
Значение sbrPitchInBinsFlag[ch] управляет интерпретацией параметра sbrPitchInBins[ch]: 1 указывает, что значение в sbrPitchInBins[ch] действительно и больше нуля; 0 указывает, что значение sbrPitchInBins[ch] установлено в ноль.The value of sbrPitchInBinsFlag[ch] controls the interpretation of the sbrPitchInBins[ch] parameter: 1 indicates that the value in sbrPitchInBins[ch] is valid and greater than zero; 0 indicates that sbrPitchInBins[ch] is set to zero.
Значение sbrPitchInBins[ch] управляет добавлением членов векторного произведения в гармонический транспозер SBR. Значение sbrPitchinBins[ch] является целочисленным значением в диапазоне [0,127] и представляет собой расстояние, измеренное в элементах разрешения по частоте для 1536точечное ДПФ, действующее на частоте дискретизации основного кодера.The sbrPitchInBins[ch] value controls the addition of vector product terms to the SBR harmonic transposer. The value of sbrPitchinBins[ch] is an integer value in the range [0,127] and is the distance measured in frequency bins for a 1536-point DFT operating at the core encoder sample rate.
В случае если битовый поток AAC MPEG-4 указывает пару каналов SBR, чьи каналы не соединены (вместо одиночного канала SBR), битовый поток является указывающим два экземпляра вышеприведенного синтаксиса (для гармонической или негармонической транспозиции), один для каждого канала sbr_channel_pair_element().In case the MPEG-4 AAC bitstream indicates a pair of SBR channels whose channels are not connected (instead of a single SBR channel), the bitstream is indicating two instances of the above syntax (for harmonic or non-harmonic transposition), one for each sbr_channel_pair_element() channel.
Гармоническая транспозиция средства eSBR типично улучшает качество декодированных музыкальных сигналов с относительно низкими частотами разделения. Негармоническая транспозиция (то есть унаследованная спектральная вклейка) типично улучшает речевые сигналы. Отсюда отправная точка при принятии решения в отношении того, какой тип транспозиции предпочтителен для кодирования конкретного звукового контента, состоит в том, чтобы выбирать способ транспозиции в зависимости от выявления речи/музыки, причем, гармоническая транспозиция выполняется над музыкальным контентом, и спектральная вклейка над речевым контентом.The harmonic transposition of the eSBR facility typically improves the quality of decoded music signals with relatively low crossover frequencies. Non-harmonic transposition (ie, inherited spectral patching) typically enhances speech signals. Hence, the starting point in deciding which type of transposition is preferred for encoding a particular audio content is to choose a transposition method depending on speech/music detection, whereby harmonic transposition is performed over musical content and spectral pasting over speech content. content.
Выполнение предварительного выравнивания во время обработки eSBR управляется значением однобитного параметра метаданных eSBR, известного как bs_sbr_preprocessing, в том смысле, что предварительное выравнивание выполняется или не выполняется в зависимости от значения этого одиночного бита. Когда используется алгоритм вклейки с помощью КЗФ SBR, как описанный в разделе 4.6.18.6.3 стандарта AAC MPEG-4, этап предварительного выравнивания может выполняться (когда указан параметром bs_sbr_preprocessing) в попытке избежать отсутствия непрерывности профиля огибающей спектра высокочастотного сигнала, подаваемого в последующий корректор огибающей (корректор огибающей играет роль еще одной стадии обработки eSBR). Предварительное выравнивание типично улучшает действие последующего каскада коррекции огибающей, давая в результате сигнал в полосе высоких частот, который воспринимается более устойчивым.The performance of pre-alignment during eSBR processing is controlled by the value of a one-bit eSBR metadata parameter known as bs_sbr_preprocessing, in the sense that pre-alignment is performed or not performed depending on the value of this single bit. When using the SBR embedding algorithm as described in section 4.6.18.6.3 of the MPEG-4 AAC standard, a pre-equalization step may be performed (when specified by the bs_sbr_preprocessing parameter) in an attempt to avoid a discontinuity in the spectral envelope profile of the high frequency signal fed to the subsequent equalizer envelope (envelope corrector acts as another stage of eSBR processing). The pre-equalization typically improves the performance of the subsequent envelope correction stage, resulting in a high-band signal that is perceived to be more robust.
Ожидается, что общее требование к скорости передачи в битах для включения в метаданные eSBR битового потока AAC MPEG-4, указывающие упомянутые выше средства eSBR (гармоническую транспозицию и предварительное выравнивание) будет порядка нескольких сотен бит в секунду, так как только отличительные управляющие данные, необходимые для выполнения обработки eSBR, передаются в соответствии с некоторыми вариантами осуществления изобретения. Унаследованные декодеры могут игнорировать эту информацию, так как она включена обратно совместимым образом (как будет пояснено позже). Поэтому пагубное влияние на скорости передачи битов, связанную с включением в состав метаданных eSBR, незначительно по ряду причин, в том числе следующим:It is expected that the total bit rate requirement for inclusion in the MPEG-4 AAC bitstream eSBR metadata indicating the eSBR facilities mentioned above (harmonic transposition and pre-equalization) will be on the order of several hundred bits per second, since only the distinctive control data needed to perform eSBR processing are transmitted in accordance with some embodiments of the invention. Legacy decoders may ignore this information as it is included in a backward compatible manner (as will be explained later). Therefore, the detrimental bitrate impact associated with inclusion in eSBR metadata is negligible for a number of reasons, including the following:
ухудшение скорости передачи битов (обусловленное включением в состав метаданных eSBR) является весьма небольшой долей полной скорости передачи битов, так как передаются только отличитель- 9 040874 ные управляющие данные, необходимые для выполнения обработки eSBR (а не одновременная передача управляющих данных SBR); и настройка связанной с SBR управляющей информации типично не зависит от подробностей транспозиции.the bit rate degradation (due to the inclusion of eSBR metadata) is a very small fraction of the total bit rate, as only the distinctive control data necessary to perform eSBR processing is transmitted (rather than the simultaneous transmission of SBR control data); and the setting of SBR-related control information is typically independent of the details of the transposition.
Таким образом, варианты осуществления изобретения предусматривают средство для рациональной передачи управляющих данных усовершенствованной репликации полос спектра (eSBR) или метаданных обратно совместимым образом. Рациональная передача управляющих данных eSBR уменьшает требования к памяти в декодерах, кодировщиках и перекодировщиках, применяющих аспекты изобретения, тем временем не подвергаясь ощутимому неблагоприятному воздействию на скорость передачи битов. Более того, сложность и требования к обработке, связанные с выполнением eSBR в соответствии с вариантами осуществления изобретения, также уменьшаются, так как данные SBR необходимо обрабатывать только один раз, и нет одновременной передачи, которая имела бы место, если бы eSBR обрабатывался в виде полностью отдельного типа объекта в AAC MPEG-4 вместо встраивания в кодек AAC MPEG-4 обратно совместимым образом.Thus, embodiments of the invention provide a means for intelligently transmitting enhanced spectrum band replication (eSBR) control data or metadata in a backwards compatible manner. The rational transmission of eSBR control data reduces the memory requirements in decoders, encoders, and transcoders employing aspects of the invention, while not incurring a perceptible adverse effect on the bit rate. Moreover, the complexity and processing requirements associated with performing eSBR in accordance with embodiments of the invention are also reduced because SBR data only needs to be processed once, and there is no simultaneous transmission that would occur if the eSBR were processed in full. a separate object type in AAC MPEG-4 instead of being embedded in the AAC MPEG-4 codec in a backward compatible manner.
Затем, со ссылкой на фиг. 7, опишем элементы блока (raw data block) битового потока AAC MPEG-4, в котором метаданные eSBR включены в состав в соответствии с некоторыми вариантами осуществления настоящего изобретения. Фиг. 7 - схема блока (raw_data_block) битового потока AAC MPEG-4, показывающая некоторые его сегменты.Then, with reference to FIG. 7, we will describe the elements of a block (raw data block) of an MPEG-4 AAC bitstream in which eSBR metadata is included in accordance with some embodiments of the present invention. Fig. 7 is a block diagram (raw_data_block) of an MPEG-4 AAC bitstream showing some of its segments.
Блок битового потока AAC MPEG-4 может включать в себя по меньшей мере один single_channel_element() (например, элемент одиночного канала, показанный на фиг. 7), и/или по меньшей мере один ”channel_pair_element() (особо не показанный на фиг. 7, хотя он может присутствовать), в том числе, звуковые данные для звуковой программы. Блок также может включать в себя некоторое количество fill_elements (например, элемент 1 заполнения и/или элемент 2 заполнения по фиг. 7), включающих в себя данные (например, метаданные), имеющие отношение к программе. Каждый single_channel_element() включает в себя идентификатор (например, ID1 по фиг. 7), указывающий начало элемента одиночного канала, и может включать в себя звуковые данные, указывающие другой канал многоканальной звуковой программы. Каждый channel_pair_element включает в себя идентификатор (не показан на фиг. 7), указывающий начало элемента пары каналов, и может включать в себя звуковые данные, указывающие два канала программы.An MPEG-4 AAC bitstream block may include at least one single_channel_element() (e.g., the single channel element shown in FIG. 7) and/or at least one ”channel_pair_element() (not specifically shown in FIG. 7, although it may be present), including audio data for an audio program. The block may also include a number of fill_elements (eg, fill element 1 and/or fill element 2 of FIG. 7) including data (eg, metadata) related to the program. Each single_channel_element() includes an identifier (eg, ID1 of FIG. 7) indicating the start of a single channel element, and may include audio data indicating a different channel of the multi-channel audio program. Each channel_pair_element includes an identifier (not shown in FIG. 7) indicating the start of a channel pair element, and may include audio data indicating two program channels.
fill element (в материалах настоящего изобретения упоминаемый как элемент заполнения) битового потока AAC MPEG-4 включает в себя идентификатор (ID2 по фиг. 7), указывающий начало элемента заполнения, и данные заполнения после идентификатора. Идентификатор ID2 может состоять из трехбитного беззнакового целого числа, передаваемого старшим битом вперед (uimsbf), имеющего значение Охб. Данные заполнения могут включать в себя элемент extension_payload() (иногда в материалах настоящего изобретения упоминаемый как полезная нагрузка расширения), чей синтаксис показан в таблице 4.57 стандарта AAC MPEG-4. Несколько типов полезной нагрузки расширения существуют и идентифицируются посредством параметра extension type, который является четырехбитным беззнаковым целым числом, передаваемым старшим битом вперед (uimsbf”).The fill element (referred to herein as a fill element) of an MPEG-4 AAC bitstream includes an identifier (ID2 in FIG. 7) indicating the start of the fill element and fill data after the identifier. The ID2 may consist of a 3-bit unsigned integer, transmitted most significant bit first (uimsbf), having the value 0xb. The payload data may include an extension_payload() element (sometimes referred to as an extension payload in the present invention), whose syntax is shown in Table 4.57 of the AAC MPEG-4 standard. Several extension payload types exist and are identified by the extension type parameter, which is a four-bit unsigned integer passed most significant bit first ('uimsbf').
Данные заполнения (например, их полезная нагрузка расширения) могут включать в себя заголовок или идентификатор (например, заголовок 1 по фиг. 7), который указывает сегмент данных заполнения, которые являются указывающими объект SBR (то есть заголовок инициализирует тип объекта SBR, указываемый ссылкой как sbr_extension_data() в стандарте AAC MPEG-4). Например, полезная нагрузка расширения репликации полос спектра (SBR) идентифицируется значением '1101' или '1110', что касается поля extension_type в заголовке, причем, '1101' идентифицирует полезную нагрузку расширения с данными SBR, a '1110' идентифицирует и полезную нагрузку расширения с данными SBR с циклическим избыточным кодом (CRC) для проверки правильности данных SBR.The padding data (e.g., its extension payload) may include a header or identifier (e.g., header 1 of FIG. 7) that specifies a segment of the padding data that is indicative of an SBR object (i.e., the header initializes the SBR object type indicated by the reference like sbr_extension_data() in the AAC MPEG-4 standard). For example, a spectrum bands replication (SBR) extension payload is identified by a value of '1101' or '1110', with respect to the extension_type field in the header, where '1101' identifies an extension payload with SBR data, and '1110' identifies an extension payload with SBR data. with SBR data with a cyclic redundancy code (CRC) to check the correctness of the SBR data.
Когда заголовок (например, поле extension_type) инициализирует тип объекта SBR, метаданные SBR (иногда упоминаемые как данные репликации полос спектра и указываемые ссылкой как sbr_data() в стандарте AAC MPEG-4) следуют за заголовком, и по меньшей мере один элемент расширения репликации полос спектра (например, элемент расширения SBR элемента 1 заполнения по фиг. 7) может следовать за метаданными SBR. Такой элемент расширения репликации полос спектра (сегмент битового потока) указывается ссылкой как контейнер ”sbr_extension() в стандарте AAC MPEG-4. Элемент расширения репликации полос спектра по выбору включает в себя заголовок (например, заголовок расширения SBR элемента 1 заполнения по фиг. 7).When a header (eg, an extension_type field) initializes an SBR object type, SBR metadata (sometimes referred to as spectrum band replication data and referred to as sbr_data() in the MPEG-4 AAC standard) follows the header, and at least one band replication extension element spectrum (eg, padding element 1 SBR extension element of FIG. 7) may follow the SBR metadata. Such a spectrum band replication extension element (bitstream segment) is referred to as the ”sbr_extension() container in the AAC MPEG-4 standard. The spectrum band replication extension element optionally includes a header (eg, padding element 1 SBR extension header of FIG. 7).
Стандарт AAC MPEG-4 предполагает, что элемент расширения репликации полос спектра может включать в себя данные PS (параметрической стереофонии) для звуковых данных программы. Стандарт AAC MPEG-4 предполагает, что, когда заголовок элемента заполнения (например, его полезной нагрузки расширения) инициализирует тип объекта SBR (как это делает header1 по фиг. 7), и элемент расширения репликации полос спектра элемента заполнения включает в себя данные PS, элемент заполнения (например, его полезная нагрузка расширения) включает в себя данные репликации полос спектра, и параметр bs_extension_id, чье значение (то есть bs_extension_id=2) указывает, что данные PS включены в элемент расширения репликации полос спектра элемента заполнения.The MPEG-4 AAC standard suggests that the spectrum band replication extension element may include PS (parametric stereo) data for program audio data. The MPEG-4 AAC standard assumes that when the padding element header (eg, its extension payload) initializes the SBR object type (as header1 does in FIG. 7), and the padding element spectrum replication extension element includes PS data, the padding element (eg, its extension payload) includes spectrum band replication data, and a parameter bs_extension_id whose value (ie, bs_extension_id=2) indicates that the PS data is included in the padding element spectrum band replication extension element.
- 10 040874- 10 040874
В соответствии с некоторыми вариантами осуществления настоящего изобретения метаданные eSBR (например, флажковый признак, указывающий, должна ли обработка усовершенствованной репликации полос спектра (eSBR) выполняться над звуковым контентом блока). Например, такой флажковый признак указывается в элементе 1 заполнения по фиг. 7, где флажковый признак встречается после заголовка (заголовка расширения SBR элемента 1 заполнения) элемента расширения SBR элемента 1 заполнения. По выбору, такой флажковый признак и дополнительные данные eSBR включены в элемент расширения репликации полос спектра после заголовка элемента расширения репликации полос спектра (например, в элемент расширения SBR элемента 1 заполнения на фиг. 7, после заголовка расширения SBR). В соответствии с некоторыми вариантами осуществления настоящего изобретения, элемент заполнения, который включает в себя метаданные eSBR, также включает в себя параметр bs_extension_id, чье значение (например, bs_extension_id=3) указывает, что метаданные eSBR включены в элемент заполнения, и что обработка eSBR должна быть выполнена над звуковым контентом уместного блока.In accordance with some embodiments of the present invention, eSBR metadata (eg, a flag indicating whether enhanced spectrum band replication (eSBR) processing should be performed on the audio content of the block). For example, such a flag is indicated in the padding element 1 of FIG. 7, where the flag feature occurs after the header (header of padding item 1 extension SBR) of padding item 1 SBR extension header. Optionally, such a flag and the additional eSBR data are included in the Bandwidth Replication Extension Element after the Bandwidth Replication Extension Element Header (eg, in the SBR Extension Element of Padding Element 1 in FIG. 7, after the SBR Extension Header). In accordance with some embodiments of the present invention, a padding element that includes eSBR metadata also includes a bs_extension_id parameter whose value (for example, bs_extension_id=3) indicates that eSBR metadata is included in the padding element and that eSBR processing should be performed on the sound content of the relevant block.
В соответствии с некоторыми вариантами осуществления изобретения метаданные eSBR включены в элемент заполнения (например, элемент 2 заполнения по фиг. 7) битового потока AAC MPEG-4, иные чем в элементе расширения репликации полос спектра (элементе расширения SBR) элемента заполнения. Причина в том, что элементы заполнения, содержащие в себе extension_payload() с данными SBR или данные SBR с CRC, не содержат в себе никакой другой полезной нагрузки расширения любого другого типа расширения. Поэтому, в вариантах осуществления, где метаданные eSBR хранятся своей собственной полезной нагрузкой расширения, отдельный элемент заполнения, используется для хранения метаданных eSBR. Такой элемент заполнения включает в себя идентификатор (например, ID2 по фиг. 7), указывающий начало элемента заполнения, и данные заполнения после идентификатора. Данные заполнения могут включать в себя элемент extension_payload() (иногда в материалах настоящего изобретения упоминаемый как полезная нагрузка расширения), чей синтаксис показан в табл. 4.57 стандарта AAC MPEG-4. Данные заполнения (например, их полезная нагрузка расширения) включает в себя заголовок (например, header2 элемента 2 заполнения по фиг. 7), который является указывающим объект eSBR (то есть заголовок инициализирует тип объекта усовершенствованной репликации полос спектра (eSBR)), и данные заполнения (например, его полезная нагрузка расширения) включают в себя метаданные eSBR после заголовка. Например, элемент 2 заполнения по фиг. 7 включает в себя такой заголовок (header2) и также включает в себя, после заголовка, метаданные eSBR (то есть флажковый признак в элементе 2 заполнения, который указывает, должна ли обработка усовершенствованной репликации полос спектра (eSBR) выполняться над звуковым контентом блока). По выбору, дополнительные метаданные eSBR также включены в данные заполнения элемента 2 заполнения по фиг. 7 после заголовка 2. В вариантах осуществления, описываемым в настоящем параграфе, заголовок (например, заголовок 2 по фиг. 7) имеет идентификационное значение, которое не является одним из традиционных значений, заданных в табл. 4.57 стандарта AAC MPEG-4, и, взамен, является указывающим полезную нагрузку расширения eSBR (так что поле extension_type указывает, что данные заполнения включают в себя метаданные eSBR).In accordance with some embodiments of the invention, the eSBR metadata is included in a padding element (e.g., padding element 2 of FIG. 7) of an MPEG-4 AAC bitstream other than in the spectrum band replication extension element (SBR extension element) of the padding element. The reason is that padding elements containing extension_payload() with SBR data or SBR data with CRC do not contain any other extension payload of any other type of extension. Therefore, in embodiments where the eSBR metadata is stored by its own extension payload, a separate padding element is used to store the eSBR metadata. Such a padding element includes an identifier (eg, ID2 of FIG. 7) indicating the start of the padding element and padding data after the identifier. The payload data may include an extension_payload() element (sometimes referred to throughout the present invention as an extension payload), whose syntax is shown in Table 1. 4.57 of the AAC MPEG-4 standard. The padding data (eg, its extension payload) includes a header (eg, header2 of padding element 2 of FIG. 7) that is indicative of an eSBR object (i.e., the header initializes an enhanced spectrum band replication (eSBR) object type), and data padding (eg, its extension payload) includes eSBR metadata after the header. For example, the padding element 2 of FIG. 7 includes such a header (header2) and also includes, after the header, eSBR metadata (i.e., a flag in padding element 2 that indicates whether advanced spectrum band replication (eSBR) processing should be performed on the audio content of the block). Optionally, additional eSBR metadata is also included in the padding data of the padding element 2 of FIG. 7 after header 2. In the embodiments described in this paragraph, the header (eg, header 2 of FIG. 7) has an identification value that is not one of the traditional values given in Table 7. 4.57 of the MPEG-4 AAC standard, and instead is indicative of the eSBR extension payload (so that the extension_type field indicates that the padding data includes eSBR metadata).
В первой группе вариантов осуществления изобретение является блоком обработки звукового сигнала (например, декодером), содержащим память (например, буфер 201 по фиг. 3 или 4), выполненную с возможностью хранить по меньшей мере один блок кодированного звукового битового потока (например, по меньшей мере один блок битового потока AAC MPEG-4);In a first group of embodiments, the invention is an audio signal processing unit (e.g., a decoder) comprising a memory (e.g., buffer 201 of FIG. 3 or 4) configured to store at least one encoded audio bitstream block (e.g., at least at least one block of an AAC MPEG-4 bitstream);
деформатер полезной нагрузки битового потока (например, элемент 205 по фиг. 3 или элемент 215 по фиг. 4), присоединенный к памяти и выполненный с возможностью демультиплексировать по меньшей мере одну часть упомянутого блока битового потока; и подсистему декодирования (например, элементы 202 и 203 по фиг. 3 или элементы 202 и 213 по фиг. 4), присоединенную и выполненную с возможностью декодировать по меньшей мере одну часть звукового контента упомянутого блока битового потока, при этом блок включает в себя элемент заполнения, включающий в себя идентификатор, указывающий начало элемента заполнения (например, идентификатор id syn ele, имеющий значение Охб, по табл. 4.85 стандарта AAC MPEG4), и данные заполнения после идентификатора, при этом данные заполнения включают в себя по меньшей мере один флажковый признак, идентифицирующий, должна ли обработка усовершенствованной репликации полос спектра (eSBR) выполняться над звуковым контентом блока (например, с использованием данных репликации полос спектра и метаданных eSBR, включенных в блок).a bitstream payload deformer (eg, element 205 of FIG. 3 or element 215 of FIG. 4) coupled to the memory and configured to demultiplex at least one portion of said bitstream block; and a decoding subsystem (e.g., elements 202 and 203 of FIG. 3 or elements 202 and 213 of FIG. 4) coupled to and configured to decode at least one portion of the audio content of said bitstream block, the block including an element padding, including an identifier indicating the beginning of the padding element (for example, an identifier id synele having the value Oxb, according to Table 4.85 of the AAC MPEG4 standard), and padding data after the identifier, while the padding data includes at least one flag a flag identifying whether enhanced spectrum band replication (eSBR) processing should be performed on the audio content of the block (eg, using spectrum band replication data and eSBR metadata included in the block).
Флажковым признаком являются метаданные eSBR, и примером флажкового признака является флажковый признак sbrPatchingMode. Еще одним примером флажкового признака является флажковый признак гармонической SBR. Оба этих флажковых признака указывают, базовая форма репликации полос спектра или усовершенствованная форма репликации спектра должна выполняться над звуковыми данными блока. Базовой формой репликации спектра является спектральная вклейка, а усовершенствованной формой репликации полос спектра является гармоническая транспозиция.The flag is the eSBR metadata, and an example of a flag is the sbrPatchingMode flag. Another example of a flag feature is the harmonic SBR flag. Both of these flags indicate whether a basic form of spectrum band replication or an advanced form of spectrum replication should be performed on the block's audio data. The basic form of spectrum replication is spectral pasting, and an improved form of spectrum band replication is harmonic transposition.
В некоторых вариантах осуществления данные заполнения также включают в себя дополнительные метаданные eSBR (то есть метаданные eSBR, иные чем флажковый признак).In some embodiments, the padding data also includes additional eSBR metadata (ie, eSBR metadata other than a flag).
Память может быть буферной памятью (например, реализацией буфера 201 по фиг. 4), которая хра- 11 040874 нит (например, неэфемерным образом) по меньшей мере один блок кодированного звукового битового потока.The memory may be a buffer memory (eg, an implementation of buffer 201 of FIG. 4) that stores (eg, in a non-ephemeral manner) at least one block of the encoded audio bitstream.
Оценивается, что сложность выполнения обработки eSBR (с использованием гармонической транспозиции и предварительного выравнивания eSBR) посредством декодера eSBR во время декодирования битового потока AAC MPEG-4, который включает в себя метаданные eSBR (указывающие эти средства eSBR), была бы следующей (для типичного декодирования с указанными параметрами):It is estimated that the complexity of performing eSBR processing (using harmonic transposition and eSBR pre-equalization) by an eSBR decoder at the time of decoding an MPEG-4 AAC bitstream that includes eSBR metadata (indicating these eSBR facilities) would be as follows (for a typical decoding with the specified parameters):
гармоническая транспозиция (16 кбит/с, 14400/28800 Гц) на основании ДПФ: 3,68 WMOPS (взвешенных миллионов операций в секунду);harmonic transposition (16 kbps, 14400/28800 Hz) based on DFT: 3.68 WMOPS (weighted million operations per second);
на основании КЗФ: 0,98 WMOPS;based on KZF: 0.98 WMOPS;
предварительная обработка вклейки с помощью КЗФ (предварительное выравнивание): 0,1 WMOPS.gluing pre-treatment with KZF (pre-alignment): 0.1 WMOPS.
Известно, что основанная на ДПФ транспозиция типично работает лучше, чем основанная на КЗФ транспозиция, применительно к переходным процессам.It is known that DFT-based transposition typically performs better than CFP-based transposition for transients.
В соответствии с некоторыми вариантами осуществления настоящего изобретения элемент заполнения (кодированного звукового битового потока), который включает в себя метаданные eSBR, также включает в себя параметр (например, параметр bs_extension_id), чье значение (например, bs_extension_id=3) сигнализирует, что метаданные eSBR включены в элемент заполнения и что обработка eSBR должна быть выполнена над звуковым контентом уместного блока, и/или параметр (например, тот же самый параметр bs_extension_id, чье значение (например, bs_extension_id=2) сигнализирует, что контейнер sbr_extension() элемента заполнения включает в себя данные PS. Например, как указано в табл. 1, приведенной ниже, такой параметр, имеющий значение bs_extension_id=2, может сигнализировать, что контейнер sbr_extension() элемента заполнения включает в себя данные PS, и такой параметр, имеющий значение bs_extension_id=3, может сигнализировать, что контейнер sbr_extension() элемента заполнения включает в себя метаданные eSBR.In accordance with some embodiments of the present invention, a pad element (of an encoded audio bitstream) that includes eSBR metadata also includes a parameter (eg, bs_extension_id parameter) whose value (eg, bs_extension_id=3) signals that the eSBR metadata included in the fill element and that eSBR processing should be performed on the audio content of the relevant block, and/or a parameter (eg, the same bs_extension_id parameter whose value (eg, bs_extension_id=2) signals that the fill element's sbr_extension() container includes in PS data itself, For example, as indicated in Table 1 below, such a parameter having the value bs_extension_id=2 can signal that the sbr_extension() container of the fill element includes PS data, and such a parameter having the value bs_extension_id=3 , may signal that the infill element's sbr_extension() container includes eSBR metadata .
Таблица 1Table 1
В соответствии с некоторыми вариантами осуществления изобретения синтаксис каждого элемента расширения репликации полос спектра, который включает в себя метаданные eSBR и/или данные PS является таким, как указано в табл. 2, приведенной выше (в которой sbr_extension() обозначает контейнер, который является элементом расширения репликации полос спектра, bs_extension_id является таким, как описано в табл. 1, приведенной выше, ps_data обозначает данные PS, a esbr_data обозначает метаданные eSBR).In accordance with some embodiments of the invention, the syntax of each spectrum band replication extension element that includes eSBR metadata and/or PS data is as indicated in Table 1. 2 above (in which sbr_extension() denotes a container that is a spectrum band replication extension member, bs_extension_id is as described in Table 1 above, ps_data denotes PS data, and esbr_data denotes eSBR metadata).
Таблица 2table 2
- 12040874- 12040874
В примерном варианте осуществления, esbr_data(), упомянутый в табл. 2, приведенной выше, является указывающим значения следующих параметров метаданных:In an exemplary embodiment, esbr_data(), mentioned in the table. 2 above is indicating the values of the following metadata parameters:
1) однобитный параметр метаданных, bs_sbr_preprocessing; и1) a one-bit metadata parameter, bs_sbr_preprocessing; And
2) для каждого канала (ch) звукового контента кодированного битового потока, подлежащего декодированию, каждый из описанных выше параметров:2) for each channel (ch) of the audio content of the encoded bitstream to be decoded, each of the parameters described above:
sbrPatchingMode[ch]; sbrOversamplingFlag[ch]; sbrPitchInBinsFlag[ch]; и sbrPitchInBins[ch].sbrPatchingMode[ch]; sbrOversamplingFlag[ch]; sbrPitchInBinsFlag[ch]; and sbrPitchInBins[ch].
Например, в некоторых вариантах осуществления, esbr_data() может иметь синтаксис, указанный в табл. 3, для указания этих параметров метаданных.For example, in some embodiments, esbr_data() may have the syntax shown in Table. 3 to indicate these metadata options.
Таблица 3Table 3
- 13 040874- 13 040874
Приведенный выше синтаксис дает возможность рациональной реализации усовершенствованной формы репликации полос спектра, такой как гармоническая транспозиция, в качестве расширения унаследованного декодера. Более точно данные eSBR из табл. 3 включают в себя только те параметры, необходимые для выполнения усовершенствованной формы репликации полос спектра, которые еще не поддерживаются в битовом потоке и не являются выводимыми непосредственно из параметров, уже поддерживаемых в битовом потоке. Все другие параметры и данные обработки, необходимые для выполнения усовершенствованной формы репликации полос спектра, извлекаются из существующих ранее параметров в уже определенных расположениях в битовом потоке.The above syntax allows a rational implementation of an advanced form of spectrum band replication, such as harmonic transposition, as an extension of a legacy decoder. More precisely, the eSBR data from Table. 3 include only those parameters needed to perform an advanced form of spectrum band replication that are not yet supported in the bitstream and are not directly derived from the parameters already supported in the bitstream. All other parameters and processing data needed to perform an advanced form of spectrum band replication are derived from pre-existing parameters at already defined locations in the bitstream.
- 14040874- 14040874
Например, совместимый с HE-AAC MPEG-4 или с HE-AAC v2 декодер может быть расширен, чтобы включать в себя усовершенствованную форму репликации полос спектра, такую как гармоническая транспозиция. Эта усовершенствованная форма репликации полос спектра является дополнением к базовой форме репликации полос спектра, уже поддерживаемой декодером. В контексте совместимого с HEAAC или HE-AAC v2 MPEG-4 декодера, эта базовая форма репликации полос спектра является средством SBR спектральной вклейки с помощью КЗФ, как определено в разделе 4.6.18 стандарта AAC MPEG4.For example, a HE-AAC MPEG-4 or HE-AAC v2 compatible decoder can be extended to include an advanced form of spectrum band replication such as harmonic transposition. This advanced form of spectrum band replication is in addition to the basic form of spectrum band replication already supported by the decoder. In the context of a HEAAC or HE-AAC v2 MPEG-4 compliant decoder, this basic form of spectrum band replication is the means of SBR spectral embedding with CFP as defined in section 4.6.18 of the AAC MPEG4 standard.
При выполнении усовершенствованной формы репликации полос спектра декодер расширенного HE-AAC может повторно использовать многие параметры битового потока, уже включенные в полезную нагрузку расширения SBR битового потока. Конкретные параметры, которые могут повторно использоваться, например, включают в себя различные параметры, которые определяют сводную таблицу полос частот. Эти параметры включают в себя bs_start_freq (параметр, который определяет начало параметра сводной таблицы частот), bs_stop_freq (параметр, который определяет окончание сводной таблицы частот), bs_freq_scale (параметр, который определяет количество полос частот на октаву) и bs_alter_scale (параметр, который изменяет шкалу полос частот). Параметры, которые могут повторно использоваться, также включают в себя параметры, которые определяют таблицу шумовых полос (bs_noise_bands) и параметры таблицы ограничительных полос (bs_limiter_bands). Соответственно, в различных вариантах осуществления, по меньшей мере некоторые из эквивалентных параметров, заданных в стандарте USAC, не включены в битовый поток, тем самым, сокращая служебные сигналы и данные управления в битовом потоке. Типично, в тех случаях, когда параметр, заданный в стандарте AAC, имеет эквивалентный параметр, заданный в USAC, эквивалентный параметр, заданный в USAC, имеет такое же наименование, как параметр, заданный в стандарте AAC, например, масштабный коэффициент огибающей, EOrigMapped. Однако, эквивалентный параметр, заданный в стандарте USAC, типично имеет другое значение, которое приспособлено скорее для обработки усовершенствованной SBR, определенной в стандарте USAC, нежели для обработки SBR, определенной в стандарте AAC.When performing an advanced form of spectrum band replication, an extended HE-AAC decoder can reuse many of the bitstream parameters already included in the SBR extension payload of the bitstream. Specific parameters that can be reused include, for example, various parameters that define a summary table of frequency bands. These parameters include bs_start_freq (a parameter that specifies the start of the frequency summary table parameter), bs_stop_freq (a parameter that specifies the end of the summary frequency table), bs_freq_scale (a parameter that specifies the number of frequency bands per octave), and bs_alter_scale (a parameter that changes the scale frequency bands). The parameters that can be reused also include parameters that define a noise band table (bs_noise_bands) and limit band table parameters (bs_limiter_bands). Accordingly, in various embodiments, at least some of the equivalent parameters specified in the USAC standard are not included in the bitstream, thereby reducing overhead and control data in the bitstream. Typically, in cases where a parameter specified in the AAC standard has an equivalent parameter specified in USAC, the equivalent parameter specified in USAC has the same name as the parameter specified in the AAC standard, for example, envelope scaling factor, E Or i gMapped . However, the equivalent parameter defined in the USAC standard typically has a different value that is adapted to handle the advanced SBR defined in the USAC standard rather than the processing of the SBR defined in the AAC standard.
В дополнение к многочисленным параметрам, другие элементы данных также могут повторно использоваться декодером расширенного HE-AAC при выполнении усовершенствованной формы репликации полос спектра в соответствии с вариантами осуществления изобретения. Например, данные огибающей и данные уровня собственных шумов также могут извлекаться из данных bs data env (масштабных коэффициентов огибающей) и bs_noise_env (масштабных коэффициентов уровня собственных шумов) и использоваться во время усовершенствованной формы репликации полос спектра.In addition to numerous parameters, other data elements may also be reused by the extended HE-AAC decoder when performing an advanced form of spectrum band replication in accordance with embodiments of the invention. For example, envelope data and noise floor data can also be extracted from bs data env (envelope scale factors) and bs_noise_env (noise floor scale factors) data and used during an advanced form of spectrum band replication.
По сути, эти варианты осуществления используют конфигурационные параметры и данные огибающей, уже поддерживаемые унаследованным декодером HE-AAC или HE-AAC v2 в полезной нагрузке расширения SBR, чтобы сделать возможной усовершенствованную форму репликации полос спектра, требуя как можно меньшего количества дополнительных передаваемых данных. Метаданные изначально были приспособлены для базовой формы HFR (например, спектральной вклейки SBR), но, в соответствии с вариантами осуществления, используется для усовершенствованной формы HFR (например, гармонической транспозиции eSBR). Как обсуждено ранее, метаданные как правило представляют собой рабочие параметры (например масштабные коэффициенты огибающей, масштабные коэффициенты уровня собственных шумов, параметры время/частотной сетки, информацию о синусоидальном дополнении, переменную частоту/полосу разделения, режим обратной фильтрации, разрешение огибающей, режим сглаживания, режим частотной интерполяции). приспособленные и предназначенные для использования с базовой формой HFR (например, линейным преобразованием). Однако, эти метаданные, комбинированные с дополнительными параметрами метаданных, специфичными усовершенствованной форме HFR (например, гармонической транспозиции), могут использоваться для рациональной и эффективной обработки звуковых данных с использованием усовершенствованной формы HFR.As such, these embodiments use the configuration parameters and envelope data already supported by the legacy HE-AAC or HE-AAC v2 decoder in the SBR extension payload to enable an advanced form of spectrum band replication while requiring as little additional transmission data as possible. The metadata was originally adapted for a basic form of HFR (eg, spectral embedding of SBR), but, in accordance with embodiments, is used for an advanced form of HFR (eg, harmonic transposition of eSBR). As discussed earlier, the metadata is typically operating parameters (e.g., envelope scaling factors, noise floor scaling factors, time/grid parameters, sinusoidal complement information, variable frequency/crossover bandwidth, inverse filtering mode, envelope resolution, smoothing mode, frequency interpolation mode). adapted and intended for use with the basic form of HFR (eg linear transformation). However, this metadata, combined with additional metadata parameters specific to the advanced form of HFR (eg, harmonic transposition), can be used to rationally and efficiently process audio data using the advanced form of HFR.
Соответственно расширенные декодеры, которые поддерживают усовершенствованную форму репликации полос спектра, могут быть созданы очень эффективным образом, полагаясь на уже определенные элементы битового потока (например, таковые в полезной нагрузке расширения SBR) и добавляя только те параметры, которые необходимы для поддержки усовершенствованной формы репликации полос спектра (в полезной нагрузке расширения элемента заполнения). Этот признак сокращения данных в комбинации с размещением вновь добавленных параметров в зарезервированных полях данных, таких как контейнер расширения, существенно уменьшает барьеры к созданию декодера, который поддерживает усовершенствованную репликацию полос спектра, гарантируя, что битовый поток обратно совместим с унаследованным декодером, не поддерживающим усовершенствованную форму репликации полос спектра.Accordingly, extended decoders that support an advanced form of spectrum band replication can be created in a very efficient manner by relying on already defined bitstream elements (eg, those in the SBR extension payload) and adding only those parameters necessary to support the advanced form of band replication. spectrum (in the padding element extension payload). This data reduction feature, combined with placing newly added parameters in reserved data fields such as an extension container, greatly reduces the barriers to building a decoder that supports advanced spectrum band replication, ensuring that the bitstream is backwards compatible with a legacy decoder that does not support advanced form. replication bands of the spectrum.
В табл. 3 номер в правом столбце указывает количество битов соответствующего параметра в левом столбце.In table. 3, the number in the right column indicates the number of bits of the corresponding parameter in the left column.
В некоторых вариантах осуществления, тип объекта SBR, определенный в AAC MPEG-4, обновлен, чтобы содержать в себе средство SBR или аспекты средства усовершенствованной SBR (eSBR), что сигнализируется в элементе расширения SBR (bs_extension_id== EXTENSION_ID_ESBR).In some embodiments, the SBR object type defined in MPEG-4 AAC has been updated to contain the SBR facility or enhanced SBR facility (eSBR) aspects as signaled in the SBR extension element (bs_extension_id== EXTENSION_ID_ESBR).
В некоторых вариантах осуществления изобретение является способом, включающим в себя этапIn some embodiments, the invention is a method including the step
- 15 040874 кодирования звуковых данных для формирования кодированного битового потока (например, битового потока AAC MPEG-4), в том числе посредством включения метаданных eSBR по меньшей мере в один сегмент по меньшей мере одного блока кодированного битового потока и звуковых данных в по меньшей мере один другой сегмент блока. В типичных вариантах осуществления способ включает в себя этап мультиплексирования звуковых данных с метаданными eSBR в каждом блоке кодированного битового потока. При типичном декодировании кодированного битового потока в декодере eSBR декодер извлекает метаданные eSBR из битового потока (в том числе посредством синтаксического разбора и демультиплексирования метаданных eSBR и звуковых данных) и использует метаданные eSBR для обработки звуковых данных, чтобы формировать поток декодированных звуковых данных.- 15 040874 encoding audio data to generate an encoded bitstream (for example, an MPEG-4 AAC bitstream), including by including eSBR metadata in at least one segment of at least one encoded bitstream block and audio data in at least one other block segment. In exemplary embodiments, the method includes the step of multiplexing audio data with eSBR metadata in each encoded bitstream block. In a typical decoding of an encoded bitstream in an eSBR decoder, the decoder extracts the eSBR metadata from the bitstream (including by parsing and demultiplexing the eSBR metadata and audio data) and uses the eSBR metadata to process the audio data to generate a decoded audio data stream.
Еще одним аспектом изобретения является декодер eSBR, выполненный с возможностью выполнять обработку eSBR (например, с использованием по меньшей мере одного из средств eSBR, известных как гармоническая транспозиция или предварительное выравнивание) во время декодирования кодированного звукового потока (например, битового потока AAC MPEG-4), который не включает в себя метаданные eSBR. Пример такого декодера будет описан со ссылкой на фиг. 5.Yet another aspect of the invention is an eSBR decoder configured to perform eSBR processing (e.g., using at least one of the eSBR tools known as harmonic transposition or pre-equalization) during decoding of an encoded audio stream (e.g., an AAC MPEG-4 bitstream ) that does not include eSBR metadata. An example of such a decoder will be described with reference to FIG. 5.
Декодер (400) eSBR по фиг. 5 включает в себя буферную память 201 (которая идентична памяти 201 по фиг. 3 и 4), деформатер 215 полезной нагрузки битового потока (который идентичен деформатеру 215 по фиг. 4), подсистему 202 декодирования звукового сигнала (иногда упоминаемую как каскад основного декодирования или подсистема основного декодирования, и которая идентична подсистеме 202 основного декодирования по фиг. 3), подсистему 401 формирования управляющих данных eSBR и каскад 203 обработки eSBR (который идентичен каскаду 203 по фиг. 3, соединенные как показано. К тому же, типично, декодер 400 включает в себя другие элементы обработки (не показаны).The eSBR decoder (400) of FIG. 5 includes a buffer memory 201 (which is identical to the memory 201 of FIGS. 3 and 4), a bitstream payload deformer 215 (which is identical to the deformer 215 of FIG. 4), an audio signal decoding subsystem 202 (sometimes referred to as the main decoding stage or main decoding subsystem, and which is identical to main decoding subsystem 202 of Fig. 3), an eSBR control data generation subsystem 401, and an eSBR processing stage 203 (which is identical to stage 203 of Fig. 3, connected as shown. Also, typically, decoder 400 includes other processing elements (not shown).
При эксплуатации декодера 400 последовательность блоков кодированного звукового битового потока (битового потока AAC MPEG-4), принимаемого декодером 400, предъявляется из буфера 201 в деформатер 215.In operation of the decoder 400, a block sequence of the encoded audio bitstream (MPEG-4 AAC bitstream) received by the decoder 400 is presented from the buffer 201 to the deformer 215.
Деформатер 215 присоединен и выполнен с возможностью демультиплексировать каждый блок битового потока для извлечения метаданных SBR (в том числе квантованных данных огибающей) и также типично других метаданных из него. Деформатер 215 выполнен с возможностью добавлять по меньшей мере метаданные SBR в каскад 203 обработки eSBR. Деформатер 215 также присоединен и выполнен с возможностью извлекать звуковые данные из каждого блока битового потока, и предъявлять извлеченные звуковые данные в подсистему 202 декодирования (каскад декодирования).A deformer 215 is attached and configured to demultiplex each block of the bitstream to extract SBR metadata (including quantized envelope data) and typically other metadata from it as well. The deformer 215 is configured to add at least SBR metadata to the eSBR processing stage 203 . A deformer 215 is also attached and configured to extract audio data from each block of the bitstream, and present the extracted audio data to a decoding subsystem 202 (decoding stage).
Подсистема 202 декодирования звука декодера 400 выполнена с возможностью декодировать звуковые данные, извлеченные деформатером 215 (такое декодирование может упоминаться как операция основного декодирования), для формирования декодированных звуковых данных и предъявлять декодированные звуковые данные в каскад 203 обработки eSBR. Декодирование выполняется в частотной области. Типично, завершающий каскад обработки в подсистеме 202 применяет преобразование из частотной области во временную область к декодированным звуковым данным частотной области, так чтобы выходными данными подсистемы были декодированные звуковые данные временной области. Каскад 203 выполнен с возможностью применять средства SBR (и средства eSBR), указанные метаданными SBR (извлеченными деформатером 215) и метаданными eSBR, сформированными в подсистеме 401, к декодированным звуковым данным (то есть выполнять обработку SBR и eSBR над выходными данными подсистемы 202 декодирования с использованием метаданных SBR и eSBR) для формирования полностью декодированных звуковых данных, которые выводятся из декодера 400. Типично, декодер 400 включает в себя память (доступную из подсистемы 202 и каскада 203), которая хранит деформатированные звуковые данные и метаданные, выданные из деформатера 215 (и, по выбору, также подсистемы 401), а каскад 203 выполнен с возможностью осуществлять доступ к звуковым данным и метаданным по мере необходимости во время обработки SBR и eSBR. Обработка SBR в каскаде 203 может считаться последующей обработкой на выходе из подсистемы 202 основного декодирования. По выбору, декодер 400 также включает в себя подсистему завершающего повышающего микширования (которая может применять средства параметрической стереофонии (PS), определенные в стандарте AAC MPEG-4, с использованием метаданных PS, извлеченных деформатером 215), которая присоединена и выполнена с возможностью выполнять повышающее микширование над выходным сигналом каскада 203, чтобы формировать полностью декодированный подвергнутый повышающему микшированию звуковой сигнал, который выводится из APU 210.The audio decoding subsystem 202 of the decoder 400 is configured to decode the audio data extracted by the deformer 215 (such decoding may be referred to as a main decoding operation) to generate decoded audio data and provide the decoded audio data to the eSBR processing stage 203 . The decoding is performed in the frequency domain. Typically, the final processing stage in subsystem 202 applies a frequency-domain-to-time-domain transform to the decoded frequency-domain audio data such that the output of the subsystem is the decoded time-domain audio data. The stage 203 is configured to apply the SBRs (and the eSBRs) indicated by the SBR metadata (extracted by the deformer 215) and the eSBR metadata generated in the subsystem 401 to the decoded audio data (i.e., perform SBR and eSBR processing on the output of the decoding subsystem 202 with using SBR and eSBR metadata) to generate fully decoded audio data that is output from decoder 400. Typically, decoder 400 includes memory (accessible from subsystem 202 and stage 203) that stores deformed audio data and metadata output from decoder 215 ( and optionally also subsystems 401), and stage 203 is configured to access audio data and metadata as needed during SBR and eSBR processing. The SBR processing at stage 203 may be considered post-processing at the output of main decoding subsystem 202. Optionally, decoder 400 also includes a post-upmix subsystem (which can apply Parametric Stereo (PS) facilities defined in the MPEG-4 AAC standard using PS metadata extracted by deformer 215) that is coupled to and configured to perform upmixing. mixing over the output of stage 203 to generate a fully decoded upmixed audio signal that is output from APU 210.
Подсистема 401 формирования управляющих данных по фиг. 5 присоединена и выполнена с возможностью выявлять по меньшей мере одно свойство кодированного звукового битового потока, подлежащего декодированию, и формировать управляющие данные eSBR (которые могут быть или включать в себя метаданные eSBR любого из типов, включенных в кодированные звуковые битовые потоки, в соответствии с другими вариантами осуществления изобретения) в ответ на по меньшей мере один результат этапа выявления. Управляющие данные eSBR добавляются в каскад 203, чтобы приводить в действие применение отдельных средств eSBR или комбинации средств eSBR при выявлении конкретного свойства (или комбинации свойств) битового потока и/или управлять применением таких средств eSBR. Например, для того чтобы контролировать выполнение обработки eSBR с использованием гармоническойThe control data generation subsystem 401 of FIG. 5 is attached and configured to detect at least one property of the encoded audio bitstream to be decoded and generate eSBR control data (which may be or include eSBR metadata of any of the types included in the encoded audio bitstreams, in accordance with others embodiments of the invention) in response to at least one result of the detection step. The eSBR control data is added to the cascade 203 to trigger the application of individual eSBRs or a combination of eSBRs upon detection of a particular property (or combination of properties) of the bitstream and/or control the application of such eSBRs. For example, in order to control the execution of eSBR processing using harmonic
- 16 040874 транспозиции, некоторые варианты осуществления подсистемы 401 формирования управляющих данных включали бы в себя: детектор музыки (например, упрощенный вариант традиционного детектора музыки) для установки параметра sbrPatchingMode[ch] (и предъявления установленного параметра в каскад 203) в ответ на выявление, что битовый поток является или не является указывающим музыку; детектор переходных процессов для установки параметра sbrOversamplingFlag[ch] (и предъявления установленного параметра в каскад 203) в ответ на выявление наличия или отсутствия переходных процессов в звуковом контенте, указываемом битовым потоком; и/или детектор основного тона для установки параметров sbrPitchInBinsFlag[ch] и sbrPitchInBins[ch] (и предъявления установленных параметров в каскад 203) в ответ на выявление основного тона звукового контента, указываемого битовым потоком. Другими аспектами изобретения являются способы декодирования звукового битового потока, выполняемые любым вариантом осуществления обладающего признаками изобретения декодером, описанным в этом параграфе и предыдущем параграфе.- 16 040874 transposition, some embodiments of the subsystem 401 generation of control data would include: a music detector (for example, a simplified version of the traditional music detector) for setting the parameter sbrPatchingMode[ch] (and presenting the set parameter to the cascade 203) in response to detection, that the bitstream is or is not indicative of music; a transient detector for setting a parameter sbrOversamplingFlag[ch] (and presenting the set parameter to stage 203) in response to detecting the presence or absence of transients in the audio content indicated by the bitstream; and/or a pitch detector for setting parameters sbrPitchInBinsFlag[ch] and sbrPitchInBins[ch] (and providing the set parameters to stage 203) in response to detecting the pitch of the audio content indicated by the bitstream. Other aspects of the invention are methods for decoding an audio bitstream performed by any embodiment of the inventive decoder described in this paragraph and the previous paragraph.
Аспекты изобретения включают в себя способ кодирования или декодирования типа, который любой вариант осуществления обладающих признаками изобретения APU, системы или устройства выполнен с возможностью (или запрограммирован) выполнять. Другие аспекты изобретения включают в себя систему или устройство выполненные с возможностью (например, запрограммированные) выполнять любой вариант осуществления обладающего признаками изобретения способа, и машинно-читаемый носитель (например, диск), который хранит машинную программу (например, неэфемерным образом) для реализации любого варианта осуществления обладающего признаками изобретения способа или его этапов. Например, обладающая признаками изобретения система может быть или включать в себя программируемый процессор общего применения, цифровой сигнальный процессор или микропроцессор, запрограммированный программным обеспечением или микропрограммным обеспечением и/или иным образом выполненный с возможностью выполнять любые из многообразия операций над данными, в том числе, вариант осуществления обладающего признаками изобретения способа или его этапов. Такой процессор общего применения может быть или включать в себя компьютерную систему, включающую в себя устройство ввода, память, схему обработки, запрограммированную (и/или иным образом выполненную с возможностью) выполнять вариант осуществления обладающего признаками изобретения способа (или его этапов) в ответ на данные, предъявленные ему.Aspects of the invention include a method for encoding or decoding the type that any embodiment of an inventive APU, system, or device is configured (or programmed) to perform. Other aspects of the invention include a system or device capable of (e.g., programmed) to execute any embodiment of the inventive method, and a machine-readable medium (e.g., a disk) that stores a computer program (e.g., in a non-ephemeral manner) to implement any embodiment of the inventive method or steps thereof. For example, an inventive system may be or include a general purpose programmable processor, digital signal processor, or microprocessor programmed with software or firmware and/or otherwise configured to perform any of a variety of operations on data, including, carrying out the inventive method or steps thereof. Such a general purpose processor may be or include a computer system including input device, memory, processing circuitry programmed (and/or otherwise configured) to execute an embodiment of the inventive method (or steps thereof) in response to information provided to him.
Варианты осуществления настоящего изобретения могут быть реализованы в аппаратных средствах, микропрограммном обеспечении или программном обеспечении, либо комбинацией того и другого (например, в виде программируемой логической матрицы). Если не указан иной способ действий, алгоритмы и процессы, включенные в состав в качестве части изобретения, по своей природе, не имеют отношения к какому бы то ни было конкретному компьютеру или другому устройству. В частности, различные машины общего применения могут использоваться с программами, написанными в соответствии с доктринами, приведенными в материалах настоящего изобретения, или может быть более удобным сконструировать более специализированное устройство (например, интегральные схемы) для выполнения требуемых этапов способа. Таким образом, изобретение может быть реализовано в одной или более компьютерных программ, исполняющихся в одной или более программируемых компьютерных систем (например, реализации любого из элементов по фиг. 1 или кодировщика 100 по фиг. 2 (или его элемента), или декодера 200 по фиг. 3 (или его элемента), или декодера 210 по фиг. 4 (или его элемента) или декодера 400 по фиг. 5 (или его элемента)), каждая из которых содержит по меньшей мере один процессор, по меньшей мере одну систему хранения данных (в том числе, энергозависимые или энергонезависимые элементы памяти и/или запоминающие элементы), по меньшей мере одно устройство или порт ввода и по меньшей мере одно устройство или порт вывода. Управляющая программа применяется к входным данным для выполнения функций, описанных в материалах настоящего изобретения, и формирует выходную информацию. Выходная информация направляется в одно или более устройств вывода известным образом.Embodiments of the present invention may be implemented in hardware, firmware, or software, or a combination of both (eg, as a programmable logic array). Unless otherwise specified, the algorithms and processes included as part of the invention are, by their nature, not related to any particular computer or other device. In particular, various general purpose machines may be used with programs written in accordance with the teachings of the present invention, or it may be more convenient to construct a more specialized device (eg, integrated circuits) to perform the required method steps. Thus, the invention may be implemented in one or more computer programs executing on one or more programmable computer systems (e.g., an implementation of any of the elements of FIG. 1 or the encoder 100 of FIG. 2 (or an element thereof), or the decoder 200 of Fig. 3 (or its element), or decoder 210 according to Fig. 4 (or its element) or decoder 400 according to Fig. 5 (or its element)), each of which contains at least one processor, at least one system data storage (including volatile or non-volatile memory elements and/or storage elements), at least one input device or port, and at least one output device or port. The control program is applied to the input data to perform the functions described in the materials of the present invention, and generates output information. The output information is sent to one or more output devices in a known manner.
Каждая такая программа может быть реализована на любом желательном компьютерном языке (включая машинные, компоновочные или высокоуровневые процедурные, логические или объектноориентированные языки программирования) для обмена информацией с компьютерной системой. В любом случае, язык может быть компилируемым или интерпретируемым языком.Each such program may be implemented in any desired computer language (including machine, layout, or high-level procedural, logical, or object-oriented programming languages) for communicating with a computer system. In any case, the language may be a compiled language or an interpreted language.
Например, когда реализуются последовательностями команд компьютерного программного обеспечения, различные функции и этапы вариантов осуществления изобретения могут реализовываться последовательностями команд многопоточного программного обеспечения, работающими на пригодных аппаратных средствах цифровой обработки сигналов, в каком случае, различные устройства, этапы и функции вариантов осуществления могут соответствовать порциям команд программного обеспечения.For example, when implemented by computer software instruction sequences, the various functions and steps of embodiments of the invention may be implemented by multi-threaded software instruction sequences running on suitable digital signal processing hardware, in which case, the various devices, steps, and functions of the embodiments may correspond to instruction chunks. software.
Каждая такая компьютерная программа предпочтительно хранится на или загружается на запоминающие носители или в устройство (например, твердотельную память или носители, либо магнитные или оптические носители), читаемые программируемым компьютером общего применения или специального назначения, для конфигурирования и управления компьютером, когда запоминающие носители или устройство считываются компьютерной системой, чтобы выполнять процедуры, описанные в материалах настоящего изобретения. Обладающая признаками изобретения система также может быть реали- 17 040874 зована в виде машинно-читаемого запоминающего носителя, сконфигурированного компьютерной программой (то есть хранящего компьютерную программу), где запоминающий носитель, сконфигурированный таким образом, побуждает компьютерную систему действовать конкретным и предопределенным образом для выполнения функций, описанных в материалах настоящего изобретения.Each such computer program is preferably stored on or loaded onto storage media or a device (e.g., solid-state memory or media, or magnetic or optical media) readable by a general purpose or special purpose programmable computer for configuring and controlling the computer when the storage media or device are read by a computer system to carry out the procedures described in the materials of the present invention. The inventive system may also be implemented as a computer-readable storage medium configured by a computer program (i.e., storing the computer program), wherein the storage medium thus configured causes the computer system to act in a specific and predetermined manner to perform functions. described in the materials of the present invention.
Было описано некоторое количество вариантов осуществления изобретения. Тем не менее, будет понятно, что различные модификации могут быть произведены, не выходя из сущности и объема изобретения. Многие модификации и разновидности настоящего изобретения возможны в свете вышеприведенных доктрин. Например, для того чтобы содействовать эффективным реализациям, фазовые сдвиги могут использоваться в комбинацией с гребенками фильтров разложения сигнала и синтеза сигнала комплексным КЗФ. Гребенка фильтров разложения сигнала ответственна за фильтрацию сигнала в полосе низких частот временной области, сформированного основным декодером, в множество поддиапазонов (например, поддиапазонов КЗФ). Гребенка фильтров разложения сигнала ответственна за комбинирование восстановленной полосы высоких частот, созданной посредством выбранной технологии HFR (которая указана принятым параметром sbrPatchingMode), с декодированной полосой низких частот, чтобы синтезировать широкополосный выходной звуковой сигнал. Данная реализация гребенки фильтров, работающая в определенном режиме частоты выборки, например, режиме нормальной работы на удвоенной частоте или SBR с понижающей дискретизацией, однако, не должна иметь фазовых сдвигов, которые зависят от битового потока. Гребенки КЗФ, используемые в SBR являются расширением сложной экспоненциальной функции по теории гребенок фильтров с косинусоидальной модуляцией. Может быть показано, что ограничения подавления паразитных сигналов становятся устаревшими при расширении гребенки фильтров с косиносуидальной модуляцией комплексной экспоненциальной модуляцией. Таким образом, что касается гребенок из КЗФ SBR, как фильтры разложения сигнала, hk(n), так и фильтры синтеза сигнала, fk(n), могут быть определены посредством hk^ = fk^ = Ро^ + - Тй <n< N;0 < k< M (1) где p0 (n) - вещественнозначный симметричный или несимметричный прототипный фильтр (типично, прототипный фильтр нижних частот), M обозначает количество каналов, а N - порядок прототипного фильтра. Количество каналов, используемых в гребенке фильтров разложения сигнала, может быть иным, чем количество каналов, используемых в гребенке фильтров синтеза сигнала. Например, гребенка фильтров разложения сигнала может иметь 32 канала, а гребенка фильтров синтеза сигнала может иметь 64 канала. При эксплуатации гребенки фильтров синтеза сигналов в режиме с понижающей дискретизацией, гребенка фильтров синтеза сигнала может иметь только 32 канала. Поскольку отсчеты поддиапазонов из гребенки фильтров являются комплекснозначными, ступень аддитивного возможно каналозависимого фазового сдвига может быть добавлена к гребенке фильтров разложения сигнала. Эти дополнительные фазовые сдвиги необходимо компенсировать до гребенки фильтров синтеза сигнала. Несмотря на то, что элементы фазового сдвига в принципе могут быть произвольными значениями, не нарушающими работу цепочки разложения/синтеза сигнала с помощью КЗФ, они также могут быть ограничены определенными значениями для контроля соответствия. Сигнал SBR будет находиться под влиянием выбора фазовых множителей, в то время как сигнал нижних частот, приходящий из основного декодера, не будет. Качество звука выходного сигнала не нарушается.A number of embodiments of the invention have been described. However, it will be understood that various modifications may be made without departing from the spirit and scope of the invention. Many modifications and variations of the present invention are possible in light of the above teachings. For example, in order to facilitate efficient implementations, phase shifts can be used in combination with signal decomposition and signal synthesis filterbanks by a complex FPS. The signal decomposition filterbank is responsible for filtering the time-domain low-band signal generated by the main decoder into a plurality of subbands (eg, QDF subbands). The signal decomposition filterbank is responsible for combining the reconstructed high frequency band created by the selected HFR technology (as indicated by the received sbrPatchingMode parameter) with the decoded low frequency band to synthesize a wideband audio output signal. A given filter bank implementation operating in a particular sampling rate mode, such as normal double-rate operation or downsampling SBR, however, shall not have phase shifts that are bitstream dependent. The KZF combs used in SBR are an extension of the complex exponential function of cosine filter comb theory. It can be shown that spurious suppression limitations become obsolete when the cosine wave filter bank is expanded with complex exponential modulation. Thus, with respect to the combs from the SBR FKF, both the signal decomposition filters, h k (n), and the signal synthesis filters, f k (n), can be defined by h k^ = fk^ = Po^ + - Tj <n<N; 0 <k< M (1) where p 0 (n) is a real-valued symmetric or non-symmetric prototype filter (typically a prototype low-pass filter), M denotes the number of channels, and N is the order of the prototype filter. The number of channels used in the signal decomposition filterbank may be different from the number of channels used in the signal synthesis filterbank. For example, a signal decomposition filterbank may have 32 channels, and a signal synthesis filterbank may have 64 channels. When operating the signal synthesis filterbank in downsampling mode, the signal synthesis filterbank can only have 32 channels. Because the subband samples from the filterbank are complex-valued, an additive possibly channel dependent phase shift stage can be added to the signal decomposition filterbank. These additional phase shifts must be compensated for before the signal synthesis filter bank. Despite the fact that the elements of the phase shift can in principle be arbitrary values that do not disrupt the operation of the signal decomposition / synthesis chain using the FPC, they can also be limited to certain values for compliance control. The SBR signal will be influenced by the choice of phase factors, while the low pass signal coming from the main decoder will not. The sound quality of the output signal is not affected.
Коэффициенты прототипного фильтра, p0(n), могут быть ограничены длиной, L в 640, как показано в табл. 4, приведенной ниже.The prototype filter coefficients, p 0 (n), can be limited to a length, L, of 640, as shown in Table 1. 4 below.
- 18 040874- 18 040874
Таблица 4Table 4
- 19 040874- 19 040874
- 20 040874- 20 040874
- 21 040874- 21 040874
- 22 040874- 22 040874
- 23 040874- 23 040874
Claims (8)
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US62/475,619 | 2017-03-23 |
Publications (1)
Publication Number | Publication Date |
---|---|
EA040874B1 true EA040874B1 (en) | 2022-08-10 |
Family
ID=
Similar Documents
Publication | Publication Date | Title |
---|---|---|
AU2024200687B2 (en) | Backward-compatible integration of high frequency reconstruction techniques for audio signals | |
CA3098295C (en) | Integration of high frequency reconstruction techniques with reduced post-processing delay | |
AU2023200619B2 (en) | Backward-compatible integration of harmonic transposer for high frequency reconstruction of audio signals | |
AU2024202301B2 (en) | Integration of high frequency audio reconstruction techniques | |
EA040874B1 (en) | BACKWARDS COMPATIBLE ARRANGEMENT OF A HARMONIC TRANSPOSER FOR RECONSTRUCTION OF HIGH FREQUENCY SOUND SIGNALS | |
NZ794700A (en) | Backward-compatible integration of harmonic transposer for high frequency reconstruction of audio signals |