RU2777615C1 - Perceptual encoding of audio with adaptive non-uniform arrangement in time-frequency tiles using sub-band merging and spectral overlap reduction in the time domain - Google Patents
Perceptual encoding of audio with adaptive non-uniform arrangement in time-frequency tiles using sub-band merging and spectral overlap reduction in the time domain Download PDFInfo
- Publication number
- RU2777615C1 RU2777615C1 RU2021114215A RU2021114215A RU2777615C1 RU 2777615 C1 RU2777615 C1 RU 2777615C1 RU 2021114215 A RU2021114215 A RU 2021114215A RU 2021114215 A RU2021114215 A RU 2021114215A RU 2777615 C1 RU2777615 C1 RU 2777615C1
- Authority
- RU
- Russia
- Prior art keywords
- samples
- block
- audio
- critically sampled
- overlapped
- Prior art date
Links
- 230000003595 spectral Effects 0.000 title abstract description 11
- 230000003044 adaptive Effects 0.000 title description 4
- 238000005070 sampling Methods 0.000 claims abstract description 302
- 230000005236 sound signal Effects 0.000 claims abstract description 205
- 230000000875 corresponding Effects 0.000 claims description 80
- 238000011176 pooling Methods 0.000 claims description 53
- 230000001131 transforming Effects 0.000 claims description 14
- 238000004590 computer program Methods 0.000 claims description 12
- 230000011664 signaling Effects 0.000 claims description 12
- 238000003860 storage Methods 0.000 claims description 9
- 238000005457 optimization Methods 0.000 claims description 8
- 210000000350 MC(T) Anatomy 0.000 claims description 6
- 238000000844 transformation Methods 0.000 claims description 6
- 230000004927 fusion Effects 0.000 claims 4
- 230000000694 effects Effects 0.000 abstract description 2
- 238000006243 chemical reaction Methods 0.000 abstract 5
- 230000011218 segmentation Effects 0.000 abstract 2
- 239000000126 substance Substances 0.000 abstract 1
- 238000010586 diagram Methods 0.000 description 32
- 230000002123 temporal effect Effects 0.000 description 16
- 230000004044 response Effects 0.000 description 12
- 230000015572 biosynthetic process Effects 0.000 description 9
- 238000003786 synthesis reaction Methods 0.000 description 9
- 230000002194 synthesizing Effects 0.000 description 9
- 238000000034 method Methods 0.000 description 8
- 238000001228 spectrum Methods 0.000 description 7
- 238000004458 analytical method Methods 0.000 description 5
- 230000000873 masking Effects 0.000 description 5
- 238000004364 calculation method Methods 0.000 description 3
- 238000009826 distribution Methods 0.000 description 3
- 239000011159 matrix material Substances 0.000 description 3
- 230000000051 modifying Effects 0.000 description 3
- OVOUKWFJRHALDD-UHFFFAOYSA-N 2-[2-(2-acetyloxyethoxy)ethoxy]ethyl acetate Chemical compound CC(=O)OCCOCCOCCOC(C)=O OVOUKWFJRHALDD-UHFFFAOYSA-N 0.000 description 2
- 238000001793 Wilcoxon signed-rank test Methods 0.000 description 2
- 238000001422 normality test Methods 0.000 description 2
- 238000011084 recovery Methods 0.000 description 2
- 230000001629 suppression Effects 0.000 description 2
- 230000004913 activation Effects 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 108010015046 cell aggregation factors Proteins 0.000 description 1
- 238000000354 decomposition reaction Methods 0.000 description 1
- 230000001419 dependent Effects 0.000 description 1
- 238000002592 echocardiography Methods 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 230000005484 gravity Effects 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000006011 modification reaction Methods 0.000 description 1
- 238000007427 paired t-test Methods 0.000 description 1
- 238000005192 partition Methods 0.000 description 1
- 238000000926 separation method Methods 0.000 description 1
- 238000007619 statistical method Methods 0.000 description 1
- 238000010998 test method Methods 0.000 description 1
Images
Abstract
Description
Варианты осуществления относятся к аудиопроцессору/способу для обработки аудиосигнала, для получения субполосного представления аудиосигнала. Дополнительные варианты осуществления относятся к аудиопроцессору/способу для обработки субполосного представления аудиосигнала, с тем чтобы получать аудиосигнал. Некоторые варианты осуществления относятся к перцепционному кодированию аудио с адаптивным неравномерным расположением частотно-временными плитками с использованием субполосного объединения и уменьшения наложения спектров во временной области. Некоторые варианты осуществления относятся к способу для помощи в управлении множеством параметров неравномерной гребенки фильтров и в расширении гребенки фильтров на многоканальный режим работы.Embodiments relate to an audio processor/method for processing an audio signal to obtain a subband representation of an audio signal. Additional embodiments relate to an audio processor/method for processing a subband representation of an audio signal in order to obtain an audio signal. Some embodiments relate to perceptual audio coding with adaptive time-frequency tiling using sub-band combining and time-domain aliasing reduction. Some embodiments relate to a method for assisting in managing a plurality of non-uniform filter bank parameters and in extending the filter bank to a multi-channel mode of operation.
При перцепционном кодировании, энтропия и в силу этого скорость передачи битов совместно уменьшается за счет отбрасывания избыточной и перцепционно нерелевантной информации. Это достигается с использованием гребенки фильтров и квантования. Эта гребенка фильтров, квантователь и психоакустическая модель используются вместе, чтобы придавать определенную форму шуму квантования таким образом, что он находится максимально близко к пороговому значению маскирования, с тем чтобы максимизировать эффективность кодирования и перцепционное качество общей системы [2].In perceptual coding, the entropy and therefore the bit rate are collectively reduced by discarding redundant and perceptually irrelevant information. This is achieved using a filter bank and quantization. This filterbank, quantizer and psychoacoustic model are used together to shape the quantization noise so that it is as close as possible to the masking threshold in order to maximize the coding efficiency and perceptual quality of the overall system [2].
В ходе синтеза, шум квантования должен формироваться во времени и по частоте посредством спектральной и временной формы импульсного и частотного отклика гребенки фильтров. Из этого следует, что для того, чтобы обеспечивать возможность высокодетализированного управления формой шума квантования, желательно использовать гребенку фильтров с импульсной характеристикой, компактной, как по времени, так и по частоте.During synthesis, quantization noise must be shaped in time and frequency by means of the spectral and temporal shape of the impulse and frequency response of the filterbank. It follows that, in order to allow highly detailed control over the shape of the quantization noise, it is desirable to use a filterbank with an impulse response that is compact in both time and frequency.
Наиболее часто используемая гребенка фильтров с этими свойствами представляет собой модифицированное дискретное косинусное преобразование (MDCT), гребенку фильтров, которая имеет равномерное частотно-временное разрешение во всех полосах частот.The most commonly used filterbank with these properties is the modified discrete cosine transform (MDCT), a filterbank that has uniform time-frequency resolution across all frequency bands.
Тем не менее, слуховая система человека демонстрирует неравномерное частотно-временное разрешение [3], приводя к различным пороговым формам маскирования для различных частот.However, the human auditory system exhibits non-uniform time-frequency resolution [3], resulting in different threshold masking patterns for different frequencies.
Следовательно, задача настоящего изобретения заключается в том, чтобы предоставлять концепцию для управления неравномерной гребенкой фильтров, которая обеспечивает возможность увеличения уровня шума квантования при поддержании низкими слышимых артефактов.Therefore, it is an object of the present invention to provide a concept for driving a non-uniform filterbank that allows the quantization noise level to be increased while keeping audible artifacts low.
Эта задача решается посредством независимых пунктов формулы изобретения.This problem is solved by independent claims.
Варианты осуществления предоставляют аудиопроцессор для обработки аудиосигнала, с тем чтобы получать субполосное представление аудиосигнала. Аудиопроцессор содержит каскад каскадного перекрывающегося критически дискретизированного преобразования, выполненный с возможностью выполнять каскадное перекрывающееся критически дискретизированное преобразование, по меньшей мере, для двух частично перекрывающихся блоков выборок аудиосигнала, с тем чтобы получать набор субполосных выборок на основе первого блока выборок аудиосигнала и получать соответствующий набор субполосных выборок на основе второго блока выборок аудиосигнала. Дополнительно, аудиопроцессор содержит каскад уменьшения наложения спектров во временной области, выполненный с возможностью выполнять комбинирование со взвешиванием двух соответствующих наборов субполосных выборок, причем один получен на основе первого блока выборок аудиосигнала, а другой получен на основе второго блока выборок аудиосигнала, с тем чтобы получать субполосное представление с уменьшенным наложением спектров аудиосигнала. В силу этого, каскад каскадного перекрывающегося критически дискретизированного преобразования выполнен с возможностью сегментировать набор элементов разрешения, полученный на основе первого блока выборок, с использованием, по меньшей мере, двух оконных функций, и получать, по меньшей мере, два сегментированных набора элементов разрешения на основе сегментированного набора элементов разрешения, соответствующего первому блоку выборок, при этом каскад каскадного перекрывающегося критически дискретизированного преобразования выполнен с возможностью сегментировать набор элементов разрешения, полученный на основе второго блока выборок, с использованием, по меньшей мере, двух оконных функций, и получать, по меньшей мере, два набора элементов разрешения (например, по меньшей мере, две полосы частот коэффициентов объединения) (например, по 128 коэффициентов) на основе сегментированного набора элементов разрешения, соответствующего второму блоку выборок, и при этом наборы элементов разрешения обрабатываются (например, объединяются) с использованием второго каскада перекрывающегося критически дискретизированного преобразования из каскада каскадного перекрывающегося критически дискретизированного преобразования, при этом второй каскад перекрывающегося критически дискретизированного преобразования выполнен с возможностью выполнять перекрывающиеся критически дискретизированные преобразования, имеющие идентичную длину кадра (например, коэффициент объединения), по меньшей мере, для одного (например, для каждого) набора элементов разрешения.Embodiments provide an audio processor for processing an audio signal so as to obtain a subband representation of the audio signal. The audio processor comprises a cascaded overlapped critically sampled transform stage configured to perform a cascaded overlapped critically sampled transform on at least two partially overlapping blocks of audio samples so as to obtain a set of subband samples based on the first block of audio samples and obtain a corresponding set of subband samples. based on the second block of audio samples. Additionally, the audio processor comprises a time domain aliasing reduction stage configured to weight-combine two respective sets of subband samples, one derived from the first block of audio samples and the other obtained from the second block of audio samples, so as to obtain a subband a reduced aliasing representation of the audio signal. Because of this, the cascaded overlapped critically sampled transform stage is configured to segment the bin set derived from the first block of samples using at least two window functions, and obtain at least two segmented bin sets based on segmented bin set corresponding to the first block of samples, wherein the cascaded overlapped critically sampled transform stage is configured to segment the bin set derived from the second block of samples using at least two window functions and obtain at least , two bin sets (e.g., at least two bands of combining coefficients) (e.g., 128 coefficients each) based on the segmented bin set corresponding to the second block of samples, and the bin sets o are processed (e.g., combined) using a second overlapped critically sampled transform stage from a cascaded overlapped critically sampled transform stage, wherein the second overlapped critically sampled transform stage is configured to perform overlapped critically sampled transforms having an identical frame length (e.g., pooling factor), at least one (eg, each) set of permission elements.
В вариантах осуществления, второй каскад перекрывающегося критического преобразования выполнен с возможностью выполнять N1,1 перекрывающихся критически дискретизированных преобразований для N1,1 поднаборов первого набора (например, 128 коэффициентов), по меньшей мере, из двух наборов элементов разрешения, полученных на основе сегментированного набора элементов разрешения, соответствующего первому блоку выборок, при этом N1,1 перекрывающихся критически дискретизированных преобразований содержат идентичную длину кадра (например, коэффициент объединения), при этом N1,1 является натуральным числом, большим или равным двум.In embodiments, the second overlapped critical transform stage is configured to perform N 1.1 overlapped critically sampled transforms on N 1.1 subsets of the first set (e.g., 128 coefficients) from at least two bin sets derived from the segmented bin set corresponding to the first block of samples, where N 1.1 overlapping critically sampled transforms contain the same frame length (eg, pooling factor), where N 1.1 is a natural number greater than or equal to two.
В вариантах осуществления, второй каскад перекрывающегося критического преобразования выполнен с возможностью выполнять N1,2 перекрывающихся критически дискретизированных преобразований для N1,2 поднаборов (например, равной длины) соответствующего первого набора (например, 128 коэффициентов), по меньшей мере, из двух наборов элементов разрешения, полученных на основе сегментированного набора элементов разрешения, соответствующего второму блоку выборок, при этом N2,1 перекрывающихся критически дискретизированных преобразований содержат идентичную длину кадра (например, коэффициент объединения), при этом N2,1 является натуральным числом, большим или равным двум.In embodiments, the second overlapping critical transform stage is configured to perform N 1.2 overlapping critically sampled transforms for N 1.2 subsets (e.g., equal length) of the corresponding first set (e.g., 128 coefficients) of at least two sets bins derived from the segmented bin set corresponding to the second block of samples, where N 2.1 overlapping critically sampled transforms contain the same frame length (e.g., pooling factor), where N 2.1 is a natural number greater than or equal to two.
В вариантах осуществления, аудиопроцессор выполнен с возможностью индивидуально выбирать длину кадра (например, коэффициент объединения) для каждого набора элементов разрешения или для каждого из соответствующих наборов элементов разрешения.In embodiments, the audio processor is configured to individually select a frame length (eg, combining factor) for each bin set or for each of the respective bin sets.
Например, процессор может выбирать для каждого набора коэффициент объединения, в силу этого достигая, например, повышенной или даже наибольшей возможной эффективности кодирования.For example, the processor may select for each set a combining factor, thereby achieving, for example, increased or even the highest possible coding efficiency.
В вариантах осуществления, аудиопроцессор выполнен с возможностью индивидуально выбирать длину кадра (например, коэффициент объединения) для каждого блока выборок.In embodiments, the audio processor is configured to individually select a frame length (eg, pooling factor) for each block of samples.
Например, процессор может выбирать для каждого блока коэффициент объединения, в силу этого достигая, например, повышенной или даже наибольшей возможной эффективности кодирования.For example, the processor may select for each block a combining factor, thereby achieving, for example, increased or even the highest possible coding efficiency.
В вариантах осуществления, аудиопроцессор выполнен с возможностью активировать или поддерживать активированным каскад уменьшения наложения спектров во временной области, если идентичные длины кадров (например, коэффициенты объединения) используются для двух последующих блоков, и/или при этом аудиопроцессор выполнен с возможностью деактивировать или поддерживать деактивированным каскад уменьшения наложения спектров во временной области, если различные длины кадров используются для двух последующих блоков.In embodiments, the audio processor is configured to activate or keep the time domain aliasing reduction stage activated if identical frame lengths (e.g., combining coefficients) are used for two subsequent blocks, and/or the audio processor is configured to deactivate or keep the stage deactivated. reducing aliasing in the time domain if different frame lengths are used for the next two blocks.
Например, вследствие TDAR, между блоками существуют зависимости. Если коэффициент объединения поддерживается, то TDAR является возможным. Если коэффициент объединения двух последующих блоков отличается, то TDAR деактивируется. В силу этого (необязательно), процессор может быть выполнен с возможностью выполнять общую/объединенную оптимизацию для адаптации коэффициентов объединения, например, решетчатую сетку в расчете на набор субполосных выборок (полосу частот коэффициентов объединения).For example, due to TDAR, there are dependencies between blocks. If the pooling factor is supported, then TDAR is possible. If the aggregation factor of two successive blocks is different, then TDAR is deactivated. Because of this (optionally), the processor may be configured to perform a general/combined optimization to adapt the combining coefficients, eg, a trellis mesh, per set of subband samples (bandwidth of the combining coefficients).
В вариантах осуществления, процессор выполнен с возможностью выполнять общую/объединенную оптимизацию для адаптации коэффициентов объединения (например, решетчатую сетку в расчете на набор субполосных выборок (полосу частот коэффициентов объединения)).In embodiments, the processor is configured to perform a general/combined optimization for adapting the combining coefficients (eg, a trellis mesh per set of subband samples (bandwidth of the combining coefficients)).
В вариантах осуществления, по меньшей мере, две оконные функции содержат идентичную ширину окна (например, чтобы разделять спектр, по меньшей мере, на две (например, 8) полосы частот коэффициентов объединения идентичного размера (например, по 128 коэффициентов)).In embodiments, the at least two window functions comprise the same window width (eg, to split the spectrum into at least two (eg, 8) equal-sized (eg, 128 coefficients) combining coefficient bands).
В вариантах осуществления, по меньшей мере, две оконные функции содержат различную ширину окна (например, чтобы разделять спектр, по меньшей мере, на две полосы частот коэффициентов объединения различного размера).In embodiments, the at least two window functions comprise different window widths (eg, to split the spectrum into at least two bands of combining coefficients of different sizes).
В вариантах осуществления, по меньшей мере, две оконные функции содержат практически прямоугольные окна.In embodiments, the at least two window functions comprise substantially rectangular windows.
В вариантах осуществления, наборы элементов разрешения, полученные на основе, по меньшей мере, двух оконных функций, обрабатываются (например, объединяются) с использованием второго каскада перекрывающегося критически дискретизированного преобразования, при этом второй каскад перекрывающегося критически дискретизированного преобразования выполнен с возможностью выполнять, по меньшей мере, два перекрывающихся критически дискретизированных преобразования, имеющие идентичную длину кадра (например, коэффициент объединения), по меньшей мере, для одного (например, для каждого) из наборов элементов разрешения, полученных на основе, по меньшей мере, двух оконных функций.In embodiments, bin sets derived from at least two window functions are processed (e.g., combined) using a second overlapped critically sampled transform stage, wherein the second overlapped critically sampled transform stage is configured to perform at least at least two overlapping critically sampled transforms having the same frame length (eg, pooling factor) for at least one (eg, each) of the bin sets derived from the at least two window functions.
В вариантах осуществления, аудиопроцессор выполнен с возможностью выполнять объединенное канальное кодирование.In embodiments, the audio processor is configured to perform joint channel coding.
В вариантах осуществления, аудиопроцессор выполнен с возможностью выполнять M/S или MCT в качестве объединенной обработки каналов.In embodiments, the audio processor is configured to perform M/S or MCT as a combined channel processing.
В вариантах осуществления, аудиопроцессор выполнен с возможностью активировать или деактивировать объединенную обработку каналов индивидуально для каждого, по меньшей мере, из двух сегментированных наборов элементов разрешения (например, индивидуально активировать или деактивировать объединенную обработку каналов для каждой полосы частот коэффициентов объединения; например, между первым каскадом перекрывающегося критически дискретизированного преобразования и вторым каскадом перекрывающегося критически дискретизированного преобразования из каскада каскадного перекрывающегося критически дискретизированного преобразования).In embodiments, the audio processor is configured to activate or deactivate the combined channel processing individually for each of the at least two segmented bin sets (e.g., individually activate or deactivate the combined channel processing for each band of combining coefficients; for example, between the first stage overlapped critically sampled transform and a second overlapped critically sampled transform stage from the cascaded overlapped critically sampled transform stage).
В вариантах осуществления, аудиопроцессор выполнен с возможностью формировать поток битов из кодированного субполосного представления с уменьшенным наложением спектров аудиосигнала, при этом аудиопроцессор выполнен с возможностью предоставлять поток битов, содержащий, по меньшей мере, один MF-параметр, сигнализирующий, по меньшей мере, одну длину кадра (например, коэффициент объединения) соответствующих наборов элементов разрешения в потоке битов.In embodiments, the audio processor is configured to generate a bitstream from an encoded subband dealiased representation of the audio signal, wherein the audio processor is configured to provide a bitstream containing at least one MF parameter signaling at least one length frame (eg, pooling factor) of the respective bin sets in the bitstream.
В вариантах осуществления, аудиопроцессор выполнен с возможностью энтропийно кодировать, по меньшей мере, один MF-параметр.In embodiments, the audio processor is configured to entropy encode at least one MF parameter.
В вариантах осуществления, аудиопроцессор выполнен с возможностью предоставлять поток битов, содержащий только поднабор MF-параметров, сигнализирующих длину кадра (например, коэффициент объединения) соответствующих наборов элементов разрешения в потоке битов.In embodiments, the audio processor is configured to provide a bitstream containing only a subset of MF parameters signaling the frame length (eg, pooling factor) of the respective bin sets in the bitstream.
В вариантах осуществления, аудиопроцессор выполнен с возможностью предоставлять поток битов, содержащий TDAR-параметр для соответствующих наборов элементов разрешения.In embodiments, the audio processor is configured to provide a bit stream containing a TDAR parameter for the respective bin sets.
В вариантах осуществления, аудиопроцессор выполнен с возможностью выполнять объединенное энтропийное кодирование MF- и TDAR-параметров.In embodiments, the audio processor is configured to perform combined entropy encoding of the MF and TDAR parameters.
В вариантах осуществления, аудиопроцессор выполнен с возможностью предоставлять поток битов, содержащий, по меньшей мере, один MF-параметр, так что TDAR-параметр может извлекаться, по меньшей мере, из одного MF-параметра (например, в приемном устройстве или веб-узле декодера).In embodiments, the audio processor is configured to provide a bitstream containing at least one MF parameter such that a TDAR parameter can be extracted from the at least one MF parameter (e.g., in a receiver or a web site decoder).
Например, вместо включения TDAR-параметра в поток битов, предоставленный посредством аудиопроцессора, упомянутый TDAR-параметр может извлекаться, по меньшей мере, из одного MF-параметра. Например, равные MF-параметры в двух последующих кадрах могут указывать то, что TDAR является активными, при этом различные MF-параметры в двух последующих кадрах могут указывать то, что TDAR является неактивным.For example, instead of including the TDAR parameter in the bitstream provided by the audio processor, said TDAR parameter may be extracted from at least one MF parameter. For example, equal MF parameters in two subsequent frames may indicate that TDAR is active, while different MF parameters in two subsequent frames may indicate that TDAR is inactive.
В вариантах осуществления, аудиопроцессор выполнен с возможностью использовать решетчатую сетку в расчете на набор субполосных выборок (полосу частот коэффициентов объединения).In embodiments, the audio processor is configured to use a trellis grid per set of subband samples (bandwidth of the combining coefficients).
Дополнительные варианты осуществления предоставляют аудиокодер, при этом аудиокодер содержит аудиопроцессор согласно одному из вышеуказанных описанных вариантов осуществления, при этом аудиокодер содержит кодер, выполненный с возможностью кодировать субполосное представление с уменьшенным наложением спектров аудиосигнала, с тем чтобы получать кодированное субполосное представление с уменьшенным наложением спектров аудиосигнала, и при этом аудиокодер содержит модуль формирования потоков битов, выполненный с возможностью формировать поток битов из кодированного субполосного представления с уменьшенным наложением спектров аудиосигнала.Additional embodiments provide an audio encoder, wherein the audio encoder comprises an audio processor according to one of the above-described embodiments, wherein the audio encoder comprises an encoder configured to encode a dealiased sub-band representation of an audio signal to obtain an encoded de-aliased sub-band representation of the audio signal, and wherein the audio encoder comprises a bit stream generator configured to generate a bit stream from an encoded subband dealiased representation of the audio signal.
Дополнительные варианты осуществления предоставляют аудиопроцессор для обработки субполосного представления аудиосигнала, с тем чтобы получать аудиосигнал. Аудиопроцессор содержит каскад обратного уменьшения наложения спектров во временной области, выполненный с возможностью выполнять комбинирование со взвешиванием двух соответствующих субполосных представлений с уменьшенным наложением спектров аудиосигнала, с тем чтобы получать субполосное представление с наложением спектров, при этом субполосное представление с наложением спектров представляет собой набор субполосных выборок. Дополнительно, аудиопроцессор содержит каскад каскадного обратного перекрывающегося критически дискретизированного преобразования, выполненный с возможностью выполнять каскадное обратное перекрывающееся критически дискретизированное преобразование для набора субполосных выборок, с тем чтобы получать набор выборок, ассоциированных с блоком выборок аудиосигнала. В силу этого, каскад каскадного обратного перекрывающегося критически дискретизированного преобразования содержит первый каскад обратного перекрывающегося критически дискретизированного преобразования, выполненный с возможностью выполнять обратное перекрывающееся критически дискретизированное преобразование для набора субполосных выборок, с тем чтобы получать набор элементов разрешения, ассоциированный с данной субполосой частот аудиосигнала, при этом первый каскад обратного перекрывающегося критически дискретизированного преобразования выполнен с возможностью выполнять обратные перекрывающиеся критически дискретизированные преобразования, имеющие идентичную длину кадра (например, коэффициент объединения) для набора субполосных выборок.Additional embodiments provide an audio processor for processing a subband representation of an audio signal so as to obtain an audio signal. The audio processor comprises a time-domain de-aliasing stage configured to weight-combine two respective de-aliased sub-band representations of an audio signal to obtain an aliased sub-band representation, wherein the aliased sub-band representation is a set of sub-band samples . Additionally, the audio processor includes a cascaded critically sampled inverse transform stage configured to perform a cascaded critically sampled inverse transform on a set of subband samples to obtain a set of samples associated with a block of audio signal samples. Because of this, the cascaded inverse lapped critically sampled transform stage comprises a first inverse lapped critically sampled transform stage, configured to perform an inverse lapped critically sampled transform on a set of subband samples to obtain a bin set associated with a given subband of the audio signal, when therein, the first inverse overlap critically sampled transform stage is configured to perform inverse overlap critically sampled transforms having the same frame length (eg, pooling factor) for the set of subband samples.
В вариантах осуществления, первый каскад обратного перекрывающегося критически дискретизированного преобразования выполнен с возможностью выполнять N1,1 обратных перекрывающихся критически дискретизированных преобразований для N1,1 поднаборов набора субполосных выборок, при этом N1,1 перекрывающихся критически дискретизированных преобразований содержат идентичную длину кадра (например, коэффициент объединения), при этом N1,1 является натуральным числом, большим или равным двум.In embodiments, the first stage of the inverse overlapped critically sampled transform is configured to perform N 1.1 inverse overlapped critically sampled transforms on the N 1.1 subsets of the subband sample set, where the N 1.1 overlapped critically sampled transforms contain an identical frame length (e.g. , the pooling factor), while N 1,1 is a natural number greater than or equal to two.
Дополнительные варианты осуществления предоставляют аудиодекодер, при этом аудиодекодер содержит синтаксический анализатор потоков битов, выполненный с возможностью синтаксически анализировать поток битов, с тем чтобы получать кодированное субполосное представление с уменьшенным наложением спектров, при этом аудиодекодер содержит декодер, выполненный с возможностью декодировать кодированное субполосное представление с уменьшенным наложением спектров, с тем чтобы получать субполосное представление с уменьшенным наложением спектров аудиосигнала, и при этом аудиодекодер содержит аудиопроцессор согласно одному из вышеуказанных описанных вариантов осуществления.Additional embodiments provide an audio decoder, wherein the audio decoder comprises a bitstream parser configured to parse the bitstream to obtain a de-aliased encoded sub-band representation, wherein the audio decoder comprises a decoder configured to decode the de-aliased encoded sub-band representation. aliasing so as to obtain a reduced aliasing sub-band representation of the audio signal, wherein the audio decoder comprises an audio processor according to one of the above-described embodiments.
Дополнительные варианты осуществления предоставляют способ для обработки аудиосигнала, с тем чтобы получать субполосное представление аудиосигнала. Способ содержит этап выполнения каскадного перекрывающегося критически дискретизированного преобразования, по меньшей мере, для двух частично перекрывающихся блоков выборок аудиосигнала, с тем чтобы получать набор субполосных выборок на основе первого блока выборок аудиосигнала и получать соответствующий набор субполосных выборок на основе второго блока выборок аудиосигнала. Дополнительно, способ содержит этап выполнения комбинирования со взвешиванием двух соответствующих наборов субполосных выборок, причем один из них получен на основе первого блока выборок аудиосигнала, а другой получен на основе второго блока выборок аудиосигнала, с тем чтобы получать субполосное представление с уменьшенным наложением спектров аудиосигнала. В силу этого, выполнение каскадного перекрывающегося критически дискретизированного преобразования содержит сегментацию набора элементов разрешения, полученного на основе первого блока выборок, с использованием, по меньшей мере, двух оконных функций, с тем чтобы получать, по меньшей мере, два сегментированных набора элементов разрешения (например, по меньшей мере, две полосы частот коэффициентов объединения) на основе сегментированного набора элементов разрешения, соответствующего первому блоку выборок, при этом выполнение каскадного перекрывающегося критически дискретизированного преобразования содержит сегментацию набора элементов разрешения, полученного на основе второго блока выборок, с использованием, по меньшей мере, двух оконных функций, с тем чтобы получать, по меньшей мере, два набора элементов разрешения (например, по меньшей мере, две полосы частот коэффициентов объединения) на основе сегментированного набора элементов разрешения, соответствующего второму блоку выборок, и при этом наборы элементов разрешения обрабатываются (например, объединяются) с использованием второго перекрывающегося критически дискретизированного преобразования из каскадного перекрывающегося критически дискретизированного преобразования, при этом второе перекрывающееся критически дискретизированное преобразование содержит выполнение перекрывающихся критически дискретизированных преобразований, имеющих идентичную длину кадра (например, коэффициент объединения), по меньшей мере, для одного (например, для каждого) набора элементов разрешения.Additional embodiments provide a method for processing an audio signal in order to obtain a subband representation of the audio signal. The method comprises the step of performing a cascaded overlapping critically sampled transform on at least two partially overlapping blocks of audio samples so as to obtain a set of subband samples based on the first block of audio samples and obtain a corresponding set of subband samples based on the second block of audio samples. Additionally, the method comprises the step of performing a weighted combination of two respective sets of subband samples, one of which is derived from the first block of audio samples and the other is derived from the second block of audio samples, so as to obtain a subband representation with reduced aliasing of the audio signal. Because of this, performing a cascaded overlapped critically sampled transform comprises segmenting the bin set derived from the first block of samples using at least two window functions so as to obtain at least two segmented bin sets (e.g. , at least two bands of combining coefficients) based on a segmented bin set corresponding to the first block of samples, wherein performing a cascaded overlapping critically sampled transform comprises segmenting the bin set derived from the second block of samples using at least , two window functions so as to obtain at least two bin sets (e.g., at least two bands of combining coefficients) based on the segmented bin set corresponding to the second block of samples, etc. and wherein the bin sets are processed (e.g., combined) using a second overlapped critically sampled transform from a cascaded overlapped critically sampled transform, wherein the second overlapped critically sampled transform comprises performing overlapped critically sampled transforms having the same frame length (e.g., pooling factor), at least one (eg, each) set of permission elements.
Дополнительные варианты осуществления предоставляют способ для обработки субполосного представления аудиосигнала, с тем чтобы получать аудиосигнал. Способ содержит этап выполнения комбинирования со взвешиванием двух соответствующих субполосных представлений с уменьшенным наложением спектров аудиосигнала, с тем чтобы получать субполосное представление с наложением спектров, при этом субполосное представление с наложением спектров представляет собой набор субполосных выборок. Дополнительно, способ содержит этап выполнения каскадного обратного перекрывающегося критически дискретизированного преобразования для набора субполосных выборок, с тем чтобы получать набор выборок, ассоциированных с блоком выборок аудиосигнала, при этом выполнение каскадного обратного перекрывающегося критически дискретизированного преобразования содержит выполнение первого обратного перекрывающегося критически дискретизированного преобразования для набора субполосных выборок, с тем чтобы получать набор элементов разрешения, ассоциированный с данной субполосой частот аудиосигнала, при этом выполнение первого обратного перекрывающегося критически дискретизированного преобразования содержит выполнение обратных перекрывающихся критически дискретизированных преобразований, имеющих идентичную длину кадра (например, коэффициент объединения) для набора субполосных выборок.Additional embodiments provide a method for processing a subband representation of an audio signal so as to obtain an audio signal. The method comprises the step of performing a weighted combination of two respective reduced aliasing subband representations of an audio signal to obtain an aliased subband representation, wherein the aliased subband representation is a set of subband samples. Further, the method comprises the step of performing a cascaded inverse lap critically sampled transform on the set of subband samples to obtain a set of samples associated with a block of audio signal samples, wherein performing the cascaded inverse lap critically sampled transform comprises performing a first inverse lap critically sampled transform on the set of subband samples. samples to obtain a set of bins associated with a given audio subband, wherein performing the first inverse overlapped critically sampled transform comprises performing inverse overlapped critically sampled transforms having the same frame length (e.g., pooling factor) for the set of subband samples.
Варианты осуществления предоставляют неравномерную гребенку фильтров с компактными импульсными характеристиками, что обеспечивает возможность, в силу способности более близко придерживаться порога маскирования, как при высоких, так и при низких частотах, вводить больше шума квантования, без введения слышимых артефактов, за счет этого обеспечивая более низкую скорость передачи битов, чем равномерная гребенка фильтров.Embodiments provide a non-uniform filter bank with compact impulse responses that allows, by virtue of being able to more closely adhere to the masking threshold, at both high and low frequencies, to introduce more quantization noise without introducing audible artifacts, thereby providing a lower bit rate than uniform filterbank.
В вариантах осуществления, выполняется разделение на полосы частот коэффициентов объединения. В силу этого, множество совершенно различных схем объединения являются возможными. Тем не менее, вследствие высокой гибкости, очень затруднительно оптимизировать общую систему. Следовательно, в вариантах осуществления, спектр разделяется на полосы частот коэффициентов объединения (MFB), в которых идентичный коэффициент объединения (MF) всегда используется (ср. с нижеприведенным разделом 2.1.1). Прямоугольные окна без перекрытия на границах полосы коэффициентов объединения могут использоваться, поскольку все полосы частот коэффициентов объединения могут независимо управляться таким способом (ср. с фиг. 17).In embodiments, banding of the combining coefficients is performed. Because of this, many completely different combination schemes are possible. However, due to the high flexibility, it is very difficult to optimize the overall system. Therefore, in embodiments, the spectrum is divided into bands of combining factors (MFBs), in which the identical combining factor (MF) is always used (cf. section 2.1.1 below). Rectangular non-overlapping windows at the edges of the combining coefficient band can be used since all the combining coefficient bands can be independently controlled in this manner (cf. FIG. 17).
В вариантах осуществления, выполняется объединенная обработка каналов (M/S или средство многоканального кодирования (MCT) [12]). В общем, M/S или MCT также может использоваться с субполосным объединением и TDAR. Средние каналы и боковые каналы могут независимо использовать различные MF-параметры и TDAR-параметры в расчете на кадр.In embodiments, combined channel processing (M/S or multi-channel coding engine (MCT) [12]) is performed. In general, M/S or MCT can also be used with subband combining and TDAR. The middle channels and side channels can independently use different MF parameters and TDAR parameters per frame.
В вариантах осуществления, M/S или MCT индивидуально включаются/выключаются в расчете на полосу частот коэффициентов объединения. Расширение объединенного стерео заключается в том, чтобы включать/выключать объединенное стерео для каждой полосы частот между первым MDCT и вторым MDCT для объединения. Это обеспечивает частотно-избирательную активацию MS/MCT, например, в расчете на MFB. Тем не менее, TDAR является возможным только между двумя кадрами с идентичной объединенной стереоконфигурацией (например, без TDAR между L/R и M/S).In embodiments, M/S or MCT are individually enabled/disabled per combining coefficient bandwidth. The combined stereo extension is to turn on/off the combined stereo for each frequency band between the first MDCT and the second MDCT to be combined. This provides frequency selective activation of MS/MCT, for example, per MFB. However, TDAR is only possible between two frames with the same combined stereo configuration (eg, no TDAR between L/R and M/S).
В вариантах осуществления, решающий модуль по переключению окон используется из существующих способов для решения по коэффициенту объединения. В существующих способах, предусмотрены средства управления решающим модулем для длинных/коротких окон. В некоторых обстоятельствах, эти решающие модули также могут использоваться для MF.In embodiments, a window switch solver is used from existing methods to solve the pooling factor. In existing methods, long/short window solver controls are provided. In some circumstances, these solvers may also be used for MF.
В вариантах осуществления, коэффициент объединения передается в служебных сигналах в потоке битов (включающем в себя энтропийное кодирование и взаимную обработку нескольких MF-параметров). Вообще говоря, требуется небольшое число битов в потоке битов, с тем чтобы передавать в служебных сигналах MF для текущего кадра. Эти биты также могут энтропийно кодироваться. Помимо этого, биты также могут кодироваться между собой. Исходные данные: Различные MF, такие как 2, 8, 1, 2, 16, 32, предположительно являются менее вероятными, чем более равномерные MF, такие как 4, 4, 8, 8, 16, 16. Эта корреляция может использоваться для того, чтобы уменьшать объем данных, например, посредством дифференциального кодирования.In embodiments, the pooling factor is signaled in the bit stream (including entropy encoding and interprocessing of multiple MF parameters). Generally speaking, a small number of bits in the bitstream are required in order to be signaled in the MF signaling for the current frame. These bits can also be entropy encoded. In addition, the bits can also be encoded among themselves. Input: Various MFs such as 2, 8, 1, 2, 16, 32 are expected to be less likely than more uniform MFs such as 4, 4, 8, 8, 16, 16. This correlation can be used to to reduce the amount of data, for example, through differential coding.
В вариантах осуществления, меньшее число коэффициентов объединения передается, при этом пропущенные коэффициенты объединения могут извлекаться/интерполироваться из соседних узлов. Если MF реально должны быть настолько равномерными, как в предыдущих секциях, все MF также могут интерполироваться из небольшого числа MF.In embodiments, fewer pooling coefficients are transmitted, whereby the missing pooling coefficients can be extracted/interpolated from neighboring nodes. If the MFs really need to be as uniform as in the previous sections, all MFs can also be interpolated from a small number of MFs.
В вариантах осуществления, TDAR-параметры извлекаются из MF-параметров. TDAR может передаваться как 1 бит в расчете на MFB. Альтернативно, TDAR-бит также может извлекаться из MF-битов (идентичный MF-параметр в двух последовательных кадрах=TDAR включено). В таком случае, не требуется вспомогательной информации для TDAR.In embodiments, TDAR parameters are derived from MF parameters. TDAR may be transmitted as 1 bit per MFB. Alternatively, the TDAR bit may also be extracted from the MF bits (identical MF parameter in two consecutive frames=TDAR enabled). In such a case, no ancillary information is required for TDAR.
В вариантах осуществления, выполняется взаимное энтропийное кодирование MF-параметров и TDAR-параметров. MF-значения и TDAR-значения могут энтропийно кодироваться взаимным способом.In embodiments, cross-entropy encoding of MF parameters and TDAR parameters is performed. MF values and TDAR values may be entropy encoded in a reciprocal fashion.
В этом случае, при 8 MFB и 6 MF, требуется не:In this case, with 8 MFB and 6 MF, it is not required:
а только:but only:
битов.bits.
В вариантах осуществления, полосы частот коэффициентов объединения разделяются неравномерным способом. Для простоты, в нижеприведенном описании предполагаются равномерные MFB. Тем не менее, они также могут становиться неравномерными. Целесообразное разделение предположительно должно быть идентичным полосам частот коэффициентов масштабирования (SFB). В таком случае, один коэффициент масштабирования и один коэффициент объединения передаются в расчете на SFB.In embodiments, the bands of the combining coefficients are divided in a non-uniform manner. For simplicity, the following description assumes uniform MFBs. However, they can also become uneven. A reasonable separation would presumably be identical to the scaling factor (SFB) frequency bands. In such a case, one scaling factor and one combining factor are transmitted per SFB.
В вариантах осуществления, выполняется решетчатая оптимизация коэффициентов объединения. Использование решетчатых сеток для кодирования аудио уже представляет собой предшествующий уровень техники [7]. Тем не менее, традиционные системы могут использовать только одну решетку; с другой стороны, согласно вариантам осуществления, одна решетка может использоваться в расчете на MFB.In embodiments, a lattice optimization of the pooling coefficients is performed. The use of trellis grids for audio coding is already prior art [7]. However, traditional systems may only use one grid; on the other hand, according to embodiments, one grating can be used per MFB.
Дополнительные варианты осуществления предоставляют аудиопроцессор для обработки аудиосигнала, с тем чтобы получать субполосное представление аудиосигнала. Аудиопроцессор содержит каскад каскадного перекрывающегося критически дискретизированного преобразования и каскад уменьшения наложения спектров во временной области. Каскад каскадного перекрывающегося критически дискретизированного преобразования выполнен с возможностью выполнять каскадное перекрывающееся критически дискретизированное преобразование, по меньшей мере, для двух частично перекрывающихся блоков выборок аудиосигнала, с тем чтобы получать набор субполосных выборок на основе первого блока выборок аудиосигнала и получать соответствующий набор субполосных выборок на основе второго блока выборок аудиосигнала. Каскад уменьшения наложения спектров во временной области выполнен с возможностью выполнять комбинирование со взвешиванием двух соответствующих наборов субполосных выборок, причем один из них получен на основе первого блока выборок аудиосигнала, а другой получен на основе второго блока выборок аудиосигнала, с тем чтобы получать субполосное представление с уменьшенным наложением спектров аудиосигнала.Additional embodiments provide an audio processor for processing the audio signal so as to obtain a subband representation of the audio signal. The audio processor includes a cascaded overlapped critically sampled transform and a time domain aliasing reduction stage. The cascaded overlapped critically sampled transform stage is configured to perform a cascaded overlapped critically sampled transform on at least two partially overlapping blocks of audio samples so as to obtain a set of subband samples based on the first block of audio samples and obtain a corresponding set of subband samples based on the second block of audio samples. block of samples of the audio signal. The time domain aliasing reduction stage is configured to weight-combine two respective sets of sub-band samples, one derived from the first block of audio samples and the other derived from the second block of audio samples, so as to obtain a reduced sub-band representation. overlaying the spectrum of the audio signal.
Дополнительные варианты осуществления предоставляют аудиопроцессор для обработки субполосного представления аудиосигнала, с тем чтобы получать аудиосигнал. Аудиопроцессор содержит каскад обратного уменьшения наложения спектров во временной области и каскад каскадного обратного перекрывающегося критически дискретизированного преобразования. Каскад обратного уменьшения наложения спектров во временной области выполнен с возможностью выполнять комбинирование со взвешиванием (и сдвигом) двух соответствующих субполосных представлений с уменьшенным наложением спектров (различных блоков частично перекрывающихся выборок) аудиосигнала, с тем чтобы получать субполосное представление с наложением спектров, при этом субполосное представление с наложением спектров представляет собой набор субполосных выборок. Каскад каскадного обратного перекрывающегося критически дискретизированного преобразования выполнен с возможностью выполнять каскадное обратное перекрывающееся критически дискретизированное преобразование для набора субполосных выборок, с тем чтобы получать набор выборок, ассоциированных с блоком выборок аудиосигнала.Additional embodiments provide an audio processor for processing a subband representation of an audio signal so as to obtain an audio signal. The audio processor comprises an inverse time domain aliasing reduction stage and a cascaded inverse overlapping critically sampled transform stage. The time-domain de-aliasing stage is configured to weight (and shift) two respective aliased sub-band representations (different blocks of partially overlapping samples) of an audio signal to obtain an aliased sub-band representation, wherein the sub-band representation aliased is a set of subband samples. The cascaded inverse overlapped critically sampled transform stage is configured to perform a cascaded inverse overlapped critically sampled transform on a set of subband samples to obtain a set of samples associated with a block of audio signal samples.
Согласно принципу настоящего изобретения, дополнительный каскад постобработки добавляется в конвейер перекрывающегося критически дискретизированного преобразования (например, MDCT), причем дополнительный каскад постобработки содержит другое перекрывающееся критически дискретизированное преобразование (например, MDCT) вдоль частотной оси и уменьшение наложения спектров во временной области вдоль каждой субполосной временной оси. Это обеспечивает возможность извлечения произвольных шкал частот из спектрограммы перекрывающегося критически дискретизированного преобразования (например, MDCT) с улучшенной временной компактностью импульсной характеристики, при отсутствии введения дополнительной избыточности и с введением уменьшенной кадровой задержки перекрывающегося критически дискретизированного преобразования.According to the principle of the present invention, an additional post-processing stage is added to an overlapped critically sampled transform (e.g., MDCT) pipeline, wherein the additional post-processing stage comprises another overlapped critically sampled transform (e.g., MDCT) along the frequency axis and de-aliasing in the time domain along each sub-band time axes. This allows the extraction of arbitrary frequency scales from the overlapped critically sampled transform (eg, MDCT) spectrogram with improved temporal compactness of the impulse response, without introducing additional redundancy and with the introduction of reduced frame delay of the overlapped critically sampled transform.
Дополнительные варианты осуществления предоставляют способ для обработки аудиосигнала, с тем чтобы получать субполосное представление аудиосигнала. Способ содержит:Additional embodiments provide a method for processing an audio signal so as to obtain a subband representation of the audio signal. The method contains:
- выполнение каскадного перекрывающегося критически дискретизированного преобразования, по меньшей мере, для двух частично перекрывающихся блоков выборок аудиосигнала, с тем чтобы получать набор субполосных выборок на основе первого блока выборок аудиосигнала и получать соответствующий набор субполосных выборок на основе второго блока выборок аудиосигнала; иperforming a cascaded overlapping critically sampled transform on at least two partially overlapping blocks of audio samples so as to obtain a set of subband samples based on the first block of audio samples and obtain a corresponding set of subband samples based on the second block of audio samples; and
- выполнение комбинирования со взвешиванием двух соответствующих наборов субполосных выборок, причем один из них получен на основе первого блока выборок аудиосигнала, а другой получен на основе второго блока выборок аудиосигнала, с тем чтобы получать субполосное представление с уменьшенным наложением спектров аудиосигнала.- performing a weighting combination of two respective sets of sub-band samples, one of which is derived from the first block of audio samples and the other is derived from the second block of audio samples, so as to obtain a sub-band representation with reduced aliasing of the audio signal.
Дополнительные варианты осуществления предоставляют способ для обработки субполосного представления аудиосигнала, с тем чтобы получать аудиосигнал. Способ содержит:Additional embodiments provide a method for processing a subband representation of an audio signal so as to obtain an audio signal. The method contains:
- выполнение комбинирования со взвешиванием (и сдвигом) двух соответствующих субполосных представлений с уменьшенным наложением спектров (различных блоков частично перекрывающихся выборок) аудиосигнала, с тем чтобы получать субполосное представление с наложением спектров, при этом субполосное представление с наложением спектров представляет собой набор субполосных выборок; и- performing a weighting (and shifting) combination of two respective reduced aliasing subband representations (different blocks of partially overlapping samples) of the audio signal to obtain a aliased subband representation, wherein the aliased subband representation is a set of subband samples; and
- выполнение каскадного обратного перекрывающегося критически дискретизированного преобразования для набора субполосных выборок, с тем чтобы получать набор выборок, ассоциированных с блоком выборок аудиосигнала.- performing a cascaded inverse overlap critically sampled transform on the set of subband samples to obtain a set of samples associated with a block of audio samples.
Преимущественные реализации затрагиваются в зависимых пунктах формулы изобретения.Preferred implementations are covered in the dependent claims.
Далее описываются преимущественные реализации аудиопроцессора для обработки аудиосигнала, с тем чтобы получать субполосное представление аудиосигнала.The following describes preferred implementations of an audio processor for processing an audio signal so as to obtain a subband representation of the audio signal.
В вариантах осуществления, каскад каскадного перекрывающегося критически дискретизированного преобразования может представлять собой каскад каскадного MDCT (MDCT=модифицированное дискретное косинусное преобразование), MDST (MDST=модифицированное дискретное синусное преобразование) или MLT (MLT=модулированное перекрывающееся преобразование).In embodiments, the cascaded overlapped critically sampled transform stage may be a cascaded MDCT (MDCT=modified discrete cosine transform), MDST (MDST=modified discrete sine transform) or MLT (MLT=modulated lapped transform) stage.
В вариантах осуществления, каскад каскадного перекрывающегося критически дискретизированного преобразования может содержать первый каскад перекрывающегося критически дискретизированного преобразования, выполненный с возможностью выполнять перекрывающиеся критически дискретизированные преобразования для первого блока выборок и второго блока выборок, по меньшей мере, из двух частично перекрывающихся блоков выборок аудиосигнала, с тем чтобы получать первый набор элементов разрешения для первого блока выборок и второй набор элементов разрешения (перекрывающихся критически дискретизированных коэффициентов) для второго блока выборок.In embodiments, the cascaded overlapped critically sampled transform stage may comprise a first overlapped critically sampled transform stage configured to perform overlapped critically sampled transforms on the first block of samples and the second block of samples of at least two partially overlapping blocks of audio samples, so that to obtain a first set of bins for the first block of samples and a second set of bins (overlapping critically sampled coefficients) for the second block of samples.
Первый каскад перекрывающегося критически дискретизированного преобразования может представлять собой первый MDCT-, MDST- или MLT-каскад.The first stage of the overlapped critically sampled transform may be the first MDCT, MDST or MLT stage.
Каскад каскадного перекрывающегося критически дискретизированного преобразования дополнительно может содержать второй каскад перекрывающегося критически дискретизированного преобразования, выполненный с возможностью выполнять перекрывающееся критически дискретизированное преобразование для сегмента (собственного поднабора) первого набора элементов разрешения и выполнять перекрывающееся критически дискретизированное преобразование для сегмента (собственного поднабора) второго набора элементов разрешения, причем каждый сегмент ассоциирован с субполосой частот аудиосигнала, с тем чтобы получать набор субполосных выборок для первого набора элементов разрешения и набор субполосных выборок для второго набора элементов разрешения.The cascaded overlapped critically sampled transform stage may further comprise a second overlapped critically sampled transform stage configured to perform overlapped critically sampled transform on a segment (self subset) of the first bin set and perform overlapped critically sampled transform on the segment (either subset) of the second bin set , each segment being associated with a subband of the audio signal so as to obtain a set of subband samples for the first set of bins and a set of subband samples for the second set of bins.
Второй каскад перекрывающегося критически дискретизированного преобразования может представлять собой второй MDCT-, MDST- или MLT-каскад.The second stage of the overlapped critically sampled transform may be the second MDCT, MDST or MLT stage.
В силу этого, первый и второй каскады перекрывающегося критически дискретизированного преобразования могут иметь идентичный тип, т.е. представлять собой один из MDCT-, MDST- или MLT-каскадов.Because of this, the first and second stages of the overlapped critically sampled transform may be of the same type, i.e. represent one of the MDCT-, MDST- or MLT-cascades.
В вариантах осуществления, второй каскад перекрывающегося критически дискретизированного преобразования может быть выполнен с возможностью выполнять перекрывающиеся критически дискретизированные преобразования, по меньшей мере, для двух частично перекрывающихся сегментов (собственных поднаборов) первого набора элементов разрешения и выполнять перекрывающиеся критически дискретизированные преобразования, по меньшей мере, для двух частично перекрывающихся сегментов (собственных поднаборов) второго набора элементов разрешения, причем каждый сегмент ассоциирован с субполосой частот аудиосигнала, с тем чтобы получать, по меньшей мере, два набора субполосных выборок для первого набора элементов разрешения, и, по меньшей мере, два набора субполосных выборок для второго набора элементов разрешения.In embodiments, the second overlapped critically sampled transform stage may be configured to perform overlapped critically sampled transforms on at least two partially overlapping segments (either subsets) of the first bin set and perform overlapped critically sampled transforms on at least two partially overlapping segments (own subsets) of a second bin set, each segment being associated with a subband of the audio signal so as to obtain at least two sets of subband samples for the first bin set, and at least two subband sets samples for the second set of resolution elements.
В силу этого, первый набор субполосных выборок может представлять собой результат первого перекрывающегося критически дискретизированного преобразования на основе первого сегмента первого набора элементов разрешения, при этом второй набор субполосных выборок может представлять собой результат второго перекрывающегося критически дискретизированного преобразования на основе второго сегмента первого набора элементов разрешения, при этом третий набор субполосных выборок может представлять собой результат третьего перекрывающегося критически дискретизированного преобразования на основе первого сегмента второго набора элементов разрешения, при этом четвертый набор субполосных выборок может представлять собой результат четвертого перекрывающегося критически дискретизированного преобразования на основе второго сегмента второго набора элементов разрешения. Каскад уменьшения наложения спектров во временной области может быть выполнен с возможностью выполнять комбинирование со взвешиванием первого набора субполосных выборок и третьего набора субполосных выборок, с тем чтобы получать первое субполосное представление с уменьшенным наложением спектров аудиосигнала, и выполнять комбинирование со взвешиванием второго набора субполосных выборок и четвертого набора субполосных выборок, с тем чтобы получать второе субполосное представление с уменьшенным наложением спектров аудиосигнала.Therefore, the first set of subband samples may be the result of a first overlapped critically sampled transform based on the first segment of the first bin set, while the second set of subband samples may be the result of a second overlapped critically sampled transform based on the second segment of the first bin set, wherein the third set of subband samples may be the result of a third overlapped critically sampled transform based on the first segment of the second bin set, wherein the fourth set of subband samples may be the result of a fourth overlapped critically sampled transform based on the second segment of the second bin set. The time domain aliasing reduction stage may be configured to perform weighting of the first set of subband samples and the third set of subband samples to obtain a first subband dealiased representation of the audio signal, and perform weighting of the second set of subband samples and the fourth set of subband samples. a set of sub-band samples so as to obtain a second sub-band representation with reduced aliasing of the audio signal.
В вариантах осуществления, каскад каскадного перекрывающегося критически дискретизированного преобразования может быть выполнен с возможностью сегментировать набор элементов разрешения, полученный на основе первого блока выборок, использованием, по меньшей мере, двух оконных функций, и получать, по меньшей мере, два набора субполосных выборок на основе сегментированного набора элементов разрешения, соответствующего первому блоку выборок, при этом каскад каскадного перекрывающегося критически дискретизированного преобразования может быть выполнен с возможностью сегментировать набор элементов разрешения, полученный на основе второго блока выборок, с использованием, по меньшей мере, двух оконных функций, и получать, по меньшей мере, два набора субполосных выборок на основе сегментированного набора элементов разрешения, соответствующего второму блоку выборок, при этом, по меньшей мере, две оконные функции содержат различную ширину окна.In embodiments, the cascaded overlapped critically sampled transform stage may be configured to segment the bin set derived from the first block of samples using at least two window functions and obtain at least two subband sample sets based on segmented bin set corresponding to the first block of samples, wherein the cascaded overlapping critically sampled transform stage may be configured to segment the bin set derived from the second block of samples using at least two window functions, and obtain, by at least two sets of subband samples based on the segmented bin set corresponding to the second block of samples, wherein the at least two window functions comprise different window widths.
В вариантах осуществления, каскад каскадного перекрывающегося критически дискретизированного преобразования может быть выполнен с возможностью сегментировать набор элементов разрешения, полученный на основе первого блока выборок с использованием, по меньшей мере, двух оконных функций, и получать, по меньшей мере, два набора субполосных выборок на основе сегментированного набора элементов разрешения, соответствующего первому блоку выборок, при этом каскад каскадного перекрывающегося критически дискретизированного преобразования может быть выполнен с возможностью сегментировать набор элементов разрешения, полученный на основе второго блока выборок с использованием, по меньшей мере, двух оконных функций, и получать, по меньшей мере, два набора субполосных выборок на основе сегментированного набора элементов разрешения, соответствующего второму блоку выборок, при этом наклоны фильтра оконных функций, соответствующих смежным наборам субполосных выборок, являются симметричными.In embodiments, the cascaded overlapped critically sampled transform stage may be configured to segment the bin set derived from the first block of samples using at least two window functions and obtain at least two subband sample sets based on segmented bin set corresponding to the first block of samples, wherein the cascaded overlapped critically sampled transform stage may be configured to segment the bin set derived from the second block of samples using at least two window functions and obtain at least at least two subband sample sets based on the segmented bin set corresponding to the second block of samples, wherein the window function filter slopes corresponding to adjacent subband sample sets are symmetrical.
В вариантах осуществления, каскад каскадного перекрывающегося критически дискретизированного преобразования может быть выполнен с возможностью сегментировать выборки аудиосигнала на первый блок выборок и второй блок выборок с использованием первой оконной функции, при этом каскад перекрывающегося критически дискретизированного преобразования может быть выполнен с возможностью сегментировать набор элементов разрешения, полученный на основе первого блока выборок, и набор элементов разрешения, полученный на основе второго блока выборок, с использованием второй оконной функции, с тем чтобы получать соответствующие субполосные выборки, при этом первая оконная функция и вторая оконная функция содержат различную ширину окна.In embodiments, the cascaded overlapped critically sampled transform stage may be configured to segment the audio signal samples into a first block of samples and a second block of samples using a first windowing function, wherein the overlapped critically sampled transform stage may be configured to segment the bin set obtained based on the first block of samples, and a bin set derived from the second block of samples using a second window function to obtain respective sub-band samples, the first window function and the second window function having different window widths.
В вариантах осуществления, каскад каскадного перекрывающегося критически дискретизированного преобразования может быть выполнен с возможностью сегментировать выборки аудиосигнала на первый блок выборок и второй блок выборок с использованием первой оконной функции, при этом каскад перекрывающегося критически дискретизированного преобразования может быть выполнен с возможностью сегментировать набор элементов разрешения, полученный на основе первого блока выборок, и набор элементов разрешения, полученный на основе второго блока выборок, с использованием второй оконной функции, с тем чтобы получать соответствующие субполосные выборки, при этом ширина окна первой оконной функции и ширина окна второй оконной функции отличаются друг от друга, при этом ширина окна первой оконной функции и ширина окна второй оконной функции отличаются друг от друга на коэффициент, отличающийся от степени двух.In embodiments, the cascaded overlapped critically sampled transform stage may be configured to segment the audio signal samples into a first block of samples and a second block of samples using a first windowing function, wherein the overlapped critically sampled transform stage may be configured to segment the bin set obtained based on the first block of samples, and a bin set obtained based on the second block of samples using a second window function, so as to obtain the corresponding sub-band samples, wherein the window width of the first window function and the window width of the second window function are different from each other, wherein the window width of the first window function and the window width of the second window function differ from each other by a factor different from a power of two.
Далее описываются преимущественные реализации аудиопроцессора для обработки субполосного представления аудиосигнала, с тем чтобы получать аудиосигнал.The following describes preferred implementations of an audio processor for processing a subband representation of an audio signal so as to obtain an audio signal.
В вариантах осуществления, каскад обратного каскадного перекрывающегося критически дискретизированного преобразования может представлять собой каскад обратного каскадного MDCT (MDCT=модифицированное дискретное косинусное преобразование), MDST (MDST=модифицированное дискретное синусное преобразование) или MLT (MLT=модулированное перекрывающееся преобразование).In embodiments, the inverse cascaded overlay critically sampled transform stage may be an inverse cascaded MDCT (MDCT=modified discrete cosine transform), MDST (MDST=modified discrete sine transform), or MLT (MLT=modulated lapped transform).
В вариантах осуществления, каскад каскадного обратного перекрывающегося критически дискретизированного преобразования может содержать первый каскад обратного перекрывающегося критически дискретизированного преобразования, выполненный с возможностью выполнять обратное перекрывающееся критически дискретизированное преобразование для набора субполосных выборок, с тем чтобы получать набор элементов разрешения, ассоциированный с данной субполосой частот аудиосигнала.In embodiments, the cascaded inverse lap critically sampled transform stage may comprise a first inverse lap critically sampled transform stage configured to perform an inverse lap critically sampled transform on a set of subband samples to obtain a bin set associated with a given audio subband.
Первый каскад обратного перекрывающегося критически дискретизированного преобразования может представлять собой первый обратный MDCT-, MDST- или MLT-каскад.The first stage of the inverse overlap critically sampled transform may be the first inverse MDCT, MDST or MLT stage.
В вариантах осуществления, каскад каскадного обратного перекрывающегося критически дискретизированного преобразования может содержать первый каскад суммирования с перекрытием, выполненный с возможностью выполнять конкатенацию набора элементов разрешения, ассоциированного с множеством субполос частот аудиосигнала, что содержит комбинирование со взвешиванием набора элементов разрешения, ассоциированного с данной субполосой частот аудиосигнала, с набором элементов разрешения, ассоциированным с другой субполосой частот аудиосигнала, с тем чтобы получать набор элементов разрешения, ассоциированный с блоком выборок аудиосигнала.In embodiments, the cascaded inverse lap critically sampled transform stage may comprise a first lap summation stage configured to concatenate a bin set associated with a plurality of audio subbands, which comprises weighting a bin set associated with a given audio subband , with a bin set associated with a different audio subband, to obtain a bin set associated with a block of audio samples.
В вариантах осуществления, каскад каскадного обратного перекрывающегося критически дискретизированного преобразования может содержать второй каскад обратного перекрывающегося критически дискретизированного преобразования, выполненный с возможностью выполнять обратное перекрывающееся критически дискретизированное преобразование для набора элементов разрешения, ассоциированных с блоком выборок аудиосигнала, с тем чтобы получать набор выборок, ассоциированных с блоком выборок аудиосигнала.In embodiments, the cascaded critically sampled inverse transform stage may comprise a second critically sampled inverse lapped transform stage configured to perform an inverse overlapped critically sampled transform on a set of bins associated with a block of audio samples to obtain a set of samples associated with block of samples of the audio signal.
Второй каскад обратного перекрывающегося критически дискретизированного преобразования может представлять собой второй обратный MDCT-, MDST- или MLT-каскад.The second stage of the inverse overlap critically sampled transform may be the second inverse MDCT, MDST or MLT stage.
В силу этого, первый и второй каскады обратного перекрывающегося критически дискретизированного преобразования могут иметь идентичный тип, т.е. представлять собой один из обратных MDCT-, MDST- или MLT-каскадов.Because of this, the first and second stages of the inverse overlapped critically sampled transform may be of the same type, i.e. represent one of the reverse MDCT, MDST, or MLT cascades.
В вариантах осуществления, каскад каскадного обратного перекрывающегося критически дискретизированного преобразования может содержать второй каскад суммирования с перекрытием, выполненный с возможностью суммировать с перекрытием набор выборок, ассоциированных с блоком выборок аудиосигнала, и другой набор выборок, ассоциированных с другим блоком выборок аудиосигнала, причем блок выборок и другой блок выборок аудиосигнала частично перекрываются, с тем чтобы получать аудиосигнал.In embodiments, the cascaded critically sampled inverse transform stage may comprise a second lap-add stage configured to overlap-add a set of samples associated with a block of audio samples and another set of samples associated with another block of audio samples, wherein the block of samples and the other block of audio samples are partially overlapped so as to obtain an audio signal.
Варианты осуществления настоящего изобретения описываются в данном документе со ссылкой на прилагаемые чертежи.Embodiments of the present invention are described herein with reference to the accompanying drawings.
Фиг. 1 показывает принципиальную блок-схему аудиопроцессора, выполненного с возможностью обрабатывать аудиосигнал, с тем чтобы получать субполосное представление аудиосигнала, согласно варианту осуществления;Fig. 1 shows a schematic block diagram of an audio processor configured to process an audio signal so as to obtain a subband representation of the audio signal, according to an embodiment;
Фиг. 2 показывает принципиальную блок-схему аудиопроцессора, выполненного с возможностью обрабатывать аудиосигнал, с тем чтобы получать субполосное представление аудиосигнала, согласно дополнительному варианту осуществления;Fig. 2 shows a schematic block diagram of an audio processor configured to process an audio signal so as to obtain a subband representation of the audio signal, according to a further embodiment;
Фиг. 3 показывает принципиальную блок-схему аудиопроцессора, выполненного с возможностью обрабатывать аудиосигнал, с тем чтобы получать субполосное представление аудиосигнала, согласно дополнительному варианту осуществления;Fig. 3 shows a schematic block diagram of an audio processor configured to process an audio signal so as to obtain a subband representation of the audio signal, according to a further embodiment;
Фиг. 4 показывает принципиальную блок-схему аудиопроцессора для обработки субполосного представления аудиосигнала, с тем чтобы получать аудиосигнал, согласно варианту осуществления;Fig. 4 shows a schematic block diagram of an audio processor for processing subband representation of an audio signal so as to obtain an audio signal, according to an embodiment;
Фиг. 5 показывает принципиальную блок-схему аудиопроцессора для обработки субполосного представления аудиосигнала, с тем чтобы получать аудиосигнал, согласно дополнительному варианту осуществления;Fig. 5 shows a schematic block diagram of an audio processor for processing subband representation of an audio signal so as to obtain an audio signal, according to a further embodiment;
Фиг. 6 показывает принципиальную блок-схему аудиопроцессора для обработки субполосного представления аудиосигнала, с тем чтобы получать аудиосигнал, согласно дополнительному варианту осуществления;Fig. 6 shows a schematic block diagram of an audio processor for processing subband representation of an audio signal so as to obtain an audio signal, according to a further embodiment;
Фиг. 7 показывает на схемах пример субполосных выборок (верхний график) и разброс их выборок по времени и частоте (нижний график);Fig. 7 shows diagrammatically an example of sub-band samples (upper plot) and the spread of their samples in time and frequency (lower plot);
Фиг. 8 показывает на схеме спектральную и временную неопределенность, полученную посредством нескольких различных преобразований;Fig. 8 shows in a diagram the spectral and temporal uncertainty obtained through several different transformations;
Фиг. 9 показывает на схемах сравнение двух примерных импульсных характеристик, сформированных посредством субполосного объединения с и без TDAR, простых коротких MDCT-блоков и субполосного объединения на основе матрицы Адамара;Fig. 9 shows a diagrammatic comparison of two exemplary impulse responses generated by sub-band combining with and without TDAR, simple short MDCT blocks, and Hadamard sub-band combining;
Фиг. 10 показывает блок-схему последовательности операций способа для обработки аудиосигнала, с тем чтобы получать субполосное представление аудиосигнала, согласно варианту осуществления;Fig. 10 shows a flowchart of a method for processing an audio signal so as to obtain a subband representation of an audio signal, according to an embodiment;
Фиг. 11 показывает блок-схему последовательности операций способа для обработки субполосного представления аудиосигнала, с тем чтобы получать аудиосигнал, согласно варианту осуществления;Fig. 11 shows a flowchart of a method for processing a subband representation of an audio signal so as to obtain an audio signal, according to an embodiment;
Фиг. 12 показывает принципиальную блок-схему аудиокодера, согласно варианту осуществления;Fig. 12 shows a schematic block diagram of an audio encoder, according to an embodiment;
Фиг. 13 показывает принципиальную блок-схему аудиодекодера, согласно варианту осуществления;Fig. 13 shows a schematic block diagram of an audio decoder according to an embodiment;
Фиг. 14 показывает принципиальную блок-схему аудиоанализатора, согласно варианту осуществления;Fig. 14 shows a schematic block diagram of an audio analyzer according to an embodiment;
Фиг. 15 показывает принципиальную блок-схему субкаскадов перекрывающегося критически дискретизированного преобразования для второго каскада перекрывающегося критически дискретизированного преобразования аудиопроцессора, показанного на фиг. 2 и 3, согласно варианту осуществления настоящего изобретения;Fig. 15 shows a schematic block diagram of the overlapped critically sampled transform substages for the second overlapped critically sampled transform stage of the audio processor shown in FIG. 2 and 3 according to an embodiment of the present invention;
Фиг. 16 показывает принципиальную блок-схему субкаскадов обратного перекрывающегося критически дискретизированного преобразования первого каскада обратного перекрывающегося критически дискретизированного преобразования аудиопроцессора, показанного на фиг. 5 и 6, согласно варианту осуществления настоящего изобретения;Fig. 16 shows a schematic block diagram of the inverse overlapped critically sampled transform substages of the first inverse overlapped critically sampled transform stage of the audio processor shown in FIG. 5 and 6 according to an embodiment of the present invention;
Фиг. 17 показывает на схеме оконные функции, используемые для сегментации набора элементов разрешения, с тем чтобы получать наборы элементов разрешения, согласно варианту осуществления настоящего изобретения;Fig. 17 is a diagram showing window functions used to segment a bin set in order to obtain bin sets, according to an embodiment of the present invention;
Фиг. 18 показывает на схемах распределения вариантов выбора коэффициента объединения (MF) и уменьшения наложения спектров во временной области (TDAR), выполненных посредством кодера;Fig. 18 shows in distribution diagrams the combination factor (MF) and time domain aliasing reduction (TDAR) selections made by the encoder;
Фиг. 19 показывает на схемах средние скорости передачи битов двух систем для различных параметров q искажения для 39 тестовых элементов;Fig. 19 shows in diagrams the average bit rates of the two systems for various distortion parameters q for 39 test elements;
Фиг. 20 перечисляет в таблице настройки качества и их параметр q искажения и результирующую среднюю скорость передачи битов;Fig. 20 lists in the table the quality settings and their distortion parameter q and the resulting average bit rate;
Фиг. 21 перечисляет в таблице различные тестовые элементы;Fig. 21 lists various test items in a table;
Фиг. 22 перечисляет в таблице результаты теста Шапиро-Вилка на предмет нормальности для попарных разностей количественных MUSHRA-показателей между гребенкой фильтров переключения окон (WS) и гребенкой фильтров субполосного объединения (SM) при немного ухудшенных (MQ) и умеренно ухудшенных (LQ) настройках качества;Fig. 22 lists in a table the results of the Shapiro-Wilk normality test for pairwise MUSHRA score differences between a window switching (WS) filter bank and a subband combining (SM) filter bank at slightly degraded (MQ) and moderately degraded (LQ) quality settings;
Фиг. 23 показывает на схемах распределения и ядерные оценки плотности разностей количественных MUSHRA-показателей между гребенкой фильтров переключения окон (WS) и гребенкой фильтров субполосного объединения (SM) при немного ухудшенных (MQ) и умеренно ухудшенных (LQ) настройках качества;Fig. 23 shows distribution diagrams and kernel density estimates of MUSHRA score differences between a window switching (WS) filterbank and a subband combining (SM) filterbank at slightly degraded (MQ) and moderately degraded (LQ) quality settings;
Фиг. 24 перечисляет результаты по среднему значению, среднеквадратическому отклонению (SD) и на основе знакового рангового теста Уилкоксона для количественных MUSHRA-показателей, сравнивающих гребенку фильтров переключения окон (WS) и гребенку фильтров субполосного объединения (SM) при немного ухудшенных (MQ) и умеренно ухудшенных (LQ) настройках качества;Fig. 24 lists results by mean, standard deviation (SD), and Wilcoxon signed-rank test for quantitative MUSHRA scores comparing window switching (WS) filterbank and subband merging (SM) filterbank at slightly degraded (MQ) and moderately degraded (LQ) quality settings;
Фиг. 25 показывает на схемах средние и 95%-ые доверительные интервалы разностей количественных MUSHRA-показателей для отдельных элементов, гребенки фильтров переключения окон и гребенки фильтров субполосного объединения при немного ухудшенных (MQ) и умеренно ухудшенных (LQ) настройках качества;Fig. 25 diagrammatically shows the mean and 95% confidence intervals of individual element MUSHRA score differences, window switching filterbanks, and subband combining filterbanks at slightly degraded (MQ) and moderately degraded (LQ) quality settings;
Фиг. 26 показывает блок-схему последовательности операций способа для обработки аудиосигнала, с тем чтобы получать субполосное представление аудиосигнала, согласно варианту осуществления; иFig. 26 shows a flowchart of a method for processing an audio signal so as to obtain a subband representation of an audio signal, according to an embodiment; and
Фиг. 27 показывает блок-схему последовательности операций способа для обработки субполосного представления аудиосигнала, с тем чтобы получать аудиосигнал, согласно варианту осуществления.Fig. 27 shows a flowchart of a method for processing a subband representation of an audio signal so as to obtain an audio signal, according to an embodiment.
Идентичные или эквивалентные элементы либо элементы с идентичной или эквивалентной функциональностью обозначаются в нижеприведенном описании посредством идентичных или эквивалентных ссылочных позиций.Identical or equivalent elements, or elements with identical or equivalent functionality, are referred to in the following description by identical or equivalent reference numerals.
В нижеприведенном описании, множество деталей изложено с тем, чтобы предоставлять более полное пояснение вариантов осуществления настоящего изобретения. Тем не менее, специалистам в данной области техники должно быть очевидным, что варианты осуществления настоящего изобретения могут быть использованы на практике без этих конкретных деталей. В других случаях, известные структуры и устройства показаны в форме блок-схемы, а не подробно, чтобы не затруднять понимание вариантов осуществления настоящего изобретения. Помимо этого, признаки различных вариантов осуществления, описанных далее, могут комбинироваться между собой, если прямо не указано иное.In the description below, many details are set forth in order to provide a more complete explanation of the embodiments of the present invention. However, those skilled in the art will appreciate that embodiments of the present invention may be practiced without these specific details. In other instances, known structures and devices are shown in block diagram form rather than in detail so as not to obscure the embodiments of the present invention. In addition, the features of the various embodiments described below may be combined with each other, unless expressly stated otherwise.
Во-первых, в разделе 1, описывается неравномерная ортогональная гребенка фильтров на основе каскадирования двух MDCT и уменьшения наложения спектров во временной области (TDAR), которая позволяет достигать импульсных характеристик, которые являются компактными во времени и по частоте [1]. После этого, в разделе 2, перцепционное качество такой неравномерной гребенки фильтров в сценарии аудиокодера оценивается и сравнивается с производительностью равномерной гребенки фильтров с переключением окон, используемой в текущих кодерах, к примеру, при усовершенствованном кодировании аудио (AAC) [2].First, in
1. Неравномерная ортогональная гребенка фильтров на основе каскадирования двух MDCT и уменьшения наложения спектров во временной области (TDAR)1. Non-uniform orthogonal filter bank based on cascading two MDCTs and time domain aliasing reduction (TDAR)
Фиг. 1 показывает принципиальную блок-схему аудиопроцессора 100, выполненного с возможностью обрабатывать аудиосигнал 102, с тем чтобы получать субполосное представление аудиосигнала, согласно варианту осуществления. Аудиопроцессор 100 содержит каскад 104 каскадного перекрывающегося критически дискретизированного преобразования (LCST) и каскад 106 уменьшения наложения спектров во временной области (TDAR).Fig. 1 shows a schematic block diagram of an
Каскад 104 каскадного перекрывающегося критически дискретизированного преобразования выполнен с возможностью выполнять каскадное перекрывающееся критически дискретизированное преобразование, по меньшей мере, для двух частично перекрывающихся блоков 108_1 и 108_2 выборок аудиосигнала 102, с тем чтобы получать набор 110_1,1 субполосных выборок на основе первого блока 108_1 выборок (по меньшей мере, из двух перекрывающихся блоков 108_1 и 108_2 выборок) аудиосигнала 102 и получать соответствующий набор 110_2,1 субполосных выборок на основе второго блока 108_2 выборок (по меньшей мере, из двух перекрывающихся блоков 108_1 и 108_2 выборок) аудиосигнала 102.The cascaded overlapped critically sampled
Каскад 104 уменьшения наложения спектров во временной области выполнен с возможностью выполнять комбинирование со взвешиванием двух соответствующих наборов 110_1,1 и 110_2,1 субполосных выборок (т.е. субполосных выборок, соответствующих идентичной субполосе частот), причем один из них получен на основе первого блока 108_1 выборок аудиосигнала 102, а другой получен на основе второго блока 108_2 выборок аудиосигнала, с тем чтобы получать субполосное представление 112_1 с уменьшенным наложением спектров аудиосигнала 102.The time-domain
В вариантах осуществления, каскад 104 каскадного перекрывающегося критически дискретизированного преобразования может содержать, по меньшей мере, два каскада каскадного перекрывающегося критически дискретизированного преобразования, или другими словами, причем два каскада перекрывающегося критически дискретизированного преобразования соединяются каскадным способом.In embodiments, the cascaded overlapped critically sampled
Каскад каскадного перекрывающегося критически дискретизированного преобразования может представлять собой каскад каскадного MDCT (MDCT=модифицированное дискретное косинусное преобразование). Каскадный MDCT-каскад может содержать, по меньшей мере, два MDCT-каскада.The cascaded overlapped critically sampled transform cascade may be a cascaded MDCT (MDCT=Modified Discrete Cosine Transform) cascade. A cascaded MDCT cascade may comprise at least two MDCT cascades.
Естественно, каскад каскадного перекрывающегося критически дискретизированного преобразования также может представлять собой каскад каскадного MDST (MDST=модифицированное дискретное синусное преобразование) или MLT (MLT=модулированное перекрывающееся преобразование), содержащий, по меньшей мере, два MDST- или MLT-каскада, соответственно.Naturally, the cascaded overlapped critically sampled transform stage can also be a cascaded MDST (MDST=modified discrete sine transform) or MLT (MLT=modulated lapped transform) stage comprising at least two MDST or MLT stages, respectively.
Два соответствующих набора 110_1,1 и 110_2,1 субполосных выборок могут представлять собой субполосные выборки, соответствующие идентичной субполосе частот (т.е. полосе частот).The two respective sets 110_1,1 and 110_2,1 of subband samples may be subband samples corresponding to the same subband (ie frequency band).
Фиг. 2 показывает принципиальную блок-схему аудиопроцессора 100, выполненного с возможностью обрабатывать аудиосигнал 102, с тем чтобы получать субполосное представление аудиосигнала, согласно дополнительному варианту осуществления.Fig. 2 shows a schematic block diagram of an
Как показано на фиг. 2, каскад 104 каскадного перекрывающегося критически дискретизированного преобразования может содержать первый каскад 120 перекрывающегося критически дискретизированного преобразования, выполненный с возможностью выполнять перекрывающиеся критически дискретизированные преобразования для первого блока 108_1 (2M) выборок (xi-1(n), 0≤n≤2M-1) и второго блока 108_2 (2M) выборок (xi(n), 0≤n≤2M-1), по меньшей мере, из двух частично перекрывающихся блоков 108_1 и 108_2 выборок аудиосигнала 102, с тем чтобы получать первый набор 124_1 из (M) элементов разрешения (LCST-коэффициентов) (Xi-1(k), 0≤k≤M-1) для первого блока 108_1 выборок и второй набор 124_2 из (M) элементов разрешения (LCST-коэффициентов) (Xi(k), 0≤k≤M-1) для второго блока 108_2 выборок.As shown in FIG. 2, the cascaded overlapped critically sampled
Каскад 104 каскадного перекрывающегося критически дискретизированного преобразования может содержать второй каскад 126 перекрывающегося критически дискретизированного преобразования, выполненный с возможностью выполнять перекрывающееся критически дискретизированное преобразование для сегмента 128_1,1 (собственного поднабора) (Xv, i-1(k)) первого набора 124_1 элементов разрешения и выполнять перекрывающееся критически дискретизированное преобразование для сегмента 128_2,1 (собственного поднабора) (Xv, i(k)) второго набора 124_2 элементов разрешения, причем каждый сегмент ассоциирован с субполосой частот аудиосигнала 102, с тем чтобы получать набор 110_1,1 субполосных выборок (ŷv, i-1(m)) для первого набора 124_1 элементов разрешения и набор 110_2,1 субполосных выборок (ŷv, i(m)) для второго набора 124_2 элементов разрешения.The cascaded overlapped critically sampled
Фиг. 3 показывает принципиальную блок-схему аудиопроцессора 100, выполненного с возможностью обрабатывать аудиосигнал 102, с тем чтобы получать субполосное представление аудиосигнала, согласно дополнительному варианту осуществления. Другими словами, фиг. 3 показывает схему гребенки аналитических фильтров. В силу этого, предполагаются соответствующие оконные функции. Следует отметить, что для простоты, на фиг. 3 указывается (только) обработка первой половины субполосного кадра (y[m], 0<=m<N/2) (т.е. только первая строка уравнения (6)).Fig. 3 shows a schematic block diagram of an
Как показано на фиг. 3, первый каскад 120 перекрывающегося критически дискретизированного преобразования может быть выполнен с возможностью выполнять первое перекрывающееся критически дискретизированное преобразование 122_1 (например, MDCT i-1) для первого блока 108_1 (2M) выборок (xi-1(n), 0≤n≤2M-1), с тем чтобы получать первый набор 124_1 из (M) элементов разрешения (LCST-коэффициентов) (Xi-1(k), 0≤k≤M-1) для первого блока 108_1 выборок, и выполнять второе перекрывающееся критически дискретизированное преобразование 122_2 (например, MDCT i) для второго блока 108_2 (2M) выборок (xi(n), 0≤n≤2M-1), с тем чтобы получать второй набор 124_2 из (M) элементов разрешения (LCST-коэффициентов) (Xi(k), 0≤k≤M-1) для второго блока 108_2 выборок.As shown in FIG. 3, the first overlapped critically sampled
Подробно, второй каскад 126 перекрывающегося критически дискретизированного преобразования может быть выполнен с возможностью выполнять перекрывающиеся критически дискретизированные преобразования, по меньшей мере, для двух частично перекрывающихся сегментов 128_1,1 и 128_1,2 (собственных поднаборов) (Xv, i-1(k)) первого набора 124_1 элементов разрешения и выполнять перекрывающиеся критически дискретизированные преобразования, по меньшей мере, для двух частично перекрывающихся сегментов 128_2,1 и 128_2,2 (собственных поднаборов) (Xv, i(k)) второго набора элементов разрешения, причем каждый сегмент ассоциирован с субполосой частот аудиосигнала, с тем чтобы получать, по меньшей мере, два набора 110_1,1 и 110_1,2 субполосных выборок (ŷv, i-1(m)) для первого набора 124_1 элементов разрешения и, по меньшей мере, два набора 110_2,1 и 110_2,2 субполосных выборок (ŷv, i(m)) для второго набора 124_2 элементов разрешения.In detail, the second overlapped critically sampled
Например, первый набор 110_1,1 субполосных выборок может представлять собой результат первого перекрывающегося критически дискретизированного преобразования 132_1,1 на основе первого сегмента 132_1,1 первого набора 124_1 элементов разрешения, при этом второй набор 110_1,2 субполосных выборок может представлять собой результат второго перекрывающегося критически дискретизированного преобразования 132_1,2 на основе второго сегмента 128_1,2 первого набора 124_1 элементов разрешения, при этом третий набор 110_2,1 субполосных выборок может представлять собой результат третьего перекрывающегося критически дискретизированного преобразования 132_2,1 на основе первого сегмента 128_2,1 второго набора 124_2 элементов разрешения, при этом четвертый набор 110_2,2 субполосных выборок может представлять собой результат четвертого перекрывающегося критически дискретизированного преобразования 132_2,2 на основе второго сегмента 128_2,2 второго набора 124_2 элементов разрешения.For example, the first subband sample set 110_1,1 may be the result of a first overlapped critically sampled transform 132_1,1 based on the first segment 132_1,1 of the first bin set 124_1, while the second subband sample set 110_1,2 may be the result of a second critically overlapped sampled transform 132_1,2 based on the second segment 128_1,2 of the first bin set 124_1, wherein the third subband sample set 110_2,1 may be the result of a third overlapping critically sampled transform 132_2,1 based on the first segment 128_2,1 of the second bin set 124_2 resolution, wherein the fourth subband sample set 110_2,2 may be the result of a fourth overlapped critically sampled transform 132_2,2 based on the second segment 128_2,2 of the second bin set 124_2.
В силу этого, каскад 106 уменьшения наложения спектров во временной области может быть выполнен с возможностью выполнять комбинирование со взвешиванием первого набора 110_1,1 субполосных выборок и третьего набора 110_2,1 субполосных выборок, с тем чтобы получать первое субполосное представление 112_1 с уменьшенным наложением спектров (y1,i[m1]) аудиосигнала, при этом каскад 106 уменьшения наложения спектров в области может быть выполнен с возможностью выполнять комбинирование со взвешиванием второго набора 110_1,2 субполосных выборок и четвертого набора 110_2,2 субполосных выборок, с тем чтобы получать второе субполосное представление 112_2 с уменьшенным наложением спектров (y2,i[m2]) аудиосигнала.Because of this, the time domain
Фиг. 4 показывает принципиальную блок-схему аудиопроцессора 200 для обработки субполосного представления аудиосигнала, с тем чтобы получать аудиосигнал 102, согласно варианту осуществления. Аудиопроцессор 200 содержит каскад 202 обратного уменьшения наложения спектров во временной области (TDAR) и каскад 204 каскадного обратного перекрывающегося критически дискретизированного преобразования (LCST).Fig. 4 shows a schematic block diagram of an
Каскад 202 обратного уменьшения наложения спектров во временной области выполнен с возможностью выполнять комбинирование со взвешиванием (и сдвигом) двух соответствующих субполосных представлений 112_1 и 112_2 с уменьшенным наложением спектров (yv, i(m), yv, i-1(m)) аудиосигнала 102, с тем чтобы получать субполосное представление 110_1 с наложением спектров (ŷv, i(m)), при этом субполосное представление с наложением спектров представляет собой набор 110_1 субполосных выборок.The inverse time domain
Каскад 204 каскадного обратного перекрывающегося критически дискретизированного преобразования выполнен с возможностью выполнять каскадное обратное перекрывающееся критически дискретизированное преобразование для набора 110_1 субполосных выборок, с тем чтобы получать набор выборок, ассоциированных с блоком 108_1 выборок аудиосигнала 102.The cascaded inverse overlapped critically sampled
Фиг. 5 показывает принципиальную блок-схему аудиопроцессора 200 для обработки субполосного представления аудиосигнала, с тем чтобы получать аудиосигнал 102, согласно дополнительному варианту осуществления. Каскад 204 каскадного обратного перекрывающегося критически дискретизированного преобразования может содержать первый каскад 208 обратного перекрывающегося критически дискретизированного преобразования (LCST) и первый каскад 210 суммирования с перекрытием.Fig. 5 shows a schematic block diagram of an
Первый каскад 208 обратного перекрывающегося критически дискретизированного преобразования может быть выполнен с возможностью выполнять обратное перекрывающееся критически дискретизированное преобразование для набора 110_1,1 субполосных выборок, с тем чтобы получать набор 128_1,1 элементов разрешения, ассоциированных с данной субполосой частот аудиосигнала (v,i(k))..The
Первый каскад 210 суммирования с перекрытием может быть выполнен с возможностью выполнять конкатенацию наборов элементов разрешения, ассоциированных с множеством субполос частот аудиосигнала, что содержит комбинирование со взвешиванием набора 128_1,1 элементов (v,i(k))разрешения, ассоциированных с данной субполосой (v) частот аудиосигнала 102, с набором 128_1,2 элементов (v,i(k))разрешения, ассоциированных с другой субполосой (v-1) частот аудиосигнала 102, с тем чтобы получать набор 124_1 элементов разрешения, ассоциированных с блоком 108_1 выборок аудиосигнала 102.The first
Как показано на фиг. 5, каскад 204 каскадного обратного перекрывающегося критически дискретизированного преобразования может содержать второй каскад 212 обратного перекрывающегося критически дискретизированного преобразования (LCST), выполненный с возможностью выполнять обратное перекрывающееся критически дискретизированное преобразование для набора 124_1 элементов разрешения, ассоциированных с блоком 108_1 выборок аудиосигнала 102, с тем чтобы получать набор 206_1,1 выборок, ассоциированных с блоком 108_1 выборок аудиосигнала 102.As shown in FIG. 5, the cascaded inverse overlap critically sampled transform (LCST)
Дополнительно, каскад 204 каскадного обратного перекрывающегося критически дискретизированного преобразования может содержать второй каскад 214 суммирования с перекрытием, выполненный с возможностью суммировать с перекрытием набор 206_1,1 выборок, ассоциированных с блоком 108_1 выборок аудиосигнала 102, и другой набор 206_2,1 выборок, ассоциированных с другим блоком 108_2 выборок аудиосигнала, причем блок 108_1 выборок и другой блок 108_2 выборок аудиосигнала 102 частично перекрываются, с тем чтобы получать аудиосигнал 102.Additionally, the cascaded inverse overlap critically sampled
Фиг. 6 показывает принципиальную блок-схему аудиопроцессора 200 для обработки субполосного представления аудиосигнала, с тем чтобы получать аудиосигнал 102, согласно дополнительному варианту осуществления. Другими словами, фиг. 6 показывает схему гребенки синтезирующих фильтров. В силу этого, предполагаются соответствующие оконные функции. Следует отметить, что для простоты, на фиг. 6 указывается (только) обработка первой половины субполосного кадра (y[m], 0<=m<N/2) (т.е. только первая строка уравнения (6)).Fig. 6 shows a schematic block diagram of an
Как описано выше, аудиопроцессор 200 содержит каскад 202 обратного уменьшения наложения спектров во временной области и каскад 204 обратного каскадного перекрывающегося критически дискретизированного преобразования, содержащий первый каскад 208 обратного перекрывающегося критически дискретизированного преобразования и второй каскад 212 обратного перекрывающегося критически дискретизированного преобразования.As described above,
Каскад 104 обратного уменьшения во временной области выполнен с возможностью выполнять первое комбинирование 220_1 со взвешиванием и сдвигом первого и второго субполосных представлений y1,i-1[m1] и y1,i[m1] с уменьшенным наложением спектров, с тем чтобы получать первое субполосное представление 110_1,1 ŷ1,i[m1] с наложением спектров, при этом субполосное представление с наложением спектров представляет собой набор субполосных выборок, и выполнять второе комбинирование 220_2 со взвешиванием и сдвигом третьего и четвертого субполосных представлений y2,i-1[m1] и y2,i[m1] с уменьшенным наложением спектров, с тем чтобы получать второе субполосное представление 110_2,1 ŷ2,i[m1] с наложением спектров, при этом субполосное представление с наложением спектров представляет собой набор субполосных выборок.The time domain
Первый каскад 208 обратного перекрывающегося критически дискретизированного преобразования выполнен с возможностью выполнять первое обратное перекрывающееся критически дискретизированное преобразование 222_1 для первого набора 110_1,1 ŷ1,i[m1] субполосных выборок, с тем чтобы получать набор 128_1,1 элементов разрешения, ассоциированных с данной субполосой частот аудиосигнала (v,i(k)), и выполнять второе обратное перекрывающееся критически дискретизированное преобразование 222_2 для второго набора 110_2,1 ŷ2,i[m1] субполосных выборок, с тем чтобы получать набор 128_2,1 элементов разрешения, ассоциированных с данной субполосой частот аудиосигнала (v,i(k)).The first inverse overlap critically sampled
Второй каскад 212 обратного перекрывающегося критически дискретизированного преобразования выполнен с возможностью выполнять обратное перекрывающееся критически дискретизированное преобразование для перекрывающегося и суммированного набора элементов разрешения, полученного посредством перекрытия и суммирования наборов 128_1,1 и 128_2,1 элементов разрешения, предоставленных посредством первого каскада 208 обратного перекрывающегося критически дискретизированного преобразования, с тем чтобы получать блок 108_2 выборок.The second inverse overlap critically sampled
Далее описываются варианты осуществления аудиопроцессоров, показанных на фиг. 1-6, в которых примерно предполагается, что каскад 104 каскадного перекрывающегося критически дискретизированного преобразования представляет собой MDCT-каскад, т.е. первый и второй каскады 120 и 126 перекрывающегося критически дискретизированного преобразования представляют собой MDCT-каскады, и каскад 204 обратного каскадного перекрывающегося критически дискретизированного преобразования представляет собой обратный каскадный MDCT-каскад, т.е. первый и второй каскады 120 и 126 обратного перекрывающегося критически дискретизированного преобразования представляют собой обратные MDCT-каскады. Естественно, нижеприведенное описание также является применимым к другим вариантам осуществления каскада 104 каскадного перекрывающегося критически дискретизированного преобразования и каскада 204 обратного перекрывающегося критически дискретизированного преобразования, к примеру, к каскадному MDST- или MLT-каскаду или к обратному каскадному MDST- или MLT-каскаду.The following describes embodiments of the audio processors shown in FIG. 1-6, in which it is roughly assumed that the cascaded overlapped critically sampled
В силу этого, описанные варианты осуществления могут работать для последовательности MDCT-спектров ограниченной длины и использовать MDCT и уменьшение наложения спектров во временной области (TDAR) в качестве операции субполосного объединения. Результирующая неравномерная гребенка фильтров является перекрывающейся, ортогональной и обеспечивает субполосные ширины k=2n с n∈N. Вследствие TDAR, может достигаться временно и спектрально более компактная субполосная импульсная характеристика.Because of this, the described embodiments can work for a sequence of MDCT spectra of limited length and use MDCT and time domain aliasing reduction (TDAR) as a subband combining operation. The resulting non-uniform filterbank is overlapped, orthogonal, and provides subband widths k=2 n with n∈N. Due to TDAR, a temporally and spectrally more compact sub-band impulse response can be achieved.
Далее описываются варианты осуществления гребенки фильтров.The following describes embodiments of the filter bank.
Реализация гребенки фильтров непосредственно базируется на общих схемах перекрывающегося MDCT-преобразования: Исходное преобразование с перекрытием и кодированием со взвешиванием остается неизменным.The implementation of the filterbank is directly based on the general schemes of the lapped MDCT transform: The original lapped and weighted transform remains unchanged.
Без потери общности, следующая система обозначений допускает ортогональные MDCT-преобразования, например, в которых аналитического и синтезирующего окна являются идентичными.Without loss of generality, the following notation allows orthogonal MDCT transformations, for example, in which the analytic and synthesis windows are identical.
где к(k, n, M) является ядром MDCT-преобразования, и h(n) является подходящим аналитическим окном.where k (k, n, M) is the kernel of the MDCT transform and h(n) is the appropriate analytic window.
Выводное значение этого преобразования Xi(k) после этого сегментируется на субполос частот с отдельными ширинами Nv и снова преобразуется с использованием MDCT Это приводит к гребенке фильтров с перекрытием во временном и спектральном направлении.The output value of this transformation X i (k) is then segmented into subbands with separate widths N v and again converted using MDCT This results in a filter bank with overlap in the temporal and spectral direction.
Для упрощения системы обозначений в данном документе, используется один общий коэффициент N объединения для всех субполос частот; тем не менее, любое допустимое переключение/упорядочение MDCT окна может использоваться для того, чтобы реализовывать требуемое частотно-временное разрешение. Ниже содержится дополнительная информация относительно проектирования разрешения.To simplify the notation in this document, one common pooling factor N is used for all subbands; however, any valid switching/ordering of the MDCT window may be used to implement the desired time-frequency resolution. The following contains additional information regarding resolution design.
где w(k) является подходящим аналитическим окном и, в общем, отличается от h(n) по размеру и может отличаться по типу окна. Поскольку варианты осуществления применяют окно в частотной области, следует заметить, что временная и частотная избирательность окна переставляются.where w(k) is an appropriate analytic window and is generally different from h(n) in size and may be different in window type. Since the embodiments use a window in the frequency domain, it should be noted that the time and frequency selectivity of the window are swapped.
Для надлежащей обработки границ, дополнительное смещение от N/2 может вводиться в уравнении (4), комбинированное с прямоугольными половинами начального/конечного окна на границах. Также для упрощения системы обозначений, это смещение не учитывается здесь.For proper edge handling, an additional offset from N/2 can be introduced in equation (4), combined with the rectangular halves of the start/end window at the edges. Also, to simplify the notation, this offset is not taken into account here.
Вывод представляет собой список v-векторов отдельных длин Nv коэффициентов с соответствующими полосами пропускания и временным разрешением, пропорциональным этой полосе пропускания.Conclusion is a list of v-vectors of distinct lengths of N v coefficients with corresponding bands bandwidth and a temporal resolution proportional to that bandwidth.
Тем не менее, эти векторы содержат наложение спектров из исходного MDCT-преобразования и в силу этого демонстрируют плохую временную компактность. Чтобы компенсировать это наложение спектров, TDAR может упрощаться.However, these vectors contain aliasing from the original MDCT transform and therefore exhibit poor temporal compactness. To compensate for this aliasing, TDAR can be simplified.
Выборки, используемые для TDAR, извлекаются из двух смежных блоков v субполосных выборок в текущем и предыдущем MDCT-кадре i и i-1. Результат представляет собой уменьшенное наложение спектров во второй половине предыдущего кадра и в первой половине второго кадра.The samples used for TDAR are drawn from two adjacent blocks v of subband samples in the current and previous MDCT frame i and i-1. The result is a reduced aliasing in the second half of the previous frame and the first half of the second frame.
для с:for With:
TDAR-коэффициенты , , и могут быть спроектированы с возможностью минимизировать остаточное наложение спектров. Ниже вводится простой способ оценки на основе синтезирующего окна g(n) синтезирующего.TDAR ratios , , and can be designed to minimize residual aliasing. Below we introduce a simple estimation method based on the synthesis window g(n) of the synthesis.
Также следует отметить, что, если A является несингулярным, операции (6) и (8) соответствуют биортогональной системе. Дополнительно, если и , например, оба MDCT являются ортогональными, и матрица A является ортогональной, полный конвейер составляет ортогональное преобразование.It should also be noted that if A is non-singular, operations (6) and (8) correspond to a biorthogonal system. Additionally, if and eg both MDCTs are orthogonal and matrix A is orthogonal, the full pipeline constitutes an orthogonal transformation.
Чтобы вычислять обратное преобразование, выполняется первое обратное TDAR,To calculate the inverse transform, the first inverse TDAR is performed,
после которого выполняется обратное MDCT, и должно выполняться подавление наложения спектров во временной области (TDAC, хотя подавление наложения спектров осуществляется вдоль частотной оси здесь), с тем чтобы подавлять наложение спектров, сформированное в уравнении 5:after which an inverse MDCT is performed and time-domain aliasing suppression (TDAC, although aliasing suppression is performed along the frequency axis here) must be performed in order to suppress the aliasing generated in Equation 5:
В завершение, начальное MDCT в уравнении 2 инвертируется, и снова выполняется TDAC:Finally, the initial MDCT in
Далее описываются проектные ограничения частотно-временного разрешения. Хотя любое требуемое частотно-временное разрешение является возможным, некоторые ограничения для проектирования результирующих оконных функций должны соблюдаться с тем, чтобы обеспечивать обратимость. В частности, наклоны двух смежных субполос частот могут быть симметричными таким образом, что уравнение (6) удовлетворяет условию Принцена-Брэдли [J. Princen, A. Johnson и A. Bradley, "Subband/transform coding using filter bank designs based on time domain aliasing cancellation", in Acoustics, Speech and Signal Processing, IEEE International Conference on ICASSP '87, апрель года 1987, том 12, стр. 2161-2164]. Схема переключения окон, введенная в [B. Edler, "Codierung von Audiosignalen mit überlappender Transformation und adaptiven Fensterfunktionen", Frequenz, том 43, стр. 252-256, сентябрь 1989 года], первоначально спроектированная с возможностью противостоять эффектам опережающего эхо, может применяться здесь. См. [Olivier Derrien, Thibaud Necciari и Peter Balazs, "A quasi-orthogonal, invertible and perceptually relevant time-frequency transform for audio coding", in EUSIPCO, Ницца, Франция, август 2015 года].The following describes the design limitations of the time-frequency resolution. Although any desired time-frequency resolution is possible, some constraints on the design of the resulting window functions must be observed in order to ensure reversibility. In particular, the slopes of two adjacent subbands may be symmetrical such that Equation (6) satisfies the Prinzen-Bradley condition [J. Princen, A. Johnson and A. Bradley, "Subband/transform coding using filter bank designs based on time domain aliasing cancellation", in Acoustics, Speech and Signal Processing, IEEE International Conference on ICASSP '87, April 1987, Volume 12, pp. 2161-2164]. The window switching scheme introduced in [B. Edler, "Codierung von Audiosignalen mit überlappender Transformation und adaptiven Fensterfunktionen", Frequenz, Vol. 43, pp. 252-256, September 1989], originally designed to resist pre-echo effects, can be applied here. See [Olivier Derrien, Thibaud Necciari and Peter Balazs, "A quasi-orthogonal, invertible and perceptually relevant time-frequency transform for audio coding", in EUSIPCO, Nice, France, August 2015].
Во-вторых, сумма всех длин вторых MDCT-преобразований должна составлять в сумме общую длину предоставленных MDCT-коэффициентов. Полосы частот могут выбираться с возможностью не преобразовываться с использованием единичного ступенчатого окна с нулями в требуемых коэффициентах. Тем не менее, свойства симметрии соседних окон должны отслеживаться [B. Edler, "Codierung von Audiosignalen mit überlappender Transformation und adaptiven Fensterfunktionen", Frequenz, том 43, стр. 252-256, сентябрь 1989 года]. Результирующее преобразование должно давать в результате нули в этих полосах частот, так что исходные коэффициенты могут непосредственно использоваться.Second, the sum of all lengths of the second MDCT transforms must add up to the total length of the provided MDCT coefficients. The frequency bands may be chosen to not be transformed using a unit staggered window with zeros in the desired coefficients. However, the symmetry properties of adjacent windows must be tracked [B. Edler, "Codierung von Audiosignalen mit überlappender Transformation und adaptiven Fensterfunktionen", Frequenz, vol. 43, pp. 252-256, September 1989]. The resulting transform should result in zeros in these frequency bands so that the original coefficients can be directly used.
В качестве возможного частотно-временного разрешения, полосы частот коэффициентов масштабирования из наиболее современных аудиокодеров могут непосредственно использоваться.As a possible time-frequency resolution, scale factor bands from most modern audio encoders can be directly used.
Далее описывается вычисление коэффициентов уменьшения наложения спектров во временной области (TDAR).Next, the calculation of time domain aliasing reduction (TDAR) coefficients is described.
Согласно вышеуказанному временному разрешению, каждая субполосная выборка соответствует M/Nv исходных выборок или интервалу Nv, умноженному на размер, в качестве одной исходной выборки.According to the above temporal resolution, each sub-band sample corresponds to M/N v original samples, or an interval of N v times the size, as one original sample.
Кроме того, величина наложения спектров в каждой субполосной выборке зависит от величины наложения спектров в интервале, который она представляет. Поскольку наложение спектров взвешивается с помощью аналитического окна h(n), использование приближенного значения фусинтезирующего окна в каждом интервале субполосной выборки предполагается в качестве хорошей первой оценки для TDAR-коэффициента.In addition, the amount of aliasing in each subband sample depends on the amount of aliasing in the interval it represents. Because the aliasing is weighted by the analytical window h(n), using an approximation of the fusynthesizing window at each subband sampling interval is assumed to be a good first estimate for the TDAR coefficient.
Эксперименты демонстрируют, что две очень простых схемы вычисления коэффициентов обеспечивают хорошие начальные значения с улучшенной временной и спектральной компактностью. Оба способа основаны на гипотетическом синтезирующем окне длины 2Nv.Experiments demonstrate that two very simple coefficient calculation schemes provide good initial values with improved temporal and spectral compactness. Both methods are based on a hypothetical
1) Для параметрических окон, таких как синусоидальные или извлеченные методом Кайзера-Бесселя, может задаваться простое более короткое окно идентичного типа.1) For parametric windows such as sinusoidal or Kaiser-Bessel extracted windows, a simple shorter window of the same type can be specified.
2) Как для параметрических, так и для табличных окон без закрытого представления, окно может разделяться на 2Nv секций равного размера, обеспечивая возможность получения коэффициентов с использованием среднего значения каждой секции:2) For both parametric and tabular windows without a closed view, the window can be divided into 2N v sections of equal size, allowing coefficients to be obtained using the average of each section:
С учетом граничных MDCT-условий и зеркалирования наложения спектров, в таком случае в результате получаются TDAR-коэффициенты:Taking into account the MDCT boundary conditions and aliasing mirroring, in this case, the result is the TDAR coefficients:
или в случае ортогонального преобразования:or in case of orthogonal transformation:
Независимо от того, какое решение по аппроксимации коэффициентов выбрано, при условии, что A является несингулярным, идеальное восстановление всей гребенки фильтров сохраняется. В других отношениях субоптимальный выбор коэффициентов должен затрагивать только величину остаточного наложения спектров в субполосном сигнале ; тем не менее, не в сигнале x(n), синтезированном посредством гребенки обратных фильтров.No matter which coefficient fitting solution is chosen, as long as A is non-singular, the perfect reconstruction of the entire filterbank is preserved. In other respects, the suboptimal choice of coefficients should only affect the amount of residual aliasing in the subband signal. ; however, not in the signal x(n) synthesized by the inverse filter bank.
Фиг. 7 показывает на схемах пример субполосных выборок (верхний график) и разброс их выборок по времени и частоте (нижний график). Снабженная примечаниями выборка имеет более широкую полосу пропускания, но меньший разброс по времени, чем нижние выборки. Аналитические окна (нижний график) имеют полное разрешение одного коэффициента в расчете на исходную временную выборку. TDAR-коэффициенты в силу этого должны аппроксимироваться (снабжаться посредством точки) для каждой временной области субполосных выборок (m=256:::384).Fig. 7 shows diagrammatically an example of sub-band samples (upper plot) and the spread of their samples in time and frequency (lower plot). The annotated sample has a wider bandwidth but less time spread than the lower samples. Analytical windows (lower graph) have a full resolution of one coefficient per original time sample. The TDAR coefficients therefore need to be approximated (provided with a dot) for each time domain of the subband samples (m=256:::384).
Далее описываются результаты (моделирования).The results (simulations) are described next.
Фиг. 8 показывает спектральную и временную неопределенность, полученную посредством нескольких различных преобразований, как показано в [Frederic Bimbot, Ewen Camberlein и Pierrick Philippe, "Adaptive filter banks using fixed size mdct and subband merging for audio coding-comparison with the mpeg aac filter banks", in Audio Engineering Society Convention 121, октябрь 2006 года].Fig. 8 shows the spectral and temporal uncertainty obtained through several different transformations, as shown in [Frederic Bimbot, Ewen Camberlein and Pierrick Philippe, "Adaptive filter banks using fixed size mdct and subband merging for audio coding-comparison with the mpeg aac filter banks", in Audio Engineering Society Convention 121, October 2006].
Можно видеть, что преобразования на основе матрицы Адамара предлагают сильно ограниченные характеристики частотно-временного компромисса. Для растущих размеров объединения, дополнительное временное разрешение приводит к непропорционально высоким затратам в спектральной неопределенности.It can be seen that the Hadamard matrix transforms offer highly limited time-frequency trade-off characteristics. For growing pool sizes, the additional temporal resolution results in a disproportionately high cost in spectral uncertainty.
Другими словами, фиг. 8 показывает сравнение спектрального и временного энергетического уплотнения различных преобразований. Встроенные метки обозначают длины кадров для MDCT, коэффициенты разбиения для разбиения Гейзенберга и коэффициенты объединения для всего остального.In other words, FIG. 8 shows a comparison of the spectral and temporal energy multiplexing of various transforms. Built-in labels indicate frame lengths for MDCT, split factors for Heisenberg split, and pool factors for everything else.
Тем не менее, субполосное объединение с TDAR имеет линейный компромисс между временной и спектральной неопределенностью, параллельно простому равномерному MDCT. Их произведение является постоянным, хотя немного выше, чем простое равномерное MDCT. Для этого анализа, синусоидальное аналитическое окно и извлеченное методом Кайзера-Бесселя окно при субполосном объединении демонстрируют наиболее компактные результаты и в силу этого выбираются.However, subband combining with TDAR has a linear trade-off between temporal and spectral uncertainty, parallel to simple uniform MDCT. Their product is constant, although slightly higher than the simple uniform MDCT. For this analysis, the sinusoidal analysis window and the Kaiser-Bessel-derived window at sub-band combining show the most compact results and are therefore chosen.
Тем не менее, кажется, что использование TDAR для коэффициента объединения Nv=2 снижает временную и спектральную компактность. Это обусловлено тем, что схема вычисления коэффициентов, введенная в разделе II-B, является слишком упрощенной и не аппроксимирует надлежащим образом значения для крутых наклонов оконной функции. Схема числовой оптимизации должна представляться в последующей публикации.However, it seems that using TDAR for the pooling factor N v =2 reduces temporal and spectral compactness. This is because the coefficient calculation scheme introduced in section II-B is too simplistic and does not adequately approximate values for steep window function slopes. The numerical optimization scheme should be presented in a subsequent publication.
Эти значения компактности вычислены с использованием центра cog тяжести и эффективной длины квадратной формы импульсной характеристики , заданной как [Athanasios Papoulis, "Signal analysis", Electrical and electronic engineering series, McGraw-Hill, Нью-Йорк, Сан-Франциско, Париж, 1977 год]These compactness values are calculated using the center of gravity and the effective length square wave impulse response given as [Athanasios Papoulis, "Signal analysis", Electrical and electronic engineering series, McGraw-Hill, New York, San Francisco, Paris, 1977]
Показаны средние значения всех импульсных характеристик каждой индивидуальной гребенки фильтров.The average values of all impulse responses of each individual filter bank are shown.
Фиг. 9 показывает сравнение двух примерных импульсных характеристик, сформированных посредством субполосного объединения с и без TDAR, простых коротких MDCT-блоков и субполосного объединения на основе матрицы Адамара, как предложено в [O.A. Niamut и R. Heusdens, "Flexible frequency decompositions for cosine-modulated filter banks", in Acoustics, Speech and Signal Processing, 2003. Proceedings (ICASSP '03), 2003 IEEE International Conference, апрель 2003 года, том 5, стр. V-449-52, том 5].Fig. 9 shows a comparison of two exemplary impulse responses generated by sub-band combining with and without TDAR, simple short MDCT blocks, and sub-band combining based on the Hadamard matrix as proposed in [O.A. Niamut and R. Heusdens, "Flexible frequency decompositions for cosine-modulated filter banks", in Acoustics, Speech and Signal Processing, 2003. Proceedings (ICASSP '03), 2003 IEEE International Conference, April 2003,
Плохая временная компактность преобразования с объединением на основе матрицы Адамара является четко видимой. Также можно четко видеть, что большинство артефактов наложения спектров в субполосе частот значительно уменьшаются посредством TDAR.The poor temporal compactness of the Hadamard-based union transformation is clearly visible. It can also be clearly seen that most subband aliasing artifacts are greatly reduced by TDAR.
Другими словами, фиг. 9 показывает примерные импульсные характеристики объединенного субполосного фильтра, содержащего 8 из 1024 исходных элементов разрешения, с использованием способа, предложенного здесь без TDAR, с TDAR, способа, предложенного в [O.A. Niamut и R. Heusdens, "Subband merging in cosine-modulated filter banks", Signal Processing Letters, IEEE, том 10, № 4, стр. 111-114, апрель 2003 года], и с использованием меньшей длины MDCT-кадра в 256 выборок.In other words, FIG. 9 shows exemplary impulse responses of a combined subband filter containing 8 out of 1024 original bins using the method proposed here without TDAR, with TDAR, the method proposed in [O.A. Niamut and R. Heusdens, "Subband merging in cosine-modulated filter banks", Signal Processing Letters, IEEE, Vol. 10, No. 4, pp. 111-114, April 2003], and using a shorter MDCT frame length of 256 samples.
Фиг. 10 показывает блок-схему последовательности операций способа 300 для обработки аудиосигнала, с тем чтобы получать субполосное представление аудиосигнала. Способ 300 содержит этап 302 выполнения каскадного перекрывающегося критически дискретизированного преобразования, по меньшей мере, для двух частично перекрывающихся блоков выборок аудиосигнала, с тем чтобы получать набор субполосных выборок на основе первого блока выборок аудиосигнала и получать соответствующий набор субполосных выборок на основе второго блока выборок аудиосигнала. Дополнительно, способ 300 содержит этап 304 выполнения комбинирования со взвешиванием двух соответствующих наборов субполосных выборок, причем один из них получен на основе первого блока выборок аудиосигнала, а другой получен на основе второго блока выборок аудиосигнала, с тем чтобы получать субполосное представление с уменьшенным наложением спектров аудиосигнала.Fig. 10 shows a flow diagram of a
Фиг. 11 показывает блок-схему последовательности операций способа 400 для обработки субполосного представления аудиосигнала, с тем чтобы получать аудиосигнал. Способ 400 содержит этап 402 выполнения комбинирования со взвешиванием (и сдвигом) двух соответствующих субполосных представлений с уменьшенным наложением спектров (различных блоков частично перекрывающихся выборок) аудиосигнала, с тем чтобы получать субполосное представление с наложением спектров, при этом субполосное представление с наложением спектров представляет собой набор субполосных выборок. Дополнительно, способ 400 содержит этап 404 выполнения каскадного обратного перекрывающегося критически дискретизированного преобразования для набора субполосных выборок, с тем чтобы получать набор выборок, ассоциированных с блоком выборок аудиосигнала.Fig. 11 shows a flowchart of a
Фиг. 12 показывает принципиальную блок-схему аудиокодера 150, согласно варианту осуществления. Аудиокодер 150 содержит аудиопроцессор (100), как описано выше, кодер 152, выполненный с возможностью кодировать субполосное представление с уменьшенным наложением спектров аудиосигнала, с тем чтобы получать кодированное субполосное представление с уменьшенным наложением спектров аудиосигнала, и модуль 154 формирования потоков битов, выполненный с возможностью формировать поток 156 битов из кодированного субполосного представления с уменьшенным наложением спектров аудиосигнала.Fig. 12 shows a schematic block diagram of an
Фиг. 13 показывает принципиальную блок-схему аудиодекодера 250, согласно варианту осуществления. Аудиодекодер 250 содержит синтаксический анализатор 252 потоков битов, выполненный с возможностью синтаксически анализировать поток 154 битов, с тем чтобы получать кодированное субполосное представление с уменьшенным наложением спектров, декодер 254, выполненный с возможностью декодировать кодированное субполосное представление с уменьшенным наложением спектров, с тем чтобы получать субполосное представление с уменьшенным наложением спектров аудиосигнала, и аудиопроцессор 200, как описано выше.Fig. 13 shows a schematic block diagram of an
Фиг. 14 показывает принципиальную блок-схему аудиоанализатора 180, согласно варианту осуществления. Аудиоанализатор 180 содержит аудиопроцессор 100, как описано выше, модуль 182 извлечения информации, выполненный с возможностью анализировать субполосное представление с уменьшенным наложением спектров, с тем чтобы предоставлять информацию, описывающую аудиосигнал.Fig. 14 shows a schematic block diagram of an
Варианты осуществления предоставляют уменьшение наложения спектров во временной области (TDAR) в субполосах частот гребенок фильтров неравномерного ортогонального модифицированного дискретного косинусного преобразования (MDCT).Embodiments provide time domain aliasing reduction (TDAR) in subbands of non-uniform orthogonal modified discrete cosine transform (MDCT) filterbanks.
Варианты осуществления добавляют дополнительный этап постобработки в широко используемый конвейер MDCT-преобразования, причем непосредственно этап содержит только другое перекрывающееся MDCT-преобразование вдоль частотной оси и уменьшение наложения спектров во временной области (TDAR) вдоль каждой субполосной временной оси, обеспечивая возможность извлекать произвольные шкалы частот из MDCT-спектрограммы с улучшенной временной компактностью импульсной характеристики, при отсутствии введения дополнительной избыточности и с введением только одной кадровой MDCT-задержки.Embodiments add an additional post-processing step to the widely used MDCT pipeline, the step itself containing only another overlapping MDCT along the frequency axis and time domain aliasing reduction (TDAR) along each sub-band time axis, providing the ability to extract arbitrary frequency scales from MDCT spectrograms with improved temporal compactness of the impulse response, without the introduction of additional redundancy and with the introduction of only one MDCT frame delay.
2. Перцепционное кодирование аудио с адаптивными неравномерными расположениями частотно-временными плитками с использованием субполосного объединения и наложения спектров во временной области2. Perceptual audio coding with adaptive non-uniform time-frequency tiling using sub-band combining and time-domain aliasing
Фиг. 15 показывает принципиальную блок-схему субкаскадов 132_1,1, 132_1,2, 132_2,1 и 132_2,2 перекрывающегося критически дискретизированного преобразования для второго каскада 126 перекрывающегося критически дискретизированного преобразования аудиопроцессора 100, показанного на фиг. 2 и 3, согласно варианту осуществления настоящего изобретения.Fig. 15 shows a schematic block diagram of the overlapped critically sampled transform substages 132_1,1, 132_1,2, 132_2,1, and 132_2,2 for the second overlapped critically sampled
В силу этого, по меньшей мере, один из субкаскадов 132_1,1, 132_1,2, 132_2,1 и 132_2,2 перекрывающегося критически дискретизированного преобразования может быть выполнен с возможностью выполнять перекрывающиеся критически дискретизированные преобразования, имеющие идентичную длину кадра (например, коэффициент объединения) для соответствующего набора 128_1,1, 128_1,2, 128_2,1 и 128_2,2 элементов разрешения.Because of this, at least one of the overlapped critically sampled transform substages 132_1,1, 132_1,2, 132_2.1, and 132_2,2 can be configured to perform overlapped critically sampled transforms having the same frame length (e.g., pooling factor ) for the corresponding set of 128_1,1, 128_1,2, 128_2,1 and 128_2,2 bins.
В вариантах осуществления, первый субкаскад 132_1,1 перекрывающегося критического преобразования может быть выполнен с возможностью выполнять N1,1 перекрывающихся критически дискретизированных преобразований для N1,1 поднаборов равной длины первого набора 128_1,1 элементов разрешения, полученных на основе сегментированного набора 124_1 элементов разрешения, соответствующих первому блоку 108_1 выборок, при этом N1,1 перекрывающихся критически дискретизированных преобразований содержат идентичную длину кадра (например, коэффициент объединения), при этом N1,1 является натуральным числом, большим или равным двум.In embodiments, the first overlapped critical transform substage 132_1,1 may be configured to perform N 1,1 overlapped critical transforms on N 1,1 equal-length subsets of the first bin set 128_1,1 derived from the segmented bin set 124_1 , corresponding to the first block 108_1 samples, while N 1.1 overlapping critically sampled transforms contain the same frame length (eg, pooling factor), while N 1.1 is a natural number greater than or equal to two.
Например, при условии, что первый набор 128_1,1 элементов разрешения содержит 128 элементов разрешения (или коэффициентов), первый субкаскад 132_1,1 перекрывающегося критического преобразования может быть выполнен с возможностью выполнять, например, N1,1=2 перекрывающихся критически дискретизированных преобразования для N1,1=2 поднаборов по 64 элемента разрешения (т.е. 128 элементов разрешения, деленных на N1,1), при этом N1,1=2 перекрывающихся критически дискретизированных преобразования содержат идентичную длину кадра (например, коэффициент объединения), например, 64. Естественно, первый субкаскад 132_1,1 перекрывающегося критического преобразования также может быть выполнен с возможностью выполнять, например, N1,1=4 (или 8) перекрывающихся критически дискретизированных преобразования для N1,1=4 (или 8) поднаборов по 32 (или 16) элементов разрешения (т.е. 128 элементов разрешения, деленных на N1,1), при этом N1,1=4 (или 8) перекрывающихся критически дискретизированных преобразования содержат идентичную длину кадра (например, коэффициент объединения), например, 32 (или 16).For example, assuming that the first bin set 128_1,1 contains 128 bins (or coefficients), the first overlapped critical transform substage 132_1,1 may be configured to perform, for example, N 1,1 =2 overlapped critical transforms for N 1,1 =2 subsets of 64 bins (i.e., 128 bins divided by N 1,1 ), where N 1,1 =2 overlapping critically sampled transforms contain identical frame length (e.g., pooling factor) , for example, 64. Naturally, the first substage 132_1,1 overlapped critical transform can also be configured to perform, for example, N 1,1 =4 (or 8) overlapped critical transforms for N 1,1 =4 (or 8) subsets of 32 (or 16) bins (i.e. 128 bins divided by N 1,1 ), with N 1,1 = 4 (or 8) overlapping critically sampled the transforms contain the same frame length (eg, pooling factor), eg 32 (or 16).
В вариантах осуществления, второй субкаскад 132_1,2 перекрывающегося критического преобразования может быть выполнен с возможностью выполнять N1,2 перекрывающихся критически дискретизированных преобразований для N1,2 поднаборов равной длины второго набора 128_1,2 элементов разрешения, полученных на основе сегментированного набора 124_1 элементов разрешения, соответствующих первому блоку 108_1 выборок, при этом N1,2 перекрывающихся критически дискретизированных преобразований содержат идентичную длину кадра (например, коэффициент объединения), при этом N1,2 является натуральным числом, большим или равным двум.In embodiments, the second overlapped critical transform substage 132_1,2 may be configured to perform N 1,2 overlapped critical transforms for N 1,2 equal-length subsets of the second bin set 128_1,2 derived from the segmented bin set 124_1 , corresponding to the first block 108_1 samples, while N 1.2 overlapping critically sampled transforms contain the same frame length (eg, pooling factor), while N 1.2 is a natural number greater than or equal to two.
Например, при условии, что второй набор 128_1,2 элементов разрешения содержит 128 элементов разрешения (или коэффициентов), второй субкаскад 132_1,2 перекрывающегося критического преобразования может быть выполнен с возможностью выполнять, например, N1,2=2 перекрывающихся критически дискретизированных преобразования для N1,2=2 поднаборов по 64 элемента разрешения (т.е. 128 элементов разрешения, деленных на N1,1), при этом N1,2=2 перекрывающихся критически дискретизированных преобразования содержат идентичную длину кадра (например, коэффициент объединения), например, 64. Естественно, второй субкаскад 132_1,2 перекрывающегося критического преобразования также может быть выполнен с возможностью выполнять, например, N1,2=4 (или 8) перекрывающихся критически дискретизированных преобразования для N1,2=4 (или 8) поднаборов по 32 (или 16) элементов разрешения (т.е. 128 элементов разрешения, деленных на N1,2), при этом N1,2=4 (или 8) перекрывающихся критически дискретизированных преобразования содержат идентичную длину кадра (например, коэффициент объединения), например, 32 (или 16).For example, assuming that the second bin set 128_1,2 contains 128 bins (or coefficients), the second overlapped critical transform substage 132_1,2 may be configured to perform, for example, N 1,2 =2 overlapped critical transforms for N 1,2 =2 subsets of 64 bins (i.e., 128 bins divided by N 1,1 ), where N 1,2 =2 overlapping critically sampled transforms contain identical frame length (e.g., pooling factor) , for example, 64. Naturally, the second substage 132_1,2 overlapped critical transform can also be configured to perform, for example, N 1,2 =4 (or 8) overlapped critical transforms for N 1,2 =4 (or 8) subsets of 32 (or 16) bins (i.e. 128 bins divided by N 1,2 ), with N 1,2 = 4 (or 8) overlapping critically sampled the transforms contain the same frame length (eg, pooling factor), eg 32 (or 16).
В вариантах осуществления, третий субкаскад 132_2,1 перекрывающегося критического преобразования может быть выполнен с возможностью выполнять N2,1 перекрывающихся критически дискретизированных преобразований для N2,1 поднаборов равной длины третьего набора 128_2,1 элементов разрешения, полученных на основе сегментированного набора 124_2 элементов разрешения, соответствующих второму блоку 108_2 выборок, при этом N2,1 перекрывающихся критически дискретизированных преобразований содержат идентичную длину кадра (например, коэффициент объединения), при этом N2,1 является натуральным числом, большим или равным двум.In embodiments, the third overlapped critical transform substage 132_2.1 may be configured to perform N 2.1 overlapped critical transforms for N 2.1 equal-length subsets of the third bin set 128_2.1 derived from the segmented bin set 124_2 , corresponding to the second block 108_2 samples, while N 2.1 overlapping critically sampled transforms contain the same frame length (eg, pooling factor), while N 2.1 is a natural number greater than or equal to two.
Например, при условии, что третий набор 128_2,1 элементов разрешения содержит 128 элементов разрешения (или коэффициентов), третий субкаскад 132_2,1 перекрывающегося критического преобразования может быть выполнен с возможностью выполнять, например, N2,1=2 перекрывающихся критически дискретизированных преобразования для N2,1=2 поднаборов по 64 элемента разрешения (т.е. 128 элементов разрешения, деленных на N1,1), при этом N1,1=2 перекрывающихся критически дискретизированных преобразования содержат идентичную длину кадра (например, коэффициент объединения), например, 64. Естественно, третий субкаскад 132_2,1 перекрывающегося критического преобразования также может быть выполнен с возможностью выполнять, например, N2,1=4 (или 8) перекрывающихся критически дискретизированных преобразования для N2,1=4 (или 8) поднаборов по 32 (или 16) элементов разрешения (т.е. 128 элементов разрешения, деленных на N1,1), при этом N2,1=4 (или 8) перекрывающихся критически дискретизированных преобразования содержат идентичную длину кадра (например, коэффициент объединения), например, 32 (или 16).For example, assuming that the third bin set 128_2,1 contains 128 bins (or coefficients), the third overlapped critical transform substage 132_2,1 may be configured to perform, for example, N 2,1 =2 overlapped critical transforms for N 2,1 =2 subsets of 64 bins (i.e., 128 bins divided by N 1,1 ), where N 1,1 =2 overlapping critically sampled transforms contain identical frame length (e.g., pooling factor) , for example, 64. Naturally, the third substage 132_2,1 of the overlapped critical transform can also be configured to perform, for example, N 2,1 =4 (or 8) overlapped critically sampled transforms for N 2,1 =4 (or 8) subsets of 32 (or 16) bins (i.e. 128 bins divided by N 1,1 ), with N 2,1 = 4 (or 8) overlapping critically sampled the transforms contain the same frame length (eg, pooling factor), eg 32 (or 16).
В вариантах осуществления, четвертый субкаскад 132_2,2 перекрывающегося критического преобразования может быть выполнен с возможностью выполнять N2,2 перекрывающихся критически дискретизированных преобразований для N2,2 поднаборов равной длины четвертого набора 128_2,2 элементов разрешения, полученных на основе сегментированного набора 124_2 элементов разрешения, соответствующих второму блоку 108_2 элементов разрешения, при этом N2,2 перекрывающихся критически дискретизированных преобразований содержат идентичную длину кадра (например, коэффициент объединения), при этом N2,2 является натуральным числом, большим или равным двум.In embodiments, the fourth overlapped critical transform substage 132_2,2 may be configured to perform N 2,2 overlapped critical transforms for N 2,2 equal-length subsets of the fourth bin set 128_2,2 derived from the segmented bin set 124_2 corresponding to the second bin block 108_2, where N 2.2 overlapping critically sampled transforms contain the same frame length (eg, pooling factor), where N 2.2 is a natural number greater than or equal to two.
Например, при условии, что четвертый набор 128_2,2 субполосных элементов разрешения содержит 128 элементов разрешения (или коэффициентов), четвертый субкаскад 132_2,2 перекрывающегося критического преобразования может быть выполнен с возможностью выполнять, например, N2,2=2 перекрывающихся критически дискретизированных преобразования для N2,2=2 поднаборов по 64 элемента разрешения (т.е. 128 элементов разрешения, деленных на N2,2), при этом N2,2=2 перекрывающихся критически дискретизированных преобразования содержат идентичную длину кадра (например, коэффициент объединения), например, 64. Естественно, четвертый субкаскад 132_2,2 перекрывающегося критического преобразования также может быть выполнен с возможностью выполнять, например, N2,2=4 (или 8) перекрывающихся критически дискретизированных преобразования для N2,2=4 (или 8) поднаборов по 32 (или 16) элементов разрешения (т.е. 128 элементов разрешения, деленных на N2,2), при этом N2,2=4 (или 8) перекрывающихся критически дискретизированных преобразования содержат идентичную длину кадра (например, коэффициент объединения), например, 32 (или 16).For example, assuming that the fourth subband bin set 128_2,2 contains 128 bins (or coefficients), the fourth overlapped critical transform substage 132_2,2 may be configured to perform, for example, N 2,2 =2 overlapped critical bins. for N 2,2 =2 subsets of 64 bins (i.e., 128 bins divided by N 2.2 ), where N 2,2 =2 overlapping critically sampled transforms contain identical frame length (e.g., pooling factor ), for example, 64. Naturally, the fourth substage 132_2,2 overlapped critical transform can also be configured to perform, for example, N 2,2 =4 (or 8) overlapped critically sampled transforms for N 2,2 =4 (or 8 ) subsets of 32 (or 16) bins (i.e. 128 bins divided by N 2.2 ), with N 2.2 = 4 (or 8) overlapping critical The sampled transforms contain the same frame length (eg, pooling factor), for example, 32 (or 16).
В вариантах осуществления, первый набор 128_1,1 элементов разрешения и второй набор 128_1,2 элементов разрешения могут содержать идентичную или различную длину (т.е. число элементов разрешения).In embodiments, the first bin set 128_1,1 and the second bin set 128_1,2 may contain the same or different length (ie, number of bins).
В вариантах осуществления, N1,1 и N1,2 могут представлять собой идентичные или отличающиеся натуральные числа.In embodiments, N 1.1 and N 1.2 may be identical or different natural numbers.
В вариантах осуществления, третий набор 128_2,1 элементов разрешения и четвертый набор 128_2,2 элементов разрешения могут содержать идентичную или различную длину (т.е. число элементов разрешения).In embodiments, the third bin set 128_2,1 and the fourth bin set 128_2,2 may contain the same or different length (ie, number of bins).
В вариантах осуществления, N2,1 и N2,2 могут представлять собой идентичные или отличающиеся натуральные числа.In embodiments, N 2.1 and N 2.2 may be identical or different natural numbers.
В вариантах осуществления, если TDAR активируется, первый набор 128_1,1 элементов разрешения и третий набор 128_2,1 элементов разрешения могут содержать идентичную длину (т.е. идентичное число элементов разрешения). Кроме того, N1,1 и N2,1 могут представлять собой идентичное натуральное число. Аналогично, также второй набор 128_1,2 элементов разрешения и четвертый набор 128_2,2 элементов разрешения могут содержать идентичную длину (т.е. идентичное число элементов разрешения). Кроме того, N2,1 и N2,2 могут представлять собой идентичное натуральное число.In embodiments, if TDAR is activated, the first bin set 128_1,1 and the third bin set 128_2,1 may contain the same length (ie, the same number of bins). In addition, N 1.1 and N 2.1 may represent an identical natural number. Similarly, also the second bin set 128_1,2 and the fourth bin set 128_2,2 may contain the same length (ie, the same number of bins). In addition, N 2.1 and N 2.2 may represent an identical natural number.
В вариантах осуществления, если TDAR деактивируется, первый набор 128_1,1 элементов разрешения и третий набор 128_2,1 элементов разрешения также могут содержать различные длины (т.е. различные числа элементов разрешения), и также N1,1 и N2,1 могут представлять собой различные натуральные числа. Аналогично, второй набор 128_1,2 элементов разрешения и четвертый набор 128_2,2 элементов разрешения также могут содержать различные длины (т.е. различные числа элементов разрешения), и также N2,1 и N2,2 могут представлять собой различные натуральные числа.In embodiments, if TDAR is disabled, the first bin set 128_1.1 and the third bin set 128_2.1 may also contain different lengths (i.e., different numbers of bins), and also N 1.1 and N 2.1 can be different natural numbers. Similarly, the second bin set 128_1.2 and the fourth bin set 128_2.2 may also contain different lengths (i.e., different numbers of bins), and also N 2.1 and N 2.2 may be different natural numbers. .
Фиг. 16 показывает принципиальную блок-схему субкаскадов 222_1 и 222_2 обратного перекрывающегося критически дискретизированного преобразования для первого каскада 208 обратного перекрывающегося критически дискретизированного преобразования аудиопроцессора 200, показанного на фиг. 5 и 6, согласно варианту осуществления настоящего изобретения.Fig. 16 shows a schematic block diagram of the inverse overlapped critically sampled transform substages 222_1 and 222_2 for the first inverse overlapped critically sampled
В силу этого, по меньшей мере, один из субкаскадов 222_1 и 222_2 обратного перекрывающегося критически дискретизированного преобразования может быть выполнен с возможностью выполнять обратные перекрывающиеся критически дискретизированные преобразования, имеющие идентичную длину кадра (например, коэффициент объединения), для соответствующего набора 110_1,1 и 110_1,2 субполосных выборок, с тем чтобы получать соответствующий набор 128_1,1 и 128_1,2 элементов разрешения.Because of this, at least one of the inverse overlapped critically sampled transform substages 222_1 and 222_2 can be configured to perform inverse overlapped critically sampled transforms having the same frame length (e.g., pooling factor) for the respective set 110_1,1 and 110_1 .2 subband samples so as to obtain a corresponding bin set 128_1,1 and 128_1,2.
В вариантах осуществления, первый субкаскад 222_1 обратного перекрывающегося критического преобразования может быть выполнен с возможностью выполнять N1,1 обратных перекрывающихся критически дискретизированных преобразований для N1,1 поднаборов равной длины первого набора 110_1 субполосных выборок, при этом N1,1 перекрывающихся критически дискретизированных преобразований содержат идентичную длину кадра (например, коэффициент объединения), при этом N1,1 является натуральным числом, большим или равным двум.In embodiments, the first inverse overlapped critical transform substage 222_1 may be configured to perform N 1.1 inverse overlap critical transforms for N 1.1 equal-length subsets of the first set 110_1 subband samples, with N 1.1 overlapping critically sampled transforms. contain the same frame length (eg, pooling factor), with N 1,1 being a natural number greater than or equal to two.
В вариантах осуществления, второй субкаскад 222_2 обратного перекрывающегося критического преобразования может быть выполнен с возможностью выполнять обратные перекрывающиеся критически дискретизированные преобразования N1,2 для N1,2 поднаборов равной длины второго набора 110_1 субполосных выборок, при этом N1,2 перекрывающихся критически дискретизированных преобразований содержат идентичную длину кадра (например, коэффициент объединения), при этом N1,2 является натуральным числом, большим или равным двум.In embodiments, the second inverse overlap critical transform substage 222_2 may be configured to perform N 1.2 inverse overlap critical transforms for N 1.2 equal -length subsets of the second subband sample set 110_1, with N 1.2 overlapping critical transforms. contain the same frame length (eg, pooling factor), with N 1,2 being a natural number greater than or equal to two.
Далее описываются подробные варианты осуществления неравномерной гребенки фильтров. Дополнительно, перцепционное качество такой неравномерной гребенки фильтров в сценарии аудиокодера оценивается и сравнивается с производительностью равномерной гребенки фильтров с переключением окон, используемой в текущих кодерах, к примеру, при усовершенствованном кодировании аудио (AAC) [2].The following describes detailed embodiments of the non-uniform filter bank. Additionally, the perceptual quality of such a non-uniform filterbank in an audio encoder scenario is evaluated and compared to the performance of a uniform windowed filterbank used in current encoders, such as advanced audio coding (AAC) [2].
2.1. Система кодирования2.1. Coding system
Система оценки моделирует простой перцепционный кодер, с гребенкой аналитических фильтров, психоакустической моделью [4], квантователем, оценкой перцепционной энтропии [5] и гребенкой синтезирующих фильтров. В двух конкурирующих системах, гребенка фильтров или равномерным MDCT с переключением окон [6] (WS) или неравномерным MDCT с субполосным объединением и (SM) TDAR[1].The scoring system models a simple perceptual encoder, with an analytic filterbank, a psychoacoustic model [4], a quantizer, a perceptual entropy estimator [5], and a synthesis filterbank. In the two competing systems, filter bank or uniform MDCT with window switching [6] (WS) or non-uniform MDCT with subband combining and (SM) TDAR[1].
Релевантные параметры гребенки фильтров (границы переключения окон для равномерного MDCT или коэффициенты объединения и TDAR-границы для неравномерного MDCT) адаптивно и оптимально выбираются с возможностью минимизировать полную оставшуюся энтропию.The relevant filterbank parameters (window switching bounds for uniform MDCT, or pooling factors and TDAR bounds for nonuniform MDCT) are adaptively and optimally chosen to minimize the total remaining entropy.
Дополнительные этапы постобработки или средства кодирования не могут использоваться.Additional post-processing steps or coding tools cannot be used.
2.1.1. Параметры гребенки фильтров2.1.1. Filter Bank Options
Гребенка фильтров переключения окон может использовать MDCT с обычными длинами AAC-кадров: длинные кадры по 1024 выборок или 8 коротких кадров по 128 выборок и соответствующие окна перехода с кодированием со взвешиванием между ними. Косинусоидальное окно может использоваться. Гребенка 120 фильтров субполосного объединения может использовать начальное MDCT длины кадра, например, в 1024 и затем разделять спектр на 8 полос частот коэффициентов объединения (например, 128_1,1, 128_1,2 и т.д.) по 128 коэффициентов. Каждая полоса частот коэффициентов объединения затем может объединяться с MDCT для длины кадра , называемой коэффициентом объединения. Согласно проектированию системы, во время анализа оптимальный вариант выбора в коэффициенте объединения по-прежнему неизвестен, и каждая полоса частот коэффициентов объединения не знает коэффициент объединения ни одного из своих соседних узлов. Таким образом, окна на границах полосы коэффициентов объединения могут выбираться таким образом, что они всегда являются асимметричными и достаточно крутыми для того, чтобы приспосабливать самый крутой соседний коэффициент объединения, см. фиг. 17.The window switching filter bank can use MDCT with conventional AAC frame lengths of 1024-sample long frames or 8 128-sample short frames and appropriate weighted-coded transition windows in between. A cosine window can be used. The subband combining
Подробно, фиг. 17 показывает на схеме оконные функции, используемые для сегментации набора (124_1) элементов разрешения, с тем чтобы получать наборы (или сегменты) (128_1,1, 128_1,2) элементов разрешения. Другими словами, фиг. 16 показывает примерные варианты выбора окон в четырех полосах частот коэффициентов объединения. Крутые окна на границе полосы коэффициентов объединения выделяются черным цветом.In detail, fig. 17 shows in a diagram window functions used to segment a set (124_1) of bins in order to obtain sets (or segments) of (128_1,1, 128_1,2) bins. In other words, FIG. 16 shows exemplary window selections in four bands of combining coefficients. Steep windows at the edge of the band of pooling coefficients are highlighted in black.
Это проектное решение ограничивает полную гибкость гребенки фильтров и вводит неидеальные временные пульсации для этих асимметричных окон [1], но предлагает способ для того, чтобы эффективно и независимо оптимизировать коэффициент объединения для каждой полосы частот коэффициентов объединения.This design decision limits the overall flexibility of the filter bank and introduces non-ideal timing ripple for these asymmetric windows [1], but offers a way to efficiently and independently optimize the combining factor for each band of combining coefficients.
Косинусоидальное окно может использоваться в качестве окна преобразования, и извлеченное методом Кайзера-Бесселя окно с произвольно выбранным β=5,1 может выбираться в качестве окна объединения.The cosine window may be used as the transform window, and a Kaiser-Bessel extracted window with an arbitrary choice of β=5.1 may be selected as the pooling window.
В завершение, размеры шагов квантования могут управляться с использованием действительнозначного параметра q искажения, который мультипликативно понижает или повышает оцененное пороговое значение маскирования из перцепционной модели на постоянный множитель q. После квантования модуль оценки перцепционной энтропии вычисляет теоретическую скорость r передачи битов, которая естественно зависит от q. Для q=1,0, психоакустическая модель прогнозирует прозрачное кодирование вообще без слышимых артефактов для больших значений q>1,0, размер шага квантования увеличивается, скорость r передачи битов падает, и воспринимаемое качество процесса предположительно должно ухудшаться.Finally, quantization step sizes can be controlled using a real-valued distortion parameter q that multiplicatively lowers or raises the estimated masking threshold from the perceptual model by a constant factor q. After quantization, the perceptual entropy estimator calculates the theoretical bit rate r, which naturally depends on q. For q=1.0, the psychoacoustic model predicts transparent encoding with no audible artifacts at all, for large values of q>1.0, the quantization step size increases, the bit rate r drops, and the perceived quality of the process is expected to deteriorate.
2.1.2. Параметрическая оптимизация2.1.2. Parametric optimization
Чтобы выполнять оптимальную настройку параметров, каждый сигнал преобразуется и квантуется с использованием всех возможных комбинаций параметров, и перцепционная энтропия каждого кадра для каждого параметра оценивается. Из числа всех выходных коэффициентов, вычисляется оптимальная комбинация параметров, которая минимизирует полную перцепционную энтропию, и выходной сигнал после этого синтезируется с использованием этих параметров.To perform optimal parameter tuning, each signal is converted and quantized using all possible combinations of parameters, and the perceptual entropy of each frame for each parameter is estimated. From among all the output coefficients, the optimal combination of parameters is calculated that minimizes the total perceptual entropy, and the output signal is then synthesized using these parameters.
Чтобы находить оптимальные параметры гребенки фильтров, каждая полоса частот коэффициентов объединения в каждом кадре (плитка объединения из 128 коэффициентов) квантуется, и ее энтропия вычисляется. Граф всех параметров всех плиток объединения в одной полосе частот коэффициентов объединения затем формирует решетку, в которой весовые коэффициенты каждой вероятности перехода задаются равными энтропии следующей плитки объединения [7].To find the optimal filter bank parameters, each band of pooling coefficients in each frame (a pooling tile of 128 coefficients) is quantized and its entropy is calculated. A graph of all parameters of all pooling tiles in one band of pooling coefficients then forms a lattice in which the weights of each transition probability are set equal to the entropy of the next pooling tile [7].
Как отмечено выше, не все комбинации и переходы параметров должны обеспечивать возможность идеального восстановления во время синтеза, например, при переключении с длинных на короткие кадры, начальное асимметричное окно должно использоваться в промежутке. Аналогичные правила применяются для использования TDAR в неравномерной гребенке фильтров [1]. Чтобы предотвращать эти несанкционированные переходы параметров, вероятности перехода в решетке умножены на маску, которая кодирует все санкционированные и несанкционированные переходы, т.е. 1 для санкционированного и 1 для несанкционированных переходов.As noted above, not all parameter combinations and transitions need to allow for perfect recovery during synthesis, for example, when switching from long to short frames, an initial asymmetric window should be used in between. Similar rules apply for using TDAR in a non-uniform filter bank [1]. To prevent these unauthorized parameter transitions, the transition probabilities in the lattice are multiplied by a mask that encodes all authorized and unauthorized transitions, i.e. 1 for authorized and 1 for unauthorized transitions.
После этого, тракт с минимальными весовыми коэффициентами через решетку вычисляется с использованием динамического программирования, приводя к полному оптимальному тракту параметров в каждой отдельной полосе частот коэффициентов объединения, что также гарантирует идеальное восстановление.Thereafter, the path with the minimum weights through the grating is computed using dynamic programming, resulting in the overall optimal parameter path in each individual band of combining coefficients, which also guarantees perfect recovery.
Этот подход требует нескольких проходов кодирования, очень большого упреждающего просмотра и в силу этого является неподходящим для фактического онлайнового кодера, тем не менее, он гарантирует то, что оба способа осуществляются с максимальной возможной эффективностью в любой момент времени. Для онлайнового кодирования, существуют способы для декодирования таких решетчатых схем с ограничениями по времени задержки [8].This approach requires multiple encoding passes, a very large look-ahead, and is therefore unsuitable for an actual online encoder, however, it ensures that both methods are performed at the highest possible efficiency at any given time. For online coding, there are ways to decode such trellis schemes with time delay constraints [8].
Кроме того, система предполагает простую и несжатую передачу необходимой вспомогательной информации: Для переключения окон, 1 бит использован для каждого кадра, с тем чтобы передавать в служебных сигналах длинные и короткие блоки . Для субполосного объединения, 29 битов использованы в расчете на кадр, с тем чтобы передавать в служебных сигналах коэффициент объединения и TDAR-флаг (8 полос частот коэффициентов объединения с 6 коэффициентами объединения и 2 TDAR-значениями каждая, ). Коэффициенты масштабирования или пороговые значения маскирования известны на стороне декодера.In addition, the system assumes a simple and uncompressed transmission of the necessary ancillary information: For window switching, 1 bit is used for each frame in order to signal long and short blocks . For subband combining, 29 bits are used per frame to signal the combining factor and TDAR flag (8 combining factor bands with 6 combining factors and 2 TDAR values each, ). The scaling factors or masking thresholds are known at the decoder side.
2.2. Общие наблюдения2.2. General Observations
При простом выполнении процесса кодирования/декодирования, можно наблюдать следующие свойства:By simply performing the encoding/decoding process, the following properties can be observed:
В двух-трех самых высоких полосах частот коэффициентов объединения, в диапазоне 15-24 кГц, кодер почти всегда выбирает коэффициент объединения в 1, отключая объединение. В средней секции, полосах 2-5 частот коэффициентов объединения или частотном диапазоне между 3-15 кГц, кодер главным образом выбирает коэффициент объединения в 1 или в 32. В более низкой полосе частот коэффициентов объединения, в диапазоне 0-3 кГц, кодер главным образом выбирает коэффициенты объединения в 1 и 2. Коэффициенты объединения в 4, 8 и 16 редко выбираются. См. фиг. 18.In the two to three highest bands of combining factors, in the range of 15-24 kHz, the encoder almost always selects a combining factor of 1, turning off the combining. In the middle section, bands 2-5 of the combining coefficients or the frequency range between 3-15 kHz, the encoder mainly selects the combining coefficient at 1 or at 32. In the lower frequency band of the combining coefficients, in the range of 0-3 kHz, the encoder mainly selects pooling factors at 1 and 2. Pooling factors at 4, 8, and 16 are rarely chosen. See fig. eighteen.
Подробно, фиг. 18 показывает на схемах распределения вариантов выбора коэффициента объединения (MF) и уменьшения наложения спектров во временной области (TDAR), выполненных посредством кодера.In detail, fig. 18 shows distribution diagrams of the combination factor (MF) and time domain alias reduction (TDAR) selections made by the encoder.
Это наблюдение согласуется с базовыми допущениями в отношении слуховой системы: вследствие высоких частот, имеющих очень высокое пороговое значение в тишине, фактически почти все квантуется до нуля, что делает выбор коэффициента объединения нерелевантным. На средних частотах, слуховая система имеет высокое временное разрешение, в то время как на нижних частотах человеческое ухо имеет более высокое частотное разрешение.This observation is consistent with basic assumptions about the auditory system: due to high frequencies having a very high threshold in silence, almost everything is in fact quantized to zero, making the choice of pooling factor irrelevant. At mid frequencies, the auditory system has a high temporal resolution, while at lower frequencies the human ear has a higher frequency resolution.
Во-вторых, следует отметить, что для любого выбранного параметра q искажения, соответствующая скорость передачи битов гребенки фильтров субполосного объединения ниже скорости передачи битов гребенки фильтров переключения окон. В среднем, неравномерная система требует на 5-13% меньшего числа битов в расчете на выборку для того, чтобы кодировать сигналы, см. фиг. 19.Second, it should be noted that for any chosen distortion parameter q, the corresponding subband combining filter bank bit rate is lower than the window switching filter bank bit rate. On average, a non-uniform system requires 5-13% fewer bits per sample in order to encode signals, see FIG. 19.
Подробно, фиг. 19 показывает на схемах средние скорости передачи битов двух систем для различных параметров q искажения для 39 тестовых элементов.In detail, fig. 19 shows in diagrams the average bit rates of the two systems for different distortion parameters q for 39 test elements.
2.3. Тестовая компоновка на основе прослушивания2.3. Test layout based on listening
Рассматриваются три различных настройки качества при различных коэффициентах размера шага квантователя и в силу этого средних скоростях передачи битов: прозрачное (HQ), немного ухудшенное (MQ) и умеренно ухудшенное (LQ), см. таблицу 1 на фиг. 20.Three different quality settings are considered at different quantizer step size factors and therefore average bit rates: transparent (HQ), slightly degraded (MQ), and moderately degraded (LQ), see Table 1 in FIG. twenty.
Подробно, таблица 1 на фиг. 20 перечисляет настройки качества и их параметр q искажения и результирующую среднюю скорость передачи битов.In detail, Table 1 in FIG. 20 lists the quality settings and their distortion parameter q and the resulting average bit rate.
Согласно проектированию перцепционной модели, для HQ слышимые артефакты не ожидаются [4]. Кроме того, фактически, в ходе мелкомасштабных ABC/HR-тестов (ITU-R BS.1116-3) [9] на основе прослушивания, слушатели-эксперты не могут выявлять существенные различия между ни одним способом и опорным сигналом. Поскольку маловероятно, что проведение такого теста на основе прослушивания должно обнаруживать какие-либо значимые результаты, он пропущен в пользу двух оставшихся настроек MQ и LQ качества.According to perceptual model design, audible artifacts are not expected for HQ [4]. In addition, in fact, in small-scale listening-based ABC/HR tests (ITU-R BS.1116-3) [9], expert listeners cannot detect significant differences between either method and the reference signal. Since it is unlikely that such a listening-based test would reveal any meaningful results, it is omitted in favor of the two remaining quality settings MQ and LQ.
Для MQ и LQ, параметр q искажения системы с гребенкой фильтров переключения окон выбирается таким образом, что его выходная скорость передачи битов совпадает с выходной скоростью передачи битов параметра q искажения гребенки фильтров субполосного объединения, что означает то, что параметр q искажения для гребенки фильтров субполосного объединения ниже, чем для гребенки фильтров переключения окон. Из этого следует, что при неравномерной гребенке фильтров более высокое воспринимаемое качество может достигаться при обеспечении скорости передачи битов, идентичной скорости передачи битов гребенки фильтров переключения окон. Чтобы тестировать это, проведен тест на основе прослушивания с использованием способа теста при использовании нескольких управляющих воздействий со скрытым опорным и привязочным сигналом (MUSHRA, ITU-R BS.1534-3) [10].For MQ and LQ, the distortion parameter q of the window switching filterbank system is chosen such that its output bit rate is the same as the output bit rate of the distortion parameter q of the subband combining filterbank, which means that the distortion parameter q for the subband filterbank pooling is lower than for the window switching filter bank. It follows that with a non-uniform filter bank, higher perceived quality can be achieved by providing a bit rate identical to the bit rate of the window switching filter bank. To test this, a listening-based test was performed using the multi-stimulus test method with hidden reference and anchor signal (MUSHRA, ITU-R BS.1534-3) [10].
2.4. Корпус тестовых сигналов2.4. Body of test signals
Тестовые сигналы для этой оценки извлечены из тестового набора, широко используемого для разработки и настройки аудиокодеров. Он содержит мужскую и женскую речь и несколько музыкальных записей, содержащих гармонические и перкуссионные звуки. Все условия заключаются в громкости, нормализованной с использованием ITU-R BS.1770-4 [11]. См. таблицу 2 на фиг. 21. Подробно, таблица 2 на фиг. 21 перечисляет различные тестовые элементы.The test signals for this evaluation are derived from a test suite widely used for developing and tuning audio encoders. It contains male and female speech and several musical recordings containing harmonic and percussive sounds. All conditions are loudness normalized using ITU-R BS.1770-4 [11]. See Table 2 in FIG. 21. In detail, Table 2 in FIG. 21 lists various test elements.
2.5. Результаты тестирования на основе прослушивания2.5. Listening Test Results
В общей сложности N=16 слушателей-экспертов приняли участие в тесте.A total of N=16 expert listeners took part in the test.
Во-первых, тест Шапиро-Вилка использован для того, чтобы тестировать попарные разности в количественных MUSHRA-показателях между двумя способами на предмет нормальности. Для LQ и MQ, разности являются существенно ненормальными, см. таблицу 3 на фиг. 22 и фиг. 4 на фиг. 23.First, the Shapiro-Wilk test is used to test pairwise differences in MUSHRA scores between the two methods for normality. For LQ and MQ, the differences are substantially non-normal, see Table 3 in FIG. 22 and FIG. 4 in FIG. 23.
Подробно, таблица 3 на фиг. 22 перечисляет результаты теста Шапиро-Вилка на предмет нормальности для попарных разностей количественных MUSHRA-показателей между гребенкой фильтров переключения окон (WS) и гребенкой фильтров субполосного объединения (SM) при немного ухудшенных (MQ) и умеренно ухудшенных (LQ) настройках качества. W обозначает статистическую W-величину, p обозначает p-значение.In detail, Table 3 in FIG. 22 lists the results of the Shapiro-Wilk normality test for pairwise MUSHRA score differences between a window switching (WS) filter bank and a subband combining (SM) filter bank at slightly degraded (MQ) and moderately degraded (LQ) quality settings. W denotes the statistical W-value, p denotes the p-value.
Следовательно, параметрический знаковый ранговый тест Уилкоксона использован вместо параметрического спаренного t-теста при всех условиях. Обобщенные результаты всех тестов приведены в таблице 4 на фиг. 24.Therefore, Wilcoxon's parametric signed-rank test is used instead of the parametric paired t-test under all conditions. The summarized results of all tests are shown in Table 4 in FIG. 24.
Подробно, таблица 4 на фиг. 24 перечисляет результаты по среднему значению, среднеквадратическому отклонению (SD) и на основе знакового рангового теста Уилкоксона для количественных MUSHRA-показателей, сравнивающих гребенку фильтров переключения окон (WS) и гребенку фильтров субполосного объединения (SM) при немного ухудшенных (MQ) и умеренно ухудшенных (LQ) настройках качества. W обозначает статистическую W-величину, p обозначает p-значение.In detail, Table 4 in FIG. 24 lists results by mean, standard deviation (SD), and Wilcoxon signed-rank test for quantitative MUSHRA scores comparing window switching (WS) filterbank and subband merging (SM) filterbank at slightly degraded (MQ) and moderately degraded (LQ) quality settings. W denotes the statistical W-value, p denotes the p-value.
Знаковый ранговый тест Уилкоксона проведен, чтобы сравнивать перцепционное качество двух систем при MQ. Возникает значительная разность в количественных MUSHRA-показателях для гребенки фильтров переключения окон и гребенки фильтров субполосного объединения, p=0,000.The Wilcoxon sign-rank test was performed to compare the perceptual quality of the two systems at MQ. There is a significant difference in the MUSHRA scores for the window switching filter bank and the subband combining filter bank, p=0.000.
Во-вторых, знаковый ранговый тест Уилкоксона проведен, чтобы сравнивать перцепционное качество двух систем при настройке LQ качества. Возникает значительная разность в количественных MUSHRA-показателях для гребенки фильтров переключения окон и гребенки фильтров субполосного объединения, p=0,000.Second, the Wilcoxon sign-rank test was performed to compare the perceptual quality of the two systems at the LQ quality setting. There is a significant difference in the MUSHRA scores for the window switching filter bank and the subband combining filter bank, p=0.000.
Фиг. 25 показывает на схемах средние и 95%-ые доверительные интервалы разностей количественных MUSHRA-показателей для отдельных элементов, гребенки фильтров переключения окон и гребенки фильтров субполосного объединения при немного ухудшенных (MQ) и умеренно ухудшенных (LQ) настройках качества. Положительные значения предпочитают субполосное объединение по сравнению с переключением окон.Fig. 25 diagrammatically shows the mean and 95% confidence intervals of individual element MUSHRA score differences, window switching filterbanks, and subband combining filterbanks at slightly degraded (MQ) and moderately degraded (LQ) quality settings. Positive values favor sub-band combining over window switching.
2.6. Дополнительные варианты осуществления2.6. Additional Embodiments
Варианты осуществления предоставляют способ использования неравномерной ортогональной гребенки фильтров на основе MDCT-анализа/синтеза и TDAR в простом аудиокодере. Выше, его эффективность кодирования сравнивается с равномерной гребенкой MDCT-фильтров переключения окон. В среднем, неравномерная требует на 5-13% меньшего числа битов в расчете на выборку для того, чтобы кодировать тестовые сигналы. Эта дополнительная эффективность кодирования может использоваться для того, чтобы повышать воспринимаемое качество кодера при идентичной выходной скорости передачи битов.Embodiments provide a way to use non-uniform orthogonal filterbank based on MDCT analysis/synthesis and TDAR in a simple audio encoder. Above, its coding efficiency is compared to a uniform bank of MDCT window switching filters. On average, ripple requires 5-13% fewer bits per sample in order to encode test signals. This additional coding gain can be used to improve the perceived quality of the encoder at the same output bit rate.
В вышеописанном тесте, повышенное воспринимаемое качество в 6-7 MUSHRA-баллов выявлено с использованием MUSHRA-теста на основе прослушивания и последующего статистического анализа. Обнаружено, что разность в воспринимаемом качестве является статистически значительной.In the test described above, an increased perceived quality of 6-7 MUSHRA scores was identified using the MUSHRA listening-based test and subsequent statistical analysis. The difference in perceived quality was found to be statistically significant.
Фиг. 26 показывает блок-схему последовательности операций способа 500 для обработки аудиосигнала, с тем чтобы получать субполосное представление аудиосигнала, согласно варианту осуществления настоящего изобретения. Способ 500 содержит этап 502 выполнения каскадного перекрывающегося критически дискретизированного преобразования, по меньшей мере, для двух частично перекрывающихся блоков выборок аудиосигнала, с тем чтобы получать набор субполосных выборок на основе первого блока выборок аудиосигнала и получать соответствующий набор субполосных выборок на основе второго блока выборок аудиосигнала. Способ 500 дополнительно содержит этап 504 выполнения комбинирования со взвешиванием двух соответствующих наборов субполосных выборок, причем один из них получен на основе первого блока выборок аудиосигнала, а другой получен на основе второго блока выборок аудиосигнала, с тем чтобы получать субполосное представление с уменьшенным наложением спектров аудиосигнала; при этом выполнение каскадного перекрывающегося критически дискретизированного преобразования содержит сегментацию набора элементов разрешения, полученного на основе первого блока выборок, с использованием, по меньшей мере, двух оконных функций, с тем чтобы получать, по меньшей мере, два сегментированных набора элементов разрешения на основе сегментированного набора элементов разрешения, соответствующего первому блоку выборок; при этом выполнение каскадного перекрывающегося критически дискретизированного преобразования содержит сегментацию набора элементов разрешения, полученного на основе второго блока выборок, с использованием, по меньшей мере, двух оконных функций, с тем чтобы получать, по меньшей мере, два набора элементов разрешения на основе сегментированного набора элементов разрешения, соответствующего второму блоку выборок; и при этом наборы элементов разрешения обрабатываются с использованием второго перекрывающегося критически дискретизированного преобразования из каскадного перекрывающегося критически дискретизированного преобразования, при этом второе перекрывающееся критически дискретизированное преобразование содержит выполнение перекрывающихся критически дискретизированных преобразований, имеющих идентичную длину кадра, по меньшей мере, для одного набора элементов разрешения.Fig. 26 shows a flowchart of a
Фиг. 27 показывает блок-схему последовательности операций способа 600 для способа для обработки субполосного представления аудиосигнала, с тем чтобы получать аудиосигнал, согласно варианту осуществления настоящего изобретения. Способ 600 содержит этап 602 выполнения комбинирования со взвешиванием двух соответствующих субполосных представлений с уменьшенным наложением спектров аудиосигнала, с тем чтобы получать субполосное представление с наложением спектров, при этом субполосное представление с наложением спектров представляет собой набор субполосных выборок. Дополнительно, способ 600 содержит этап 604 выполнения каскадного обратного перекрывающегося критически дискретизированного преобразования для набора субполосных выборок, с тем чтобы получать набор выборок, ассоциированных с блоком выборок аудиосигнала, при этом выполнение каскадного обратного перекрывающегося критически дискретизированного преобразования содержит выполнение первого обратного перекрывающегося критически дискретизированного преобразования для набора субполосных выборок, с тем чтобы получать набор элементов разрешения, ассоциированный с данной субполосой частот аудиосигнала, при этом выполнение первого обратного перекрывающегося критически дискретизированного преобразования содержит выполнение обратных перекрывающихся критически дискретизированных преобразований, имеющих идентичную длину кадра для набора субполосных выборок.Fig. 27 shows a
Далее описываются дополнительные варианты осуществления. В силу этого, нижеприведенные варианты осуществления могут комбинироваться с вышеуказанными вариантами осуществления.The following describes further embodiments. Because of this, the following embodiments can be combined with the above embodiments.
Вариант 1 осуществления: Аудиопроцессор (100) для обработки аудиосигнала (102), с тем чтобы получать субполосное представление аудиосигнала (102), причем аудиопроцессор (100) содержит: каскад (104) каскадного перекрывающегося критически дискретизированного преобразования, выполненный с возможностью выполнять каскадное перекрывающееся критически дискретизированное преобразование, по меньшей мере, для двух частично перекрывающихся блоков (108_1; 108_2) выборок аудиосигнала (102), с тем чтобы получать набор (110_1,1) субполосных выборок на основе первого блока (108_1) выборок аудиосигнала (102) и получать соответствующий набор (110_2,1) субполосных выборок на основе второго блока (108_2) выборок аудиосигнала (102); и каскад (106) уменьшения наложения спектров во временной области, выполненный с возможностью выполнять комбинирование со взвешиванием двух соответствующих наборов (110_1,1; 110_1,2) субполосных выборок, причем один из них получен на основе первого блока (108_1) выборок аудиосигнала (102), а другой получен на основе второго блока (108_2) выборок аудиосигнала, с тем чтобы получать субполосное представление (112_1) с уменьшенным наложением спектров аудиосигнала (102).Embodiment 1: An audio processor (100) for processing an audio signal (102) so as to obtain a subband representation of an audio signal (102), wherein the audio processor (100) comprises: sampled transform for at least two partially overlapping blocks (108_1; 108_2) of audio samples (102) so as to obtain a set (110_1,1) of sub-band samples based on the first block (108_1) of audio samples (102) and obtain the corresponding a set (110_2,1) of sub-band samples based on a second block (108_2) of audio samples (102); and a time-domain aliasing reduction stage (106) configured to weight-combine two respective sets (110_1.1; 110_1.2) of subband samples, one of which is obtained based on the first block (108_1) of audio signal samples (102 ) and the other is obtained based on the second block (108_2) of audio samples so as to obtain a sub-band representation (112_1) with reduced aliasing of the audio signal (102).
Вариант 2 осуществления: Аудиопроцессор (100) согласно варианту 1 осуществления, в котором каскад (104) каскадного перекрывающегося критически дискретизированного преобразования содержит: первый каскад (120) перекрывающегося критически дискретизированного преобразования, выполненный с возможностью выполнять перекрывающиеся критически дискретизированные преобразования для первого блока (108_1) выборок и второго блока (108_2) выборок, по меньшей мере, из двух частично перекрывающихся блоков (108_1; 108_2) выборок аудиосигнала (102), с тем чтобы получать первый набор (124_1) элементов разрешения для первого блока (108_1) выборок и второй набор (124_2) элементов разрешения для второго блока (108_2) выборок.Embodiment 2: The audio processor (100) according to
Вариант 3 осуществления: Аудиопроцессор (100) согласно варианту 2 осуществления, в котором каскад (104) каскадного перекрывающегося критически дискретизированного преобразования дополнительно содержит: второй каскад (126) перекрывающегося критически дискретизированного преобразования, выполненный с возможностью выполнять перекрывающееся критически дискретизированное преобразование для сегмента (128_1,1) первого набора (124_1) элементов разрешения и выполнять перекрывающееся критически дискретизированное преобразование для сегмента (128_2,1) второго набора (124_2) элементов разрешения, причем каждый сегмент ассоциирован с субполосой частот аудиосигнала (102), с тем чтобы получать набор (110_1,1) субполосных выборок для первого набора элементов разрешения и набор (110_2,1) субполосных выборок для второго набора элементов разрешения.Embodiment 3: The audio processor (100) according to
Вариант 4 осуществления: Аудиопроцессор (100) согласно варианту 3 осуществления, в котором первый набор (110_1,1) субполосных выборок представляет собой результат первого перекрывающегося критически дискретизированного преобразования (132_1,1) на основе первого сегмента (128_1,1) первого набора (124_1) элементов разрешения, при этом второй набор (110_1,2) субполосных выборок представляет собой результат второго перекрывающегося критически дискретизированного преобразования (132_1,2) на основе второго сегмента (128_1,2) первого набора (124_1) элементов разрешения, при этом третий набор (110_2,1) субполосных выборок представляет собой результат третьего перекрывающегося критически дискретизированного преобразования (132_2,1) на основе первого сегмента (128_2,1) второго набора (128_2,1) элементов разрешения, при этом четвертый набор (110_2,2) субполосных выборок представляет собой результат четвертого перекрывающегося критически дискретизированного преобразования (132_2,2) на основе второго сегмента (128_2,2) второго набора (128_2,1) элементов разрешения; и при этом каскад (106) уменьшения наложения спектров во временной области выполнен с возможностью выполнять комбинирование со взвешиванием первого набора (110_1,1) субполосных выборок и третьего набора (110_2,1) субполосных выборок, с тем чтобы получать первое субполосное представление (112_1) с уменьшенным наложением спектров аудиосигнала, при этом каскад (106) уменьшения наложения спектров во временной области выполнен с возможностью выполнять комбинирование со взвешиванием второго набора (110_1,2) субполосных выборок и четвертого набора (110_2,2) субполосных выборок, с тем чтобы получать второе субполосное представление (112_2) с уменьшенным наложением спектров аудиосигнала.Embodiment 4: The audio processor (100) according to Embodiment 3, wherein the first set (110_1,1) of subband samples is the result of the first overlapped critically sampled transform (132_1,1) based on the first segment (128_1,1) of the first set (124_1) ) bins, wherein the second set (110_1,2) subband samples is the result of the second overlapping critically sampled transform (132_1,2) based on the second segment (128_1,2) of the first set (124_1) bins, while the third set ( 110_2,1) subband samples is the result of a third overlapping critically sampled transform (132_2,1) based on the first segment (128_2,1) of the second set (128_2,1) bins, with the fourth set (110_2,2) subband samples representing is the result of the fourth overlapping critically sampled transform (132_2,2) based on the second the th segment (128_2.2) of the second set (128_2.1) of bins; and wherein the time domain aliasing reduction stage (106) is configured to weight-combine the first set (110_1,1) subband samples and the third set (110_2,1) subband samples to obtain the first subband representation (112_1) with reduced aliasing of the audio signal, wherein the time domain aliasing reduction stage (106) is configured to weight-combine the second set (110_1,2) subband samples and the fourth set (110_2.2) subband samples to obtain a second subband representation (112_2) with reduced aliasing of the audio signal.
Вариант 5 осуществления: Аудиопроцессор (100) согласно одному из вариантов 1-4 осуществления, в котором каскад (104) каскадного перекрывающегося критически дискретизированного преобразования выполнен с возможностью сегментировать набор (124_1) элементов разрешения, полученный на основе первого блока (108_1) выборок, с использованием, по меньшей мере, двух оконных функций и получать, по меньшей мере, два сегментированных набора (128_1,1; 128_1,2) субполосных выборок на основе сегментированного набора элементов разрешения, соответствующего первому блоку (108_1) выборок; при этом каскад (104) каскадного перекрывающегося критически дискретизированного преобразования выполнен с возможностью сегментировать набор (124_2) элементов разрешения, полученный на основе второго блока (108_2) выборок, с использованием, по меньшей мере, двух оконных функций, с тем чтобы получать, по меньшей мере, два сегментированных набора (128_2,1; 128_2,2) субполосных выборок на основе сегментированного набора элементов разрешения, соответствующего второму блоку (108_2) выборок; и при этом, по меньшей мере, две оконные функции содержат различную ширину окна.Embodiment 5: An audio processor (100) according to one of embodiments 1-4, wherein the cascaded overlapping critically sampled transform stage (104) is configured to segment the bin set (124_1) obtained from the first block (108_1) of samples, with using at least two window functions and obtain at least two segmented sets (128_1,1; 128_1,2) subband samples based on the segmented set of bins corresponding to the first block (108_1) samples; wherein the cascaded overlapped critically sampled transform stage (104) is configured to segment the set (124_2) of bins obtained from the second block (108_2) of samples using at least two window functions so as to obtain at least at least two segmented sets (128_2.1; 128_2.2) of sub-band samples based on the segmented set of bins corresponding to the second block (108_2) of samples; and wherein the at least two window functions comprise different window widths.
Вариант 6 осуществления: Аудиопроцессор (100) согласно одному из вариантов 1-5 осуществления, в котором каскад (104) каскадного перекрывающегося критически дискретизированного преобразования выполнен с возможностью сегментировать набор (124_1) элементов разрешения, полученный на основе первого блока (108_1) выборок, с использованием, по меньшей мере, двух оконных функций и получать, по меньшей мере, два сегментированных набора (128_1,1; 128_1,2) субполосных выборок на основе сегментированного набора элементов разрешения, соответствующего первому блоку (108_1) выборок; при этом каскад (104) каскадного перекрывающегося критически дискретизированного преобразования выполнен с возможностью сегментировать набор (124_2) элементов разрешения, полученный на основе второго блока (108_2) выборок, с использованием, по меньшей мере, двух оконных функций, с тем чтобы получать, по меньшей мере, два набора (128_2,1; 128_2,2) субполосных выборок на основе сегментированного набора элементов разрешения, соответствующего второму блоку (108_2) выборок; и при этом наклоны фильтра оконных функций, соответствующих смежным наборам субполосных выборок, являются симметричными.Embodiment 6: An audio processor (100) according to one of embodiments 1-5, wherein the cascaded overlapped critically sampled transform stage (104) is configured to segment the bin set (124_1) obtained from the first block (108_1) of samples, with using at least two window functions and obtain at least two segmented sets (128_1,1; 128_1,2) subband samples based on the segmented set of bins corresponding to the first block (108_1) samples; wherein the cascaded overlapped critically sampled transform stage (104) is configured to segment the set (124_2) of bins obtained from the second block (108_2) of samples using at least two window functions so as to obtain at least at least two sets (128_2.1; 128_2.2) of sub-band samples based on the segmented bin set corresponding to the second block (108_2) of samples; and the filter slopes of the window functions corresponding to adjacent sets of subband samples are symmetrical.
Вариант 7 осуществления: Аудиопроцессор (100) согласно одному из вариантов 1-6 осуществления, в котором каскад (104) каскадного перекрывающегося критически дискретизированного преобразования выполнен с возможностью сегментировать выборки аудиосигнала на первый блок (108_1) выборок и второй блок (108_2) выборок с использованием первой оконной функции; при этом каскад перекрывающегося критически дискретизированного преобразования (104) выполнен с возможностью сегментировать набор (124_1) элементов разрешения, полученный на основе первого блока (108_1) выборок, и набор (124_2) элементов разрешения, полученный на основе второго блока (108_2) выборок, с использованием второй оконной функции, с тем чтобы получать соответствующие субполосные выборки; и при этом первая оконная функция и вторая оконная функция содержат различную ширину окна.Embodiment 7: An audio processor (100) according to one of embodiments 1-6, wherein the cascaded overlapped critically sampled transform stage (104) is configured to segment audio samples into a first block (108_1) of samples and a second block (108_2) of samples using first window function; wherein the overlapping critically sampled transform stage (104) is configured to segment the bin set (124_1) obtained from the first block (108_1) of samples and the bin set (124_2) obtained from the second block (108_2) of samples, with using a second window function so as to obtain the corresponding subband samples; and wherein the first window function and the second window function comprise a different window width.
Вариант 8 осуществления: Аудиопроцессор (100) согласно одному из вариантов 1-6 осуществления, в котором каскад (104) каскадного перекрывающегося критически дискретизированного преобразования выполнен с возможностью сегментировать выборки аудиосигнала на первый блок (108_1) выборок и второй блок (108_2) выборок с использованием первой оконной функции; при этом каскад (104) каскадного перекрывающегося критически дискретизированного преобразования выполнен с возможностью сегментировать набор (124_1) элементов разрешения, полученный на основе первого блока (108_1) выборок, и набор (124_2) элементов разрешения, полученный на основе второго блока (108_2) выборок, с использованием второй оконной функции, с тем чтобы получать соответствующие субполосные выборки; и при этом ширина окна первой оконной функции и ширина окна второй оконной функции отличаются друг от друга, при этом ширина окна первой оконной функции и ширина окна второй оконной функции отличаются друг от друга на коэффициент, отличающийся от степени двух.Embodiment 8: An audio processor (100) according to one of embodiments 1-6, wherein the cascaded overlapped critically sampled transform stage (104) is configured to segment audio samples into a first block (108_1) of samples and a second block (108_2) of samples using first window function; wherein the cascade (104) of the cascaded overlapping critically sampled transform is configured to segment the set (124_1) of bins obtained from the first block (108_1) of samples and the set (124_2) of bins obtained from the second block (108_2) of samples, using a second window function so as to obtain the corresponding subband samples; and wherein the window width of the first window function and the window width of the second window function differ from each other, wherein the window width of the first window function and the window width of the second window function differ from each other by a factor other than a power of two.
Вариант 9 осуществления: Аудиопроцессор (100) согласно одному из вариантов 1-8 осуществления, в котором каскад (106) уменьшения наложения спектров во временной области выполнен с возможностью выполнять комбинирование со взвешиванием двух соответствующих наборов субполосных выборок согласно следующему уравнению:Embodiment 9: An audio processor (100) according to one of Embodiments 1-8, wherein the time-domain de-aliasing stage (106) is configured to weight-combine two respective sets of subband samples according to the following equation:
для с:for With:
с тем чтобы получать субполосное представление с уменьшенным наложением спектров аудиосигнала, при этом yv, i(m) представляет собой первое субполосное представление с уменьшенным наложением спектров аудиосигнала, yv, i-1(N-1-m) представляет собой второе субполосное представление с уменьшенным наложением спектров аудиосигнала, ŷv, i(m) представляет собой набор субполосных выборок на основе второго блока выборок аудиосигнала, ŷv, i-1(N-1-m) представляет собой набор субполосных выборок на основе первого блока выборок аудиосигнала, av(m) представляет собой ..., bv(m) представляет собой..., cv(m) представляет собой ..., и dv(m) представляет собой....so as to obtain a sub-band audio de-aliasing representation, wherein y v, i (m) is the first sub-band audio de-aliasing representation, y v, i-1 (N-1-m) is the second sub-band representation with reduced audio aliasing, ŷ v, i (m) is a set of sub-band samples based on the second block of audio samples, ŷ v, i-1 (N-1-m) is a set of sub-band samples based on the first block of audio samples, a v (m) is ..., b v (m) is ..., c v (m) is ..., and d v (m) is ....
Вариант 10 осуществления: Аудиопроцессор (200) для обработки субполосного представления аудиосигнала, с тем чтобы получать аудиосигнал (102), причем аудиопроцессор (200) содержит: каскад (202) обратного уменьшения наложения спектров во временной области, выполненный с возможностью выполнять комбинирование со взвешиванием двух соответствующих субполосных представлений с уменьшенным наложением спектров аудиосигнала (102), с тем чтобы получать субполосное представление с наложением спектров, при этом субполосное представление с наложением спектров представляет собой набор (110_1,1) субполосных выборок; и каскад (204) каскадного обратного перекрывающегося критически дискретизированного преобразования, выполненный с возможностью выполнять каскадное обратное перекрывающееся критически дискретизированное преобразование для набора (110_1,1) субполосных выборок, с тем чтобы получать набор (206_1,1) выборок, ассоциированных с блоком выборок аудиосигнала (102).Embodiment 10: An audio processor (200) for processing a subband representation of an audio signal so as to obtain an audio signal (102), wherein the audio processor (200) comprises: a time-domain de-aliasing stage (202) configured to perform two-weighted combining corresponding sub-band aliased representations of the audio signal (102) to obtain a sub-band aliasing representation, the sub-band aliasing being a set of (110_1,1) sub-band samples; and a cascaded critically sampled inverse transform stage (204) configured to perform a cascaded critically sampled inverse lapped transform on a set of (110_1,1) subband samples to obtain a set of (206_1,1) samples associated with a block of audio signal samples ( 102).
Вариант 11 осуществления: Аудиопроцессор (200) согласно варианту 10 осуществления, в котором каскад (204) каскадного обратного перекрывающегося критически дискретизированного преобразования содержит первый каскад (208) обратного перекрывающегося критически дискретизированного преобразования, выполненный с возможностью выполнять обратное перекрывающееся критически дискретизированное преобразование для набора (110_1,1) субполосных выборок, с тем чтобы получать набор (128_1,1) элементов разрешения, ассоциированный с данной субполосой частот аудиосигнала; и первый каскад (210) суммирования с перекрытием, выполненный с возможностью выполнять конкатенацию наборов элементов разрешения, ассоциированных с множеством субполос частот аудиосигнала, что содержит комбинирование со взвешиванием набора (128_1,1) элементов разрешения, ассоциированных с данной субполосой частот аудиосигнала (102), с набором (128_1,2) элементов разрешения, ассоциированных с другой субполосой частот аудиосигнала (102), с тем чтобы получать набор (124_1) элементов разрешения, ассоциированных с блоком выборок аудиосигнала (102).Embodiment 11: The audio processor (200) according to
Вариант 12 осуществления: Аудиопроцессор (200) согласно варианту 11 осуществления, в котором каскад (204) каскадного обратного перекрывающегося критически дискретизированного преобразования содержит второй каскад (212) обратного перекрывающегося критически дискретизированного преобразования, выполненный с возможностью выполнять обратное перекрывающееся критически дискретизированное преобразование для набора (124_1) элементов разрешения, ассоциированных с блоком выборок аудиосигнала (102), с тем чтобы получать набор выборок, ассоциированных с блоком выборок аудиосигнала (102).Embodiment 12: The audio processor (200) according to Embodiment 11, wherein the cascaded inverse overlapped critically sampled transform stage (204) comprises a second inverse overlapped critically sampled transform stage (212) configured to perform an inverse overlapped critically sampled transform for the set (124_1 ) bins associated with the block of audio samples (102) so as to obtain a set of samples associated with the block of audio samples (102).
Вариант 13 осуществления: Аудиопроцессор (200) согласно варианту 12 осуществления, в котором каскад (204) каскадного обратного перекрывающегося критически дискретизированного преобразования содержит второй каскад (214) суммирования с перекрытием, выполненный с возможностью суммировать с перекрытием набор (206_1,1) выборок, ассоциированных с блоком выборок аудиосигнала (102), и другой набор (206_2,1) выборок, ассоциированных с другим блоком выборок аудиосигнала (102), причем блок выборок и другой блок выборок аудиосигнала (102) частично перекрываются, с тем чтобы получать аудиосигнал (102).Embodiment 13: The audio processor (200) according to embodiment 12, wherein the cascaded inverse overlap critically sampled transform stage (204) comprises a second overlap summation stage (214) configured to overlap add a set (206_1,1) of samples associated with a block of audio samples (102), and another set (206_2,1) of samples associated with another block of audio samples (102), wherein the block of samples and the other block of audio samples (102) partially overlap so as to obtain an audio signal (102) .
Вариант 14 осуществления: Аудиопроцессор (200) согласно одному из вариантов 10-13 осуществления, в котором каскад (202) обратного уменьшения наложения спектров во временной области выполнен с возможностью выполнять комбинирование со взвешиванием двух соответствующих субполосных представлений с уменьшенным наложением спектров аудиосигнала (102) на основе следующего уравнения:Embodiment 14: An audio processor (200) according to one of embodiments 10-13, wherein the inverse time domain de-aliasing stage (202) is configured to weight-combine two respective subband de-aliased representations of the audio signal (102) on based on the following equation:
для с:for With:
с тем чтобы получать субполосное представление с наложением спектров, при этом yv, i(m) представляет собой первое субполосное представление с уменьшенным наложением спектров аудиосигнала, yv, i-1(N-1-m) представляет собой второе субполосное представление с уменьшенным наложением спектров аудиосигнала, ŷv, i(m) представляет собой набор субполосных выборок на основе второго блока выборок аудиосигнала, ŷv, i-1(N-1-m) представляет собой набор субполосных выборок на основе первого блока выборок аудиосигнала, av(m) представляет собой ..., bv(m) представляет собой ..., cv(m) представляет собой ..., и dv(m) представляет собой ....so as to obtain a sub-band aliasing representation, wherein y v, i (m) is the first sub-band representation with reduced aliasing of the audio signal, y v, i-1 (N-1-m) is the second sub-band representation with reduced audio signal aliasing, ŷ v, i (m) is a set of sub-band samples based on the second block of audio samples, ŷ v, i-1 (N-1-m) is a set of sub-band samples based on the first block of audio samples, a v (m) is ..., b v (m) is ..., c v (m) is ..., and d v (m) is ....
Вариант 15 осуществления: Аудиокодер, содержащий: аудиопроцессор (100) согласно одному из вариантов 1-9 осуществления; кодер, выполненный с возможностью кодировать субполосное представление с уменьшенным наложением спектров аудиосигнала, с тем чтобы получать кодированное субполосное представление с уменьшенным наложением спектров аудиосигнала; и модуль формирования потоков битов, выполненный с возможностью формировать поток битов из кодированного субполосного представления с уменьшенным наложением спектров аудиосигнала.Embodiment 15: An audio encoder comprising: an audio processor (100) according to one of embodiments 1-9; an encoder configured to encode a sub-band de-aliased representation of the audio signal so as to obtain a de-aliased sub-band encoded representation of the audio signal; and a bitstream generator configured to generate a bitstream from the encoded subband dealiased representation of the audio signal.
Вариант 16 осуществления: Аудиодекодер, содержащий: синтаксический анализатор потоков битов, выполненный с возможностью синтаксически анализировать поток битов, с тем чтобы получать кодированное субполосное представление с уменьшенным наложением спектров; декодер, выполненный с возможностью декодировать кодированное субполосное представление с уменьшенным наложением спектров, с тем чтобы получать субполосное представление с уменьшенным наложением спектров аудиосигнала; и аудиопроцессор (200) согласно одному из вариантов 10-14 осуществления.Embodiment 16: An audio decoder, comprising: a bitstream parser configured to parse the bitstream to obtain a reduced aliasing encoded subband representation; a decoder configured to decode the encoded de-aliased sub-band representation so as to obtain a de-aliased sub-band representation of the audio signal; and an audio processor (200) according to one of the embodiments 10-14.
Вариант 17 осуществления: Аудиоанализатор, содержащий: аудиопроцессор (100) согласно одному из вариантов 1-9 осуществления; и модуль извлечения информации, выполненный с возможностью анализировать субполосное представление с уменьшенным наложением спектров, с тем чтобы предоставлять информацию, описывающую аудиосигнал.Embodiment 17: An audio analyzer comprising: an audio processor (100) according to one of embodiments 1-9; and an information extractor configured to analyze the de-aliased subband representation so as to provide information describing the audio signal.
Вариант 18 осуществления: Способ (300) для обработки аудиосигнала, с тем чтобы получать субполосное представление аудиосигнала, при этом способ содержит: выполнение (302) каскадного перекрывающегося критически дискретизированного преобразования, по меньшей мере, для двух частично перекрывающихся блоков выборок аудиосигнала, с тем чтобы получать набор субполосных выборок на основе первого блока выборок аудиосигнала и получать соответствующий набор субполосных выборок на основе второго блока выборок аудиосигнала; и выполнение (304) комбинирования со взвешиванием двух соответствующих наборов субполосных выборок, причем один из них получен на основе первого блока выборок аудиосигнала, а другой получен на основе второго блока выборок аудиосигнала, с тем чтобы получать субполосное представление с уменьшенным наложением спектров аудиосигнала.Embodiment 18: A method (300) for processing an audio signal so as to obtain a subband representation of the audio signal, the method comprising: performing (302) a cascaded overlapping critically sampled transform on at least two partially overlapping blocks of audio signal samples so that obtaining a set of subband samples based on the first block of audio samples and obtaining a corresponding set of subband samples based on the second block of audio samples; and performing (304) weighting the two respective sets of subband samples, one of which is derived from the first block of audio samples and the other is obtained from the second block of audio samples, to obtain a subband audio dealiased representation.
Вариант 19 осуществления: Способ (400) для обработки субполосного представления аудиосигнала, с тем чтобы получать аудиосигнал, при этом способ содержит: выполнение (402) комбинирования со взвешиванием двух соответствующих субполосных представлений с уменьшенным наложением спектров аудиосигнала, с тем чтобы получать субполосное представление с наложением спектров, при этом субполосное представление с наложением спектров представляет собой набор субполосных выборок; и выполнение (404) каскадного обратного перекрывающегося критически дискретизированного преобразования для набора субполосных выборок, с тем чтобы получать набор выборок, ассоциированных с блоком выборок аудиосигнала.Embodiment 19: A method (400) for processing a subband representation of an audio signal so as to obtain an audio signal, the method comprising: performing (402) weighting two respective subband representations with reduced aliasing of the audio signal so as to obtain an aliased subband representation spectra, wherein the subband aliased representation is a set of subband samples; and performing (404) a cascaded inverse overlap critically sampled transform on the set of subband samples to obtain a set of samples associated with the block of audio samples.
Вариант 20 осуществления: Компьютерная программа для осуществления способа согласно одному из вариантов 18 и 19 осуществления.Embodiment 20: A computer program for carrying out the method according to one of embodiments 18 and 19.
Хотя некоторые аспекты описаны в контексте оборудования, очевидно, что эти аспекты также представляют описание соответствующего способа, при этом блок или устройство соответствует этапу способа либо признаку этапа способа. Аналогично, аспекты, описанные в контексте этапа способа, также представляют описание соответствующего блока или элемента, или признака соответствующего оборудования. Некоторые или все этапы способа могут выполняться посредством (или с использованием) аппаратного оборудования, такого как, например, микропроцессор, программируемый компьютер либо электронная схема. В некоторых вариантах осуществления, один или более из самых важных этапов способа могут выполняться посредством этого оборудования.Although some aspects are described in the context of equipment, it is obvious that these aspects also represent a description of the corresponding method, with the block or device corresponding to a method step or a feature of a method step. Likewise, aspects described in the context of a method step also provide a description of the associated block or element, or feature of the associated equipment. Some or all of the steps of the method may be performed by (or using) hardware such as, for example, a microprocessor, a programmable computer, or an electronic circuit. In some embodiments, one or more of the most important steps of the method may be performed by this equipment.
В зависимости от определенных требований к реализации, варианты осуществления изобретения могут реализовываться в аппаратных средствах или в программном обеспечении. Реализация может выполняться с использованием цифрового носителя хранения данных, например, гибкого диска, DVD, Blu-Ray, CD, ROM, PROM, EPROM, EEPROM или флэш-памяти, имеющего сохраненные электронно считываемые управляющие сигналы, которые взаимодействуют (или допускают взаимодействие) с программируемой компьютерной системой таким образом, что осуществляется соответствующий способ. Следовательно, цифровой носитель хранения данных может быть машиночитаемым.Depending on certain implementation requirements, embodiments of the invention may be implemented in hardware or in software. The implementation may be performed using a digital storage medium, such as a floppy disk, DVD, Blu-ray, CD, ROM, PROM, EPROM, EEPROM, or flash memory, having electronically readable control signals stored that interact (or are capable of interacting) with programmable computer system in such a way that the corresponding method is carried out. Therefore, the digital storage medium can be machine readable.
Некоторые варианты осуществления, согласно изобретению, содержат носитель данных, имеющий электронночитаемые управляющие сигналы, которые допускают взаимодействие с программируемой компьютерной системой таким образом, что осуществляется один из способов, описанных в данном документе.Some embodiments according to the invention comprise a storage medium having electronically readable control signals that are capable of interacting with a programmable computer system such that one of the methods described herein is carried out.
В общем, варианты осуществления настоящего изобретения могут реализовываться как компьютерный программный продукт с программным кодом, при этом программный код выполнен с возможностью осуществления одного из способов, когда компьютерный программный продукт работает на компьютере. Программный код, например, может сохраняться на машиночитаемом носителе.In general, embodiments of the present invention may be implemented as a computer program product with program code, wherein the program code is configured to perform one of the methods when the computer program product is running on the computer. The program code may, for example, be stored on a computer-readable medium.
Другие варианты осуществления содержат компьютерную программу для осуществления одного из способов, описанных в данном документе, сохраненную на машиночитаемом носителе.Other embodiments comprise a computer program for carrying out one of the methods described herein, stored on a computer-readable medium.
Другими словами, вариант осуществления предлагаемого способа в силу этого представляет собой компьютерную программу, имеющую программный код для осуществления одного из способов, описанных в данном документе, когда компьютерная программа работает на компьютере.In other words, an embodiment of the proposed method is therefore a computer program having program code for carrying out one of the methods described herein when the computer program is running on a computer.
Следовательно, дополнительный вариант осуществления изобретательских способов представляет собой носитель хранения данных (цифровой носитель хранения данных или машиночитаемый носитель), содержащий записанную компьютерную программу для осуществления одного из способов, описанных в данном документе. Носитель данных, цифровой носитель хранения данных или носитель с записанными данными типично является материальным и/или энергонезависимым.Therefore, a further embodiment of the inventive methods is a storage medium (digital storage medium or computer-readable medium) containing a recorded computer program for carrying out one of the methods described herein. The storage medium, digital storage medium or recorded data medium is typically tangible and/or non-volatile.
Следовательно, дополнительный вариант осуществления изобретательского способа представляет собой поток данных или последовательность сигналов, представляющих компьютерную программу для осуществления одного из способов, описанных в данном документе. Поток данных или последовательность сигналов, например, может быть выполнена с возможностью передачи через соединение для передачи данных, например, через Интернет.Therefore, an additional embodiment of the inventive method is a stream of data or a sequence of signals representing a computer program for implementing one of the methods described herein. The data stream or signal sequence, for example, may be configured to be transmitted over a data connection, such as the Internet.
Дополнительный вариант осуществления содержит средство обработки, например, компьютер или программируемое логическое устройство, выполненное с возможностью осуществлять один из способов, описанных в данном документе.An additional embodiment comprises processing means, such as a computer or programmable logic device, configured to perform one of the methods described herein.
Дополнительный вариант осуществления содержит компьютер, имеющий установленную компьютерную программу для осуществления одного из способов, описанных в данном документе.An additional embodiment comprises a computer having a computer program installed to implement one of the methods described herein.
Дополнительный вариант осуществления, согласно изобретению, содержит оборудование или систему, выполненную с возможностью передавать (например, электронно или оптически) компьютерную программу для осуществления одного из способов, описанных в данном документе, в приемное устройство. Приемное устройство, например, может представлять собой компьютер, мобильное устройство, запоминающее устройство и т.п. Оборудование или система, например, может содержать файловый сервер для передачи компьютерной программы в приемное устройство.A further embodiment according to the invention comprises equipment or a system capable of transmitting (eg, electronically or optically) a computer program for performing one of the methods described herein to a receiving device. The receiving device may, for example, be a computer, mobile device, storage device, or the like. The equipment or system, for example, may include a file server for transmitting a computer program to a receiving device.
В некоторых вариантах осуществления, программируемое логическое устройство (например, программируемая пользователем вентильная матрица) может использоваться для того, чтобы выполнять часть или все из функциональностей способов, описанных в данном документе. В некоторых вариантах осуществления, программируемая пользователем вентильная матрица может взаимодействовать с микропроцессором, чтобы осуществлять один из способов, описанных в данном документе. В общем, способы предпочтительно осуществляются посредством любого аппаратного оборудования.In some embodiments, a programmable logic device (eg, a field programmable gate array) may be used to perform some or all of the functionality of the methods described herein. In some embodiments, a user-programmable gate array may interface with a microprocessor to perform one of the methods described herein. In general, the methods are preferably carried out by any hardware.
Оборудование, описанное в данном документе, может реализовываться с использованием аппаратного оборудования либо с использованием компьютера, либо с использованием комбинации аппаратного оборудования и компьютера.The equipment described herein may be implemented using hardware, either using a computer, or using a combination of hardware and a computer.
Оборудование, описанное в данном документе, или любые компоненты оборудования, описанного в данном документе, могут реализовываться, по меньшей мере, частично в аппаратных средствах и/или в программном обеспечении.The equipment described herein, or any components of the equipment described herein, may be implemented at least in part in hardware and/or software.
Способы, описанные в данном документе, могут осуществляться с использованием аппаратного оборудования либо с использованием компьютера, либо с использованием комбинации аппаратного оборудования и компьютера.The methods described herein may be performed using hardware, or using a computer, or using a combination of hardware and a computer.
Способы, описанные в данном документе, или любые компоненты оборудования, описанного в данном документе, могут выполняться, по меньшей мере, частично посредством аппаратных средств и/или посредством программного обеспечения.The methods described herein, or any components of the equipment described herein, may be performed at least in part by hardware and/or by software.
Вышеописанные варианты осуществления являются просто иллюстративными в отношении принципов настоящего изобретения. Следует понимать, что модификации и изменения компоновок и подробностей, описанных в данном документе, должны быть очевидными для специалистов в данной области техники. Следовательно, они подразумеваются как ограниченные только посредством объема нижеприведенной формулы изобретения, а не посредством конкретных подробностей, представленных посредством описания и пояснения вариантов осуществления в данном документе.The above described embodiments are merely illustrative of the principles of the present invention. It should be understood that modifications and changes to the arrangements and details described herein should be apparent to those skilled in the art. Therefore, they are intended to be limited only by the scope of the following claims, and not by the specific details provided by way of describing and explaining the embodiments herein.
Библиографический списокBibliographic list
[1] Nils Werner и Bernd Edler, "Nonuniform orthogonal filterbanks based on MDCT analysis/synthesis and time-domain aliasing reduction", IEEE Signal Processing Letters, том 24, номер 5, стр. 589-593, май 2017 года.[1] Nils Werner and Bernd Edler, "Nonuniform orthogonal filterbanks based on MDCT analysis/synthesis and time-domain aliasing reduction", IEEE Signal Processing Letters, Volume 24,
[2] Fernando C. Pereira и Touradj Ebrahimi, The MPEG-4 Book, Prentice Hall PTR, Upper Saddle River, штат Нью-Джерси, США, 2002 год.[2] Fernando C. Pereira and Touradj Ebrahimi, The MPEG-4 Book, Prentice Hall PTR, Upper Saddle River, NJ, USA, 2002.
[3] B. C. Moore и B. R. Glasberg, "Suggested formulae for calculating auditory-filter bandwidths and excitation patterns", J. Acoust. Soc. Am., том 74, номер 3, стр. 750-753, сентябрь 1983 года.[3] B. C. Moore and B. R. Glasberg, "Suggested formulae for calculating auditory-filter bandwidths and excitation patterns", J. Acoust. soc. Am., Vol. 74,
[4] A. Taghipour, M. C. Jaikumar и B. Edler, "A psychoacoustic model with partial spectral flatness measure for tonality estimation", in Proc. 22nd Eur. Signal Process. Conf. (EUSIPCO), 2014 год, стр. 646-650.[4] A. Taghipour, M. C. Jaikumar, and B. Edler, "A psychoacoustic model with partial spectral flatness measure for tonality estimation", in Proc. 22nd Eur. signal processing. Conf. (EUSIPCO), 2014, pp. 646-650.
[5] J. D. Johnston, "Estimation of perceptual entropy using noise masking criteria", in ICASSP-88, International Conference on Acoustics, Speech and Signal Processing, апрель 1988 года, стр. 2524-2527, том 5.[5] J. D. Johnston, "Estimation of perceptual entropy using noise masking criteria", in ICASSP-88, International Conference on Acoustics, Speech and Signal Processing, April 1988, pp. 2524-2527,
[6] B. Edler, "Codierung von Audiosignalen mit überlappender Transformation und adaptiven Fensterfunktionen", Frequenz, том. 43, стр. 252-256, сентябрь 1989 года.[6] B. Edler, "Codierung von Audiosignalen mit überlappender Transformation und adaptiven Fensterfunktionen", Frequenz, vol. 43, pp. 252-256, September 1989.
[7] V. Melkote и K. Rose, "Trellis-based approaches to rate-distortion optimized audio encoding", IEEE Transactions on Audio, Speech and Language Processing, том 18, номер 2, стр. 330-341, февраль 2010 года.[7] V. Melkote and K. Rose, "Trellis-based approaches to rate-distortion optimized audio encoding", IEEE Transactions on Audio, Speech and Language Processing, Volume 18,
[8] Mukund Narasimhan, Paul Viola и Michael Shilman, "Online decoding of markov models under latency constraints", in Proceedings of the 23rd International Conference on Machine Learning, Нью-Йорк, штат Нью-Йорк, США, 2006 год, ICML '06, стр. 657-664, ACM.[8] Mukund Narasimhan, Paul Viola and Michael Shilman, "Online decoding of markov models under latency constraints", in Proceedings of the 23rd International Conference on Machine Learning, New York, NY, USA, 2006, ICML' 06, pp. 657-664, ACM.
[9] ITU Radiocommunication Bureau, "BS.1116-3: methods for the subjective assessment of small impairments in audio systems", Recommendation ITU-R BS. 1116, 2015 год.[9] ITU Radiocommunication Bureau, "BS.1116-3: methods for the subjective assessment of small impairments in audio systems", Recommendation ITU-R BS. 1116, 2015.
[10] ITU Radiocommunication Bureau, "BS.1534-3: method for the subjective assessment of intermediate quality level of coding systems", Recommendation ITUR BS. 1534, 2015 год.[10] ITU Radiocommunication Bureau, "BS.1534-3: method for the subjective assessment of intermediate quality level of coding systems", Recommendation ITUR BS. 1534, 2015.
[11] ITU Radiocommunication Bureau, "BS.1770-3: algorithms to measure audio programme loudness and truepeak audio level", Recommendation ITU-R BS. 1770, 2015 год.[11] ITU Radiocommunication Bureau, "BS.1770-3: algorithms to measure audio program loudness and truepeak audio level", Recommendation ITU-R BS. 1770, 2015
[12] F. Schuh, S. Dick, R. Füg, C. R. Helmrich, N. Rettelbach и T. Schwegler, "Efficient Multichannel Audio Transform Coding with Low Delay and Complexity", Audio Engineering Society, сентябрь 2016 года [онлайн]. По адресу: http://www.aes.org/e-lib/browse.cfm? elib=18464[12] F. Schuh, S. Dick, R. Füg, C. R. Helmrich, N. Rettelbach, and T. Schwegler, "Efficient Multichannel Audio Transform Coding with Low Delay and Complexity", Audio Engineering Society, September 2016 [online]. At: http://www.aes.org/e-lib/browse.cfm? elib=18464
[13] WO 2018 019 909 A1[13] WO 2018 019 909 A1
[14] EP 3 276 620 A1[14]
Claims (120)
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
EP18202927.2 | 2018-10-26 | ||
EP19169635.0 | 2019-04-16 |
Publications (1)
Publication Number | Publication Date |
---|---|
RU2777615C1 true RU2777615C1 (en) | 2022-08-08 |
Family
ID=
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7548853B2 (en) * | 2005-06-17 | 2009-06-16 | Shmunk Dmitry V | Scalable compressed audio bit stream and codec using a hierarchical filterbank and multichannel joint coding |
US8548801B2 (en) * | 2005-11-08 | 2013-10-01 | Samsung Electronics Co., Ltd | Adaptive time/frequency-based audio encoding and decoding apparatuses and methods |
RU2517315C2 (en) * | 2009-09-07 | 2014-05-27 | Нокиа Корпорейшн | Method and device for audio signal processing |
US20150025897A1 (en) * | 2010-04-14 | 2015-01-22 | Huawei Technologies Co., Ltd. | System and Method for Audio Coding and Decoding |
WO2018019909A1 (en) * | 2016-07-29 | 2018-02-01 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Time domain aliasing reduction for non-uniform filterbanks which use spectral analysis followed by partial synthesis |
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7548853B2 (en) * | 2005-06-17 | 2009-06-16 | Shmunk Dmitry V | Scalable compressed audio bit stream and codec using a hierarchical filterbank and multichannel joint coding |
US8548801B2 (en) * | 2005-11-08 | 2013-10-01 | Samsung Electronics Co., Ltd | Adaptive time/frequency-based audio encoding and decoding apparatuses and methods |
RU2517315C2 (en) * | 2009-09-07 | 2014-05-27 | Нокиа Корпорейшн | Method and device for audio signal processing |
US20150025897A1 (en) * | 2010-04-14 | 2015-01-22 | Huawei Technologies Co., Ltd. | System and Method for Audio Coding and Decoding |
WO2018019909A1 (en) * | 2016-07-29 | 2018-02-01 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Time domain aliasing reduction for non-uniform filterbanks which use spectral analysis followed by partial synthesis |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
RU2640634C2 (en) | Device and method for decoding coded audio with filter for separating around transition frequency | |
EP3602549B1 (en) | Apparatus and method for post-processing an audio signal using a transient location detection | |
RU2420815C2 (en) | Device and method of generating audio signal subband values and device and method of generating audio signal readings in time domain | |
RU2577195C2 (en) | Audio encoder, audio decoder and related methods of processing multichannel audio signals using complex prediction | |
US20230386487A1 (en) | Apparatus and method for generating an enhanced signal using independent noise-filling | |
CN102884570A (en) | MDCT-based complex prediction stereo coding | |
CN105122357A (en) | Low-frequency emphasis for CPL-based coding in frequency domain | |
CN104103276A (en) | Sound coding device, sound decoding device, sound coding method and sound decoding method | |
RU2719285C1 (en) | Reduced overlapping of spectra in time domain for non-uniform filter banks, which use spectral analysis with subsequent partial synthesis | |
US11688408B2 (en) | Perceptual audio coding with adaptive non-uniform time/frequency tiling using subband merging and the time domain aliasing reduction | |
RU2777615C1 (en) | Perceptual encoding of audio with adaptive non-uniform arrangement in time-frequency tiles using sub-band merging and spectral overlap reduction in the time domain | |
JP7438334B2 (en) | Time-varying time-frequency tiling using nonuniform orthogonal filter banks based on MDCT analysis/synthesis and TDAR | |
RU2791664C1 (en) | Time-variable positioning of time-frequency tiles using non-uniform orthogonal filter banks based on mdct analysis/synthesis and tdar |