RU2520402C2 - Multi-resolution switched audio encoding/decoding scheme - Google Patents
Multi-resolution switched audio encoding/decoding scheme Download PDFInfo
- Publication number
- RU2520402C2 RU2520402C2 RU2011117699/08A RU2011117699A RU2520402C2 RU 2520402 C2 RU2520402 C2 RU 2520402C2 RU 2011117699/08 A RU2011117699/08 A RU 2011117699/08A RU 2011117699 A RU2011117699 A RU 2011117699A RU 2520402 C2 RU2520402 C2 RU 2520402C2
- Authority
- RU
- Russia
- Prior art keywords
- audio signal
- signal
- channel
- converter
- time
- Prior art date
Links
- 230000005236 sound signal Effects 0.000 claims abstract description 234
- 238000004422 calculation algorithm Methods 0.000 claims abstract description 88
- 230000003595 spectral effect Effects 0.000 claims abstract description 87
- 238000012545 processing Methods 0.000 claims description 101
- 238000000034 method Methods 0.000 claims description 69
- 238000006243 chemical reaction Methods 0.000 claims description 47
- 238000013139 quantization Methods 0.000 claims description 45
- 238000004458 analytical method Methods 0.000 claims description 27
- 230000015572 biosynthetic process Effects 0.000 claims description 24
- 230000002441 reversible effect Effects 0.000 claims description 22
- 238000003786 synthesis reaction Methods 0.000 claims description 22
- 230000008569 process Effects 0.000 claims description 15
- 230000002123 temporal effect Effects 0.000 claims description 8
- 230000001052 transient effect Effects 0.000 claims 1
- 238000005516 engineering process Methods 0.000 abstract description 10
- 230000000694 effects Effects 0.000 abstract description 4
- 239000000126 substance Substances 0.000 abstract 1
- 230000006870 function Effects 0.000 description 52
- 230000005284 excitation Effects 0.000 description 51
- 238000001228 spectrum Methods 0.000 description 43
- 238000007781 pre-processing Methods 0.000 description 21
- 238000010586 diagram Methods 0.000 description 20
- 230000005540 biological transmission Effects 0.000 description 16
- 230000007704 transition Effects 0.000 description 15
- 238000005070 sampling Methods 0.000 description 13
- 238000001914 filtration Methods 0.000 description 12
- 239000013598 vector Substances 0.000 description 11
- 230000001755 vocal effect Effects 0.000 description 11
- 230000003044 adaptive effect Effects 0.000 description 9
- 238000004590 computer program Methods 0.000 description 9
- 230000009466 transformation Effects 0.000 description 8
- 230000008859 change Effects 0.000 description 6
- 238000004364 calculation method Methods 0.000 description 5
- 239000003638 chemical reducing agent Substances 0.000 description 5
- 230000007774 longterm Effects 0.000 description 5
- 230000000873 masking effect Effects 0.000 description 5
- 238000012805 post-processing Methods 0.000 description 5
- 238000000926 separation method Methods 0.000 description 5
- 206010021403 Illusion Diseases 0.000 description 4
- 230000000903 blocking effect Effects 0.000 description 4
- 230000004048 modification Effects 0.000 description 4
- 238000012986 modification Methods 0.000 description 4
- 238000013507 mapping Methods 0.000 description 3
- 230000008447 perception Effects 0.000 description 3
- OVOUKWFJRHALDD-UHFFFAOYSA-N 2-[2-(2-acetyloxyethoxy)ethoxy]ethyl acetate Chemical compound CC(=O)OCCOCCOCCOC(C)=O OVOUKWFJRHALDD-UHFFFAOYSA-N 0.000 description 2
- IXKSXJFAGXLQOQ-XISFHERQSA-N WHWLQLKPGQPMY Chemical compound C([C@@H](C(=O)N[C@@H](CC=1C2=CC=CC=C2NC=1)C(=O)N[C@@H](CC(C)C)C(=O)N[C@@H](CCC(N)=O)C(=O)N[C@@H](CC(C)C)C(=O)N1CCC[C@H]1C(=O)NCC(=O)N[C@@H](CCC(N)=O)C(=O)N[C@@H](CC(O)=O)C(=O)N1CCC[C@H]1C(=O)N[C@@H](CCSC)C(=O)N[C@@H](CC=1C=CC(O)=CC=1)C(O)=O)NC(=O)[C@@H](N)CC=1C2=CC=CC=C2NC=1)C1=CNC=N1 IXKSXJFAGXLQOQ-XISFHERQSA-N 0.000 description 2
- 238000012937 correction Methods 0.000 description 2
- 238000002156 mixing Methods 0.000 description 2
- 230000010076 replication Effects 0.000 description 2
- 210000001260 vocal cord Anatomy 0.000 description 2
- 241001233887 Ania Species 0.000 description 1
- 238000012952 Resampling Methods 0.000 description 1
- 230000003321 amplification Effects 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 230000006399 behavior Effects 0.000 description 1
- 230000008901 benefit Effects 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 230000007423 decrease Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000005265 energy consumption Methods 0.000 description 1
- 238000005562 fading Methods 0.000 description 1
- 238000009499 grossing Methods 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 239000000463 material Substances 0.000 description 1
- 239000011159 matrix material Substances 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 230000003446 memory effect Effects 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 238000003199 nucleic acid amplification method Methods 0.000 description 1
- 210000000056 organ Anatomy 0.000 description 1
- 210000003800 pharynx Anatomy 0.000 description 1
- 238000002203 pretreatment Methods 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 238000001028 reflection method Methods 0.000 description 1
- 238000012552 review Methods 0.000 description 1
- 238000007493 shaping process Methods 0.000 description 1
- 230000011664 signaling Effects 0.000 description 1
- 238000007619 statistical method Methods 0.000 description 1
- 230000002194 synthesizing effect Effects 0.000 description 1
- 238000000844 transformation Methods 0.000 description 1
- XLYOFNOQVPJJNP-UHFFFAOYSA-N water Substances O XLYOFNOQVPJJNP-UHFFFAOYSA-N 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/16—Vocoder architecture
- G10L19/18—Vocoders using multiple modes
- G10L19/24—Variable rate codecs, e.g. for generating different qualities using a scalable representation such as hierarchical encoding or layered encoding
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/02—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/16—Vocoder architecture
- G10L19/18—Vocoders using multiple modes
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/02—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
- G10L19/022—Blocking, i.e. grouping of samples in time; Choice of analysis windows; Overlap factoring
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Quality & Reliability (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
Abstract
Description
Данное изобретение связано с аудио кодированием и, особенно, со схемами кодирования с низким битрейтом.The present invention relates to audio coding, and especially to low bitrate coding schemes.
В технике известны кодирующие схемы области частот, такие как МР3 или ААС. Эти кодирующие устройства в частотной области основаны на преобразовании "область временного интервала", последующая стадия квантизации, на которой ошибкой квантизации управляют, используя информацию от перцепционного модуля, и стадию кодирования, на которой квантованные спектральные коэффициенты и соответствующая сторонняя информация закодированы без потери информации с использованием кодовых таблиц.Encoding schemes for the frequency domain, such as MP3 or AAS, are known in the art. These encoders in the frequency domain are based on the “time domain region” transformation, a subsequent quantization step in which the quantization error is controlled using information from the perceptual module, and an encoding step in which the quantized spectral coefficients and corresponding third-party information are encoded without loss of information using code tables.
С другой стороны, есть кодирующие устройства, которые очень хорошо подходят для обработки речи, такие как AMR-WB+, описанные в 3GPP TS 26.290. Такие речевые кодирующие схемы выполняют линейную прогнозирующую фильтрацию сигнала на временном интервале. Линейная прогнозирующая фильтрация получается из линейного анализа предсказания входного сигнала на временном интервале. Получающиеся коэффициенты линейного прогнозирующего (LP) фильтра квантуются/кодируются и передаются как сторонняя информация. Процесс известен как кодирование методом линейного предсказания (LPC). На выходе фильтра формируется разностный сигнал предсказания или сигнал ошибки предсказания, который также известен как сигнал возбуждения, кодированный с использованием стадий анализа синтеза кодирующего устройства ACELP или, альтернативно, кодированный с использованием кодирующего устройства на базе преобразования Фурье с наложением. Решение между кодированием ACELP и кодированием преобразованного сигнала возбуждения, которое также называют ТСХ кодированием, делают, используя алгоритм замкнутого разомкнутого контура.On the other hand, there are encoders that are very well suited for speech processing, such as AMR-WB +, described in 3GPP TS 26.290. Such speech coding schemes perform linear predictive filtering of a signal over a time interval. Linear predictive filtering is obtained from a linear analysis of the prediction of the input signal over a time interval. The resulting linear predictive (LP) filter coefficients are quantized / encoded and transmitted as third-party information. The process is known as linear prediction coding (LPC). A prediction difference signal or a prediction error signal is generated at the filter output, which is also known as an excitation signal encoded using the steps of the synthesis analysis of the ACELP encoder or, alternatively, encoded using an encoder based on the Fourier transform with an overlay. The decision between ACELP coding and transformed drive signal coding, also called TLC coding, is made using a closed open loop algorithm.
Схемы кодирования аудио в частотной области, такие как высокоэффективная ААС (НЕ-АСС) схема кодирования, которая комбинирует схему ААС кодирования и технику спектрального повторения полос (SBR) и может комбинироваться с объединенным стерео или многоканальным кодирующим инструментом, который известен под названием "MPEG окружение".Frequency-domain audio coding schemes, such as a high-performance AAC (non-ACC) coding scheme that combines AAC coding and spectral band repetition (SBR) techniques, and can be combined with a combined stereo or multi-channel coding instrument, which is known as "MPEG surround "
С другой стороны, у речевых кодирующих устройств, таких как AMR-WB+, также есть уровень высокочастотного расширения и функциональность стерео.On the other hand, speech encoders such as AMR-WB + also have a high-frequency extension level and stereo functionality.
Кодирующие схемы в частотной области показывают высокое качество при низком битрейте для музыкальных сигналов. Проблемой, однако, является качество речевых сигналов при низком битрейте.Frequency domain coding schemes show high quality at low bitrate for music signals. The problem, however, is the quality of speech signals at low bitrates.
Речевые кодирующие схемы показывают высокое качество для речевых сигналов даже при низком битрейте, но показывают низкое качество для других сигналов при низком битрейте.Speech coding schemes show high quality for speech signals even at low bitrate, but show low quality for other signals at low bitrate.
Объектом данного изобретения является обеспечение концепции улучшенного кодирования/декодирования.An object of the present invention is to provide a concept for improved coding / decoding.
Это достигается аудио кодирующим устройством в соответствии с п.1, методом кодирования аудио в соответствии с заявлением п.9, декодером в соответствии с п.10, методом декодирования в соответствии с п.19, кодируемого сообщения в соответствии с п.20 или компьютерной программой в соответствии с п.21 формулы изобретения.This is achieved by an audio encoder in accordance with
Данное изобретение основано на идее, что гибрид или двухрежимная переключаемая схема кодирования/декодирования имеет преимущество, поскольку для определенной особенности сигнала может выбираться лучший кодирующий алгоритм. Другими словами, данное изобретение не ищет кодирующий алгоритм сигнала, который отлично подобран ко всем особенностям сигнала. Такая схема всегда была бы компромиссом, что может быть замечено по огромным техническим различиям между свойствами аудио кодирующими устройствами, с одной стороны, и речевыми кодирующими устройствами, с другой стороны. Вместо этого данное изобретение комбинирует различные кодирующие алгоритмы, такие как алгоритм для кодирования речи, с одной стороны, и алгоритм для кодирования аудио, с другой стороны, в пределах переключательной схемы так, чтобы для каждой части аудио сигнала оптимально был выбран соответствующий кодирующий алгоритм. Кроме того, это также особенность данного изобретения, оба кодирующих канала включают преобразователь время/частота, но в одном кодирующем канале предусмотрен дальнейший преобразователь сигнала, такой процессор LPC. Этот преобразователь служит для подтверждения, что второй канал кодирования лучше подходит для определенной особенности сигнала, чем первый канал кодирования. Однако, это также особенность данного изобретения, сигнал на выходе процессора также преобразован в спектральное представление.The present invention is based on the idea that a hybrid or dual-mode switchable coding / decoding scheme is advantageous since a better coding algorithm may be selected for a particular signal feature. In other words, the present invention does not seek a signal coding algorithm that is perfectly matched to all signal features. Such a scheme would always be a compromise, which can be seen from the enormous technical differences between the properties of audio encoders, on the one hand, and speech encoders, on the other. Instead, the present invention combines various encoding algorithms, such as an algorithm for encoding speech, on the one hand, and an algorithm for encoding audio, on the other hand, within a switching circuit so that for each part of the audio signal, an appropriate encoding algorithm is optimally selected. In addition, it is also a feature of the present invention that both coding channels include a time / frequency converter, but a further signal converter, such an LPC processor, is provided in one coding channel. This converter serves to confirm that the second coding channel is better suited for a particular signal feature than the first coding channel. However, this is also a feature of the present invention, the signal at the output of the processor is also converted to a spectral representation.
Оба преобразователя, то есть первый преобразователь в первом кодирующем канале и второй преобразователь во втором кодирующем канале, выполнены с возможностью осуществления преобразующего кодирования с мультиразрешением, где разрешение соответствующего преобразователя устанавливается в зависимости от аудио сигнала, и в частности, в зависимости от аудио сигнала, фактически закодированного в соответствующем кодирующем канале так, чтобы достигнуть хороший компромисс между качеством, с одной стороны, и битрейтом, с другой стороны, или с точки зрения определенного постоянного качества, чтобы достигнуть самого низкого битрейта, или с точки зрения постоянного битрейта, чтобы получить лучшее качество.Both transducers, that is, the first transducer in the first coding channel and the second transducer in the second coding channel, are configured to perform multi-resolution transform coding, where the resolution of the corresponding transducer is set depending on the audio signal, and in particular, depending on the audio signal, in fact encoded in the corresponding coding channel so as to achieve a good compromise between quality, on the one hand, and bitrate, on the other hand, or Points of view of a specific constant quality, to achieve the lowest bit rate, or in terms of a constant bit rate to get the best quality.
В соответствии с данным изобретением, разрешение времени/частоты этих двух преобразователей может быть установлено предпочтительно, независимо друг от друга так, чтобы каждый раз преобразователь мог быть подобран оптимально к требованиям разрешения времени/частоты соответствующего сигнала. Эффективность битов, то есть отношение между полезными битами, с одной стороны, и битами сторонней информации, с другой стороны, выше для больших размеров блока/длин окна. Поэтому предпочтено, чтобы на оба преобразователя функционировали на большей длине окна, поскольку в основном к длинной временной части аудио сигнала и к более коротким размерам блока/длинам окна относится то же самое количество сторонней информации. Желательно, чтобы разрешение времени/частоты в каналах кодирования могло также быть под влиянием других инструментов кодирования/декодирования, расположенных в этих каналах. Желательно, чтобы второй канал кодирования, включающий преобразователь сигнала, такой как процессор LPC, включал другую гибридную схему, такую как канал ACELP, с одной стороны, и схему ТСХ, с другой стороны, где второй преобразователь включен в схему ТСХ. Желательно, чтобы разрешение преобразователя времени/частоты, расположенного в канале ТСХ, было также под влиянием решения кодирования, так, чтобы часть сигнала во втором канале кодирования была обработана в канале ТСХ, имеющем второй преобразователь, или в канале ACELP, не имеющем преобразователя время/частота.In accordance with this invention, the time / frequency resolution of these two converters can be set preferably independently of each other so that each time the converter can be optimally matched to the time / frequency resolution requirements of the corresponding signal. The efficiency of bits, that is, the ratio between useful bits, on the one hand, and bits of third-party information, on the other hand, is higher for large block sizes / window lengths. Therefore, it is preferable that both transducers operate over a longer window, since basically the same amount of third-party information relates to the long time portion of the audio signal and the shorter block sizes / window lengths. It is desirable that the resolution of time / frequency in the encoding channels could also be influenced by other encoding / decoding tools located in these channels. It is desirable that the second coding channel including a signal converter, such as an LPC processor, include another hybrid circuit, such as an ACELP channel, on the one hand, and a TLC circuit, on the other hand, where the second converter is included in a TLC circuit. It is desirable that the resolution of the time / frequency converter located in the TLC channel is also influenced by the encoding decision, so that part of the signal in the second encoding channel is processed in the TLC channel having a second converter or in the ACELP channel without a time / converter frequency.
В основном ни преобразователь сигнала, ни второй канал кодирования, и, в частности, первый канал обработки во втором канале кодирования и второй канал обработки во втором кодирующем канале, не должны быть связанными с речью элементами, такими как анализатор LPC для преобразователя сигнала, кодирующее устройство ТСХ для второго канала обработки и кодирующее устройство ACELP для первого канала обработки. Другие решения также полезны, когда оценены другие особенности сигнала аудио сигнала, отличающегося от речи, с одной стороны, и музыки, с другой стороны. Могут использоваться любые преобразователи сигнала и каналы кодирования, и лучший подходящий алгоритм может быть найден схемой анализа синтеза так, чтобы, на стороне кодирующего устройства, для каждой части аудио сигнала были проведены все альтернативы кодирования и был отобран лучший результат, где лучший результат может быть найден с использованием целевой функции к результатам кодирования. Тогда, идентификация сторонней информации декодера, лежащая в основе алгоритма кодирования для определенной части закодированного аудио сигнала, присоединяется к закодированному аудио сигналу кодировщиком выходного интерфейса так, чтобы декодер не заботился ни о каких решениях о стороне кодирующего устройства или о любых особенностях сигнала, но просто выбирал канал кодирования в зависимости от переданной сторонней информации. Кроме того, декодер не только выберет правильный канал декодирования, но также выберет основанный на сторонней информации, закодированной в кодируемом сообщении, какое разрешение времени/частоты должно быть применено в соответствующем первом канале декодирования и соответствующем втором канале декодирования.Basically, neither the signal converter, nor the second coding channel, and in particular, the first processing channel in the second coding channel and the second processing channel in the second coding channel, should not be speech-related elements, such as an LPC analyzer for the signal converter, the encoding device TLC for the second processing channel and the ACELP encoder for the first processing channel. Other solutions are also useful when other features of an audio signal other than speech, on the one hand, and music, on the other hand, are evaluated. Any signal converters and coding channels can be used, and the best suitable algorithm can be found by the synthesis analysis circuit so that, on the encoder side, all coding alternatives are drawn for each part of the audio signal and the best result is selected where the best result can be found using the objective function to the coding results. Then, the identification of the third-party decoder information underlying the encoding algorithm for a specific part of the encoded audio signal is attached to the encoded audio signal by the output interface encoder so that the decoder does not care about any decisions about the encoder side or any signal features, but simply selects coding channel, depending on the transmitted third-party information. In addition, the decoder will not only select the correct decoding channel, but will also select, based on the third-party information encoded in the encoded message, which time / frequency resolution should be applied in the corresponding first decoding channel and the corresponding second decoding channel.
Таким образом, данное изобретение обеспечивает схему кодирования/декодирования, которая комбинирует преимущества различных кодирующих алгоритмов и избегает недостатков этих кодирующих алгоритмов, которые возникают, когда часть сигнала должна была бы быть закодирована алгоритмом, который не соответствует к текущему кодирующему алгоритму. Кроме того, данное изобретение избегает любых неудобств, которые создаются, если возникают различные требования к разрешению времени/частоты при обработке различных частей аудио сигнала в различных каналах кодирования. Вместо этого благодаря переменному разрешению времени/частоты преобразователей «время/частота» в обоих каналах, любые искажения, которые возникали бы в сценарии, где используется одинаковое разрешение времени/частоты для обоих кодирующих каналов, или в котором возможно только неизменное разрешение времени/частоты для любых кодирующих каналов, по крайней мере, уменьшаются или даже полностью устраняются.Thus, the present invention provides an encoding / decoding scheme that combines the advantages of various encoding algorithms and avoids the disadvantages of these encoding algorithms that occur when a portion of a signal would have to be encoded by an algorithm that does not correspond to the current encoding algorithm. In addition, this invention avoids any inconvenience that occurs if there are different requirements for the resolution of time / frequency when processing different parts of the audio signal in different coding channels. Instead, due to the variable time / frequency resolution of the time / frequency converters in both channels, any distortion that would occur in a scenario where the same time / frequency resolution is used for both coding channels, or in which only a constant time / frequency resolution is possible for any coding channels are at least reduced or even completely eliminated.
Второй выключатель опять осуществляет переключение между двумя каналами обработки, но в области, отличающейся от "внешней" области первого канала. Снова работа одного "внутреннего" канала, главным образом, определяется исходной моделью или SNR вычислениями, и другого "внутреннего" канала может определяться моделью слуха (ушной раковины) и/или психоакустической моделью, то есть маскированием или, по крайней мере, включением аспектов кодирования в частотной/спектральной области. Например, у одного "внутреннего" канала есть преобразователь в области частот/спектральный преобразователь, и у другого канала есть устройство, кодирующее в другой области, такой как область LPC, причем это кодирующее устройство, например, CELP или ACELP с обработкой входного сигнала без спектрального преобразования.The second switch again switches between the two processing channels, but in a region different from the "external" region of the first channel. Again, the operation of one “internal” channel is mainly determined by the original model or SNR calculations, and the other “internal” channel can be determined by the model of the hearing (auricle) and / or the psychoacoustic model, that is, masking or at least incorporating coding aspects in the frequency / spectral region. For example, one “internal” channel has a frequency domain converter / spectral converter, and the other channel has a device encoding in another region, such as an LPC region, and this is an encoding device, for example, CELP or ACELP with processing of the input signal without spectral transformations.
Дальнейшее предпочтительное воплощение - это аудио кодирующее устройство, включающее первый информационный канал, такой как кодирование в спектральной области, второй источник информации или SNR ориентированный канал кодирования, такой как канал кодирования LPC-области, и переключатель для того, чтобы переключиться между первым каналом кодирования и вторым каналом кодирования, причем второй канал кодирования включает преобразователь в области, отличающейся от временного интервала, такой как аналитический этап LPC, формирующий сигнал возбуждения, и где второй канал кодирования, кроме того, включает специальную область, такую как канал обработки области LPC, и специальную спектральную область, такую как LPC спектральный канал обработки, и дополнительный выключатель для того, чтобы переключиться между специальным кодирующим каналом и специальным спектральным каналом обработки.A further preferred embodiment is an audio encoder comprising a first information channel, such as spectral domain encoding, a second information source or SNR oriented encoding channel, such as an LPC region encoding channel, and a switch in order to switch between the first encoding channel and a second coding channel, the second coding channel including a converter in a region other than a time interval, such as an LPC analysis step generating a signal and where the second coding channel also includes a special area, such as an LPC region processing channel, and a special spectral region, such as an LPC spectral processing channel, and an additional switch to switch between a special coding channel and a special spectral channel processing.
Дальнейшее воплощение изобретения - это аудио декодирующее устройство, включающее первую область, такую как спектральный канал декодирования, вторую область, такую как канал декодирования LPC для того, чтобы декодировать сигнал, такой как сигнал возбуждения во второй области, и третью область, такую как LPC-спектральный канал декодера, для того, чтобы декодировать сигнал, такой как сигнал возбуждения в третьей области, такой как спектральная область LPC, где третья область получена путем выполнения преобразования частоты от второй области, где обеспечен первый переключатель для второго сигнала области и третьего сигнала области, и где обеспечен второй переключатель для того, чтобы переключиться между декодером для первой области и декодером для второй области или третьей области.A further embodiment of the invention is an audio decoding apparatus including a first region, such as a spectral decoding channel, a second region, such as an LPC decoding channel, in order to decode a signal, such as an excitation signal in a second region, and a third region, such as LPC- a spectral channel of a decoder, in order to decode a signal, such as an excitation signal in a third region, such as an LPC spectral region, where the third region is obtained by performing frequency conversion from the second region, where a first switch for a second region signal and a third region signal is provided, and where a second switch is provided for switching between a decoder for the first region and a decoder for the second region or third region.
Предпочтительные решения данного изобретения описаны в приложенных рисунках, где:Preferred solutions of the present invention are described in the attached drawings, where:
Фиг.1a - блок-схема устройства кодирования в соответствии с первым аспектом данного изобретения;Figa is a block diagram of an encoding device in accordance with a first aspect of the present invention;
Фиг.1b - блок-схема устройства декодирования в соответствии с первым аспектом данного изобретения;Fig. 1b is a block diagram of a decoding apparatus in accordance with a first aspect of the present invention;
Фиг.1с - блок-схема устройства кодирования в соответствии с дальнейшим аспектом данного изобретения;Fig. 1c is a block diagram of an encoding device in accordance with a further aspect of the present invention;
Фиг.2а - блок-схема устройства кодирования в соответствии со вторым аспектом данного изобретения;Fig. 2a is a block diagram of an encoding device in accordance with a second aspect of the present invention;
Фиг.2b - схематическая диаграмма устройства декодирования в соответствии со вторым аспектом данного изобретения;Fig.2b is a schematic diagram of a decoding device in accordance with a second aspect of the present invention;
Фиг.2с - блок-схема устройства кодирования в соответствии с дальнейшим аспектом данного изобретения;Fig. 2c is a block diagram of an encoding device in accordance with a further aspect of the present invention;
Фиг.3а иллюстрирует блок-схему устройства кодирования в соответствии с дальнейшим аспектом данного изобретения;Fig. 3a illustrates a block diagram of an encoding apparatus in accordance with a further aspect of the present invention;
Фиг.3b иллюстрирует блок-схему устройства декодирования в соответствии с дальнейшим аспектом данного изобретения;Fig. 3b illustrates a block diagram of a decoding apparatus in accordance with a further aspect of the present invention;
Фиг.3с иллюстрирует схематическое представление устройства/метода кодирования с каскадными выключателями;Fig. 3c illustrates a schematic representation of an encoding device / method with cascading switches;
Фиг.3d иллюстрирует схематическую диаграмму устройства или метода декодирования, в котором используются каскады объединителей;Fig. 3d illustrates a schematic diagram of a device or decoding method in which combiner stages are used;
Фиг.3е иллюстрирует сигнала на временном интервале и соответствующее представление кодированного сигнала, иллюстрирующего короткие пересекающиеся области, которые включены в оба кодированных сигнала;Fig. 3e illustrates a signal in a time slot and a corresponding representation of an encoded signal illustrating short intersecting regions that are included in both encoded signals;
Фиг.4а иллюстрирует блок-схему с выключателем, помещенным перед каналами кодирования;Fig. 4a illustrates a block diagram with a switch placed in front of coding channels;
Фиг.4b иллюстрирует блок-схему устройства кодирования с выключателем, помещенным за каналами кодирования;Fig. 4b illustrates a block diagram of an encoding device with a switch located behind the encoding channels;
Фиг.5а иллюстрирует форму волны речевого сегмента на временном интервале как квазипериодический или подобный импульсу сегмент сигнала;Fig. 5a illustrates the waveform of a speech segment over a time interval as a quasiperiodic or pulse-like signal segment;
Фиг.5b иллюстрирует спектр сегмента фиг.5а;Fig. 5b illustrates the spectrum of the segment of Fig. 5a;
Фиг.5с иллюстрирует не голосовой сегмент на временном интервале, как, например, сегмент, подобный шуму;Fig. 5c illustrates a non-voice segment in a time interval, such as, for example, a segment similar to noise;
Фиг.5d иллюстрирует спектр временного интервала фиг.5с;Fig. 5d illustrates the spectrum of the time interval of Fig. 5c;
Фиг.6 иллюстрирует блок-схему кодирующее устройство CELP анализа через синтез;6 illustrates a block diagram of a CELP synthesis analysis encoder;
Фиг.7а и 7d иллюстрируют обладающие голосом/не обладающие голосом сигналы возбуждения, как, например, подобные импульсу сигналы;Figures 7a and 7d illustrate voice / non-voice excitation signals, such as, for example, pulse-like signals;
Фиг.7е иллюстрирует часть кодирующего устройства стадия LPC, предоставляющая краткосрочную информацию о предсказании и ошибку предсказания (возбуждения) сигнал;Fig. 7e illustrates a portion of an encoder LPC stage providing short-term prediction information and a prediction (excitation) error signal;
Фиг.7f иллюстрирует дальнейшее воплощение устройства LPC для того, чтобы сформировать взвешенный сигнал;Fig.7f illustrates a further embodiment of the LPC device in order to generate a weighted signal;
Фиг.7g иллюстрирует устройство для преобразования взвешенного сигнала в сигнал возбуждения путем применения обратной операции "взвешивания" и последующего анализа возбуждения, как требуется в преобразователе 537 на фиг.2b;FIG. 7g illustrates a device for converting a weighted signal to an excitation signal by applying the inverse “weighting” operation and then analyzing the excitation as required in
Фиг.8 иллюстрирует блок-схему объединенного многоканального алгоритма в соответствии с решением данного изобретения;Fig. 8 illustrates a block diagram of a combined multi-channel algorithm in accordance with a solution of the present invention;
Фиг.9 иллюстрирует предпочтительное решение для алгоритма расширения полосы частот;9 illustrates a preferred solution for a bandwidth extension algorithm;
Фиг.10а иллюстрирует подробное описание переключателя, выполняющего решение разомкнутого контура; и иллюстрирует переключатель, работающий в алгоритме замкнутого контура;Fig. 10a illustrates a detailed description of a switch performing an open loop solution; and illustrates a switch operating in a closed loop algorithm;
Фига 11А иллюстрирует блок-схему аудио кодирующего устройства в соответствии с другим аспектом данного изобретения;Fig. 11A illustrates a block diagram of an audio encoder in accordance with another aspect of the present invention;
Фиг.11В иллюстрирует блок-схему другого решения предлагаемого аудио декодера;11B illustrates a block diagram of another solution of the proposed audio decoder;
Фиг.12А иллюстрирует другое решение предлагаемого кодирующего устройства;Figa illustrates another solution of the proposed encoding device;
Фиг.12В иллюстрирует другое решение предлагаемого декодера;Figv illustrates another solution of the proposed decoder;
Фиг.13А иллюстрирует взаимосвязь между разрешением и длиной окна/преобразования;13A illustrates the relationship between resolution and window / transform length;
Фиг.13В иллюстрирует обзор ряда окон преобразования для первого кодирующего канала и переход от первого ко второму кодирующему каналу;13B illustrates an overview of a series of transform windows for a first coding channel and a transition from a first to a second coding channel;
Фиг.13С иллюстрирует множество различных последовательностей окон, включая последовательность окон для первого кодирующего канала и последовательность для перехода ко второму каналу;13C illustrates many different window sequences, including a window sequence for a first coding channel and a sequence for transitioning to a second channel;
Фиг.14А иллюстрирует создание предпочтительного решения для второго кодирующего канала;Figa illustrates the creation of a preferred solution for the second coding channel;
Фиг.14В иллюстрирует короткие окна, примененные во втором кодирующем канале;14B illustrates short windows applied in a second coding channel;
Фиг.14С иллюстрирует окна среднего размера, примененные во втором кодирующем канале;Fig. 14C illustrates medium-sized windows applied in a second coding channel;
Фиг.14D иллюстрирует длинные окна, примененные во втором канале кодирования;Fig.14D illustrates the long windows used in the second coding channel;
Фиг.14Е иллюстрирует типичную последовательность фреймов ACELP и фреймов ТСХ в пределах суперфрейма;Fig. 14E illustrates a typical sequence of ACELP frames and TLC frames within a superframe;
Фиг.14F иллюстрирует различные длины преобразования, соответствующие различным разрешениям времени/частоты для второго канала кодирования; иFig. 14F illustrates various transform lengths corresponding to different time / frequency resolutions for a second encoding channel; and
Фиг.14G иллюстрирует конструкцию окна с использованием определений фиг.14F.Fig.14G illustrates the construction of the window using the definitions of fig.14F.
Фиг.11А иллюстрирует решение аудио кодирующего устройства для того, чтобы закодировать аудио сигнал. Кодирующее устройство включает первый канал кодирования 400 для того, чтобы закодировать аудио сигнал, используя первый кодирующий алгоритм, чтобы получить первый закодированный сигнал.11A illustrates a solution of an audio encoder in order to encode an audio signal. The encoder includes a
Аудио кодирующее устройство, кроме того, включает второй канал кодирования 500 для того, чтобы закодировать аудио сигнал, используя второй кодирующий алгоритм, чтобы получить второй закодированный сигнал. Первый кодирующий алгоритм отличается от второго кодирующего алгоритма. Дополнительно, первый переключатель 200, выполненный с возможностью переключиться между первым кодирующим каналом и вторым кодирующим каналом так, чтобы для части аудио сигнала или первый закодированный сигнал, или второй закодированный сигнал были в кодированном выходном сигнале 801.The audio encoder further includes a
Аудио кодирующее устройство, иллюстрированное на фиг.11А дополнительно, включает анализатор сигнала 300/525, который выполнен с возможностью проанализировать часть аудио сигнала, чтобы определить, представлена ли часть аудио сигнала как первый кодируемый сигнал или второй кодируемый сигнал в кодированном выходном сигнале 801.The audio encoder illustrated in FIG. 11A further includes a 300/525 signal analyzer, which is configured to analyze a portion of the audio signal to determine whether a portion of the audio signal is represented as a first encoded signal or a second encoded signal in encoded output signal 801.
Анализатор сигнала 300/525, кроме того, выполнен с возможностью определять соответствующее непостоянное разрешение времени/частоты первого преобразователя 410 в первом кодирующем канале 400 или втором преобразователе 523 во втором кодирующем канале 500. Данное разрешение применено, когда сформирован первый кодируемый сигнал или второй кодируемый сигнал, представляющий часть аудио сигнала.The
Аудио кодирующее устройство дополнительно включает выходной интерфейс 800 для того, чтобы сформировать кодированный выходной сигнал 801, состоящий из кодированного представления части аудио сигнала и информации, указывающей, является ли представление аудио сигнала первым закодированным сигналом или вторым закодированным сигналом, и указанием на разрешение времени/частоты, используемое для того, чтобы декодировать первый закодированный сигнал и второй закодированный сигнал.The audio encoder further includes an
Второй канал кодирования обычно отличается от первого канала кодирования тем, что второй канал кодирования дополнительно включает преобразователь области для того, чтобы преобразовать аудио сигнал из области, в которой аудио сигнал обрабатывается в первом канале кодирования, в другую область. Обычно преобразователь области - процессор LPC 510, но преобразователь области может быть осуществлен любым другим способом, до тех пор, пока преобразователь области отличается от первого преобразователя 410 и второго преобразователя 523.The second encoding channel usually differs from the first encoding channel in that the second encoding channel further includes a region converter in order to convert the audio signal from the region in which the audio signal is processed in the first encoding channel to another region. Typically, the area converter is an
Первый преобразователь 410 является преобразователем времени/частоты, обычно включающим формирователь окна 410а и преобразователь 410b. Формирователь окна 410а применяет аналитическое окно к входному аудио сигналу, и преобразователь 410b выполняет преобразование сигнала в сформированном окне в спектральное представление.The
Аналогично, второй преобразователь 523 обычно включает формирователь окна 523а, последовательно соединенный с преобразователем 523b. Формирователь окна 523а получает сигнал, сформированный преобразователем 510, и формирует обработанное функцией окна представление сигнала. Выходные данные формирователя окна 523а поступают на преобразователь 523b, чтобы сформировать спектральное представление. Преобразователь может быть FFT или предпочтительно процессором MDCT, осуществляющим соответствующий алгоритм с использованием программного обеспечения или аппаратных средств или смешанного использования аппаратных средств/программного обеспечения. Альтернативно, преобразователь может быть банк фильтров, выполненный как QMF банк фильтров, который может быть основан на действительной или комплексной модуляции фильтра прототипа. Для реализации определенного банка фильтров используется окно. Однако, для реализации другого банка фильтров, обработка функцией окна, как это требуется для алгоритма преобразования, основанного на FFT MDCT, не является необходимой. Когда используется банк фильтров, тогда банк фильтров имеет переменное разрешение, и это разрешение управляет разрешением по частоте банка фильтров, и дополнительно, разрешением по времени или только разрешением по частоте. Однако когда преобразователь осуществлен как FFT или MDCT или любой другой соответствующий преобразователь, тогда разрешение по частоте связано с разрешением по времени, при этом увеличение разрешения по частоте, полученной с большим размером временного блока автоматически, соответствует более низкому разрешению по времени и наоборот.Similarly, the
Дополнительно, первый канал кодирования может включить блок квантизации/кодирования 421, и второй канал кодирования может также включать один или более инструментов дальнейшего кодирования 524.Additionally, the first encoding channel may include a quantization /
Важно, что анализатор сигнала выполнен с возможностью сформировать управляющий сигнал разрешения для первого преобразователя 510 и для второго преобразователя 523. Таким образом, осуществлен независимый контроль разрешения в обоих кодирующих каналах, чтобы иметь кодирующую схему, которая, с одной стороны, обеспечивает низкий битрейт, и с другой стороны, обеспечивает максимальное качество при низком битрейт. Чтобы достигнуть низкого битрейт, необходимы более длинные окна или большие длины преобразования, но в ситуациях, когда эти большие длины приведут к искажениям из-за низкого временного разрешения, применяются более короткие длины окна и короткие длины преобразования, которые приводят к более низкому частотному разрешению. Предпочтительно, чтобы в анализаторе сигнала использовался статистический анализ или любой другой анализ, который подходит для соответствующих алгоритмов в каналах кодирования. В одном варианте выполнения, в котором первый канал кодирования является кодирующим каналом в области частот, таким как кодирующее устройство на базе ААС, и в котором второй канал кодирования включает преобразователь области в виде процессора LPC 510, анализатор сигнала, управляя переключателем 200, выполняет разделение речи/музыки так, чтобы речевая часть аудио сигнала поступала во второй канал кодирования. Музыкальная часть аудио сигнала, управляемая переключателем 200, как обозначено линиями управления, поступает в первый канал кодирования 400. Альтернативно, как будет рассмотрено далее на фиг.1C или фиг.4В, переключатель может также быть помещен перед выходным интерфейсом 800.It is important that the signal analyzer is configured to generate a resolution control signal for the
Кроме того, анализатор сигнала может получить аудио сигнал, поступающий на переключатель 200, или аудио сигнал, сформированный переключателем 200. Кроме того, анализатор сигнала выполняет анализ, чтобы к не только подать аудио сигнал в соответствующий канал кодирования, но также определить подходящее разрешение времени/частоты соответствующего преобразователя в соответствующем кодирующем канале, такого как первый преобразователь 410 и второй преобразователь 523, как обозначено линиями управления разрешением, соединяющими анализатор сигнала и преобразователь.In addition, the signal analyzer can receive an audio signal input to the
Фиг.11В включает предпочитаемое воплощение аудио декодера, соответствующего аудио кодирующему устройству на фиг.11А.11B includes a preferred embodiment of an audio decoder corresponding to the audio encoder of FIG. 11A.
Аудио декодер на фиг.11В выполнен с возможностью декодирования закодированного аудио сигнала, такого как кодированный выходной сигнал 801, сформированный выходной интерфейс 800 на фиг.11А. Кодированный сигнал включает первый кодированный аудио сигнал, кодированный в соответствии с первым кодирующим алгоритмом, второй кодированный сигнал, кодированный в соответствии со вторым кодирующим алгоритмом, второй кодирующий алгоритм отличается от первого кодирующего алгоритма, и информацию, указывающую, используются ли первый кодирующий алгоритм или второй кодирующий алгоритм для того, чтобы декодировать первый кодированный сигнал и второй кодированный сигнал, и информацию о разрешении времени/частоты для первого закодированного аудио сигнала и второго закодированного аудио сигнала.The audio decoder of FIG. 11B is configured to decode an encoded audio signal, such as encoded output signal 801, the generated
Аудио декодер включает первый канал декодирования 431, 440 для того, чтобы декодировать первый кодированный сигнал, основанный на первом кодирующем алгоритме. Кроме того, аудио декодер включает второй канал декодирования для того, чтобы декодировать второй кодированный сигнал, используя второй кодирующий алгоритм.The audio decoder includes a
Первый канал декодирования включает первый управляемый преобразователь 440, выполненный с возможностью преобразования из спектральной области во временной интервал. Управляемый преобразователь выполнен с возможностью управления, используя информацию о разрешении времени/частоты от первого кодированного сигнала, чтобы получить первый декодированный сигнал.The first decoding channel includes a first
Второй канал декодирования включает второй управляемый преобразователь, выполненный с возможностью преобразования из спектрального представления во временное представление, второй управляемый преобразователь 534, выполненный с возможностью управления, используя информацию о разрешении времени/частоты 991 для второго кодированного сигнала.The second decoding channel includes a second controllable converter configured to convert from a spectral representation to a temporal representation, a second
Декодер дополнительно включает диспетчер 990 для того, чтобы управлять первым преобразователем 540 и вторым преобразователем 534 в соответствии с информацией о разрешении времени/частоты 991.The decoder further includes a
Кроме того, декодер включает преобразователь области для того, чтобы сформировать синтезируемый сигнал, используя второй декодированный сигнал, чтобы выполнить обратное преобразование, осуществленное преобразователем области 510 в кодирующем устройстве фиг.11А.In addition, the decoder includes a region converter in order to generate a synthesized signal using a second decoded signal to perform the inverse transform performed by the
Обычно преобразователь области 540 является LPC синтезирующим процессором, которым управляют, используя информацию о LPC фильтре, включенную в кодированное сообщение, где эта информация о LPC фильтре была сформирована процессором LPC 510 на фиг.11А и была введена в выходной сигнал кодирующего устройства как сторонняя информация. Аудио декодер, наконец, включает объединитель 600 для того, чтобы объединить первый декодированный сигнал, сформированный первым преобразователем области 440 и синтезированный сигнал, чтобы получить декодированный аудио сигнал 609.Typically, the
В предлагаемом исполнении первый канал декодирования дополнительно включает деквантизатор/декодер 431 для того, чтобы выполнить преобразования, обратные выполненным соответствующим блоком 421 кодирующего устройства. Однако ясно, что квантизация не может быть полностью обратима, так как это операция с потерями информации. Однако деквантизатор полностью обращает определенную неоднородность квантизации, такую как логарифмическая квантизация или квантизация с уплотнением.In the proposed embodiment, the first decoding channel further includes a decanter /
Во втором канале декодирования применена соответствующая стадия 533 для того, чтобы осуществить операции, обратные примененным на стадии 524. Предпочтительно, чтобы стадия 524 включала однородную квантизацию. Поэтому, у соответствующей стадии 533 не будет определенной стадии деквантизации для того, чтобы убрать однородную квантизацию.In the second decoding channel, the
Первый преобразователь 440 так же, как второй преобразователь 534, может включать соответствующие обратные преобразователи 440а, 534а, окна синтеза 440b, 534b, последовательно соединенные с блоком перекрытие/добавление 440с, 534с. Блоки перекрытие/добавление требуются, когда применяются преобразователи, и более определенно, обратные преобразователи 440а, 534а, используют совмещение вводимых преобразований, таких как модифицированное дискретное косинусное преобразование. Тогда, операция перекрытие/добавление выполнит отмену совмещения временного интервала (TDAC). Однако когда применяются преобразователи, не использующие совмещения преобразований, такие как обратное FFT, блок перекрытие/добавление 440с не требуется. В таком исполнении может быть применена операция перекрытия с затуханием или кроссфейд, чтобы избежать возникновения искажений, вызванных разбиением на блоки.The
Аналогично, объединитель 600 может быть переключаемым объединителем или обеспечивать кроссфейд, или использовать совмещение для того, чтобы избежать искажений, вызванных разбиением на блоки, когда объединителем осуществляется переход с обработкой функцией окна, подобно блоку, осуществляющему перекрытие/добавление в пределах текущего кодирующего канала.Similarly,
Фиг.1а иллюстрирует решение изобретения, имеющего два каскада переключателей. Моно сигнал, сигнал стерео или многоканальный сигнал подаются на переключатель 200. Переключателем 200 управляет блок 300. На вход блока выбора поступает подаваемый на вход переключателя 200. Альтернативно, блок 300 решения может также получить стороннюю информацию, которая включена в моно сигнал, сигнал стерео или многоканальный сигнал или, по крайней мере, связана с сигналом, где существует эта информация, которая может быть, например, сформирована первоначально при формировании моно сигнала, сигнала стерео или многоканального сигнала.Figa illustrates a solution to the invention having two stages of switches. A mono signal, a stereo signal, or a multi-channel signal are supplied to switch 200. The
Блок выбора/анализатор сигнала 300 приводит в действие выключатель 200, чтобы сформировать сигнал в канале кодирования частотной области 400, иллюстрированном в верхней части фиг.1а, или в канале LPC кодирования 500, иллюстрированном в нижней части фиг.1а. Основной элемент канала кодирования частотной области - это блок спектрального преобразования 410, который служит для преобразования общего выходного сигнала стадии предварительной обработки (как будет обсуждено позже) в спектральную область. Блок спектрального преобразования может включать алгоритм MDCT, QMF, алгоритм FFT, вейвлет анализ или банк фильтров, такой как банк фильтров с критической выборкой, имеющий определенное число каналов, где сигналы подполос в этом банке фильтров могут быть реальными сигналами или комплексными сигналами. Выходные данные блока спектрального преобразования 410 кодируются с использованием спектрального аудио кодирующего устройство 421, которое может включать блоки обработки, известные из схемы кодирования ААС.The selector /
Вообще, обработка в канале 400 является обработкой, базирующейся на модели восприятия или информационной модели слуха. Таким образом, этот канал моделирует человеческий аудиторный звук, получаемый системой. Обратное к этому - это обработка в канале 500, которая должна сформировать сигнал возбуждения, разностный или области LPC. Вообще, обработка в канале 500 является обработкой на базе речевой модели или модели формирования информации. Для речевых сигналов этой моделью является модель системы, формирующей человеческую речь/звук. Если, однако, звук поступает из различных источников, требующих различных моделей формирования звука, который должен быть закодирован, то обработка в канале 500 может отличаться.In general, the processing in
В канале кодирования 500 основной элемент - это устройство LPC 510, формирующее информацию LPC, которая используется для того, чтобы управлять параметрами LPC фильтра. Эта LPC информация передается в декодер. Выходной сигнал LPC процессора 510 - это сигнал LPC-области, который состоит из сигнала возбуждения и/или взвешенного сигнала.In
LPC процессор вообще формирует сигнал области LPC, который может быть любым сигналом в области LPC, таким как сигнал возбуждения на фиг.7е, или взвешенным сигналом на фиг.7f, или любым другим сигналом, который был сформирован, с применением коэффициентов LPC фильтра к аудио сигналу. Кроме того, устройство LPC может также определить эти коэффициенты и может также квантовать/кодировать эти коэффициенты.The LPC processor generally generates an LPC region signal, which can be any signal in the LPC region, such as the excitation signal in FIG. 7e, or a weighted signal in FIG. 7f, or any other signal that was generated using the filter LPC coefficients for the audio signal. In addition, the LPC device can also determine these coefficients and can also quantize / code these coefficients.
Решение в блоке выбора может быть адаптивным сигналом так, чтобы блок выбора выполнил разделение музыки/речи и управлял переключателем 200 таким способом, при котором музыкальные сигналы поступают в первый канал 400, а речевые сигналы поступают во второй канал 500. В одном решении информация о выборе блока выбора поступает в выходной битовый так, чтобы декодер мог использовать эту информацию о выборе, для выполнения правильных операций по декодированию.The decision in the selection unit may be an adaptive signal so that the selection unit performs music / speech separation and controls the
Такой декодер иллюстрирован на фиг.1b. Сигнал, сформированный спектральным аудио кодирующим устройством 421, является после передачи входным для спектрального аудио декодера 431. Выходной сигнал спектрального аудио декодера 431 поступает на преобразователь во временную область 440. Аналогично, выходной сигнал канала кодирования LPC области 500 на фиг.1а поступает на декодер и обрабатывается элементами 531, 533, 534, и 532 для того, чтобы получить сигнал возбуждения LPC. Сигнал возбуждения LPC поступает на блок 540 LPC синтеза, который получает, на другой вход, информацию LPC, сформированную соответствующим аналитическим этапом LPC 510. Выходной сигнал преобразование во временную область 440 и/или выходной сигнал блок 540 LPC синтеза поступает на переключатель 600. Переключателем 600 управляет управляющий сигнал переключателя, который был, например, сформирован блоком выбора/анализа сигнала 300, или который обеспечен извне формирователем оригинального моно сигнала, сигнала стерео или многоканального сигнала. Выходной сигнал переключателя 600 является полным моно сигналом, сигналом стерео или многоканальным сигналом.Such a decoder is illustrated in FIG. 1b. The signal generated by the
Входной сигнал переключателя 200 и блока выбора/анализа сигнала 300 может быть моно сигналом, стерео сигналом, многоканальным сигналом или вообще аудио сигналом. В зависимости от выбора, который может быть получен из переключателя входных сигналов 200 или из любого внешнего источника, такого как формирователь оригинального аудио сигнала, лежащего в основе входного сигнала переключателя 200, осуществляется переключение между каналом кодирования частоты 400 и LPC, кодирующим каналом 500. Канал кодирования частоты 400 включает блок спектрального преобразования 410, соединенный с блоком 421 квантования/кодирования. Блок квантования/кодирования может включать любую из функциональностей известных от современных кодирующих устройств области частот, таких как кодирующее устройство ААС. Кроме того, операцией по квантизации в блоке 421 квантования/кодирования можно управлять через физикоакустический модуль, который формирует физикоакустическую информацию, такую как маскирующий физикоакустический частотный порог, которая поступает на блок 421.The input signal of the
В LPC, кодирующем канале, выходной сигнал переключателя обработан LPC процессором 510, формирующим стороннюю LPC информацию и сигнал LPC-области. Кодирующее устройство возбуждения интелектуально включает дополнительный переключатель для того, чтобы переключить дальнейшую обработку сигнала LPC-области между операцией по квантизации/кодированию 522 в LPC-области или блоком 524 квантизации/кодирования, который обрабатывает данные в LPC-спектральной области. С этой целью спектральный преобразователь 523 установлен на входе блока 524 квантования/кодирования. Переключателем 521 управляют режимом разомкнутого контура или режимом замкнутого контура в зависимости от определенных параметров настройки, таких как, например, описанных в технической спецификации AMR-WB+.In the LPC coding channel, the output of the switch is processed by the
Для режима управления замкнутого контура кодирующее устройство дополнительно включает обратное преобразование квантования/кодирования 531 для сигнала области LPC, обратное преобразование квантования/кодирования 533 для спектрального сигнала области LPC и обратного спектрального преобразователя 534 для выходного сигнала блока 533. Закодированный и снова расшифрованный сигналы во вторых каналах обработки подаются на устройство управления переключателем 525. В устройстве управления переключателем 525 эти два выходных сигнала сравниваются друг с другом и/или с целевой функцией или с целевой функцией, вычисленной на основе сравнения искажения в обоих сигналах так, чтобы использовался сигнал, имеющий более низкое искажение, для того, чтобы решить, как управлять переключателем 521. Альтернативно, в случае, если оба канала обеспечивают непостоянные битрейты, может быть выбран канал, обеспечивающий более низкий битрейт, даже когда отношение сигнал/шум этого канала ниже, чем отношение сигнал/шум другого канала. Альтернативно, целевая функция может использовать на входе отношение сигнал/шум каждого сигнала и битрейт каждого сигнала и/или дополнительные критерии, чтобы найти лучшее решение для определенной цели. Если, например, цель такова, что битрейт должен быть настолько низким, насколько возможно, то целевая функция в большой степени основывалась бы на битрейте двух сигналов, сформированных элементами 531, 534. Однако, когда главная цель состоит в том, чтобы иметь высшее качество для определенного битрейта, тогда управление переключателем 525 могло бы, например, исключить сигнал, который имеет битрейт выше допустимого битрейта, и если оба сигнала имеют битрейт ниже допустимого битрейта, управление переключателем выбрало бы сигнал, имеющий лучшее отношение сигнал/шум, то есть имеющий меньшие искажения квантизации/кодирования.For the closed loop control mode, the encoder further includes an inverse quantization / encoding transform 531 for the LPC domain signal, an inverse quantization / encoding transform 533 for the LPC domain spectral signal and an inverse
Схема декодирования в соответствии с данным изобретением, как заявлено прежде, иллюстрирована на фиг.1b. Для каждого из трех возможных видов выходного сигнала существует определенный блок декодирования/деквантизации 431, 531 или 533. В то время как блок 431 формирует спектр временного интервала, который преобразуется во временной интервал, используя преобразователь частоты/времени 440, блок 531 формирует сигнал LPC-области, и блок 533 формирует LPC-спектр. Для обеспечения того, чтобы входные сигналы, подаваемые на переключатель 532, находились в LPC-области, установлен LPC-спектр/LPC-преобразователь 534. Выходные данные переключателя 532 преобразуются обратно во временной интервал, используя блок 540 синтеза LPC, которым управляет информация, сформированная и переданная кодирующим LPC устройством. Тогда, за блоком 540, в обоих каналах есть информация о временном интервале, которая переключена в соответствии с управляющим сигналом переключателя, чтобы получить окончательный аудио сигнал, такой как моно сигнал, сигнал стерео или многоканальный сигнал, который зависит от входного сигнала в схему кодирования на фиг.1а.The decoding scheme in accordance with this invention, as stated previously, is illustrated in fig.1b. For each of the three possible types of output signal, there is a specific decoding /
Фиг.1с иллюстрирует дальнейшее воплощение с различным расположением переключателя 521 подобно принципу, иллюстрированному на фиг.4b.Fig. 1c illustrates a further embodiment with a different arrangement of
Фиг.2а иллюстрирует предпочтительную схему кодирования в соответствии со вторым аспектом изобретения. Общая схема предварительной обработки, соединенная с входом переключателя 200, может включать блок окружающего/объединенного стерео 101, который формирует на выходе параметры объединенного стерео и моно выходной сигнал, который сформирован путем понижающего микширования входного сигнала, который является сигналом, имеющим два или больше канала. Вообще, сигнал, формируемый на выходе блока 101, может также быть сигналом, имеющим больше каналов, но из-за функциональности понижающего микширования блока 101, число каналов на выходе блока 101 будет меньшим, чем число входных каналов в блок 101.Fig. 2a illustrates a preferred coding scheme in accordance with a second aspect of the invention. The general pre-processing circuitry connected to the input of the
Общая схема предварительной обработки может включить альтернативно блоку 101 или в дополнение к блоку 101 блок 102 расширения полосы частот. В решении на фиг. 2а выходной сигнал блока 101 поступает на блок 102 расширения полосы частот, который, в кодирующем устройстве на фиг.2а, формирует на выходе сигнал с ограниченной полосой, такой как низкочастотный сигнал. Как правило, этот сигнал дискретизируется с более низкой частотой (например, с частотой в два раза ниже). Кроме того, для высокочастотного входного сигнала в блок 102, формируются и форматируются в поток битов мультиплексором 800 параметры расширения полосы частот, такие как параметры огибающей спектра, обратные параметры фильтрации, параметры уровня шума и т.д., известные из НЕ-ААС характеристики MPEG-4.The general preprocessing scheme may include, alternatively to block 101, or in addition to block 101, a
Как правило, блок выбора/анализа сигнала 300 получает входной сигнал в блок 101 или в блок 102, чтобы выбрать между, например, режимом музыки или режимом речи. В режиме музыки выбирается верхний канал кодирования 400, в то время как в режиме речи выбирается нижний канал кодирования 500. Как правило, блок выбора/анализа сигнала дополнительно управляет блоком 101 окружающее/объединенное стерео и/или блоком 102 расширения полосы частот, чтобы адаптировать функциональность этих блоков к определенному сигналу. Таким образом, когда блок выбора/анализа сигнала решает, что определенная временная часть входного сигнала относится к первому режиму, такому как музыкальный режим, то определенными особенностями блока 101 и/или блока 102 может управлять блок выбора/анализа сигнала 300. Альтернативно, когда блок выбора/анализа сигнала 300 решает, что сигнал относится к режиму речи или, вообще, к LPC-области, тогда определенными особенностями блоков 101 и 102 можно управлять в соответствии выходным сигналом блока выбора/анализа сигнала.Typically, the signal selection /
Предпочтительно, чтобы спектральное преобразование кодирующего канала 400 было сделано с использованием операции MDCT, которая, еще более предпочтительно, является операцией MDCT с искажением времени, где искажением можно управлять между нолем и высокой величиной искажения. В нулевом искажении операция MDCT с искажением времени в блоке 411 - это обычная, известная в технике, операция MDCT. Величина искажения времени вместе со сторонней информацией в искаженном времени может быть передана/введена в битовый поток мультиплексором 800 как сторонняя информация.Preferably, the spectral conversion of the
В LPC кодирующем канале кодирующее устройство LPC-области может включать ядро ACELP 526, вычисляющее передачу основного тона, интервал основного тона и/или информацию кодовой таблицы, такую как индекс кодовой таблицы и передача. Режим ТСХ, известный из 3GPP TS 26.290, включает обработку перцепционно взвешенного сигнала в области преобразования. Фурье преобразованный, взвешенный сигнал квантуется с использованием многоуровневой квантизирующей решетки (алгебраический VQ) и шумового фактора квантизации. Преобразование вычисляется в окнах длиной 1024, 512, или 256 отсчетов. Сигнал возбуждения восстанавливается с использованием обратной фильтрации путем пропускания квантованного взвешенного сигнала через фильтр обратного взвешивания.In the LPC coding channel, the LPC area encoder may include an
В первом кодирующем канале 400 спектральный преобразователь предпочтительно включает адаптированную операцию MDCT, включающую определенные оконные функции, следующие за стадией квантизации/кодирования, которая может состоять из единственной векторной стадии квантизации, но предпочтительно является объединенным скалярным квантизация/энтропия кодировщиком, подобным блоку квантизации/кодирования в кодирующем канале частотной области, то есть в блоке 421 на фиг.2а.In the
Во втором кодирующем канале есть блок 510 LPC с последующим переключателем 521, за которым следует блок 526 ACELP или блок 527 ТСХ. ACELP описан в 3GPP, TS 26.190 и ТСХ описан в 3GPP TS 26.290. В общем, блок 526 ACELP получает сигнал возбуждения LPC, который вычислен процедурой, описанной на фиг.7е. Блок 527 ТСХ получает взвешенный сигнал, как показано на фиг.7f.In the second coding channel, there is an
В ТСХ преобразование применено к взвешенному сигналу, вычисленному, пропуская входной сигнал через фильтр взвешивания на базе LPC. В фильтре взвешивания используется решение изобретения, даваемое выражением (1-A(z/γ))/(1-µz-1). Таким образом, взвешенный сигнал - это сигнал области LPC, и его преобразование - это LPC-спектральная область. Сигнал, обработанный блоком ACELP 526, является сигналом возбуждения и отличается от сигнала, обработанного блоком 527, но оба сигнала находятся в LPC области.In TLC, the conversion is applied to a weighted signal calculated by passing an input signal through an LPC-based weighting filter. The weighting filter uses the solution of the invention given by the expression (1-A (z / γ)) / (1-µz -1 ). Thus, the weighted signal is the signal of the LPC region, and its conversion is the LPC spectral region. The signal processed by
В стороне декодера, иллюстрированной на фиг.2b, после обратного спектрального преобразования в блоке 537, применена обратная фильтрация весовых коэффициентов, так что (1-µz-1)/(1-A(z/γ)). Затем сигнал фильтруется путем (1-А(z)), чтобы попасть в область LPC возбуждения. Таким образом, преобразование в блоке 534 области LPC и блоке 537 ТСХ-1, включающем обратное преобразование и затем фильтрацию посредством
Хотя блок 510 в фиг.1а, 1с, 2а, 2с иллюстрирует единственный блок, блок 510 может сформировать различные сигналы, пока эти сигналы находятся в области LPC. Фактический режим блока 510, такой как режим сигнала возбуждения или режим взвешенного сигнала, может зависеть от фактического положения переключателя. Альтернативно, у блока 510 может быть два параллельных устройства обработки, где одно устройство осуществлено подобно, изображенному на фиг.7е, и другое устройство осуществлено, как показано на фиг.7f. Следовательно, область LPC на выходе блока 510 может представлять или сигнал возбуждения LPC, или LPC взвешенный сигнал, или любой другой сигнал области LPC.Although
Предпочтительно, чтобы во втором канале кодирования (ACELP/TCX) фиг.2а или 2с сигнал перед кодированием предварительно обрабатывался фильтром 1-0.68z-1, создающим предискажения. В декодере ACELP/TCX, изображенном на фиг.2b, синтезируемый сигнал обрабатывается обратным фильтром 1/(1-0.68z~1), устраняющим эти предискажения. Предискажения могут формироваться в блоке 510 LPC, где сигнал предварительно предискажен перед анализом LPC и квантизацией. Точно так же устранение предискажений может быть частью блока LPC-1 540 синтеза LPC.Preferably, in the second coding channel (ACELP / TCX) of FIGS. 2a or 2c, the signal is pre-processed by the 1-0.68z -1 filter, which generates biases, before encoding. In the ACELP / TCX decoder shown in FIG. 2b, the synthesized signal is processed by an
Фиг.2с иллюстрирует дальнейшее решение для реализации устройства на фиг.2а, но с другим расположением переключателя 521 подобно схеме на фиг.4b.Fig. 2c illustrates a further solution for implementing the device of Fig. 2a, but with a different arrangement of the
В предпочтительном решении первым переключателем 200 (см. фиг.1а или 2а) управляют посредством решения разомкнутого контура (как показано на фиг.4а), и вторым переключателем управляют посредством решения с замкнутого контура (как показано на рисунке 4b).In a preferred solution, the first switch 200 (see FIGS. 1a or 2a) is controlled by an open loop solution (as shown in FIG. 4a), and the second switch is controlled by a closed loop solution (as shown in Figure 4b).
Например, на фиг.2с, второй выключатель расположен после блоков ACELP и ТСХ, как показано на фиг.4b. Тогда, в первом канале обработки, первая область LPC представляет возбуждение LPC, и во втором канале обработки, вторая область LPC представляет LPC взвешенный сигнал. Таким образом, первый сигнал области LPC получен путем фильтрации (1-А(z)), чтобы преобразовать его в разностный сигнал LPC области, в то время как второй сигнал LPC области получен с использованием фильтра (1-A(z/γ))/(1-µz-1), чтобы преобразовать сигнал во взвешенный в LPC области.For example, in FIG. 2c, a second switch is located after the ACELP and TLC units, as shown in FIG. 4b. Then, in the first processing channel, the first LPC region represents the LPC excitation, and in the second processing channel, the second LPC region represents the LPC weighted signal. Thus, the first signal of the LPC region is obtained by filtering (1-A (z)) to convert it to a difference signal of the LPC region, while the second signal of the LPC region is obtained using the filter (1-A (z / γ)) / (1-µz -1 ) to convert the signal to a weighted one in the LPC area.
Фиг.2b иллюстрирует схему декодирования, соответствующую схеме кодирования на фиг.2а. Битовый поток, сформированный мультиплексором битового потока 800, изображенным на фиг. 2а, является входным битовым потоком демультиплексора 900. В зависимости от информации, полученной, например, из битового потока в блоке определения режима 601, управляют выключателем со стороны декодера 600, чтобы или отправить сигналы от верхнего канала, или сигналы от нижнего канала к блоку 701 расширения полосы частот. Блок 701 расширения полосы частот получает от мультиплексора битового потока 900 стороннюю информацию и, на основании этой сторонней информации и выходного сигнала блока определения режима 601, восстанавливает высокочастотную полосу, основанную на выходном сигнале низкочастотной полосы переключателя 600.Fig. 2b illustrates a decoding scheme corresponding to the coding scheme in Fig. 2a. The bitstream generated by the
Сигнал с полной полосой, сформированный блоком 701, поступает на объединенный блок 702 обработки объединенного стерео/окружения, который восстанавливает два канала стерео или несколько мультиканалов. Вообще, блок 702 формирует больше каналов, чем было введено в этот блок. В зависимости от применения, вход в блок 702 может даже включать два канала, такие как в стерео режиме, и может даже включать больше каналов, пока на выходе этого блока больше каналов, чем на входе в этот блок.The full-band signal generated by
Переключатель 200, как показано, переключается между обоими каналами так, чтобы только один канал получает обрабатываемый сигнал, а другой канал не получает обрабатываемый сигнал. В альтернативном решении, однако, переключатель может также быть установлен, например, за аудио кодирующим устройством 421 и кодирующим устройством возбуждения 522, 523, 524, что означает, что оба канала 400, 500 обрабатывают тот же самый сигнал параллельно. Чтобы не удвоить битрейт, выбирается только сигнал, сформированный одним из кодирующих каналов 400 или 500, для записи в выходной битовый поток. Блок выбора будет тогда работать так, чтобы сигнал, записанный в выходной битовый поток, минимизировал определенную функцию стоимости, где функция стоимости может быть сформированным битрейтом, или созданным перцепционным искажением, или комбинированной функцией стоимости битрейт/перцепционное искажение. Поэтому, или в этом режиме или в режиме, иллюстрированном на рисунках, блок выбора может также работать в методе замкнутого контура, чтобы удостовериться, что в битовый поток записан только выходной сигнал того канала кодирования, который имеет для данного перцепционного искажения самый низкий битрейт или, для данного битрейта, имеет самое низкое перцепционное искажение. В методе замкнутого контура вход обратной связи может быть получен из выходных сигналов трех блоков квантизатор/счетчика 421, 522 и 424, изображенных на фиг.1а.The
В решении, имеющем два переключателя, то есть первый переключатель 200 и второй выключатель 521, предпочтительно, чтобы временное разрешение для первого переключателя было ниже, чем временное разрешение для второго выключателя. Заявленные по-другому, блоки входного сигнала в первый переключатель, который может быть переключен через операцию по переключению, больше чем блоки, переключенные вторым переключателем, работающим в LPC-области. Например, частотная область/LPC-область, переключаемая 200, может переключить блоки длины 1024 отсчетов, а второй переключатель 521 может переключить блоки, имеющие 256 отсчетов каждый.In a solution having two switches, that is, a
Хотя некоторые из фиг.1а-10b иллюстрированы как блок-схемы устройства, эти боки одновременно являются иллюстрацией метода, где функциональность блока соответствуют шагам метода.Although some of figa-10b are illustrated as block diagrams of the device, these sides are simultaneously an illustration of a method where the functionality of the block corresponds to the steps of the method.
Фиг.3а иллюстрирует аудио кодирующее устройство, формирующее закодированный аудио сигнал, как выходной сигнал первого канала кодирования 400 и второго канала кодирования 500. Кроме того, закодированный аудио сигнал предпочтительно включает стороннюю информацию, такую как параметры предварительной обработки с общего уровня предварительной обработки или, как обсуждено в связи с предыдущими рисунками, информацию об управлении переключателем.Fig. 3a illustrates an audio encoder generating an encoded audio signal as an output signal of a
Предпочтительно, первый канал кодирования служит для того, чтобы закодировать аудио промежуточный сигнал 195 в соответствии с первым кодирующим алгоритмом, причем у первого кодирующего алгоритма есть информационная модель слуха. Первый канал кодирования 400 формирует первый выходной сигнал кодирующего устройства, который является закодированным спектральным информационным представлением промежуточного аудио сигнала 195.Preferably, the first coding channel serves to encode the audio
Кроме того, второй канал кодирования 500 выполнен с возможностью кодирования промежуточного аудио сигнала 195 в соответствии со вторым алгоритмом кодирования, второй кодирующий алгоритм, основанный на информационной модели источника и формирования, во втором выходном сигнале кодирующего устройства, закодированные параметры информационной модели источника представляют промежуточный аудио сигнал.In addition, the
Аудио кодирующее устройство, кроме того, включает общую стадию предварительной обработки для предварительной обработки сигнала 99, чтобы сформировать промежуточный аудио сигнал 195. Определенно, общая стадия предварительной обработки служит для того, чтобы обработать водной сигнал 99 так, чтобы промежуточный аудио сигнал 195, то есть результат общего алгоритма предварительной обработки был сжатой версией входного звукового сигнала.The audio encoder further includes a general preprocessing step for preprocessing the
Предпочтительный метод кодирования аудио для того, чтобы сформировать закодированный аудио сигнал, включает шаг кодирования 400, промежуточного аудио сигнала 195 в соответствии с первым кодирующим алгоритмом, первый кодирующий алгоритм, основанный на информационной модели слуха и формирования, в первом выходном сигнале закодирована спектральная информация, представляющая аудио сигнал; шаг 500 является кодированием аудио промежуточного сигнала 195 в соответствии со вторым кодирующим алгоритмом, который основан на информационной модели источника и формирования, во втором выходном сигнале, закодированы параметры информационной модели источника, представляющие промежуточный сигнал 195, и шаг общей предварительной обработки 100 входного звукового сигнала 99, чтобы получить аудио промежуточный сигнал 195, где на шаге общей предварительной обработки входной звуковой сигнал 99 обработан так, чтобы аудио промежуточный сигнал 195 был сжатой версией входного звукового сигнала 99, причем закодированный аудио сигнал включает для определенной части аудио сигнала или первый выходной сигнал или второй выходной сигнал. Метод предпочтительно включает дальнейший шаг, кодирующий определенную часть аудио сигнала промежуточного звена, использующий первый кодирующий алгоритм, или использующий второй кодирующий алгоритм, или кодирующий сигнал с использованием обоих алгоритмов, формируя выходной сигнал как результат обоих алгоритмов, или результат первого кодирующего алгоритма, или результат второго кодирующего алгоритма.A preferred audio encoding method for generating an encoded audio signal includes an
Вообще, алгоритм кодирования аудио, используемый в первом канале кодирования 400, отражает и моделирует ситуацию восприятия аудио. Органом слуха для аудио информации обычно является человеческое ухо. Человеческое ухо может быть смоделировано как анализатор частот. Поэтому, выходной сигнал первого канала кодирования кодирует спектральную информацию. Предпочтительно, первый канал кодирования, кроме того, включает физико-акустическую модель для того, чтобы дополнительно использовать маскирующий физико-акустический порог. Этот маскирующий физико-акустический порог используется, при квантовании аудио спектральных компонент, где предпочтительно, квантизация выполнена таким образом, что вводится шум квантизации при квантовании спектральных аудио компонент, которые скрыты ниже маскирующего физико-акустического порога.In general, the audio encoding algorithm used in the
Второй канал кодирования представляет модель источника информации, которая отражает формирование аудио звука. Поэтому, информационные модели источника могут включать речевую модель, которая отражена аналитическим этапом LPC, то есть этапом преобразования сигнала на временном интервале в область LPC и впоследствии обработки остаточного сигнала LPC, то есть сигнала возбуждения. Альтернативные звуковые модели источника являются звуковыми моделями для того, чтобы представить определенный инструмент или любые другие звуковые генераторы, такие как определенный звуковой источник, существующий в реальном мире. Выбор между различными звуковыми моделями источников может быть выполнен, когда доступны несколько звуковых моделей источников, например, выбор может быть основан на вычислении SNR, то есть на вычислении, которое из моделей источников выбирает лучшую, подходящую для того, чтобы закодировать определенную временную часть/или частотную часть аудио сигнала. Предпочтительно, однако, чтобы переключение между каналами кодирования было выполнено во временном интервале, то есть чтобы определенный временной интервал кодировался с использованием одной модели, и определенный другой временной интервал промежуточного сигнала кодировался с использованием другого канала кодирования.The second coding channel is an information source model that reflects the formation of audio sound. Therefore, source information models can include a speech model that is reflected by the LPC analytic step, that is, the step of converting the signal over a time interval to the LPC region and subsequently processing the residual LPC signal, i.e., the drive signal. Alternative sound source models are sound models for representing a specific instrument or any other sound generators, such as a specific sound source existing in the real world. The choice between different sound source models can be made when several sound source models are available, for example, the choice can be based on SNR calculation, that is, on the calculation which of the source models selects the best one suitable for encoding a certain time part / or frequency part of the audio signal. Preferably, however, the switching between coding channels is performed in a time interval, that is, that a certain time interval is encoded using one model, and a certain other time interval of the intermediate signal is encoded using another encoding channel.
Модели источника информации представлены определенными параметрами. Относительно модели речи параметрами являются параметры LPC и закодированные параметры возбуждения, когда рассматривают современный речевой кодер, такой как AMR-WB+. AMR-WB+ включает кодирующее устройство ACELP и кодирующее устройство ТСХ. В этом случае закодированные параметры возбуждения могут быть глобальной передачей, уровнем шума и кодами переменной длины.Information source models are represented by certain parameters. With respect to the speech model, the parameters are the LPC parameters and the encoded excitation parameters when considering a modern speech encoder such as AMR-WB +. AMR-WB + includes an ACELP encoder and a TLC encoder. In this case, the encoded drive parameters may be global transmission, noise level, and variable length codes.
Фиг.3b иллюстрирует декодер, соответствующий кодирующему устройству, иллюстрированному на фиг.3а. Вообще, фиг.3b иллюстрирует аудио декодер, предназначенный для декодирования закодированный аудио сигнала, чтобы получить декодированный аудио сигнал 799. Декодер включает первый канал декодирования 450 для того, чтобы декодировать кодированный в соответствии с первым кодирующим алгоритмом сигнал, основанный на информационной модели слуха. Аудио декодер, кроме того, включает второй канал декодирования 550 для того, чтобы расшифровать кодированное информационное сообщение в соответствии со вторым кодирующим алгоритмом, основанным на модели источника информации. Аудио декодер, кроме того, включает объединитель для того, чтобы объединить выходные сигналы первого канала декодирования 450 и второго канала декодирования 550, чтобы получить объединенный сигнал. Объединенный сигнал, иллюстрированный на фиг.3b, является декодированным аудио промежуточным сигналом 699, который поступает на общий блок постобработки, обрабатывающий декодированный аудио промежуточный сигнал 699, который является объединенным сигналом, сформированным объединителем 600 так, чтобы выходной сигнал общего блока предварительной обработки был расширенной версией объединенного сигнала. Таким образом, у декодированного аудио сигнала 799 есть расширенное информационное содержание по сравнению с декодированным аудио промежуточным сигналом 699. Это информационное расширение обеспечено общим блоком постобработки с помощью параметров пред/пост обработки, которые могут быть переданы от кодирующего устройства до декодера или которые могут быть получены из расшифрованного аудио промежуточного сигнала непосредственно. Предпочтительно, однако, чтобы параметры пред/пост обработки передавались от кодирующего устройства до декодера, так как эта процедура позволяет улучшенное качество декодированного аудио сигнала.Fig. 3b illustrates a decoder corresponding to the encoding device illustrated in Fig. 3a. In general, FIG. 3b illustrates an audio decoder for decoding an encoded audio signal to obtain a decoded
Фиг.3с иллюстрирует аудио кодирующее устройство для того, чтобы закодировать входной аудио сигнал 195, который может быть равным промежуточному аудио сигналу 195 на фиг.3а в соответствии с предпочтительным решением данного изобретения. Входной аудио сигнал 195 присутствует в первой области, которая может, например, быть временным интервалом, но которая может также быть любой другой областью, такой как область частот, область LPC, спектральная область LPC или любая другая область. Вообще, преобразование от одной области в другую область выполняется конверсионным алгоритмом, таким как любой из известных конверсионных алгоритмов времени/частоты или конверсионных алгоритмов частоты/времени.FIG. 3c illustrates an audio encoder for encoding an
Альтернативное преобразование от временного интервала, например, в область LPC является результатом LPC фильтрования сигнала временного интервала, который приводит к разностному сигналу LPC или сигналу возбуждения. Любые другие операции по фильтрованию, формирующие фильтрованный сигнал, который оказывает влияние на значительное число отсчетов сигнала перед преобразованием, могут использоваться в качестве алгоритма преобразования в зависимости от обстоятельств. Поэтому, взвешивание аудио сигнала, базирующееся на LPC взвешивающем фильтре, является дальнейшим преобразованием, которое формирует сигнал в области LPC. Во временном/спектральном преобразовании изменение единственной спектральной компоненты оказывает влияние на все компоненты временного интервала перед преобразованием. Аналогично, модификация любого отсчета временного интервала окажет влияние на каждый компонент частотной области. Точно так же модификация отсчета сигнала возбуждения в ситуации с областью LPC будет иметь, благодаря длине фильтра LPC, воздействие на значительное число компонентов перед фильтрованием LPC. Точно так же модификация компонента перед преобразованием LPC окажет влияние на многие компоненты, полученные этим LPC преобразованием благодаря внутреннему эффекту памяти фильтра LPC.An alternative conversion from a time slot, for example, to an LPC region, is the result of LPC filtering of the time slot signal, which results in a difference LPC signal or an excitation signal. Any other filtering operations that generate a filtered signal that affects a significant number of signal samples before conversion can be used as a conversion algorithm, depending on the circumstances. Therefore, weighting an audio signal based on an LPC weighting filter is a further transform that generates a signal in the LPC domain. In a time / spectral transformation, a change in a single spectral component affects all components of the time interval before the conversion. Similarly, the modification of any sample of the time interval will affect each component of the frequency domain. Similarly, modifying the excitation signal sample in a situation with the LPC region will, due to the length of the LPC filter, have an effect on a significant number of components before filtering the LPC. Similarly, modifying a component before LPC conversion will affect many of the components obtained by this LPC conversion due to the internal LPC filter memory effect.
Аудио кодирующее устройство на фиг.3с включает первый канал кодирования 400, который формирует первый кодированный сигнал. Этот первый кодированный сигнал может оказаться в четвертой области, которая является, в предпочтительном решении, временной-спектральной областью, то есть областью, которая получается, когда сигнал временного интервала обработан через преобразование время/частота.The audio encoder of FIG. 3c includes a
Поэтому, в первом кодирующем канале 400, предназначенном для кодирования аудио сигнала, используется первый кодирующий алгоритм, чтобы получить первый кодированный сигнал, где этот первый кодирующий алгоритм может включать или, возможно, не включать алгоритм преобразования время/частота.Therefore, in the
Аудио кодирующее устройство, кроме того, включает второй канал кодирования 500 для того, чтобы закодировать аудио сигнал. Во втором канале кодирования 500 используется второй кодирующий алгоритм, который отличается от первого кодирующего алгоритма, чтобы получить второй кодированный сигнал.The audio encoder further includes a
Аудио кодирующее устройство, кроме того, включает первый переключатель 200 для того, чтобы переключиться между первым каналом кодирования 400 и вторым каналом кодирования 500 так, чтобы для части входного аудио сигнала, или первый кодированный сигнал на выходе блока 400, или второй кодированный сигнал на выходе второго канала кодирования были включены в выходной сигнал кодирующего устройства.The audio encoder further includes a
Таким образом, когда для определенной части входного аудио сигнала 195 первый кодированный сигнал в четвертой области включен в выходной сигнал кодирующего устройства, второй кодированный сигнал, который является или первым обработанным сигналом во второй области, или вторым обработанным сигналом в третьей области, не включен в выходной сигнал кодирующего устройства. Это обеспечивает то, что данное кодирующее устройство имеет эффективный битрейт. В решениях любые временные интервалы аудио сигнала, которые включены в два различных кодированных сигнала, являются небольшими по сравнению с длиной фрейма, как будет обсуждено в связи с фиг.3. Эти небольшие части полезны для кроссфейда одного кодированного сигнала сообщения с другим кодируемым сигналом в случае переключения переключателя, чтобы уменьшить искажения, которые могли бы произойти без кроссфейда. Поэтому, кроме интервала плавного наложения сигналов, каждый блок временного интервала представлен кодированным сигналом только единственной области.Thus, when for a certain part of the
Как иллюстрировано на фиг.3с, второй канал кодирования 500 включает преобразователь 510 для того, чтобы преобразовать аудио сигнал в первой области, то есть сигнал 195, во вторую область. Кроме того, второй канал кодирования 500 включает первый канал обработки 522 для того, чтобы обработать аудио сигнал во второй области, чтобы получить первый обработанный сигнал, который является, предпочтительно, находится также во второй области так, что первый канал обработки 522 не осуществляет изменение области.As illustrated in FIG. 3c, the
Второй канал кодирования 500, кроме того, включает второй канал обработки 523, 524, который преобразовывает аудио сигнал во второй области в третью область, которая отличается от первой области и которая также отличается от второй области, и который обрабатывает аудио сигнал в третьей области, чтобы получить второй обработанный сигнал на выходе второго канала обработки 523, 524.The
Кроме того, второй канал кодирования включает второй переключатель 521 для того, чтобы переключиться между первым каналом обработки 522 и вторым каналом обработки 523, 524 так, чтобы для части входного аудио сигнала во второй канал кодирования или первый обработанный сигнал во второй области или второй обработанный сигнал в третьей области были во втором кодированном сигнале.In addition, the second coding channel includes a
Фиг.3d иллюстрирует соответствующий декодер для того, чтобы декодировать закодированный аудио сигнал, сформированный кодирующим устройством на фиг.3с. Вообще, каждый блок аудио сигнала первой области представлен сигналом второй области или сигналом третьей области или кодированным сигналом четвертой области, кроме, возможно, интервала плавного наложения сигналов, который предпочтительно, мал по сравнению с длиной одного фрейма, чтобы получить систему, которая является, насколько это возможно, у критического предела частоты осуществления выборки. Закодированный аудио сигнал включает первый закодированный сигнал, второй закодированный сигнал во второй области и третий закодированный сигнал в третьей области, причем первый закодированный сигнал, второй закодированный сигнал и третий закодированный сигнал, все касаются различных временных частей декодированного аудио сигнала, и, причем вторая область, третья область и первая область для декодированного аудио сигнала отличаются друг от друга.Fig. 3d illustrates a corresponding decoder in order to decode the encoded audio signal generated by the encoder in Fig. 3c. In general, each block of the audio signal of the first region is represented by a signal of the second region or a signal of the third region or an encoded signal of the fourth region, except, possibly, a smooth overlap interval, which is preferably small compared to the length of one frame, to obtain a system that is how much this is possible at the critical limit of the sampling rate. The encoded audio signal includes a first encoded signal, a second encoded signal in a second region and a third encoded signal in a third region, wherein the first encoded signal, the second encoded signal and the third encoded signal all relate to different time portions of the decoded audio signal, and wherein the second region, the third region and the first region for the decoded audio signal are different from each other.
Декодер включает первый канал декодирования для того, чтобы расшифровать сигнал, основанный на первом кодирующем алгоритме. Первый канал декодирования иллюстрирован блоками 431, 440 на фиг.3d и предпочтительно включает преобразователь частота/время. Первый закодированный сигнал находится предпочтительно в четвертой области и преобразуется в первую область, которая является областью для декодированного выходного сигнала.The decoder includes a first decoding channel in order to decrypt a signal based on the first coding algorithm. The first decoding channel is illustrated by
Декодер на фиг.3d, кроме того, включает второй канал декодирования, который включает несколько элементов. Этими элементами являются первый канал обратной обработки 531 для обратного преобразования второго закодированного сигнала и получения обратно обработанного сигнала во второй области на выходе блока 531. Второй канал декодирования, кроме того, включает второй канал обратной обработки 533, 534 для обратной обработки третьего кодированного сигнала, чтобы получить второй обратно обработанный сигнал во второй области, где второй канал обратной обработки включает преобразователь для того, чтобы преобразовать сигнал из третьей области во вторую область.The decoder in FIG. 3d also includes a second decoding channel, which includes several elements. These elements are the first
Второй канал декодирования, кроме того, включает первый объединитель 532 для объединения первого обратно обработанного сигнала и второго обратно обработанного сигнала, чтобы получить сигнал во второй области, где этот объединенный сигнал, в первый момент времени, находится только под влиянием первого обратно обработанного сигнала и, в более поздний момент времени, только под влиянием второго обратно обработанного сигнала.The second decoding channel also includes a
Второй канал декодирования, кроме того, включает преобразователь 540 для того, чтобы преобразовать объединенный сигнал в первую область.The second decoding channel also includes a
Наконец, декодер, иллюстрированный на фиг.3d, включает второй объединитель 600 для того, чтобы объединить первый декодированный сигнал от блоков 431, 440 и выходного сигнала преобразователя 540, чтобы получить декодированный выходной сигнал в первой области. Далее, декодированный выходной сигнал в первой области в первый момент времени находится только под влиянием сигнала, сформированного преобразователем 540, и в более поздний момент времени находится только под влиянием первого декодированного сигнала, сформированного блоками 431,440.Finally, the decoder illustrated in FIG. 3d includes a
Эта ситуация иллюстрирована, с точки зрения кодирующего устройства, представленного на фиг.3е. Верхняя часть фиг.3е иллюстрирует в схематическом представлении аудио сигнал первой области, такой как аудио сигнал временного интервала, где индекс времени увеличивается слева направо, и диаграмму 3 можно было бы рассмотреть как поток аудиосэмплов, представляющих сигнал 195 на фиг.3с. Фиг.3е иллюстрирует фреймы 3а, 3b, 3с, 3d, который может быть сформированы при переключении между первым кодированным сигналом и первым обработанным сигналом и вторым обработанным сигналом, как иллюстрировано на диаграмме 4 на фиг.3е. Первый кодированный сигнал, первый обработанный сигнал и второй обработанный сигнал находятся в различных областях, и чтобы удостовериться, что переключатель между различными областями не приводит к возникновению искажений на стороне декодера, у фреймов 3а, 3b сигнала временного интервала есть плавно накладывающийся диапазон, который обозначен областью кроссфейда, и такая область кроссфейда показана на фреймах 3b и 3с. Однако области кроссфейда нет между фреймами 3d и 3с, что означает, что фрейм 3d также представлен вторым обработанным сигналом, то есть сигналом в третьей области, и нет никакого изменения области между фреймами 3с и 3d. Поэтому, вообще, предпочтено устанавливать область кроссфейда, когда нет изменения области, и устанавливать область кроссфейда, то есть временной интервал аудио сигнала, который кодируется с использованием двух кодированных/обработанных сигналов, когда есть изменение области, т.е. есть переключение любого из двух переключателей. Предпочтительно кроссфейд осуществляется для других изменений области.This situation is illustrated from the point of view of the encoder shown in FIG. The upper part of FIG. 3e illustrates in a schematic representation the audio signal of a first region, such as an audio signal of a time interval, where the time index increases from left to right, and diagram 3 could be considered as a stream of audio samples representing the
В решении, в котором первый кодированный сигнал или второй обработанный сигнал были сформированы процедурой MDCT, имеющей, например, 50-процентное наложение, каждого сэмпла временного интервала, включенного в два последующих фрейма. Из-за особенностей MDCT, однако, это не приводит к переполнению, так как MDCT - критически дискретизирующая система. В этом контексте, критически дискретизирующая система означает, что число спектральных компонент то же самое, что и число сэмплов временного интервала. MDCT выгоден тем, что эффект пересечения обеспечивается без определенной области пересечения, так что пересечение блока MDCT и следующего блока MDCT обеспечивается без переполнения, которое нарушило бы критическое требование осуществления дискретизации.In a solution in which a first encoded signal or a second processed signal was generated by an MDCT procedure, having, for example, 50 percent overlap, of each sample of a time interval included in two subsequent frames. Due to the nature of MDCT, however, this does not lead to overflow, since MDCT is a critically sampled system. In this context, a critically sampling system means that the number of spectral components is the same as the number of samples in a time interval. MDCT is advantageous in that the intersection effect is provided without a defined intersection area, so that the intersection of the MDCT block and the next MDCT block is provided without overflow, which would violate the critical requirement for sampling.
Предпочтительно, чтобы первый кодирующий алгоритм в первом канале кодирования отделении был основан на информационной модели слуха, и второй кодирующий алгоритм во втором канале кодирования был основан на модели источника информации или SNR модели. Модель SNR определенно не связана с определенным механизмом формирования звука, но она является одним способом кодирования, который может быть выбран среди множества способов кодирования, базирующихся, например, на решении замкнутого контура. Таким образом, модель SNR - это любая доступная модель кодирования, но которая не обязательно должна быть связана с физической природой генератора звука, которая является любой параметризованной моделью кодирования, отличающейся от информационной модели слуха, которая может быть выбрана решением замкнутого контура и особенно путем сравнения различных SNR результатов различных моделей.Preferably, the first coding algorithm in the first coding channel of the department is based on the hearing information model, and the second coding algorithm in the second coding channel is based on the information source model or SNR model. The SNR model is definitely not associated with a specific sound generation mechanism, but it is one coding method that can be selected from a variety of coding methods based, for example, on solving a closed loop. Thus, the SNR model is any available coding model, but which does not have to be related to the physical nature of the sound generator, which is any parameterized coding model that differs from the hearing information model, which can be chosen by solving a closed loop and especially by comparing different SNR results of various models.
На фиг.3с показан контроллер 300, 525. Этот контроллер может включать функциональность блока выбора 300, представленного на фиг. 1а, и, дополнительно, может включать функциональность управляющего устройства переключателем 525, представленным на фиг.1а. Вообще, контроллер предназначен для того, чтобы управлять первым переключателем и вторым переключателем на адаптированном пути сигнала. Контроллер служит для того, чтобы проанализировать входной сигнал первого переключателя, или выходной сигнал первого или второго канала кодирования, или выходные сигналы, полученные путем кодирования и декодирования в первом и втором каналах кодирования с использованием целевой функции. Альтернативно, или дополнительно, контроллер служит, чтобы проанализировать входной сигнал во второй переключатель или выходной сигнал первого канала обработки или второго канала обработки или сигнал, полученный путем обработки и обратной обработки от первого канала обработки и второго канала обработки, с использованием целевой функции.FIG. 3c shows the
В одном решении, в первом канале кодирования или во втором канале кодирования осуществляется совмещение результатов алгоритма преобразования время/частота, такого как MDCT или алгоритм MDST, который отличается от прямого преобразования FFT, в котором не реализуется эффект совмещения. Кроме того, один или оба канала включают блок квантизатора/кодирования энтропии. Определенно, только второй канал обработки второго канала кодирования включает преобразователь время/частота, вводящий операцию по совмещению, и первый канал обработки второго канала кодирования включает квантизатор и/или кодировщик энтропии и не осуществляет операцию совмещения. Операцию совмещения осуществляет преобразователь время/частота предпочтительно, применяя обработку аналитическим окном, и алгоритм преобразования MDCT. Определенно, обработка аналитическим окном служит, чтобы применить функцию окна к последовательным накладывающимся фреймам так, чтобы сэмпл сигнала, обработанного функцией окна, находился, по крайней мере, в двух последующих фреймах, обработанных функцией окна.In one solution, in the first coding channel or in the second coding channel, the results of a time / frequency conversion algorithm such as MDCT or the MDST algorithm are combined, which differs from the direct FFT transformation, in which the matching effect is not implemented. In addition, one or both channels include a quantizer / entropy encoding unit. Specifically, only the second processing channel of the second encoding channel includes a time / frequency converter introducing a combining operation, and the first processing channel of the second encoding channel includes a quantizer and / or entropy encoder and does not perform a combining operation. The combining operation is carried out by a time / frequency converter, preferably using processing by an analytical window, and an MDCT transformation algorithm. Specifically, processing by the analytic window serves to apply the window function to successive overlapping frames so that the sample signal processed by the window function is in at least two subsequent frames processed by the window function.
В одном решении первый канал обработки включает кодер ACELP, и второй канал обработки включает спектральный преобразователь MDCT и квантизатор для того, чтобы квантовать спектральные компоненты и получить квантованные спектральные компоненты, где каждая квантованная спектральная компонента является нулем или определена одним индексом квантования множества различных возможных индексов квантования.In one solution, the first processing channel includes an ACELP encoder, and the second processing channel includes an MDCT spectral converter and a quantizer in order to quantize the spectral components and obtain quantized spectral components, where each quantized spectral component is zero or is determined by one quantization index of the set of different possible quantization indices .
Кроме того, предпочтено, чтобы первый переключатель 200 работал в режиме разомкнутого контура, и второй переключатель работал в режиме замкнутого контура.In addition, it is preferred that the
Как заявлено ранее, оба кодирующих канала служат, чтобы закодировать аудио сигнал в блоке интеллектуальным способом, в котором первый переключатель или второй переключатель переключается так, чтобы переключение имело место, в минимуме, после блока предопределенного числа сэмплов сигнала, предопределенного числа, формирующего длину фрейма для соответствующего переключателя. Таким образом, интервал для того, чтобы переключиться первому переключателю, может быть, например, блоком 2048 или 1028 сэмплов, и длиной фрейма, основанной на переключении первого переключателя 200, и может быть переменным, но, предпочтительно, фиксированным на таком довольно длительном периоде.As stated previously, both coding channels serve to encode the audio signal in the block in an intelligent way in which the first switch or the second switch is switched so that the switch takes place, at a minimum, after the block of a predetermined number of samples of the signal, a predetermined number forming the frame length for corresponding switch. Thus, the interval in order to switch the first switch may be, for example, a block of 2048 or 1028 samples, and the frame length based on the switching of the
И обратно, размер блока для второго переключателя 521, то есть, когда второй переключатель 521 переключается от одного способа к другому, существенно меньше, чем размер блока для первого переключателя. Предпочтительно, оба размера блоков для переключателей выбраны таким образом, что дина более длительного блока является целым числом, умноженным на размер более короткого блока. В предпочтительном решении размер блока первого переключателя 2048 или 1024, и размер блока второго переключателя - 1024 или более предпочтительно - 512 и еще более предпочтительно - 256 и еще более предпочтительно - 128 сэмплов так, чтобы второй выключатель мог переключиться максимально 16 раз, когда первый переключатель переключается только один раз. Предпочтительное максимальное отношение размеров блоков составляет 4:1.And vice versa, the block size for the
В еще одном варианте осуществления контроллер 300, 525 служит, чтобы выполнить разделение речи и музыки для первого переключателя таким способом, которым выбор речи преобладает относительно выбора музыки. В этом решении принят выбор речи, даже когда часть меньше чем 50 % фрейма для первого переключателя является речью и часть больше чем 50 % фрейма является музыкой.In yet another embodiment, the
Кроме того, контроллер служит для того, чтобы уже переключиться на режим речи, когда довольно небольшая часть первого фрейма является речью и, определенно, когда часть первого фрейма является речью, которая составляет 50% длины меньшего второго фрейма. Таким образом, предпочтительно, переключающее решение речь/одобрение уже переключается на речь, даже тогда, когда, например, только 6% или 12% блока, соответствующего длине фрейма первого переключателя, является речью.In addition, the controller serves to already switch to speech mode when a rather small part of the first frame is speech and, specifically, when a part of the first frame is speech, which is 50% of the length of the smaller second frame. Thus, preferably, the speech / approval switching solution is already switched to speech, even when, for example, only 6% or 12% of the block corresponding to the frame length of the first switch is speech.
Эта процедура предпочтительна для того, чтобы в одном решении полностью использовать способность экономии битрейта первого канала обработки, у которого есть ядро кодирования обладающей голосом речи, и не потерять качество для остальной части большого первого фрейма, которая является не речью вследствие того, что второй канал обработки включает преобразователь и, поэтому, полезен для аудио сигналов, у которых есть также не речевые сигналы. Предпочтительно, этот второй канал обработки включает преобразование MDCT с перекрытием, которое выбрано критически, и которое даже при небольших размерах окна обеспечивает высокую эффективность, и свободно от операции совмещения благодаря отмене обработки по совмещению временных интервалов, такой как перекрытие и добавление на стороне декодера. Кроме того, большой размер блока для первого канала кодирования, которым является предпочтительно ААС подобный MDCT канал кодирования, полезен, так как неречевые сигналы обычно довольно постоянны, и длинное окно преобразования обеспечивает высокочастотное разрешение и, поэтому, высокое качество и, дополнительно, обеспечивает малый битрейт благодаря психоакустически управляемому модулю квантизации, который может также быть применен к преобразованию, основанному на режиме преобразования во втором канале обработки второго канала кодирования.This procedure is preferable in order to fully utilize in one solution the ability to save the bit rate of the first processing channel, which has a coding core with a voice of speech, and not lose quality for the rest of the large first frame, which is not speech due to the fact that the second processing channel It includes a converter and, therefore, is useful for audio signals that also have non-speech signals. Preferably, this second processing channel includes an overlapped MDCT transform that is critically selected and which, even with small window sizes, provides high efficiency and is free from alignment by canceling overlapping alignment processing, such as overlapping and adding on the side of the decoder. In addition, the large block size for the first coding channel, which is preferably an AAC-like MDCT coding channel, is useful since non-speech signals are usually fairly constant, and the long conversion window provides high-frequency resolution and, therefore, high quality and, in addition, low bit rate thanks to the psychoacoustically controlled quantization module, which can also be applied to the transformation based on the conversion mode in the second processing channel of the second coding channel Ania.
Относительно декодера, иллюстрированного на фиг.3d, предпочтительно, чтобы передаваемый сигнал включал явный индикатор, такой как сторонняя информация 4а, как иллюстрировано на фиг.3е. Эта сторонняя информация 4а извлекается распознавателем битового потока, не иллюстрированным на фиг.3d, чтобы направить соответствующий первый кодированный сигнал, первый обработанный сигнал или второй обработанный сигнал в правильный процессор, такой как первый канал декодирования, первый канал обратной обработки или второй канал обратной обработки, изображенный на фиг.3d. Поэтому, закодированный сигнал имеет не только кодированный/обработанный сигнал, но также и включает стороннюю информацию, касающуюся этих сигналов. В других решениях, однако, может быть неявная передача сигналов, которая позволяет анализатору битового потока стороны декодера различать определенные сигналы. Это описано в общих чертах на фиг.3е, где первый обработанный сигнал или второй обработанный сигнал является выходным сигналом второго канала кодирования и, поэтому, второго закодированного сигнала.Regarding the decoder illustrated in FIG. 3d, it is preferred that the transmitted signal includes an explicit indicator, such as third-
Предпочтительно, чтобы первый канал декодирования и/или второй канал обратной обработки включал процедуру MDCT, чтобы преобразовать спектральную область во временной интервал. С этой целью установлен сумматор с перекрытием, выполняющий функцию отмены совмещения временных интервалов, которая, в то же самое время, обеспечивает кроссфейд, чтобы избежать блокирующих искажений. Вообще, первый канал декодирования преобразовывает сигнал, кодируемый в четвертой области в первую область, в то время как второй канал обратной обработки выполняет преобразование третьей области во вторую область и преобразователь, впоследствии связанный с первым объединителем, обеспечивает преобразование второй области в первую область так, чтобы на входе объединителя 600, были только сигналы первой области, которые представляют расшифрованный выходной сигнал решения, представленного на фиг.3d.Preferably, the first decoding channel and / or the second reverse processing channel includes an MDCT procedure to transform the spectral region into a time interval. For this purpose, an overlapping adder is installed that performs the function of canceling time intervals, which, at the same time, provides a crossfade to avoid blocking distortions. In general, the first decoding channel converts the signal encoded in the fourth region to the first region, while the second reverse processing channel converts the third region to the second region, and the converter subsequently coupled to the first combiner converts the second region to the first region so that at the input of
Фиг.4а и 4b иллюстрируют два различных решения, которые отличаются расположением переключателя 200. На фиг.4а переключатель 200 помещен между выходом общего блока 100 предварительной обработки и входом двух каналов кодирования 400, 500. Решение на фиг.4а обеспечивает поступление аудио сигнала только в единственный канал кодирования, при этом другой канал кодирования, который не связан с выходным сигналом общего блока предварительной обработки, не работает и, поэтому, выключен или находится в состоянии сна. Это решение предпочтительно тем, что неактивный канал кодирования не потребляет энергии и вычислительных ресурсов, что полезно для мобильных приложений, в частности для приложений, которые имеют питание от батарей и, поэтому, имеют общее ограничение расхода энергии.Figs. 4a and 4b illustrate two different solutions that differ in the location of the
С другой стороны, однако, решение на фиг.4b может быть предпочтительным, когда расход энергии не является проблемой. В этом решении и каналы кодирования 400, 500 активны все время, и только выходной сигнал выбранного канала кодирования для определенной части времени и/или определенной части частот отправлен к битовому потоку формирователем, который может быть осуществлен как мультиплексор битового потока 800. Поэтому, в решении на фиг. 4b, активны все время и кодирующие каналы, и выходной сигнал канала кодирования, который выбран блоком 300 решения, введен в битовый выходной поток, в то время как от выходных данных, то есть выходного сигнала, другого, не выбранного канала кодирования 400, отказываются, то есть эти данные не поступают в выходной битовый поток и закодированный аудио сигнал.On the other hand, however, the solution in FIG. 4b may be preferred when power consumption is not a problem. In this solution, the
Предпочтительно, чтобы второе правило кодирования/правило декодирования основывалось на LPC кодирующего алгоритма. В основанном на LPC речевом кодировании осуществляется разделение между квазипериодическими подобными импульсу сегментами сигнала возбуждения или частями сигнала и подобными шуму сегментами сигнала возбуждения или частями сигнала. Это выполняется для осуществления очень низкого битрейта LPC вокодерами (2.4 kbps) как показано на фиг.7b. Однако при среднем уровне битрейта в кодерах CELP формируется возбуждение для добавления масштабированных векторов из адаптивной кодовой таблицы и фиксированной кодовой таблицы.Preferably, the second encoding rule / decoding rule is based on the LPC coding algorithm. In LPC-based speech coding, a separation is made between quasiperiodic pulse-like excitation signal segments or signal parts and noise-like excitation signal segments or signal parts. This is done to achieve a very low LPC bitrate by vocoders (2.4 kbps) as shown in FIG. 7b. However, with an average bit rate in CELP encoders, excitation is generated to add scaled vectors from the adaptive code table and fixed code table.
Квазипериодические, подобные импульсу сегменты сигнала возбуждения, то есть сегменты сигнала, имеющие определенный основной тон, кодируются с использованием других алгоритмов, чем подобные шуму сигналы возбуждения. В то время как квазипериодические подобные импульсу сигналы возбуждения связаны с обладающей голосом речью, сигналы подобные шуму связаны с не обладающей голосом речью.Quasiperiodic, pulse-like excitation signal segments, that is, signal segments having a specific pitch, are encoded using other algorithms than noise-like excitation signals. While quasiperiodic impulse-like excitation signals are associated with voice-enabled speech, signals similar to noise are associated with non-voice-based speech.
На фиг.5а и 5d приведен пример. Здесь представлены обсужденные в качестве примера квазипериодические, подобные импульсу сегменты сигнала или части сигнала, и подобные шуму сегменты сигнала или части сигнала. Определенно, представленная на фиг.5с и 5d, обладающая голосом речь, как иллюстрировано на фиг.5а во временном интервале и на фиг.5b в области частот, обсуждена в качестве примера квазипериодической, подобной импульсу части сигнала, и не обладающий голосом речевой сегмент обсужден в качестве примера части сигнала, подобной шуму. Вообще, речь может быть классифицирована как обладающая голосом или голосовая, не обладающая голосом или не голосовая и смешанная. Диаграммы в областях времени и частоты для выбранных голосовых и не голосовых сегментов показаны на фиг.5а 5d. Голосовая речь является квазипериодической на временном интервале и гармонически структурированной в области частот, в то время как скорость не голосовой речи подобна случайному широкополосному сигналу. Спектр голосовой речи на коротком временном интервале характеризуется хорошей структурой формант. Хорошая гармоническая структура является следствием квазипериодичности речи и может быть приписана вибрирующим голосовым связкам. Структура формант (огибающая спектра) возникает из-за взаимодействия источника и вокального тракта. Вокальный тракт состоит из зева и впадины рта. Форма огибающей спектра, которая "соответствует" спектру обладающей голосом речи на коротком промежутке времени, связана с характеристиками передачи вокального тракта и спектральным наклоном (6 децибелов / Октава) из-за глоттального пульса. Огибающая спектра характеризуется рядом пиков, которые называют формантами. Формантами являются резонансные моды вокального тракта. Для среднего вокального тракта в пределах 5 кГц есть три - пять формант. Амплитуды и положения первых трех формант, обычно обнаруживающиеся ниже 3 кГц, довольно важны оба в речевом синтезе и восприятии. Более высокочастотные форманты также важны для широкой группы и не голосовых представлений речи. Свойства речи связаны с физической речевой формирующей системой следующим образом. Голосовая речь формируется возбуждением вокального тракта с квазипериодическим глоттальным воздушным пульсом, созданным вибрирующими голосовыми связками. Частота периодического пульса упоминается как фундаментальная частота или основной тон. Не голосовая речь формируется путем сжатия воздуха при прохождении через вокальный трактат. Носовые звуки происходят из-за акустической связи носового тракта с вокальным трактом, и согласные звуки формируются путем выпуска воздуха под давлением, которое было создано за преградой в тракте.Figures 5a and 5d show an example. Here, quasi-periodic, pulse-like signal segments or signal portions and noise-like signal segments or signal portions discussed as an example are presented. Specifically, the voice-enabled speech presented in FIGS. 5c and 5d, as illustrated in FIG. 5a in the time domain and in FIG. 5b in the frequency domain, is discussed as an example of a quasiperiodic, pulse-like part of the signal, and the voice-free speech segment is discussed as an example of a part of a signal similar to noise. In general, speech can be classified as having a voice or voice, not having a voice or not voice and mixed. Charts in the areas of time and frequency for the selected voice and non-voice segments are shown in figa 5d. Voice speech is quasiperiodic in the time interval and harmonically structured in the frequency domain, while the speed of non-voice speech is similar to a random broadband signal. The spectrum of voice speech over a short time interval is characterized by a good formant structure. A good harmonic structure is a consequence of the quasiperiodicity of speech and can be attributed to vibrating vocal cords. The formant structure (spectral envelope) arises from the interaction of the source and vocal tract. The vocal tract consists of the pharynx and the cavity of the mouth. The shape of the spectrum envelope, which "corresponds" to a spectrum with a speech voice for a short period of time, is associated with the characteristics of the transmission of the vocal tract and the spectral tilt (6 decibels / Octave) due to the glottal pulse. The envelope of the spectrum is characterized by a number of peaks, which are called formants. The formants are the resonant modes of the vocal tract. For the middle vocal tract within 5 kHz, there are three to five formants. The amplitudes and positions of the first three formants, usually found below 3 kHz, are quite important both in speech synthesis and perception. Higher-frequency formants are also important for a wide group and non-voice representations of speech. The properties of speech are associated with the physical speech forming system as follows. Voice speech is generated by excitation of the vocal tract with a quasiperiodic glottal air pulse created by vibrating vocal cords. The heart rate is referred to as the fundamental frequency or pitch. Non-voice speech is formed by compressing air as it passes through a vocal tract. Nasal sounds are due to the acoustic connection of the nasal tract with the vocal tract, and consonant sounds are formed by the release of air under pressure, which was created behind the obstruction in the tract.
Таким образом, подобная шуму часть аудио сигнала не показывает ни подобной импульсу структуры на временном интервале, ни гармонической структуры в области частот, как иллюстрировано на фиг.5с и фиг.5d, что отличается от квазипериодической подобной импульсу части, как иллюстрировано, например, на фиг.5а и фиг.5b. Как будет описано в общих чертах позже, разделение между подобными шуму частями и квазипериодическими подобными импульсу частями может также осуществляться после LPC для сигнала возбуждения. В LPC методе моделируется вокальный тракт и из сигнала извлекается возбуждение вокальных трактов.Thus, the noise-like part of the audio signal shows neither a pulse-like structure in the time interval, nor a harmonic structure in the frequency domain, as illustrated in FIG. 5c and FIG. 5d, which differs from the quasiperiodic pulse-like part, as illustrated, for example, in figa and fig.5b. As will be described in general terms later, separation between the noise-like parts and the quasiperiodic pulse-like parts can also occur after the LPC for the excitation signal. In the LPC method, the vocal tract is modeled and the excitation of the vocal tracts is extracted from the signal.
Кроме того, квазипериодические подобные импульсу части и подобные шуму части могут произойти своевременно, то есть что означает, что часть аудио сигнала в одно и то же время является шумовой, а другая часть аудио сигнала является квазипериодической, то есть тональной. Альтернативно, или дополнительно, особенность сигнала может отличаться в различных диапазонах частот. Таким образом, определение, является ли аудио сигнал шумовым или тональным, может также быть выполнено с частотной селекцией так, чтобы определенный диапазон частот или несколько определенных диапазонов частот рассматриваются как шумовые, а другие диапазоны частот рассматриваются как тональные. В этом случае определенная временная часть аудио сигнала могла бы включать тональные компоненты и шумовые компоненты.In addition, quasiperiodic pulse-like parts and noise-like parts can occur in a timely manner, that is, which means that part of the audio signal is noisy at the same time, and the other part of the audio signal is quasiperiodic, i.e. tonal. Alternatively, or additionally, the signal feature may differ in different frequency ranges. Thus, determining whether an audio signal is noise or tonal can also be performed with frequency selection so that a certain frequency range or several specific frequency ranges are considered noise and other frequency ranges are considered tonal. In this case, a specific time portion of the audio signal could include tonal components and noise components.
Фиг.7а иллюстрирует линейную модель системы, формирующей речь. Эта система предполагает двухстадийное возбуждение, то есть ведущий импульс голосовой речи, как показано на фиг.7с, и случайный шум для не голосовой речи, как показано на фиг.7d. Вокальный тракт смоделирован как идеальный фильтр 70, который обрабатывает импульсы, представленные на фиг.7с или на фиг.7d, сформированные глоттальной моделью 72. Следовательно, система на фиг.7а может быть сведена к модели идеального фильтра на фиг.7b, имеющего блок усиления 77, прямой путь 78 и путь обратной связи 79 и блок сложения 80. На пути обратной связи 79, есть прогнозирующий фильтр 81, и целая система синтеза модели источника, иллюстрированная на фиг.7b, может быть представлена, с использованием функции z-области следующим образом:Fig. 7a illustrates a linear model of a speech forming system. This system assumes a two-stage excitation, that is, a driving pulse of voice speech, as shown in FIG. 7c, and random noise for non-voice speech, as shown in FIG. 7d. The vocal tract is modeled as an
S(z)=g/(1-A(z))·X(z),S (z) = g / (1-A (z)) X (z),
где g представляет усиление, A(z) - прогнозирующий фильтр, как определено LP анализом, Х (z) - сигнал возбуждения и S(z) является выходной синтезированной речью.where g represents the gain, A (z) is the predictive filter, as determined by LP analysis, X (z) is the excitation signal, and S (z) is the output synthesized speech.
Фиг.7с и 7d дают графическое описание временного интервала с синтезированной голосовой и не голосовой речью при использовании линейной системной модели источника. Эта система и параметры возбуждения в вышеупомянутом уравнении неизвестны и должны быть определены из конечного набора речевых сэмплов. Коэффициенты A(z) получены, используя линейное предсказание входного сигнала и квантизацию коэффициентов фильтра. В линейном предсказателе p-го порядка текущий образец речевой последовательности предсказывается в виде линейной комбинации p переданных сэмплов. Коэффициенты предсказателя могут быть определены известными алгоритмами, такими как алгоритм Левинсона-Дербина, или вообще методом автокорреляции или методом отражения.Figs and 7d give a graphical description of the time interval with synthesized voice and non-voice speech using a linear source system model. This system and excitation parameters in the above equation are unknown and must be determined from a finite set of speech samples. The coefficients A (z) are obtained using linear prediction of the input signal and quantization of the filter coefficients. In a p-th order linear predictor, the current speech sequence pattern is predicted as a linear combination of p transmitted samples. The predictor coefficients can be determined by known algorithms, such as the Levinson-Durbin algorithm, or in general by the method of autocorrelation or reflection method.
Фиг.7е иллюстрирует более подробное описание аналитического LPC блока 510. Аудио сигнал входит в блок определения параметров фильтра, который определяет информацию о фильтре A(z). Эта информация создается как краткосрочная информация предсказания, требуемая для декодера. Краткосрочная информация предсказания запрашивается фактическим фильтром предсказания 85. Текущий сэмпл аудио сигнала и ожидаемое значение для текущего сэмпла поступают на вычитатель 86 и вычитаются так, чтобы для текущего сэмпла сигнал ошибки предсказания был сформирован в линии 84. Последовательность таких ошибок сэмплов сигнала предсказания очень схематично иллюстрирована на фиг.7с или 7d. Поэтому, диаграммы на фиг.7а, 7b можно рассматривать как своего рода исправленный подобный импульсному сигналу.Fig. 7e illustrates a more detailed description of the
В то время как фиг.7е иллюстрирует предпочтительный способ вычисления сигнала возбуждения, фиг.7f иллюстрирует предпочтительный способ вычисления взвешенного сигнала. В отличие от фиг.7е, фильтр 85 отличается, когда γ отличается от 1. Величина меньшая, чем 1, предпочтена для γ. Кроме того, в присутствующем блоке 87 µ является числом, предпочтительно меньшим чем 1. Вообще, элементы на фиг.7е и 7f могут быть осуществлены, как описано в 3GPP TS 26.190 или 3GPP TS 26.290.While FIG. 7e illustrates a preferred method for calculating a drive signal, FIG. 7f illustrates a preferred method for calculating a weighted signal. Unlike FIG. 7e, the
Фиг.7G иллюстрируют обратную обработку, такую как в элементе 537 на фиг.2b, которая может быть применена на стороне декодера. В частности, блок 88 формирует не взвешенный сигнал из взвешенного сигнала, и блок 89 вычисляет возбуждение из не взвешенного сигнала. Вообще, все сигналы кроме не взвешенного сигнала на фиг.7G находятся в области LPC, но сигнал возбуждения и взвешенный сигнал являются различными сигналами в той же самой области. Блок 89 формирует сигнал возбуждения, который может использоваться вместе с выходным сигналом блока 536. Тогда, общее обратное преобразование LPC может быть выполнено в блоке 540, представленном на фиг.2b.FIG. 7G illustrates reverse processing, such as in
Впоследствии будет обсуждено кодирующее устройство CELP анализа через синтез, показанное на фиг. 6, чтобы иллюстрировать модификации, относящиеся к этому алгоритму. Кодирующее устройство CELP обсуждено подробно в "Speech Coding: A Tutorial Review", Andreas Spanias, Proceedings of the IEEE, Vol. 82, No.10, October 1994, pages 1541-1582. Кодирующее устройство CELP, как иллюстрировано на фиг.6, включает предсказатель долгосрочного периода 60 и предсказатель краткосрочного периода 62. Кроме того используется кодовая таблица, которая обозначена 64. Фильтр перцепционного взвешивания W (z) представлен блоком 66, и контроллер минимизации ошибки обозначен блоком 68. Сигнал s(n) является входным сигналом на временном интервале. Будучи перцепционно взвешенным, взвешенный сигнал подается на вычитатель 69, который вычисляет ошибку между взвешенным синтезированным сигналом в на выходе блока 66 и оригинальным взвешенным сигналом Sw(n). Вообще, коэффициенты фильтра краткосрочного предсказания A(z) вычислены LP блоком анализа и квантованы в А(z), как обозначено на фиг.7е. Информация долгосрочного предсказания Af(z) включает долгосрочное предсказание усиления (передачи) g и векторный квантованный индекс, то есть вычислены ссылки кодовой таблицы на сигнал ошибки предсказания в выходном сигнале блока LPC анализа, отмеченного как блок 10а на фиг.7е. Параметрами LTP являются затухание основного тона и усиление (передача). В CELP это обычно реализуется в виде адаптивной кодовой таблицы, содержащей прошлый сигнал возбуждения (не разностный). Адаптивное затухание СВ и усиление находятся путем минимизации среднеквадратической взвешенной ошибки.Subsequently, the synthesis synthesis coding apparatus CELP shown in FIG. 6 to illustrate modifications related to this algorithm. The CELP encoder is discussed in detail in "Speech Coding: A Tutorial Review", Andreas Spanias, Proceedings of the IEEE, Vol. 82, No.10, October 1994, pages 1541-1582. The CELP encoder, as illustrated in FIG. 6, includes a long-
Алгоритм CELP кодирует тогда разностный сигнал, полученный после краткосрочных и долгосрочных предсказаний, используя кодовую таблицу, например, Гауссовых последовательностей. Алгоритм ACELP, где "А" обозначает "Алгебраический", имеет определенную алгебраически разработанную кодовую таблицу.The CELP algorithm then encodes the difference signal obtained after short-term and long-term predictions using a code table, for example, Gaussian sequences. The ACELP algorithm, where "A" stands for "Algebraic", has a specific algebraically designed code table.
Кодовая таблица может содержать более или менее длинные векторы, где каждый вектор длиной несколько сэмплов. Коэффициент усиления g масштабирует кодовый вектор, и полученный код фильтруется фильтром синтеза долгосрочного предсказания и фильтром синтеза краткосрочного предсказания. "Оптимальный" кодовый вектор выбирается таким образом, что перцепционно взвешенная среднеквадратическая ошибка на выходе вычитателя 69 минимизирована. Процесс поиска в CELP делается оптимизацией анализа через синтез как иллюстрировано на фиг.6.The code table may contain more or less long vectors, where each vector is several samples long. The gain g scales the code vector, and the resulting code is filtered by a long-term prediction synthesis filter and a short-term prediction synthesis filter. The “optimal” code vector is chosen so that the perceptually weighted mean square error at the output of the
Для конкретных случаев, когда фрейм является смесью не голосовой и голосовой речи или когда речь формируется по музыке, более соответствующим может быть кодирование ТСХ, предназначенное для кодирования возбуждения в LPC области. В кодирующей процедуре ТСХ используется взвешенный сигнал в области частот без предположений о формировании возбуждения. ТСХ является тогда более естественным, чем кодирование CELP и не ограничен голосовой или не голосовой исходными моделями возбуждения. ТСХ также является кодированием, ориентированным на модель источника, с использованием линейного прогнозирующего фильтра для того, чтобы смоделировать форманты сигналов, подобных речи.For specific cases, when the frame is a mixture of non-voice and voice speech or when speech is formed from music, TLC coding designed to encode excitation in the LPC region may be more appropriate. The TLC coding procedure uses a weighted signal in the frequency domain without assuming excitation to form. TLC is then more natural than CELP coding and is not limited to voice or non-voice source excitation models. TLC is also source model-centric coding using a linear predictive filter in order to simulate formants of signals like speech.
В AMR-WB+ подобных кодировщиках имеет место выбор между различными режимами ТСХ и ACELP, как известно из описания AMR-ВБ. Режимы ТСХ отличаются длиной блока дискретного преобразования Фурье (ДПФ=ОРТ) для различных режимов, и может быть выбран лучший режим с использованием подхода анализ через синтез или посредством режима прямого «упреждения».AMR-WB + -like encoders have a choice between different TLC and ACELP modes, as is known from the AMR-WB description. TLC modes differ in the length of the discrete Fourier transform block (DFT = ORT) for different modes, and the best mode can be selected using the analysis through synthesis approach or through the direct “lead” mode.
Как обсуждено в связи с фиг.2а и 2b, общий блок предварительной обработки 100 предпочтительно включает объединенный многоканальный блок (окружающее/объединенное стерео устройство) 101 и дополнительный блок расширения полосы частот 102. Соответственно, декодер включает блок расширения полосы частот 701 и последовательно соединенный многоканальный блок 702. Предпочтительно, чтобы в кодирующем устройстве объединенный многоканальный блок 101 был подсоединен прежде, чем блок расширения полосы частот 102, и, на стороне декодера, блок 701 расширения полосы частот должен быть подсоединен перед объединенным многоканальным блоком 702 относительно направления обработки сигнала. Впрочем, альтернативно, общий блок предварительной обработки может включать объединенный многоканальный блок без последовательно соединенного блока расширения полосы частот, или блок расширения полосы частот без соединенного объединенного многоканального блока.As discussed in connection with FIGS. 2a and 2b, the
Предпочтительный пример для объединенного многоканального блока на стороне кодирующего устройства 101а, 101b и на стороне декодера 702а, 702b иллюстрирован на фиг.8. Множество оригинальных входных каналов Е входят в смеситель с сокращением каналов 101а так, чтобы смеситель с сокращением сформировал k каналов передачи, где число k больше чем или равно единице и меньше чем или равно Е.A preferred example for a combined multi-channel block on the side of the encoder 101a, 101b and on the side of the
Предпочтительно, чтобы входные каналы Е поступали в объединенный многоканальный анализатор параметров 101b, который формирует информация о параметрах. Эта информация о параметрах предпочтительно закодирована методом без потери информации (кодирование энтропии), таким как кодирование различия и последующее кодирование с использованием алгоритма Хаффмана или, альтернативно, последующим арифметическим кодированием. Закодированная информация о параметрах, сформированная блоком 101b, передается к декодеру параметров 702b, который может быть частью блока 702 на фиг.2b. Декодер параметров 702b расшифровывает переданную информацию о параметрах и передает декодированную информацию о параметрах в смеситель с расширением 702а. Смеситель с расширением каналов 702а получает k каналов передачи и формирует на выходе множество каналов L, где число L больше чем или равно k и меньше чем или равно Е.Preferably, the input channels E enter a combined
Информация о параметрах может включать межканальные различия уровня, межканальные временные различия, межканальные фазовые различия и/или межканальные различия мер когерентности, как известно в технике ВСС, или как известно и описано подробно в стандарте MPEG, окружения. Число переданных каналов может быть единственным моно каналом для приложений с ультранизким битрейтом или может включать совместимое стерео приложение или может включать совместимый стерео сигнал, то есть два канала. Как правило, число входных каналов Е может быть пять или возможно еще больше. Альтернативно, множество входных каналов Е может также быть множеством аудио объектов Е, как известно в контексте кодирования пространственных аудио объектов (SAOC).Information about the parameters may include inter-channel level differences, inter-channel temporal differences, inter-channel phase differences and / or inter-channel differences of coherence measures, as is known in the BCC technique, or as is known and described in detail in the MPEG standard environment. The number of transmitted channels may be the only mono channel for ultra-low bitrate applications or may include a compatible stereo application or may include a compatible stereo signal, that is, two channels. Typically, the number of input channels E may be five or possibly even more. Alternatively, the plurality of input channels E may also be a plurality of audio objects E, as is known in the context of encoding spatial audio objects (SAOC).
В одном решении смеситель с сокращением выполняет взвешенное или не взвешенное сложение оригинальных входных каналов Е, или сложение Е входных аудио объектов. В случае аудио объектов, как входных каналов, объединенный многоканальный анализатор параметров 101b вычисляет аудио параметры объекта, такие как матрица корреляции между аудио объектами предпочтительно для каждого временного интервала и еще более предпочтительно для каждого диапазона частот. С этой целью весь частотный диапазон может быть разделен, по крайней мере, на 10 и, предпочтительно, на 32 или 64 диапазона частот.In one solution, the mixer abbreviates the weighted or non-weighted addition of the original input channels E, or addition E of the input audio objects. In the case of audio objects, such as input channels, the combined
Фиг.9 иллюстрирует предпочтительное решение для выполнения блока 102 расширения полосы частот на фиг.2а и соответствующего блока 701 расширения полосы частот на фиг.2b. На стороне кодирующего устройства блок расширения полосы частот 102 предпочтительно включает низкочастотный фильтр 102b, блок сэмплера с пониженной частотой выборки, который следует за низкочастотным фильтром, или который является частью обратного QMF, которое действует на только половину полос QMF, и анализатор высоких частот 102а. Входной оригинальный аудио сигнал в блок 102 расширения полосы частот фильтруется низкочастотным фильтром, чтобы сформировать сигнал в низкой полосе частот, который подается в канал кодирования и/или в переключатель. У фильтра нижних частот есть частота среза, которая может быть в диапазоне от 3 кГц до 10 кГц. Кроме того, блок 102 расширения полосы частот включает анализатор высоких частот для того, чтобы вычислить параметры расширения полосы частот, такие как информация о параметре огибающей спектра, информация о параметре уровня шума, информация о параметре обратного фильтрования, дальнейшая информация о параметрах, касающаяся определенных гармонических линий в полосе высоких частот и дополнительных параметрах подробно обсужденных в стандарте MPEG-4 в главе, связанной с повторением диапазона частот.FIG. 9 illustrates a preferred solution for executing the
На стороне декодера блок расширения полосы частот 701 включает восстановитель 701а, регулировщик 701b и объединитель 701с. Объединитель 701с комбинирует декодированный сигнал низкой полосы частот и восстановленный и адаптированный сигнал высокочастотной полосы, сформированный регулировщиком 701b. Входной сигнал в регулировщик 701b обеспечен восстановителем, которым управляют, чтобы получить сигнал высокочастотной полосы из сигнала низкочастотной полосы, путем повторения диапазона или, вообще, расширением полосы частот. Внесение исправлений, выполненное восстановителем 701а, может быть внесением исправлений, выполненное гармоническим способом или негармоническим способом. Сигнал, сформированный восстановителем 701а, впоследствии, адаптируется регулировщиком 701b с использованием переданной параметрической информации о расширении полосы частот.On the decoder side, the
Как обозначено на фиг.8 и фиг.9, в предпочтительном решении у описанных блоков может быть вход контроля режима. Этот входной сигнал контроля режима получается из выходного сигнала блока 300 решения. В таком предпочтительном решении параметр соответствующего блока может быть приспособлен к выходному сигналу блока выбора, то есть к тому, сделан ли в предпочтительном решении выбор речи или выбор музыки для определенной временной части аудио сигнала. Предпочтительно, чтобы контроль режима относился только к одной или большему числу функциональностей этих блоков, но не ко всем функциональностям этих блоков. Например, выбор может влиять только на восстановитель 701а, но, возможно, не влияет на другие блоки на фиг.9, или может, например, влиять только на объединенный многоканальный анализатор параметров 101b на фиг.8, но не другие блоки на фиг.8. Это выполнение предпочтительно, так как при этом получаются более высокая гибкость, более высокое качество и более низкий битрейт выходного сигнала путём обеспечения гибкости общего блока предварительной обработки. С другой стороны, однако, использование в общем блоке предварительной обработки алгоритмов для обоих видов сигналов позволяет осуществлять эффективную схему кодирования/декодирования.As indicated in FIG. 8 and FIG. 9, in a preferred solution, the described units may have a mode control input. This mode control input signal is obtained from the output of the
Фиг.10а и фиг.10b иллюстрируют два различных выполнения блока выбора 300. На фиг.10а изображено решение разомкнутого контура. Здесь, сигнал анализатора 300а блока решения подчиняется определённым правилам, чтобы решить, есть ли у определенной временной части или определенной частотной области входного сигнала особенность, которая требует, чтобы эта часть сигнала была закодирована в первом канале кодирования 400 или во втором канале кодирования 500. С этой целью анализатор сигнала 300а может проанализировать входной звуковой сигнал в общий блок предварительной обработки или может проанализировать аудио сигнал, сформированный общей стадией предварительной обработки, то есть промежуточный аудио сигнал, или может проанализировать промежуточный сигнал в блоке общей предварительной обработки, такой как выходной сигнал смесителя с сокращением, который может быть моно сигналом или который может быть сигналом, имеющим k каналов на фиг.8. На выходной стороне анализатор сигнала 300а формирует решение о переключении для того, чтобы управлять переключателем 200 на стороне кодирующего устройства и соответствующем переключателем 600 или объединителем 600 на стороне декодера.10a and 10b illustrate two different embodiments of a
Хотя второй переключатель 521 не обсужден подробно, нужно подчеркнуть, что второй переключатель 521 может быть позиционирован способом, аналогичным позиционированию первого переключателя 200, как обсуждено в связи с фиг.4а и фиг.4b. Таким образом, альтернативным положением переключателя 521 на фиг.3с является выход обоих каналов обработки 522, 523, 524 так, чтобы и каналы обработки работали параллельно, и только выходной сигнал одного канала обработки записывался в битовый поток через формирователь битового потока, который не иллюстрирован на фиг.3с.Although the
Кроме того, второй объединитель 600 может обладать определенной функциональностью кроссфейда, как обсуждено на фиг.4с. Альтернативно или дополнительно, у первого объединителя 532 могла бы быть та же самая функциональность кроссфейда. Кроме того, оба объединителя могут иметь ту же самую функциональность кроссфейда, или могут иметь различные функциональности кроссфейда, или могут не иметь никаких функциональностей кроссфейда вообще, так что оба объединителя будут переключателями без любой дополнительной функциональности кроссфейда.In addition, the
Как обсуждено прежде, обоими выключателями можно управлять путем решения разомкнутого контура или решения замкнутого контура, как обсуждено в связи с фиг.10а и фиг.10b, где контроллеры 300, 525 на фиг.3с могут иметь отличающийся или те же самые функциональности для обоих переключателей.As discussed previously, both switches can be controlled by solving an open loop or solving a closed loop, as discussed in connection with FIGS. 10a and 10b, where the
Кроме того, функциональность искажения времени, которая адаптивна к сигналу, может существовать не только в первом канале кодирования или первом канале декодирования, но может также существовать во втором канале обработки второго канала кодирования на стороне кодирующего устройства так же, как на стороне декодера. В зависимости от обработанного сигнала обе функциональности искажения времени могут иметь одинаковую информацию об искажении времени так, чтобы такое же искажение времени было применено к сигналам в первой области и во второй области. Это сокращает нагрузку обработки и может быть полезно в некоторых случаях, в случаях, когда последовательные блоки имеют одинаковые характеристики искажения времени. В альтернативных решениях, однако, предпочтено иметь независимых оценщиков искажения времени для первого канала кодирования и второго канала обработки во втором канале кодирования.In addition, time distortion functionality that is adaptive to the signal may exist not only in the first encoding channel or in the first decoding channel, but may also exist in the second processing channel of the second encoding channel on the encoder side as well as on the decoder side. Depending on the processed signal, both time distortion functionalities may have the same time distortion information so that the same time distortion is applied to the signals in the first region and in the second region. This reduces the processing load and can be useful in some cases, in cases where consecutive blocks have the same time distortion characteristics. In alternative solutions, however, it is preferable to have independent time distortion evaluators for the first coding channel and the second processing channel in the second coding channel.
Закодированный согласно изобретению аудио сигнал может быть сохранен на цифровом носителе данных или может быть передан в среде передачи, такой как беспроводная среда передачи или среда передачи по проводам, такая как Интернет.The audio signal encoded according to the invention may be stored on a digital storage medium or may be transmitted in a transmission medium, such as a wireless transmission medium or a transmission medium by wire, such as the Internet.
В различных решениях переключатель 200, изображенный на фиг.1а или 2а, переключается между двумя каналами кодирования 400, 500. В дальнейшем решении могут быть дополнительные каналы кодирования, такие как третий канал кодирования, или даже четвертый канал кодирования, или даже больше каналов кодирования. На стороне декодера переключатель 600, изображенный на фиг.1b или 2b, переключается между двумя каналами декодирования 431, 440 и 531, 532, 533, 534, 540. В дальнейшем решении могут быть дополнительные каналы декодирования, такие как третий канал декодирования, или даже четвертый канал декодирования, или даже больше каналов декодирования. Точно так же другие переключатели 521 или 532 могут переключаться больше чем между двумя различными кодирующими алгоритмами, когда присутствуют такие дополнительные каналы кодирования/декодирования.In various solutions, the
Фиг.12А иллюстрирует предпочтительное решение выполнения кодирующего устройства, и фиг.12В иллюстрирует предпочтительное решение соответствующего выполнения декодера. В дополнение к элементам, обсужденным ранее относительно соответствующих номеров ссылки, решение на фиг.12А иллюстрирует отдельный физикоакустический модуль 1200, и дополнительно иллюстрирует предпочтительное выполнение дополнительных инструментов кодирующего устройства, иллюстрированных в блоке 421 на фиг.11А. Этими дополнительными инструментами являются формирователь временного шума (TNS) 1201 и середина/сторона кодирующий инструмент (MYS) 1202. Кроме того, дополнительные функциональности элементов 421 и 524 иллюстрированы в блоке 421/542 как объединенное выполнение масштабирования, анализа шумового заполнения, квантизации, арифметического кодирования спектральных компонентов.12A illustrates a preferred embodiment of an encoder, and FIG. 12B illustrates a preferred embodiment of a corresponding decoder. In addition to the elements previously discussed with respect to the respective reference numbers, the solution in FIG. 12A illustrates a separate physico-
В соответствующем выполнении декодера на фиг.12В иллюстрированы дополнительные элементы, которые являются инструментом расшифровки M\S 1203 и инструментом TNS-декодера 1204. Кроме того, басовый постфильтр, не иллюстрированный ранее, обозначен как 1205. Блок обработки функцией окна перехода 532 соответствует элементу 532 на фиг.2В, который иллюстрирован как переключатель, но который выполняет своего рода кроссфейд, который может быть кроссфейдом с повышенной частотой выборки или кроссфейдом с критически выбранной частотой выборки. Последний осуществляется как операция MDCT, где сигналы на двух совмещаемых временных интервалах перекрываются и суммируются. Где возможно, предпочтительно используется обработка с критически выбранной частотой дискретизации, так как при этом полный битрейт может быть уменьшен без потери качества. Дополнительный блок обработки функцией окна перехода 600 соответствует объединителю 600 на фиг. 2В, который опять иллюстрирован как переключатель, но ясно, что этот элемент выполняет своего рода кроссфейд с критически выбранной частотой дискретизации, или с некритически выбранной частотой дискретизации, чтобы избежать искажений блокирования, и специфических искажений, возникающих при переключении, когда один блок был обработан в первом канале, и другой блок был обработан во втором канале. Когда, однако, обработки в обоих каналах хорошо соответствуют друг другу, тогда операция кроссфейда может "хуже" жесткого переключения, где кроссфейд, как понимается, является "мягким" переключением между обоими каналами.In a corresponding embodiment of the decoder of FIG. 12B, additional elements are illustrated, which are the decryption tool
Концепция, иллюстрированная на фиг.12А и 12В, позволяет кодировать сигналы, имеющие произвольное соединение речи и аудио, и эта концепция демонстрирует сопоставимую или лучшую, чем наиболее хорошая технология кодирования, которая могла бы быть создана для кодирования или речи или произвольного аудио содержания. Общая структура кодирующего устройства и декодера может быть описана как общая пред-пост обработка, состоящая из функциональной единицы MPEG окружения (MPEGS), для управления с стерео или многоканальной обработкой, и расширенная единица SBR (eSBR), которая управляет параметрическим представлением более высоких звуковых частот во входном сигнале. Тогда, есть два канала: один, состоящий из измененного продвинутого аудио кодирующего инструмента (ААС), и другой, состоящий из кодирования на основе линейного предсказания (LP или область LPC), которое, в свою очередь, является или представлением области частот или представлением временного интервала LPC остаточного (разностного) сигнала. Все переданные спектры для обоих, ААС и LPC, представлены в области MDCT после квантизации и арифметического кодирования. Представление временного интервала использует кодирующую схему возбуждения ACELP. Базовая структура показана на фиг.12А для кодирующего устройства и фиг.12В для декодера. Поток данных на этой диаграмме направлен слева направо, сверху вниз. Функцией декодера является поиск описания квантованного аудио спектра или временного представления сигнала в битовом потоке и декодирование квантованных величин и другой информации о восстановлении.The concept illustrated in FIGS. 12A and 12B allows encoding signals having an arbitrary combination of speech and audio, and this concept demonstrates comparable or better than the best encoding technology that could be created for encoding or speech or arbitrary audio content. The general structure of the encoder and decoder can be described as general pre-post processing, consisting of a functional unit of MPEG surround (MPEGS), for control with stereo or multi-channel processing, and an extended unit of SBR (eSBR), which controls the parametric representation of higher audio frequencies in the input signal. Then, there are two channels: one consisting of a modified advanced audio coding instrument (AAC), and the other consisting of linear prediction coding (LP or LPC region), which, in turn, is either a representation of a frequency domain or a representation of a temporal interval LPC residual (differential) signal. All transmitted spectra for both AAC and LPC are presented in the MDCT domain after quantization and arithmetic coding. The time slot representation uses the ACELP coding excitation scheme. The basic structure is shown in FIG. 12A for the encoder and FIG. 12B for the decoder. The data flow in this diagram is directed from left to right, from top to bottom. The function of the decoder is to search for a description of a quantized audio spectrum or a temporal representation of a signal in a bit stream, and to decode the quantized quantities and other reconstruction information.
В случае передачи спектральной информации декодер должен восстановить квантованные спектры, и осуществить процесс восстановления спектра с использованием любых инструментов в битовом потоке для того, чтобы получить фактический спектр сигнала, как описано во входном битовом потоке, и, наконец, преобразовать спектр из области частот во временной интервал. После начального восстановления и масштабирования реконструированного спектра есть дополнительные инструменты, которые изменяют один или больше спектров, чтобы обеспечить более эффективное кодирование.In the case of transmission of spectral information, the decoder must restore the quantized spectra, and perform the process of spectrum reconstruction using any tools in the bitstream in order to obtain the actual spectrum of the signal, as described in the input bitstream, and finally convert the spectrum from the frequency domain to time interval. After the initial reconstruction and scaling of the reconstructed spectrum, there are additional tools that modify one or more spectra to provide more efficient coding.
В случае передачи временного представления сигнала интервала декодер должен восстановить квантованный временной сигнал и осуществить процесс восстановления временного сигнала с использованием любых инструментов в битовом потоке, чтобы получить фактический сигнал на временном интервале, как описано во входном битовом потоке.In the case of transmitting the time representation of the interval signal, the decoder must reconstruct the quantized time signal and carry out the process of restoring the time signal using any tools in the bitstream to obtain the actual signal in the time interval, as described in the input bitstream.
Для каждого из дополнительных инструментов, которые воздействуют на данные о сигнале, сохраняется возможность "пройти через", и во всех случаях, когда обработка опущена, спектры или временные сэмплы на входе передаются непосредственно через инструмент без модификации.For each of the additional instruments that affect the signal data, it is possible to “pass through”, and in all cases when processing is omitted, the spectra or time samples at the input are transmitted directly through the instrument without modification.
В местах, где битовый поток изменяет свое представление сигнала из временной области в спектральную область или из LP области в не LP область или наоборот, декодер должен облегчить переход из одной области в другую путем соответствующей обработки функцией окна перехода с наложением-сложением.In places where the bitstream changes its representation of the signal from the time domain to the spectral region or from the LP region to a non-LP region or vice versa, the decoder should facilitate the transition from one region to another by appropriately processing the overlay-add transition window function.
Обработка eSBR и MPEGS применена аналогичным образом к обоим путям кодирования после обработки перехода.The processing of eSBR and MPEGS is applied similarly to both coding paths after transition processing.
Входной сигнал в инструмент демультиплексирования битового потока является битовым потоком. Демультиплексор разделяет битовый поток на части для каждого инструмента, и обеспечивает каждый из инструментов информацией о битовом потоке, связанным с этим инструментом.The input signal to the bit demultiplexing tool A stream is a bitstream. The demultiplexer divides the bitstream into parts for each tool, and provides each of the tools with information about the bitstream associated with this tool.
Выходными данными инструмента демультиплексора битового потока являются:The output data of the bitstream demultiplexer tool are:
- В зависимости типа ядра, кодирующего текущий фрейм, или:- Depending on the type of kernel encoding the current frame, or:
- квантованные и закодированные спектры без шума, представленные путем- quantized and encoded noise-free spectra represented by
- информации о масштабных коэффициентах- information about scale factors
- арифметически закодированных спектральных линий- arithmetically encoded spectral lines
- или параметры линейного предсказания (LP) вместе с сигналом возбуждения, представленным:- or linear prediction (LP) parameters together with an excitation signal represented by:
- квантованными и арифметически закодированными спектральными линиями (преобразование кодированного возбуждения, ТСХ), или- quantized and arithmetically encoded spectral lines (coded excitation conversion, TLC), or
- ACELP кодированным возбуждением временного интервала- ACELP coded time slot excitation
- Спектральная информация о заполнении шумом (как опция)- Spectral noise filling information (optional)
- Информация о решении M/S (как опция)- Information on the M / S solution (as an option)
- Информация о формировании временного шума (TNS) (как опция)- Information on the formation of temporary noise (TNS) (as an option)
- Информация управления банком фильтров- Filter bank management information
- Информация об управлении устранением искажений времени (TW) (как опция)- Time Distortion Management (TW) information (optional)
- Информация об управлении улучшенным расширением спектра за счет репликации (повторения) спектральных полос (eSBR)- Information on managing enhanced spectral expansion through replication (repetition) of spectral bands (eSBR)
- Информация об управлении MPEG окружением (MPEGS)- MPEG Environment Management Information (MPEGS)
Инструмент декодирования масштабных коэффициентов без шума берет информацию от демультиплексора битового потока, разбирает эту информацию и расшифровывает масштабные коэффициенты, кодированные методом Хаффмана, и DPCM.The noise-free scale factor decoding tool takes information from the bitstream demultiplexer, parses this information, and decodes the Huffman-encoded scale factors and DPCM.
На вход инструмента декодирования масштабных коэффициентов без шума подается:The input of the decoding tool for scaling coefficients without noise is fed:
- информация о масштабных коэффициентах закодированных спектров без шума.- information on the scale factors of the encoded spectra without noise.
На выходе инструмента декодирования масштабных коэффициентов без шума появляется:At the output of the decoding tool for scale factors without noise appears:
- расшифрованное представление в виде целых чисел масштабных коэффициентов.- a decrypted representation in the form of integers of scale factors.
Инструмент декодирования спектра без шума берет информацию от демультиплексора битового потока, разбирает ту информацию, декодирует арифметически закодированные данные и восстанавливает квантованные спектры. На входы к этому инструменту декодирования спектра без шума поступают:The noiseless spectrum decoding tool takes information from the bitstream demultiplexer, parses that information, decodes arithmetically encoded data, and restores the quantized spectra. The inputs to this spectrum decoding tool without noise are:
- спектры, закодированные без шума. На выходе инструмента декодирования спектра без шума появляются:- spectra encoded without noise. The output of the spectrum decoding tool without noise appears:
- квантованные величины компонент спектров.- quantized values of the components of the spectra.
Инструмент обратной квантизации берет квантованные величины компонент спектров и преобразовывает целочисленные значения в не масштабированные восстановленные спектры. Этот квантизатор является компандирующим квантизатором, чей коэффициент компандирования зависит от выбранного основного способа кодирования.The inverse quantization tool takes the quantized values of the spectral components and converts the integer values to unscaled reconstructed spectra. This quantizer is a compander quantizer whose compilation coefficient depends on the selected primary coding method.
На входы инструмента обратной квантизации поступают:The inputs of the inverse quantization tool are:
- квантованные величины компонент спектров.- quantized values of the components of the spectra.
На выходе инструмента обратной квантизации формируются:At the output of the inverse quantization tool, the following are formed:
- демасштабированные обратно квантизированные компоненты спектров. - demagnetized inverse quantized components of the spectra.
Инструмент заполнения шумом используется, чтобы заполнить спектральные промежутки в декодированных спектрах, которые возникают, когда квантованные спектральные величины равны нулю, например, из-за сильного ограничения на требование бит в кодирующем устройстве. Использование инструмента заполнения шумом является дополнительным.The noise filling tool is used to fill the spectral gaps in the decoded spectra that occur when the quantized spectral values are zero, for example, due to a strong restriction on the requirement of bits in the encoder. Using a noise fill tool is optional.
На входы инструмента заполнения шумом подаются:The inputs of the noise filling tool are:
- демасштабированные обратно квантизированные компоненты спектров.- demagnetized inverse quantized components of the spectra.
- Параметры заполнения шумом:- Noise filling options:
- расшифрованное представление в виде целых чисел масштабных коэффициентов. - a decrypted representation in the form of integers of scale factors.
На выходах инструмента заполнения шумом формируются:At the outputs of the noise filling tool are formed:
- демасштабированные обратно квантизированные компоненты спектров, которые ранее квантовались в ноль.- unscaled inverse quantized components of the spectra that were previously quantized to zero.
- Измененное представление в виде целых чисел масштабных коэффициентов. Инструмент перемасштабирования преобразовывает представление в виде целых чисел масштабных коэффициентов к фактическим значениям и умножает демасштабированные обратно квантизированные спектры на соответствующие масштабные коэффициенты.- Changed representation as integers of scale factors. The rescaling tool converts the integer representation of the scale factors to the actual values and multiplies the un-scaled back-quantized spectra by the corresponding scale factors.
На входы инструмента перемасштабирования поступают:The inputs of the rescaling tool are:
- Декодированное представление в виде целых чисел масштабных коэффициентов.- Decoded representation as integers of scale factors.
- Демасштабированные обратно квантизированные спектры. На выходе инструмента перемасштабирования формируются:- Dismantled inverse quantized spectra. At the output of the rescaling tool are formed:
- Масштабированные обратно квантизированные спектры.- Scaled back quantized spectra.
Для краткого обзора инструмента M\S, пожалуйста, обратитесь к ISO/IEC 14496-3, подраздел 4.1.1.2.For a brief overview of the M \ S tool, please refer to ISO / IEC 14496-3, subsection 4.1.1.2.
Для краткого обзора инструмента формирования временного шума (TNS), пожалуйста, обратитесь к ISO/IEC 14496-3, подраздел 4.1.1.2.For a quick overview of the temporary noise shaping tool (TNS), please refer to ISO / IEC 14496-3, subsection 4.1.1.2.
Инструмент банк фильтров/переключение блоков применяет обратное частотное преобразование, которое было выполнено в кодирующем устройстве. Для инструмента банк фильтров используется обратное модифицированное дискретное косинусное преобразование (IMDCT). IMDCT может настаиваться, чтобы обеспечить 120, 128, 240, 256, 320, 480, 512, 576, 960, 1024 или 1152 спектральных коэффициентов.The filter bank / block switching tool applies the inverse frequency conversion that was performed on the encoder. The filter bank tool uses the inverse modified discrete cosine transform (IMDCT). IMDCT can be infused to provide 120, 128, 240, 256, 320, 480, 512, 576, 960, 1024, or 1152 spectral coefficients.
На входы инструмента банк фильтров подаются:The filter bank is supplied with the following inputs:
- спектры (обратно квантованные),- spectra (inverse quantized),
- информация управления банком фильтров.- filter bank management information.
На выходе(ах) инструмента банк фильтров формируется (формируются):At the output (s) of the instrument, the filter bank is formed (formed):
- Аудио сигнал(ы), восстановленные на временном интервале.- Audio signal (s) recovered over a time interval.
Инструмент банк фильтров с искаженным временем/переключение блоков заменяет обычный инструмент банк фильтров/переключение блоков, когда допустим режим искажения времени. Банком фильтров является то же самое (IMDCT), которое относится к обычному банку фильтров, причем дополнительно обработанные функцией окна сэмплы искаженного (деформированного) временного интервала отображаются в линейный временной интервал путем передискретизации с изменяющейся во времени частотой.Distorted Time Filter Bank / Switch Tool blocks replaces the usual filter bank / block switching tool when time distortion mode is acceptable. The filter bank is the same (IMDCT), which refers to a conventional filter bank, and samples of the distorted (deformed) time interval additionally processed by the window function are displayed in a linear time interval by oversampling with a time-varying frequency.
На входы инструмента банк фильтров с искаженным временем поступают:The filter bank with distorted time receives the instrument inputs:
- Обратно квантованные спектры.- Inverse quantized spectra.
- Информация управления банком фильтров.- Information for managing a filter bank.
- Информация об управлении искажениями времени. На выходе (ах) инструмента банк фильтров с искаженным временем формируется (формируются):- Information about managing time distortion. At the output (s) of the instrument, a filter bank with distorted time is formed (formed):
- Аудио сигнал(ы), восстановленные на линейном временном интервале. Расширенный инструмент SBR (eSBR) восстанавливает высокочастотную полосу аудио сигнала. Это основано на повторении (репликации) последовательностей гармоник, усеченных во время кодирования. В результате, для того чтобы реконструировать спектральные характеристики оригинального сигнала, формируется огибающая спектра с восстановленной полосой высоких частот, применяется обратная фильтрация, и добавляются шумовые и синусоидальные компоненты. На вход инструмента eSBR подаются:- Audio signal (s) restored on a linear time interval. Advanced SBR Tool (eSBR) restores the high frequency band of an audio signal. This is based on the replication of sequences of harmonics truncated during coding. As a result, in order to reconstruct the spectral characteristics of the original signal, a spectral envelope with a restored high-frequency band is formed, reverse filtering is applied, and noise and sinusoidal components are added. The input to the eSBR tool is:
- Квантованные данные об огибающей спектра.- Quantized spectral envelope data.
- Разнообразные данные об управлении- A variety of management data
- сигнал на временном интервале от основного декодера ААС. - a signal on a time interval from the main AAC decoder.
На выходе инструмента eSBR формируется:The output of the eSBR tool is:
- сигнал на временном интервале или- a signal on a time interval or
- представление сигнала в QMF-области, например, в случае, если используется инструмент MPEG-окружение.- representation of the signal in the QMF region, for example, if the MPEG environment tool is used.
Инструмент MPEG-окружение (MPEGS) формирует множество сигналов из одного или более входных сигналов, применяя сложную процедуру смешения с расширением к входному сигналу(ам), которой управляют соответствующие пространственные параметры. В контексте USAC MPEGS используется для того, чтобы закодировать многоканальный сигнал, передавая стороннюю информацию о параметрах вместе с передаваемым сигналом с сокращенным числом каналов.The MPEG Environment Tool (MPEGS) generates a plurality of signals from one or more input signals by applying a complex mixing procedure with extension to the input signal (s), which is controlled by the corresponding spatial parameters. In the context of USAC, MPEGS is used to encode a multi-channel signal by transmitting third-party parameter information along with a transmitted signal with a reduced number of channels.
На вход инструмента MPEGS подается:The MPEGS instrument input is:
- сигналом с сокращенным числом каналов или- a signal with a reduced number of channels or
- представление сигнала сокращенным числом каналов в QMF-области от инструмента eSBR.- representation of the signal by the reduced number of channels in the QMF region from the eSBR tool.
На выходе инструмента MPEGS формируется:The output of the MPEGS tool is formed:
- многоканальный сигнал на временном интервале.- multichannel signal on a time interval.
Инструмент классификатор сигнала анализирует оригинальный входной сигнал и формирует из него информацию об управлении, которая вызывает выбор различных способов кодирования. Анализ входного сигнала является реализацией, зависящей и пытающейся выбрать оптимальное ядро кодирования для данного входного фрейма сигнала. Выходной сигнал классификатора сигнала может (как опция) также использоваться, чтобы влиять на поведение других инструментов, например, MPEG-окружения, расширенного SBR, банка фильтров с искаженным временем и других.The signal classifier tool analyzes the original input signal and generates control information from it, which causes the selection of various encoding methods. Analysis of the input signal is an implementation that depends on and tries to select the optimal coding core for a given input signal frame. The output of the signal classifier can (as an option) also be used to influence the behavior of other instruments, for example, MPEG environment, advanced SBR, filter bank with distorted time, and others.
На вход инструмента классификатор сигнала подается:The signal classifier is supplied to the instrument input:
- оригинальный неизмененный входной сигнал,- original unchanged input signal,
- дополнительные параметры, зависящие от реализации.- additional implementation-specific parameters.
На выходе инструмента классификатор сигнала формируется:At the output of the instrument, a signal classifier is formed:
- управляющий сигнал для управления выбором ядра кодирования (не LP кодирования фильтрованной области частот, LP кодирования фильтрованной области частот, или LP кодирования фильтрованной временной области).- a control signal for controlling the selection of the coding core (not LP coding of the filtered frequency domain, LP coding of the filtered frequency domain, or LP coding of the filtered time domain).
В соответствии с данным изобретением, разрешение времени/частоты в блоке 410 на фиг.12А и в конвертере 523 на фиг.12А управляется в зависимости от аудио сигнала. Взаимосвязь между длиной окна, длиной преобразования, временным и частотным разрешением иллюстрированы на фиг.13А, где становится ясно, что для большой длины окна временное разрешение понижается, но разрешение частот становится высоким, и для короткой длины окна временное разрешение высоко, но частотное разрешение низкое.In accordance with this invention, the time / frequency resolution in
В первом канале кодирования, который является предпочтительно ААС кодирующим каналом, элементы, обозначенные 410, 1201, 1202, 4021 на фиг.12А, могут использовать различные окна, где форма окна определена анализатором сигнала, который предпочтительно находится в блоке 300 классификатора сигнала, но который может также быть отдельным модулем. Кодирующее устройство выбирает одно из окон, иллюстрированных на фиг.13В, у которых есть различные разрешения времени/частоты. Разрешение времени/частоты первого длинного окна, второго окна, четвертого окна, пятого окна и шестого окна равно 2048 значений выборки для длины преобразования 1024. У короткого окна, иллюстрированного в третьей линии на фиг.13В, разрешение времени составляет 256 значений выборки в соответствии с размером окна. Это соответствует длине преобразования 128.In the first coding channel, which is preferably an AAC coding channel, the elements indicated by 410, 1201, 1202, 4021 in FIG. 12A may use various windows where the window shape is determined by a signal analyzer, which is preferably located in the
Аналогично, у последних двух окон есть длина окна, равная 2304, которая является лучшей для разрешения частоты, чем окно в первой линии, но более низкой для временного разрешения. Длина преобразования для окон в последних двух линиях равна 1152.Similarly, the last two windows have a window length of 2304, which is better for frequency resolution than the window in the first line, but lower for time resolution. The conversion length for windows in the last two lines is 1152.
В первом канале кодирования могут быть построены различные последовательности окон, которые построены из окон преобразования на фиг.13В. Хотя на фиг.13С иллюстрирована только короткая последовательность, в то время как другие "последовательности" состоят из единственного окна, могут также быть построены длинные последовательности, состоящие из большего количества окон. Отметим, что согласно фиг.13В, для меньшего числа коэффициентов, то есть 960 вместо 1024, временное разрешение также ниже, чем для соответствующего более высокого числа коэффициентов, такого как 1024.In the first coding channel, various sequences of windows that are constructed from the transform windows in FIG. 13B can be constructed. Although only a short sequence is illustrated in FIG. 13C, while other “sequences” consist of a single window, long sequences consisting of more windows can also be constructed. Note that according to FIG. 13B, for a smaller number of coefficients, that is, 960 instead of 1024, the time resolution is also lower than for the corresponding higher number of coefficients, such as 1024.
Фиг.14А-14G иллюстрируют различные разрешения/размеры окна во втором канале кодирования. В предпочтительном решении данного изобретения у второго канала кодирования есть первый канал обработки, который является кодером временного интервала ACELP 526, и второй канал обработки, включающий банк фильтров 523. В этом канале суперфрейм длиной, например, 2048 сэмплов подразделен на фреймы по 256 образцов. Отдельные фреймы по 256 сэмплов могут отдельно использоваться так, чтобы могла быть применена последовательность четырех окон, где каждое окно покрывает два фрейма, когда используется MDCT с 50-процентным наложением. Тогда используется высокое разрешение, как иллюстрировано на фиг.14D. Альтернативно, когда сигнал позволяет использовать более длинные окна, быть использована последовательность такая, как изображённая на фиг.14С, где применен двойной размер окна, имеющий 1024 сэмпла для каждого окна (средние окна), так чтобы одно окно покрыло четыре фрейма при 50-процентном наложении.14A-14G illustrate various window resolutions / sizes in a second coding channel. In a preferred solution of the present invention, the second encoding channel has a first processing channel, which is an
Наконец, когда сигнал таков, что может использоваться длинное окно, это длинное окно покрывает более чем 4096 сэмплов снова с 50-процентным наложением.Finally, when the signal is such that a long window can be used, this long window covers over 4096 samples again with 50 percent overlap.
В привилегированном решении, в котором есть два канала, где у одного канала есть кодирующее устройство ACELP, положение фрейма ACELP, обозначенное "А" в суперфрейме, может также определять размер окна, примененного для двух смежных фреймов ТСХ, обозначенных "Т" на фиг. 14Е. В основном представляет интерес использование длинных окон, когда бы это ни было возможно. Однако должны быть применены короткие окна, когда один фрейм Т расположен между двумя фреймами А. Средние окна могут быть применены, когда есть два смежных фрейма Т. Однако когда есть три смежных фрейма Т, соответствующее большее окно не может быть эффективным из-за дополнительной сложности. Поэтому, третий фрейм Т, хотя и не предшествует фрейму А, может быть обработан коротким окном. Когда у целого суперфрейма только есть фреймы 1, тогда может быть применено длинное окно.In a preferred solution in which there are two channels where one channel has an ACELP encoder, the position of the ACELP frame indicated by “A” in the superframe can also determine the size of the window applied to the two adjacent TLC frames indicated by “T” in FIG. 14E. It is mainly of interest to use long windows whenever possible. However, short windows should be applied when one frame T is located between two frames A. Middle windows can be applied when there are two adjacent frames T. However, when there are three adjacent frames T, the corresponding larger window cannot be effective due to the additional complexity . Therefore, the third frame T, although it does not precede frame A, can be processed with a short window. When the whole superframe only has
Фиг.14F иллюстрирует несколько альтернатив для окон, где размер окна всегда 2х (двухкратное) число 1g спектральных коэффициентов из-за предпочтительного 50-процентного наложения. Однако могут быть применены другие проценты наложения для всех каналов кодирования так, что отношение между размером окна и диной преобразования может также отличаться от двух и даже приблизиться единице, когда не применено никакое совмещение временных интервалов.Fig. 14F illustrates several alternatives for windows, where the window size is always 2x (twice) the number 1g of spectral coefficients due to a preferred 50 percent overlap. However, other overlap percentages can be applied to all coding channels so that the ratio between the window size and the conversion dyne can also differ from two or even close to one when no time slot matching is applied.
Фиг.14G иллюстрирует правила для того, чтобы построить окно, основанное на правилах, данных на фиг.14F. Величина ZL иллюстрирует нули в начале окна. Величина L иллюстрирует число коэффициентов окна в зоне совмещения. Величины в части М являются "1" единицами, не вводящими любое совмещение в результате наложения со смежным окном, у которого есть нулевые величины в части, соответствующей М. Часть М сопровождается правой зоной наложения R, за которой следует зона нулей ZR, которые соответствовали бы части М следующего окна.FIG. 14G illustrates rules for constructing a window based on the rules given in FIG. 14F. The ZL value illustrates the zeros at the beginning of the window. The value of L illustrates the number of window coefficients in the registration area. The values in part M are “1” units that do not introduce any alignment as a result of overlapping with an adjacent window that has zero values in the part corresponding to M. Part M is followed by a right overlay zone R, followed by a zone of zeros ZR that would correspond part M of the next window.
Ниже приведены материалы, которые описывают предпочтительное и подробное выполнение изобретенной схемы кодирования/расшифровки аудио, особенно относительно стороны декодера.The following are materials that describe a preferred and detailed implementation of the inventive audio coding / decoding scheme, especially with respect to the decoder side.
Окна и последовательности оконWindows and window sequences
Квантизация и кодирование сделаны в области частот. С этой целью временной .сигнал времени отображается в область частот в кодирующем устройстве. Декодер выполняет обратное отображение, как описано в подпункте 2. В зависимости от сигнала кодер может изменить разрешение времени/частоты при использовании трех различных размеров окон: 2304, 2048 и 256. Чтобы переключаться между окнами, используются окна перехода LONG_START_WINDOW, LONG_STOP_WINDOW, START_WINDOW_LPD, STOP_WINDOW_1152, STOP_START_WINDOW и STOP_START_WINDOW_1152. В таблице 5.11 приведены окна, определена соответствующая длина преобразования и показана схематически форма окон. Используется три длины преобразования: 1152, 1024 (или 960) (относятся к длинному преобразованию) и 128 (или 120) коэффициентов (относятся к короткому преобразованию).Quantization and coding are done in the frequency domain. To this end, a temporary. Time signal is mapped to the frequency domain in the encoder. The decoder performs the reverse mapping as described in
Последовательность окон состоит из окон так, что raw_data_block всегда содержит данные, представленные 1024 (или 960) выходных сэмплов. Элемент данных window_sequence обозначает последовательность фактически используемых окон. Фиг.13С иллюстрирует, как последовательность окон образуется из индивидуальных окон. См. подпункт 2 для получения более детальной информации о преобразовании и окнах.A window sequence consists of windows so that raw_data_block always contains the data represented by 1024 (or 960) output samples. The window_sequence data element indicates the sequence of actually used windows. 13C illustrates how a sequence of windows is formed from individual windows. See
Масштабирующие полосы и группировкаScaling stripes and grouping
См. ISO/IEC 14496-3, п. 4, подпункт 4.5.2.3.4See ISO / IEC 14496-3, clause 4, subclause 4.5.2.3.4
Как описано в ISO/IEC 14496-3, п. 4, подпункт 4.5.2.3.4, ширина масштабирующих полос основана на имитации критических полос человеческой слуховой системы. По этой причине число масштабирующих полос в спектре и их ширина зависит от длины преобразования и частоты осуществления выборки. В табл. 4.110-4.128, в ISO/IEC 14496-3, п.4, подпункт 4.5.4, приведен список смещений начал каждой масштабирующей полосы для длин преобразований 1024 (960) и 128 (120) и частот дискретизации. Таблицы, изначально разработанные для LONG_WINDOW, LONG_START_WINDOW and LONG_STOP_WINDOW, используются для START_WINDOW_LPD и STOP_START_WINDOW. Таблицами смещений для STOP_WINDOW_1152 и STOP_START_WINDOW_1152 являются табл. 4-10.As described in ISO / IEC 14496-3, clause 4, subclause 4.5.2.3.4, the width of the scaling bands is based on simulating the critical bands of the human auditory system. For this reason, the number of scaling bands in the spectrum and their width depends on the conversion length and the sampling frequency. In the table. 4.110-4.128, in ISO / IEC 14496-3, clause 4, subclause 4.5.4, a list of offsets of the beginnings of each scaling band is given for transform lengths of 1024 (960) and 128 (120) and sampling frequencies. Tables originally designed for LONG_WINDOW, LONG_START_WINDOW and LONG_STOP_WINDOW are used for START_WINDOW_LPD and STOP_START_WINDOW. The offset tables for STOP_WINDOW_1152 and STOP_START_WINDOW_1152 are tab. 4-10.
Функция декодирования lpd_channel_stream()Decoding Function lpd_channel_stream ()
Элемент битового потока lpd_channel_stream() содержит всю необходимую информацию, чтобы декодировать один фрейм "области линейного предсказания" кодированного сигнала. Он получает сигнал для одного фрейма кодированного сигнала, который кодирован в LPC-области, т.е. включает шаг LPC фильтрации. Остаточный сигнал этого фильтра (так называемое "возбуждение") затем представлен или с помощью модуля ACELP, или в области MDCT преобразования ("преобразование кодированного возбуждения ", ТСХ). Чтобы достичь хорошего приближения к характеристикам сигнала, один фрейм разбивается на четыре более коротких единицы равного размера, каждая из которых кодируется или с использованием кодирующей схемы ACELP, или ТСХ.The bit stream element lpd_channel_stream () contains all the necessary information to decode a single frame of the "linear prediction region" of the encoded signal. It receives the signal for one frame of the encoded signal, which is encoded in the LPC region, i.e. includes LPC filtering step. The residual signal of this filter (the so-called “excitation”) is then represented either by the ACELP module or in the MDCT transform region (“coded excitation transform”, TLC). To achieve a good approximation to the signal characteristics, one frame is divided into four shorter units of equal size, each of which is encoded using either the ACELP coding scheme or TLC.
Этот процесс аналогичен кодирующей схеме, описанной в 3GPP TS 26.290. Из этого документа взята незначительно отличающаяся терминология, где один "суперфрейм" обозначает сегмент сигнала из 1024 сэмплов, где "фрейм" составляет в точности четверть от 1024 сэмплов, т.е. 256 сэмплов. Каждый из этих фреймов далее подразделяется на четыре "субфрейма" равной длины. Заметим, что в данном подразделе используется эта терминология.This process is similar to the coding scheme described in 3GPP TS 26.290. A slightly different terminology is taken from this document, where one “superframe” denotes a signal segment of 1024 samples, where the “frame” is exactly a quarter of 1024 samples, i.e. 256 samples. Each of these frames is further subdivided into four "subframes" of equal length. Note that this terminology is used in this subsection.
Определения, элементы данныхDefinitions, data elements
Табл. 1 - Отображение режимов кодирования для lpd_channel_stream()Tab. 1 - Display encoding modes for lpd_channel_stream ()
mod[0…3] Значения в массиве mod[] обозначают соответствующие режимы кодирования каждого фрейма:mod [0 ... 3] The values in the mod [] array indicate the corresponding encoding modes of each frame:
Табл. 2 - Режимы кодирования, обозначенные mod[]Tab. 2 - Encoding modes indicated by mod []
Табл. 3 - Определение first_lpd_flagTab. 3 - Definition of first_lpd_flag
По аналогии с [8], раздел 5.2.2, существует 26 следующих вариантов ACELP или ТСХ в одном суперфрейме битового потока lpd_channel_stream. Один из этих 26 вариантов режима обозначен в битовом потоке элементом lpd_mode. Отображение lpd_mode на действующий режим кодирования для каждого фрейма в подфрейме показано в табл. 1 и табл.2.By analogy with [8], Section 5.2.2, there are 26 of the following ACELP or TLC options in one superframe of the lpd_channel_stream bitstream. One of these 26 mode options is indicated in the bitstream by lpd_mode. The mapping of lpd_mode to the current encoding mode for each frame in the subframe is shown in Table. 1 and table 2.
Табл. 4 - Масштабирующие полосы частот для длины окна 2304 при STOP_START_1152_WINDOW и STOP_1152_WINDOW 44.1 и 48 кГцTab. 4 - Scaling frequency bands for window length 2304 at STOP_START_1152_WINDOW and STOP_1152_WINDOW 44.1 and 48 kHz
Табл. 5 - Масштабирующие полосы частот для длины окна 2304 при STOP_START_1152_WINDOW и STOP_1152 WINDOW 32 кГцTab. 5 - Scaling frequency bands for window length 2304 at STOP_START_1152_WINDOW and
Табл. 6 - Масштабирующие полосы частот для длины окна 2304 при STOP_START_1152_WINDOW и STOP_1152_WINDOW 8 кГцTab. 6 - Scaling frequency bands for window length 2304 at STOP_START_1152_WINDOW and STOP_1152_WINDOW 8 kHz
Табл. 7 - Масштабирующие полосы частот для длины окна 2304 при STOP_START_1152_WINDOW и STOP_1152_WINDOW 11.025,12 и 16 кГцTab. 7 - Scaling frequency bands for window length 2304 at STOP_START_1152_WINDOW and STOP_1152_WINDOW 11.025.12 and 16 kHz
Табл. 8 - Масштабирующие полосы частот для длины окна 2304 при STOP_START_1152_WINDOW и STOP_1152_WINDOW 22.05 и 24 кГцTab. 8 - Scaling frequency bands for window length 2304 at STOP_START_1152_WINDOW and STOP_1152_WINDOW 22.05 and 24 kHz
Табл. 9 - Масштабирующие полосы частот для длины окна 2304 при STOP_START_1152_WINDOW и STOP 1152 WINDOW 64 кГцTab. 9 - Scaling frequency bands for window length 2304 at STOP_START_1152_WINDOW and
Табл. 10 - Масштабирующие полосы частот для длины окна 2304 при STOP START 1152 WINDOW и STOP 1152 WINDOW 88.2 и 96 кГцTab. 10 - Scaling frequency bands for window length 2304 with
Таблицы ссылок на масштабирующие полосы частотScaling Band Reference Tables
Для всех других ссылок на масштабирующие полосы частот, пожалуйста, обратитесь к ISO/IEC 14496-3, раздел 4, с таблицы 4.129 раздела 4.5.4 до таблицы 4.147.For all other references to scaling frequency bands, please refer to ISO / IEC 14496-3, clause 4, from table 4.129 of clause 4.5.4 to table 4.147.
КвантизацияQuantization
Для квантизации спектральных коэффициентов ААС в кодирующем устройстве используется не однородный квантизатор. Поэтому декодер должен выполнить инверсию не однородной квантизации после декодирования Хаффмана коэффициентов масштабирования (см. подпункт 6.3), и декодирования данных без шума (см. подпункт 6.1).To quantize the spectral coefficients of AAS in the encoder, a non-uniform quantizer is used. Therefore, the decoder must invert the non-uniform quantization after decoding the Huffman scaling factors (see subclause 6.3) and decoding the data without noise (see clause 6.1).
Для квантизации спектральных коэффициентов ТСХ используется однородный квантизатор. Никакая обратная квантизация не необходима в декодере после декодирования спектральных данных без шума.A homogeneous quantizer is used to quantize the spectral coefficients of TLC. No inverse quantization is necessary in the decoder after decoding the spectral data without noise.
Банк фильтров и переключение блокаFilter Bank and Block Switching
Описание инструментаTool description
Временное/частотное представление сигнала отображается во временную область и подается на модуль банка фильтров. Этот модуль состоит из обратного модифицированного дискретного косинумного преобразования (IMDCT), окна и функции наложения-сложения. Чтобы адаптировать разрешение времени/частоты банка фильтров к особенностям входного сигнала, используется инструмент переключения. Число N представляет длину окна, где N - функция window_sequence (см. подпункт 1.1). Для каждого канала N/2 величин частот-времени Xi,k преобразуются в xi,n величины на временном интервале N, с использованием IMDCT. После применения функции окна, для каждого канала, первая половина zi,n последовательности добавляется ко второй половине предыдущего блока, обработанного функцией окна, последовательности z(i-1),n, чтобы восстановить на выходе сэмплы для каждого канала outi,n.The time / frequency representation of the signal is displayed in the time domain and fed to the filter bank module. This module consists of an inverse modified discrete cosine transform (IMDCT), a window, and an overlay-add function. To adapt the resolution of the time / frequency of the filter bank to the characteristics of the input signal, a switching tool is used. The number N represents the length of the window, where N is the window_sequence function (see subclause 1.1). For each channel, N / 2 frequency-time values X i, k are converted to x i, n values on time interval N, using IMDCT. After applying the window function, for each channel, the first half z i, n of the sequence is added to the second half of the previous block processed by the window function, the sequence z (i-1), n , in order to restore the samples for each channel out i, n to the output.
ОпределенияDefinitions
На фиг.13С показано восемь window_sequences (ONLY_LONG_SEQUENCE, LONG_START_SEQUENCE, EIGHT_SHORT_SEQUENCE, LONG_STOP_SEQUENCE, STOP_START_SEQUENCE, STOP_1152_SEQUENCE, LPD_START_SEQUENCE, STOP_START_1152_SEQUENCE).13C shows eight window_sequences (ONLY_LONG_SEQUENCE, LONG_START_SEQUENCE, EIGHT_SHORT_SEQUENCE, LONG_STOP_SEQUENCE, STOP_START_SEQUENCE, STOP_1152_SEQUENCE, LPD_START_SEQUENCE, STOP_START_1152_SEQUENCE).
В последовательности LPD_SEQUENCE ссылаются на все доступные варианты режимов окна/кодирования в так называемом кодеке области линейного предсказания (см. раздел 1.3). В контексте декодирования фрейма, кодированного в частотной области, важно знать, является ли режим кодирования следующего фрейма в LP области, что обозначено LPD_SEQUENCE. Однако точная структура LPD_SEQUENCE обеспечивает декодирование кодированного фрейма в LP области.In the LPD_SEQUENCE sequence, all available window / coding mode options are referred to in the so-called codec of the linear prediction region (see section 1.3). In the context of decoding a frame encoded in the frequency domain, it is important to know whether the encoding mode of the next frame in the LP domain is indicated by LPD_SEQUENCE. However, the precise structure of the LPD_SEQUENCE allows decoding of the encoded frame in the LP region.
Процесс декодирования IMDCTIMDCT Decoding Process
Аналитическим выражением IMDCT является:The analytical expression of IMDCT is:
где:Where:
n = индекс сэмпла;n = sample index;
i = индекс окна;i = window index;
k = индекс спектрального коэффициента;k = spectral coefficient index;
N = длина окна, основанная на величине window_ sequence;N = window length based on window_ sequence value;
n0=(N/2+1)/2.n 0 = (N / 2 + 1) / 2.
Окно синтеза длины N для обратного преобразования является функцией синтаксического элемента window_sequence и алгоритмического содержания. Это определено следующим образом:A synthesis window of length N for the inverse transform is a function of the syntax element window_sequence and the algorithmic content. It is defined as follows:
Длина окна 2304:Window Length 2304:
Длина окна 2048:Window Length 2048:
Интерпретации блока перехода are следующие:The interpretations of the transition block are as follows:
Оконная обработка и переключение блокаWindow processing and block switching
В зависимости от элемента window_sequence и window_shape используются различные окна преобразований. Объединение половин окна описывает следующие представления всех возможных последовательностей окон window_sequences.Different transform windows are used depending on the window_sequence and window_shape elements. The union of the window halves describes the following representations of all possible window sequences:
Для window_shape == 1, коэффициенты окна определяются окном Кайсера-Бесселя (KBD) следующим образом:For window_shape == 1, the window coefficients are determined by the Kaiser-Bessel window (KBD) as follows:
где:Where:
W', оконная функция Кайсера-Бесселя, см. [5], определенная как:W ', the Kaiser-Bessel window function, see [5], defined as:
α=альфа фактор ядра окна,
В другом случае, для window_shape == 0, используется синусоидальное окно:In another case, for window_shape == 0, a sinusoidal window is used:
Длина окна N может быть 2048(1920) или 256(240) для KBD и синусоидального окна. В случае STOP_1152_SEQUENCE и STOP_START_1152_SEQUENCE, N может быть 2048 или 256, склоны окна аналогичные, но плоская вершина длиннее.The window length N can be 2048 (1920) or 256 (240) for KBD and a sine window. In the case of STOP_1152_SEQUENCE and STOP_START_1152_SEQUENCE, N can be 2048 or 256, the window slopes are similar, but the flat top is longer.
Только в случае LPD_START_SEQUENCE правая часть окна является синусоидальным окном длиной 64 сэмпла.Only in the case of LPD_START_SEQUENCE the right part of the window is a sinusoidal window with a length of 64 samples.
В подпунктах a)-h) этого раздела показано, как получить возможные последовательности окон.Subparagraphs a) -h) of this section show how to obtain possible window sequences.
Для всех типов window_sequences (последовательность окон) window_shape (форма окна) левой половины первого окна преобразования определяется формой окна предыдущего блока. Следующая формула выражает этот факт:For all types of window_sequences (window sequence), the window_shape (window shape) of the left half of the first transformation window is determined by the window shape of the previous block. The following formula expresses this fact:
где:Where:
window_shape_previous_block (форма окна предыдущего блока); window_shape предыдущего блока (i-1).window_shape_previous_block (window shape of the previous block); window_shape of the previous block (i-1).
Для первого декодируемого блока first raw_data_block() форма окна window_shape левой и правой половин окна одинаковы.For the first decoded block first raw_data_block (), the window shape of the window_shape of the left and right halves of the window is the same.
a) ONLY_LONG_SEQUENCE:a) ONLY_LONG_SEQUENCE:
window_sequence == ONLY_LONG_SEQUENCE последовательность окон является равной одному LONG_WINDOW с полной длиной окна N_l равной 2048 (1920).window_sequence == ONLY_LONG_SEQUENCE The window sequence is one LONG_WINDOW with the total window length N_l equal to 2048 (1920).
При форме окна window_shape == 1, окно для ONLY_LONG_SEQUENCE дается следующим выражением:When the window form is window_shape == 1, the window for ONLY_LONG_SEQUENCE is given by the following expression:
При window_shape == 0 окно для ONLY_LONG_SEQUENCE может быть описано выражением:With window_shape == 0, the window for ONLY_LONG_SEQUENCE can be described by the expression:
После оконной обработки величины (zi,n) временной области могут быть описаны выражением:After window processing, the values (z i, n ) of the time domain can be described by the expression:
zi,n=w(n)·xi,n;z i, n = w (n) x i, n ;
b) LONG_START_SEQUENCE:b) LONG_START_SEQUENCE:
Длинная стартовая последовательность LONG_START_SEQUENCE необходима, чтобы получить правильное перекрытие и сложение для переходного блока из NLY_LONG_SEQUENCE в EIGHT_SHORT_SEQUENCE.A long start sequence LONG_START_SEQUENCE is needed to get the correct overlap and addition for the transition block from NLY_LONG_SEQUENCE to EIGHT_SHORT_SEQUENCE.
Длина окна N_l и N_s устанавливается равной 2048 (1920) и 256 (240) соответственно.The window lengths N_l and N_s are set to 2048 (1920) and 256 (240), respectively.
Если window_shape == 1, то окно для LONG_START_SEQUENCE дается следующим выражением:If window_shape == 1, then the window for LONG_START_SEQUENCE is given by the following expression:
Если window_shape == 0 , то окно для LONG_START_SEQUENCE выглядит как:If window_shape == 0, then the window for LONG_START_SEQUENCE looks like:
Обработанные функцией окна величины могут быть вычислены с использованием формулы, описанной в а).The values processed by the window function can be calculated using the formula described in a).
с) EIGHT JSHORTc) EIGHT JSHORT
Последовательность окон window_sequence == EIGHT_SHORT состоит из восьми перекрывающихся и сложенных SHORT_WINDOWs (коротких окон) с длиной N_s, равной 256 (240) каждое. Общая длина последовательности окон вместе с предшествующими и последующими нулями составляет 2048 (1920). Каждый из восьми коротких блоков сначала раздельно обрабатывается функцией окна. Номер короткого блока индексируется переменной j=0, … , M-1(M=N_l/N_s).The window sequence window_sequence == EIGHT_SHORT consists of eight overlapping and stacked SHORT_WINDOWs (short windows) with an N_s length of 256 (240) each. The total length of the window sequence along with the previous and subsequent zeros is 2048 (1920). Each of the eight short blocks is first separately processed by the window function. The short block number is indexed by the variable j = 0, ..., M-1 (M = N_l / N_s).
Форма окна window_shape предыдущего блока влияет только на первый из восьми 'коротких блоков (W0(n)) only. Если window_shape == 1, оконная функция дается выражением:The window shape of the window_shape of the previous block affects only the first of eight 'short blocks (W 0 (n)) only. If window_shape == 1, the window function is given by:
В другом случае window_shape == 0, оконная функция может быть описана как:In another case, window_shape == 0, the window function can be described as:
Перекрытие и сложение последовательности восьми коротких окон EIGHTJ3HORT window_sequence получается обработкой оконной функцией величин zi,n во временной области и описывается выражением:Overlapping and adding up a sequence of eight short windows EIGHTJ3HORT window_sequence is obtained by processing the window function of the values z i, n in the time domain and is described by the expression:
d) LONG_STOP_SEQUENCEd) LONG_STOP_SEQUENCE
Эта последовательность окон необходима, чтобы переключиться из EIGHT_SHORT_SEQUENCE обратно в ONLY_LONG_SEQUENCE.This window sequence is necessary to switch from EIGHT_SHORT_SEQUENCE back to ONLY_LONG_SEQUENCE.
Если window_shape == 1 окно для LONG_STOP_SEQUENCE дается следующим выражением:If window_shape == 1 window for LONG_STOP_SEQUENCE is given by the following expression:
Если window_shape == 0 окно для LONG_START_SEQUENCE определяется выражением:If window_shape == 0 the window for LONG_START_SEQUENCE is defined by:
Обработанные оконной функцией величины на временном интервале могут быть вычислены с использованием формулы, описанной в а).The values processed by the window function over a time interval can be calculated using the formula described in a).
е) STOP_START_SEQUENCE:e) STOP_START_SEQUENCE:
Элемент STOP_START_SEQUENCE необходим, чтобы получить правильное перекрытие и сложение для блока перехода из EIGHT_SHORT_SEQUENCE в EIGHT_SHORT_SEQUENCE, когда необходима только длинная последовательность ONLY_LONG_SEQUENCE.The STOP_START_SEQUENCE element is needed to get the correct overlap and addition for the transition block from EIGHT_SHORT_SEQUENCE to EIGHT_SHORT_SEQUENCE, when only a long ONLY_LONG_SEQUENCE sequence is needed.
Длины окон N_l N_s равны 2048 (1920) и 256 (240) соответственно.The window lengths N_l N_s are 2048 (1920) and 256 (240), respectively.
Если window_shape == 1, окно для STOP_START_SEQUENCE дается следующим выражением:If window_shape == 1, the window for STOP_START_SEQUENCE is given by the following expression:
Если window_shape == 0, окно для STOP_START_SEQUENCE выглядит как:If window_shape == 0, the window for STOP_START_SEQUENCE looks like:
Обработанные оконной функцией величины на временном интервале могут быть вычислены с использованием формулы, описанной в а).The values processed by the window function over a time interval can be calculated using the formula described in a).
f) LPD_START_SEQUENCE:f) LPD_START_SEQUENCE:
Элемент LPD_START_SEQUENCE необходим, чтобы получить правильное перекрытие и сложение для блока перехода из ONLY_LONG_SEQUENCE в LPD_SEQUENCE.The LPD_START_SEQUENCE element is needed to get the correct overlap and addition for the transition block from ONLY_LONG_SEQUENCE to LPD_SEQUENCE.
Длины окон N_l и N_s равны 2048 (1920) and 256 (240) соответственно.The window lengths N_l and N_s are 2048 (1920) and 256 (240), respectively.
Если window_shape == 1, окно для LPD_START_SEQUENCE дается выражением:If window_shape == 1, the window for LPD_START_SEQUENCE is given by:
Если window_shape == 0, окно для LPD_START_SEQUENCE выглядит как:If window_shape == 0, the window for LPD_START_SEQUENCE looks like:
Обработанные оконной функцией величины на временном интервале могут быть вычислены с использованием формулы, описанной в а).The values processed by the window function over a time interval can be calculated using the formula described in a).
g) STOP_1152_SEQUENCE:g) STOP_1152_SEQUENCE:
Элемент STOP_1152JSEQUENCE необходим, чтобы получить правильное перекрытие и сложение для блока перехода из LPDJSEQUENCE в ONLY_LONG_SEQUENCE.The STOP_1152JSEQUENCE element is necessary to get the correct overlap and addition for the transition block from LPDJSEQUENCE to ONLY_LONG_SEQUENCE.
Длины окон N_l и N_s равны 2048 (1920) и 256 (240) соответственно.The window lengths N_l and N_s are 2048 (1920) and 256 (240), respectively.
Если window_shape == 1, окно для STOP_1152_SEQUENCE дается выражением:If window_shape == 1, the window for STOP_1152_SEQUENCE is given by:
Если window_shape === 0, окно для STOP_1152JSEQUENCE выглядит как:If window_shape === 0, the window for STOP_1152JSEQUENCE looks like:
Обработанные оконной функцией величины на временном интервале могут быть вычислены с использованием формулы, описанной в а).The values processed by the window function over a time interval can be calculated using the formula described in a).
h) STOP_START_1152_SEQUENCE:h) STOP_START_1152_SEQUENCE:
Элемент STOPJ3TART_1152_SEQUENCE необходим, чтобы получить правильное перекрытие и сложение для блока перехода из LPD_SEQUENCE в EIGHT_SHORT_SEQUENCE, когда необходима только длинная последовательность ONLY_LONG_SEQUENCE.The STOPJ3TART_1152_SEQUENCE element is needed to get the correct overlap and addition for the transition block from LPD_SEQUENCE to EIGHT_SHORT_SEQUENCE when only the long ONLY_LONG_SEQUENCE sequence is needed.
Длины окон N_l и N_s равны 2048 (1920) и 256 (240) соответственно. Если window_shape == 1, окно для STOP_START_SEQUENCE дается выражением:The window lengths N_l and N_s are 2048 (1920) and 256 (240), respectively. If window_shape == 1, the window for STOP_START_SEQUENCE is given by:
Если window_shape == 0, окно для STOP_START_SEQUENCE выглядит как:If window_shape == 0, the window for STOP_START_SEQUENCE looks like:
Обработанные оконной функцией величины на временном интервале могут быть вычислены с использованием формулы, описанной в а).The values processed by the window function over a time interval can be calculated using the formula described in a).
Перекрытие и сложение с предыдущей последовательностью оконOverlap and add with previous window sequence
Помимо перекрытия и сложения последовательности восьми коротких окон EIGHT_SHORT window_sequence первая (левая) часть каждой последовательности окон window_sequence перекрывается и складывается со второй (правой) частью предыдущей последовательности окон window_sequence, что приводит к окончательному значению .величин outi,n во временной области.In addition to overlapping and adding up a sequence of eight short EIGHT_SHORT window_sequence windows, the first (left) part of each window_sequence window sequence overlaps and adds to the second (right) part of the previous window_sequence window sequence, which leads to the final value of the values out i, n in the time domain.
Математическое описание этой операции может быть дано следующим образом.A mathematical description of this operation can be given as follows.
В случае ONLY_LONG_SEQUENCE, LONG_START_SEQUENCE, EIGHT_SHORT_SEQUENCE, LONG_STOP_SEQUENCE, STOP_START_SEQUENCE, LPD_START_SEQUENCE:In the case of ONLY_LONG_SEQUENCE, LONG_START_SEQUENCE, EIGHT_SHORT_SEQUENCE, LONG_STOP_SEQUENCE, STOP_START_SEQUENCE, LPD_START_SEQUENCE:
И в случае STOP_1152_SEQUENCE, STOP_START_1152_SEQUENCE:And in the case of STOP_1152_SEQUENCE, STOP_START_1152_SEQUENCE:
В случае LPD_START_SEQUENCE, следующая последовательность является LPDJSEQUENCE. Чтобы получить хорошее перекрытие и сложение к левой части LPD_SEQUENCE применяется окно SIN или KBD.In the case of LPD_START_SEQUENCE, the next sequence is LPDJSEQUENCE. To get good overlap and addition, the SIN or KBD window is applied to the left side of LPD_SEQUENCE.
В случае STOP_1152_SEQUENCE, STOP_START_1152_SEQUENCE предыдущей последовательностью является LPD_SEQUENCE. Чтобы получить хорошее перекрытие и сложение, к левой части LPD_SEQUENCE применяется окно TDAC.In the case of STOP_1152_SEQUENCE, STOP_START_1152_SEQUENCE, the previous sequence is LPD_SEQUENCE. To get good overlap and addition, the TDAC window is applied to the left of LPD_SEQUENCE.
IMDCTIMDCT
См. подпункт 2.3.1See subclause 2.3.1
Обработка оконной функцией и переключение блоковWindow function processing and block switching
В зависимости от элемента window_shape используются различные прототипы окон преобразования с избыточной частотой выборки, длина окон с избыточной частотой выборки определяется какDepending on the window_shape element, various prototypes of conversion windows with an excessive sampling frequency are used; the length of windows with an excessive sampling frequency is defined as
NOS=2·n_long·os_factor_winN OS = 2 n_long os_factor_win
Для window_shape == 1, коэффициенты окна даются окном Кайсера-Бесселя (KBD) следующим образом:For window_shape == 1, window coefficients are given by the Kaiser-Bessel window (KBD) as follows:
где:Where:
W, оконная функция Кайсера-Бесселя, см. [5], определенная как:W, the Kaiser-Bessel window function, see [5], defined as:
α = альфа фактор ядра окна, α=4α = alpha factor of the window core, α = 4
С другой стороны, для window-shape == 0, применяется синусоидальное окно (SIN):On the other hand, for window-shape == 0, a sinusoidal window (SIN) is used:
Для всех видов window_sequences прототип, используемый для левой части окна определяется формой окна предыдущего блока. Следующая формула выражает этот факт:For all types of window_sequences, the prototype used for the left side of the window is determined by the window shape of the previous block. The following formula expresses this fact:
Аналогично прототип для правильной формы окна определен следующей формулой:Similarly, the prototype for the correct form of the window is defined by the following formula:
Так как длины перехода уже определены, это должно быть дифференцировано только между EIGHT_SHORT_SEQUENCE и всеми другими:Since transition lengths are already defined, this should only be differentiated between EIGHT_SHORT_SEQUENCE and all others:
a)EIGHT SHORT SEQUENCE:a) EIGHT SHORT SEQUENCE:
Следующий код на языке Си описывает обработку оконной функцией и внутреннее перекрытие-сложение последовательности EIGHT_SHORT_SEQUENCE:The following C code describes window function processing and internal overlap-addition of the EIGHT_SHORT_SEQUENCE sequence:
TCX, основанный на MDCTMDCT based TCX
Описание инструментаTool description
Когда core_mode равен 1, и когда выбран один или больше из трех режимов TCX кодирования, как "линейная область предсказания", то есть один из 4 элементов массива mod[] больше чем 0, используется инструмент TCX, основанный на MDCT. TCX, основанный на MDCT, получает квантованные спектральные коэффициенты от арифметического декодера. Прежде чем применить обратное преобразование MDCT, квантованные коэффициенты сначала дополняются комфортным шумом, чтобы получить во временной области взвешенный синтезированный сигнал, который затем подается на LPC-фильтр взвешенного синтезированного сигнала.When core_mode is 1, and when one or more of the three TCX coding modes is selected as the "linear prediction region", that is, one of the 4 elements of the mod [] array is greater than 0, the MDCT-based TCX tool is used. An MDCT-based TCX receives quantized spectral coefficients from an arithmetic decoder. Before applying the inverse MDCT transform, the quantized coefficients are first supplemented with comfort noise to obtain a weighted synthesized signal in the time domain, which is then fed to the LPC filter of the weighted synthesized signal.
ОпределенияDefinitions
Процесс декодированияDecoding process
ТСХ на основе MDCT получает от арифметического декодера множество Ig квантованных спектральных коэффициентов, которые определены величинами mod[] и last_lpd_mode. Эти две величины также определяют длину и форму окна, которое будет применено в обратном MDCT. Окно составлено из трех частей, левой части перекрытия сэмплов L, средней части сэмплов М и правой части перекрытия сэмплов R. Чтобы получить окно MDCT длины 2*lg, слева добавлены нули ZL и нули ZR с правой стороны, как показано на фиг.14G для табл. 3/фиг.14F.MDCT-based TLC receives from the arithmetic decoder a plurality of Ig quantized spectral coefficients, which are determined by the mod [] and last_lpd_mode values. These two values also determine the length and shape of the window to be applied in the reverse MDCT. The window is made up of three parts, the left side of the sample overlap L, the middle part of the samples M and the right side of the sample overlap R. To get a 2 * log length MDCT window, ZL zeros and ZR zeros on the right are added on the left, as shown in Fig. 14G for tab. 3 / Fig. 14F.
Табл. 3 - Число спектральных коэффициентов как функция last_lpd_mode и mod[]Tab. 3 - Number of spectral coefficients as a function of last_lpd_mode and mod []
Окно MDCT дается выражениемThe MDCT window is given by
Квантованные спектральные коэффициенты quant[], сформированные арифметическим декодером и добавленные комфортным шумом. Уровень введенного шума определен декодированным параметром noise_factor следующим образом:Quantized spectral coefficients quant [], formed by an arithmetic decoder and added by comfortable noise. The input noise level is determined by the decoded parameter noise_factor as follows:
noise_level = 0.0625 *(8-noise_factor)noise_level = 0.0625 * (8-noise_factor)
Затем, с использованием случайной функции random_sign(), формирующей случайные величины -1 или +1, вычисляется вектор шума noise[].Then, using the random function random_sign (), generating random variables -1 or +1, the noise vector noise [] is calculated.
noise[i] = random_sign()*noise_level;noise [i] = random_sign () * noise_level;
Векторы quant[] и noise[] объединяются, чтобы сформировать вектор реконструированных спектральных коэффициентов r[], способом, в котором 8 последовательных нулей в quant[] заменяются компонентами шума noise[]. Последовательности из 8 ненулевых значений определяются в соответствии с формулой:The vectors quant [] and noise [] combine to form the vector of reconstructed spectral coefficients r [], in a way in which 8 consecutive zeros in quant [] are replaced with noise components noise []. Sequences of 8 non-zero values are determined in accordance with the formula:
Тогда реконструированный спектр получается как:Then the reconstructed spectrum is obtained as:
Перед использование обратного MDCT применяется спектральное сглаживание в соответствии со следующими шагами:Before using inverse MDCT, spectral smoothing is applied in accordance with the following steps:
1. Вычисление энергии Em 8-мерного блока с индексом m для каждого 8-мерного блока первой четверти спектра.1. Calculation of the energy E m of an 8-dimensional block with index m for each 8-dimensional block of the first quarter of the spectrum.
2. Вычисление выражения Rm=sqrt(Em/EI), где I является индексом блока с максимальной величиной из всех Em.2. Calculation of the expression R m = sqrt (E m / E I ), where I is the block index with the maximum value of all E m .
3. если Rm<0.1, то Rm=0.13. if R m <0.1, then R m = 0.1
4. если Rm<Rm-1, то Rm=Rm-1 4. if R m <R m-1 , then R m = R m-1
Каждый 8-размерный блок, лежащий в первой четверти спектра, затем умножается на параметр Rm.Each 8-dimensional block lying in the first quarter of the spectrum is then multiplied by the parameter R m .
Реконструированный (восстановленный) спектр поступает на обратное преобразование MDCT. He обработанный оконной функцией выходной сигнал х[] перемасштабируется с использованием параметра усиления g, полученного инверсией квантизации декодированного индекса decoded global_gain:The reconstructed (reconstructed) spectrum is fed to the inverse MDCT transform. The output signal x [] processed by the window function is rescaled using the gain parameter g obtained by inverting the quantization of the decoded global_gain index:
g=10global_gain/28/(2.rms) g = 10 global_gain / 28 / (2.rms)
Где rms вычисляется как:Where rms is calculated as:
Тогда демасштабированный синтезированный во временной области сигнал равен:Then the demapped signal synthesized in the time domain is equal to:
xw[i]=x[i]·gx w [i] = x [i] · g
После демасштабирования применяется обработка оконной функцией и перекрытие/сложение.After de-scaling, window function processing and overlap / addition are applied.
Восстановленный ТСХ сигнал х(n) затем фильтруется с использованием фильтра A(z)(1-αz-1)/(A(z/λ), чтобы найти сигнал возбуждения, который поступит на фильтер синтеза. Заметим, что за подфрейм для фильтрации используется интерполирующий LP фильтр. Как только возбуждение определено, сигнал восстанавливается путем пропускания возбуждения через фильтр синтеза 1/Â(z) и затем через фильтр 1/(1-0.68z-1), как описано выше.The reconstructed TLC signal x (n) is then filtered using the filter A (z) (1-αz -1 ) / (A (z / λ) to find the excitation signal that will go to the synthesis filter. Note what kind of subframe to filter an interpolating LP filter is used. Once the excitation is determined, the signal is restored by passing the excitation through a 1 / Â (z) synthesis filter and then through a 1 / (1-0.68z -1 ) filter, as described above.
Заметим, что возбуждение также необходимо, чтобы обновить адаптивную кодовую таблицу ACELP и позволить переключаться от ТСХ к ACELP в последующем фрейме. Отметим также, что продолжительность синтеза ТСХ дана длиной фрейма ТСХ (без наложения): 256,512 или 1024 сэмпла для значений mod[] 1,2 или 3 соответственно.Note that excitation is also necessary in order to update the ACELP adaptive code table and allow switching from TLC to ACELP in a subsequent frame. We also note that the duration of TLC synthesis is given by the length of the TLC frame (without overlapping): 256.512 or 1024 samples for mod [] values of 1.2 or 3, respectively.
ОпределенияDefinitions
Определения могут быть найдены в ISO/IEC 14496-3, подраздел 1, подпункт 1.3 (Термины и определения) и в 3GPP TS 26.290, раздел 3 (Определения и сокращения).Definitions can be found in ISO / IEC 14496-3,
Хотя некоторые аспекты были описаны в контексте устройства, ясно, что эти аспекты также представляют описание соответствующего метода, где блок или устройство соответствуют шагу метода или особенности шага метода. Аналогично, аспекты, описанные в контексте шага метода также, представляют описание соответствующего блока или пункта, или особенности соответствующего устройства.Although some aspects have been described in the context of a device, it is clear that these aspects also represent a description of the corresponding method, where the unit or device corresponds to a method step or a feature of a method step. Likewise, aspects described in the context of a method step also provide a description of the corresponding block or item, or features of the corresponding device.
Закодированный согласно изобретению аудио сигнал может быть сохранен на цифровом носителе данных или может быть передан на среде передачи, такой как беспроводная среда передачи или проводная среда передачи, такая как Интернет.The audio signal encoded according to the invention may be stored on a digital storage medium or may be transmitted on a transmission medium, such as a wireless transmission medium or a wired transmission medium, such as the Internet.
В зависимости от определенных требований выполнения воплощения изобретения могут быть осуществлены в аппаратных средствах или в программном обеспечении. Воплощение может быть выполнено с использованием цифрового носителя данных, например дискеты, DVD, компакт-диска, ROM, EPROM, EEPROM или FLASH памяти, на которых с помощью электроники сохранены удобочитаемые управляющие сигналы, которые могут быть использованы программируемой компьютерной системой, таким образом, что будет выполнен соответствующий метод.Depending on certain requirements, embodiments of the invention may be implemented in hardware or in software. The embodiment can be performed using a digital storage medium, for example, a diskette, DVD, CD, ROM, EPROM, EEPROM or FLASH memory, on which electronically readable control signals are stored that can be used by a programmable computer system, so that the corresponding method will be executed.
Некоторые воплощения согласно изобретению включают носитель информации, на который с помощью электроники записаны удобочитаемые управляющие сигналы, которые могут быть использованы программируемой компьютерной системой таким образом, что будет выполнен один из описанных здесь методов.Some embodiments of the invention include a storage medium onto which readable control signals are electronically recorded that can be used by a programmable computer system such that one of the methods described herein is performed.
Вообще, воплощения данного изобретения могут быть осуществлены как продукт компьютерной программы с программным кодом, служащим для того, чтобы выполнить один из методов, когда компьютерная программа выполняется на компьютере. Программный код может, например, быть сохранен на машиночитаемом носителе.In general, embodiments of the present invention can be implemented as a computer program product with program code serving to execute one of the methods when the computer program is executed on a computer. The program code may, for example, be stored on a computer-readable medium.
Другие воплощения включают компьютерную программу для того, чтобы выполнить один из описанных здесь методов, сохраненный на машиночитаемом носителе.Other embodiments include a computer program in order to execute one of the methods described herein stored on a computer-readable medium.
Другими словами, воплощением изобретенного метода тогда является компьютерная программа, имеющая программный код для того, чтобы выполнить один из описанных здесь методов, когда компьютерная программа выполняется на компьютере.In other words, an embodiment of the invented method is then a computer program having program code for executing one of the methods described herein when the computer program is executed on a computer.
Дальнейшим воплощением изобретенных методов тогда является носитель информации (или цифровой носитель данных, или удобочитаемая компьютером среда), включающая компьютерную программу для того, чтобы выполнить один из описанных здесь методов.A further embodiment of the invented methods is then a storage medium (either a digital storage medium or a computer readable medium) comprising a computer program in order to execute one of the methods described herein.
Дальнейшим воплощением изобретенного метода тогда является поток данных или последовательность сигналов, представляющих компьютерную программу для того, чтобы выполнить один из описанных здесь методов. Поток данных или последовательность сигналов могут, например, формироваться, чтобы быть переданными через систему передачи данных, например, через Интернет.A further embodiment of the invented method is then a data stream or a sequence of signals representing a computer program in order to execute one of the methods described here. A data stream or a sequence of signals may, for example, be configured to be transmitted through a data transmission system, for example, via the Internet.
Дальнейшее воплощение включает средство обработки, например, компьютер, или программируемое логическое устройство, выполненное с возможностью осуществить один из описанных здесь методов.A further embodiment includes a processing means, for example, a computer, or a programmable logic device, configured to implement one of the methods described herein.
Дальнейшее воплощение включает компьютер, на который затем установлена компьютерная программа для того, чтобы выполнить один из описанных здесь методов.A further embodiment includes a computer on which a computer program is then installed in order to perform one of the methods described herein.
В некоторых воплощениях может использоваться программируемое логическое устройство (например, программируемую логическую интегральную схему), выполненное с возможностью осуществления некоторых или всех описанных здесь методов. В некоторых воплощениях программируемая логическая интегральная схема может взаимодействовать с микропроцессором, чтобы выполнить один из описанных здесь методов. Вообще, методы предпочтительно выполняются любым устройством на базе аппаратных средств.In some embodiments, a programmable logic device (eg, a programmable logic integrated circuit) may be used, configured to implement some or all of the methods described herein. In some embodiments, a programmable logic integrated circuit may interact with a microprocessor to perform one of the methods described herein. In general, the methods are preferably performed by any hardware-based device.
Описанные выше воплощения просто являются иллюстрациями для воплощения принципов данного изобретения. Подразумевается, что модификации и изменения величин и описанных здесь деталей будут очевидны для специалистов, квалифицированных в технике. Поэтому, есть намерение ограничиться только формулой изобретения, а не определенными деталями, представленными посредством описания и объяснения воплощений.The embodiments described above are merely illustrations for embodying the principles of the present invention. It is understood that modifications and changes to the quantities and details described herein will be apparent to those skilled in the art. Therefore, it is intended to be limited only by the claims and not by certain details presented by way of description and explanation of embodiments.
ЛитератураLiterature
[1] ISO/IEC 11172-3:1993, Information technology - Coding of moving pictures and associated audio for digital storage media at up to about 1,5 Mbit/s, Part 3: Audio.[1] ISO / IEC 11172-3: 1993, Information technology - Coding of moving pictures and associated audio for digital storage media at up to about 1,5 Mbit / s, Part 3: Audio.
[2] ITU-T Rec.H.222.0 (1995) ISO/IEC 13818-1:2000, Information technology - Generic coding of moving pictures and associated audio information: - Part 1: Systems.[2] ITU-T Rec. H.222.0 (1995) ISO / IEC 13818-1: 2000, Information technology - Generic coding of moving pictures and associated audio information: - Part 1: Systems.
[3] ISO/IEC 13818-3:1998, Information technology - Generic coding of moving pictures and associated audio information: - Part 3: Audio.[3] ISO / IEC 13818-3: 1998, Information technology - Generic coding of moving pictures and associated audio information: - Part 3: Audio.
[4] ISO/IEC 13818-7:2004, Information technology - Generic coding of moving pictures and associated audio information: - Part 7: Advanced Audio Coding (AAC).[4] ISO / IEC 13818-7: 2004, Information technology - Generic coding of moving pictures and associated audio information: - Part 7: Advanced Audio Coding (AAC).
[5] КОЛЕС 14496-3:2005, Information technology - Coding of audio-visual objects - Part 1: Systems[5] WHEELS 14496-3: 2005, Information technology - Coding of audio-visual objects - Part 1: Systems
[6] ISO/IEC 14496-3:2005, Information technology - Coding of audio-visual objects - Part 3: Audio[6] ISO / IEC 14496-3: 2005, Information technology - Coding of audio-visual objects - Part 3: Audio
[7] ISOAEC 23003-1:2007, Information technology - MPEG audio technologies - Part 1: MPEG Surround[7] ISOAEC 23003-1: 2007, Information technology - MPEG audio technologies - Part 1: MPEG Surround
[8] 3GPP TS 26.290 V6.3.0, Extended Adaptive Multi-Rate - Wideband (AMR-WB+) codec; Transcoding functions[8] 3GPP TS 26.290 V6.3.0, Extended Adaptive Multi-Rate - Wideband (AMR-WB +) codec; Transcoding functions
[9] 3GPP TS 26.190, Adaptive Multi-Rate - Wideband (AMR-WB) speech codec; Transcoding functions[9] 3GPP TS 26.190, Adaptive Multi-Rate - Wideband (AMR-WB) speech codec; Transcoding functions
[10] 3GPP TS 26.090, Adaptive Multi-Rate (AMR) speech codec; Transcoding functions[10] 3GPP TS 26.090, Adaptive Multi-Rate (AMR) speech codec; Transcoding functions
Claims (21)
второй канал кодирования (500) для того, чтобы закодировать аудио сигнал, используя второй кодирующий алгоритм, для получения второго кодированного аудио сигнала, где первый кодирующий алгоритм отличается от второго кодирующего алгоритма, а второй канал кодирования включает преобразователь области для того, чтобы преобразовать входной аудио сигнал из входной области в аудио сигнал выходной области, и второй преобразователь (523) для того, чтобы преобразовать входной аудио сигнал в спектральную область;
переключатель (200) для переключения между первым каналом кодирования и вторым каналом кодирования так, чтобы для части входного аудио сигнала или первый кодированный аудио сигнал, или второй кодированный аудио сигнал были в выходном аудио сигнале кодирующего устройства;
анализатор аудио сигнала (300, 525) для того, чтобы проанализировать часть аудио сигнала, чтобы определить, представлена ли часть аудио сигнала как первый кодированный аудио сигнал или второй кодированный аудио сигнал в выходном аудио сигнале кодирующего устройства, где анализатор аудио сигнала, кроме того, выполнен с возможностью определить соответствующее непостоянное разрешение времени/частоты первого преобразователя и второго преобразователя, когда сформированы первый кодированный аудио сигнал или второй кодированный аудио сигнал, представляющее часть аудио сигнала; и
выходной интерфейс (800) для того, чтобы сформировать выходной аудио сигнал кодирующего устройства, включающий первый кодированный аудио сигнал и второй кодированный аудио сигнал и информацию, указывающую на первый кодированный аудио сигнал и второй кодированный аудио сигнал, и информацию, указывающую на разрешение времени/частоты, примененную для кодирования первого закодированного аудио сигнала и для кодирования второго закодированного аудио сигнала.1. An audio encoder for encoding an audio signal including a first encoding channel (400) in order to encode an audio signal using a first encoding algorithm to obtain a first encoded audio signal, wherein the first encoding channel comprises a first time / frequency converter (410) for converting the input audio signal into a spectral region;
a second encoding channel (500) in order to encode the audio signal using the second encoding algorithm to obtain a second encoded audio signal, where the first encoding algorithm is different from the second encoding algorithm, and the second encoding channel includes a region converter in order to convert the input audio a signal from an input region to an audio signal of an output region, and a second converter (523) in order to convert the input audio signal to a spectral region;
a switch (200) for switching between the first encoding channel and the second encoding channel so that for a part of the input audio signal, either the first encoded audio signal or the second encoded audio signal is in the audio output of the encoder;
an audio signal analyzer (300, 525) in order to analyze a portion of the audio signal to determine whether a portion of the audio signal is represented as a first encoded audio signal or a second encoded audio signal in the audio output of the encoder, where the audio signal analyzer is further configured to determine an appropriate non-constant time / frequency resolution of the first converter and the second converter when the first encoded audio signal or the second encoded audio signal is generated, Representing a part of the audio signal; and
an output interface (800) for generating an output audio signal of an encoder including a first encoded audio signal and a second encoded audio signal and information indicative of a first encoded audio signal and a second encoded audio signal and information indicative of time / frequency resolution used to encode the first encoded audio signal and to encode the second encoded audio signal.
второй канал обработки, включающий второй преобразователь; и
далее переключатель (521) для того, чтобы переключиться между первым каналом обработки (522) и вторым каналом обработки (523, 524) так, чтобы для части входного аудио сигнала во второй канал кодирования или первый обработанный аудио сигнал или второй обработанный аудио сигнал были во втором кодированном аудио сигнале.8. The audio encoder according to claim 1, wherein the second encoding channel includes a first processing channel (522) in order to process the audio signal;
a second processing channel including a second converter; and
further a switch (521) in order to switch between the first processing channel (522) and the second processing channel (523, 524) so that for a part of the input audio signal into the second encoding channel or the first processed audio signal or the second processed audio signal second encoded audio signal.
кодирование во втором канале кодирования (500) аудио сигнала, используя второй кодирующий алгоритм, чтобы получить второй кодированный аудио сигнал, где первый кодирующий алгоритм отличается от второго кодирующего алгоритма, второй канал кодирования, включающий преобразователь области для того, чтобы преобразовать входной аудио сигнал из входной области в выходную область, и второй преобразователь (523) для того, чтобы преобразовать входной аудио сигнал в спектральную область;
переключение (200) между первым каналом кодирования и вторым каналом кодирования так, чтобы для части входного аудио сигнала в выходном аудио сигнале были или первый кодированный аудио сигнал, или второй кодированный аудио сигнал кодирующего устройства;
анализ (300, 525) части аудио сигнала, чтобы определить, представлена ли часть аудио сигнала как первый кодированный аудио сигнал или второй кодированный аудио сигнал в выходном аудио сигнале кодирующего устройства,
определение соответствующего непостоянного разрешения времени/частоты первого преобразователя и второго преобразователя, когда сформированы первый кодированный аудио сигнал или второй кодированный аудио сигнал, представляющие часть сформированного аудио сигнала; и
формирование (800) выходного аудио сигнала кодирующего устройства, включающего первый кодированный аудио сигнал и второй кодированный аудио сигнал и информацию, указывающую на первый кодированный аудио сигнал и второй кодированный аудио сигнал, и информацию, указывающую на разрешение времени/частоты, примененную для кодирования первого закодированного аудио сигнала и для того, чтобы кодировать второй закодированный аудио сигнал.9. A method of audio encoding an audio signal, including encoding an audio signal in a first encoding channel (400) using a first encoding algorithm to obtain a first encoded audio signal, a first encoding channel including a first time / frequency converter (410) in order to convert input audio signal in the spectral region;
encoding an audio signal in a second encoding channel (500) using a second encoding algorithm to obtain a second encoded audio signal, where the first encoding algorithm is different from the second encoding algorithm, a second encoding channel including a region converter in order to convert the input audio signal from the input region into the output region, and the second Converter (523) in order to convert the input audio signal into a spectral region;
switching (200) between the first coding channel and the second coding channel so that for a part of the input audio signal, either the first encoded audio signal or the second encoded audio signal of the encoder in the audio output signal;
analyzing (300, 525) the portion of the audio signal to determine whether the portion of the audio signal is represented as a first encoded audio signal or a second encoded audio signal in the audio output of the encoder,
determining an appropriate non-constant time / frequency resolution of the first converter and the second converter when the first encoded audio signal or the second encoded audio signal representing a part of the generated audio signal is generated; and
generating (800) an output audio signal of an encoder including a first encoded audio signal and a second encoded audio signal and information indicative of a first encoded audio signal and a second encoded audio signal, and information indicative of a time / frequency resolution used to encode the first encoded audio signal and in order to encode a second encoded audio signal.
первый канал декодирования (431, 440) для того, чтобы декодировать первый кодированный аудио сигнал, используя первый управляемый преобразователь частота/время (440), первый управляемый преобразователь частота/время, выполненный с возможностью управления с использованием информации о разрешении времени/частоты для первого кодированного аудио сигнала, чтобы получить первый декодированный аудио сигнал;
второй канал декодирования для того, чтобы декодировать второй кодированный аудио сигнал, используя второй управляемый преобразователь частота/время (534), второй управляемый преобразователь частота/время (534), выполненный с возможностью управления с использованием информации о разрешении времени/частоты для второго кодированного аудио сигнала;
контроллер (990) для того, чтобы управлять первым преобразователем частота/время (440) и вторым преобразователем частота/время (534), используя информацию о разрешении времени/частоты;
преобразователь области (540) для того, чтобы сформировать синтезированный аудио сигнал, используя второй декодированный аудио сигнал; и
объединитель (604) для того, чтобы объединить первый декодированный аудио сигнал и синтезированный аудио сигнал, чтобы получить декодированный аудио сигнал.10. An audio decoder for decoding an encoded audio signal including a first encoded audio signal, a second encoded audio signal, a flag indicating a first encoded audio signal and a second encoded audio signal, and time / frequency resolution information to be used for in order to decode the first encoded audio signal and the second encoded audio signal, the audio decoder includes
the first decoding channel (431, 440) in order to decode the first encoded audio signal using the first controllable frequency / time converter (440), the first controllable frequency / time converter configured to control using time / frequency resolution information for the first an encoded audio signal to obtain a first decoded audio signal;
a second decoding channel in order to decode the second encoded audio signal using a second controlled frequency / time converter (534), a second controlled frequency / time converter (534) configured to control using time / frequency resolution information for the second encoded audio signal;
a controller (990) for controlling the first frequency / time converter (440) and the second frequency / time converter (534) using time / frequency resolution information;
a region converter (540) in order to generate a synthesized audio signal using a second decoded audio signal; and
combiner (604) in order to combine the first decoded audio signal and the synthesized audio signal to obtain a decoded audio signal.
где второй управляемый преобразователь частота/время (534) расположен во втором обратном канале обработки, выполненном с возможностью инверсии обработки второго кодированного аудио сигнала в области идентичной области первого обратно обработанного аудио сигнала, чтобы получить второй обратно обработанный аудио сигнал;
дальнейший объединитель (532) для того, чтобы объединить первый обратно обработанный аудио сигнал и второй обратно обработанный аудио сигнал, чтобы получить объединенный аудио сигнал; и
где объединенный аудио сигнал поступает в объединитель (600).12. The audio decoder of claim 10, wherein the second decoding channel includes a first reverse processing channel (531) for reverse processing the first processed audio signal, which is further included in the encoded audio signal to obtain a first back-processed audio signal;
where the second controlled frequency / time converter (534) is located in the second reverse processing channel, configured to invert the processing of the second encoded audio signal in an area identical to the region of the first back-processed audio signal to obtain a second back-processed audio signal;
a further combiner (532) in order to combine the first back-processed audio signal and the second back-processed audio signal to obtain a combined audio signal; and
where the combined audio signal enters the combiner (600).
где декодер далее включает входной интерфейс (900) для того, чтобы интерпретировать кодированную информацию о способе, чтобы определить, должен ли кодированный аудио сигнал подаваться в первый канал декодирования или во второй канал декодирования.14. The audio decoder of claim 10, wherein the encoded audio signal includes an encoded identification of method information, whether the encoded audio signal is a first encoded audio signal or a second encoded audio signal, and
where the decoder further includes an input interface (900) in order to interpret the encoded method information to determine whether the encoded audio signal should be supplied to the first decoding channel or to the second decoding channel.
декодирование вторым каналом декодирования второго кодированного аудио сигнала с использованием второго управляемого преобразователя частота/время (534), второй управляемый преобразователь частота/время (534), выполненный с возможностью управления с использованием информации о разрешении времени/частоты для второго кодированного аудио сигнала;
управление (990) первым преобразователем частота/время (440) и вторым преобразователем частота/время (534) с использованием информации о разрешении времени/частоты;
формирование (540) преобразователем области синтезированного аудио сигнала с использованием второго декодированного аудио сигнала; и
объединение (604) первого декодированного аудио сигнала и синтезированного аудио сигнала, чтобы получить декодированный аудио сигнал.19. A method for audio decoding an encoded audio signal, an encoded audio signal including a first encoded audio signal, a second encoded audio signal, a flag indicative of a first encoded audio signal and a second encoded audio signal, and time / frequency resolution information to be used for to decode the first encoded audio signal and the second encoded audio signal, including decoding the first decoding channel (431, 440) of the first encoded audio signal using the first controlled frequency / time converter (440), the first controlled frequency / time converter configured to control using time / frequency resolution information for the first encoded audio signal to obtain a first decoded audio signal;
decoding a second decoding channel of a second encoded audio signal using a second controlled frequency / time converter (534), a second controlled frequency / time converter (534) configured to control using time / frequency resolution information for the second encoded audio signal;
controlling (990) a first frequency / time converter (440) and a second frequency / time converter (534) using time / frequency resolution information;
generating (540) a converter of a region of synthesized audio signal using a second decoded audio signal; and
combining (604) a first decoded audio signal and a synthesized audio signal to obtain a decoded audio signal.
Applications Claiming Priority (7)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US10382508P | 2008-10-08 | 2008-10-08 | |
US61/103,825 | 2008-10-08 | ||
EP08017663.9 | 2008-10-08 | ||
EP08017663 | 2008-10-08 | ||
EP09002271.6 | 2009-02-18 | ||
EP09002271A EP2144230A1 (en) | 2008-07-11 | 2009-02-18 | Low bitrate audio encoding/decoding scheme having cascaded switches |
PCT/EP2009/007205 WO2010040522A2 (en) | 2008-10-08 | 2009-10-07 | Multi-resolution switched audio encoding/decoding scheme |
Publications (2)
Publication Number | Publication Date |
---|---|
RU2011117699A RU2011117699A (en) | 2012-11-10 |
RU2520402C2 true RU2520402C2 (en) | 2014-06-27 |
Family
ID=42101010
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
RU2011117699/08A RU2520402C2 (en) | 2008-10-08 | 2009-10-07 | Multi-resolution switched audio encoding/decoding scheme |
Country Status (14)
Country | Link |
---|---|
EP (2) | EP2345030A2 (en) |
JP (1) | JP5555707B2 (en) |
KR (3) | KR20130133917A (en) |
CN (1) | CN102177426B (en) |
AR (1) | AR076060A1 (en) |
BR (1) | BRPI0914056B1 (en) |
CA (1) | CA2739736C (en) |
CO (1) | CO6362072A2 (en) |
MX (1) | MX2011003824A (en) |
MY (1) | MY154633A (en) |
RU (1) | RU2520402C2 (en) |
TW (2) | TWI419148B (en) |
WO (1) | WO2010040522A2 (en) |
ZA (1) | ZA201102537B (en) |
Cited By (18)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
RU2654160C1 (en) * | 2015-12-23 | 2018-05-16 | Сяоми Инк. | Audio signals reproduction method and device |
US10056089B2 (en) | 2014-07-28 | 2018-08-21 | Huawei Technologies Co., Ltd. | Audio coding method and related apparatus |
RU2677385C2 (en) * | 2014-07-28 | 2019-01-16 | Фраунхофер-Гезелльшафт Цур Фердерунг Дер Ангевандтен Форшунг Е.Ф. | Processing device, method and computer program for processing of sound signal using truncated part of overlapping window analysis or synthesis |
RU2687872C1 (en) * | 2015-12-14 | 2019-05-16 | Фраунхофер-Гезелльшафт Цур Фердерунг Дер Ангевандтен Форшунг Е.Ф. | Device and method for processing coded sound signal |
RU2701060C2 (en) * | 2014-09-30 | 2019-09-24 | Сони Корпорейшн | Transmitting device, transmission method, receiving device and reception method |
RU2729603C2 (en) * | 2015-09-25 | 2020-08-11 | Войсэйдж Корпорейшн | Method and system for encoding a stereo audio signal using primary channel encoding parameters for encoding a secondary channel |
RU2738323C1 (en) * | 2017-11-10 | 2020-12-11 | Фраунхофер-Гезелльшафт Цур Фердерунг Дер Ангевандтен Форшунг Е.Ф. | Signal filtering |
US11043226B2 (en) | 2017-11-10 | 2021-06-22 | Fraunhofer-Gesellschaft Zur Forderung Der Angewandten Forschung E.V. | Apparatus and method for encoding and decoding an audio signal using downsampling or interpolation of scale parameters |
US11127408B2 (en) | 2017-11-10 | 2021-09-21 | Fraunhofer—Gesellschaft zur F rderung der angewandten Forschung e.V. | Temporal noise shaping |
US11217261B2 (en) | 2017-11-10 | 2022-01-04 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Encoding and decoding audio signals |
US11315580B2 (en) | 2017-11-10 | 2022-04-26 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Audio decoder supporting a set of different loss concealment tools |
US11315583B2 (en) | 2017-11-10 | 2022-04-26 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Audio encoders, audio decoders, methods and computer programs adapting an encoding and decoding of least significant bits |
US11380341B2 (en) | 2017-11-10 | 2022-07-05 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Selecting pitch lag |
RU2779265C2 (en) * | 2017-12-19 | 2022-09-05 | Долби Интернэшнл Аб | Methods, devices and systems for improvement of unified decoding and coding of speech and audio |
US11462226B2 (en) | 2017-11-10 | 2022-10-04 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Controlling bandwidth in encoders and/or decoders |
US11532316B2 (en) | 2017-12-19 | 2022-12-20 | Dolby International Ab | Methods and apparatus systems for unified speech and audio decoding improvements |
US11562754B2 (en) | 2017-11-10 | 2023-01-24 | Fraunhofer-Gesellschaft Zur F Rderung Der Angewandten Forschung E.V. | Analysis/synthesis windowing function for modulated lapped transformation |
US12125492B2 (en) | 2015-09-25 | 2024-10-22 | Voiceage Coproration | Method and system for decoding left and right channels of a stereo sound signal |
Families Citing this family (51)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2011013983A2 (en) | 2009-07-27 | 2011-02-03 | Lg Electronics Inc. | A method and an apparatus for processing an audio signal |
WO2011034376A2 (en) * | 2009-09-17 | 2011-03-24 | Lg Electronics Inc. | A method and an apparatus for processing an audio signal |
TW201214415A (en) * | 2010-05-28 | 2012-04-01 | Fraunhofer Ges Forschung | Low-delay unified speech and audio codec |
CN102934161B (en) | 2010-06-14 | 2015-08-26 | 松下电器产业株式会社 | Audio mix code device and audio mix decoding device |
KR102296955B1 (en) * | 2010-07-02 | 2021-09-01 | 돌비 인터네셔널 에이비 | Selective bass post filter |
CN103119646B (en) * | 2010-07-20 | 2016-09-07 | 弗劳恩霍夫应用研究促进协会 | Audio coder, audio decoder, the method for codes audio information and the method for decoded audio information |
AU2012217162B2 (en) | 2011-02-14 | 2015-11-26 | Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. | Noise generation in audio codecs |
TWI469136B (en) | 2011-02-14 | 2015-01-11 | Fraunhofer Ges Forschung | Apparatus and method for processing a decoded audio signal in a spectral domain |
CA2827266C (en) | 2011-02-14 | 2017-02-28 | Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. | Apparatus and method for coding a portion of an audio signal using a transient detection and a quality result |
MX2013009301A (en) | 2011-02-14 | 2013-12-06 | Fraunhofer Ges Forschung | Apparatus and method for error concealment in low-delay unified speech and audio coding (usac). |
WO2012110478A1 (en) | 2011-02-14 | 2012-08-23 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Information signal representation using lapped transform |
JP6110314B2 (en) | 2011-02-14 | 2017-04-05 | フラウンホーファー−ゲゼルシャフト・ツール・フェルデルング・デル・アンゲヴァンテン・フォルシュング・アインゲトラーゲネル・フェライン | Apparatus and method for encoding and decoding audio signals using aligned look-ahead portions |
WO2012110416A1 (en) | 2011-02-14 | 2012-08-23 | Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. | Encoding and decoding of pulse positions of tracks of an audio signal |
MY159444A (en) | 2011-02-14 | 2017-01-13 | Fraunhofer-Gesellschaft Zur Forderung Der Angewandten Forschung E V | Encoding and decoding of pulse positions of tracks of an audio signal |
CA2827335C (en) | 2011-02-14 | 2016-08-30 | Fraunhofer-Gesellschaft Zur Forderung Der Angewandten Forschung E.V. | Audio codec using noise synthesis during inactive phases |
SG192748A1 (en) | 2011-02-14 | 2013-09-30 | Fraunhofer Ges Forschung | Linear prediction based coding scheme using spectral domain noise shaping |
TWI672691B (en) * | 2011-04-21 | 2019-09-21 | 南韓商三星電子股份有限公司 | Decoding method |
AU2012246798B2 (en) | 2011-04-21 | 2016-11-17 | Samsung Electronics Co., Ltd | Apparatus for quantizing linear predictive coding coefficients, sound encoding apparatus, apparatus for de-quantizing linear predictive coding coefficients, sound decoding apparatus, and electronic device therefor |
MX340386B (en) * | 2011-06-30 | 2016-07-07 | Samsung Electronics Co Ltd | Apparatus and method for generating bandwidth extension signal. |
EP3709298A1 (en) | 2011-11-03 | 2020-09-16 | VoiceAge EVS LLC | Improving non-speech content for low rate celp decoder |
US9043201B2 (en) * | 2012-01-03 | 2015-05-26 | Google Technology Holdings LLC | Method and apparatus for processing audio frames to transition between different codecs |
US9489962B2 (en) * | 2012-05-11 | 2016-11-08 | Panasonic Corporation | Sound signal hybrid encoder, sound signal hybrid decoder, sound signal encoding method, and sound signal decoding method |
KR102561265B1 (en) * | 2012-11-13 | 2023-07-28 | 삼성전자주식회사 | Coding mode determination method and apparatus, audio encoding method and apparatus, and audio decoding method and apparatus |
CA2895391C (en) | 2012-12-21 | 2019-08-06 | Fraunhofer-Gesellschaft Zur Forderung Der Angewandten Forschung E.V. | Comfort noise addition for modeling background noise at low bit-rates |
EP2936487B1 (en) * | 2012-12-21 | 2016-06-22 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Generation of a comfort noise with high spectro-temporal resolution in discontinuous transmission of audio signals |
CN103915100B (en) * | 2013-01-07 | 2019-02-15 | 中兴通讯股份有限公司 | A kind of coding mode switching method and apparatus, decoding mode switching method and apparatus |
ES2914614T3 (en) | 2013-01-29 | 2022-06-14 | Fraunhofer Ges Forschung | Apparatus and method for generating a frequency boost audio signal by power limiting operation |
WO2014118175A1 (en) | 2013-01-29 | 2014-08-07 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Noise filling concept |
TR201908919T4 (en) | 2013-01-29 | 2019-07-22 | Fraunhofer Ges Forschung | Noise filling for Celp-like encoders without side information. |
CN105190748B (en) * | 2013-01-29 | 2019-11-01 | 弗劳恩霍夫应用研究促进协会 | Audio coder, audio decoder, system, method and storage medium |
MX346012B (en) * | 2013-01-29 | 2017-02-28 | Fraunhofer Ges Forschung | Apparatus and method for processing an encoded signal and encoder and method for generating an encoded signal. |
US9786286B2 (en) | 2013-03-29 | 2017-10-10 | Dolby Laboratories Licensing Corporation | Methods and apparatuses for generating and using low-resolution preview tracks with high-quality encoded object and multichannel audio signals |
EP2804176A1 (en) * | 2013-05-13 | 2014-11-19 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Audio object separation from mixture signal using object-specific time/frequency resolutions |
ES2629025T3 (en) | 2013-05-24 | 2017-08-07 | Dolby International Ab | Encoder and audio decoder |
EP2830058A1 (en) | 2013-07-22 | 2015-01-28 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Frequency-domain audio coding supporting transform length switching |
TWI557726B (en) * | 2013-08-29 | 2016-11-11 | 杜比國際公司 | System and method for determining a master scale factor band table for a highband signal of an audio signal |
EP2980795A1 (en) * | 2014-07-28 | 2016-02-03 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Audio encoding and decoding using a frequency domain processor, a time domain processor and a cross processor for initialization of the time domain processor |
EP3067887A1 (en) | 2015-03-09 | 2016-09-14 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Audio encoder for encoding a multichannel signal and audio decoder for decoding an encoded audio signal |
KR102398124B1 (en) * | 2015-08-11 | 2022-05-17 | 삼성전자주식회사 | Adaptive processing of audio data |
US10134412B2 (en) * | 2015-09-03 | 2018-11-20 | Shure Acquisition Holdings, Inc. | Multiresolution coding and modulation system |
US9959877B2 (en) * | 2016-03-18 | 2018-05-01 | Qualcomm Incorporated | Multi channel coding |
CN109313908B (en) * | 2016-04-12 | 2023-09-22 | 弗劳恩霍夫应用研究促进协会 | Audio encoder and method for encoding an audio signal |
US10362423B2 (en) | 2016-10-13 | 2019-07-23 | Qualcomm Incorporated | Parametric audio decoding |
CN107404625B (en) * | 2017-07-18 | 2020-10-16 | 海信视像科技股份有限公司 | Sound effect processing method and device of terminal |
US10957331B2 (en) * | 2018-12-17 | 2021-03-23 | Microsoft Technology Licensing, Llc | Phase reconstruction in a speech decoder |
US10847172B2 (en) | 2018-12-17 | 2020-11-24 | Microsoft Technology Licensing, Llc | Phase quantization in a speech encoder |
AU2020214946B2 (en) | 2019-02-01 | 2023-06-08 | Beijing Bytedance Network Technology Co., Ltd. | Interactions between in-loop reshaping and inter coding tools |
CN113574889B (en) * | 2019-03-14 | 2024-01-12 | 北京字节跳动网络技术有限公司 | Signaling and syntax of loop shaping information |
WO2020192612A1 (en) | 2019-03-23 | 2020-10-01 | Beijing Bytedance Network Technology Co., Ltd. | Default in-loop reshaping parameters |
US12113996B2 (en) * | 2021-12-06 | 2024-10-08 | Tencent America LLC | Arrangement of adaptive loop filter coefficients for fast vectorized transpositions |
CN118193470B (en) * | 2024-03-26 | 2024-10-18 | 广州亿达信息科技有限公司 | Decompression method of nucleic acid mass spectrum data |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
RU2214047C2 (en) * | 1997-11-19 | 2003-10-10 | Самсунг Электроникс Ко., Лтд. | Method and device for scalable audio-signal coding/decoding |
EP1396844A1 (en) * | 2002-09-04 | 2004-03-10 | Microsoft Corporation | Unified lossy and lossless audio compression |
RU2005135650A (en) * | 2003-04-17 | 2006-03-20 | Конинклейке Филипс Электроникс Н.В. (Nl) | AUDIO SYNTHESIS |
Family Cites Families (19)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP3317470B2 (en) * | 1995-03-28 | 2002-08-26 | 日本電信電話株式会社 | Audio signal encoding method and audio signal decoding method |
US5956674A (en) * | 1995-12-01 | 1999-09-21 | Digital Theater Systems, Inc. | Multi-channel predictive subband audio coder using psychoacoustic adaptive bit allocation in frequency, time and over the multiple channels |
US5848391A (en) * | 1996-07-11 | 1998-12-08 | Fraunhofer-Gesellschaft Zur Forderung Der Angewandten Forschung E.V. | Method subband of coding and decoding audio signals using variable length windows |
DE19706516C1 (en) * | 1997-02-19 | 1998-01-15 | Fraunhofer Ges Forschung | Encoding method for discrete signals and decoding of encoded discrete signals |
JP3211762B2 (en) * | 1997-12-12 | 2001-09-25 | 日本電気株式会社 | Audio and music coding |
DE69926821T2 (en) * | 1998-01-22 | 2007-12-06 | Deutsche Telekom Ag | Method for signal-controlled switching between different audio coding systems |
US6978236B1 (en) * | 1999-10-01 | 2005-12-20 | Coding Technologies Ab | Efficient spectral envelope coding using variable time/frequency resolution and time/frequency switching |
US6658383B2 (en) * | 2001-06-26 | 2003-12-02 | Microsoft Corporation | Method for coding speech and music signals |
US6963842B2 (en) * | 2001-09-05 | 2005-11-08 | Creative Technology Ltd. | Efficient system and method for converting between different transform-domain signal representations |
DE10217297A1 (en) * | 2002-04-18 | 2003-11-06 | Fraunhofer Ges Forschung | Device and method for coding a discrete-time audio signal and device and method for decoding coded audio data |
US7043423B2 (en) * | 2002-07-16 | 2006-05-09 | Dolby Laboratories Licensing Corporation | Low bit-rate audio coding systems and methods that use expanding quantizers with arithmetic coding |
WO2005027094A1 (en) * | 2003-09-17 | 2005-03-24 | Beijing E-World Technology Co.,Ltd. | Method and device of multi-resolution vector quantilization for audio encoding and decoding |
CA2457988A1 (en) * | 2004-02-18 | 2005-08-18 | Voiceage Corporation | Methods and devices for audio compression based on acelp/tcx coding and multi-rate lattice vector quantization |
FI118835B (en) * | 2004-02-23 | 2008-03-31 | Nokia Corp | Select end of a coding model |
US7596486B2 (en) * | 2004-05-19 | 2009-09-29 | Nokia Corporation | Encoding an audio signal using different audio coder modes |
US8744862B2 (en) * | 2006-08-18 | 2014-06-03 | Digital Rise Technology Co., Ltd. | Window selection based on transient detection and location to provide variable time resolution in processing frame-based data |
JP2009524100A (en) * | 2006-01-18 | 2009-06-25 | エルジー エレクトロニクス インコーポレイティド | Encoding / decoding apparatus and method |
WO2008071353A2 (en) * | 2006-12-12 | 2008-06-19 | Fraunhofer-Gesellschaft Zur Förderung Der Angewandten Forschung E.V: | Encoder, decoder and methods for encoding and decoding data segments representing a time-domain data stream |
KR100883656B1 (en) * | 2006-12-28 | 2009-02-18 | 삼성전자주식회사 | Method and apparatus for discriminating audio signal, and method and apparatus for encoding/decoding audio signal using it |
-
2009
- 2009-10-07 KR KR1020137031257A patent/KR20130133917A/en not_active Application Discontinuation
- 2009-10-07 TW TW098133982A patent/TWI419148B/en active
- 2009-10-07 WO PCT/EP2009/007205 patent/WO2010040522A2/en active Application Filing
- 2009-10-07 EP EP09736835A patent/EP2345030A2/en not_active Ceased
- 2009-10-07 TW TW102120721A patent/TWI520128B/en active
- 2009-10-07 EP EP19213835.2A patent/EP3640941A1/en not_active Ceased
- 2009-10-07 MY MYPI2011001560A patent/MY154633A/en unknown
- 2009-10-07 BR BRPI0914056-5A patent/BRPI0914056B1/en active IP Right Grant
- 2009-10-07 MX MX2011003824A patent/MX2011003824A/en active IP Right Grant
- 2009-10-07 KR KR1020137011185A patent/KR20130069833A/en not_active Application Discontinuation
- 2009-10-07 RU RU2011117699/08A patent/RU2520402C2/en active
- 2009-10-07 KR KR1020117010644A patent/KR101403115B1/en active IP Right Grant
- 2009-10-07 CN CN200980140055.XA patent/CN102177426B/en active Active
- 2009-10-07 JP JP2011530415A patent/JP5555707B2/en active Active
- 2009-10-07 CA CA2739736A patent/CA2739736C/en active Active
- 2009-10-08 AR ARP090103876A patent/AR076060A1/en active IP Right Grant
-
2011
- 2011-04-06 ZA ZA2011/02537A patent/ZA201102537B/en unknown
- 2011-05-06 CO CO11055712A patent/CO6362072A2/en active IP Right Grant
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
RU2214047C2 (en) * | 1997-11-19 | 2003-10-10 | Самсунг Электроникс Ко., Лтд. | Method and device for scalable audio-signal coding/decoding |
EP1396844A1 (en) * | 2002-09-04 | 2004-03-10 | Microsoft Corporation | Unified lossy and lossless audio compression |
RU2005135650A (en) * | 2003-04-17 | 2006-03-20 | Конинклейке Филипс Электроникс Н.В. (Nl) | AUDIO SYNTHESIS |
Cited By (34)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10706866B2 (en) | 2014-07-28 | 2020-07-07 | Huawei Technologies Co., Ltd. | Audio signal encoding method and mobile phone |
US10056089B2 (en) | 2014-07-28 | 2018-08-21 | Huawei Technologies Co., Ltd. | Audio coding method and related apparatus |
RU2677385C2 (en) * | 2014-07-28 | 2019-01-16 | Фраунхофер-Гезелльшафт Цур Фердерунг Дер Ангевандтен Форшунг Е.Ф. | Processing device, method and computer program for processing of sound signal using truncated part of overlapping window analysis or synthesis |
US10262666B2 (en) | 2014-07-28 | 2019-04-16 | Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. | Processor, method and computer program for processing an audio signal using truncated analysis or synthesis window overlap portions |
US10269366B2 (en) | 2014-07-28 | 2019-04-23 | Huawei Technologies Co., Ltd. | Audio coding method and related apparatus |
US10902861B2 (en) | 2014-07-28 | 2021-01-26 | Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. | Processor and method for processing an audio signal using truncated analysis or synthesis window overlap portions |
US11664036B2 (en) | 2014-07-28 | 2023-05-30 | Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. | Processor and method for processing an audio signal using truncated analysis or synthesis window overlap portions |
US10504534B2 (en) | 2014-07-28 | 2019-12-10 | Huawei Technologies Co., Ltd. | Audio coding method and related apparatus |
RU2701060C2 (en) * | 2014-09-30 | 2019-09-24 | Сони Корпорейшн | Transmitting device, transmission method, receiving device and reception method |
RU2729603C2 (en) * | 2015-09-25 | 2020-08-11 | Войсэйдж Корпорейшн | Method and system for encoding a stereo audio signal using primary channel encoding parameters for encoding a secondary channel |
US10839813B2 (en) | 2015-09-25 | 2020-11-17 | Voiceage Corporation | Method and system for decoding left and right channels of a stereo sound signal |
US11056121B2 (en) | 2015-09-25 | 2021-07-06 | Voiceage Corporation | Method and system for encoding left and right channels of a stereo sound signal selecting between two and four sub-frames models depending on the bit budget |
US12125492B2 (en) | 2015-09-25 | 2024-10-22 | Voiceage Coproration | Method and system for decoding left and right channels of a stereo sound signal |
US10984806B2 (en) | 2015-09-25 | 2021-04-20 | Voiceage Corporation | Method and system for encoding a stereo sound signal using coding parameters of a primary channel to encode a secondary channel |
RU2765565C2 (en) * | 2015-09-25 | 2022-02-01 | Войсэйдж Корпорейшн | Method and system for encoding stereophonic sound signal using encoding parameters of primary channel to encode secondary channel |
US11100939B2 (en) | 2015-12-14 | 2021-08-24 | Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. | Apparatus and method for processing an encoded audio signal by a mapping drived by SBR from QMF onto MCLT |
RU2687872C1 (en) * | 2015-12-14 | 2019-05-16 | Фраунхофер-Гезелльшафт Цур Фердерунг Дер Ангевандтен Форшунг Е.Ф. | Device and method for processing coded sound signal |
US11862184B2 (en) | 2015-12-14 | 2024-01-02 | Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. | Apparatus and method for processing an encoded audio signal by upsampling a core audio signal to upsampled spectra with higher frequencies and spectral width |
RU2654160C1 (en) * | 2015-12-23 | 2018-05-16 | Сяоми Инк. | Audio signals reproduction method and device |
US11386909B2 (en) | 2017-11-10 | 2022-07-12 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Audio encoders, audio decoders, methods and computer programs adapting an encoding and decoding of least significant bits |
US11462226B2 (en) | 2017-11-10 | 2022-10-04 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Controlling bandwidth in encoders and/or decoders |
US11315583B2 (en) | 2017-11-10 | 2022-04-26 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Audio encoders, audio decoders, methods and computer programs adapting an encoding and decoding of least significant bits |
US11380341B2 (en) | 2017-11-10 | 2022-07-05 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Selecting pitch lag |
US11380339B2 (en) | 2017-11-10 | 2022-07-05 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Audio encoders, audio decoders, methods and computer programs adapting an encoding and decoding of least significant bits |
US11043226B2 (en) | 2017-11-10 | 2021-06-22 | Fraunhofer-Gesellschaft Zur Forderung Der Angewandten Forschung E.V. | Apparatus and method for encoding and decoding an audio signal using downsampling or interpolation of scale parameters |
US11127408B2 (en) | 2017-11-10 | 2021-09-21 | Fraunhofer—Gesellschaft zur F rderung der angewandten Forschung e.V. | Temporal noise shaping |
US11315580B2 (en) | 2017-11-10 | 2022-04-26 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Audio decoder supporting a set of different loss concealment tools |
US12033646B2 (en) | 2017-11-10 | 2024-07-09 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Analysis/synthesis windowing function for modulated lapped transformation |
US11545167B2 (en) | 2017-11-10 | 2023-01-03 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Signal filtering |
US11562754B2 (en) | 2017-11-10 | 2023-01-24 | Fraunhofer-Gesellschaft Zur F Rderung Der Angewandten Forschung E.V. | Analysis/synthesis windowing function for modulated lapped transformation |
RU2738323C1 (en) * | 2017-11-10 | 2020-12-11 | Фраунхофер-Гезелльшафт Цур Фердерунг Дер Ангевандтен Форшунг Е.Ф. | Signal filtering |
US11217261B2 (en) | 2017-11-10 | 2022-01-04 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Encoding and decoding audio signals |
US11532316B2 (en) | 2017-12-19 | 2022-12-20 | Dolby International Ab | Methods and apparatus systems for unified speech and audio decoding improvements |
RU2779265C2 (en) * | 2017-12-19 | 2022-09-05 | Долби Интернэшнл Аб | Methods, devices and systems for improvement of unified decoding and coding of speech and audio |
Also Published As
Publication number | Publication date |
---|---|
KR101403115B1 (en) | 2014-06-27 |
WO2010040522A2 (en) | 2010-04-15 |
CN102177426A (en) | 2011-09-07 |
KR20130069833A (en) | 2013-06-26 |
TWI520128B (en) | 2016-02-01 |
TWI419148B (en) | 2013-12-11 |
TW201142827A (en) | 2011-12-01 |
JP2012505423A (en) | 2012-03-01 |
CO6362072A2 (en) | 2012-01-20 |
JP5555707B2 (en) | 2014-07-23 |
CA2739736A1 (en) | 2010-04-15 |
MX2011003824A (en) | 2011-05-02 |
AU2009301358A1 (en) | 2010-04-15 |
BRPI0914056A2 (en) | 2015-11-03 |
MY154633A (en) | 2015-07-15 |
TW201344679A (en) | 2013-11-01 |
CN102177426B (en) | 2014-11-05 |
KR20130133917A (en) | 2013-12-09 |
BRPI0914056B1 (en) | 2019-07-02 |
EP2345030A2 (en) | 2011-07-20 |
EP3640941A1 (en) | 2020-04-22 |
AR076060A1 (en) | 2011-05-18 |
RU2011117699A (en) | 2012-11-10 |
ZA201102537B (en) | 2011-12-28 |
CA2739736C (en) | 2015-12-01 |
WO2010040522A3 (en) | 2010-09-02 |
AU2009301358A8 (en) | 2011-05-26 |
KR20110081291A (en) | 2011-07-13 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
RU2520402C2 (en) | Multi-resolution switched audio encoding/decoding scheme | |
US11676611B2 (en) | Audio decoding device and method with decoding branches for decoding audio signal encoded in a plurality of domains | |
EP2146344B1 (en) | Audio encoding/decoding scheme having a switchable bypass | |
KR101346894B1 (en) | Audio encoder/decoder, encoding/decoding method, and recording medium | |
AU2009301358B2 (en) | Multi-resolution switched audio encoding/decoding scheme |