RU2456682C2 - Аудиокодер и декодер - Google Patents
Аудиокодер и декодер Download PDFInfo
- Publication number
- RU2456682C2 RU2456682C2 RU2010132643/08A RU2010132643A RU2456682C2 RU 2456682 C2 RU2456682 C2 RU 2456682C2 RU 2010132643/08 A RU2010132643/08 A RU 2010132643/08A RU 2010132643 A RU2010132643 A RU 2010132643A RU 2456682 C2 RU2456682 C2 RU 2456682C2
- Authority
- RU
- Russia
- Prior art keywords
- mdct
- frame
- signal
- unit
- transform
- Prior art date
Links
- 230000003044 adaptive effect Effects 0.000 claims abstract description 29
- 230000005236 sound signal Effects 0.000 claims abstract description 25
- 238000001914 filtration Methods 0.000 claims abstract description 19
- 230000004044 response Effects 0.000 claims abstract description 7
- 238000013139 quantization Methods 0.000 claims description 178
- 238000000034 method Methods 0.000 claims description 23
- 230000003595 spectral effect Effects 0.000 claims description 22
- 238000006243 chemical reaction Methods 0.000 claims description 19
- 238000004458 analytical method Methods 0.000 claims description 11
- 230000015572 biosynthetic process Effects 0.000 claims description 7
- 238000003786 synthesis reaction Methods 0.000 claims description 7
- 238000000926 separation method Methods 0.000 claims 4
- 230000010076 replication Effects 0.000 claims 1
- 238000012546 transfer Methods 0.000 abstract description 7
- 230000009466 transformation Effects 0.000 abstract description 6
- 230000003321 amplification Effects 0.000 abstract description 5
- 238000003199 nucleic acid amplification method Methods 0.000 abstract description 5
- 230000000694 effects Effects 0.000 abstract description 4
- 238000005516 engineering process Methods 0.000 abstract description 4
- 239000000126 substance Substances 0.000 abstract 1
- 230000006870 function Effects 0.000 description 36
- 230000000873 masking effect Effects 0.000 description 31
- 230000007774 longterm Effects 0.000 description 29
- 230000000875 corresponding effect Effects 0.000 description 28
- 238000001228 spectrum Methods 0.000 description 18
- 239000013598 vector Substances 0.000 description 18
- 239000006185 dispersion Substances 0.000 description 17
- 239000000872 buffer Substances 0.000 description 16
- 230000006978 adaptation Effects 0.000 description 14
- 238000004364 calculation method Methods 0.000 description 12
- 230000008859 change Effects 0.000 description 10
- 238000004422 calculation algorithm Methods 0.000 description 9
- 230000008569 process Effects 0.000 description 9
- 230000008901 benefit Effects 0.000 description 8
- 238000007781 pre-processing Methods 0.000 description 8
- 238000013179 statistical model Methods 0.000 description 8
- 230000001276 controlling effect Effects 0.000 description 7
- 238000009826 distribution Methods 0.000 description 7
- 239000011159 matrix material Substances 0.000 description 7
- 230000004048 modification Effects 0.000 description 7
- 238000012986 modification Methods 0.000 description 7
- 238000005457 optimization Methods 0.000 description 7
- 230000005540 biological transmission Effects 0.000 description 6
- 238000000605 extraction Methods 0.000 description 6
- 238000010606 normalization Methods 0.000 description 6
- 238000012545 processing Methods 0.000 description 6
- 238000010586 diagram Methods 0.000 description 5
- 230000001419 dependent effect Effects 0.000 description 4
- 238000013507 mapping Methods 0.000 description 4
- 238000013459 approach Methods 0.000 description 3
- 230000007246 mechanism Effects 0.000 description 3
- 230000002087 whitening effect Effects 0.000 description 3
- 238000012935 Averaging Methods 0.000 description 2
- 238000004590 computer program Methods 0.000 description 2
- 230000007423 decrease Effects 0.000 description 2
- 238000013461 design Methods 0.000 description 2
- 238000004134 energy conservation Methods 0.000 description 2
- 238000003780 insertion Methods 0.000 description 2
- 230000037431 insertion Effects 0.000 description 2
- 230000000737 periodic effect Effects 0.000 description 2
- 238000004321 preservation Methods 0.000 description 2
- 238000005070 sampling Methods 0.000 description 2
- 230000011218 segmentation Effects 0.000 description 2
- 230000001131 transforming effect Effects 0.000 description 2
- 230000007704 transition Effects 0.000 description 2
- 101000972854 Lens culinaris Non-specific lipid-transfer protein 3 Proteins 0.000 description 1
- 101710196810 Non-specific lipid-transfer protein 2 Proteins 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000006835 compression Effects 0.000 description 1
- 238000007906 compression Methods 0.000 description 1
- 238000012937 correction Methods 0.000 description 1
- 230000002596 correlated effect Effects 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 239000012536 storage buffer Substances 0.000 description 1
- 230000001052 transient effect Effects 0.000 description 1
- 238000011144 upstream manufacturing Methods 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
- 238000012800 visualization Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/02—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
- G10L19/032—Quantisation or dequantisation of spectral components
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/26—Pre-filtering or post-filtering
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/008—Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/02—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
- G10L19/0212—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders using orthogonal transformation
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/02—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
- G10L19/032—Quantisation or dequantisation of spectral components
- G10L19/035—Scalar quantisation
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Acoustics & Sound (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Computational Linguistics (AREA)
- Multimedia (AREA)
- Mathematical Physics (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
- Reduction Or Emphasis Of Bandwidth Of Signals (AREA)
- Stereo-Broadcasting Methods (AREA)
- Analogue/Digital Conversion (AREA)
- Compression Or Coding Systems Of Tv Signals (AREA)
Abstract
Изобретение относится к кодированию аудиосигналов, в частности к кодированию любого аудиосигнала, не ограничиваясь речью, музыкой или их комбинацией. Техническим результатом является повышение качества кодированных и декодированных аудиосигналов при пониженных скоростях передачи данных. Указанный результат достигается тем, что система аудиокодирования содержит блок (201) линейного предсказания (LP) для фильтрации аудиосигнала на основе фильтра LP, причем блок LP работает с длительностью первого кадра аудиосигнала; блок (202) адаптивного преобразования длительности для преобразования кадра аудиосигнала в область преобразования, причем преобразование является модифицированным дискретным косинусным преобразованием (MDCT), работающим с переменной длительностью второго кадра; блок (203) квантования для квантования сигнала в MDCT-области; блок создания кривой усиления для создания кривых усиления в MDCT-области на основе величин откликов фильтра LP и блок преобразования для преобразования кривых усиления в MDCT-области в соответствующие кадры сигнала в MDCT-области. 4 н. и 10 з.п. ф-лы, 19 ил.
Description
Область техники, к которой относится изобретение
Настоящее изобретение относится к кодированию аудиосигналов и, в частности, к кодированию любого аудиосигнала, не ограничиваясь речью, музыкой или их комбинацией.
Уровень техники изобретения
В предшествующем уровне техники существуют речевые кодеры, специально предназначенные для кодирования речевых сигналов, основанные на модели источника сигнала, то есть системе человеческого голоса. Эти кодеры не могут обрабатывать произвольные аудиосигналы, такие как музыка или любой другой неречевой сигнал. Кроме того, в предшествующем уровне техники существуют музыкальные кодеры, обычно называемые аудиокодерами, основывающие свое кодирование на предположениях о человеческой слуховой системе, а не на модели источника сигнала. Эти кодеры очень хорошо могут обрабатывать произвольные сигналы, хотя при низких скоростях передачи речевых сигналов специализированный речевой кодер дает превосходное аудиокачество. Следовательно, на сегодня не существует общей структуры кодирования произвольных аудиосигналов, которая одинаково хороша как в качестве речевого кодера для речи, так и в качестве музыкального кодера для музыки, когда работа ведется при низких скоростях передачи данных.
Таким образом, существует потребность в улучшенном аудиокодере и декодере с улучшенным аудиокачеством и/или пониженными скоростями передачи данных.
Сущность изобретения
Настоящее изобретение относится к эффективному кодированию произвольных аудиосигналов при уровне качества, равном или лучшем, чем уровень качества системы, специально приспособленной к конкретному сигналу.
Настоящее изобретение обращено к алгоритмам аудиокодеков, содержащих как кодирование с линейным предсказанием (LPC), так и к части трансформного кодера, работающей с сигналами на основе обработки LPC.
Настоящее изобретение дополнительно относится к стратегии квантования, зависящей от размера преобразованного кадра данных. Дополнительно предлагается устройство квантования, основанное на модели, с ограничением энтропии, использующее арифметическое кодирование. Кроме того, обеспечивается вставка случайных сдвигов в однородное скалярное устройство квантования. Изобретение дополнительно предлагает устройство квантования, основанное на модели, например устройство квантования с ограничением энтропии (ECQ), использующее арифметическое кодирование.
Настоящее изобретение дополнительно относится к эффективному кодированию масштабных коэффициентов в части трансформного кодирования аудиокодера, используя присутствие данных LPC.
Настоящее изобретение дополнительно относится к эффективному осуществлению использования битового накопителя в аудиокодере с переменным размером кадра.
Настоящее изобретение дополнительно относится к кодеру для кодирования аудиосигналов и создания битового потока передачи данных и к декодеру для декодирования битового потока передачи данных и созданию реконструированного аудиосигнала, перцептуально неотличимого от входного аудиосигнала.
Первый аспект настоящего изобретения относится к квантованию в трансформном кодере, который применяется, например, при модифицированном дискретном косинусном преобразовании (MDCT). Предложенное устройство квантования предпочтительно квантует линии MDCT. Этот аспект применяется независимо от того, использует ли кодер дополнительно анализ кодирования с линейным предсказанием (LPC) или дополнительное долгосрочное предсказание.
Настоящее изобретение обеспечивает систему кодирования аудиосигнала, содержащую блок линейного предсказания для фильтрации входного сигнала, основанный на адаптивном фильтре; блок преобразования для преобразования кадра отфильтрованного входного сигнала в область преобразования и блок квантования для квантования сигнала в области преобразования. Блок квантования, основываясь на характеристиках входного сигнала, принимает решение о кодировании сигнала в области преобразования с помощью устройства квантования, основанного на модели, или устройства квантования, не основанного на модели. Предпочтительно, решение основывается на размере кадра, применяемом блоком преобразования. Однако предусмотрены также и другие зависимые от входного сигнала критерии для переключения стратегии квантования, находящиеся в пределах объема настоящей заявки.
Другой важный аспект изобретения состоит в том, что устройство квантования может быть адаптивным. В частности, модель в устройстве квантования, основанном на модели, может быть адаптивной, чтобы регулировать входной аудиосигнал. Модель может, например, меняться во времени, например, в зависимости от характеристик входного сигнала. Это позволяет снизить искажение при квантовании и таким образом улучшить качество кодирования.
В соответствии с вариантом осуществления предложенная стратегия квантования основывается на размере кадра. Предложено, чтобы модуль квантования, основываясь на размере кадра, применяемом блоком преобразования, мог принимать решение, кодировать ли сигнал в области преобразования с помощью устройства квантования, основанного на модели, или устройства квантования, не основанного на модели. Предпочтительно, блок квантования может быть выполнен с возможностью кодирования сигнала в области преобразования для кадра с размером кадра, меньшим, чем пороговое значение, посредством устройства квантования, основанного на модели, с ограничением энтропии. Квантование, основанное на модели, может выполняться на основе различных параметров. Большие кадры могут квантоваться, например, скалярным устройством квантования, например, с помощью энтропийного кодирования по способу Хаффмана, используемого, например, в кодеке AAC.
Система аудиокодирования может дополнительно содержать блок долгосрочного предсказания (LTP) для оценки кадра отфильтрованного входного сигнала, основываясь на реконструкции предыдущего сегмента отфильтрованного входного сигнала и сигнала в области преобразования блока объединения для объединения в области преобразования результата определения долгосрочного предсказания и преобразованного входного сигнала, чтобы создать сигнал в области преобразования, являющийся входным сигналом для блока квантования.
Переключение между различными способами квантования линий MDCT является другим аспектом предпочтительного варианта осуществления изобретения. Используя различные стратегии квантования для различных размеров преобразования, кодек может выполнять все квантование и кодирование в MDCT-области без необходимости иметь специальный речевой кодер временной области, работающий параллельно или последовательно с кодеком, работающим в области преобразования. Настоящее изобретение указывает, что для сигналов, подобных речи, где существует усиление LTP, сигнал предпочтительно кодируется, используя быстрое преобразование и устройство квантования, основанное на модели. Устройство квантования, основанное на модели, в частности, пригодно для быстрого преобразования и обладает, как будет описано позже, преимуществами специального векторного устройства квантования (VQ) речи во временной области, все еще продолжая работать в MDCT-области, и без каких-либо требований, чтобы входной сигнал был речевым сигналом. Другими словами, когда устройство квантования, основанное на модели, используется для сегментов быстрого преобразования в комбинации с LTP, эффективность специализированного кодера VQ речи, работающего во временной области, сохраняется без потери общности и без ухода из MDCT-области.
Кроме того, для более стационарных музыкальных сигналов предпочтительно использовать преобразование относительно большого размера, которое обычно используется в аудиокодеках, и схему квантования, которая может пользоваться преимуществами, даваемыми разреженными спектральными линиями, различаемыми большим преобразованием. Поэтому настоящее изобретение указывает на использование этого вида схемы квантования для длинных преобразований.
Таким образом, переключение стратегии квантования как функция размера кадра позволяет кодеку сохранять как свойства специализированного речевого кодека, так и свойства специализированного аудиокодека, просто посредством выбора размера преобразования. Это позволяет полностью избежать проблем, присущих системам предшествующего уровня техники, которые стремятся обрабатывать речевые и аудиосигналы одинаково хорошо при низких скоростях, так как эти системы неизбежно сталкиваются с проблемами и трудностями эффективного объединения кодирования во временной области (речевой кодер) с кодированием в частотной области (аудиокодер).
В соответствии с другим аспектом изобретения квантование использует адаптивные размеры шага. Предпочтительно, размер(-ы) шага квантования для компонентов сигнала в области преобразования адаптируется/адаптируются, основываясь на параметрах линейного предсказания и/или долговременного предсказания. Размер(-ы) шага квантования может дополнительно быть выполнен с возможностью быть частотно-зависимым. В вариантах осуществления изобретения размер шага квантования определяется, основываясь, по меньшей мере, на одном из следующего: полином адаптивного фильтра, параметр управления скоростью кодирования, значение усиления при долгосрочном предсказании и дисперсия входного сигнала.
Предпочтительно, блок квантования содержит однородные скалярные устройства квантования для квантования компонент сигнала в области преобразования. Каждое скалярное устройство квантования применяет к линии MDCT однородное квантование, например, основанное на вероятностной модели. Вероятностная модель может быть Лапласовой или Гауссовой моделью или любой другой вероятностной моделью, пригодной для характеристик сигнала. Блок квантования может дополнительно вставлять в однородные скалярные устройства кантования случайный сдвиг. Вставка случайного сдвига обеспечивает однородным скалярным устройствам квантования преимущества векторного квантования. В соответствии с вариантом осуществления случайные сдвиги определяются, основываясь на оптимизации искажения при квантовании, предпочтительно в перцепционной области и/или при рассмотрении стоимости с точки зрения числа битов, требующихся для кодирования индексов квантования.
Блок квантования может дополнительно содержать арифметический кодер для кодирования индексов квантования, созданных однородными скалярными устройствами квантования. Это позволяет достигнуть низкой скорости передачи данных, приближающейся к возможному минимуму, который задается энтропией сигнала.
Модуль квантования может дополнительно содержать устройство квантования остатка для квантования остатка сигнала квантования, являющегося результатом работы однородных скалярных устройств квантования, чтобы дополнительно уменьшить общее искажение. Устройство квантования остатка предпочтительно является векторным устройством с фиксированной частотой.
Многочисленные точки реконструкции квантования могут использоваться в блоке деквантования кодера и/или инверсном устройстве квантования в декодере. Например, точка реконструкции с минимальной среднеквадратичной ошибкой (MMSE) и/или центральная точка (средняя точка) реконструкции могут использоваться для реконструкции квантованного значения, основываясь на его индексе квантования. Точка реконструкции квантования может дополнительно основываться на динамической интерполяции между центральной точкой и точкой MMSE, возможно управляемыми характеристиками данных. Это позволяет управлять шумовой вставкой и избегать спектральных провалов из-за назначения линиям MDCT нулевого элемента квантования для низких скоростей передачи данных.
Перцепционное взвешивание в области преобразования предпочтительно применяется при определении искажения за счет квантования, чтобы придать различные веса конкретным частотным компонентам. Перцепционные веса могут быть эффективно получены из параметров линейного предсказания.
Другой независимый аспект изобретения имеет отношение к общей концепции использования сосуществования данных LPC and SCF (ScaleFactor). В трансформном кодере, например, применяющем модифицированное дискретное косинусное преобразование (MDCT), масштабные факторы могут использоваться при квантовании, чтобы управлять размером шага квантования. На предшествующем уровне техники эти масштабные коэффициенты определяются из исходного сигнала, чтобы определить кривую маскирования. Теперь предлагается определить второй набор масштабных коэффициентов с помощью перцепционного фильтра или психоакустической модели, которая вычисляется из данных LPC. Это позволяет снизить стоимость передачи/хранения масштабных коэффициентов посредством передачи/хранения только отличия фактически применяемых масштабных коэффициентов от определяемых по LPC масштабных коэффициентов вместо передачи/сохранения реальных масштабных коэффициентов. Таким образом, в системе аудиокодирования, содержащей элементы кодирования речи, такие как, например, LPC, и элементы трансформного кодирования, такие как MDCT, настоящее изобретение уменьшает стоимость передачи информации масштабных коэффициентов, необходимой для трансформной части кодирования кодека, используя данные, предоставленные LPC. Следует отметить, что этот аспект независим от других аспектов предложенной системы аудиокодирования и может быть осуществлен также в другой системе аудиокодирования.
Например, кривая перцепционного маскирования может быть определена, основываясь на параметрах адаптивного фильтра. Линейное предсказание, основанное на втором наборе масштабных коэффициентов, может быть определено, основываясь на определенной кривой перцепционного маскирования. Сохраненная/переданная информация масштабных коэффициентов затем определяется на основе различия между масштабными коэффициентами, фактически используемыми при квантовании, и масштабными коэффициентами, вычисленными по кривой перцепционного маскирования, основанной на LPC. Это удаляет динамику и избыточность из сохраняемой/передаваемой информации, так чтобы было необходимо меньше битов для сохранения/передачи масштабных коэффициентов.
В случае если LPC и MDCT работают не на одной и той же частоте кадров, то есть имеют различные размеры кадров, масштабные коэффициенты, основанные на линейном предсказании, для кадров сигнала в области преобразования могут быть определены, основываясь на интерполированных параметрах линейного предсказания, чтобы соответствовать временному окну, охватываемому кадром MDCT.
Настоящее изобретение, следовательно, обеспечивает систему аудиокодирования, основанную на трансформном кодере, и содержит основополагающие модули предсказания и формирования из речевого кодера. Обладающая признаками изобретения система содержит блок линейного предсказания для фильтрации входного сигнала, основанный на адаптивном фильтре; блок преобразования для преобразования кадра отфильтрованного входного сигнала в область преобразования; блок квантования для квантования сигнала в области преобразования; блок определения масштабных коэффициентов для создания масштабных коэффициентов, основываясь на пороговой кривой маскирования, для использования в блоке квантования при квантовании сигнала в области преобразования; блок определения масштабных коэффициентов линейного предсказания для определения линейного предсказания, основываясь на масштабных коэффициентах, основанных на параметрах адаптивного фильтра; и кодер масштабных коэффициентов для кодирования разности масштабных коэффициентов, основанных на пороговой кривой маскирования, и масштабных коэффициентов, основанных на линейном предсказании. Кодируя разность между примененными масштабными коэффициентами и масштабными коэффициентами, которые могут быть определены в декодере, основанном на доступной информации линейного предсказания, эффективность кодирования и хранения может быть улучшена и сохранять/передавать потребуется совсем немного битов.
Другой независимый аспект изобретения, касающийся кодера, относится к обработке битового накопителя для кадров переменного размера. В системе аудиокодирования, которая может кодировать кадры переменной длины, битовый накопитель управляется посредством распределения доступных битов между кадрами. Учитывая разумную степень сложности индивидуальных кадров и битовый накопитель определенного размера, определенное отклонение от требуемой постоянной скорости передачи позволяет иметь лучшее общее качество без нарушения требований буфера, которые налагаются размером битового накопителя. Настоящее изобретение распространяет концепцию использования битового накопителя на управление битовым накопителем для общего аудиокодека с переменными размерами кадров. Система аудиокодирования может поэтому содержать блок управления битовым накопителем для определения числа битов, предоставляемых для кодирования кадра отфильтрованного сигнала, основываясь на длительности кадра и мере сложности кадра. Предпочтительно, блок управления битовым накопителем имеет разные уравнения управления для различных мер сложности кадров и/или различных размеров кадров. Меры сложности для различных размеров кадров могут быть нормализованы, так чтобы их можно было легче сравнивать. Чтобы управлять распределением бит для кодера с переменной частотой, блок управления битовым накопителем предпочтительно устанавливает в предоставленном алгоритме управления битами пониженный допустимый предел относительно среднего числа битов для наибольшего допустимого размера кадра.
Дополнительный аспект изобретения относится к обработке битового накопителя в кодере, используя основанное на модели устройство квантования, например устройство квантования с ограничением энтропии (ECQ). Предлагается минимизировать изменение размера шага ECQ. Предлагается специальное уравнение управления, связывающее размер шага устройства квантования со скоростью работы ECQ.
Адаптивный фильтр для фильтрации входного сигнала предпочтительно основывается на анализе кодирования с линейным предсказанием (LPC), содержащем фильтр LPC, создающий отбеленный входной сигнал. Параметры LPC для текущего кадра входных данных могут быть определены с помощью известных в технике алгоритмов. Блок определения параметров LPC может вычислить для кадра входных данных любое подходящее представление параметров LPC, такое как полиномы, передаточные функции, коэффициенты отражения, дискретные спектральные частоты и т.д. Конкретный тип представления параметров LPC, который используется для кодирования или другой обработки, зависит от соответствующих требований. Как известно специалистам в данной области техники, некоторые представления более пригодны для определенных операций, чем другие, и поэтому предпочтительны для выполнения этих операций. Блок линейного предсказания может воздействовать на первой длительности кадра, которая устанавливается равной, например, 20 мс. Фильтрация с линейным предсказанием может дополнительно работать на нелинейной частотной оси, чтобы выборочно подчеркивать определенные частотные диапазоны, такие как низкие частоты, по сравнению с другими частотами.
Преобразованием, применяемым к кадру отфильтрованного входного сигнала, предпочтительно является модифицированное дискретное косинусное преобразование (MDCT), работающее с переменной длительностью второго кадра. Система аудиокодирования может содержать блок управления последовательностью окон, определяющий для блока входного сигнала длительности кадров для перекрытия окон MDCT, минимизируя функцию стоимости кодирования, предпочтительно упрощенную перцепционную энтропию, для всего блока входного сигнала, содержащего несколько кадров. Таким образом получается оптимальная сегментация блока входного сигнала на окна MDCT, имеющие соответствующие длительности вторых кадров. Как следствие, предлагается структура кодирования в области преобразования, содержащая элементы речевого кодера, с кадром MDCT адаптивной длительности как единственным базовым блоком для всей обработки, кроме LPC. Поскольку длительности кадров MDCT могут принимать много различных значений, может быть найдена оптимальная последовательность и можно избежать резких изменений размера кадров, как это обычно происходит на предшествующем уровне техники, где применяются только малый размер окна и большой размер окна. Кроме того, нет необходимости в переходных преобразовательных окнах с резкими краями, используемых при некоторых подходах предшествующего уровня техники для перехода между малым и большим размерами окон.
Предпочтительно, длительности последовательных окон MDCT изменяются, самое большее, с коэффициентом два (2) и/или длительности окон MDCT являются диадическими значениями. Более конкретно, длительности окон MDCT могут быть диадическими частями блока входного сигнала. Последовательность окон MDCT поэтому ограничивается заданными последовательностями, которые просты для кодирования с помощью небольшого числа битов. Кроме того, последовательность окон имеет плавные переходы размеров кадров, исключая тем самым резкие изменения размеров кадров.
Блок управления последовательностью окон может быть дополнительно выполнен с возможностью результатов определения долгосрочного предсказания, созданных блоком долгосрочного предсказания, для кандидатов на продолжительность окон при поиске последовательности длительностей окон MDCT, которая минимизирует функцию стоимости кодирования блока входного сигнала. В этом варианте осуществления цикл долгосрочного предсказания замыкается при определении длительностей окон MDCT, что приводит к улучшенной последовательности окон MDCT, применяемых для кодирования.
Система аудиокодирования может дополнительно содержать кодер LPC для рекурсивного кодирования с переменной частотой дискретных спектральных частот или других соответствующих представлений параметров LPC, создаваемых блоком линейного предсказания для хранения и/или передачи на декодер. В соответствии с вариантом осуществления обеспечивается блок интерполяции линейного предсказания, чтобы интерполировать параметры линейного предсказания, созданные с частотой, соответствующей длительности первого кадра, так чтобы соответствовать переменным длительностям кадров сигнала в области преобразования.
В соответствии с аспектом изобретения система аудиокодирования может содержать блок перцепционного моделирования, изменяющий характеристику адаптивного фильтра посредством линейной частотной модуляции и/или наклона полинома LPC, созданного блоком линейного предсказания для кадра LPC. Перцепционная модель, полученная посредством модификации характеристик адаптивного фильтра, может использоваться для многих целей в системе. Например, она может применяться в качестве функции перцепционного взвешивания при квантовании или долгосрочном предсказании.
Другой аспект изобретения относится к долгосрочному предсказанию (LTP), в частности к долгосрочному предсказанию в MDCT-области, адаптированному LTP кадра MDCT, и поиску LTP со взвешенным MDCT. Эти аспекты применимы независимо от того, присутствует ли анализ LPC в восходящем потоке данных трансформного кодера.
В соответствии с вариантом осуществления система аудиокодирования дополнительно содержит блок инверсного квантования и инверсного преобразования для создания реконструкции во временной области кадра отфильтрованного входного сигнала. Дополнительно может обеспечиваться буфер долгосрочного предсказания для хранения реконструкций во временной области предыдущих кадров отфильтрованного входного сигнала. Эти блоки могут быть организованы в цикл с обратной связью от блока квантования к блоку извлечения долгосрочного предсказания, который ищет в буфере долгосрочного предсказания реконструированный сегмент, наилучшим образом совпадающий с текущим кадром отфильтрованного входного сигнала. Кроме того, может быть обеспечен блок определения усиления долгосрочного предсказания, который регулирует усиление сегмента, выбранного из буфера долгосрочного предсказания, так чтобы он наилучшим образом совпадал с текущим кадром. Предпочтительно, результат определения долгосрочного предсказания вычитается из преобразованного входного сигнала в области преобразования. Поэтому может обеспечиваться второй блок преобразования для преобразования выбранного сегмента в область преобразования. Цикл долгосрочного предсказания может дополнительно содержать добавление результата определения долгосрочного предсказания в области преобразования к сигналу обратной связи после инверсного квантования и перед инверсным преобразованием во временную область. Таким образом может использоваться схема обратного адаптивного долгосрочного предсказания, которая предсказывает в области преобразования текущий кадр отфильтрованного входного сигнала, основываясь на предыдущих кадрах. Для большей эффективности схема долгосрочного предсказания может дополнительно быть адаптирована различными способами, как изложено ниже для некоторых примеров.
В соответствии с вариантом осуществления блок долгосрочного предсказания содержит устройство выделения долгосрочного предсказания для определения значения задержки, указывающее реконструированный сегмент отфильтрованного сигнала, наилучшим образом соответствующий текущему кадру отфильтрованного сигнала. Устройство определения усиления при долгосрочном предсказании может определить значение усиления, применяемого к сигналу выбранного сегмента отфильтрованного сигнала. Предпочтительно, значение задержки и значение усиления определяются так, чтобы минимизировать критерий искажения, относящийся к разности в перцепционной области между оценкой долгосрочного предсказания и преобразованным входным сигналом. Модифицированный полином линейного предсказания может применяться в качестве кривой усиления выравнивания в MDCT-области при минимизации критерия искажения.
Блок долгосрочного предсказания может содержать блок преобразования для преобразования реконструированных сегментов из буфера LTP в область преобразования. Для эффективного осуществления MDCT-преобразования такое преобразование предпочтительно должно быть дискретным косинусным преобразованием типа-IV.
Другой аспект изобретения относится к аудиодекодеру для декодирования битового потока, созданного с помощью вариантов осуществления упомянутого выше кодера. Декодер, соответствующий варианту осуществления, содержит блок деквантования для деквантования кадра входного битового потока, основываясь на масштабных коэффициентах; блок инверсного преобразования для инверсного преобразования сигнала в области преобразования; блок линейного предсказания для фильтрации инверсно преобразованного сигнала в области преобразования и блок декодирования масштабных коэффициентов для создания масштабных коэффициентов, используемых при деквантовании, основываясь на полученной дельта-информации масштабных коэффициентов, которая кодирует разность между масштабными коэффициентами, применяемыми в кодере, и масштабными коэффициентами, созданными, основываясь на параметрах адаптивного фильтра. Декодер может дополнительно содержать блок определения масштабных коэффициентов для создания масштабных коэффициентов, основываясь на пороговой кривой маскирования, получаемой из параметров линейного предсказания для текущего кадра. Блок декодирования масштабных коэффициентов может объединить полученную дельта-информацию масштабных коэффициентов с созданным линейным предсказанием, основываясь на масштабных коэффициентах, чтобы создать масштабные коэффициенты для ввода в блок деквантования.
Декодер, соответствующий другому варианту осуществления, содержит блок деквантования, основанный на модели, для деквантования кадра входного битового потока; блок инверсного преобразования для инверсного преобразования сигнала в области преобразования и блок линейного предсказания для фильтрации инверсно преобразованного сигнала в области преобразования. Блок деквантования может содержать устройство деквантования, основанное на модели, и устройство деквантования, не основанное на модели.
Предпочтительно, блок деквантования содержит, по меньшей мере, одну адаптивную вероятностную модель. Блок деквантования может быть выполнен с возможностью адаптации деквантования как функции характеристик переданного сигнала.
Блок деквантования может дополнительно принимать решение по стратегии деквантования, основываясь на данных управления для декодированного кадра. Предпочтительно, данные управления деквантованием принимаются вместе с битовым потоком или получаются из принятых данных. Например, блок деквантования принимает решение по стратегии деквантования, основываясь на размере преобразования кадра.
В соответствии с другим аспектом блок деквантования содержит точки адаптивной реконструкции. Блок деквантования может содержать однородные скалярные устройства деквантования, выполненные с возможностью использования двух точек реконструкции деквантования на интервале квантования, в частности, средней точки и точки реконструкции с MMSE.
В соответствии с вариантом осуществления блок деквантования использует устройство квантования, основанное на модели, в комбинации с арифметическим кодированием.
Кроме того, декодер может содержать многие из аспектов, раскрытых выше для кодера. В целом декодер будет отражать операции кодера, хотя некоторые операции выполняются только в кодере и не будут иметь никаких соответствующих компонентов в декодере. Таким образом, то что описано для кодера, должно считаться применимым также и для декодера, если не указывается иначе.
Упомянутые выше аспекты изобретения могут быть осуществлены как устройство, совокупность устройств, способ или компьютерная программа, работающая на программируемом устройстве. Аспекты изобретения могут дополнительно быть осуществлены в сигналах, структурах данных и битовых потоках.
Таким образом, заявка дополнительно раскрывает способ аудиокодирования и способ аудиодекодирования. Пример способа аудиокодирования содержит этапы, на которых: фильтруют входной сигнал на основе адаптивного фильтра; преобразуют кадр отфильтрованного входного сигнала в область преобразования; квантуют сигнал в области преобразования; создают масштабные коэффициенты, основываясь на пороговой кривой маскирования, для использования в блоке квантования при квантовании сигнала в области преобразования; определяют основанные на линейном предсказании масштабные коэффициенты, используя для этого параметры адаптивного фильтра; и кодируют разность между масштабными коэффициентами, основанными на пороговой кривой маскирования, и масштабными коэффициентами, основанными на линейном предсказании.
Другой способ аудиокодирования содержит этапы, на которых: фильтруют входной сигнал, основываясь на адаптивном фильтре; преобразуют кадр отфильтрованного входного сигнала в область преобразования и квантуют сигнал в области преобразования, в котором блок квантования, основываясь на характеристиках входного сигнала, принимает решение кодировать сигнал в области преобразования с помощью устройства квантования, основанного на модели, или устройства квантования, не основанного на модели.
Пример способа аудиодекодирования содержит этапы, на которых: деквантуют кадр входного битового потока, основываясь на масштабных коэффициентах; инверсно преобразуют сигнал в области преобразования; фильтруют с линейным предсказанием инверсно преобразованный сигнал в области преобразования; определяют вторые масштабные коэффициенты, основываясь на параметрах адаптивного фильтра; и создают масштабные коэффициенты, используемые при деквантовании, основываясь на полученной информации о разности масштабных коэффициентов и определенных вторых масштабных коэффициентах.
Другой способ аудиокодирования содержит этапы, на которых: деквантуют кадр входного битового потока; инверсно преобразуют сигнал в области преобразования и фильтруют с линейным предсказанием инверсно преобразованный сигнал в области преобразования; в котором деквантование использует устройство квантования, основанное на модели, и устройство квантования, не основанное на модели.
Приведенное выше является лишь примерами предпочтительных способов аудиокодирования/декодирования и компьютерных программ, которые предлагаются настоящей заявкой и которые специалист в данной области техники может получить из последующего описания примеров вариантов осуществления.
Краткое описание чертежей
Настоящее изобретение будет теперь описано посредством иллюстративных примеров, не ограничивающих объем или сущность изобретения, со ссылкой на сопроводительные чертежи, на которых:
Фиг.1 - предпочтительный вариант осуществления кодера и декодера в соответствии с настоящим изобретением;
Фиг.2 - более подробное представление кодера и декодера в соответствии с настоящим изобретением;
Фиг.3 - другой вариант осуществления кодера, соответствующего настоящему изобретению;
Фиг.4 - предпочтительный вариант осуществления кодера, соответствующего настоящему изобретению;
Фиг.5 - предпочтительный вариант осуществления декодера, соответствующего настоящему изобретению;
Фиг.6 - предпочтительный вариант осуществления кодирования и декодирования линий MDCT в соответствии с настоящим изобретением;
Фиг.7 - предпочтительный вариант осуществления кодера и декодера и примеры соответствующих данных управления, передаваемых от одного к другому в соответствии с настоящим изобретением;
Фиг.7a - другой пример аспектов кодера в соответствии с вариантом осуществления изобретения;
Фиг.8 - пример последовательности окон и отношения между данными LPC и данными MDCT в соответствии с вариантом осуществления настоящего изобретения;
Фиг.9 - объединение данных масштабных коэффициентов и данных LPC в соответствии с настоящим изобретением;
Фиг.9a - другой вариант осуществления объединения данных масштабных коэффициентов и данных LPC в соответствии с настоящим изобретением;
Фиг.9b - другая упрощенная блок-схема кодера и декодера в соответствии с настоящим изобретением;
Фиг.10 - предпочтительный вариант осуществления перевода полиномов LPC в кривую усиления MDCT в соответствии с настоящим изобретением;
Фиг.11 - предпочтительный вариант осуществления отображения параметров LPC с постоянной частотой обновления в данные последовательности окон с адаптивным MDCT в соответствии с настоящим изобретением;
Фиг.12 - предпочтительный вариант осуществления вычисления адаптации перцепционного взвешивающего фильтра, основываясь на размере преобразования и типе устройства квантования в соответствии с настоящим изобретением;
Фиг.13 - предпочтительный вариант осуществления адаптации устройства квантования в зависимости от размера кадра в соответствии с настоящим изобретением;
Фиг.14 - предпочтительный вариант осуществления адаптации устройства квантования в зависимости от размера кадра в соответствии с настоящим изобретением;
Фиг.15 - предпочтительный вариант осуществления адаптации размера шага квантования как функции LPC и данных LTP в соответствии с настоящим изобретением;
Фиг.15a - вывод дельта-кривой из параметров LPC и LTP с помощью блока дельта-адаптации;
Фиг.16 - предпочтительный вариант осуществления устройства квантования, основанного на модели, использующего случайные сдвиги, соответствующего настоящему изобретению;
Фиг.17 - предпочтительный вариант осуществления устройства квантования, основанного на модели, в соответствии с настоящим изобретением;
Фиг.17a - другой предпочтительный вариант осуществления устройства квантования, основанного на модели, в соответствии с настоящим изобретением;
Фиг.17b - схематичное представление декодера 2150, основанного на модели, для линий MDCT в соответствии с вариантом осуществления изобретения;
Фиг.17c - схематичное представление аспектов предварительной обработки устройства квантования в соответствии с вариантом осуществления изобретения;
Фиг.17d - схематичное представление аспектов вычисления размера шага в соответствии с вариантом осуществления изобретения;
Фиг.17e - схематичное представление кодера, основанного на модели, с ограничением энтропии в соответствии с вариантом осуществления изобретения;
Фиг.17f - схематичное представление работы однородного скалярного устройства квантования (USQ) в соответствии с вариантом осуществления изобретения;
Фиг.17g - схематичное представление вычислений вероятности в соответствии с вариантом осуществления изобретения;
Фиг.17h - схематичное представление процесса деквантования в соответствии с вариантом осуществления изобретения;
Фиг.18 - предпочтительный вариант осуществления управления битовым накопителем в соответствии с настоящим изобретением;
Фиг.18a - базовая концепция управления битовым накопителем;
Фиг.18b - концепция управления битовым накопителем для переменных размеров кадра в соответствии с настоящим изобретением;
Фиг.18c - пример кривой управления для управления битовым накопителем в соответствии с вариантом осуществления;
Фиг.19 - предпочтительный вариант осуществления инверсного устройства квантования, использующего различные точки реконструкции в соответствии с настоящим изобретением.
Описание предпочтительных вариантов осуществления
Описанные ниже варианты осуществления являются просто иллюстративными примерами принципов настоящего изобретения для аудиокодера и декодера. Подразумевается, что модификации и изменения схем и подробностей, описанных здесь, будут очевидны другим специалистам в данной области техники. Намерение поэтому заключается в том, чтобы ограничиться только объемом пунктов сопроводительной формулы изобретения, а не конкретными подробностями, представленными посредством описания и объяснения представленных здесь вариантов осуществления. Подобные компоненты вариантов осуществления обозначаются подобными ссылочными номерами.
На Фиг.1 визуально представлены кодер 101 и декодер 102. Кодер 101 получает входной сигнал во временной области и создает битовый поток 103, впоследствии посылаемый на декодер 102. Декодер 102 создает выходной колебательный сигнал, основываясь на принятом битовом потоке 103. Выходной сигнал психоакустически схож с первоначальным входным сигналом. На Фиг.2 показан предпочтительный вариант осуществления кодера 200 и декодера 210. Входной сигнал кодера 200 проходит через модуль 201 LPC (кодирования с линейным предсказанием), создающий отбеленный остаточный сигнал для кадра LPC, имеющего первую длительность кадра, и соответствующие параметры линейного предсказания. Дополнительно, в модуль 201 LPC может быть включена нормализация усиления. Остаточный сигнал от LPC преобразуется в частотную область с помощью модуля 202 MDCT (модифицированного дискретного косинусного преобразования), работающего на второй переменной длительности кадра. В кодере 200, показанном на Фиг.2, содержится модуль 205 LTP (долгосрочного предсказания). LTP будет с подробностями раскрыто в дополнительном варианте осуществления настоящего изобретения. Линии MDCT подвергаются процессу 203 квантования, а также процессу 204 деквантования, чтобы предоставить буферу LTP копию декодированного выходного сигнала, когда он будет доступен декодеру 210. Из-за искажения при квантовании эту копию называют реконструкцией соответствующего входного сигнала. В нижней части Фиг.2 изображен декодер 210. Декодер 210 получает квантованные линии MDCT, производит процесс 211 их деквантования, добавляет вклад от модуля 214 LTP и производит процесс 212 инверсного преобразования MDCT с последующим синтезом фильтром 213 LPC.
Важным аспектом описанного выше варианта осуществления является то, что кадр MDCT является единственным базовым блоком для кодирования, хотя LPC имеет свой собственный (и в одном варианте осуществления постоянный) размер кадра и параметры LPC также кодируются. Вариант осуществления начинается с кодера преобразования и вводит основополагающие модули предсказания и формирования из речевого кодера. Как будет обсуждаться позже, размер кадра MDCT является переменным и адаптируется к блоку входного сигнала, определяя оптимальную последовательность окон MDCT для всего блока посредством минимизации упрощенной функции стоимости перцепционной энтропии. Это позволяет осуществлять масштабирование, чтобы поддержать оптимальное управление по времени/частоте. Дополнительно, предложенная унифицированная структура избегает переключаемых или наслаивающихся комбинаций различных парадигм кодирования.
На Фиг.3 части кодера 300 описаны схематично более подробно. Отбеленный сигнал в качестве выходного сигнала модуля 201 LPC кодера, показанного на Фиг.2, является входным сигналом блока 302 фильтров MDCT. Анализ MDCT, как вариант, может быть анализом MDCT с нелинейной шкалой времени, что гарантирует, что шаг сигнала (если сигнал является периодическим со строго определенным шагом) является постоянным в окне преобразования MDCT.
На Фиг.3 модуль 310 LTP представлен более подробно. Он содержит буфер 311 LTP, хранящий реконструированные выборки во временной области предыдущих сегментов выходного сигнала. Устройство 312 выделения LTP находит сегмент с наилучшим соответствием в буфере 311 LTP для заданного текущего входного сегмента. Блоком 313 усиления к этому сегменту прикладывается подходящее значение усиления перед тем, как он будет вычитаться из сегмента, в настоящее время являющегося входным для устройства 303 квантования. Очевидно, что для выполнения вычитания перед квантованием устройство 312 выделения LTP также преобразует выбранный сегмент сигнала в MDCT-область. Устройство 312 выделения LTP ищет наилучшие значения усиления и задержки, которые минимизируют функцию ошибки в перцепционной области при объединении реконструированного предыдущего сегмента выходного сигнала с преобразованным входным кадром MDCT-области. Например, оптимизируется функция среднеквадратичной ошибки (MSE) между преобразованным реконструированным сегментом модуля 310 LTP и преобразованным входным кадром (то есть остаточный сигнал после вычитания). Эта оптимизация может быть выполнена в перцепционной области, где частотные компоненты (то есть линии MDCT) взвешиваются согласно их перцепционной важности. Модуль 310 LTP работает в блоках кадров MDCT и кодер 300 считает один остаток кадра MDCT за один раз, например, для квантования в модуле 303 квантования. Поиски задержки и усиления могут выполняться в перцепционной области. Как вариант, LTP может быть селективным по частоте, то есть адаптировать усиление и/или задержку в зависимости от частоты. Показаны блок 304 инверсного квантования 304 и блок 306 инверсного MDCT. MDCT может иметь нелинейную шкалу времени, как объясняется позже.
На Фиг.4 показан другой вариант осуществления кодера 400. В дополнение к Фиг.3 для ясности введен анализ 401 LPC. Показано преобразование 414 DCT-IV, используемое для преобразования выбранного сегмента сигнала в MDCT-область. Дополнительно показаны несколько способов вычисления минимальной ошибки для выбора сегмента LTP. В дополнение к минимизации остаточного сигнала, как показано на Фиг.4 (идентифицируется как LTP2 на Фиг.4), показана минимизация разности между преобразованным входным сигналом и деквантованным сигналом MDCT-области перед инверсным преобразованием в реконструированный сигнал временной области для хранения в буфере 411 LTP (обозначен как LTP3). Минимизация этой функции MSE будет направлять вклад LTP к оптимальному (насколько возможно) подобию преобразованного входного сигнала и реконструированного входного сигнала для хранения в буфере 411 LTP. Другая альтернативная функция ошибки (обозначенная как LTPl) основана на разности этих сигналов во временной области. В этом случае MSE между отфильтрованным входным кадром LPC и соответствующей реконструкцией во временной области в буфере 411 LTP минимизируется. MSE предпочтительно вычисляется, основываясь на размере кадра MDCT, который может отличаться от размера кадра LPC. Дополнительно, устройство квантования и блоки деквантования заменяются блоком 403 спектрального кодирования и блоками 404 спектрального декодирования (("Spec enc" и "Spec dec"), которые могут содержать дополнительные модули, помимо модулей квантования, как в общем виде указано на Фиг.6. И снова MDCT и инверсное MDCT могут иметь нелинейную шкалу времени (WMDCT, IWMDCT).
На Фиг.5 показан предложенный декодер 500. Данные спектра из принятого битового потока инверсно квантуются 511 и складываются с вкладом LTP, обеспечиваемым устройством выделения LTP из буфера 515 LTP. Также показаны устройство 516 выделения LTP и блок 517 усиления LTP в декодере 500. Суммированные линии MDCT синтезируются во временной области блоком синтеза MDCT, и сигнал во временной области спектрально формируется фильтром 513 синтеза LPC.
На Фиг.6 блоки 403, 404, "Spec dec" и "Spec enc", показанные на Фиг.4, описаны более подробно. Блок 603 "Spec enc", показанный в правой части чертежа, содержит в варианте осуществления модуль 610 анализа гармонического предсказания, модуль 611 анализа TNS (временного ограничения шума), сопровождаемый модулем 612 масштабирования масштабных коэффициентов для линий MDCT, и, наконец, квантование и кодирование линий в модуле 613 линий Enc. Блок 604 "Spec Dec" декодера, показанный в левой части чертежа, выполняет инверсный процесс, то есть принятые линии MDCT деквантуются в модуле 620 линий Dec и масштабирование уничтожается модулем 621 масштабирования масштабных коэффициентов (SCF). Применяются синтез 622 TNS и синтез 623 гармонического предсказания.
На Фиг.7 показано очень общее представление системы кодирования, соответствующей изобретению. Кодер, как пример, получает входной сигнал и создает битовый поток, содержащий среди других данных:
- квантованные линии MDCT;
- масштабные коэффициенты;
- полиномиальное представление LPC;
- энергию сегмента сигнала (например, дисперсия сигнала);
- последовательность окон;
- данные LTP.
Декодер, соответствующий варианту осуществления, считывает предоставленный битовый поток и создает выходной аудиосигнал, психоакустически схожий с исходным сигналом.
На Фиг.7a представлены другие аспекты кодера 700, соответствующего варианту осуществления изобретения. Кодер 700 содержит модуль 701 LPC, модуль 704 MDCT, модуль 705 LTP (показан только упрощенно), модуль 703 квантования и модуль 704 инверсного квантования для возвращения реконструированных сигналов обратно в модуль 705 LTP. Дополнительно обеспечиваются модуль 750 определения шага для определения шага входного сигнала и модуль 751 определения последовательности окон для определения оптимальной последовательности окон MDCT для блока входного сигнала большего размера (например, 1 секунда). В этом варианте осуществления последовательность окон MDCT определяется, основываясь на подходе с разомкнутым циклом, при котором определяется последовательность кандидатов на размер окна MDCT, что минимизирует функцию стоимости кодирования, например упрощенную перцепционную энтропию. Вклад модуля 705 LTP в функцию стоимости кодирования, которая минимизируется модулем 751 определения последовательности окон, как вариант, можно учитываться при поиске оптимальной последовательности окон MDCT. Предпочтительно, для каждого определенного кандидата на размер окна определяется наилучший вклад долговременного предсказания в кадр MDCT, соответствующий кандидату на размер окна, и определяется соответствующая стоимость кодирования. В целом, короткие размеры кадра MDCT более подходят для ввода речи, тогда как окна длительного преобразования, имеющие прекрасную спектральную разрешающую способность, предпочтительны для аудиосигналов.
Перцепционные веса или функция перцепционного взвешивания определяются на основе параметров LPC, вычисляемых модулем 701 LPC, который ниже будет объяснен более подробно. Перцепционные веса подаются на модуль 705 LTP и на модуль 703 квантования 703, оба работающие в MDCT-области, для взвешивания ошибок или вклада искажений частотных компонент в соответствии с их соответствующей перцепционной важностью. На Фиг.7a дополнительно показано, какие параметры кодирования передаются на декодер, предпочтительно, соответствующей схемой кодирования, как будет обсуждаться позже.
Далее будет обсуждаться сосуществование данных LPC и MDCT и эмуляция эффекта LPC в MDCT как для противодействия, так и для пропуска фактической фильтрации.
В соответствии с вариантом осуществления модуль LP фильтрует входной сигнал так, что спектральная форма сигнала удаляется и последующий выходной сигнал модуля LP является спектрально плоским сигналом. Это предпочтительно, например, для работы LTP. Однако другие части кодека, работающие со спектрально плоским сигналом, могут получать выгоду от знания того, какая спектральная форма исходного сигнала предшествовала фильтрации LP. Поскольку модули кодера после фильтрации работают с преобразованием MDCT спектрально плоского сигнала, настоящее изобретение указывает, что спектральная форма первоначального сигнала до фильтрации с LP может, если нужно, быть повторно наложена на MDCT-представление спектрально плоского сигнала, отображая передаточную функцию используемого LP-фильтра (то есть огибающую спектра исходного сигнала) на кривой усиления или кривой выравнивания, которая применяется на элементах разрешения по частоте MDCT-представления спектрально плоского сигнала. Напротив, модуль LP может исключить фактическую фильтрацию и определять только передаточную функцию, которая впоследствии отображается на кривой усиления, которая может быть наложена на MDCT-представление сигнала, тем самым исключая потребность в фильтрации во временной области входного сигнала.
Одним из явных аспектов вариантов осуществления настоящего изобретения является то, что трансформный кодер на MDCT-основе работает, используя гибкую сегментацию окон, на отбеленном сигнале LPC. Это показано на Фиг.8, где приведен пример последовательности окон MDCT, наряду с работой с окнами LPC. Следовательно, как ясно из чертежа, LPC работает с постоянным размером кадров (например, 20 мс), тогда как MDCT работает с переменной последовательностью окон (например, 4-128 мс). Это позволяет независимо выбирать оптимальную длительность окна для LPC и оптимальную последовательность окон для MDCT.
Фиг.8 дополнительно показывает связь между данными LPC, в частности параметрами LPC, созданными при первой частоте кадров, и данными MDCT, в частности линиями MDCT, созданными при второй переменной частоте. Направленные вниз стрелки на чертеже символизируют данные LPC, которые интерполируются между кадрами LPC (окружности), так чтобы совпадать с соответствующими кадрами MDCT. Например, созданная с использованием LPC функция перцепционного взвешивания интерполируется для временных случаев, как они определяются последовательностью окон MDCT. Стрелки, направленные вверх, символизируют данные уточнения (то есть данные управления), используемые для кодирования линий MDCT. Для кадров AAC эти данные обычно являются масштабными коэффициентами, а для кадров ECQ данные обычно являются данными коррекции дисперсии и т.д. Сплошные линии относительно пунктирных линий представляют, какие данные являются "самыми важными" данными для кодирования линий MDCT для определенного устройства квантования. Двойные направленные вниз стрелки символизируют спектральные линии кодека.
Сосуществование LPC и данных MDCT в кодере может использоваться, например, для уменьшения потребности в битах при кодировании масштабных коэффициентов MDCT, принимая во внимание кривую перцепционного маскирования, определяемую из параметров LPC. Дополнительно, выведенное из LPC перцепционное взвешивание может использоваться при определении искажения квантования. Как показано на чертеже и как будет обсуждено ниже, устройство квантования работает в двух режимах и создает два типа кадров (кадры ECQ и кадры AAC) в зависимости от размера кадров принятых данных, то есть соответствующие размеру кадра, или окна MDCT.
На Фиг.11 показан предпочтительный вариант осуществления отображения параметров LPC с постоянной частотой в данные адаптивной последовательности окон MDCT. Модуль 1100 отображения LPC принимает параметры LPC в соответствии с частотой обновления LPC. Кроме того, модуль 1100 отображения LPC принимает информацию о последовательности окон MDCT. Затем он создает отображение LPC-в-MDCT, например отображение психоакустических данных, основанных на LPC, в соответствующие кадры MDCT, созданные с переменной частотой кадров MDCT. Например, модуль отображения LPC интерполирует полиномы LPC или сопутствующие данные для временных случаев, соответствующих кадрам MDCT, для использования, например, в качестве перцепционных весов в модуле LTP или устройстве квантования.
Теперь специфика перцепционной модели, основанной на LPC, обсуждается со ссылкой на Фиг.9. Модуль 901 LPC находится в варианте осуществления настоящего изобретения, выполненном с возможностью создания белого выходного сигнала, используя линейное предсказание, например, порядка 16 для сигнала с частотой выборки 16 кГц. Например, выходной сигнал модуля 201 LPC на Фиг.2 является остаточным после определения и фильтрации параметров LPC. Определенный полином A(z) LPC, как схематично показано внизу слева на Фиг.9, может подвергаться линейной частотной модуляции с коэффициентом расширения ширины полосы, а также наклоняться, в одной из реализаций изобретения, изменяя первый коэффициент отражения соответствующего полинома LPC. Линейная частотная модуляция расширяет ширину полосы пиков в передаточной функции LPC, перемещая полюса полинома внутрь единичной окружности, приводя таким образом в результате к более сглаженным пикам. Наклон позволяет делать передаточную функцию LPC более плоской, чтобы балансировать влияние нижних и верхних частот. Эти модификации стремятся создать кривую перцепционного маскирования А'(z) из определенных параметров LPC, которые будут доступны как на стороне кодера, так и на стороне декодера системы. Подробности манипуляции полиномом LPC представлены ниже на Фиг.12.
Кодирование MDCT, применяемое к остатку LPC, имеет в одной из реализаций изобретения масштабные коэффициенты для управления разрешающей способностью устройства квантования или размерами шага квантования (и, таким образом, шумом, вносимым квантованием). Эти масштабные коэффициенты определяются модулем 960 определения масштабных коэффициентов для первоначального входного сигнала. Например, масштабные коэффициенты получаются из пороговой кривой перцепционного маскирования, определенной из первоначального сигнала. В варианте осуществления отдельное преобразование частот (имеющее, возможно, различную разрешающую способность по частоте) может использоваться для определения пороговой кривой маскирования, но это не всегда необходимо. Альтернативно, пороговая кривая маскирования определяется из линий MDCT, созданных модулем преобразования. В нижней правой части на Фиг.9 схематично показаны масштабные коэффициенты, созданные модулем 960 определения масштабных коэффициентов для управления квантованием, так чтобы внесенный шум квантования ограничивался неслышимыми искажениями.
Если фильтр LPC подключен до модуля преобразования MDCT, отбеленный сигнал преобразуется в MDCT-область. Поскольку этот сигнал имеет белый спектр, он не очень хорошо подходит для получения из него кривой перцепционного маскирования. Таким образом, кривая выравнивания усиления в MDCT-области, созданная для компенсации отбеливания спектра, может использоваться при определении пороговой кривой маскирования и/или масштабных коэффициентов. По этой причине масштабные коэффициенты должны определяться для сигнала, имеющего свойства абсолютного спектра исходного сигнала, чтобы правильно определить перцепционное маскирование. Вычисление кривой выравнивания усиления для MDCT-области из полинома LPC обсуждается ниже более подробно со ссылкой на Фиг.10.
Вариант осуществления приведенной выше в общих чертах схемы определения масштабных коэффициентов представлен на Фиг.9a. В этом варианте осуществления входной сигнал вводится в модуль 901 LP, который определяет огибающую спектра входного сигнала, описанного с помощью А(z), и выводит упомянутый полином, а также отфильтрованную версию входного сигнала. Входной сигнал фильтруется с помощью инверсии А(z), чтобы обеспечить спектрально белый сигнал, который впоследствии используется другими частями кодера. Отфильтрованный сигнал (n) вводится в блок 902 преобразования MDCT, тогда как полином А(z) вводится в блок 970 вычисления кривой усиления MDCT 970 (как показано на Фиг.14). Кривая усиления, определенная из полинома LP, применяется к коэффициентам MDCT или линиям, чтобы сохранить спектральную огибающую первоначального входного сигнала до того, как определять масштабные коэффициенты. Линии MDCT с отрегулированным усилением вводятся в модуль 960 определения масштабных коэффициентов, который определяет масштабные коэффициенты для входного сигнала.
Используя кратко представленный выше подход, данные, передаваемые между кодером и декодером, содержит как полином LP, из которого может быть получена соответствующая перцепционная информация, так и модель сигнала, которая может быть получена, когда используется устройство квантования, основанное на модели, и масштабные коэффициенты обычно используются в трансформном кодеке.
Более подробно, возвращаясь к Фиг.9, блок 901 LPC, показанный на чертеже, определяет из входного сигнала огибающую спектра А(z) сигнала и получает из нее перцепционное представление А'(z). Кроме того, масштабные коэффициенты, которые обычно используются в основанных на преобразовании перцепционных аудиокодеках, определяются по входному сигналу или могут быть определены на белом сигнале, созданном фильтром LP, если передаточная функция фильтра LP учитывается при определении масштабных коэффициентов (как описано ниже в контексте Фиг.10). Масштабные коэффициенты могут затем адаптироваться в модуле 961 адаптации масштабных коэффициентов для данного полинома LP, как будет описано ниже, чтобы уменьшить скорость передачи данных, требующуюся для передачи масштабных коэффициентов.
Обычно масштабные коэффициенты передаются на декодер и таким образом появляется полином LP. Теперь при условии, что и то, и другое определено из первоначального входного сигнала и что и то, и другое в какой-то степени коррелированы со свойствами абсолютного спектра первоначального входного сигнала, предлагается кодировать дельта-представление между ними, чтобы удалить любую избыточность, которая может возникнуть, если то и другое передаются отдельно. В соответствии с вариантом осуществления эта корреляция используется следующим образом. Поскольку полином LPC, когда правильно подвергается линейной частотной модуляции и наклоняется, стремится представить пороговую кривую маскирования, два представления могут быть объединены, так чтобы переданные масштабные коэффициенты трансформного кодера представляли разность между желательными масштабными коэффициентами и теми, которые могут быть получены из переданного полинома LPC. Модуль 961 адаптации масштабных коэффициентов, показанный на Фиг.9, поэтому вычисляет разность между желательными масштабными коэффициентами, созданными из первоначального входного сигнала, и масштабными коэффициентами, полученными из LPC. Этот аспект сохраняет способность иметь устройство квантования на MDCT-основе, имеющее представление масштабных коэффициентов, которое обычно используется в трансформных кодерах в пределах структуры LPC, работающих на остатке LPC, все еще имеет возможность переключения на модели устройство квантования, основанное на модели, которое получает размеры шага квантования исключительно из данных линейного предсказания.
На Фиг.9b приведена упрощенная блок-схема кодера и декодера, соответствующая варианту осуществления. Входной сигнал в кодере пропускается через модуль 901 LPC, создающий отбеленный остаточный сигнал и соответствующие параметры линейного предсказания. Дополнительно, в модуле 901 LPC может содержаться нормализация усиления. Остаточный сигнал от LPC преобразуется в частотную область с помощью преобразования 902 MDCT. В правой части Фиг.9b изображен декодер. Декодер принимает линии квантованного MDCT, деквантует 911 их и применяет инверсное преобразование 912 MDCT с последующим синтезом LPC с помощью фильтра 913.
Отбеленный сигнал в качестве выходного сигнала модуля 901 LPC в кодере на Фиг.9b подается на вход блока 902 фильтров MDCT. Линии MDCT, как результат анализа MDCT, трансформно кодируются с помощью алгоритма трансформного кодирования, состоящего из перцепционной модели, которая управляет желательным размером шага квантования для различных частей спектра MDCT. Значения, определяющие размер шага квантования, называются масштабными коэффициентами и существует одно значение масштабного коэффициента, необходимое для каждого элемента спектра MDCT, называемое полосой масштабного коэффициента. На предшествующем уровне техники алгоритмов трансформного кодирования масштабные коэффициенты передаются через битовый поток на кодер.
В соответствии с одним из аспектов изобретения кривая перцепционного маскирования, определяемая из параметров LPC, как объяснялось со ссылкой на Фиг.9, применяется при кодировании масштабных коэффициентов, используемых в квантовании. Другая возможность определения кривой перцепционного маскирования состоит в использовании немодифицированных коэффициентов фильтра LPC для определения распределения энергии по линиям MDCT. Имея такую оценку энергии, психоакустическая модель, используемая в схемах трансформного кодирования, может быть применена как в кодере, так и в декодере для определения кривой маскирования.
Два представления кривой маскирования затем объединяются, так что масштабные коэффициенты, которые должны быть переданы трансформным кодером, представляют разность между желательными масштабными коэффициентами и масштабными коэффициентами, которые могут быть получены из переданного полинома LPC или быть основаны на психоакустической модели LPC. Этот признак сохраняет способность иметь устройство квантования, основанное на MDCT, имеющее такое представление масштабных коэффициентов, которое обычно используется в трансформных кодерах, внутри структуры LPC, работающей с LPC-остатком, и все еще иметь возможность управлять шумом квантования на основе полосы масштабного коэффициента в соответствии с психоакустической моделью трансформного кодера. Преимущество состоит в том, что передача разности масштабных коэффициентов будет стоить меньше битов по сравнению с передачей абсолютных значений масштабных коэффициентов, не принимая во внимание уже существующие данные LPC. В зависимости от скорости передачи данных, размера кадра или других параметров может быть выбрана величина остатка масштабных коэффициентов, который будет передаваться. Чтобы иметь полный контроль над полосой каждого масштабного коэффициента, дельта-параметр масштабного коэффициента может передаваться с помощью соответствующей схемы бесшумового кодирования. В других случаях стоимость передачи масштабных коэффициентов может быть дополнительно снижена за счет более грубого представления разностей масштабных коэффициентов. Особым случаем с самыми низкими накладными затратами является случай, когда разность масштабных коэффициентов устанавливается на 0 для всех полос и никакая дополнительная информация не передается.
На Фиг.10 показан предпочтительный вариант осуществления перевода полиномов LPC в кривую усиления MDCT. Как показано на Фиг.2, MDCT работает с отбеленным сигналом, причем отбеливание выполняется фильтром 1001 LPC. Чтобы сохранить огибающую спектра первоначального входного сигнала, кривая усиления MDCT вычисляется модулем 1070 кривой усиления MDCT. Кривая выравнивания усиления в MDCT-области может быть получена посредством определения величины отклика огибающей спектра, описанной фильтром LPC, для частот, представленных элементами при MDCT-преобразовании. Кривая усиления может затем быть применена к данным МDСТ, например, при вычислении минимального сигнала среднеквадратичной ошибки, как показано на фиг.3, или при определении кривой перцепционного маскирования для определения масштабных коэффициентов, как показано выше со ссылкой на фиг.9.
На фиг.12 показан предпочтительный вариант осуществления адаптации вычисления для перцепционного взвешивающего фильтра, основанной на размере преобразования и/или типе устройства квантования. Полином LP A(z) определяется модулем 1201 LPC, показанным на фиг.16. Модуль 1271 изменения параметров LPC принимает параметры LPC, такие как полином LPC A(z), и создает перцепционный взвешивающий фильтр A'(z), изменяя параметры LPC. Например, ширина полосы полинома LPC A(z) расширяется и/или полином наклоняется. Входные параметры для модуля 1272 адаптации линейной частотной модуляции и наклона являются заданными по умолчанию значениями линейной частотной модуляции и наклона ρ и γ. Они изменяются по заданным заранее определенным правилам, основываясь на используемом размере преобразования и/или на используемой стратегии Q квантования. Измененные параметры линейной частотной модуляции и наклона ρ' и γ' являются входными данными модуля 1271 модификации параметров LPC, переводящего огибающую спектра входного сигнала, представленную с помощью A(z), в кривую перцепционного маскирования, представленную с помощью А'(z).
Далее будет объяснена стратегия квантования, обусловленного размером кадра, и квантования, основанного на модели, обусловленного различными параметрами в соответствии с вариантом осуществления изобретения. Одним из аспектов настоящего изобретения является то, что оно использует различные стратегии квантования для различных размеров преобразования или размеров кадров. Это показано на фиг.13, где размер кадра используется как параметр выбора для использования устройства квантования, основанного на модели, или устройства квантования, не основанного на модели. Следует отметить, что этот аспект квантования независим от других аспектов раскрытого кодера/декодера и может применяться также и в других кодеках. Примером устройства квантования, не основанного на модели, является устройство квантования на основе таблицы Хаффмана, используемое в стандарте аудиокодирования ААС. Устройство квантования, основанное на модели, может быть устройством квантования с ограничением энтропии (ECQ), использующим арифметическое кодирование. Однако в вариантах осуществления настоящего изобретения могут также использоваться и другие устройства квантования.
В соответствии с независимым аспектом настоящего изобретения предлагается переключение между различными стратегиями квантования как функция размера кадра, чтобы иметь возможность использовать оптимальную стратегию квантования, задаваемую конкретным размером кадра. Как пример, последовательность окон может диктовать использование длительного преобразования для очень постоянного тонального музыкального сегмента сигнала. Для этого конкретного типа сигнала, использующего длительное преобразование, очень выгодно использовать стратегию квантования, с выгодой использующую символ "разреженности" (то есть четко определенные дискретные тоны) в сигнальном спектре. Способ квантования, используемый в ААС, в комбинации с таблицами Хаффмана и группированием спектральных линий, также используемым в ААС, очень выгоден. Однако, с другой стороны, для речевых сегментов последовательность окон, учитывая выигрыш кодирования, даваемый LTP, может диктовать использование быстрых преобразований. Для этого типа сигнала и размера преобразования выгодно применять стратегию квантования, не пытающуюся находить или вводить разреженность в спектр, а вместо этого поддерживает энергию в широкой полосе, которая, учитывая LTP, будет сохранять подобный импульсу символ первоначального входного сигнала.
Более общее визуальное представление этой концепции приводится на фиг.14, где входной сигнал преобразуется в MDCT-область и впоследствии квантуется устройством квантования, управляемым размером преобразования или размером кадра, используемым для преобразования MDCT.
В соответствии с другим аспектом изобретения размер шага устройства квантования адаптируется как функция данных LPC и/или LTP. Это позволяет определять размер шага в зависимости от сложности кадра и управлять числом битов, выделяемых для кодирования кадра. На фиг.15 показан пример того, как квантование, основанное на модели, может управляться данными LPC и LTP. В верхней части фиг.15 приведена схематическая визуализация линий MDCT. Ниже показан размер шага квантования, дельта Δ, как функция частоты. Из этого конкретного примера ясно, что размер шага квантования увеличивается с частотой, то есть для более высоких частот при квантовании вносится большее искажение. Дельта-кривая получается из параметров LPC и LTP посредством модуля дельта-адаптации, показанного на фиг.15а. Дельта-кривая может дополнительно быть получена из полинома A(z) предсказания посредством линейной частотной модуляции и/или наклона, как было объяснено со ссылкой на фиг.13.
Предпочтительная функция перцепционного взвешивания, полученная из данных LPC, определяется следующим уравнением:
где A(z) - полином LPC, τ - параметр наклона, ρ - управляет линейной частотной модуляцией и r1 - первый коэффициент отражения, вычисленный из полинома A(z). Следует отметить, что полином A(z) может вычисляться повторно для подбора различных представлений, чтобы извлечь из полинома соответствующую информацию. Если Вы заинтересованы в крутизне спектра, чтобы применить "наклон" противодействия крутизне спектра, предпочтительно повторное вычисление полинома в коэффициенты отражения, так как первый коэффициент отражения представляет крутизну спектра.
Кроме того, дельта-значения Δ могут адаптироваться как функция дисперсии входного сигнала Δ, усиления LTP g и первого коэффициента отражения r1, полученного из полинома предсказания. Например, адаптация может основываться на следующем уравнении:
Δ'=Δ(1+r1(1-g2))
Ниже описываются аспекты устройств квантования, основанные на модели, соответствующие варианту осуществления настоящего изобретения. На фиг.16 представлен один из аспектов устройства квантования, основанного на модели. Линии MDCT являются входным сигналом устройства квантования, использующего однородные скалярные устройства квантования. Кроме того, в устройство квантования вводятся случайные сдвиги, используемые как значения сдвига для интервалов квантования, сдвигающие границы интервалов. Предложенное устройство квантования обеспечивает преимущества векторного квантования, сохраняя способность скалярных устройств квантования к поиску. Устройство квантования выполняет итерации по ряду различных значений сдвига и вычисляет для них ошибку квантования. Значение сдвига (или вектор значения сдвига), минимизирующее искажение квантования для конкретных квантуемых линий MDCT, используется для квантования. Значение сдвига затем передается на декодер наряду с квантованными линиями MDCT. Использование случайных сдвигов вносит шумовое заполнение в деквантованный декодированный сигнал и тем самым позволяет избежать спектральных провалов в квантованном спектре. Это особенно важно для низких скоростей передачи данных, когда многочисленные линии MDCT иначе квантуются в нулевое значение, которое может приводить к слышимым провалам в спектре реконструированного сигнала.
На фиг.17 схематично показано устройство квантования линий MDCT, основанное на модели (MBMLQ), соответствующее варианту осуществления изобретения. В верхней части фиг.17 показан кодер 1700 MBMLQ. Кодер 1700 MBMLQ получает в качестве входного сигнала линии MDCT в кадре MDCT или линии MDCT остаточного LTP, если LTP присутствует в системе. MBMLQ использует статистические модели линий MDCT и исходные коды адаптируются к свойствам сигнала на покадровой основе MDCT, давая в результате эффективное сжатие битового потока.
Локальное усиление линий MDCT может определяться как среднеквадратичное значение линий MDCT и линий MDCT, нормализованных в модуле 1720 нормализации усиления перед вводом в кодер 1700 MBMLQ. Локальное усиление нормализует линии MDCT и является дополнением к нормализации усиления LP. Поскольку усиление LP адаптируется к изменениям уровня сигнала на большей временной шкале, локальное усиление адаптируется к изменениям на меньшей временной шкале, давая в результате улучшенное качество переходных звуков и начал в речи. Локальное усиление кодируется с фиксированной частотой или переменной частотой кодирования и передается на декодер.
Модуль 1710 управления частотой может использоваться для управления числом битов, используемых для кодирования кадра MDCT. Индекс управления частотой управляет числом используемых битов. Индекс управления частотой указывается в списке номинальных размеров шагов устройства квантования. Таблица может быть сортирована по размерам шага в порядке убывания (смотрите фиг.17g).
Кодер MBMLQ работает с набором различных индексов управления частотой и для кадра используется индекс управления частотой, дающий в результате число битов, меньшее, чем число битов, предоставленных управлением битовым накопителем. Индекс управления частотой медленно изменяется и это может использоваться для уменьшения сложности поиска и эффективного кодирования индекса. Набор индексов, который проверен, может быть уменьшен, если проверка начинается вблизи индекса предыдущего кадра MDCT. Аналогично, эффективное энтропийное кодирование индекса получается, если вероятности достигают максимума вокруг предыдущего значения индекса. Например, для списка из 32 размеров шага индекс управления частотой может быть кодирован, используя в среднем 2 бита на кадр MDCT.
На фиг.17 дополнительно схематично показан декодер 1750 MBMLQ, где кадр MDCT повторно нормализуется по усилению, если в кодере 1700 было определено локальное усиление.
На фиг.17а более подробно схематично показан кодер 1700 линий MDCT, основанный на модели, соответствующий варианту осуществления. Он содержит модуль 1730 предварительной обработки устройства квантования (смотрите фиг.17с), кодер 1740, основанный на модели, с ограничением энтропии (смотрите фиг.17е) и арифметический кодер 1720, который может быть арифметическим кодером, соответствующим предшествующему уровню техники. Задача модуля 1730 предварительной обработки устройства квантования состоит в том, чтобы адаптировать кодер MBMLQ к сигнальной статистике на покадровой основе MDCT. Он принимает в качестве входного сигнала другие параметры кодека и извлекает из них полезную статистику о сигнале, которая может использоваться для изменения кодера 1740, основанного на модели, с ограниченной энтропией. Кодер 1740, основанный на модели, с ограничением энтропии управляется, например, набором параметров управления: размер Δ шага устройства квантования, набор V оценок дисперсии строк MDCT (вектор; одно предполагаемое значение на линию MDCT), кривая перцепционного маскирования Pmod, матрица или таблица (случайных) сдвигов и статистическая модель строк MDCT, которые описывают форму распределения строк MDCT и их взаимозависимости. Все упомянутые выше параметры управления могут изменяться между кадрами MDCT.
На фиг.17b схематично показан декодер 1750 линий MDCT, основанный на модели, соответствующий варианту осуществления изобретения. В качестве входного сигнала он принимает побочные информационные биты из битового потока и декодирует их в параметры, являющиеся входными для модуля 1760 предварительной обработки устройства квантования (смотрите фиг.17с). Модуль 1760 предварительной обработки устройства квантования предпочтительно имеет те же самые функциональные возможности в кодере 1700, как в декодере 1750. Параметры, которые вводятся в модуль 1760 предварительной обработки устройства квантования, являются точно такими же как в кодере, так и в декодере. Модуль 1760 предварительной обработки устройства квантования имеет на выходе набор параметров управления (таких же, как в кодере 1700) и они являются входным сигналом модуля 1770 вычислений вероятности (смотрите фиг.17g; таким же, как в кодере, смотрите фиг.17е) и модуля 1780 деквантования (смотрите фиг.17h; то же самое в кодере, смотрите фиг.17е). Таблицы cdf из модуля 1770 вычислений вероятности, представляющие плотности распределения вероятности для всех линий MDCT при заданных дельта-параметрах, используемых для квантования, и дисперсии сигнала, являются входными данными на арифметический декодер (который может быть любым арифметическим кодером, известным специалистам в этой области техники), который затем декодирует биты линий MDCT в индексы линий MDCT. Индексы линий MDCT затем деквантуются в линии MDCT модулем 1780 деквантования.
На фиг.17с схематично показаны аспекты предварительной обработки устройства квантования в соответствии с вариантом осуществления изобретения, которая состоит из i) вычисления размера шага, ii) изменения кривой перцепционного маскирования, iii) определения дисперсии линий MDCT, iv) построения таблицы сдвигов.
Вычисление размера шага объясняется более подробно на фиг.17d. Оно содержит i) поиск таблицы, где индекс управления частотой указывает в таблице размеров шага те размеры, которые создают номинальный Δnom, ii) адаптацию к низкой энергии и iii) высокочастотную адаптацию.
Нормализация усиления обычно приводит к тому, что звуки с высокой энергией и звуки с низкой энергией кодируются с одним и тем же сегментным отношением "сигнал/шум" (SNR). Это может привести к чрезмерному числу битов, используемых для звуков с низкой энергией. Предложенная адаптация к низкой энергии позволяет получить точную настройку компромисса между звуками с низкой энергией и высокой энергией. Размер шага может быть увеличен, когда энергия сигнала становится низкой, как показано на фиг.17d-ii), где приводится пример кривой отношения между энергией сигнала (усиление g) и коэффициентом управления qLe. Усиление сигнала g может быть вычислено как среднеквадратичное значение самого входного сигнала или остаток LP. Кривая управления на фиг.17d-ii) является только одним примером и для увеличения размера шага для сигналов с низкой энергией могут использоваться и другие функции управления. В показанном на чертеже примере функция управления определяется пошаговыми линейными участками, которые определяются порогами T1 и T2 и коэффициентом размера шага L.
Высокочастотные звуки перцепционно менее важны, чем низкочастотные звуки. Функция высокочастотной адаптации увеличивает размер шага, когда кадр MDCT является высокочастотным, то есть, когда энергия сигнала в текущем кадре MDCT сконцентрирована на более высоких частотах, приводя в результате к меньшему числу битов, затраченных на такие кадры. Если LTP присутствует и если усиление LTP gLTP близко к 1, остаток LTP может становиться высокочастотным; в таком случае выгодно не увеличивать размер шага. Этот механизм показан на фиг.17d-iii), где r - первый коэффициент отражения, полученный из LPC. Предложенная высокочастотная адаптация может использовать следующее уравнение:
На фиг.17c-ii) схематично показана модификация кривой перцепционного маскирования, использующей подъем усиления на низкой частоте (LF), чтобы удалить "громоподобные" артефакты кодирования. Увеличение усиления на низких частотах может быть фиксированным или делаться адаптивным, так чтобы дополнительное усиление получала только часть ниже первого спектрального пика. Увеличение усиления на низких частотах может адаптироваться при использовании данных огибающей LPC.
На фиг.17c-iii) схематично показано определение дисперсии линий MDCT. При активном отбеливающем фильтре LPC все линии MDCT имеют единичную дисперсию (соответственно огибающей LPC). После перцепционного взвешивания в кодере 1740, основанном на модели, с ограниченной энтропией (смотрите фиг.17е) линии MDCT имеют дисперсии, являющиеся инверсией квадратичной кривой перцепционного маскирования или квадратичной модифицированной кривой маскирования Pmod. Если LTP присутствует, оно может уменьшить дисперсию линий MDCT. На фиг.17c-iii) изображен механизм, который адаптирует определенные дисперсии к LTP. На чертеже показана функция модификации qLTP по частоте f. Модифицированные дисперсии могут быть определены с помощью VLTPmod=V*qLTP. Значение LLTP может быть функцией усиления LTP, так чтобы LLTP был ближе к 0, если усиление LTP приблизительно равно 1 (указатель того, что LTP обнаружило хорошее соответствие), и LLTP ближе к 1, если усиление LTP приблизительно равно 0. Предложенная адаптация LTP для дисперсий V={v1, v2…, vj…, vN} влияет только на линии MDCT ниже определенной частоты (fLTPcutoff). В результате, дисперсии линий MDCT ниже частоты среза fLTPcutoff уменьшаются, причем уменьшение зависит от усиления LTP.
На фиг.17c-iv) схематично показана конструкция таблицы сдвигов. Номинальная таблица сдвигов является матрицей, заполненной псевдослучайными числами, распределенными между -0,5 и 0,5. Число столбцов в матрице равняется числу линий MDCT, которые кодируются с помощью MBMLQ. Число строк регулируется и равняется числу векторов сдвигов, которые проверяются при RD-оптимизации в кодере 1740, основанном на модели, с ограниченной энтропией (смотрите фиг.17е). Функция конструкции таблицы сдвигов масштабирует номинальную таблицу сдвигов с размером шага устройства квантования, так чтобы сдвиги были распределены между -Δ/2 и +Δ/2.
На фиг.17g схематично показан вариант осуществления таблицы сдвигов. Индекс сдвига является указателем в таблице и выбирает нужный вектор сдвига О={o1, o2…, on,…, oN}, где N - число линий MDCT в кадре MDCT.
Как описано ниже, сдвиги обеспечивают средство для шумового заполнения. Лучшее объективное и перцепционное качество получается, если разброс сдвигов ограничивается для линий MDCT, имеющих низкую дисперсию vj по сравнению с размером Δ шага устройства квантования. Пример такого ограничения описан на фиг.17c-iv), где k1 и k2 являются настраиваемыми параметрами. Распределение сдвигов может быть равномерным и может находиться между -s и +s. Границы s могут определяться в соответствии с выражением:
Для линий MDCT с низкой дисперсией (где vj мало по сравнению с Δ) может быть предпочтительным сделать распределение сдвигов неравномерным и зависимым от сигнала.
На фиг.17е более подробно схематично показан кодер 1740, основанный на модели, с ограничением энтропии 1740. Входные линии MDCT перцепционно взвешены посредством деления их на значения кривой перцепционного маскирования, предпочтительно полученной из полинома LPC, что приводит к взвешенным векторам линий MDCT y=(y1…, yN). Цель последующего кодирования состоит в том, чтобы ввести белый шум квантования в линии MDCT в перцепционной области. В декодере применена инверсия перцепционного взвешивания, которая приводит к шуму квантования, соответствующему кривой перцепционного маскирования.
Сначала описывается итерация по случайным сдвигам. В матрице сдвигов для каждой строки j в матрице сдвигов выполняются следующие операции: Каждая строка MDCT квантуется однородными скалярными устройствами квантования (USQ) сдвигов, в которых каждое устройство квантования сдвигается на свое собственное уникальное значение сдвига, взятое из вектора строки сдвигов.
Вероятность минимального интервала искажения от каждого USQ вычисляется в модуле 1770 вычисления вероятности (смотрите фиг.17g). Индексы USQ являются энтропийно кодированными. Стоимость, с точки зрения числа битов, требующихся для кодирования индексов, вычисляется соответственно фиг.17е, давая в результате длину кодового слова Rj. Граница перегрузки USQ j для линии MDCT может быть вычислена как , где k3 может выбираться, чтобы быть любым соответствующим числом, например 20. Границей перегрузки является граница, на которой ошибка квантования по величине больше, чем половина размера шага квантования.
Скалярное значение реконструкции для каждой линии MDCT вычисляется модулем 1780 деквантования (смотрите фиг.17h), давая в результате квантованный вектор y MDCT. В модуле 1790 оптимизации RD вычисляется искажение . может быть среднеквадратичной ошибкой (MSE) или другой перцепционно более подходящей мерой искажения, например, основанной на перцепционной функции взвешивания. В частности, может быть полезна мера искажения, которая взвешивает вместе MSE и рассогласование по энергии между y и y.
В модуле 1790 RD-оптимизации вычисляется стоимость С, предпочтительно основанная на искажении Dj и/или теоретической длине кодового слова Rj для каждой строки j в матрице сдвигов. Пример функции стоимости является С=10*log10(Dj)+λ*Rj/N. Сдвиг, который минимизирует С, выбирается и из кодера 1780, основанного на модели, с ограниченной энтропией выводятся соответствующие индексы USQ и вероятности.
RD-оптимизация может быть по желанию дополнительно улучшена, изменяя другие свойства устройства квантования вместе со сдвигом. Например, вместо использования одного и того же фиксированного V оценки дисперсии для каждого вектора сдвига, которая проверяется при RD-оптимизации, вектор V оценки дисперсии может быть переменным. Для вектора m строки сдвигов может затем использоваться оценка дисперсии km*V, где km может охватывать, например, диапазон от 0,5 до 1,5 по мере того, как m изменяется от m=1 до m = (число строк в матрице сдвигов). Это делает энтропийное кодирование и вычисление MMSE менее чувствительными к изменениям в статистике входного сигнала, которые не может зафиксировать статистическая модель. Это приводит к более низкой стоимости С в целом.
Деквантованные линии MDCT могут быть дополнительно улучшены при использовании устройства квантования остатка, как показано на фиг.17е. Устройство квантования остатка может быть, например, устройством квантования случайного вектора с фиксированной частотой.
Работа однородного скалярного устройства квантования (USQ) для квантования линии n MDCT схематично показана на фиг.17f, где показано значение n линии MDCT, находящееся в интервале минимальных искажений, имеющем индекс in. Отметки "х" указывают центр (средняя точка) интервалов квантования с размером шага Δ. Начало координат скалярного устройства квантования сдвинуто на величину сдвига on от вектора сдвига О={o1, o2,…, on…, oN}. Таким образом, границы интервала и средние точки сдвигаются на величину сдвига.
Использование сдвигов вносит в квантованный сигнал управляемое кодером шумовое заполнение и это позволяет избежать провалов в квантованном спектре. Дополнительно, сдвиги повышают эффективность кодирования, обеспечивая ряд альтернатив кодирования, которые заполняют пространство более эффективно, чем кубическая решетка. Кроме того, сдвиги обеспечивают изменение в таблицах вероятности, которые вычисляются модулем 1770 вычисления вероятности, ведущее к более эффективному энтропийному кодированию индексов линий MDCT (то есть требуется меньше битов).
Использование переменного размера шага Δ (дельта) позволяет иметь переменную точность при квантовании, так чтобы более высокая точность могла использоваться для перцепционно важных звуков, а меньшая точность могла использоваться для менее важных звуков.
На фиг.17g схематично показано вычисление вероятности в модуле 1770 вычисления вероятности. Входными сигналами этого модуля являются статистическая модель, применяемая для линий MDCT, размер шага Δ, вектор V дисперсии, индекс сдвига и таблица сдвигов. Выходом модуля 1770 вычисления вероятности являются таблицы cdf. Для каждой линии xj MDCT определяется статистическая модель (то есть функция плотности распределения вероятности pdf). Область под функцией pdf для интервала I является вероятностью pij интервала. Эта вероятность используется для арифметического кодирования линий MDCT.
На фиг.17h схематично показано, как выполняется процесс деквантования, например, в модуле 1780 деквантования. Центр масс (значение MMSE) xMMSE для минимального интервала искажения каждой линии MDCT вычисляется вместе со средней точкой хМР интервала. Полагая, что квантуется N-мерный вектор линий MDCT, скалярное значение MMSE является близким к оптимальному и, в целом, слишком низким. Это приводит к потере дисперсии и спектральному разбалансу в декодированном выходном сигнале. Эта проблема может быть смягчена декодированием с сохранением дисперсии, как описано на фиг.17h, где значение реконструкции вычисляется как взвешенная сумма значения MMSE и значения в средней точке. Дополнительное необязательное улучшение состоит в адаптации веса так, чтобы значение MMSE доминировало для речи, а средняя точка доминировала для неречевых звуков. Это дает в результате более чистую речь, при том что для неречевых звуков сохраняются спектральный баланс и энергия.
Декодирование с сохранением дисперсии в соответствии с вариантом осуществления изобретения достигается, определяя точку реконструкции в соответствии со следующим уравнением:
xdequant=(1-Δ)xMMSE+xMP
Адаптивное декодирование с сохранением дисперсии может быть основано на следующем правиле определения коэффициента интерполяции:
Адаптивный вес дополнительно может быть функцией, например, усиления gLTP при предсказании LTP: Δ=f(gLTP). Адаптивный вес медленно изменяется и может эффективно кодироваться рекурсивным энтропийным кодом.
Статистическая модель линий MDCT, используемая при вычислениях вероятности (фиг.17g) и при деквантовании (фиг.17h) должна отражать статистику реального сигнала. В одной версии статистическая модель предполагает, что линии MDCT независимы и имеют Лапласово распределение. Другая версия моделирует линии MDCT как независимые Гауссовы распределения. Одна версия моделирует линии MDCT как модели с Гауссовой смесью, содержащие взаимозависимости между линиями MDCT внутри и между кадрами MDCT. Другая версия адаптирует статистическую модель к текущей статистике сигнала. Адаптивные статистические модели могут адаптироваться вперед и/или назад.
Другой аспект изобретения, относящийся к модифицированным точкам реконструкции устройства квантования, схематично показан на фиг.19, где представлено инверсное устройство квантования, используемое в декодере варианта осуществления. Модуль имеет, помимо обычных входных сигналов инверсного устройства квантования, то есть квантованных линий и информации о размере шага квантования (типе квантования), также информацию о точке реконструкции устройства квантования. Инверсное устройство квантования этого варианта осуществления может использовать многочисленные типы точек реконструкции, когда реконструированное значение определяется из соответствующего индекса in квантования. Как упомянуто выше, значения реконструкции дополнительно используются, например, в кодере линий MDCT (смотрите фиг.17), чтобы определить остаток квантования для ввода в устройство квантования остатка. Дополнительно, реконструкция квантования выполняется в инверсном устройстве 304 квантования при реконструкции кодированного кадра MDCT для использования в буфере LTP (смотрите фиг.3) и, естественно, в декодере.
Инверсное устройство квантования может выбрать, например, среднюю точку интервала квантования в качестве точки реконструкции или точки реконструкции MMSE. В варианте осуществления настоящего изобретения точка реконструкции устройства квантования выбирается так, чтобы быть средним значением между центральной точкой и точкой реконструкции MMSE. В целом, точка реконструкции может быть интерполирована между средней точкой и точкой реконструкции MMSE, например, в зависимости от свойств сигнала, таких как периодичность сигнала. Информация о периодичности сигнала может быть получена, например, от модуля LTP. Этот признак позволяет системе управлять искажением и сохранением энергии. Центральная точка реконструкции гарантирует сохранение энергии, тогда как точка реконструкции MMSE гарантирует минимальное искажение. С учетом сигнала система может затем адаптировать точку реконструкции туда, где обеспечивается наилучший компромисс.
Настоящее изобретение дополнительно содержит новый формат кода последовательности окон. В соответствии с вариантом осуществления изобретения окна, используемые для преобразования MDCT, имеют диадические размеры и могут изменяться по размеру от окна к окну только с коэффициентом два. Диадическими размерами преобразования являются, например, выборки 64, 128…, 2048, соответствующие 4, 8…, 128 мс при частоте дискретизации 16 кГц. В целом, предлагаются окна с переменным размером, которые могут принимать многочисленные размеры окон между минимальным размером и максимальным размером окон. В последовательности размеры последовательных окон могут изменяться только с коэффициентом два, так чтобы формировались гладкие последовательности размеров окна без резких изменений. Последовательности окон, как они определяются вариантом осуществления, то есть ограниченные диадическими размерами и имеющие возможность изменяться по размеру от окна к окну только с коэффициентом два, имеют несколько преимуществ. Во-первых, не требуется никакое специальное стартовое или стоповое окно, то есть окна с резкими краями. Это способствует хорошей разрешающей способности по времени/частоте. Во-вторых, последовательность окон становится очень эффективной для кодирования, то есть, чтобы сигнализировать на декодер, какая конкретная последовательность окон используется. Наконец, последовательность окон всегда будет точно вписываться в структуру гиперкадра.
Структура гиперкадра полезна при работе кодера в реальной системе, где, для того чтобы иметь возможность запустить декодер, должны передаваться определенные параметры конфигурации декодера. Эти данные обычно запоминаются в поле заголовка в битовом потоке, описывающем кодированный аудиосигнал. Чтобы минимизировать скорость передачи данных, заголовок не передается для каждого кадра кодированных данных, особенно в системе, предложенной в соответствии с настоящим изобретением, где размеры кадра MDCT могут изменяться от очень короткого до очень длинного. Поэтому в соответствии с настоящим изобретением предложено группировать определенное количество кадров MDCT вместе в один гиперкадр, в котором данные заголовка передаются в начале гиперкадра. Гиперкадр обычно определяется как имеющий определенную продолжительность во времени. Поэтому необходимо позаботиться о том, чтобы изменения размеров кадров MDCT вписывались в постоянную длительность, заранее заданную длительность гиперкадра. Упомянутая выше соответствующая изобретению последовательность окон обеспечивает, что выбранная последовательность окон всегда вписывается в структуру гиперкадра.
В соответствии с вариантом осуществления настоящего изобретения задержка LTP и усиление LTP кодируются в виде переменной частоты. Это предпочтительно, поскольку из-за эффективности LTP для постоянных периодических сигналов задержка LTP имеет тенденцию быть одной и той же для отчасти длинных сегментов. Следовательно, это может быть использовано средством арифметического кодирования, приводя в результате к кодированию задержки LTP и усиления LTP с переменной частотой.
Аналогично, вариант осуществления настоящего изобретения использует преимущества битового накопителя и кодирования с переменной скоростью для кодирования параметров LP. Кроме того, настоящим изобретением представляется рекурсивное кодирование LP.
Другой аспект настоящего изобретения состоит в работе с битовым накопителем для переменных размеров кадра в кодере. На фиг.18 представлен блок 1800 управления битовым накопителем, соответствующий настоящему изобретению. В дополнение к мере сложности, предоставленной в качестве входного сигнала, блок управления битовым накопителем также принимает информацию о длительности текущего кадра. Примером меры сложности для использования в блоке управления битовым накопителем является перцепционная энтропия или логарифм энергетического спектра. Управление битовым накопителем важно в системе, где длительности кадров могут меняться согласно набору различных длительностей кадров. Предложенный блок 1800 управления битовым накопителем учитывает длительность кадра при вычислении числа предоставляемых битов для кадра, который должен кодироваться, как будет описано ниже.
Битовый накопитель определяется здесь как определенное фиксированное количество битов в буфере, которое должно быть больше, чем среднее число битов, которые разрешается использовать кадру для заданной скорости передачи данных. Если он имеет тот же самый размер, то никакое изменение в числе битов для кадра не может быть возможно. Управление битовым накопителем всегда проверяет уровень битового накопителя перед извлечением битов, которые будут предоставлены алгоритму кодирования в качестве разрешенного числа битов для фактического кадра. Таким образом, полный битовый накопитель означает, что число битов, доступных в битовом накопителе, равняется размеру битового накопителя. После кодирования кадра число использованных битов будет вычитаться из буфера и битовый накопитель будет обновляться добавлением некоторого числа битов, представляющих постоянную битовую частоту. Поэтому битовый накопитель пуст, если число битов в битовом накопителе перед кодированием кадра равно среднему числу битов на кадр.
На фиг.18а представлена базовая концепция управления битовым накопителем. Кодер обеспечивает средство вычисления того, насколько сложно кодировать фактический кадр по сравнению с предыдущим кадром. Для средней сложности 1,0 число предоставленных битов зависит от числа битов, доступных в битовом накопителе. В соответствии с заданной линией управления число, большее битов, чем число битов, соответствующее средней частоте передачи данных, будет изыматься из битового накопителя, если битовый накопитель будет совершенно полон. В случае пустого битового накопителя для кодирования кадра будет использоваться меньшее число битов по сравнению со средним числом битов кадра. Такое поведение приводит в результате к среднему уровню битового накопителя для более длинной последовательности кадров со средней сложностью. Для кадров с более высокой сложностью линия управления может быть смещена вверх, приводя к эффекту, при котором при сложном кодировании кадров разрешается использовать больше битов при том же самом уровне битового накопителя. Соответственно, для облегчения кодирования кадров число битов, разрешенных для кадра, должно быть уменьшено простым сдвигом вниз на линию управления на фиг.18а относительно случая средней сложности к случаю меньшей сложности. Возможны также другие модификации, помимо простого смещения линии управления. Например, как показано на фиг.18а, крутизна кривой управления может изменяться в зависимости от сложности кадров.
При вычислении числа предоставленных битов необходимо подчиняться пределам по нижней границе битового накопителя, чтобы не взять из буфера больше битов, чем разрешено. Схема управления битовым накопителем, содержащая вычисление предоставленных битов с помощью линии управления, как показано на фиг.18а, является только одним примером возможной меры уровня битового накопителя и сложности в соотношениях предоставленных битов. Другие алгоритмы управления будут также иметь, в целом, жесткие пределы на нижней границе уровня битового накопителя, которые не позволяют битовому накопителю нарушать ограничение по опустошению битового накопителя, а также пределы на верхней границе, где кодер будет принуждаться записывать заполняющие биты, если кодером будет расходоваться слишком малое число битов.
Для такого механизма управления, способного обрабатывать набор переменных размеров кадра, этот простой алгоритм управления должен быть адаптирован. Используемая мера сложности должна быть нормализована, так чтобы значения сложности различных размеров кадра были сопоставимы. Для каждого размера кадра будет существовать различный допустимый диапазон предоставляемых битов, поэтому среднее число битов на кадр различно для переменного размер кадра, следовательно, каждый размер кадра имеет свое собственное уравнение управления со своими собственными ограничениями. Один пример показан на фиг.18b. Важной модификацией случая с фиксированным размером кадра является пониженная допустимая граница алгоритма управления. Вместо среднего числа битов для фактического размера кадра, которое соответствует установленному случаю фиксированной скорости передачи данных, теперь среднее число битов для наибольшего допустимого размера кадра является наинизшим допустимым значением для уровня битового накопителя перед извлечением битов для фактического кадра. Это одно из основных отличий для управления битовым накопителем для кадров с фиксированными размерами. Это ограничение гарантирует, что следующий кадр с наибольшим возможным размером кадра сможет использовать, по меньшей мере, среднее число битов для этого размера кадра.
Мера сложности может основываться, например, на вычислении перцепционной энтропии (РЕ), которая получается из порогов маскирования психоакустической модели, как это делается в ААС, или, как альтернатива, из числа битов квантования с фиксированным размером шага, как это делается в части ECQ кодера в соответствии с вариантом осуществления настоящего изобретения. Эти значения могут быть нормализованы в отношении переменных размеров кадров, что может достигаться простым делением на длительность кадра и результатом будет соответствующее РЕ число битов на выборку. Другой этап нормализации может иметь место в отношении средней сложности. Для этой цели может использоваться скользящее среднее значение по прежним кадрам, приводящее в результате к значению сложности, большему, чем 1,0, для сложных кадров или меньшему, чем 1,0, для простых кадров. В случае кодера с двумя проходами или большого просмотра вперед значения сложности будущих кадров также могут быть учтены для этой нормализации меры сложности.
Другой аспект изобретения относится к специфическим особенностям работы с битовым накопителем для ECQ. Управление битовым накопителем для ECQ работает согласно предположению, что ECQ создает приблизительно постоянное качество, когда использует для кодирования постоянный размер шага устройства квантования. Постоянный размер шага устройства квантования создает переменную частоту и задача битового накопителя состоит в том, чтобы поддерживать как можно меньшим изменение в размере шага устройства квантования для различных кадров, не нарушая ограничения для буфера битового накопителя. В дополнение к частоте, созданной ECQ, на основе MDCT-кадра передается дополнительная информация (например, усиление и задержка LTP). Дополнительная информация, в целом, также энтропийно кодирована и таким образом использует различную частоту от кадра к кадру.
В варианте осуществления изобретения предложенное управление битовым накопителем пытается минимизировать изменение размера шага ECQ, вводя три переменные (смотрите фиг.18с):
- RECQ_AVG: средняя частота ECQ на выборку, использованная ранее;
- ΔECQ_AVG: средний размер шага устройства квантования, использованный ранее.
Обе эти переменные динамически обновляются, чтобы отражать последнюю статистику кодирования.
- RECQ_AVG_DES: частота ECQ, соответствующая средней общей скорости передачи данных.
Это значение будет отличаться от RECQ_ AVG в случае, если уровень битового накопителя изменился во время временного кадра окна усреднения, например, во время этого временного кадра использовалась скорость передачи данных, которая выше или ниже, чем указанная средняя скорость передачи данных. Оно также обновляется по мере того, как изменяется частота побочной информации, так чтобы общая частота равнялась указанной скорости передачи данных.
Управление битовым накопителем использует эти три значения, чтобы определить начальное предположение по дельте, которая должна использоваться для текущего кадра. Это делается путем нахождения ΔECG_AVG_DES на кривой RECQ_Δ, показанной на фиг.18с, которая соответствует RECQ_AVG_DES. На втором этапе это значение, возможно, изменяется, если частота не соответствует ограничениям битового накопителя. Пример кривой RECQ_Δ, показанной на фиг.18С, основан на следующем уравнении:
Конечно, могут также использоваться другие математические соотношения между RECQ и Δ.
В стационарном случае RECQ_AVG будет близко к RECQ_AVG_DES и изменение в Δ будет очень маленьким. В нестационарном случае операция усреднения гарантирует плавное изменение Δ.
Хотя вышесказанное было раскрыто в отношении конкретных вариантов осуществления настоящего изобретения, подразумевается, что концепция изобретения не ограничивается описанными вариантами осуществления. С другой стороны, раскрытие, представленное в настоящей заявке, даст возможность специалистам в этой области техники понять и выполнить изобретение. Специалистам в этой области техники должно быть понятно, что могут быть внесены различные изменения, не отступая от сущности и объема изобретения, исключительно как они изложены в сопроводительной формуле изобретения.
Claims (14)
1. Система аудиокодирования, содержащая:
блок (201) линейного предсказания (LP) для фильтрации аудиосигнала на основе фильтра LP, причем блок LP работает с длительностью первого кадра аудиосигнала;
блок (202) адаптивного преобразования длительности для преобразования кадра аудиосигнала в область преобразования, причем преобразование является модифицированным дискретным косинусным преобразованием (MDCT), работающим с переменной длительностью второго кадра;
блок (203) квантования для квантования сигнала в MDCT-области;
блок (1470) создания кривой усиления для создания кривых усиления в MDCT-области на основе величин откликов фильтра LP; и
блок (1500) преобразования для преобразования кривых усиления в MDCT-области в соответствующие кадры сигнала в MDCT-области.
блок (201) линейного предсказания (LP) для фильтрации аудиосигнала на основе фильтра LP, причем блок LP работает с длительностью первого кадра аудиосигнала;
блок (202) адаптивного преобразования длительности для преобразования кадра аудиосигнала в область преобразования, причем преобразование является модифицированным дискретным косинусным преобразованием (MDCT), работающим с переменной длительностью второго кадра;
блок (203) квантования для квантования сигнала в MDCT-области;
блок (1470) создания кривой усиления для создания кривых усиления в MDCT-области на основе величин откликов фильтра LP; и
блок (1500) преобразования для преобразования кривых усиления в MDCT-области в соответствующие кадры сигнала в MDCT-области.
2. Система аудиокодирования по п.1, содержащая:
блок управления последовательностью окон для определения для блока аудиосигнала длительностей второго кадра для перекрытия окон MDCT.
блок управления последовательностью окон для определения для блока аудиосигнала длительностей второго кадра для перекрытия окон MDCT.
3. Система аудиокодирования по п.1, содержащая блок перцептуального моделирования, изменяющий характеристику фильтра LP посредством линейной частотной модуляции и/или наклона полинома LPC, созданного блоком линейного предсказания для кадра LPC.
4. Система аудиокодирования по п.1, содержащая:
блок разделения частот для разделения аудиосигнала на низкочастотный компонент и высокочастотный компонент; и
высокочастотный кодер для кодирования высокочастотного компонента,
в которой низкочастотный компонент является входным сигналом для блока линейного предсказания и блока преобразования.
блок разделения частот для разделения аудиосигнала на низкочастотный компонент и высокочастотный компонент; и
высокочастотный кодер для кодирования высокочастотного компонента,
в которой низкочастотный компонент является входным сигналом для блока линейного предсказания и блока преобразования.
5. Система аудиокодирования по п.4, в которой блок разделения частот содержит блок квадратурных зеркальных фильтров и блок синтеза квадратурных зеркальных фильтров, выполненные с возможностью понижающей дискретизации аудиосигнала.
6. Система аудиокодирования по п.4 или 5, в которой граница между низкочастотной полосой и высокочастотной полосой может меняться, и блок разделения частот определяет частоту разделения, на основе свойств сигнала и/или требований к полосе пропускания кодера.
7. Система аудиокодирования по любому из пп.4 и 5, в которой высокочастотный кодер является кодером репликации спектральной полосы.
8. Система аудиокодирования по любому из пп.1-5, содержащая:
блок (1360) определения масштабных коэффициентов для определения масштабных коэффициентов, чтобы управлять шумом квантования блока (203) квантования.
блок (1360) определения масштабных коэффициентов для определения масштабных коэффициентов, чтобы управлять шумом квантования блока (203) квантования.
9. Система аудиокодирования по п.8, в которой масштабные коэффициенты определяются на основе преобразованных кривых усиления в MDCT-области.
10. Система аудиокодирования по любому из пп.1-5 или 9, содержащая параметрический стереоблок для вычисления параметрического стереопредставления левого и правого входных каналов.
11. Система аудиокодирования по любому из пп.1-5 или 9, в которой блок (1500) преобразования интерполирует кривые усиления в MDCT-области, созданные на скорости, соответствующей длительности первого кадра, так чтобы они соответствовали кадрам сигнала в MDCT-области, созданного на скорости, соответствующей длительности второго кадра.
12. Аудиодекодер, содержащий:
блок (211) деквантования для деквантования кадра входного битового потока и создания сигнала в области преобразования;
блок (212) инверсного MDCT-преобразования адаптивной длительности для инверсного преобразования сигнала в области преобразования, причем блок инверсного MDCT-преобразования работает с переменной длительностью кадров;
блок (1470) создания кривых усиления для создания кривых усиления в MDCT-области на основе величин откликов фильтров линейного предсказания, причем параметры для фильтров линейного предсказания принимаются в битовом потоке; и
блок (1500) преобразования для преобразования кривых усиления в MDCT-области в соответствующие кадры сигнала в MDCT-области.
блок (211) деквантования для деквантования кадра входного битового потока и создания сигнала в области преобразования;
блок (212) инверсного MDCT-преобразования адаптивной длительности для инверсного преобразования сигнала в области преобразования, причем блок инверсного MDCT-преобразования работает с переменной длительностью кадров;
блок (1470) создания кривых усиления для создания кривых усиления в MDCT-области на основе величин откликов фильтров линейного предсказания, причем параметры для фильтров линейного предсказания принимаются в битовом потоке; и
блок (1500) преобразования для преобразования кривых усиления в MDCT-области в соответствующие кадры сигнала в MDCT-области.
13. Способ аудиокодирования, содержащий этапы на которых:
выполняют анализ линейного предсказания (LP) для аудиосигнала, причем анализ LP работает с длительностью первого кадра и создает параметры фильтра LP;
преобразуют кадр аудиосигнала в область модифицированного дискретного косинусного преобразования (MDCT), причем MDCT работает с переменной длительностью второго кадра;
квантуют сигнал в MDCT-области;
создают кривые усиления в MDCT-области на основе величин отклика созданных фильтров LP; и
преобразуют кривые усиления в MDCT-области в соответствующие кадры сигнала в MDCT-области.
выполняют анализ линейного предсказания (LP) для аудиосигнала, причем анализ LP работает с длительностью первого кадра и создает параметры фильтра LP;
преобразуют кадр аудиосигнала в область модифицированного дискретного косинусного преобразования (MDCT), причем MDCT работает с переменной длительностью второго кадра;
квантуют сигнал в MDCT-области;
создают кривые усиления в MDCT-области на основе величин отклика созданных фильтров LP; и
преобразуют кривые усиления в MDCT-области в соответствующие кадры сигнала в MDCT-области.
14. Способ аудиодекодирования, содержащий этапы на которых:
деквантуют кадр входного битового потока и создают сигнал области преобразования;
выполняют инверсное MDCT-преобразование сигнала в области преобразования, причем инверсное MDCT-преобразование выполняется для кадра с переменной длительностью;
создают кривые усиления в MDCT-области на основе величин отклика фильтров линейного предсказания, причем параметры для фильтров линейного предсказания принимаются в битовом потоке; и
преобразуют кривые усиления в MDCT-области в соответствующие кадры сигнала в MDCT-области.
деквантуют кадр входного битового потока и создают сигнал области преобразования;
выполняют инверсное MDCT-преобразование сигнала в области преобразования, причем инверсное MDCT-преобразование выполняется для кадра с переменной длительностью;
создают кривые усиления в MDCT-области на основе величин отклика фильтров линейного предсказания, причем параметры для фильтров линейного предсказания принимаются в битовом потоке; и
преобразуют кривые усиления в MDCT-области в соответствующие кадры сигнала в MDCT-области.
Applications Claiming Priority (5)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
SE0800032 | 2008-01-04 | ||
SE0800032-5 | 2008-01-04 | ||
US61/055,978 | 2008-05-24 | ||
EP08009530A EP2077550B8 (en) | 2008-01-04 | 2008-05-24 | Audio encoder and decoder |
EP08009530.0 | 2008-05-24 |
Related Child Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
RU2012120850/08A Division RU2562375C2 (ru) | 2008-01-04 | 2008-12-30 | Аудиокодер и декодер |
Publications (2)
Publication Number | Publication Date |
---|---|
RU2010132643A RU2010132643A (ru) | 2012-02-10 |
RU2456682C2 true RU2456682C2 (ru) | 2012-07-20 |
Family
ID=39710955
Family Applications (3)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
RU2010132643/08A RU2456682C2 (ru) | 2008-01-04 | 2008-12-30 | Аудиокодер и декодер |
RU2012120850/08A RU2562375C2 (ru) | 2008-01-04 | 2008-12-30 | Аудиокодер и декодер |
RU2015118725A RU2696292C2 (ru) | 2008-01-04 | 2015-05-19 | Аудиокодер и декодер |
Family Applications After (2)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
RU2012120850/08A RU2562375C2 (ru) | 2008-01-04 | 2008-12-30 | Аудиокодер и декодер |
RU2015118725A RU2696292C2 (ru) | 2008-01-04 | 2015-05-19 | Аудиокодер и декодер |
Country Status (14)
Country | Link |
---|---|
US (4) | US8494863B2 (ru) |
EP (6) | EP2077550B8 (ru) |
JP (3) | JP5350393B2 (ru) |
KR (2) | KR101202163B1 (ru) |
CN (3) | CN101925950B (ru) |
AT (2) | ATE518224T1 (ru) |
AU (1) | AU2008346515B2 (ru) |
BR (1) | BRPI0822236B1 (ru) |
CA (4) | CA3076068C (ru) |
DE (1) | DE602008005250D1 (ru) |
ES (2) | ES2677900T3 (ru) |
MX (1) | MX2010007326A (ru) |
RU (3) | RU2456682C2 (ru) |
WO (2) | WO2009086918A1 (ru) |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
RU2612589C2 (ru) * | 2013-01-29 | 2017-03-09 | Фраунхофер-Гезелльшафт Цур Фердерунг Дер Ангевандтен Форшунг Е.Ф. | Низкочастотное акцентирование для основанного на lpc кодирования в частотной области |
RU2644078C1 (ru) * | 2014-06-26 | 2018-02-07 | Хуавэй Текнолоджиз Ко., Лтд. | Способ, устройство и система кодирования/декодирования |
RU2670384C2 (ru) * | 2014-03-07 | 2018-10-22 | Фраунхофер-Гезелльшафт Цур Фердерунг Дер Ангевандтен Форшунг Е.Ф. | Принцип кодирования информации |
RU2683487C1 (ru) * | 2015-06-16 | 2019-03-28 | Фраунхофер-Гезелльшафт Цур Фердерунг Дер Ангевандтен Форшунг Е.Ф. | Сокращенное декодирование |
RU2770747C1 (ru) * | 2018-12-28 | 2022-04-21 | Биго Текнолоджи Пте. Лтд. | Способ преобразования аудиосигнала, устройство и носитель данных |
US12142287B2 (en) | 2018-12-28 | 2024-11-12 | Bigo Technology Pte. Ltd. | Method for transforming audio signal, device, and storage medium |
Families Citing this family (163)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6934677B2 (en) * | 2001-12-14 | 2005-08-23 | Microsoft Corporation | Quantization matrices based on critical band pattern information for digital audio wherein quantization bands differ from critical bands |
US8326614B2 (en) * | 2005-09-02 | 2012-12-04 | Qnx Software Systems Limited | Speech enhancement system |
US7720677B2 (en) * | 2005-11-03 | 2010-05-18 | Coding Technologies Ab | Time warped modified transform coding of audio signals |
FR2912249A1 (fr) * | 2007-02-02 | 2008-08-08 | France Telecom | Codage/decodage perfectionnes de signaux audionumeriques. |
EP2077550B8 (en) * | 2008-01-04 | 2012-03-14 | Dolby International AB | Audio encoder and decoder |
WO2010005224A2 (en) * | 2008-07-07 | 2010-01-14 | Lg Electronics Inc. | A method and an apparatus for processing an audio signal |
WO2010003252A1 (en) | 2008-07-10 | 2010-01-14 | Voiceage Corporation | Device and method for quantizing and inverse quantizing lpc filters in a super-frame |
WO2010003545A1 (en) | 2008-07-11 | 2010-01-14 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e. V. | An apparatus and a method for decoding an encoded audio signal |
MY155538A (en) | 2008-07-11 | 2015-10-30 | Fraunhofer Ges Forschung | An apparatus and a method for generating bandwidth extension output data |
FR2938688A1 (fr) * | 2008-11-18 | 2010-05-21 | France Telecom | Codage avec mise en forme du bruit dans un codeur hierarchique |
BRPI1009467B1 (pt) | 2009-03-17 | 2020-08-18 | Dolby International Ab | Sistema codificador, sistema decodificador, método para codificar um sinal estéreo para um sinal de fluxo de bits e método para decodificar um sinal de fluxo de bits para um sinal estéreo |
EP2405425B1 (en) * | 2009-04-08 | 2014-07-23 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Apparatus, method and computer program for upmixing a downmix audio signal using a phase value smoothing |
CO6440537A2 (es) * | 2009-04-09 | 2012-05-15 | Fraunhofer Ges Forschung | Aparato y metodo para generar una señal de audio de sintesis y para codificar una señal de audio |
KR20100115215A (ko) * | 2009-04-17 | 2010-10-27 | 삼성전자주식회사 | 가변 비트율 오디오 부호화 및 복호화 장치 및 방법 |
US9245529B2 (en) * | 2009-06-18 | 2016-01-26 | Texas Instruments Incorporated | Adaptive encoding of a digital signal with one or more missing values |
JP5365363B2 (ja) * | 2009-06-23 | 2013-12-11 | ソニー株式会社 | 音響信号処理システム、音響信号復号装置、これらにおける処理方法およびプログラム |
KR20110001130A (ko) * | 2009-06-29 | 2011-01-06 | 삼성전자주식회사 | 가중 선형 예측 변환을 이용한 오디오 신호 부호화 및 복호화 장치 및 그 방법 |
JP5754899B2 (ja) | 2009-10-07 | 2015-07-29 | ソニー株式会社 | 復号装置および方法、並びにプログラム |
JP5678071B2 (ja) * | 2009-10-08 | 2015-02-25 | フラウンホッファー−ゲゼルシャフト ツァ フェルダールング デァ アンゲヴァンテン フォアシュンク エー.ファオ | 線形予測符号化ベースのノイズ整形を用いた多重モードオーディオ信号デコーダ、多重モードオーディオ信号エンコーダ、方法およびコンピュータプログラム |
EP2315358A1 (en) | 2009-10-09 | 2011-04-27 | Thomson Licensing | Method and device for arithmetic encoding or arithmetic decoding |
ES2531013T3 (es) * | 2009-10-20 | 2015-03-10 | Fraunhofer Ges Forschung | Codificador de audio, decodificador de audio, método para codificar información de audio, método para decodificar información de audio y programa de computación que usa la detección de un grupo de valores espectrales previamente decodificados |
US9117458B2 (en) | 2009-11-12 | 2015-08-25 | Lg Electronics Inc. | Apparatus for processing an audio signal and method thereof |
CN102081622B (zh) * | 2009-11-30 | 2013-01-02 | 中国移动通信集团贵州有限公司 | 评估系统健康度的方法及系统健康度评估装置 |
BR112012014856B1 (pt) * | 2009-12-16 | 2022-10-18 | Dolby International Ab | Método para fundir conjuntos de fonte de parâmetros de sbr a conjuntos-alvo de parâmetros de sbr, meio de armazenamento não transitório e unidade de fusão de parâmetros de sbr |
AU2011206675C1 (en) | 2010-01-12 | 2016-04-28 | Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. | Audio encoder, audio decoder, method for encoding an audio information, method for decoding an audio information and computer program using a hash table describing both significant state values and interval boundaries |
JP5609737B2 (ja) | 2010-04-13 | 2014-10-22 | ソニー株式会社 | 信号処理装置および方法、符号化装置および方法、復号装置および方法、並びにプログラム |
JP5850216B2 (ja) | 2010-04-13 | 2016-02-03 | ソニー株式会社 | 信号処理装置および方法、符号化装置および方法、復号装置および方法、並びにプログラム |
US8886523B2 (en) | 2010-04-14 | 2014-11-11 | Huawei Technologies Co., Ltd. | Audio decoding based on audio class with control code for post-processing modes |
US9508356B2 (en) * | 2010-04-19 | 2016-11-29 | Panasonic Intellectual Property Corporation Of America | Encoding device, decoding device, encoding method and decoding method |
US9047875B2 (en) * | 2010-07-19 | 2015-06-02 | Futurewei Technologies, Inc. | Spectrum flatness control for bandwidth extension |
US12002476B2 (en) | 2010-07-19 | 2024-06-04 | Dolby International Ab | Processing of audio signals during high frequency reconstruction |
SG10202107800UA (en) | 2010-07-19 | 2021-09-29 | Dolby Int Ab | Processing of audio signals during high frequency reconstruction |
CA2806000C (en) * | 2010-07-20 | 2016-07-05 | Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. | Audio encoder, audio decoder, method for encoding an audio information, method for decoding an audio information and computer program using an optimized hash table |
JP6075743B2 (ja) * | 2010-08-03 | 2017-02-08 | ソニー株式会社 | 信号処理装置および方法、並びにプログラム |
US8762158B2 (en) * | 2010-08-06 | 2014-06-24 | Samsung Electronics Co., Ltd. | Decoding method and decoding apparatus therefor |
ES2526320T3 (es) * | 2010-08-24 | 2015-01-09 | Dolby International Ab | Ocultamiento de la recepción mono intermitente de receptores de radio estéreo de FM |
WO2012037515A1 (en) | 2010-09-17 | 2012-03-22 | Xiph. Org. | Methods and systems for adaptive time-frequency resolution in digital data coding |
JP5707842B2 (ja) | 2010-10-15 | 2015-04-30 | ソニー株式会社 | 符号化装置および方法、復号装置および方法、並びにプログラム |
TR201815402T4 (tr) * | 2010-10-25 | 2018-11-21 | Voiceage Corp | Düşük bit hızları ve düşük gecikmede genel audio sinyallerinin kodlanması. |
CN102479514B (zh) * | 2010-11-29 | 2014-02-19 | 华为终端有限公司 | 一种编码方法、解码方法、装置和系统 |
US8325073B2 (en) * | 2010-11-30 | 2012-12-04 | Qualcomm Incorporated | Performing enhanced sigma-delta modulation |
FR2969804A1 (fr) * | 2010-12-23 | 2012-06-29 | France Telecom | Filtrage perfectionne dans le domaine transforme. |
US8849053B2 (en) * | 2011-01-14 | 2014-09-30 | Sony Corporation | Parametric loop filter |
CN103380455B (zh) * | 2011-02-09 | 2015-06-10 | 瑞典爱立信有限公司 | 对音频信号的高效编码/解码 |
US8838442B2 (en) | 2011-03-07 | 2014-09-16 | Xiph.org Foundation | Method and system for two-step spreading for tonal artifact avoidance in audio coding |
US9015042B2 (en) * | 2011-03-07 | 2015-04-21 | Xiph.org Foundation | Methods and systems for avoiding partial collapse in multi-block audio coding |
US9009036B2 (en) | 2011-03-07 | 2015-04-14 | Xiph.org Foundation | Methods and systems for bit allocation and partitioning in gain-shape vector quantization for audio coding |
WO2012144128A1 (ja) | 2011-04-20 | 2012-10-26 | パナソニック株式会社 | 音声音響符号化装置、音声音響復号装置、およびこれらの方法 |
CN102186083A (zh) * | 2011-05-12 | 2011-09-14 | 北京数码视讯科技股份有限公司 | 量化处理方法及装置 |
RU2648595C2 (ru) | 2011-05-13 | 2018-03-26 | Самсунг Электроникс Ко., Лтд. | Распределение битов, кодирование и декодирование аудио |
EP2710588B1 (en) * | 2011-05-19 | 2015-09-09 | Dolby Laboratories Licensing Corporation | Forensic detection of parametric audio coding schemes |
RU2464649C1 (ru) | 2011-06-01 | 2012-10-20 | Корпорация "САМСУНГ ЭЛЕКТРОНИКС Ко., Лтд." | Способ обработки звукового сигнала |
CN107347161B (zh) * | 2011-06-16 | 2020-06-12 | Ge视频压缩有限责任公司 | 解码器、编码器、解码和编码视频的方法及存储介质 |
US9546924B2 (en) * | 2011-06-30 | 2017-01-17 | Telefonaktiebolaget Lm Ericsson (Publ) | Transform audio codec and methods for encoding and decoding a time segment of an audio signal |
CN102436819B (zh) * | 2011-10-25 | 2013-02-13 | 杭州微纳科技有限公司 | 无线音频压缩、解压缩方法及音频编码器和音频解码器 |
JP5789816B2 (ja) * | 2012-02-28 | 2015-10-07 | 日本電信電話株式会社 | 符号化装置、この方法、プログラム及び記録媒体 |
KR101311527B1 (ko) * | 2012-02-28 | 2013-09-25 | 전자부품연구원 | 영상처리장치 및 영상처리방법 |
WO2013129528A1 (ja) * | 2012-02-28 | 2013-09-06 | 日本電信電話株式会社 | 符号化装置、この方法、プログラムおよび記録媒体 |
WO2013142650A1 (en) | 2012-03-23 | 2013-09-26 | Dolby International Ab | Enabling sampling rate diversity in a voice communication system |
EP3220390B1 (en) * | 2012-03-29 | 2018-09-26 | Telefonaktiebolaget LM Ericsson (publ) | Transform encoding/decoding of harmonic audio signals |
EP2665208A1 (en) * | 2012-05-14 | 2013-11-20 | Thomson Licensing | Method and apparatus for compressing and decompressing a Higher Order Ambisonics signal representation |
CN104509130B (zh) | 2012-05-29 | 2017-03-29 | 诺基亚技术有限公司 | 立体声音频信号编码器 |
KR20150032614A (ko) * | 2012-06-04 | 2015-03-27 | 삼성전자주식회사 | 오디오 부호화방법 및 장치, 오디오 복호화방법 및 장치, 및 이를 채용하는 멀티미디어 기기 |
KR101866806B1 (ko) * | 2012-06-28 | 2018-06-18 | 프라운호퍼 게젤샤프트 쭈르 푀르데룽 데어 안겐반텐 포르슝 에. 베. | 개선된 확률 분포 추정을 이용한 선형 예측 기반 오디오 코딩 |
CN103765508B (zh) | 2012-07-02 | 2017-11-24 | 索尼公司 | 解码装置、解码方法、编码装置和编码方法 |
JP6331094B2 (ja) * | 2012-07-02 | 2018-05-30 | ソニー株式会社 | 復号装置および方法、符号化装置および方法、並びにプログラム |
CN104769669B (zh) | 2012-08-10 | 2020-09-29 | 弗劳恩霍夫应用研究促进协会 | 对参数音频对象编码运用残差概念的编码器、解码器、系统及方法 |
US9406307B2 (en) * | 2012-08-19 | 2016-08-02 | The Regents Of The University Of California | Method and apparatus for polyphonic audio signal prediction in coding and networking systems |
US9830920B2 (en) | 2012-08-19 | 2017-11-28 | The Regents Of The University Of California | Method and apparatus for polyphonic audio signal prediction in coding and networking systems |
CN104781877A (zh) * | 2012-10-31 | 2015-07-15 | 株式会社索思未来 | 音频信号编码装置以及音频信号解码装置 |
ES2613747T3 (es) | 2013-01-08 | 2017-05-25 | Dolby International Ab | Predicción basada en modelo en un banco de filtros críticamente muestreado |
US9336791B2 (en) * | 2013-01-24 | 2016-05-10 | Google Inc. | Rearrangement and rate allocation for compressing multichannel audio |
CN110047499B (zh) | 2013-01-29 | 2023-08-29 | 弗劳恩霍夫应用研究促进协会 | 低复杂度音调自适应音频信号量化 |
PL3121813T3 (pl) * | 2013-01-29 | 2020-08-10 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Wypełnianie szumem bez informacji pomocniczych dla koderów typu celp |
CN105103229B (zh) * | 2013-01-29 | 2019-07-23 | 弗劳恩霍夫应用研究促进协会 | 用于产生频率增强音频信号的译码器、译码方法、用于产生编码信号的编码器以及使用紧密选择边信息的编码方法 |
KR101926651B1 (ko) * | 2013-01-29 | 2019-03-07 | 프라운호퍼 게젤샤프트 쭈르 푀르데룽 데어 안겐반텐 포르슝 에.베. | 노이즈 채움 개념 |
US9842598B2 (en) * | 2013-02-21 | 2017-12-12 | Qualcomm Incorporated | Systems and methods for mitigating potential frame instability |
US9530430B2 (en) * | 2013-02-22 | 2016-12-27 | Mitsubishi Electric Corporation | Voice emphasis device |
JP6089878B2 (ja) | 2013-03-28 | 2017-03-08 | 富士通株式会社 | 直交変換装置、直交変換方法及び直交変換用コンピュータプログラムならびにオーディオ復号装置 |
MX342965B (es) * | 2013-04-05 | 2016-10-19 | Dolby Laboratories Licensing Corp | Sistema y método de compansión para reducir el ruido de cuantificación usando extensión espectral avanzada. |
US9478224B2 (en) | 2013-04-05 | 2016-10-25 | Dolby International Ab | Audio processing system |
BR122020017853B1 (pt) | 2013-04-05 | 2023-03-14 | Dolby International Ab | Sistema e aparelho para codificar um sinal de voz em um fluxo de bits, e método e aparelho para decodificar sinal de áudio |
KR20230020553A (ko) * | 2013-04-05 | 2023-02-10 | 돌비 인터네셔널 에이비 | 스테레오 오디오 인코더 및 디코더 |
EP3217398B1 (en) * | 2013-04-05 | 2019-08-14 | Dolby International AB | Advanced quantizer |
TWI557727B (zh) | 2013-04-05 | 2016-11-11 | 杜比國際公司 | 音訊處理系統、多媒體處理系統、處理音訊位元流的方法以及電腦程式產品 |
CN104103276B (zh) * | 2013-04-12 | 2017-04-12 | 北京天籁传音数字技术有限公司 | 一种声音编解码装置及其方法 |
US20140328406A1 (en) * | 2013-05-01 | 2014-11-06 | Raymond John Westwater | Method and Apparatus to Perform Optimal Visually-Weighed Quantization of Time-Varying Visual Sequences in Transform Space |
EP2830058A1 (en) | 2013-07-22 | 2015-01-28 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Frequency-domain audio coding supporting transform length switching |
EP2830064A1 (en) | 2013-07-22 | 2015-01-28 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Apparatus and method for decoding and encoding an audio signal using adaptive spectral tile selection |
WO2015031505A1 (en) | 2013-08-28 | 2015-03-05 | Dolby Laboratories Licensing Corporation | Hybrid waveform-coded and parametric-coded speech enhancement |
WO2015034115A1 (ko) * | 2013-09-05 | 2015-03-12 | 삼성전자 주식회사 | 오디오 신호의 부호화, 복호화 방법 및 장치 |
TWI579831B (zh) * | 2013-09-12 | 2017-04-21 | 杜比國際公司 | 用於參數量化的方法、用於量化的參數之解量化方法及其電腦可讀取的媒體、音頻編碼器、音頻解碼器及音頻系統 |
WO2015041070A1 (ja) | 2013-09-19 | 2015-03-26 | ソニー株式会社 | 符号化装置および方法、復号化装置および方法、並びにプログラム |
FR3011408A1 (fr) * | 2013-09-30 | 2015-04-03 | Orange | Re-echantillonnage d'un signal audio pour un codage/decodage a bas retard |
PL3226242T3 (pl) | 2013-10-18 | 2019-06-28 | Telefonaktiebolaget Lm Ericsson (Publ) | Kodowanie pozycji pików spektralnych |
CA2928882C (en) * | 2013-11-13 | 2018-08-14 | Fraunhofer-Gesellschaft Zur Forderung Der Angewandten Forschung E.V. | Encoder for encoding an audio signal, audio transmission system and method for determining correction values |
FR3013496A1 (fr) * | 2013-11-15 | 2015-05-22 | Orange | Transition d'un codage/decodage par transformee vers un codage/decodage predictif |
KR102251833B1 (ko) | 2013-12-16 | 2021-05-13 | 삼성전자주식회사 | 오디오 신호의 부호화, 복호화 방법 및 장치 |
JP6593173B2 (ja) | 2013-12-27 | 2019-10-23 | ソニー株式会社 | 復号化装置および方法、並びにプログラム |
FR3017484A1 (fr) * | 2014-02-07 | 2015-08-14 | Orange | Extension amelioree de bande de frequence dans un decodeur de signaux audiofrequences |
CN110176241B (zh) * | 2014-02-17 | 2023-10-31 | 三星电子株式会社 | 信号编码方法和设备以及信号解码方法和设备 |
CN103761969B (zh) * | 2014-02-20 | 2016-09-14 | 武汉大学 | 基于高斯混合模型的感知域音频编码方法及系统 |
JP6289936B2 (ja) * | 2014-02-26 | 2018-03-07 | 株式会社東芝 | 音源方向推定装置、音源方向推定方法およびプログラム |
JPWO2015129165A1 (ja) * | 2014-02-28 | 2017-03-30 | パナソニック インテレクチュアル プロパティ コーポレーション オブ アメリカPanasonic Intellectual Property Corporation of America | 復号装置、符号化装置、復号方法、符合化方法、端末装置、および基地局装置 |
EP3413306B1 (en) * | 2014-03-24 | 2019-10-30 | Nippon Telegraph and Telephone Corporation | Encoding method, encoder, program and recording medium |
JP6270992B2 (ja) * | 2014-04-24 | 2018-01-31 | 日本電信電話株式会社 | 周波数領域パラメータ列生成方法、周波数領域パラメータ列生成装置、プログラム及び記録媒体 |
ES2878061T3 (es) * | 2014-05-01 | 2021-11-18 | Nippon Telegraph & Telephone | Dispositivo de generación de secuencia envolvente combinada periódica, método de generación de secuencia envolvente combinada periódica, programa de generación de secuencia envolvente combinada periódica y soporte de registro |
GB2526128A (en) * | 2014-05-15 | 2015-11-18 | Nokia Technologies Oy | Audio codec mode selector |
KR20240050436A (ko) * | 2014-06-27 | 2024-04-18 | 돌비 인터네셔널 에이비 | Hoa 데이터 프레임 표현의 압축을 위해 비차분 이득 값들을 표현하는 데 필요하게 되는 비트들의 최저 정수 개수를 결정하는 장치 |
CN104077505A (zh) * | 2014-07-16 | 2014-10-01 | 苏州博联科技有限公司 | 一种提高16Kbps码率音频数据压缩编码音质方法 |
WO2016013164A1 (ja) | 2014-07-25 | 2016-01-28 | パナソニック インテレクチュアル プロパティ コーポレーション オブ アメリカ | 音響信号符号化装置、音響信号復号装置、音響信号符号化方法および音響信号復号方法 |
SG11201509526SA (en) * | 2014-07-28 | 2017-04-27 | Fraunhofer Ges Forschung | Apparatus and method for selecting one of a first encoding algorithm and a second encoding algorithm using harmonics reduction |
CN112992163B (zh) * | 2014-07-28 | 2024-09-13 | 日本电信电话株式会社 | 编码方法、装置以及记录介质 |
EP2980798A1 (en) * | 2014-07-28 | 2016-02-03 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Harmonicity-dependent controlling of a harmonic filter tool |
EP2980801A1 (en) * | 2014-07-28 | 2016-02-03 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Method for estimating noise in an audio signal, noise estimator, audio encoder, audio decoder, and system for transmitting audio signals |
EP2980799A1 (en) * | 2014-07-28 | 2016-02-03 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Apparatus and method for processing an audio signal using a harmonic post-filter |
FR3024581A1 (fr) * | 2014-07-29 | 2016-02-05 | Orange | Determination d'un budget de codage d'une trame de transition lpd/fd |
CN104269173B (zh) * | 2014-09-30 | 2018-03-13 | 武汉大学深圳研究院 | 切换模式的音频带宽扩展装置与方法 |
KR102128330B1 (ko) | 2014-11-24 | 2020-06-30 | 삼성전자주식회사 | 신호 처리 장치, 신호 복원 장치, 신호 처리 방법, 및 신호 복원 방법 |
US9659578B2 (en) * | 2014-11-27 | 2017-05-23 | Tata Consultancy Services Ltd. | Computer implemented system and method for identifying significant speech frames within speech signals |
EP3067887A1 (en) | 2015-03-09 | 2016-09-14 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Audio encoder for encoding a multichannel signal and audio decoder for decoding an encoded audio signal |
WO2016142002A1 (en) | 2015-03-09 | 2016-09-15 | Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. | Audio encoder, audio decoder, method for encoding an audio signal and method for decoding an encoded audio signal |
TWI771266B (zh) * | 2015-03-13 | 2022-07-11 | 瑞典商杜比國際公司 | 解碼具有增強頻譜帶複製元資料在至少一填充元素中的音訊位元流 |
WO2016162283A1 (en) * | 2015-04-07 | 2016-10-13 | Dolby International Ab | Audio coding with range extension |
EP3079151A1 (en) * | 2015-04-09 | 2016-10-12 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Audio encoder and method for encoding an audio signal |
EP3270376B1 (en) * | 2015-04-13 | 2020-03-18 | Nippon Telegraph and Telephone Corporation | Sound signal linear predictive coding |
US10134412B2 (en) * | 2015-09-03 | 2018-11-20 | Shure Acquisition Holdings, Inc. | Multiresolution coding and modulation system |
US10573324B2 (en) | 2016-02-24 | 2020-02-25 | Dolby International Ab | Method and system for bit reservoir control in case of varying metadata |
FR3049084B1 (fr) * | 2016-03-15 | 2022-11-11 | Fraunhofer Ges Forschung | Dispositif de codage pour le traitement d'un signal d'entree et dispositif de decodage pour le traitement d'un signal code |
EP3438976A4 (en) * | 2016-03-31 | 2019-04-24 | Sony Corporation | INFORMATION PROCESSING DEVICE AND METHOD |
KR20190011742A (ko) * | 2016-05-10 | 2019-02-07 | 이멀젼 서비시즈 엘엘씨 | 적응형 오디오 코덱 시스템, 방법, 장치 및 매체 |
US10742231B2 (en) * | 2016-05-24 | 2020-08-11 | Sony Corporation | Compression/encoding apparatus and method, decoding apparatus and method, and program |
WO2017220528A1 (en) * | 2016-06-22 | 2017-12-28 | Dolby International Ab | Audio decoder and method for transforming a digital audio signal from a first to a second frequency domain |
WO2018049279A1 (en) | 2016-09-09 | 2018-03-15 | Dts, Inc. | System and method for long-term prediction in audio codecs |
US10217468B2 (en) * | 2017-01-19 | 2019-02-26 | Qualcomm Incorporated | Coding of multiple audio signals |
US10573326B2 (en) * | 2017-04-05 | 2020-02-25 | Qualcomm Incorporated | Inter-channel bandwidth extension |
US10734001B2 (en) * | 2017-10-05 | 2020-08-04 | Qualcomm Incorporated | Encoding or decoding of audio signals |
WO2019091573A1 (en) * | 2017-11-10 | 2019-05-16 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Apparatus and method for encoding and decoding an audio signal using downsampling or interpolation of scale parameters |
EP3483879A1 (en) | 2017-11-10 | 2019-05-15 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Analysis/synthesis windowing function for modulated lapped transformation |
KR102599743B1 (ko) * | 2017-11-17 | 2023-11-08 | 프라운호퍼-게젤샤프트 추르 푀르데룽 데어 안제반텐 포르슝 에 파우 | 양자화 및 엔트로피 코딩을 이용한 방향성 오디오 코딩 파라미터들을 인코딩 또는 디코딩하기 위한 장치 및 방법 |
FR3075540A1 (fr) * | 2017-12-15 | 2019-06-21 | Orange | Procedes et dispositifs de codage et de decodage d'une sequence video multi-vues representative d'une video omnidirectionnelle. |
WO2019121982A1 (en) * | 2017-12-19 | 2019-06-27 | Dolby International Ab | Methods and apparatus for unified speech and audio decoding qmf based harmonic transposer improvements |
US10565973B2 (en) * | 2018-06-06 | 2020-02-18 | Home Box Office, Inc. | Audio waveform display using mapping function |
EP3813064A4 (en) * | 2018-06-21 | 2021-06-23 | Sony Corporation | CODERS AND CODING METHODS, DECODERS AND DECODING METHODS AND PROGRAM |
CA3105508C (en) * | 2018-07-04 | 2024-03-26 | Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. | Multisignal audio coding using signal whitening as preprocessing |
CN109215670B (zh) * | 2018-09-21 | 2021-01-29 | 西安蜂语信息科技有限公司 | 音频数据的传输方法、装置、计算机设备和存储介质 |
JP7167335B2 (ja) * | 2018-10-29 | 2022-11-08 | ドルビー・インターナショナル・アーベー | 生成モデルを用いたレート品質スケーラブル符号化のための方法及び装置 |
US10645386B1 (en) | 2019-01-03 | 2020-05-05 | Sony Corporation | Embedded codec circuitry for multiple reconstruction points based quantization |
AU2020205729A1 (en) * | 2019-01-13 | 2021-08-05 | Huawei Technologies Co., Ltd. | High resolution audio coding |
WO2020171049A1 (ja) * | 2019-02-19 | 2020-08-27 | 公立大学法人秋田県立大学 | 音響信号符号化方法、音響信号復号化方法、プログラム、符号化装置、音響システム、及び復号化装置 |
WO2020253941A1 (en) * | 2019-06-17 | 2020-12-24 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Audio encoder with a signal-dependent number and precision control, audio decoder, and related methods and computer programs |
CN110428841B (zh) * | 2019-07-16 | 2021-09-28 | 河海大学 | 一种基于不定长均值的声纹动态特征提取方法 |
US11380343B2 (en) * | 2019-09-12 | 2022-07-05 | Immersion Networks, Inc. | Systems and methods for processing high frequency audio signal |
MX2022006398A (es) * | 2019-11-27 | 2022-08-17 | Fraunhofer Ges Forschung | Codificador, decodificador, metodo de codificacion y metodo de decodificacion para la prediccion a largo plazo en el dominio de la frecuencia de se?ales tonales para la codificacion de audio. |
CN113129913B (zh) * | 2019-12-31 | 2024-05-03 | 华为技术有限公司 | 音频信号的编解码方法和编解码装置 |
CN113129910B (zh) * | 2019-12-31 | 2024-07-30 | 华为技术有限公司 | 音频信号的编解码方法和编解码装置 |
CN112002338B (zh) * | 2020-09-01 | 2024-06-21 | 北京百瑞互联技术股份有限公司 | 一种优化音频编码量化次数的方法及系统 |
CN112289327B (zh) * | 2020-10-29 | 2024-06-14 | 北京百瑞互联技术股份有限公司 | 一种lc3音频编码器后置残差优化方法、装置和介质 |
CN112599139B (zh) | 2020-12-24 | 2023-11-24 | 维沃移动通信有限公司 | 编码方法、装置、电子设备及存储介质 |
CN115472171A (zh) * | 2021-06-11 | 2022-12-13 | 华为技术有限公司 | 编解码方法、装置、设备、存储介质及计算机程序 |
CN113436607B (zh) * | 2021-06-12 | 2024-04-09 | 西安工业大学 | 一种快速语音克隆方法 |
CN114189410B (zh) * | 2021-12-13 | 2024-05-17 | 深圳市日声数码科技有限公司 | 一种车载数码广播音频接收系统 |
CN115604614B (zh) * | 2022-12-15 | 2023-03-31 | 成都海普迪科技有限公司 | 采用吊装麦克风进行本地扩声和远程互动的系统和方法 |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP0673014A2 (en) * | 1994-03-17 | 1995-09-20 | Nippon Telegraph And Telephone Corporation | Acoustic signal transform coding method and decoding method |
US6012025A (en) * | 1998-01-28 | 2000-01-04 | Nokia Mobile Phones Limited | Audio coding method and apparatus using backward adaptive prediction |
RU2144261C1 (ru) * | 1993-10-11 | 2000-01-10 | Филипс Электроникс Н.В. | Передающая система на принципах различного кодирования |
RU98103512A (ru) * | 1995-08-01 | 2000-01-27 | Квэлкомм Инкорпорейтед (US) | Способ и устройство для получения и кодирования линейных спектральных квадратных корней |
KR20020077959A (ko) * | 2001-04-03 | 2002-10-18 | 엘지전자 주식회사 | 디지탈 오디오 부호화기 및 복호화 방법 |
EP1262956A2 (en) * | 1995-10-26 | 2002-12-04 | Sony Corporation | Signal encoding method and apparatus |
EP1278184A2 (en) * | 2001-06-26 | 2003-01-22 | Microsoft Corporation | Method for coding speech and music signals |
JP2004246038A (ja) * | 2003-02-13 | 2004-09-02 | Nippon Telegr & Teleph Corp <Ntt> | 音声楽音信号符号化方法、復号化方法、符号化装置、復号化装置、符号化プログラム、および復号化プログラム |
Family Cites Families (54)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPS5936280B2 (ja) * | 1982-11-22 | 1984-09-03 | 日本電信電話株式会社 | 音声の適応変換符号化方式 |
JP2523286B2 (ja) * | 1986-08-01 | 1996-08-07 | 日本電信電話株式会社 | 音声符号化及び復号化方法 |
SE469764B (sv) | 1992-01-27 | 1993-09-06 | Ericsson Telefon Ab L M | Saett att koda en samplad talsignalvektor |
CA2121667A1 (en) * | 1994-04-19 | 1995-10-20 | Jean-Pierre Adoul | Differential-transform-coded excitation for speech and audio coding |
FR2729245B1 (fr) | 1995-01-06 | 1997-04-11 | Lamblin Claude | Procede de codage de parole a prediction lineaire et excitation par codes algebriques |
EP0764939B1 (en) * | 1995-09-19 | 2002-05-02 | AT&T Corp. | Synthesis of speech signals in the absence of coded parameters |
US5790759A (en) * | 1995-09-19 | 1998-08-04 | Lucent Technologies Inc. | Perceptual noise masking measure based on synthesis filter frequency response |
JPH09127998A (ja) | 1995-10-26 | 1997-05-16 | Sony Corp | 信号量子化方法及び信号符号化装置 |
JP3246715B2 (ja) * | 1996-07-01 | 2002-01-15 | 松下電器産業株式会社 | オーディオ信号圧縮方法,およびオーディオ信号圧縮装置 |
JP3707153B2 (ja) | 1996-09-24 | 2005-10-19 | ソニー株式会社 | ベクトル量子化方法、音声符号化方法及び装置 |
FI114248B (fi) * | 1997-03-14 | 2004-09-15 | Nokia Corp | Menetelmä ja laite audiokoodaukseen ja audiodekoodaukseen |
JP3684751B2 (ja) * | 1997-03-28 | 2005-08-17 | ソニー株式会社 | 信号符号化方法及び装置 |
IL120788A (en) | 1997-05-06 | 2000-07-16 | Audiocodes Ltd | Systems and methods for encoding and decoding speech for lossy transmission networks |
SE512719C2 (sv) * | 1997-06-10 | 2000-05-02 | Lars Gustaf Liljeryd | En metod och anordning för reduktion av dataflöde baserad på harmonisk bandbreddsexpansion |
JP3263347B2 (ja) * | 1997-09-20 | 2002-03-04 | 松下電送システム株式会社 | 音声符号化装置及び音声符号化におけるピッチ予測方法 |
US6353808B1 (en) * | 1998-10-22 | 2002-03-05 | Sony Corporation | Apparatus and method for encoding a signal as well as apparatus and method for decoding a signal |
JP4281131B2 (ja) * | 1998-10-22 | 2009-06-17 | ソニー株式会社 | 信号符号化装置及び方法、並びに信号復号装置及び方法 |
SE9903553D0 (sv) * | 1999-01-27 | 1999-10-01 | Lars Liljeryd | Enhancing percepptual performance of SBR and related coding methods by adaptive noise addition (ANA) and noise substitution limiting (NSL) |
FI116992B (fi) | 1999-07-05 | 2006-04-28 | Nokia Corp | Menetelmät, järjestelmä ja laitteet audiosignaalin koodauksen ja siirron tehostamiseksi |
JP2001142499A (ja) * | 1999-11-10 | 2001-05-25 | Nec Corp | 音声符号化装置ならびに音声復号化装置 |
US7058570B1 (en) * | 2000-02-10 | 2006-06-06 | Matsushita Electric Industrial Co., Ltd. | Computer-implemented method and apparatus for audio data hiding |
TW496010B (en) * | 2000-03-23 | 2002-07-21 | Sanyo Electric Co | Solid high molcular type fuel battery |
US20020040299A1 (en) * | 2000-07-31 | 2002-04-04 | Kenichi Makino | Apparatus and method for performing orthogonal transform, apparatus and method for performing inverse orthogonal transform, apparatus and method for performing transform encoding, and apparatus and method for encoding data |
SE0004163D0 (sv) * | 2000-11-14 | 2000-11-14 | Coding Technologies Sweden Ab | Enhancing perceptual performance of high frequency reconstruction coding methods by adaptive filtering |
SE0004187D0 (sv) * | 2000-11-15 | 2000-11-15 | Coding Technologies Sweden Ab | Enhancing the performance of coding systems that use high frequency reconstruction methods |
US6879955B2 (en) | 2001-06-29 | 2005-04-12 | Microsoft Corporation | Signal modification based on continuous time warping for low bit rate CELP coding |
ATE288617T1 (de) * | 2001-11-29 | 2005-02-15 | Coding Tech Ab | Wiederherstellung von hochfrequenzkomponenten |
US7460993B2 (en) * | 2001-12-14 | 2008-12-02 | Microsoft Corporation | Adaptive window-size selection in transform coding |
US20030215013A1 (en) | 2002-04-10 | 2003-11-20 | Budnikov Dmitry N. | Audio encoder with adaptive short window grouping |
CN100370517C (zh) * | 2002-07-16 | 2008-02-20 | 皇家飞利浦电子股份有限公司 | 一种对编码信号进行解码的方法 |
US7536305B2 (en) * | 2002-09-04 | 2009-05-19 | Microsoft Corporation | Mixed lossless audio compression |
CN1458646A (zh) * | 2003-04-21 | 2003-11-26 | 北京阜国数字技术有限公司 | 一种滤波参数矢量量化和结合量化模型预测的音频编码方法 |
DE602004004950T2 (de) * | 2003-07-09 | 2007-10-31 | Samsung Electronics Co., Ltd., Suwon | Vorrichtung und Verfahren zum bitraten-skalierbaren Sprachkodieren und -dekodieren |
JP4966013B2 (ja) * | 2003-10-30 | 2012-07-04 | コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ | オーディオ信号のエンコードまたはデコード |
DE102004009955B3 (de) | 2004-03-01 | 2005-08-11 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Vorrichtung und Verfahren zum Ermitteln einer Quantisierer-Schrittweite |
CN1677491A (zh) * | 2004-04-01 | 2005-10-05 | 北京宫羽数字技术有限责任公司 | 一种增强音频编解码装置及方法 |
WO2005112003A1 (en) * | 2004-05-17 | 2005-11-24 | Nokia Corporation | Audio encoding with different coding frame lengths |
WO2006008817A1 (ja) | 2004-07-22 | 2006-01-26 | Fujitsu Limited | オーディオ符号化装置及びオーディオ符号化方法 |
DE102005032724B4 (de) * | 2005-07-13 | 2009-10-08 | Siemens Ag | Verfahren und Vorrichtung zur künstlichen Erweiterung der Bandbreite von Sprachsignalen |
US7720677B2 (en) * | 2005-11-03 | 2010-05-18 | Coding Technologies Ab | Time warped modified transform coding of audio signals |
US8326638B2 (en) * | 2005-11-04 | 2012-12-04 | Nokia Corporation | Audio compression |
KR100647336B1 (ko) | 2005-11-08 | 2006-11-23 | 삼성전자주식회사 | 적응적 시간/주파수 기반 오디오 부호화/복호화 장치 및방법 |
JP4658853B2 (ja) | 2006-04-13 | 2011-03-23 | 日本電信電話株式会社 | 適応ブロック長符号化装置、その方法、プログラム及び記録媒体 |
US7610195B2 (en) | 2006-06-01 | 2009-10-27 | Nokia Corporation | Decoding of predictively coded data using buffer adaptation |
KR20070115637A (ko) * | 2006-06-03 | 2007-12-06 | 삼성전자주식회사 | 대역폭 확장 부호화 및 복호화 방법 및 장치 |
PL3288027T3 (pl) * | 2006-10-25 | 2021-10-18 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Urządzenie i sposób do generowania wartości podpasm audio o wartościach zespolonych |
KR101565919B1 (ko) * | 2006-11-17 | 2015-11-05 | 삼성전자주식회사 | 고주파수 신호 부호화 및 복호화 방법 및 장치 |
ES2383217T3 (es) | 2006-12-12 | 2012-06-19 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Codificador, descodificador y métodos para codificar y descodificar segmentos de datos que representan una corriente de datos de dominio de tiempo |
US8630863B2 (en) | 2007-04-24 | 2014-01-14 | Samsung Electronics Co., Ltd. | Method and apparatus for encoding and decoding audio/speech signal |
KR101411901B1 (ko) | 2007-06-12 | 2014-06-26 | 삼성전자주식회사 | 오디오 신호의 부호화/복호화 방법 및 장치 |
EP2077550B8 (en) * | 2008-01-04 | 2012-03-14 | Dolby International AB | Audio encoder and decoder |
WO2010003252A1 (en) * | 2008-07-10 | 2010-01-14 | Voiceage Corporation | Device and method for quantizing and inverse quantizing lpc filters in a super-frame |
WO2010003545A1 (en) * | 2008-07-11 | 2010-01-14 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e. V. | An apparatus and a method for decoding an encoded audio signal |
EP2146344B1 (en) * | 2008-07-17 | 2016-07-06 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Audio encoding/decoding scheme having a switchable bypass |
-
2008
- 2008-05-24 EP EP08009530A patent/EP2077550B8/en active Active
- 2008-05-24 DE DE602008005250T patent/DE602008005250D1/de active Active
- 2008-05-24 EP EP08009531A patent/EP2077551B1/en active Active
- 2008-05-24 AT AT08009530T patent/ATE518224T1/de not_active IP Right Cessation
- 2008-05-24 AT AT08009531T patent/ATE500588T1/de not_active IP Right Cessation
- 2008-12-30 CN CN2008801255814A patent/CN101925950B/zh active Active
- 2008-12-30 CA CA3076068A patent/CA3076068C/en active Active
- 2008-12-30 RU RU2010132643/08A patent/RU2456682C2/ru active
- 2008-12-30 MX MX2010007326A patent/MX2010007326A/es active IP Right Grant
- 2008-12-30 AU AU2008346515A patent/AU2008346515B2/en active Active
- 2008-12-30 CA CA2960862A patent/CA2960862C/en active Active
- 2008-12-30 KR KR1020107017305A patent/KR101202163B1/ko active IP Right Grant
- 2008-12-30 US US12/811,419 patent/US8494863B2/en active Active
- 2008-12-30 JP JP2010541031A patent/JP5350393B2/ja active Active
- 2008-12-30 WO PCT/EP2008/011144 patent/WO2009086918A1/en active Application Filing
- 2008-12-30 ES ES08870326.9T patent/ES2677900T3/es active Active
- 2008-12-30 KR KR1020107016763A patent/KR101196620B1/ko active IP Right Grant
- 2008-12-30 CN CN2008801255392A patent/CN101939781B/zh active Active
- 2008-12-30 CA CA3190951A patent/CA3190951A1/en active Pending
- 2008-12-30 CA CA2709974A patent/CA2709974C/en active Active
- 2008-12-30 US US12/811,421 patent/US8484019B2/en active Active
- 2008-12-30 EP EP12195829.2A patent/EP2573765B1/en active Active
- 2008-12-30 RU RU2012120850/08A patent/RU2562375C2/ru active
- 2008-12-30 ES ES12195829T patent/ES2983192T3/es active Active
- 2008-12-30 EP EP24180870.8A patent/EP4414981A3/en active Pending
- 2008-12-30 BR BRPI0822236A patent/BRPI0822236B1/pt active IP Right Grant
- 2008-12-30 WO PCT/EP2008/011145 patent/WO2009086919A1/en active Application Filing
- 2008-12-30 CN CN201310005503.3A patent/CN103065637B/zh active Active
- 2008-12-30 EP EP08870326.9A patent/EP2235719B1/en active Active
- 2008-12-30 EP EP24180871.6A patent/EP4414982A3/en active Pending
- 2008-12-30 JP JP2010541030A patent/JP5356406B2/ja active Active
-
2013
- 2013-05-24 US US13/901,960 patent/US8924201B2/en active Active
- 2013-05-28 US US13/903,173 patent/US8938387B2/en active Active
- 2013-08-28 JP JP2013176239A patent/JP5624192B2/ja active Active
-
2015
- 2015-05-19 RU RU2015118725A patent/RU2696292C2/ru active
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
RU2144261C1 (ru) * | 1993-10-11 | 2000-01-10 | Филипс Электроникс Н.В. | Передающая система на принципах различного кодирования |
EP0673014A2 (en) * | 1994-03-17 | 1995-09-20 | Nippon Telegraph And Telephone Corporation | Acoustic signal transform coding method and decoding method |
RU98103512A (ru) * | 1995-08-01 | 2000-01-27 | Квэлкомм Инкорпорейтед (US) | Способ и устройство для получения и кодирования линейных спектральных квадратных корней |
EP1262956A2 (en) * | 1995-10-26 | 2002-12-04 | Sony Corporation | Signal encoding method and apparatus |
US6012025A (en) * | 1998-01-28 | 2000-01-04 | Nokia Mobile Phones Limited | Audio coding method and apparatus using backward adaptive prediction |
KR20020077959A (ko) * | 2001-04-03 | 2002-10-18 | 엘지전자 주식회사 | 디지탈 오디오 부호화기 및 복호화 방법 |
EP1278184A2 (en) * | 2001-06-26 | 2003-01-22 | Microsoft Corporation | Method for coding speech and music signals |
JP2004246038A (ja) * | 2003-02-13 | 2004-09-02 | Nippon Telegr & Teleph Corp <Ntt> | 音声楽音信号符号化方法、復号化方法、符号化装置、復号化装置、符号化プログラム、および復号化プログラム |
Cited By (21)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11568883B2 (en) | 2013-01-29 | 2023-01-31 | Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. | Low-frequency emphasis for LPC-based coding in frequency domain |
US10176817B2 (en) | 2013-01-29 | 2019-01-08 | Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. | Low-frequency emphasis for LPC-based coding in frequency domain |
US11854561B2 (en) | 2013-01-29 | 2023-12-26 | Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. | Low-frequency emphasis for LPC-based coding in frequency domain |
US10692513B2 (en) | 2013-01-29 | 2020-06-23 | Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. | Low-frequency emphasis for LPC-based coding in frequency domain |
RU2612589C2 (ru) * | 2013-01-29 | 2017-03-09 | Фраунхофер-Гезелльшафт Цур Фердерунг Дер Ангевандтен Форшунг Е.Ф. | Низкочастотное акцентирование для основанного на lpc кодирования в частотной области |
RU2670384C2 (ru) * | 2014-03-07 | 2018-10-22 | Фраунхофер-Гезелльшафт Цур Фердерунг Дер Ангевандтен Форшунг Е.Ф. | Принцип кодирования информации |
US10403298B2 (en) | 2014-03-07 | 2019-09-03 | Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. | Concept for encoding of information |
US11640827B2 (en) | 2014-03-07 | 2023-05-02 | Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. | Concept for encoding of information |
US11062720B2 (en) | 2014-03-07 | 2021-07-13 | Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. | Concept for encoding of information |
RU2644078C1 (ru) * | 2014-06-26 | 2018-02-07 | Хуавэй Текнолоджиз Ко., Лтд. | Способ, устройство и система кодирования/декодирования |
US10339945B2 (en) | 2014-06-26 | 2019-07-02 | Huawei Technologies Co., Ltd. | Coding/decoding method, apparatus, and system for audio signal |
US10614822B2 (en) | 2014-06-26 | 2020-04-07 | Huawei Technologies Co., Ltd. | Coding/decoding method, apparatus, and system for audio signal |
US11062719B2 (en) | 2015-06-16 | 2021-07-13 | Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. | Downscaled decoding |
US11341980B2 (en) | 2015-06-16 | 2022-05-24 | Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. | Downscaled decoding |
US11341979B2 (en) | 2015-06-16 | 2022-05-24 | Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. | Downscaled decoding |
US11341978B2 (en) | 2015-06-16 | 2022-05-24 | Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. | Downscaled decoding |
US10431230B2 (en) | 2015-06-16 | 2019-10-01 | Fraunhofer-Gesellschaft Zur Foerderung De Angewandten Forschung E.V. | Downscaled decoding |
US11670312B2 (en) | 2015-06-16 | 2023-06-06 | Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. | Downscaled decoding |
RU2683487C1 (ru) * | 2015-06-16 | 2019-03-28 | Фраунхофер-Гезелльшафт Цур Фердерунг Дер Ангевандтен Форшунг Е.Ф. | Сокращенное декодирование |
RU2770747C1 (ru) * | 2018-12-28 | 2022-04-21 | Биго Текнолоджи Пте. Лтд. | Способ преобразования аудиосигнала, устройство и носитель данных |
US12142287B2 (en) | 2018-12-28 | 2024-11-12 | Bigo Technology Pte. Ltd. | Method for transforming audio signal, device, and storage medium |
Also Published As
Similar Documents
Publication | Publication Date | Title |
---|---|---|
RU2456682C2 (ru) | Аудиокодер и декодер | |
US10311884B2 (en) | Advanced quantizer | |
AU2012201692B2 (en) | Audio Encoder and Decoder | |
RU2793725C2 (ru) | Аудиокодер и декодер |