[go: up one dir, main page]
More Web Proxy on the site http://driver.im/

ES2959910T3 - Decodificador de audio para la decodificación de una señal de audio codificada - Google Patents

Decodificador de audio para la decodificación de una señal de audio codificada Download PDF

Info

Publication number
ES2959910T3
ES2959910T3 ES21171826T ES21171826T ES2959910T3 ES 2959910 T3 ES2959910 T3 ES 2959910T3 ES 21171826 T ES21171826 T ES 21171826T ES 21171826 T ES21171826 T ES 21171826T ES 2959910 T3 ES2959910 T3 ES 2959910T3
Authority
ES
Spain
Prior art keywords
channel
decoder
signal
representation
encoder
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
ES21171826T
Other languages
English (en)
Inventor
Sascha Disch
Guillaume Fuchs
Emmanuel Ravelli
Christian Neukam
Konstantin Schmidt
Conrad Benndorf
Andreas Niedermeier
Benjamin Schubert
Ralf Geiger
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fraunhofer Gesellschaft zur Forderung der Angewandten Forschung eV
Original Assignee
Fraunhofer Gesellschaft zur Forderung der Angewandten Forschung eV
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fraunhofer Gesellschaft zur Forderung der Angewandten Forschung eV filed Critical Fraunhofer Gesellschaft zur Forderung der Angewandten Forschung eV
Application granted granted Critical
Publication of ES2959910T3 publication Critical patent/ES2959910T3/es
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/008Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/032Quantisation or dequantisation of spectral components
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/08Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/08Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters
    • G10L19/12Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters the excitation function being a code excitation, e.g. in code excited linear prediction [CELP] vocoders
    • G10L19/13Residual excited linear prediction [RELP]
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • G10L19/18Vocoders using multiple modes
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/038Speech enhancement, e.g. noise reduction or echo cancellation using band spreading techniques

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Human Computer Interaction (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Mathematical Physics (AREA)
  • Quality & Reliability (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)
  • Stereophonic System (AREA)
  • Analogue/Digital Conversion (AREA)

Abstract

Se muestra un diagrama de bloques esquemático de un codificador de audio 2 para codificar una señal de audio multicanal 4. El codificador de audio comprende un codificador 6 en el dominio de predicción lineal, un codificador 8 en el dominio de frecuencia y un controlador 10 para conmutar entre el codificador 6 en el dominio de predicción lineal y el codificador 8 en el dominio de frecuencia. El controlador está configurado de tal manera que una parte de la señal multicanal es representado por una trama codificada del codificador del dominio de predicción lineal o por una trama codificada del codificador del dominio de frecuencia. El codificador de dominio de predicción lineal comprende un mezclador 12 para mezclar la señal multicanal 4 para obtener una señal 14 mezclada. El codificador de dominio de predicción lineal comprende además un codificador central 16 de dominio de predicción lineal para codificar la señal de mezcla y, además, el codificador de dominio de predicción lineal comprende un primer codificador multicanal conjunto 18 para generar la primera información multicanal 20 a partir de la señal multicanal 4. (Traducción automática con Google Translate, sin valor legal)

Description

DESCRIPCIÓN
Decodificador de audio para la decodificación de una señal de audio codificada
Descripción
Memoria Descriptiva
La presente invención se refiere a un decodificador de audio para la decodificación de una señal de audio codificada. Las realizaciones se refieren a los códecs de audio perceptuales conmutados que comprenden la preservación de forma de onda y codificación estéreo paramétrica.
La codificación perceptual de señales de audio para el propósito de reducción de datos para el almacenamiento o la transmisión eficiente de estas señales es una práctica ampliamente utilizada. En particular, cuando se ha de lograr la más alta eficiencia, se utilizan códecs que están estrechamente adaptados a las características de la señal de entrada. Un ejemplo es el códec de núcleo MPEG-D USAC que se puede configurar para utilizar predominantemente la codificación de ACELP (Predicción Lineal Excitada por Código Algebraico) sobre señales de voz, TCX (Excitación Codificada por Transformada) sobre el ruido de fondo y las señales mixtas, y AAC (Codificación de Audio Avanzada) sobre el contenido de música. Las tres configuraciones de códec internas se pueden conmutar al instante de una manera adaptativa de señal en respuesta al contenido de la señal.
Además, se emplean técnicas de codificación conjuntas de múltiples canales (codificación Intermedia/lateral, etc.) o, para mayor eficiencia, técnicas de codificación paramétrica. Las técnicas de codificación paramétrica básicamente apuntan a la recreación de una señal de audio perceptual equivalente en lugar de una reconstrucción fiel de una forma de onda determinada. Los ejemplos abarcan el llenado de ruido, la extensión de ancho de banda y la codificación de audio espacial.
Cuando se combinan un codificador de núcleo adaptativo de señal y, o bien la codificación de múltiples canales conjunta o técnicas de codificación paramétrica, en el estado de los códecs de la técnica, el códec de núcleo se conmuta para coincidir con la característica de la señal, pero la elección de técnicas de codificación de múltiples canales, tales como I/L-estéreo, la codificación de audio espacial o estéreo paramétrica, permanecen fijas e independientes de las características de la señal. Estas técnicas se emplean habitualmente para el códec de núcleo como un preprocesador para el codificador de núcleo y un postprocesador para el decodificador de núcleo, siendo ambos ignorantes para la elección real del códec de núcleo.
Además, la elección de las técnicas de codificación paramétrica para la extensión de ancho de banda se hace a veces dependiente de la señal. Por ejemplo, las técnicas aplicadas en el dominio de tiempo son más eficientes para las señales de voz, mientras que un procesamiento de dominio de frecuencia es más relevante para otras señales. En tal caso, las técnicas de codificación de múltiples canales adoptadas deben ser compatibles con ambos tipos de técnicas de extensión de ancho de banda.
Los temas relevantes en el estado de la técnica comprenden:
PS y MPS como un pre/postprocesador para el códec de núcleo MPEG-D USAC
Estándar de MPEG-D USAC
Estándar de Audio MPEG-H 3D
El documento US 2012/0002818 A1 da a conocer la codificación estéreo avanzada basada en la combinación de codificación estéreo izquierda/derecha o intermedia/lateral seleccionable adaptativamente y de codificación estéreo paramétrica. Un sistema de codificación comprende una fase de mezcla descendente para generar una señal de mezcla descendente y la señal residual basada en la señal estéreo. Además, el sistema de codificador comprende una fase de determinación de parámetros para determinar parámetros estéreo paramétricos tales como una diferencia de intensidad entre canales una correlación cruzada entre canales. Los parámetros estéreo paramétricos varían con el tiempo y la frecuencia. El sistema de codificador comprende una fase de transformada. La fase de transformada genera una pseudo-señal estéreo izquierda/derecha realizando una transformada basada en la señal de mezcla descendente y la señal residual. La pseudo-señal estéreo se procesa por un codificador estéreo perceptual. Para la codificación estéreo, puede seleccionarse codificación izquierda/derecha o intermedia/lateral. La selección entre codificación estéreo izquierda/derecha y codificación estéreo intermedia/lateral varía con el tiempo y la frecuencia.
El documento WO 2013/156814 A1 da a conocer un codificador de señal de audio estéreo. El aparato comprende un analizador de canales configurado para analizar una señal de audio que comprende al menos dos canales de audio para determinar al menos un parámetro asociado con una diferencia entre los al menos dos canales de audio. El aparato comprende además un determinador del modo de codificación configurado para seleccionar una codificación de señal de audio de múltiples canales dependiente del al menos un parámetro. El aparato comprende adicionalmente un codificador de canales configurado para codificar la señal de audio con la codificación de señal de audio de múltiples canales.
En MPEG-D USAC, se describe un codificador de núcleo conmutable. Sin embargo, en USAC, las técnicas de codificación de múltiples canales se definen como una elección fija que es común a todo el codificador de núcleo, independiente de su conmutación interna de los principios de codificación que son ACELP o TCX (''LPD''), o AAC (''FD''). Por lo tanto, si se desea una configuración de códec de núcleo conmutada, el códec se limita al uso de codificación de múltiples canales paramétrica (PS) a lo largo de toda la señal. Sin embargo, para la codificación, por ejemplo, de señales de música sería más apropiado utilizar más bien una codificación estéreo conjunta, que puede cambiar dinámicamente entre el esquema de I/D (izquierda/derecha) y I/L (intermedia/lateral) por banda de frecuencia y por trama.
Por lo tanto, hay una necesidad de un enfoque mejorado.
Un objetivo de la presente invención es proporcionar un concepto mejorado para el procesamiento de una señal de audio.
Este objeto se soluciona mediante un decodificador de audio de acuerdo con la reivindicación 1, un método para decodificar una señal de audio codificada de acuerdo con la reivindicación 9 o un programa informático de acuerdo con la reivindicación 10.
Los ejemplos de codificadores de audio y métodos de codificación son ejemplos útiles para comprender la invención que se presentaron originalmente pero que no representan realizaciones de la presente invención reivindicada. Estos ejemplos no caen dentro del alcance de las reivindicaciones adjuntas y deben considerarse simplemente como ejemplos adecuados para comprender la invención.
La presente invención se basa en el hallazgo de que un codificador paramétrico (de dominio de tiempo) que usa un codificador de múltiples canales es ventajoso para la codificación de audio de múltiples canales paramétrica. El codificador de múltiples canales puede ser un codificador residual de múltiples canales que puede reducir una anchura de banda para la transmisión de los parámetros de codificación en comparación con una codificación independiente para cada canal. Esto se puede utilizar ventajosamente, por ejemplo, en combinación con un codificador de audio conjunto de múltiples canales de dominio de frecuencia. Las técnicas de codificación conjuntas de múltiples canales de dominio de tiempo y dominio de frecuencia se pueden combinar, de manera tal que, por ejemplo, una decisión basada en tramas puede dirigir una trama actual a un período de codificación basado en tiempo o basado en frecuencia. En otras palabras, las realizaciones muestran un concepto mejorado para la combinación de un códec de núcleo conmutable usando codificación conjunta de múltiples canales y codificación de audio espacial paramétrica en un códec perceptual totalmente conmutable que permite el uso de diferentes técnicas de codificación de múltiples canales en dependencia de la elección de un codificador de núcleo. Esto es ventajoso, ya que, en contraste con los métodos ya existentes, las realizaciones muestran una técnica de codificación de múltiples canales que se puede conmutar al instante junto con un codificador de núcleo y, por lo tanto, ser de naturaleza muy similar y adaptada para la elección del codificador de núcleo. Por lo tanto, los problemas descritos que aparecen debido a una elección fija de técnicas de codificación de múltiples canales pueden evitarse. Además, se permite una combinación totalmente conmutable de un codificador de núcleo dado y su técnica de codificación de múltiples canales asociados y adaptados. Tal codificador, por ejemplo, un AAC (Codificación de Audio Avanzada) que usa codificación estéreo I/D o I/L, por ejemplo, es capaz de codificar una señal de música en el codificador de núcleo de dominio de frecuencia (FD) usando una codificación estéreo conjunta dedicada o de múltiples canales, por ejemplo, estéreo I/L. Esta decisión se puede aplicar por separado para cada banda de frecuencia en cada trama de audio. En el caso de, por ejemplo, una señal de voz, el codificador de núcleo puede conmutarse instantáneamente a un codificador de núcleo de decodificación predictiva lineal (LPD) y sus técnicas de codificación asociadas diferentes, por ejemplo estéreo paramétricas.
Las realizaciones muestran un procesamiento estéreo que es único para la trayectoria mono LPD y un esquema de conmutación sin problemas basada en la señal estéreo que combina la salida de la trayectoria FD estéreo con la del codificador de núcleo LPD y su codificación estéreo dedicada. Esto es ventajoso, dado que se activa una conmutación de códecs sin problemas libre de artefactos.
Los ejemplos se refieren a un codificador para la codificación de una señal de múltiples canales. El codificador comprende un codificador de dominio de predicción lineal y un codificador de dominio de frecuencia. Además, el codificador comprende un controlador para la conmutación entre el codificador de dominio de predicción lineal y el codificador de dominio de frecuencia. Además, el codificador de dominio de predicción lineal puede comprender un mezclador descendente para la mezcla descendente de la señal de múltiples canales para obtener una señal de mezcla descendente, un codificador de núcleo de dominio de predicción lineal para la codificación de la señal de mezcla descendente y un primer codificador de múltiples canales para la generación de primera información de múltiples canales a partir de la señal de múltiples canales. El codificador de dominio de frecuencia comprende un segundo codificador conjunto de múltiples canales para la generación de segunda información de múltiples canales a partir de la señal de múltiples canales, en el que el segundo codificador de múltiples canales es diferente del primer codificador de múltiples canales. El controlador está configurado de manera tal que una porción de la señal de múltiples canales esté representada ya sea por medio de una trama codificada del codificador de dominio de predicción lineal o por medio de una trama codificada del codificador de dominio de frecuencia. El codificador de dominio de predicción lineal puede comprender un codificador de núcleo ACELP y, por ejemplo, un algoritmo de codificación estéreo paramétrico como un primer codificador conjunto de múltiples canales. El codificador de dominio de frecuencia puede comprender, por ejemplo, un codificador de núcleo AAC que usa, por ejemplo, un procesamiento I/D o I/L como un segundo codificador conjunto de múltiples canales. El controlador puede analizar la señal de múltiples canales con respecto a, por ejemplo, las características de trama, como, por ejemplo, voz o música y decidir para cada trama o una secuencia de tramas, o una parte de la señal de audio de múltiples canales si el codificador de dominio de predicción lineal o el codificador de dominio de frecuencia se utilizarán para la codificación de esta parte de la señal de audio de múltiples canales.
Las realizaciones muestran además un decodificador de audio para la decodificación de una señal de audio codificada. El decodificador de audio comprende un decodificador de dominio de predicción lineal y un decodificador de dominio de frecuencia. Además, el decodificador de audio comprende un primer decodificador conjunto de múltiples canales para la generación de una primera representación de múltiples canales usando una salida del decodificador de dominio de predicción lineal y usando una información de múltiples canales y un segundo decodificador de múltiples canales para la generación de una segunda representación de múltiples canales usando una salida del decodificador de dominio de frecuencia y una segunda información de múltiples canales. Además, el decodificador de audio comprende un primer combinador para la combinación de la primera representación de múltiples canales y la segunda representación de múltiples canales para obtener una señal de audio decodificada. El combinador puede llevar a cabo la conmutación sin problemas, libre de artefactos entre la primera representación de múltiples canales que es, por ejemplo, una señal de audio de múltiples canales predicha lineal y la segunda representación de múltiples canales que es, por ejemplo, una señal de audio de múltiples canales decodificada por el dominio de frecuencia.
Las realizaciones muestran una combinación de codificación ACELP/TCX en una trayectoria LPD con una codificación estéreo dedicada y una codificación estéreo AAC independiente en una trayectoria de dominio de frecuencia dentro de un codificador de audio conmutable. Además, las realizaciones muestran una conmutación instantánea sin problemas entre estéreo LPD y FD, en las que realizaciones adicionales se refieren a una elección independiente de codificación conjunta de múltiples canales para diferentes tipos de contenido de señal. Por ejemplo, para la voz que se codifica predominantemente usando la trayectoria LPD, se utiliza un estéreo paramétrico, mientras que para la música que está codificada en la trayectoria de FD se utiliza una codificación estéreo más adaptable, que puede conmutar dinámicamente entre el esquema de I/D y I/L por banda de frecuencia y por trama.
De acuerdo con realizaciones, para la voz que se codifica predominantemente usando la trayectoria LPD, y que normalmente se encuentra en el centro de la imagen estéreo, un simple estéreo paramétrico es adecuado, mientras que la música que se codifica en la trayectoria FD por lo general tiene una distribución espacial más sofisticada y se pueden beneficiar de una codificación estéreo más adaptable, que puede conmutar dinámicamente entre el esquema I/D y I/L por banda de frecuencia y por trama.
Otros ejemplos muestran el codificador de audio que comprende un mezclador descendente (12) para la mezcla descendente de la señal de múltiples canales para obtener una señal de mezcla descendente, un codificador de núcleo de dominio de predicción lineal para la codificación de la señal de mezcla descendente, un banco de filtros para la generación de una representación espectral de la señal de múltiples canales y un codificador conjunto de múltiples canales para la generación de información de múltiples canales de la señal de múltiples canales. La señal de mezcla descendente tiene una banda baja y una banda alta, en la que el codificador de núcleo de dominio de predicción lineal está configurado para aplicar un procesamiento de extensión de ancho de banda para la codificación paramétrica de la banda alta. Además, el codificador de múltiples canales está configurado para procesar la representación espectral que comprende la banda baja y la banda alta de la señal de múltiples canales. Esto es ventajoso dado que cada codificación paramétrica puede utilizar su descomposición de tiempo-frecuencia óptima para obtener sus parámetros. Esto puede implementarse, por ejemplo, usando una combinación de ACELP (Predicción Lineal Excitada por Código Algebraico) más TDBWE (Extensión de Ancho de Banda de Dominio de Tiempo), donde ACELP puede codificar una banda baja de la señal de audio y TDBWE puede codificar una banda alta de la señal de audio, y codificación de múltiples canales paramétrica con un banco de filtros externo (por ejemplo, DFT). Esta combinación es eficiente en particular ya que se sabe que la mejor extensión de ancho de banda para la voz debe estar en el dominio de tiempo y el procesamiento de múltiples canales en el dominio de frecuencia. Dado que ACELP TDBWE no tienen ningún convertidor de tiempo-frecuencia, un banco de filtros externo o una transformación como la DFT es ventajosa. Además, el entramado del procesador de múltiples canales puede ser el mismo que el usado en ACELP. Incluso si el procesamiento de múltiples canales se lleva a cabo en el dominio de frecuencia, la resolución de tiempo para el cómputo de sus parámetros o mezcla descendente debe estar idealmente próxima o incluso ser igual al entramado de ACELP.
Las realizaciones descritas son beneficiosas, ya que se puede aplicar una elección independiente de codificación conjunta de múltiples canales para diferentes tipos de contenido de señal.
Las realizaciones de la presente invención se comentarán posteriormente en referencia a los dibujos adjuntos, en los que:
la figura 1 muestra un diagrama de bloques esquemático de un codificador para la codificación de una señal de audio de múltiples canales;
la figura 2 muestra un diagrama de bloques esquemático de un codificador de dominio de predicción lineal de acuerdo con un ejemplo;
la figura 3 muestra un diagrama de bloques esquemático de un codificador de dominio de frecuencia de acuerdo con un ejemplo;
la figura 4 muestra un diagrama de bloques esquemático de un codificador de audio de acuerdo con un ejemplo; la figura 5a muestra un diagrama de bloques esquemático de un mezclador descendente activo de acuerdo con un ejemplo;
la figura 5b muestra un diagrama de bloques esquemático de un mezclador descendente pasivo de acuerdo con un ejemplo;
la figura 6 muestra un diagrama de bloques esquemático de un decodificador para la decodificación de una señal de audio codificada;
la figura 7 muestra un diagrama de bloques esquemático de un decodificador de acuerdo con una realización; la figura 8 muestra un diagrama de bloques esquemático de un método para la codificación de una señal de múltiples canales;
la figura 9 muestra un diagrama de bloques esquemático de un método para la decodificación de una señal de audio codificada;
la figura 10 muestra un diagrama de bloques esquemático de un codificador para la codificación de una señal de múltiples canales de acuerdo con un aspecto adicional;
la figura 11 muestra un diagrama de bloques esquemático de un decodificador para la decodificación de una señal de audio codificada de acuerdo con un aspecto adicional;
la figura 12 muestra un diagrama de bloques esquemático de un método de codificación de audio para la codificación de una señal de múltiples canales de acuerdo con un aspecto adicional;
la figura 13 muestra un diagrama de bloques esquemático de un método para la decodificación de una señal de audio codificada de acuerdo con un aspecto adicional;
la figura 14 muestra un diagrama de temporización esquemático de una conmutación sin problemas de la codificación de dominio de frecuencia a la codificación de LPD;
la figura 15 muestra un diagrama de temporización esquemático de una conmutación sin problemas de la decodificación de dominio de frecuencia a la decodificación de dominio LPD;
la figura 16 muestra un diagrama de temporización esquemático de una conmutación sin problemas de la codificación de LPD a la codificación de dominio de frecuencia;
la figura 17 muestra un diagrama de temporización esquemático de una conmutación sin problemas de la decodificación de LPD a la decodificación de dominio de frecuencia.
la figura 18 muestra un diagrama de bloques esquemático de un codificador para la codificación de una señal de múltiples canales de acuerdo con un aspecto adicional;
la figura 19 muestra un diagrama de bloques esquemático de un decodificador para la decodificación de una señal de audio codificada de acuerdo con un aspecto adicional;
la figura 20 muestra un diagrama de bloques esquemático de un método para la codificación de audio para la codificación de una señal de múltiples canales de acuerdo con un aspecto adicional;
la figura 21 muestra un diagrama de bloques esquemático de un método para la decodificación de una señal de audio codificada de acuerdo con un aspecto adicional;
En lo que sigue, las realizaciones de la invención se describirán con más detalle. Los elementos mostrados en las figuras respectivas que tienen la misma o similar funcionalidad tendrán asociados con los mismos signos de referencia iguales.
La figura 1 muestra un diagrama de bloques esquemático de un codificador de audio 2 para la codificación de una señal de audio de múltiples canales 4. El codificador de audio comprende un codificador de dominio de predicción lineal 6, un codificador de dominio de frecuencia 8 y un controlador 10 para la conmutación entre el codificador de dominio de predicción lineal 6 y el codificador de dominio de frecuencia 8. El controlador puede analizar la señal de múltiples canales y decidir para porciones de la señal de múltiples canales si es ventajosa una codificación de dominio de predicción lineal o una codificación de dominio de frecuencia. En otras palabras, el controlador está configurado de manera tal que una porción de la señal de múltiples canales esté representada ya sea por medio de una trama codificada del codificador de dominio de predicción lineal o por medio de una trama codificada del codificador de dominio de frecuencia. El codificador de dominio de predicción lineal comprende un mezclador descendente 12 para la mezcla descendente de la señal de múltiples canales 4 para obtener una señal de mezcla descendente 14. El codificador de dominio de predicción lineal comprende además un codificador de núcleo de dominio de predicción lineal 16 para la codificación de la señal de mezcla descendente y, además, el codificador de dominio de predicción lineal comprende un primer codificador conjunto de múltiples canales 18 para la generación de una primera información de múltiples canales 20, que comprende, por ejemplo, parámetros de ILD (diferencia de nivel interaural) y/o IPD (diferencia de fase interaural), a partir de la señal de múltiples canales 4. La señal de múltiples canales puede ser, por ejemplo, una señal estéreo en la que el mezclador descendente convierte la señal estéreo en una señal mono. El codificador de núcleo de dominio de predicción lineal puede codificar la señal mono, en el que el primer codificador conjunto de múltiples canales puede generar la información estéreo para la señal mono codificada como primera información de múltiples canales. El codificador de dominio de frecuencia y el controlador son opcionales en comparación con el aspecto adicional descrito con respecto a la figura 10 y la figura 11. Sin embargo, para la conmutación adaptativa de señal entre la codificación de dominio de tiempo y dominio de frecuencia, es ventajoso el uso del codificador de dominio de frecuencia y el controlador.
Además, el codificador de dominio de frecuencia 8 comprende un segundo codificador conjunto de múltiples canales 22 para la generación de segunda información de múltiples canales 24 de la señal de múltiples canales 4, en el que el segundo codificador conjunto de múltiples canales 22 es diferente del primer codificador de múltiples canales 18. Sin embargo, el segundo procesador conjunto de múltiples canales 22 obtiene la segunda información de múltiples canales que permite una segunda calidad de reproducción que es más alta que la primera calidad de reproducción de la primera información de múltiples canales obtenida por el primer codificador de múltiples canales para señales que se codifican mejor por el segundo codificador.
En otras palabras, de acuerdo con los ejemplos, el primer codificador conjunto de múltiples canales 18 está configurado para la generación de la primera información de múltiples canales 20 que permite una primera calidad de reproducción, en el que el segundo codificador conjunto de múltiples canales 22 está configurado para la generación de la segunda información de múltiples canales 24 que permite una segunda calidad de reproducción, en el que la segunda calidad de reproducción es más alta que la primera calidad de reproducción. Esto es por lo menos relevante para señales, tales como, por ejemplo, señales de voz, que están mejor codificadas por el segundo codificador de múltiples canales.
Por lo tanto, el primer codificador de múltiples canales puede ser un codificador de múltiples canales paramétrico conjunto que comprende, por ejemplo, un codificador de predicción estéreo, un codificador estéreo paramétrico o un codificador estéreo paramétrico basado en rotación. Además, el segundo codificador conjunto de múltiples canales puede ser de preservación de forma de onda, tal como, por ejemplo, un conmutador selectivo de banda para el codificador estéreo intermedia/lateral o de izquierda/derecha. De acuerdo con lo mostrado en la figura 1, la señal de mezcla descendente codificada 26 puede transmitirse a un decodificador de audio y servir opcionalmente al primer procesador conjunto de múltiples canales donde, por ejemplo, se puede decodificar la señal de mezcla descendente codificada y se puede calcular una señal residual de la señal de múltiples canales antes de la codificación y después de la decodificación de la señal codificada para mejorar la calidad decodificada de la señal de audio codificada en el lado del decodificador. Además, el controlador 10 puede utilizar las señales de control 28a, 28b para el control del codificador de dominio de predicción lineal y el codificador de dominio de frecuencia, respectivamente, después de determinar el esquema de codificación adecuado para la porción actual de la señal de múltiples canales.
La figura 2 muestra un diagrama de bloques del codificador de dominio de predicción lineal 6. La entrada al codificador de dominio de predicción lineal 6 es la señal de mezcla descendente 14 mezclada en forma descendente por el mezclador descendente 12. Además, el codificador de dominio de predicción lineal comprende un procesador de ACELP 30 y un procesador de TCX 32. El procesador de ACELP 30 está configurado para funcionar en una señal de mezcla descendente submuestreada 34, que se puede submuestrear por medio del submuestreador 35. Además, un procesador de extensión de ancho de banda de dominio de tiempo 36 puede codificar paramétricamente una banda de una porción de la señal de mezcla descendente 14, que se retira de la señal de mezcla descendente submuestreada 34 que se introduce en el procesador de ACELP 30. El procesador de extensión de ancho de banda de dominio de tiempo 36 puede emitir una banda codificada paramétricamente 38 de una porción de la señal de mezcla descendente 14. En otras palabras, el procesador de extensión de ancho de banda de dominio de tiempo 36 puede calcular una representación paramétrica de las bandas de frecuencia de la señal de mezcla descendente 14 que puede comprender frecuencias más altas en comparación con la frecuencia de corte del submuestreador 35. Por lo tanto, el submuestreador 35 pueden tener la propiedad adicional de proporcionar las bandas de frecuencias superiores a la frecuencia de corte del submuestreador al procesador de extensión de ancho de banda de dominio de tiempo 36 o, de proporcionar la frecuencia de corte al procesador de extensión de ancho de banda de dominio de tiempo (TD-BWE) para permitir que el procesador de TD-BWE 36 calcule los parámetros 38 para la porción correcta de la señal de mezcla descendente 14.
Además, el procesador de TCX está configurado para operar sobre la señal de mezcla descendente que está, por ejemplo, no submuestreada o submuestreada en un grado menor que el submuestreo para el procesador de ACELP. Un submuestreo en un grado menor que el submuestreo del procesador de ACELP puede ser un submuestreo usando una frecuencia de corte más alta, en el que un mayor número de bandas de la señal de mezcla descendente se proporcionan al procesador de TCX en comparación con la señal de mezcla descendente submuestreada 35 que se introduce en el procesador de ACELP 30. El procesador de TCX puede comprender además un primer convertidor de tiempo-frecuencia 40, tal como por ejemplo una MDCT, una DFT o una DCT. El procesador de TCX 32 puede comprender además un primer generador de parámetros 42 y un primer codificador del cuantificador 44. El primer generador de parámetros 42, por ejemplo, un algoritmo inteligente de llenado de espacios (IGF) puede calcular una primera representación paramétrica de un primer conjunto de bandas 46, en el que el primer codificador del cuantificador 44, por ejemplo, usando un algoritmo de TCX para calcular un primer conjunto de líneas espectrales codificadas cuantificadas 48 para un segundo conjunto de bandas. En otras palabras, el primer codificador del cuantificador puede codificar de forma paramétrica las bandas relevantes, tales como, por ejemplo, bandas tonales, de la señal de entrada en la que el primer generador de parámetros aplica, por ejemplo, un algoritmo de IGF a las bandas restantes de la señal de entrada para reducir aún más el ancho de banda de la señal de audio codificada.
El codificador de dominio de predicción lineal 6 puede comprender además un decodificador de dominio de predicción lineal 50 para la decodificación de la señal de mezcla descendente 14, por ejemplo, representada por la señal de mezcla descendente 52 submuestreada procesada por ACELP y/o la primera representación paramétrica de un primer conjunto de bandas 46 y/o el primer conjunto de líneas espectrales codificadas cuantificadas 48 para un segundo conjunto de bandas. La salida del decodificador de dominio de predicción lineal 50 puede ser una señal de mezcla descendente codificada y decodificada 54. Esta señal 54 puede introducirse en un codificador residual de múltiples canales 56, que puede calcular y codificar una señal residual de múltiples canales 58 usando la señal de mezcla descendente codificada y decodificada 54, en el que la señal residual de múltiples canales codificada representa un error entre una representación de múltiples canales decodificada usando la primera información de múltiples canales y la señal de múltiples canales antes de la mezcla descendente. Por lo tanto, el codificador residual de múltiples canales 56 puede comprender un decodificador conjunto de múltiples canales del lado del codificador 60 y un procesador de diferencia 62. El decodificador conjunto de múltiples canales del lado del codificador 60 puede generar una señal decodificada de múltiples canales usando la primera información de múltiples canales 20 y la señal de mezcla descendente codificada y decodificada 54, en el que el procesador de diferencia puede formar una diferencia entre la señal decodificada de múltiples canales 64 y la señal de múltiples canales 4 antes de la mezcla descendente para obtener la señal residual de múltiples canales 58. En otras palabras, el decodificador conjunto de múltiples canales del lado del codificador en el codificador de audio puede llevar a cabo una operación de decodificación, que es ventajosamente la misma operación de decodificación llevada a cabo en el lado del decodificador. Por lo tanto, la primera información conjunta de múltiples canales, que se puede derivar por el decodificador de audio después de la transmisión, se utiliza en el decodificador conjunto de múltiples canales del lado del codificador para la decodificación de la señal de mezcla descendente codificada. El procesador de diferencia 62 puede calcular la diferencia entre la señal conjunta de múltiples canales decodificada y la señal de múltiples canales original 4. La señal residual de múltiples canales codificada 58 puede mejorar la calidad de decodificación del decodificador de audio, ya que la diferencia entre la señal decodificada y la señal original debido a, por ejemplo, la codificación paramétrica, se puede reducir por el conocimiento de la diferencia entre estas dos señales. Esto permite que el primer codificador conjunto de múltiples canales funcione de una manera tal que se derive la información de múltiples canales para un ancho de banda completo de la señal de audio de múltiples canales.
Además, la señal de mezcla descendente 14 puede comprender una banda baja y una banda alta, en la que el codificador de dominio de predicción lineal 6 está configurado para aplicar un procesamiento de extensión de ancho de banda, usando por ejemplo el procesador de extensión de ancho de banda de dominio de tiempo 36 para la codificación paramétrica de la banda alta, en la que el decodificador de dominio de predicción lineal 6 está configurado para obtener, como la señal de mezcla descendente codificada y decodificada 54, solamente una señal de banda baja que representa la banda baja de la señal de mezcla descendente 14, y en la que la señal residual de múltiples canales codificada solamente tiene frecuencias dentro de la banda baja de la señal de múltiples canales antes de la mezcla descendente. En otras palabras, el procesador de extensión de ancho de banda puede calcular los parámetros de extensión de ancho de banda para las bandas de frecuencia más altas que una frecuencia de corte, en el que el procesador de ACELP codifica las frecuencias por debajo de la frecuencia de corte. Por lo tanto, el decodificador está configurado para reconstruir las frecuencias más altas basándose en la señal de banda baja codificada y los parámetros de ancho de banda 38.
El codificador residual de múltiples canales 56 puede calcular una señal lateral y en el que la señal de mezcla descendente es una señal intermedia correspondiente de una señal de audio de múltiples canales I/L. Por lo tanto, el codificador residual de múltiples canales puede calcular y codificar una diferencia de una señal de banda calculada, que se puede calcular a partir de la representación espectral de banda completa de la señal de audio de múltiples canales obtenida por el banco de filtros 82, y una señal lateral predicha de un múltiplo de la señal de mezcla descendente codificada y decodificada 54, en la que el múltiplo puede estar representado por medio de una información de predicción que se convierte en parte de la información de múltiples canales. Sin embargo, la señal de mezcla descendente comprende únicamente la señal de banda baja. Por lo tanto, el codificador residual puede calcular además una señal residual (o lateral) para la banda alta. Esto se puede llevar a cabo, por ejemplo, por medio de la simulación de la extensión de ancho de banda de dominio de tiempo, tal como se lleva a cabo en el codificador de núcleo de dominio de predicción lineal, o por medio de la predicción de la señal lateral como una diferencia entre la señal lateral (de banda completa) calculada y la señal intermedia (de banda completa) calculada, en la que un factor de predicción está configurado para minimizar la diferencia entre ambas señales.
La figura 3 muestra un diagrama de bloques esquemático del codificador de dominio de frecuencia 8. El codificador de dominio de frecuencia comprende un segundo convertidor de tiempo-frecuencia 66, un segundo generador de parámetros 68 y un segundo codificador del cuantificador 70. El segundo convertidor de tiempo-frecuencia 66 puede convertir un primer canal 4a de la señal de múltiples canales y un segundo canal 4b de la señal de múltiples canales en una representación espectral 72a, 72b. La representación espectral del primer canal y el segundo canal 72a, 72b puede analizarse y dividirse cada uno en un primer conjunto de bandas 74 y un segundo conjunto de bandas 76. Por lo tanto, el segundo generador de parámetros 68 puede generar una segunda representación paramétrica 78 del segundo conjunto de bandas de 76, en el que el segundo codificador del cuantificador puede generar una representación cuantificada y codificada 80 del primer conjunto de bandas 74. El codificador de dominio de frecuencia, o más específicamente, el segundo convertidor de tiempo-frecuencia 66 puede llevar a cabo, por ejemplo, una operación de MDCT para el primer canal 4a y el segundo canal 4b, en el que el segundo generador de parámetros 68 puede llevar a cabo un algoritmo inteligente de llenado de espacios y el segundo codificador del cuantificador 70 puede llevar a cabo, por ejemplo, una operación de AAC. Por lo tanto, tal como ya se describió con respecto a los codificadores de dominio de predicción lineal, el codificador de dominio de frecuencia también es capaz de funcionar de una manera tal que se derive la información de múltiples canales para un ancho de banda completo de la señal de audio de múltiples canales.
La figura 4 muestra un diagrama de bloques esquemático del codificador de audio 2. La trayectoria LPD 16 consiste en una codificación conjunto estéreo o de múltiples canales que contiene un cálculo de mezcla descendente "DMX activo o pasivo" 12, que indica que la mezcla descendente de LPD puede ser activa ("frecuencia selectiva") o pasiva ("factores de mezcla constantes") de acuerdo con lo mostrado en las figuras 5. La mezcla descendente se codifica adicionalmente por un núcleo conmutable mono ACELP/TCX que es compatible con cualquiera de los dos módulos de IGF-TD o BWE. Se debe tener en cuenta que el ACELP opera sobre los datos de audio de entrada submuestreados 34. Cualquier inicialización de ACELP debido a la conmutación se puede llevar a cabo en la salida TCX/IGF submuestreada.
Dado que ACELP no contiene ninguna descomposición de tiempo-frecuencia interna, la codificación estéreo de LPD añade un banco de filtros modulado complejo adicional por medio de un banco de filtros de análisis 82 antes de la codificación de LP y un banco de filtros de síntesis después de la decodificación de LPD. En el ejemplo, se emplea una DFT sobremuestreada con una región de solapamiento baja. Sin embargo, en otros ejemplos, se puede utilizar cualquier descomposición de tiempo-frecuencia sobremuestreada con resolución temporal similar. Los parámetros estéreo pueden entonces computarse en el dominio de frecuencia.
La codificación estéreo paramétrica se lleva a cabo por el bloque "de codificación de parámetros estéreo de LPD" 18 que da salida a los parámetros de LPD estéreos 20 a la corriente de bits. Opcionalmente, el siguiente bloque de "codificación residual de LPD estéreo" agrega un residual de mezcla descendente de paso bajo cuantificado por vector 58 a la corriente de bits.
La trayectoria FD 8 está configurada para tener su propia codificación conjunta estéreo o de múltiples canales interna. Para la codificación estéreo conjunta, vuelve a utilizar su propio banco de filtros muestreado críticamente y de valores reales 66, a saber, por ejemplo, la MDCT.
Las señales proporcionadas al decodificador pueden estar, por ejemplo, multiplexadas a una única corriente de bits. La corriente de bits puede comprender la señal de mezcla descendente codificada 26 que puede comprender además por lo menos una de la banda extendida de ancho de banda de dominio de tiempo paramétricamente codificado 38, la señal de mezcla descendente submuestreada procesada por ACELP 52, la primera información de múltiples canales 20, la señal residual de múltiples canales codificada 58, la primera representación paramétrica de un primer conjunto de bandas 46, el primer conjunto de líneas espectrales codificadas y cuantificadas para un segundo conjunto de bandas 48 y la segunda información de múltiples canales 24, que comprende la representación cuantificada y codificada del primer conjunto de bandas 80 y la segunda representación paramétrica del primer conjunto de bandas 78.
Las realizaciones muestran un método mejorado para la combinación de un códec de núcleo conmutable, la codificación conjunta de múltiples canales y la codificación de audio espacial paramétrica en un códec perceptual totalmente conmutable que permite el uso de diferentes técnicas de codificación de múltiples canales en dependencia de la elección del codificador de núcleo. En concreto, dentro de un codificador de audio conmutable, la codificación estéreo de dominios de frecuencia nativos se combina con la codificación predictiva lineal basada en ACELP/TCX que tiene su propia codificación estéreo paramétrica independiente dedicada.
La figura 5a y figura 5b muestran un mezclador descendente activo y uno pasivo, respectivamente. El mezclador descendente activo opera en el dominio de frecuencia usando, por ejemplo, un convertidor de tiempo-frecuencia 82 para la transformación de la señal de dominio de tiempo 4 en una señal de dominio de frecuencia. Después de la mezcla descendente, una conversión de frecuencia-tiempo, por ejemplo, un IDFT, puede convertir la señal de mezcla descendente desde el dominio de frecuencia a la señal de mezcla descendente 14 en el dominio de tiempo.
La figura 5b muestra un mezclador descendente pasivo 12. El mezclador descendente pasivo 12 comprende un sumador, en el que el primer canal 4a y el primer canal 4b se combinan después de la ponderación usando un peso a 84a y un peso b 84b, respectivamente. Además, el primer canal 4a y el segundo canal 4b se pueden ingresar al convertidor de tiempo-frecuencia 82 antes de la transmisión a la codificación paramétrica estéreo LPD.
En otras palabras, el mezclador descendente está configurado para convertir la señal de múltiples canales en una representación espectral y en el que la mezcla descendente se lleva a cabo usando la representación espectral o usando una representación de dominio de tiempo, y en el que el primer codificador de múltiples canales está configurado para utilizar la representación espectral para generar primera información de múltiples canales independiente para las bandas individuales de la representación espectral.
La figura 6 muestra un diagrama de bloques esquemático de un decodificador de audio 102 para la decodificación de una señal de audio codificada 103 de acuerdo con una realización. El decodificador de audio 102 comprende un decodificador de dominio de predicción lineal 104, un decodificador de dominio de frecuencia 106, un primer decodificador conjunto de múltiples canales 108, un segundo decodificador de múltiples canales 110 y un primer combinador 112. La señal de audio codificada 103, que puede ser la corriente de bits multiplexada de las porciones del codificador descritas con anterioridad, tales como, por ejemplo, tramas de la señal de audio, puede decodificarse por el decodificador conjunto de múltiples canales 108 usando la primera información de múltiples canales 20 o por el decodificador de dominio de frecuencia 106 y decodificarse en múltiples canales por el segundo decodificador conjunto de múltiples canales 110 usando la segunda información de múltiples canales 24. El primer decodificador conjunto de múltiples canales puede dar salida a una primera representación de múltiples canales 114 y la salida del segundo decodificador conjunto de múltiples canales 110 puede ser una segunda representación de múltiples canales 116.
En otras palabras, el primer decodificador conjunto de múltiples canales 108 genera una primera representación de múltiples canales 114 usando una salida del codificador de dominio de predicción lineal y usando una primera información de múltiples canales 20. El segundo decodificador de múltiples canales 110 genera una segunda representación de múltiples canales 116 usando una salida de decodificador de dominio de frecuencia y una segunda información de múltiples canales 24. Además, el primer combinador combina la primera representación de múltiples canales 114 y la segunda representación de múltiples canales 116, por ejemplo, basada en tramas, para obtener una señal de audio decodificada 118. Además, el primer decodificador conjunto de múltiples canales 108 puede ser un decodificador de múltiples canales paramétrico conjunto, por ejemplo, usando una predicción compleja, una operación estéreo paramétrica o una operación de rotación. El segundo decodificador conjunto de múltiples canales 110 puede ser un decodificador conjunto de múltiples canales de preservación de formas de onda usando, por ejemplo, un conmutador selectivo de banda para el algoritmo de decodificación estéreo intermedia/lateral o izquierdo/derecho.
La figura 7 muestra un diagrama de bloques esquemático de un decodificador 102 de acuerdo con una realización adicional. En la presente memoria, un decodificador de dominio de predicción lineal 102 comprende un decodificador de ACELP 120, un sintetizador de banda baja 122, un sobremuestreador 124, un procesador de extensión de ancho de banda de dominio de tiempo 126 o un segundo combinador 128 para la combinación de una señal sobremuestreada y una señal extendida por ancho de banda. Además, el decodificador de dominio de predicción lineal puede comprender un decodificador de TCX 132 y un procesador inteligente de llenado de espacios 132, que se representa como un bloque en la figura 7. Además, el decodificador de dominio de predicción lineal 102 puede comprender un procesador de síntesis de banda completa 134 para la combinación de una salida del segundo combinador 128 y el decodificador de TCX 130 y el procesador de IGF 132. Tal como ya se mostró con respecto al codificador, el procesador de extensión de ancho de banda de dominio de tiempo 126, el decodificador de ACELP 120 y el decodificador de TCX 130 trabajan en paralelo para decodificar la respectiva información de audio transmitida.
Puede proporcionarse una trayectoria transversal 136 para la inicialización del sintetizador de banda baja usando la información derivada de una conversión de espectro de banda baja-tiempo, usando, por ejemplo, el convertidor de frecuencia-tiempo 138 desde el decodificador de TCX 130 y el procesador de IGF 132. Con referencia a un modelo del tracto vocal, los datos de ACELP pueden modelar la forma del tracto vocal, en el que los datos de TCX pueden modelar una excitación del tracto vocal. La trayectoria transversal 136 representada por un convertidor de frecuencia de banda baja-tiempo, tal como por ejemplo un decodificador de IMDCT, permite que el sintetizador de banda baja 122 utilice la forma del tracto vocal y la presente excitación para recalcular o decodificar la señal de banda baja codificada. Además, la banda baja sintetizada se sobremuestrea por medio del sobremuestreador 124 y se combina, por ejemplo, usando el segundo combinador 128, con las bandas altas extendidas por ancho de banda de dominio de tiempo 140 para, por ejemplo, cambiar la forma de las frecuencias sobremuestreadas para recuperar, por ejemplo, una energía de cada banda sobremuestreada.
El sintetizador de banda completa 134 puede utilizar la señal de banda completa del segundo combinador 128 y la excitación del procesador de TCX 130 para formar una señal de mezcla descendente decodificada 142. El primer decodificador conjunto de múltiples canales 108 puede comprender un convertidor de tiempo-frecuencia 144 para la conversión de la salida del decodificador de dominio de predicción lineal, por ejemplo, la señal de mezcla descendente decodificada 142, en una representación espectral 145. Además, un mezclador ascendente, por ejemplo, implementado en un decodificador estéreo 146, puede estar controlado por la primera información de múltiples canales 20 para mezclar en forma ascendente la representación espectral en una señal de múltiples canales. Además, un convertidor de frecuencia-tiempo 148 puede convertir el resultado de mezcla ascendente en una representación de tiempo 114. El convertidor de tiempo-frecuencia y/o de frecuencia-tiempo puede comprender una operación compleja o una operación sobremuestreada, tal como, por ejemplo, una DFT o una IDFT.
Además, el primer decodificador conjunto de múltiples canales, o más específicamente, el decodificador estéreo 146, puede utilizar la señal residual de múltiples canales 58, por ejemplo, proporcionada por la señal de audio codificada de múltiples canales 103, para la generación de la primera representación de múltiples canales. Además, la señal residual de múltiples canales puede comprender un ancho de banda menor que la primera representación de múltiples canales, en el que el primer decodificador conjunto de múltiples canales está configurado para reconstruir una primera representación intermedia de múltiples canales usando la primera información de múltiples canales y añadir la señal residual de múltiples canales a la primera representación intermedia de múltiples canales. En otras palabras, el decodificador estéreo 146 puede comprender una decodificación de múltiples canales usando la primera información de múltiples canales 20 y, opcionalmente, una mejora de la señal de múltiples canales reconstruida por medio de la adición de la señal residual de múltiples canales a la señal de múltiples canales reconstruida, después de que la representación espectral de la señal de mezcla descendente decodificada se haya mezclado en forma ascendente en una señal de múltiples canales. Por lo tanto, la primera información de múltiples canales y la señal residual ya pueden operar en una señal de múltiples canales.
El segundo decodificador conjunto de múltiples canales 110 puede utilizar, como entrada, una representación espectral obtenida por el decodificador de dominio de frecuencia. La representación espectral comprende, por lo menos para una pluralidad de bandas, una señal del primer canal 150a y una señal del segundo canal 150b. Además, el segundo procesador conjunto de múltiples canales 110 se puede aplicar a la pluralidad de bandas de la señal del primer canal 150a y la señal del segundo canal 150b. Una operación conjunta de múltiples canales, tales como, por ejemplo, una máscara que indica, para bandas individuales, una codificación conjunta de múltiples canales izquierda/derecha o intermedia/lateral, y en la que la operación conjunta de múltiples canales es una operación de conversión intermedia/lateral o izquierda/derecha para la conversión de las bandas indicadas por la máscara de una representación intermedia/lateral a una representación izquierda/derecha, que es una conversión del resultado de la operación conjunta de múltiples canales en una representación de tiempo para obtener la segunda representación de múltiples canales. Además, el decodificador de dominio de frecuencia puede comprender un convertidor de frecuenciatiempo 152 que es, por ejemplo, una operación de IMDCT o una operación muestreada en particular. En otras palabras, la máscara puede comprender marcadores que indican, por ejemplo, la codificación estéreo I/D o I/L, en el que el segundo codificador conjunto de múltiples canales aplica el algoritmo de codificación estéreo correspondiente a las respectivas tramas de audio. Opcionalmente, se puede aplicar un algoritmo inteligente de llenado de espacios a las señales de audio codificadas para reducir aún más el ancho de banda de la señal de audio codificada. Por lo tanto, por ejemplo, las bandas de frecuencias tonales pueden codificarse a una alta resolución usando los algoritmos de codificación estéreo mencionados con anterioridad en los que otras bandas de frecuencia pueden estar codificadas paramétricamente usando, por ejemplo, un algoritmo de IGF.
En otras palabras, en la trayectoria de LPD 104, la señal mono transmitida se reconstruye por el decodificador de ACELP/TCX conmutable 120/130 compatible, por ejemplo, con los módulos de TD-BWE 126 o IGF 132. Cualquier inicialización de ACELP a raíz de la conmutación se lleva a cabo en la salida de TCX/IGF submuestreada. La salida del ACELP se sobremuestrea usando, por ejemplo, el sobremuestreador 124, a una velocidad de muestreo completa. Todas las señales se mezclan, por ejemplo, usando el mezclador 128, en el dominio de tiempo a una alta velocidad de muestreo y se procesan adicionalmente por el decodificador estéreo LPD 146 para proporcionar un estéreo de LPD.
La "decodificación estéreo" de LPD consiste en una mezcla ascendente de la mezcla descendente transmitida dirigida por la aplicación de los parámetros estéreo transmitidos 20. Opcionalmente, también un residual de mezcla descendente 58 está contenido en la corriente de bits. En este caso, se decodifica el residual y se incluye en el cálculo de la mezcla ascendente por medio de la "Decodificación Estéreo" 146.
La trayectoria de FD 106 está configurada para tener su propia decodificación de múltiples canales o estéreo conjunta independiente. Para la decodificación estéreo conjunta, vuelve a utilizar su propio banco de filtros muestreado en forma crítica y de valores reales 152, por ejemplo, a saber, el IMDCT.
La salida estéreo de LPD y la salida estéreo de FD se mezclan en el dominio de tiempo, usando, por ejemplo, el primer combinador 112 para proporcionar la salida final 118 del codificador totalmente conmutado.
Si bien los múltiples canales se describen con respecto a una decodificación estéreo en las figuras relacionadas, el mismo principio también se puede aplicar al procesamiento de múltiples canales con dos o más canales en general.
La figura 8 muestra un diagrama de bloques esquemático de un método 800 para la codificación de una señal de múltiples canales. El método 800 comprende un paso 805 de realización de una codificación de dominio de predicción lineal, un paso 810 de realización de una codificación de dominio de frecuencia, un paso 815 de conmutación entre la codificación de dominio de predicción lineal y la codificación de dominio de frecuencia, en el que la codificación de dominio de predicción lineal comprende la mezcla descendente de la señal de múltiples canales para obtener una señal de mezcla descendente, un núcleo de dominio de predicción lineal que codifica la señal de mezcla descendente y una primera codificación conjunta de múltiples canales que genera la primera información de múltiples canales a partir de la señal de múltiples canales, en el que la codificación de dominio de frecuencia comprende una segunda codificación conjunta de múltiples canales que genera una segunda información de múltiples canales a partir de la señal de múltiples canales, en el que la segunda codificación conjunta de múltiples canales es diferente de la primera codificación de múltiples canales, y en el que la conmutación se lleva a cabo de manera tal que una porción de la señal de múltiples canales esté representada ya sea por medio de una trama codificada de la codificación de dominio de predicción lineal o por medio de una trama codificada de la codificación de dominio de frecuencia.
La figura 9 muestra un diagrama de bloques esquemático de un método 900 de la decodificación de una señal de audio codificada. El método 900 comprende un paso 905 de una decodificación de dominio de predicción lineal, un paso 910 de una decodificación de dominio de frecuencia, un paso 915 de primera decodificación conjunta de múltiples canales que genera una primera representación de múltiples canales usando una salida de la decodificación de dominio de predicción lineal y usando una primera información de múltiples canales, un paso 920 de una segunda decodificación de múltiples canales que genera una segunda representación de múltiples canales usando una salida de la decodificación de dominio de frecuencia y una segunda información de múltiples canales, y un paso 925 de combinación de la primera representación de múltiples canales y la segunda representación de múltiples canales para obtener una señal de audio decodificada, en el que la segunda decodificación de información de múltiples canales es diferente de la primera decodificación de múltiples canales.
La figura 10 muestra un diagrama de bloques esquemático de un codificador de audio para la codificación de una señal de múltiples canales de acuerdo con un aspecto adicional. El codificador de audio 2’ comprende un codificador de dominio de predicción lineal 6 y un codificador residual de múltiples canales 56. El codificador de dominio de predicción lineal comprende un mezclador descendente 12 para la mezcla descendente de la señal de múltiples canales 4 para obtener una señal de mezcla descendente 14, un codificador de núcleo de dominio de predicción lineal 16 para la codificación de la señal de mezcla descendente 14. El codificador de dominio de predicción lineal 6 comprende además un codificador conjunto de múltiples canales 18 para la generación de información de múltiples canales 20 a partir de la señal de múltiples canales 4. Además, el codificador de dominio de predicción lineal comprende un decodificador de dominio de predicción lineal 50 para la decodificación de la señal de mezcla descendente codificada 26 para obtener una señal de mezcla descendente codificada y decodificada 54. El codificador de múltiples canales residual 56 puede calcular y codificar la señal residual de múltiples canales usando la señal de mezcla descendente codificada y decodificada 54. La señal residual de múltiples canales puede representar un error entre una representación de múltiples canales decodificada 54 usando la información de múltiples canales 20 y la señal de múltiples canales 4 antes de la mezcla descendente.
De acuerdo con una realización, la señal de mezcla descendente 14 comprende una banda baja y una banda alta, en la que el codificador de dominio de predicción lineal puede utilizar un procesador de extensión de ancho de banda para aplicar un procesamiento de extensión de ancho de banda para la codificación paramétrica de la banda alta, en la que el decodificador de dominio de predicción lineal está configurado para obtener, como señal de mezcla descendente codificada y decodificada 54, solamente una señal de banda baja que representa la banda baja de la señal de mezcla descendente, y en la que la señal residual de múltiples canales codificada tiene solamente una banda correspondiente a la banda baja de la señal de múltiples canales antes de la mezcla descendente. Además, la misma descripción con respecto al codificador de audio 2 se puede aplicar al codificador de audio 2’. Sin embargo, se omite la codificación de frecuencia adicional del codificador 2. Esto simplifica la configuración del codificador y por lo tanto es ventajoso, si el codificador se utiliza simplemente para señales de audio que simplemente comprenden señales, que pueden estar codificadas paramétricamente en el dominio de tiempo sin pérdida notable de calidad, o cuando la calidad de la señal de audio decodificada todavía está dentro de la especificación. Sin embargo, una codificación estéreo residual dedicada es ventajosa para aumentar la calidad de la reproducción de la señal de audio decodificada. Más específicamente, la diferencia entre la señal de audio antes de la codificación y la señal de audio codificada y decodificada se deriva y se transmite al decodificador para aumentar la calidad de reproducción de la señal de audio decodificada, dado que la diferencia entre la señal de audio decodificada y la señal de audio codificada la conoce el decodificador.
La figura 11 muestra un decodificador de audio 102’ para la decodificación de una señal de audio codificada 103 de acuerdo con un aspecto adicional. El decodificador de audio 102’ comprende un decodificador de dominio de predicción lineal 104, y un decodificador conjunto de múltiples canales 108 para la generación de una representación de múltiples canales 114 usando una salida del decodificador de dominio de predicción lineal 104 y una información conjunta de múltiples canales 20. Además, la señal de audio codificada 103 puede comprender una señal residual de múltiples canales 58, que puede usarla el decodificador de múltiples canales para la generación de la representación de múltiples canales 114. Además, las mismas explicaciones relacionadas con el decodificador de audio 102 se pueden aplicar al decodificador de audio 102’. En la presente memoria, la señal residual de la señal de audio original para la señal de audio decodificada se utiliza y se aplica a la señal de audio decodificada para por lo menos casi alcanzar la misma calidad de la señal de audio decodificada en comparación con la señal de audio original, aun cuando se utiliza codificación paramétrica y, por lo tanto, con pérdidas. Sin embargo, la parte de decodificación de frecuencia que se muestra con respecto al decodificador de audio 102 se omite en el decodificador de audio 102'.
La figura 12 muestra un diagrama de bloques esquemático de un método para la codificación de audio 1200 para la codificación de una señal de múltiples canales. El método 1200 comprende un paso 1205 de codificación de dominio de predicción lineal que comprende la mezcla descendente de la señal de múltiples canales para obtener una señal de múltiples canales mezclada en forma descendente, y un codificador de núcleo de dominio de predicción lineal que genera información de múltiples canales a partir de la señal de múltiples canales, en el que el método comprende además el dominio de predicción lineal que decodifica la señal de mezcla descendente para obtener una señal de mezcla descendente codificada y decodificada, y un paso 1210 de codificación residual de múltiples canales que calcula una señal residual de múltiples canales codificada usando la señal de mezcla descendente codificada y decodificada, representando la señal residual de múltiples canales un error entre una representación de múltiples canales decodificada usando la primera información de múltiples canales y la señal de múltiples canales antes de la mezcla descendente.
La figura 13 muestra un diagrama de bloques esquemático de un método 1300 para la decodificación de una señal de audio codificada. El método 1300 comprende un paso 1305 de una decodificación de dominio de predicción lineal y un paso 1310 de una decodificación conjunta de múltiples canales que genera una representación de múltiples canales usando una salida de la decodificación de dominio de predicción lineal y una información conjunta de múltiples canales, en el que la señal de audio de múltiples canales codificada comprende una señal residual del canal, en el que la decodificación conjunta de múltiples canales utiliza la señal residual de múltiples canales para la generación de la representación de múltiples canales.
Las realizaciones descritas pueden encontrar uso en la distribución de difusión de todos los tipos de contenido de audio estéreo o de múltiples canales (voz y música por igual con calidad de percepción constante a una baja tasa de bits dada) tal como, por ejemplo, con radio digital, transmisión por Internet y aplicaciones de comunicación de audio.
Las figuras 14 a 17 describen realizaciones de cómo aplicar la conmutación sin problemas propuesta entre la codificación de LPD y la codificación de dominio de frecuencia y viceversa. Por lo general, las ventanas o el procesamiento anteriores se indican usando líneas finas, las líneas gruesas indican las ventanas o el procesamiento actuales, donde se aplica la conmutación y las líneas discontinuas indican un procesamiento actual que se lleva a cabo exclusivamente para la transición o la conmutación. Una conmutación o una transición desde codificación de LPD hasta codificación de frecuencia.
La figura 14 muestra un diagrama de temporización esquemático que indica una realización para la conmutación sin problemas entre la codificación de dominio de frecuencia y la codificación de dominio de tiempo. Esto puede ser relevante, por ejemplo, si el controlador 10 indica que una trama actual se codifica mejor usando la codificación de LPD en lugar de la codificación de FD utilizada para la trama anterior. Durante la codificación de dominio de frecuencia, puede aplicarse una ventana de parada 200a y 200b para cada señal estéreo (que opcionalmente se puede extender a más de dos canales). La ventana de parada se diferencia del fundido de solapamiento y adición de MDCT estándar al principio 202 de la primera trama 204. La parte izquierda de la ventana de parada puede ser el solapamiento y adición clásicos para la codificación de la trama previa usando, por ejemplo, una transformada de tiempo-frecuencia de MDCT. Por lo tanto, la trama antes de la conmutación está todavía correctamente codificada. Para la trama actual 204, donde se aplica la conmutación, se calculan los parámetros estéreo adicionales, a pesar de que se calcula una primera representación paramétrica de la señal intermedia para la codificación de dominio de tiempo para la trama siguiente 206. Estos dos análisis estéreo adicionales se hacen para ser capaz de generar la señal intermedia 208 para la búsqueda hacia delante de LPD. Si bien los parámetros estéreo se transmiten (adicionalmente) para las dos primeras ventanas estéreo de LPD. En el caso normal, los parámetros estéreo se envían con dos tramas estéreo de LPD de demora. Para la actualización de las memorias de ACELP tal como para el análisis de LPC o la cancelación de alias directa (FAC), también se pone a disposición la señal intermedia para el pasado. Por lo tanto, las ventanas estéreo de LPD 210a-d de una primera señal estéreo y 212a-d para una segunda señal estéreo se puede aplicar en el banco de filtros de análisis 82, por ejemplo, antes de aplicar una conversión de tiempo-frecuencia usando una DFT. La señal intermedia puede comprender una rampa típica de fundido transversal cuando se usa la codificación de TCX, lo que da lugar a la ventana de análisis LPD representativa 214. Si se utiliza ACELP para la codificación de la señal de audio, tal como la señal mono de banda baja, simplemente se escoge un número de bandas de frecuencia sobre el cual se aplica el análisis de LPC, indicado por la ventana de análisis de LPD rectangular 216.
Además, el momento indicado por la línea vertical 218 muestra que la trama actual donde se aplica la transición comprende información de las ventanas de análisis de dominio de frecuencia 200a, 200b y la señal intermedia computada 208 y la información estéreo correspondiente. Durante la parte horizontal de la ventana de análisis de frecuencia entre las líneas 202 y 218, la trama 204 está perfectamente codificada usando la codificación de dominio de frecuencia. Desde la línea 218 hasta el final de la ventana de análisis de frecuencia en la línea 220, la trama 204 comprende información de ambas, la codificación de dominio de frecuencia y la codificación de LPD y desde la línea 220 hasta el final de la trama 204 en la línea vertical 222, sólo la codificación de LPD contribuye a la codificación de la trama. Además, se llama la atención sobre la parte intermedia de la codificación, dado que la primera y la última (tercera) parte se derivan simplemente de una técnica de codificación sin tener alias. Para la parte intermedia, sin embargo, debe diferenciarse entre la codificación de señal mono de ACELP y TCX. Dado que la codificación de TCX utiliza un fundido transversal de acuerdo con lo ya aplicado con la codificación de dominio de frecuencia, un fundido sencillo fuera de la señal de frecuencia codificada y un fundido dentro la señal intermedia codificada por TCX proporcionan información completa para la codificación de la trama actual 204. Si se utiliza ACELP para la codificación de señales mono, se puede aplicar un procesamiento más sofisticado, ya que el área 224 puede no comprender la información completa para la codificación de la señal de audio. Un método propuesto es la corrección de alias directa (FAC), por ejemplo, que se describe en las especificaciones de la USAC en la sección 7.16.
De acuerdo con un ejemplo, el controlador 10 está configurado para conmutar dentro de una trama actual 204 de una señal de audio de múltiples canales del uso del codificador de dominio de frecuencia 8 para la codificación de una trama previa en el codificador de dominio de predicción lineal para la decodificación de una trama próxima. El primer codificador conjunto de múltiples canales 18 puede calcular parámetros de múltiples canales sintéticos 210a, 210b, 212a, 212b de la señal de audio de múltiples canales para la trama actual, en el que el segundo codificador conjunto de múltiples canales 22 está configurado para ponderar la segunda señal de múltiples canales usando una ventana de parada.
La figura 15 muestra un diagrama de temporización esquemático de un decodificador correspondiente a las operaciones del codificador de la figura 14. En la presente memoria, la reconstrucción de la trama actual 204 se describe de acuerdo con una realización. De acuerdo con lo que ya se ha observado en el diagrama de temporización del codificador de la figura 14, los canales estéreo de dominio de frecuencia se proporcionan a partir de la trama previa que tiene aplicadas las ventanas de parada 200a y 200b. Las transiciones del modo de FD a LPD se llevan a cabo por primera vez en la señal intermedia decodificada como en el caso de mono. Esto se logra por medio de la creación artificial de una señal intermedia 226 a partir de la señal de dominio de tiempo 116 decodificada en el modo de FD, donde ccfl es la longitud de la trama del código de núcleo y L_fac denota una longitud de la ventana de cancelación de alias de frecuencia o trama o bloque o transformada.
Esta señal se transporta entonces al decodificador de LPD 120 para la actualización de las memorias y la aplicación de la decodificación de FAC tal como se realiza en el caso de mono para las transiciones de modo de FD a ACELP. El procesamiento se describe en las especificaciones de la USAC [ISO/IEC DIS 23003-3, Usac] en la sección 7.16. En el caso del modo FD a TCX, se lleva a cabo un solapamiento-adición convencional. El decodificador estéreo de LPD 146 recibe como señal de entrada una señal intermedia decodificada (en el dominio de frecuencia después de que se aplique la conversión de tiempo-frecuencia del convertidor de tiempo-frecuencia 144), por ejemplo, por medio de la aplicación de los parámetros estéreo transmitidos 210 y 212 para el procesamiento estéreo, donde la transición ya está hecha. El decodificador estéreo da salida entonces a una señal del canal izquierdo y derecho 228, 230 que se superpone a la trama previa decodificada en el modo de FD. Las señales, a saber, la señal de dominio de tiempo decodificada por FD y la señal de dominio de tiempo decodificada por LPD para la trama donde se aplica la transición, se funden entonces de manera transversal (en el combinador 112) en cada canal para suavizar la transición en los canales izquierdo y derecho:
En la figura 15, la transición se ilustra esquemáticamente usando M = ccfl/2. Además, el combinador puede llevar a cabo un fundido transversal en tramas consecutivas que se decodifican usando sólo decodificación de FD o LPD sin una transición entre estos modos.
En otras palabras, el proceso de solapamiento y adición de la decodificación de FD, en especial cuando se utiliza una MDCT/IMDCT para la conversión de tiempo-frecuencia/frecuencia-tiempo, se sustituye por un fundido transversal de la señal de audio decodificada por FD y la señal de audio decodificada por LPD. Por lo tanto, el decodificador debe calcular una señal de LPD para la parte de fundido hacia fuera de la señal de audio decodificada por FD para fundir hacia dentro la señal de audio decodificada por LPD. De acuerdo con una realización, el decodificador de audio 102 está configurado para conmutar dentro de una trama actual 204 de una señal de audio de múltiples canales del uso del decodificador de dominio de frecuencia 106 para la decodificación de una trama previa al decodificador de dominio de predicción lineal 104 para la decodificación de una trama próxima. El combinador 112 puede calcular una señal intermedia sintética 226 a partir de la segunda representación de múltiples canales 116 de la trama actual. El primer decodificador conjunto de múltiples canales 108 puede generar la primera representación de múltiples canales 114 usando la señal intermedia sintética 226 y una primera información de múltiples canales 20. Además, el combinador 112 está configurado para la combinación de la primera representación de múltiples canales y la segunda representación de múltiples canales para obtener una trama actual decodificada a partir de la señal de audio de múltiples canales.
La figura 16 muestra un diagrama de temporización esquemático en el codificador para llevar a cabo una transición del uso de la codificación de LPD al uso de la decodificación de FD en una trama actual 232. Para conmutar de codificación de LPD a FD, puede aplicarse una ventana de inicio 300a, 300b en la codificación de múltiples canales de FD. La ventana de inicio tiene una funcionalidad similar en comparación con la ventana de parada 200a, 200b. Durante el fundido hacia fuera de la señal mono-codificada por TCX del codificador de LPD entre las líneas verticales 234 y 236, la ventana de inicio 300a, 300b lleva a cabo un fundido hacia dentro. Cuando se utiliza ACELP en lugar de TCX, la señal mono no lleva a cabo un fundido hacia fuera suave. No obstante, la señal de audio correcta puede reconstruirse en el decodificador usando, por ejemplo, FAC. Las ventanas estéreo LPD 238 y 240 se calculan por defecto y se refieren a la señal mono-codificada por ACELP o TCX, indicada por las ventanas de análisis LPD 241.
La figura 17 muestra un diagrama de temporización esquemático en el decodificador correspondiente al diagrama de tiempos del codificador descrito con respecto a la figura 16.
Para la transición del modo de LPD al modo de FD, una trama adicional se decodifica por un decodificador estéreo 146. La señal intermedia procedente del decodificador del modo LPD se extiende con cero para el índice de trama i = ccfl/M.
La decodificación estéreo tal como se describió con anterioridad se puede llevar a cabo tomando los últimos parámetros estéreo, y por medio de la desconexión de la cuantificación inversa de la señal lateral, es decir code_mode se establece en 0. Además, la ventana del lado derecho después de la DFT inversa no se aplica, lo que da lugar a un borde afilado 242a, 242b de la ventana estéreo de LPD adicional 244a, 244b. Se puede observar claramente que el borde afilado se encuentra en el plano de sección 246a, 246b, donde toda la información de la parte correspondiente de la trama puede ser derivada de la señal de audio codificada por FD. Por lo tanto, una ventana del lado derecho (sin el borde afilado) podría dar lugar a una interferencia no deseada de la información de LPD en la información de FD y por lo tanto no se aplica.
Los canales resultantes izquierdo y derecho (decodificados por LPD) 250a, 250b (usando la señal intermedia decodificada por LPD indicada por ventanas de análisis LPD 248 y los parámetros estéreo) se combinan entonces con los canales decodificados por el modo de FD de la siguiente trama usando un procesamiento de solapamiento-adición en el caso del modo de TCX a FD o usando un FAC para cada canal en el caso del modo de ACELP a FD. Una ilustración esquemática de las transiciones se representa en la figura 17, donde M = ccfl/2.
De acuerdo con realizaciones, el decodificador de audio 102 puede conmutar dentro de una trama actual 232 de una señal de audio de múltiples canales usando el decodificador de dominio de predicción lineal 104 para la decodificación de una trama previa al decodificador de dominio de frecuencia 106 para la decodificación de una trama próxima. El decodificador estéreo 146 puede calcular una señal de audio de múltiples canales sintética a partir de una señal mono decodificada del decodificador de dominio de predicción lineal para una trama actual usando la información de múltiples canales de una trama previa, en el que el segundo decodificador conjunto de múltiples canales 110 puede calcular la segunda representación de múltiples canales para la trama actual y ponderar la segunda representación de múltiples canales usando una ventana de inicio. El combinador 112 puede combinar la señal de audio de múltiples canales sintética y la segunda representación de múltiples canales ponderada para obtener una trama actual decodificada de la señal de audio de múltiples canales.
La figura 18 muestra un diagrama de bloques esquemático de un codificador 2’’ para la codificación de una señal de múltiples canales 4. El codificador de audio 2’’ comprende un mezclador descendente 12, un codificador de núcleo de dominio de predicción lineal 16, un banco de filtros 82 y un codificador conjunto de múltiples canales 18. El mezclador descendente 12 está configurado para la mezcla descendente de la señal de múltiples canales 4 para obtener una señal de mezcla descendente 14. La señal de mezcla descendente puede ser una señal mono, tal como por ejemplo, una señal intermedia de una señal de audio de múltiples canales I/L. El codificador de núcleo de dominio de predicción lineal 16 puede codificar la señal de mezcla descendente 14, en el que la señal de mezcla descendente 14 tiene una banda baja y una banda alta, en el que el codificador de núcleo de dominio de predicción lineal 16 está configurado para aplicar un procesamiento de extensión de ancho de banda para la codificación paramétrica de la banda alta. Además, el banco de filtros 82 puede generar una representación espectral de la señal de múltiples canales 4 y el codificador conjunto de múltiples canales 18 puede estar configurado para procesar la representación espectral que comprende la banda baja y la banda alta de la señal de múltiples canales para la generación de información de múltiples canales 20. La información de múltiples canales puede comprender parámetros de ILD y/o IPD y/o 11D (Diferencia de Intensidad Interaural), lo que permite a un decodificador volver a calcular la señal de audio de múltiples canales a partir de la señal mono. Un dibujo más detallado de aspectos adicionales de realizaciones de acuerdo con este aspecto se puede encontrar en las figuras anteriores, especialmente en la figura 4.
El codificador de núcleo de dominio de predicción lineal 16 puede comprender, además, un decodificador de dominio de predicción lineal para la decodificación de la señal de mezcla descendente codificada 26 para obtener una señal de mezcla descendente codificada y decodificada 54. En la presente memoria, el codificador de núcleo de dominio de predicción lineal puede formar una señal intermedia de una señal de audio I/L que está codificada para la transmisión a un decodificador. Además, el codificador de audio comprende además un codificador residual de múltiples canales 56 para calcular una señal residual de múltiples canales codificada 58 usando la señal de mezcla descendente codificada y decodificada 54. La señal residual de múltiples canales representa un error entre una representación de múltiples canales decodificada usando la información de múltiples canales 20 y la señal de múltiples canales 4 antes de la mezcla descendente. En otras palabras, la señal residual de múltiples canales 58 puede ser una señal lateral de la señal de audio I/L, correspondiente a la señal intermedia calculada usando el codificador de núcleo de dominio de predicción lineal.
El codificador de núcleo de dominio de predicción lineal 16 está configurado para aplicar un procesamiento de extensión de ancho de banda para la codificación paramétrica de la banda alta y para obtener, como señal de mezcla descendente codificada y decodificada, solamente una señal de banda baja que representa la banda baja de la señal de mezcla descendente, y en el que la señal residual de múltiples canales codificada 58 tiene solamente una banda correspondiente a la banda baja de la señal de múltiples canales antes de la mezcla descendente. Adicional o alternativamente, el codificador residual de múltiples canales puede simular la extensión de ancho de banda de dominio de tiempo que se aplica sobre la banda alta de la señal de múltiples canales en el codificador de núcleo de dominio de predicción lineal y calcular una señal residual o lateral para la banda alta para permitir una decodificación más precisa de la señal mono o intermedia para derivar la señal de audio de múltiples canales decodificada. La simulación puede comprender el mismo o un cálculo similar, que se lleva a cabo en el decodificador para decodificar la banda alta extendida por ancho de banda. Un enfoque alternativo o adicional para la simulación de la extensión de ancho de banda puede ser una predicción de la señal lateral. Por lo tanto, el codificador residual de múltiples canales puede calcular una señal residual de banda completa a partir de una representación paramétrica 83 de la señal de audio de múltiples canales 4 después de la conversión de tiempo-frecuencia en el banco de filtros 82. Esta señal lateral de banda completa se puede comparar con una representación de frecuencia de una señal intermedia de banda completa derivada del mismo modo a partir de la representación paramétrica 83. La señal intermedia de banda completa se puede calcular, por ejemplo, como la suma del canal izquierdo y derecho de la representación paramétrica 83 y la señal lateral de banda completa como una diferencia de la misma. Además, la predicción puede por lo tanto calcular un factor de predicción de la señal intermedia de banda completa que minimiza una diferencia absoluta de la señal lateral de banda completa y el producto del factor de predicción y la señal intermedia de banda completa.
En otras palabras, el codificador de dominio de predicción lineal puede estar configurado para calcular la señal de mezcla descendente 14 como una representación paramétrica de una señal intermedia de una señal de audio de múltiples canales I/L, en el que el codificador residual de múltiples canales puede estar configurado para calcular una señal lateral correspondiente a la señal intermedia de la señal de audio de múltiples canales I/L, en el que el codificador residual puede calcular una banda alta de la señal intermedia usando simulación de extensión de ancho de banda de dominio de tiempo o en el que el codificador residual puede predecir la banda alta de la señal intermedia usando el hallazgo de una información de predicción que minimiza una diferencia entre una señal lateral calculada y una señal intermedia de banda completa calculada a partir de la trama previa.
Otros ejemplos muestran el codificador de núcleo de dominio de predicción lineal 16 que comprende un procesador de ACELP 30. El procesador de ACELP puede operar sobre una señal de mezcla descendente submuestreada 34. Además, un procesador de extensión de ancho de banda de dominio de tiempo 36 está configurado para codificar paramétricamente una banda de una porción de la señal de mezcla descendente retirada de la señal de entrada de ACELP por un tercer submuestreo. Adicional o alternativamente, el codificador de núcleo de dominio de predicción lineal 16 puede comprender un procesador de TCX 32. El procesador de TCX 32 puede operar sobre la señal de mezcla descendente 14 no submuestreada o submuestreada en un grado menor que el submuestreo para el procesador de ACELP. Además, el procesador de TCX puede comprender un primer convertidor de tiempo-frecuencia 40, un primer generador de parámetros 42 para la generación de una representación paramétrica 46 de un primer conjunto de bandas y un primer codificador del cuantificador 44 para la generación de un conjunto de líneas espectrales codificadas y cuantificadas 48 para un segundo conjunto de bandas. El procesador de ACEL<p>y el procesador de TCX se pueden llevar a cabo ya sea por separado, por ejemplo, un primer número de tramas se codifica usando ACELP y un segundo número de tramas se codifica usando t Cx , o de manera conjunta, en la que ambos, ACELP y TCX aportan información para la decodificación de una trama.
Otros ejemplos muestran el convertidor de tiempo-frecuencia 40 que es diferente del banco de filtros 82. El banco de filtros 82 puede comprender parámetros de filtro optimizados para generar una representación espectral 83 de la señal de múltiples canales 4, en el que el convertidor de tiempo-frecuencia 40 puede comprender parámetros de filtro optimizados para generar una representación paramétrica 46 de un primer conjunto de bandas. En un paso adicional, se ha de señalar que el codificador de dominio de predicción lineal utiliza un banco de filtros diferente o incluso ninguno en el caso de extensión de ancho de banda y/o ACELP. Además, el banco de filtros 82 puede calcular parámetros de filtro separados para generar la representación espectral 83 sin depender de una elección de parámetro anterior del codificador de dominio de predicción lineal. En otras palabras, la codificación de múltiples canales en el modo de LPD puede utilizar un banco de filtros para el procesamiento de múltiples canales (DFT), que no es el utilizado en la extensión de ancho de banda (dominio de tiempo para ACELP y MDCT para TCX). Una ventaja de los mismos es que cada codificación paramétrica puede utilizar su descomposición de tiempo-frecuencia óptima para obtener sus parámetros. Por ejemplo, una combinación de ACELP TDBWE y codificación paramétrica de múltiples canales con un banco de filtros externo (por ejemplo, DFT) es ventajosa. Esta combinación es eficaz en particular ya que se sabe que la mejor extensión de ancho de banda para la voz debe estar en el dominio de tiempo y el procesamiento de múltiples canales en el dominio de frecuencia. Dado que ACELP TDBWE no tienen ningún convertidor de tiempofrecuencia, se usa un banco de filtro externo o transformación como DFT o incluso puede ser necesario. Otros conceptos utilizan siempre el mismo banco de filtros y por lo tanto no utilizan diferentes bancos de filtros, tales como, por ejemplo:
- IGF y codificación estéreo conjunta para AAC en MDCT
- SBR PS para HeAACv2 en QMF
- SBR MPS212 para la USAC en QMF.
El codificador de múltiples canales comprende un primer generador de trama y el codificador de núcleo de dominio de predicción lineal comprende un segundo generador de trama, en el que el primer y el segundo generador de trama están configurados para formar una trama a partir de la señal de múltiples canales 4, en el que el primer y el segundo generador de trama están configurados para formar una trama de una longitud similar. En otras palabras, el entramado del procesador de múltiples canales puede ser el mismo que el usado en ACELP. Incluso si el procesamiento de múltiples canales se lleva a cabo en el dominio de frecuencia, la resolución de tiempo para el cómputo de sus parámetros o mezcla descendente debe ser idealmente cercana o incluso igual a la formulación de ACELP. Una longitud similar en este caso se puede referir al entramado de ACELP, que puede ser igual o cercana a la resolución de tiempo para el cálculo de los parámetros para el procesamiento de múltiples canales o la mezcla descendente.
El codificador de audio comprende además un codificador de dominio de predicción lineal 6, que comprende el codificador de núcleo de dominio de predicción lineal 16 y el codificador de múltiples canales 18, un codificador de dominio de frecuencia 8 y un controlador 10 para la conmutación entre el codificador de dominio de predicción lineal 6 y el codificador de dominio de frecuencia 8. El codificador de dominio de frecuencia 8 puede comprender un segundo codificador conjunto de múltiples canales 22 para la codificación de segunda información de múltiples canales 24 a partir de la señal de múltiples canales, en el que el segundo codificador conjunto de múltiples canales 22 es diferente del primer codificador conjunto de múltiples canales 18. Además, el controlador 10 está configurado de manera tal que una porción de la señal de múltiples canales esté representada ya sea por medio de una trama codificada del codificador de dominio de predicción lineal o por medio de una trama codificada del codificador de dominio de frecuencia.
La figura 19 muestra un diagrama de bloques esquemático de un decodificador 102’’ para la decodificación de una señal de audio codificada 103 que comprende una señal codificada de núcleo, parámetros de extensión de ancho de banda e información de múltiples canales de acuerdo con un aspecto adicional. El decodificador de audio comprende un decodificador de núcleo de dominio de predicción lineal 104, un banco de filtros de análisis 144, un decodificador de múltiples canales 146, y un procesador del banco de filtros de síntesis 148. El decodificador de núcleo de dominio de predicción lineal 104 puede decodificar la señal de núcleo codificada para generar una señal mono. Esta puede ser una señal intermedia (de banda completa) de una señal de audio codificada I/L. El banco de filtros de análisis 144 puede convertir la señal mono en una representación espectral 145 en el que el decodificador de múltiples canales 146 puede generar un espectro del primer canal y un espectro del segundo canal a partir de la representación espectral de la señal mono y la información de múltiples canales 20. Por lo tanto, el decodificador de múltiples canales puede utilizar la información de múltiples canales, por ejemplo, que comprende una señal lateral correspondiente a la señal intermedia decodificada. Un procesador de banco de filtros de síntesis 148 configurado para la filtración de síntesis del espectro del primer canal para obtener una señal del primer canal y para la filtración de síntesis del espectro del segundo canal para obtener una señal del segundo canal. Por lo tanto, preferiblemente puede aplicarse la operación inversa en comparación con el banco de filtros de análisis 144 a la señal del primer y segundo canal, que puede ser una IDFT si el banco de filtros de análisis utiliza una DFT. Sin embargo, el procesador de banco de filtros puede procesar, por ejemplo, los espectros de dos canales en paralelo o en un orden consecutivo usando, por ejemplo, el mismo banco de filtros. Otros dibujos detallados con respecto a este aspecto adicional se pueden observar en las figuras anteriores, en especial con respecto a la figura 7.
El decodificador de núcleo de dominio de predicción lineal comprende un procesador de extensión de ancho de banda 126 para la generación de una porción de banda alta 140 a partir de los parámetros de extensión de ancho de banda y la señal mono de banda baja o la señal codificada de núcleo para obtener una banda alta decodificada 140 de la señal de audio , un procesador de señal de banda baja configurado para decodificar la señal mono de banda baja, y un combinador 128 configurado para calcular una señal mono de banda completa usando la señal mono de banda baja decodificada y la banda alta decodificada de la señal de audio. La señal mono de banda baja puede ser, por ejemplo, una representación de banda base de una señal intermedia de una señal de audio de múltiples canales I/L en la que los parámetros de extensión de ancho de banda se pueden aplicar para calcular (en el combinador 128) una señal mono de banda completa de la señal mono de banda baja.
De acuerdo con otras realizaciones, el decodificador de dominio de predicción lineal comprende un decodificador de ACELP 120, un sintetizador de banda baja 122, un sobremuestreador 124, un procesador de extensión de ancho de banda de dominio de tiempo 126 o un segundo combinador 128, en el que el segundo combinador 128 está configurado para la combinación de una señal de banda baja submuestreada y una señal de banda alta extendida por ancho de banda 140 para obtener una señal mono decodificada por ACELP de banda completa. El decodificador de dominio de predicción lineal puede comprender además un decodificador de TCX 130 y un procesador inteligente de llenado de espacios 132 para obtener una señal mono-decodificada por TCX de banda completa. Por lo tanto, un procesador de síntesis de banda completa 134 puede combinar la señal mono-decodificada por ACELP de banda completa y la señal mono-decodificada por TCX de banda completa. Además, puede proporcionarse una trayectoria transversal 136 para la inicialización del sintetizador de banda baja usando la información obtenida por una conversión de espectro de banda baja-tiempo a partir del decodificador de TCX y el procesador de IGF.
De acuerdo con otras realizaciones, el decodificador de audio comprende un decodificador de dominio de frecuencia 106, un segundo decodificador conjunto de múltiples canales 110 para la generación de una segunda representación de múltiples canales 116 usando una salida del decodificador de dominio de frecuencia 106 y una segunda información de múltiples canales 22, 24, y un primer combinador 112 para la combinación de la señal del primer canal y la señal del segundo canal con la segunda representación de múltiples canales 116 para obtener una señal de audio decodificada 118, en el que el segundo decodificador conjunto de múltiples canales es diferente del primer decodificador conjunto de múltiples canales. Por lo tanto, el decodificador de audio puede cambiar entre una decodificación paramétrica de múltiples canales usando LPD o una decodificación de dominio de frecuencia. Este enfoque ya se ha descrito en detalle con respecto a las figuras anteriores.
De acuerdo con otras realizaciones, el banco de filtros de análisis 144 comprende una DFT para convertir la señal mono en una representación espectral 145 y en el que el procesador de síntesis de banda completa 148 comprende una IDFT para la conversión de la representación espectral 145 en la señal del primer y segundo canal. Además, el banco de filtros de análisis puede aplicar una ventana en la representación espectral convertida por DFT 145 de manera tal que una porción derecha de la representación espectral de una trama previa y una porción izquierda de la representación espectral de una trama actual se solapen, en el que la trama previa y la trama actual son consecutivas. En otras palabras, puede aplicarse un fundido transversal de un bloque DFT a otro para llevar a cabo una transición suave entre bloques de DFT consecutivos y/o para reducir los artefactos de los bloques.
De acuerdo con otras realizaciones, el decodificador de múltiples canales 146 está configurado para obtener la señal del primer y segundo canal a partir de la señal mono, en el que la señal mono es una señal intermedia de una señal de múltiples canales y en el que el decodificador de múltiples canales 146 está configurado para obtener una señal de audio decodificada de múltiples canales I/L, en el que el decodificador de múltiples canales está configurado para calcular la señal lateral de la información de múltiples canales. Además, el decodificador de múltiples canales 146 puede estar configurado para calcular una señal de audio decodificada de múltiples canales I/D a partir de la señal de audio decodificada de múltiples canales I/L, en el que el decodificador de múltiples canales 146 puede calcular la señal de audio decodificada de múltiples canales I/D para una banda baja usando la información de múltiples canales y la señal lateral. Adicional o alternativamente, el decodificador de múltiples canales 146 puede calcular una señal lateral predicha a partir de la señal intermedia y en el que el decodificador de múltiples canales puede estar configurado además para calcular la señal de audio decodificada de múltiples canales I/D para una banda alta usando la señal lateral predicha y un valor de ILD de la información de múltiples canales.
Además, el decodificador de múltiples canales 146 puede estar configurado además para llevar a cabo una operación compleja en la señal de audio decodificada de múltiples canales I/D, en el que el decodificador de múltiples canales puede calcular una magnitud de la operación compleja usando una energía de la señal intermedia codificada y una energía de la señal de audio decodificada de múltiples canales I/D para obtener una compensación de energía. Además, el decodificador de múltiples canales está configurado para calcular una fase de la operación compleja usando un valor de IPD de la información de múltiples canales. Después de la decodificación, una energía, nivel o fase de la señal decodificada de múltiples canales puede ser diferente de la señal mono-decodificada. Por lo tanto, la operación compleja puede determinarse de manera tal que la energía, el nivel o la fase de la señal de múltiples canales se ajuste a los valores de la señal mono-decodificada. Además, la fase se puede ajustar a un valor de una fase de la señal de múltiples canales antes de la codificación, usando, por ejemplo, parámetros de IPD calculados partir de la información de múltiples canales calculada en el lado del codificador. Además, la percepción humana de la señal decodificada de múltiples canales se puede adaptar a una percepción humana de la señal de múltiples canales original antes de la codificación.
La figura 20 muestra una ilustración esquemática de un diagrama de flujo de un método 2000 para la codificación de una señal de múltiples canales. El método comprende un paso 2050 de mezcla descendente de la señal de múltiples canales para obtener una señal de mezcla descendente, un paso 2100 de codificación de la señal de mezcla descendente, en el que la señal de mezcla descendente tiene una banda baja y una banda alta, en el que el codificador de núcleo de dominio de predicción lineal está configurado para aplicar un procesamiento de extensión de ancho de banda para la codificación paramétrica de la banda alta, un paso 2150 de generación de una representación espectral de la señal de múltiples canales y un paso 2200 de procesamiento de la representación espectral que comprende la banda baja y la banda alta de la señal de múltiples canales para generar información de múltiples canales.
La figura 21 muestra una ilustración esquemática de un diagrama de flujo de un método 2100 para la decodificación de una señal de audio codificada, que comprende una señal codificada de núcleo, parámetros de extensión de ancho de banda e información de múltiples canales. El método comprende un paso 2105 de decodificación de la señal codificada de núcleo para generar una señal mono, un paso 2110 de conversión de la señal mono en una representación espectral, un paso 2115 de generación de un espectro del primer canal y un espectro del segundo canal a partir de la representación espectral de la señal mono y la información de múltiples canales y un paso 2120 de filtración de síntesis del espectro del primer canal para obtener una señal del primer canal y la filtración de síntesis del espectro del segundo canal para obtener una señal del segundo canal.
Se describen otras realizaciones tal como sigue.
Cambios en la sintaxis de la corriente de bits
La tabla 23 de las especificaciones de USAC [1] en la sección 5.3.2 La carga útil subsidiaria se debe modificar tal como sigue:
Tabla 1 - Sintaxis de UsacCoreCoderData()
_________________________________________________________________________ En la siguiente tabla se debe añadir:
Tabla 1 - Sintaxis de lpd_stereo_stream()
________ _________________________________________________________
La siguiente descripción de carga útil se debe añadir en la sección 6.2, carga útil de USAC.
6.2.xlpd_stereo_stream()
El procedimiento de decodificación detallado se describe en la sección de decodificación estéreo 7.x LPD.
Términos y definiciones
lpd_stereo_stream() Elemento de datos para decodificar los datos estéreo para el modo de LPD
res_modeMarcador que indica la resolución de frecuencia de las bandas de parámetros.
q_modeMarcador que indica la resolución de tiempo de las bandas de parámetros.
ipd_modeCampo de bits que define el máximo de bandas de parámetros para el parámetro de IPD.pred_modeMarcador que indica si se utiliza predicción.
cod_modeCampo de bits que define el máximo de bandas de parámetros para el que se cuantifica la señal lateral.
Ild_idx [k] [b]Índice de parámetros de ILD para la trama k y la banda b.
Ipd_idx [k] [b]Índice de parámetros de IPD para la trama k y la banda b.
pred_gain_idx [k] [b]Índice de ganancia de predicción para la trama k y la banda b.
cod_gain_idxÍndice de ganancia global para la señal lateral cuantificada.
Elementos auxiliares
ccfl Longitud de trama del código de núcleo.
M Longitud de trama de LPD estéreo de acuerdo con lo definido en la Tabla 7.x.1. band_config() Función que devuelve el número de bandas de parámetros codificados. La función se define en 7.x
band_limits() Función que devuelve el número de bandas de parámetros codificados. La función se define en 7.x
max_band() Función que devuelve el número de bandas de parámetros codificados. La función se define en 7.x
ipd_max_band() Función que devuelve el número de bandas de parámetros codificados. La función se define en 7.x
cod_max_band() Función que devuelve el número de bandas de parámetros codificados. La función se define en 7.x
cod L Número de líneas de DFT de la señal lateral decodificada.
Proceso de decodificación
Codificación estéreo de LPD
Descripción de la herramienta
Estéreo de LPD es una codificación estéreo discreta de I/L, donde el canal intermedio está codificado por el codificador de núcleo de LPD mono y la señal lateral codificada en el dominio de DFT. La señal intermedia decodificada se emite desde el decodificador mono de LPD y luego se procesa por el módulo de LPD estéreo. La decodificación estéreo se lleva a cabo en el dominio de DFT donde se decodifican los canales de I y D. Los dos canales decodificados se transforman de nuevo en el dominio de tiempo y entonces se pueden combinar en este dominio con los canales decodificados desde el modo de FD. El modo de codificación de FD está usando sus propias herramientas estéreo, es decir, estéreo discreta con o sin predicción compleja.
Elementos de datos
res_modeMarcador que indica la resolución de frecuencia de las bandas de parámetros.
q_modeMarcador que indica la resolución de tiempo de las bandas de parámetros.
ipd_modeCampo de bits que define el máximo de bandas de parámetros para el parámetro de IPD.pred_modeMarcador que indica si se utiliza predicción.
cod_modeCampo de bits que define el máximo de bandas de parámetros para el que se cuantifica la señal lateral.
Ild_idx [k] [b]Índice de parámetros de ILD para la trama k y la banda b.
Ipd_idx [k] [b]Índice de parámetros de IPD para la trama k y la banda b.
pred_gain_idx [k] [b]Índice de ganancia de predicción para la trama k y la banda b.
cod_gain_idxÍndice de ganancia global para la señal lateral cuantificada.
Elementos de ayuda
ccfl Longitud de trama del código de núcleo.
M Longitud de trama de LPD estéreo de acuerdo con lo definido en la Tabla 7.x.1. band_config() Función que devuelve el número de bandas de parámetros codificados. La función se define en 7.x
band_limits() Función que devuelve el número de bandas de parámetros codificados. La función se define en 7.x
max_band() Función que devuelve el número de bandas de parámetros codificados. La función se define en 7.x
ipd_max_band() Función que devuelve el número de bandas de parámetros codificados. La función se define en 7.x
cod_max_band() Función que devuelve el número de bandas de parámetros codificados. La función se define en 7.x
cod L Número de líneas de DFT de la señal lateral decodificada.
Proceso de decodificación
La decodificación estéreo se lleva a cabo en el dominio de frecuencia. Actúa como un post-procesamiento del decodificador de LPD. Recibe del decodificador de LPD la síntesis de la señal intermedia mono. A continuación, la señal lateral se decodifica o se predice en el dominio de frecuencia. Los espectros de canales se reconstruyen entonces en el dominio de frecuencia antes de resintetizarse en el dominio de tiempo. La LPD estéreo trabaja con un tamaño de trama fijo igual al tamaño de la trama de ACELP independientemente del modo de codificación utilizado en el modo de LPD.
Análisis de frecuencia
El espectro de DFT del índice de tramaise calcula a partir de la trama decodificada x de longitud M.
dondeNes el tamaño del análisis de la señal,wes la ventana de análisis y x la señal de tiempo decodificada del decodificador LPD en el índice de tramairetrasado por el tamaño de solapamientoLde la DFT.Mes igual al tamaño de la trama de ACELP a la velocidad de muestreo utilizada en el modo de FD.Nes igual al tamaño de la trama LPD estéreo más el tamaño de solapamiento de la DFT. Los tamaños dependen de la versión de LPD utilizada de acuerdo con lo notificado en la Tabla 7.x.1.
Tabla 7.x.1 - DFT y tamaños constructivos de la LPD estéreo
La ventanawes una ventana sinusoidal que se define como:
Configuración de las bandas de parámetros
El espectro de DFT se divide en bandas de frecuencia no solapadas denominadas bandas de parámetros. La partición del espectro no es uniforme e imita la descomposición de frecuencia auditiva. Dos divisiones diferentes del espectro son posibles con anchos de banda que siguen aproximadamente o bien dos o bien cuatro veces el Ancho de Banda Rectangular Equivalente (ERB). La partición del espectro se selecciona por el elemento de datosres_mody se define por el siguiente pseudo-código:
Función nbands=band_config(N, res_mod)
band_limits[0]=1;
nbands=0;
mientras que (band_limits[nbands +]<(N/2)){
s i(stereo_lpd_res==0)
band_limits[nbands]=band_limits_erb2[nbands];
si no
band_limits[nbands]=band_limits_erb4[nbands];
}
nbands--;
band_limits[nbands]=N/2;
volver a nbands
dondenbandses el número total de bandas de parámetros yNel tamaño de la ventana de análisis de DFT. Las tablasband_limits_erb2yband_limits_erb4se definen en la Tabla 7.x.2. El decodificador puede cambiar adaptativamente las resoluciones de las bandas de parámetros del espectro cada dos tramas de LPD estéreo.
Tabla 7.x.2 - Límites de la banda de parámetros en términos del índice k de DFT
El número máximo de bandas de parámetros para IPD se envía dentro del elemento de datosipd_modde campo de 2 bits:
ipdjnax _band=max_band[res_mod][ipd_mod]
El número máximo de bandas de parámetros para la codificación de la señal lateral se envía dentro del elemento de datoscod_modde campo de 2 bits:
codjnax _band = max_band[resjnod][cod_mod]
La tablamax_band[][]se define en la Tabla 7.x.3.
El número de decodificados alineados a esperar por la señal lateral se computa entonces como:
cod_L =2 • (band_limits[cod_max_band] — 1)
Tabla 7.x.3 - Número máximo de bandas para los diferentes modos de código
Cuantificación inversa de parámetros estéreo
Los parámetros estéreo de Diferencias de Nivel Intercanales (ILD), Diferencias de Fase Intercanales (IPD) y las ganancias de predicción o bien se envían cada trama o cada dos tramas en función del marcadorq_mode. Siq_modees igual a 0, los parámetros se actualizan en cada trama. De lo contrario, los valores de los parámetros sólo se actualizan para el índice imparide la trama de LPD estéreo dentro de la trama USAC. El índiceide la trama de LPD estéreo dentro de la trama USAC puede ser de entre 0 y 3 en la versión 0 de LPD y entre 0 y 1 en la versión 1 de LPD. El ILD se decodifica tal como sigue:
ILD¿[b] =ild_q[Lld_idx[i][b]] .para 0 <b < nbands
El IPD se decodifica para las primeras bandas deipd max band:
Las ganancias de predicción solamente se decodifican del marcador pred_mode que se ajusta en uno. Las ganancias decodificadas son entonces:
pred_gain.i<[b ]>
<í 0 Para 0 <>b < cod_max _band \res_pred_gain_q[pred_gain_idx[i][b] ] cod_max_band < b < nbands
Si el pred_mode es igual a cero, todas las ganancias se ajustan a cero.
Independientemente del valor deq_mode, la decodificación de la señal lateral se lleva a cabo cada trama sicode_modees un valor distinto de cero. En primer lugar, decodifica una ganancia global:
c o d _ g a irii = 10 cod_gain_idx[i]-20.i27/90
La forma decodificada de la Señal lateral es la salida de la AVQ descrita en la especificación de USAC [1 ] en la sección.
Tabla 7.X.4 - Tabla de cuantificación Inversa ild_q[]
Tabla 7.X.5 - Tabla de cuantificación inversa res_pres_gain_q[]
Mapeo de canales inversos
La señal intermediaX yla Señal lateral Sse convierten primero a los canales izquierdo y derecho I y D tal como sigue:
Para las bandas de parámetros por debajo decod_max_band,los dos canales se actualizan con la Señal lateral decodificada:
Para las bandas de parámetros más altas, la señal lateral se predice y los canales se actualizan como:
Finalmente, los canales se multiplican por un valor complejo con el objetivo de restaurar la energía original y la fase inter-canal de las señales:
Donde
donde c está obligado a ser -12 y 12dB.
y donde
/? = atan2(sen(/PD¿[6]) , cos(7PD¿[¿>]) c),
Donde atan2(x,y) es la inversa de la tangente de cuatro cuadrantes de x por encima dey.
Síntesis de dominio de tiempo
A partir de los dos espectros decodificados I y D, dos señales de dominio de tiempoiydse sintetizan por una DFT inversa:
Finalmente, una operación de solapamiento y adición permite la reconstrucción de una trama deMmuestras:
Post-procesamiento
El post-procesamiento de graves se aplica en dos canales por separado. El procesamiento es para ambos canales, al igual que lo descrito en la sección 7.17 de [1].
Ha de entenderse que, en esta memoria descriptiva, las señales en las líneas a veces se denominan por los números de referencia para las líneas o a veces se indican por los propios números de referencia, que se han atribuido a las líneas. Por lo tanto, la notación es tal que una línea que tiene una cierta señal indica la propia señal. Una línea puede ser una línea física en una implementación cableada. En una implementación informatizada, sin embargo, una línea física no existe, pero la señal representada por la línea se transmite de un módulo de cálculo al otro módulo de cálculo. Si bien la presente invención se ha descrito en el contexto de los diagramas de bloques, donde los bloques representan componentes reales o lógicos de hardware, la presente invención también se puede implementar por medio de un método implementado por ordenador. En el último caso, los bloques representan correspondientes pasos del método, en el que estos pasos representan las funcionalidades llevadas a cabo por los correspondientes bloques de hardware lógicos o físicos.
Si bien algunos aspectos se han descrito en el contexto de un aparato, es evidente que estos aspectos también representan una descripción del método correspondiente, donde un bloque o dispositivo corresponde a un paso del método o una característica de un paso del método. Análogamente, los aspectos que se describen en el contexto de un paso del método también representan una descripción de un bloque correspondiente o un elemento o característica de un aparato correspondiente. Algunos o todos los pasos del método se pueden ejecutar por (o usando) un aparato de hardware, como por ejemplo, un microprocesador, un ordenador programable o un circuito electrónico. En algunas realizaciones, algunos una o más de los pasos del método más importantes pueden ejecutarse por un aparato de este tipo.
Dependiendo de ciertos requisitos de implementación, las realizaciones de la invención se pueden implementar en hardware o en software. La implementación se puede llevar a cabo usando un medio de almacenamiento digital, por ejemplo, un disquete, un DVD, un disco Blu-Ray, un CD, una ROM, una PROM y EPROM, una EEPROM o una memoria FLASH, que tiene señales de control legibles electrónicamente almacenadas en la misma, que actúan conjuntamente (o son capaces de actuar conjuntamente) con un sistema informático programable de manera tal que se lleve a cabo el método respectivo. Por lo tanto, el medio de almacenamiento digital puede ser legible por ordenador.
Algunas realizaciones de acuerdo con la invención comprenden un portador de datos que tiene señales de control legibles electrónicamente, que son capaces de actuar conjuntamente con un sistema informático programable, de manera tal que se lleve a cabo uno de los métodos descritos en la presente memoria.
Por lo general, las realizaciones de la presente invención se pueden implementar como un producto de programa informático con un código de programa, siendo el código de programa operativo para llevar a cabo uno de los métodos, cuando el producto de programa informático se ejecuta en un ordenador. El código de programa se puede almacenar, por ejemplo, en un soporte legible por máquina.
Otras realizaciones comprenden el programa informático para llevar a cabo uno de los métodos descritos en la presente memoria, almacenado en un soporte legible por máquina.
En otras palabras, una realización del método de la invención es, por lo tanto, un programa informático que tiene un código de programa para llevar a cabo uno de los métodos descritos en la presente memoria, cuando el programa informático se ejecuta en un ordenador.
Una realización adicional del método de la invención es, por lo tanto, un soporte de datos (o un medio de almacenamiento no transitorio tal como un medio de almacenamiento digital, o un medio legible por ordenador) que comprende, grabado en el mismo, el programa informático para llevar a cabo uno de los métodos que se describen en la presente memoria. El soporte de datos, el medio de almacenamiento digital o el medio grabado suelen ser tangibles y/o no transitorios.
Una realización adicional del método de invención es, por lo tanto, una corriente de datos o una secuencia de señales que representan el programa informático para llevar a cabo uno de los métodos descritos en la presente memoria. La corriente de datos o la secuencia de señales pueden, por ejemplo, estar configuradas para transferirse a través de una conexión de comunicación de datos, por ejemplo, a través de Internet.
Una realización adicional comprende un medio de procesamiento, por ejemplo, un ordenador o un dispositivo lógico programable, configurado para, o adaptado para, llevar a cabo uno de los métodos descritos en la presente memoria.
Una realización adicional comprende un ordenador que tiene instalado en el mismo el programa informático para llevar a cabo uno de los métodos descritos en la presente memoria.
Una realización adicional de acuerdo con la invención comprende un aparato o un sistema configurado para transferir (por ejemplo, por vía electrónica u óptica) un programa informático para llevar a cabo uno de los métodos descritos en la presente memoria a un receptor. El receptor puede, por ejemplo, ser un ordenador, un dispositivo móvil, un dispositivo de memoria o similares. El aparato o sistema pueden comprender, por ejemplo, un servidor de archivos para transferir el programa informático al receptor.
En algunas realizaciones, puede usarse un dispositivo lógico programable (por ejemplo, una matriz de puertas programables en campo) para llevar a cabo algunas o todas las funcionalidades de los métodos descritos en la presente memoria. En algunas realizaciones, una matriz de puertas programable en campo podrá actuar conjuntamente con un microprocesador para llevar a cabo uno de los métodos descritos en la presente memoria. Por lo general, los métodos se llevan a cabo con preferencia por cualquier aparato de hardware.
Las realizaciones con descritas anteriormente son meramente ilustrativas de los principios de la presente invención. Se entiende que para los expertos en la técnica serán evidentes modificaciones y variaciones de las disposiciones y los detalles descritos en la presente memoria. Por lo tanto, la intención es estar limitado sólo por el alcance de las reivindicaciones de patente inminentes y no por los detalles específicos presentados a modo de descripción y explicación de las realizaciones de la presente memoria.
Referencias
[1] ISO/IEC DIS 23003-3, Usac
[2] ISO/IEC DIS 23008-3, audio 3D

Claims (1)

  1. REIVINDICACIONES
    Decodificador de audio (102) para la decodificación de una señal de audio codificada (103), siendo el decodificador de audio (102) un decodificador de audio conmutado, comprendiendo el decodificador de audio: un decodificador de dominio de predicción lineal (104);
    un decodificador de dominio de frecuencia (106);
    un primer decodificador conjunto de múltiples canales (108) para la generación de una primera representación de múltiples canales (114) usando una salida del decodificador de dominio de predicción lineal (104) y usando una primera información de múltiples canales (20);
    un segundo decodificador conjunto de múltiples canales (110) para la generación de una segunda representación de múltiples canales (116), usando una salida del decodificador de dominio de frecuencia (106) y una segunda información de múltiples canales (22, 24); y
    un primer combinador (112) para la combinación de la primera representación de múltiples canales (114) y la segunda representación de múltiples canales (116) para llevar a cabo una conmutación entre la primera representación de múltiples canales (114) y la segunda representación de múltiples canales (116) para obtener una señal de audio decodificada (118),
    en el que el segundo decodificador conjunto de múltiples canales (110) es diferente del primer decodificador conjunto de múltiples canales (108),
    en el que el decodificador de audio (102) está configurado para cambiar dentro de una trama actual (232) de una señal de audio de múltiples canales a partir del uso del decodificador de dominio de predicción lineal (104) para decodificar una trama anterior a la al decodificador de dominio de frecuencia (106) para decodificar una trama próxima,
    en el que el primer decodificador conjunto de múltiples canales (108) comprende un decodificador estéreo (146), estando configurado el decodificador estéreo (146) para calcular una señal de audio de múltiples canales sintética (250a, 250b) a partir de una señal mono decodificada generada por el decodificador de dominio de predicción lineal (104) para una trama actual usando la primera información de múltiples canales (20) de una trama anterior,
    en el que el segundo decodificador conjunto de múltiples canales (110) está configurado para calcular la segunda representación de múltiples canales (116) para la trama actual (232) y para ponderar la segunda representación de múltiples canales (116) usando una ventana de inicio para obtener una segunda representación de múltiples canales ponderada, y
    en el que el combinador (112) está configurado para combinar la señal de audio de múltiple canal sintética (250a, 250b) y la segunda representación de múltiples canales ponderada para obtener una trama actual (232) de la señal de audio decodificada.
    Decodificador de audio (102) de acuerdo con la reivindicación 1, en el que el primer decodificador conjunto de múltiples canales (108) es un decodificador conjunto de múltiples canales paramétrico y en el que el segundo decodificador conjunto de múltiples canales (110) es un decodificador conjunto de múltiples canales de preservación de formas de onda, en el que el primer decodificador conjunto de múltiples canales (108) está configurado para operar sobre la base de una predicción compleja, una operación estéreo paramétrica o una operación de rotación, y en el que el segundo decodificador conjunto de múltiples canales (110) está configurado para aplicar una conmutación selectiva de banda a un algoritmo de decodificación estéreo intermedia/lateral o izquierdo/derecho.
    Decodificador de audio (102) de acuerdo con la reivindicación 1 o 2, en el que el decodificador de dominio de predicción lineal (104) comprende además:
    un decodificador de TCX (130) y un procesador inteligente de llenado de espacios (IGF) (132);
    un procesador de síntesis de banda completa (134) para la combinación de una salida del segundo combinador (128) y del decodificador de TCX (130) y el procesador de IGF (132); y
    una trayectoria transversal (136) para la inicialización del sintetizador de banda baja (122) usando la información derivada por una conversión de espectro de banda baja-tiempo a partir de una señal generada por el decodificador de TCX (130) y el procesador de IGF (132).
    4.Decodificador de audio (102) de acuerdo con la reivindicación 1, 2 o 3, en el que el primer decodificador conjunto de múltiples canales (108) comprende
    un convertidor de tiempo-frecuencia (144) para la conversión de una salida del decodificador de dominio de predicción lineal (104) en una representación espectral (145);
    un mezclador ascendente controlado por la primera información de múltiples canales (20) que opera sobre la representación espectral (145); y
    un convertidor de frecuencia-tiempo (148) para la conversión de un resultado de mezcla ascendente en una representación de tiempo correspondiente a la primera representación de múltiples canales (114).
    5. Decodificador de audio (102) de acuerdo con una de las reivindicaciones 1 a 4, en el que el segundo decodificador conjunto de múltiples canales (110) está configurado
    para utilizar, como entrada, una representación espectral obtenida por el decodificador de dominio de frecuencia (106), comprendiendo la representación espectral por lo menos una pluralidad de bandas, una señal del primer canal y una señal del segundo canal, y
    para aplicar una operación conjunta de múltiples canales a la pluralidad de bandas de la señal del primer canal y la señal del segundo canal y para convertir (152) un resultado de la operación conjunta de múltiples canales en una representación de tiempo para obtener la segunda representación de múltiples canales (116).
    6. Decodificador de audio (102) de acuerdo con la reivindicación 5, en el que la segunda información de múltiples canales (24) es una máscara que indica, para las bandas individuales, una codificación conjunta de múltiples canales izquierda/derecha o intermedia/lateral, y en donde la operación conjunta de múltiples canales es una operación de conversión intermedia/lateral a izquierda/derecha para la conversión de bandas indicadas por la máscara de una representación intermedia/lateral a una representación izquierda/derecha.
    7. Decodificador de audio (102) de acuerdo con la reivindicación 4,
    en el que el convertidor de tiempo-frecuencia (144) comprende una operación compleja o una operación de sobremuestreo, y
    en el que el decodificador de dominio de frecuencia (106) comprende una operación de IMDCT (152) o una operación muestreada críticamente.
    8. Decodificador de audio de acuerdo con la reivindicación 1, en el que múltiples canales significa dos o más canales.
    9. Método (900) para la decodificación de una señal de audio codificada (103), siendo el método (900) un método para la decodificación de audio conmutada, comprendiendo el método:
    la decodificación de dominio de predicción lineal;
    la decodificación de dominio de frecuencia;
    la primera decodificación conjunta de múltiples canales que genera una primera representación de múltiples canales (114) usando una salida de la decodificación de dominio de predicción lineal y usando una primera información de múltiples canales;
    una segunda decodificación de múltiples canales que genera una segunda representación de múltiples canales (116) usando una salida de la decodificación de dominio de frecuencia y una segunda información de múltiples canales; y
    la combinación de la primera representación de múltiples canales (114) y la segunda representación de múltiples canales (116) para llevar a cabo una conmutación entre la primera representación de múltiples canales (114) y la segunda representación de múltiples canales (116) para obtener una señal de audio decodificada,
    en el que la segunda decodificación de múltiples canales es diferente de la primera decodificación de múltiples canales,
    en el que el método de decodificación comprende cambiar dentro de una trama actual (232) de una señal de audio de múltiples canales desde el uso de la decodificación de dominio de predicción lineal para decodificar una trama anterior a la decodificación de dominio de frecuencia para decodificar una trama próxima,
    en el que la primera decodificación conjunta de múltiples canales comprende una decodificación estéreo, comprendiendo la decodificación estéreo calcular una señal de audio de múltiples canales sintética (250a, 250b) a partir de una señal mono decodificada generada por la decodificación del dominio de predicción lineal para una trama actual usando la primera información de múltiples canales (20) de una trama anterior,
    en el que la segunda decodificación conjunta de múltiples canales comprende calcular la segunda representación de múltiples canales (116) para la trama actual (232) y ponderar la segunda representación de múltiples canales (116) usando una ventana de inicio para obtener una segunda representación ponderada de múltiples canales, y
    en el que la combinación comprende combinar la señal de audio de múltiples canales sintética (250a, 250b) y la segunda representación de múltiples canales ponderada para obtener una trama actual (232) de la señal de audio decodificada.
    10 Programa informático que comprende instrucciones que, cuando se ejecuta por un ordenador o un procesador, hace que el ordenador o el procesador lleve a cabo el método de acuerdo con la reivindicación 9.
ES21171826T 2015-03-09 2016-03-07 Decodificador de audio para la decodificación de una señal de audio codificada Active ES2959910T3 (es)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
EP15158233 2015-03-09
EP15172594.2A EP3067886A1 (en) 2015-03-09 2015-06-17 Audio encoder for encoding a multichannel signal and audio decoder for decoding an encoded audio signal

Publications (1)

Publication Number Publication Date
ES2959910T3 true ES2959910T3 (es) 2024-02-28

Family

ID=52682621

Family Applications (6)

Application Number Title Priority Date Filing Date
ES21171831T Active ES2959970T3 (es) 2015-03-09 2016-03-07 Codificador de audio para la codificación de una señal de múltiples canales y un decodificador de audio para la decodificación de una señal de audio codificada
ES21171826T Active ES2959910T3 (es) 2015-03-09 2016-03-07 Decodificador de audio para la decodificación de una señal de audio codificada
ES16708171T Active ES2910658T3 (es) 2015-03-09 2016-03-07 Codificador de audio para la codificación de una señal de múltiples canales y un decodificador de audio para la decodificación de una señal de audio codificada
ES21171835T Active ES2958535T3 (es) 2015-03-09 2016-03-07 Codificador de audio para la codificación de una señal de múltiples canales y un decodificador de audio para la decodificación de una señal de audio codificada
ES21191544T Active ES2951090T3 (es) 2015-03-09 2016-03-07 Codificador de audio para la codificación de una señal de múltiples canales y decodificador de audio para la decodificación de una señal de audio codificada
ES16708172T Active ES2901109T3 (es) 2015-03-09 2016-03-07 Codificador de audio para la codificación de una señal de múltiples canales y un decodificador de audio para la decodificación de una señal de audio codificada

Family Applications Before (1)

Application Number Title Priority Date Filing Date
ES21171831T Active ES2959970T3 (es) 2015-03-09 2016-03-07 Codificador de audio para la codificación de una señal de múltiples canales y un decodificador de audio para la decodificación de una señal de audio codificada

Family Applications After (4)

Application Number Title Priority Date Filing Date
ES16708171T Active ES2910658T3 (es) 2015-03-09 2016-03-07 Codificador de audio para la codificación de una señal de múltiples canales y un decodificador de audio para la decodificación de una señal de audio codificada
ES21171835T Active ES2958535T3 (es) 2015-03-09 2016-03-07 Codificador de audio para la codificación de una señal de múltiples canales y un decodificador de audio para la decodificación de una señal de audio codificada
ES21191544T Active ES2951090T3 (es) 2015-03-09 2016-03-07 Codificador de audio para la codificación de una señal de múltiples canales y decodificador de audio para la decodificación de una señal de audio codificada
ES16708172T Active ES2901109T3 (es) 2015-03-09 2016-03-07 Codificador de audio para la codificación de una señal de múltiples canales y un decodificador de audio para la decodificación de una señal de audio codificada

Country Status (19)

Country Link
US (7) US10395661B2 (es)
EP (9) EP3067887A1 (es)
JP (6) JP6606190B2 (es)
KR (2) KR102151719B1 (es)
CN (6) CN107430863B (es)
AR (6) AR103881A1 (es)
AU (2) AU2016231283C1 (es)
BR (4) BR112017018441B1 (es)
CA (2) CA2978814C (es)
ES (6) ES2959970T3 (es)
FI (1) FI3958257T3 (es)
MX (2) MX364618B (es)
MY (2) MY194940A (es)
PL (6) PL3910628T3 (es)
PT (3) PT3268958T (es)
RU (2) RU2679571C1 (es)
SG (2) SG11201707335SA (es)
TW (2) TWI613643B (es)
WO (2) WO2016142337A1 (es)

Families Citing this family (40)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP3067887A1 (en) 2015-03-09 2016-09-14 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio encoder for encoding a multichannel signal and audio decoder for decoding an encoded audio signal
MY196436A (en) 2016-01-22 2023-04-11 Fraunhofer Ges Forschung Apparatus and Method for Encoding or Decoding a Multi-Channel Signal Using Frame Control Synchronization
CN107731238B (zh) * 2016-08-10 2021-07-16 华为技术有限公司 多声道信号的编码方法和编码器
US10573326B2 (en) * 2017-04-05 2020-02-25 Qualcomm Incorporated Inter-channel bandwidth extension
US10224045B2 (en) * 2017-05-11 2019-03-05 Qualcomm Incorporated Stereo parameters for stereo decoding
CN110710181B (zh) 2017-05-18 2022-09-23 弗劳恩霍夫应用研究促进协会 管理网络设备
US10431231B2 (en) * 2017-06-29 2019-10-01 Qualcomm Incorporated High-band residual prediction with time-domain inter-channel bandwidth extension
US10475457B2 (en) 2017-07-03 2019-11-12 Qualcomm Incorporated Time-domain inter-channel prediction
CN114898761A (zh) * 2017-08-10 2022-08-12 华为技术有限公司 立体声信号编解码方法及装置
US10535357B2 (en) 2017-10-05 2020-01-14 Qualcomm Incorporated Encoding or decoding of audio signals
US10734001B2 (en) * 2017-10-05 2020-08-04 Qualcomm Incorporated Encoding or decoding of audio signals
EP3483883A1 (en) 2017-11-10 2019-05-15 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio coding and decoding with selective postfiltering
EP3483878A1 (en) 2017-11-10 2019-05-15 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio decoder supporting a set of different loss concealment tools
WO2019091576A1 (en) 2017-11-10 2019-05-16 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio encoders, audio decoders, methods and computer programs adapting an encoding and decoding of least significant bits
EP3483882A1 (en) * 2017-11-10 2019-05-15 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Controlling bandwidth in encoders and/or decoders
EP3483886A1 (en) 2017-11-10 2019-05-15 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Selecting pitch lag
EP3483879A1 (en) 2017-11-10 2019-05-15 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Analysis/synthesis windowing function for modulated lapped transformation
EP3483880A1 (en) 2017-11-10 2019-05-15 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Temporal noise shaping
EP3483884A1 (en) 2017-11-10 2019-05-15 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Signal filtering
TWI812658B (zh) * 2017-12-19 2023-08-21 瑞典商都比國際公司 用於統一語音及音訊之解碼及編碼去關聯濾波器之改良之方法、裝置及系統
US11315584B2 (en) * 2017-12-19 2022-04-26 Dolby International Ab Methods and apparatus for unified speech and audio decoding QMF based harmonic transposer improvements
ES2922532T3 (es) * 2018-02-01 2022-09-16 Fraunhofer Ges Forschung Codificador de escena de audio, decodificador de escena de audio y procedimientos relacionados que utilizan el análisis espacial híbrido de codificador / decodificador
EP3550561A1 (en) * 2018-04-06 2019-10-09 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Downmixer, audio encoder, method and computer program applying a phase value to a magnitude value
EP3588495A1 (en) 2018-06-22 2020-01-01 FRAUNHOFER-GESELLSCHAFT zur Förderung der angewandten Forschung e.V. Multichannel audio coding
US12020718B2 (en) * 2018-07-02 2024-06-25 Dolby International Ab Methods and devices for generating or decoding a bitstream comprising immersive audio signals
KR102606259B1 (ko) * 2018-07-04 2023-11-29 프라운호퍼-게젤샤프트 추르 푀르데룽 데어 안제반텐 포르슝 에 파우 신호 화이트닝 또는 신호 후처리를 이용하는 다중신호 인코더, 다중신호 디코더, 및 관련 방법들
WO2020094263A1 (en) 2018-11-05 2020-05-14 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and audio signal processor, for providing a processed audio signal representation, audio decoder, audio encoder, methods and computer programs
EP3719799A1 (en) * 2019-04-04 2020-10-07 FRAUNHOFER-GESELLSCHAFT zur Förderung der angewandten Forschung e.V. A multi-channel audio encoder, decoder, methods and computer program for switching between a parametric multi-channel operation and an individual channel operation
WO2020216459A1 (en) * 2019-04-23 2020-10-29 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus, method or computer program for generating an output downmix representation
CN110267142B (zh) * 2019-06-25 2021-06-22 维沃移动通信有限公司 一种移动终端及控制方法
EP4002358A4 (en) * 2019-07-19 2023-03-22 Intellectual Discovery Co., Ltd. ADAPTIVE AUDIO PROCESSING METHOD, DEVICE, COMPUTER PROGRAM AND ASSOCIATED RECORDING MEDIA IN A WIRELESS COMMUNICATION SYSTEM
FR3101741A1 (fr) * 2019-10-02 2021-04-09 Orange Détermination de corrections à appliquer à un signal audio multicanal, codage et décodage associés
US11432069B2 (en) * 2019-10-10 2022-08-30 Boomcloud 360, Inc. Spectrally orthogonal audio component processing
CN115039172A (zh) * 2020-02-03 2022-09-09 沃伊斯亚吉公司 多声道声音编解码器中立体声编解码模式之间的切换
CN111654745B (zh) * 2020-06-08 2022-10-14 海信视像科技股份有限公司 多声道的信号处理方法及显示设备
GB2614482A (en) * 2020-09-25 2023-07-05 Apple Inc Seamless scalable decoding of channels, objects, and hoa audio content
CA3194876A1 (en) * 2020-10-09 2022-04-14 Franz REUTELHUBER Apparatus, method, or computer program for processing an encoded audio scene using a bandwidth extension
JPWO2022176270A1 (es) * 2021-02-16 2022-08-25
CN115881140A (zh) * 2021-09-29 2023-03-31 华为技术有限公司 编解码方法、装置、设备、存储介质及计算机程序产品
CN118414661A (zh) * 2021-12-20 2024-07-30 杜比国际公司 Qmf域中的ivas spar滤波器组

Family Cites Families (60)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CA1311059C (en) * 1986-03-25 1992-12-01 Bruce Allen Dautrich Speaker-trained speech recognizer having the capability of detecting confusingly similar vocabulary words
DE4307688A1 (de) * 1993-03-11 1994-09-15 Daimler Benz Ag Verfahren zur Geräuschreduktion für gestörte Sprachkanäle
US5956674A (en) * 1995-12-01 1999-09-21 Digital Theater Systems, Inc. Multi-channel predictive subband audio coder using psychoacoustic adaptive bit allocation in frequency, time and over the multiple channels
JP3593201B2 (ja) * 1996-01-12 2004-11-24 ユナイテッド・モジュール・コーポレーション オーディオ復号装置
US5812971A (en) * 1996-03-22 1998-09-22 Lucent Technologies Inc. Enhanced joint stereo coding method using temporal envelope shaping
ATE341074T1 (de) * 2000-02-29 2006-10-15 Qualcomm Inc Multimodaler mischbereich-sprachkodierer mit geschlossener regelschleife
SE519981C2 (sv) * 2000-09-15 2003-05-06 Ericsson Telefon Ab L M Kodning och avkodning av signaler från flera kanaler
KR20060131767A (ko) 2003-12-04 2006-12-20 코닌클리케 필립스 일렉트로닉스 엔.브이. 오디오 신호 코딩
EP1761915B1 (en) * 2004-06-21 2008-12-03 Koninklijke Philips Electronics N.V. Method and apparatus to encode and decode multi-channel audio signals
US7391870B2 (en) 2004-07-09 2008-06-24 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E V Apparatus and method for generating a multi-channel output signal
BRPI0515128A (pt) * 2004-08-31 2008-07-08 Matsushita Electric Ind Co Ltd aparelho de geração de sinal estéreo e método de geração de sinal estéreo
EP1818911B1 (en) * 2004-12-27 2012-02-08 Panasonic Corporation Sound coding device and sound coding method
EP1912206B1 (en) 2005-08-31 2013-01-09 Panasonic Corporation Stereo encoding device, stereo decoding device, and stereo encoding method
WO2008035949A1 (en) 2006-09-22 2008-03-27 Samsung Electronics Co., Ltd. Method, medium, and system encoding and/or decoding audio signals by using bandwidth extension and stereo coding
CN101067931B (zh) * 2007-05-10 2011-04-20 芯晟(北京)科技有限公司 一种高效可配置的频域参数立体声及多声道编解码方法与系统
EP2168121B1 (fr) * 2007-07-03 2018-06-06 Orange Quantification apres transformation lineaire combinant les signaux audio d'une scene sonore, codeur associe
CN101373594A (zh) * 2007-08-21 2009-02-25 华为技术有限公司 修正音频信号的方法及装置
KR101505831B1 (ko) * 2007-10-30 2015-03-26 삼성전자주식회사 멀티 채널 신호의 부호화/복호화 방법 및 장치
EP2210253A4 (en) * 2007-11-21 2010-12-01 Lg Electronics Inc METHOD AND DEVICE FOR PROCESSING A SIGNAL
RU2439720C1 (ru) * 2007-12-18 2012-01-10 ЭлДжи ЭЛЕКТРОНИКС ИНК. Способ и устройство для обработки звукового сигнала
AU2008344134B2 (en) * 2007-12-31 2011-08-25 Lg Electronics Inc. A method and an apparatus for processing an audio signal
EP2077550B8 (en) 2008-01-04 2012-03-14 Dolby International AB Audio encoder and decoder
KR101452722B1 (ko) * 2008-02-19 2014-10-23 삼성전자주식회사 신호 부호화 및 복호화 방법 및 장치
WO2009131076A1 (ja) 2008-04-25 2009-10-29 日本電気株式会社 無線通信装置
BR122021009256B1 (pt) 2008-07-11 2022-03-03 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e. V. Codificador e decodificador de áudio para estruturas de codificação de sinais de áudio amostrados
EP2144230A1 (en) 2008-07-11 2010-01-13 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Low bitrate audio encoding/decoding scheme having cascaded switches
CA2871268C (en) * 2008-07-11 2015-11-03 Nikolaus Rettelbach Audio encoder, audio decoder, methods for encoding and decoding an audio signal, audio stream and computer program
MY181247A (en) 2008-07-11 2020-12-21 Frauenhofer Ges Zur Forderung Der Angenwandten Forschung E V Audio encoder and decoder for encoding and decoding audio samples
EP2352147B9 (en) * 2008-07-11 2014-04-23 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. An apparatus and a method for encoding an audio signal
EP2144231A1 (en) * 2008-07-11 2010-01-13 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Low bitrate audio encoding/decoding scheme with common preprocessing
MX2011000375A (es) * 2008-07-11 2011-05-19 Fraunhofer Ges Forschung Codificador y decodificador de audio para codificar y decodificar tramas de una señal de audio muestreada.
JP5203077B2 (ja) 2008-07-14 2013-06-05 株式会社エヌ・ティ・ティ・ドコモ 音声符号化装置及び方法、音声復号化装置及び方法、並びに、音声帯域拡張装置及び方法
ES2592416T3 (es) * 2008-07-17 2016-11-30 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Esquema de codificación/decodificación de audio que tiene una derivación conmutable
RU2495503C2 (ru) * 2008-07-29 2013-10-10 Панасоник Корпорэйшн Устройство кодирования звука, устройство декодирования звука, устройство кодирования и декодирования звука и система проведения телеконференций
WO2010036061A2 (en) * 2008-09-25 2010-04-01 Lg Electronics Inc. An apparatus for processing an audio signal and method thereof
KR20130133917A (ko) * 2008-10-08 2013-12-09 프라운호퍼 게젤샤프트 쭈르 푀르데룽 데어 안겐반텐 포르슝 에. 베. 다중 분해능 스위치드 오디오 부호화/복호화 방법
WO2010042024A1 (en) 2008-10-10 2010-04-15 Telefonaktiebolaget Lm Ericsson (Publ) Energy conservative multi-channel audio coding
CA2949616C (en) * 2009-03-17 2019-11-26 Dolby International Ab Advanced stereo coding based on a combination of adaptively selectable left/right or mid/side stereo coding and of parametric stereo coding
GB2470059A (en) * 2009-05-08 2010-11-10 Nokia Corp Multi-channel audio processing using an inter-channel prediction model to form an inter-channel parameter
JP5678071B2 (ja) 2009-10-08 2015-02-25 フラウンホッファー−ゲゼルシャフト ツァ フェルダールング デァ アンゲヴァンテン フォアシュンク エー.ファオ 線形予測符号化ベースのノイズ整形を用いた多重モードオーディオ信号デコーダ、多重モードオーディオ信号エンコーダ、方法およびコンピュータプログラム
EP2473995B9 (en) * 2009-10-20 2016-12-21 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio signal encoder, audio signal decoder, method for providing an encoded representation of an audio content, method for providing a decoded representation of an audio content and computer program for use in low delay applications
CN102859589B (zh) 2009-10-20 2014-07-09 弗兰霍菲尔运输应用研究公司 多模式音频编译码器及其适用的码簿激励线性预测编码
PL2491556T3 (pl) * 2009-10-20 2024-08-26 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Dekoder sygnału audio, odpowiadający mu sposób oraz program komputerowy
KR101710113B1 (ko) * 2009-10-23 2017-02-27 삼성전자주식회사 위상 정보와 잔여 신호를 이용한 부호화/복호화 장치 및 방법
KR101397058B1 (ko) * 2009-11-12 2014-05-20 엘지전자 주식회사 신호 처리 방법 및 이의 장치
EP2375409A1 (en) * 2010-04-09 2011-10-12 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio encoder, audio decoder and related methods for processing multi-channel audio signals using complex prediction
US8166830B2 (en) * 2010-07-02 2012-05-01 Dresser, Inc. Meter devices and methods
JP5499981B2 (ja) * 2010-08-02 2014-05-21 コニカミノルタ株式会社 画像処理装置
EP2502155A4 (en) * 2010-11-12 2013-12-04 Polycom Inc HIERARCHICAL AUDIO CODING IN A MULTIPOINT ENVIRONMENT
JP5805796B2 (ja) * 2011-03-18 2015-11-10 フラウンホーファーゲゼルシャフトツール フォルデルング デル アンゲヴァンテン フォルシユング エー.フアー. 柔軟なコンフィギュレーション機能性を有するオーディオエンコーダおよびデコーダ
CN104364842A (zh) * 2012-04-18 2015-02-18 诺基亚公司 立体声音频信号编码器
US9489962B2 (en) * 2012-05-11 2016-11-08 Panasonic Corporation Sound signal hybrid encoder, sound signal hybrid decoder, sound signal encoding method, and sound signal decoding method
CN102779518B (zh) * 2012-07-27 2014-08-06 深圳广晟信源技术有限公司 用于双核编码模式的编码方法和系统
TWI618050B (zh) * 2013-02-14 2018-03-11 杜比實驗室特許公司 用於音訊處理系統中之訊號去相關的方法及設備
TWI546799B (zh) 2013-04-05 2016-08-21 杜比國際公司 音頻編碼器及解碼器
EP2830052A1 (en) * 2013-07-22 2015-01-28 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio decoder, audio encoder, method for providing at least four audio channel signals on the basis of an encoded representation, method for providing an encoded representation on the basis of at least four audio channel signals and computer program using a bandwidth extension
TWI579831B (zh) * 2013-09-12 2017-04-21 杜比國際公司 用於參數量化的方法、用於量化的參數之解量化方法及其電腦可讀取的媒體、音頻編碼器、音頻解碼器及音頻系統
US20150159036A1 (en) 2013-12-11 2015-06-11 Momentive Performance Materials Inc. Stable primer formulations and coatings with nano dispersion of modified metal oxides
US9984699B2 (en) * 2014-06-26 2018-05-29 Qualcomm Incorporated High-band signal coding using mismatched frequency ranges
EP3067887A1 (en) 2015-03-09 2016-09-14 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio encoder for encoding a multichannel signal and audio decoder for decoding an encoded audio signal

Also Published As

Publication number Publication date
EP3958257B1 (en) 2023-05-10
PL3910628T3 (pl) 2024-01-15
PL3879527T3 (pl) 2024-01-15
BR112017018441A2 (pt) 2018-04-17
BR112017018439A2 (pt) 2018-04-17
EP3268957A1 (en) 2018-01-17
US11741973B2 (en) 2023-08-29
ES2951090T3 (es) 2023-10-17
PL3268958T3 (pl) 2022-03-21
AR103881A1 (es) 2017-06-07
MX364618B (es) 2019-05-02
EP3268958A1 (en) 2018-01-17
PL3879528T3 (pl) 2024-01-22
PT3958257T (pt) 2023-07-24
JP6643352B2 (ja) 2020-02-12
BR122022025766B1 (pt) 2023-12-26
PL3268957T3 (pl) 2022-06-27
EP3067886A1 (en) 2016-09-14
CN112951248B (zh) 2024-05-07
EP3958257A1 (en) 2022-02-23
US20190221218A1 (en) 2019-07-18
EP3910628C0 (en) 2023-08-02
SG11201707343UA (en) 2017-10-30
MX2017011187A (es) 2018-01-23
ES2901109T3 (es) 2022-03-21
US10777208B2 (en) 2020-09-15
PL3958257T3 (pl) 2023-09-18
EP3910628A1 (en) 2021-11-17
AR123837A2 (es) 2023-01-18
US11107483B2 (en) 2021-08-31
BR112017018441B1 (pt) 2022-12-27
US11881225B2 (en) 2024-01-23
CN112614497B (zh) 2024-10-01
KR102151719B1 (ko) 2020-10-26
JP2018511827A (ja) 2018-04-26
EP3067887A1 (en) 2016-09-14
ES2959970T3 (es) 2024-02-29
US20200395024A1 (en) 2020-12-17
TWI613643B (zh) 2018-02-01
KR102075361B1 (ko) 2020-02-11
MX366860B (es) 2019-07-25
EP3879528C0 (en) 2023-08-02
KR20170126996A (ko) 2017-11-20
ES2910658T3 (es) 2022-05-13
RU2679571C1 (ru) 2019-02-11
MY186689A (en) 2021-08-07
US20220093112A1 (en) 2022-03-24
WO2016142337A1 (en) 2016-09-15
EP3268958B1 (en) 2021-11-10
TW201636999A (zh) 2016-10-16
EP3879527C0 (en) 2023-08-02
CA2978812A1 (en) 2016-09-15
EP3268957B1 (en) 2022-03-02
AU2016231284B2 (en) 2019-08-15
EP4224470A1 (en) 2023-08-09
BR112017018439B1 (pt) 2023-03-21
BR122022025643B1 (pt) 2024-01-02
CN112951248A (zh) 2021-06-11
JP2018511825A (ja) 2018-04-26
US11238874B2 (en) 2022-02-01
CA2978812C (en) 2020-07-21
US20190333525A1 (en) 2019-10-31
CN112634913B (zh) 2024-04-09
EP3910628B1 (en) 2023-08-02
EP3879528B1 (en) 2023-08-02
JP2022088470A (ja) 2022-06-14
JP2023029849A (ja) 2023-03-07
CN112614496A (zh) 2021-04-06
SG11201707335SA (en) 2017-10-30
AR103880A1 (es) 2017-06-07
MX2017011493A (es) 2018-01-25
JP7077290B2 (ja) 2022-05-30
JP7469350B2 (ja) 2024-04-16
EP3879527A1 (en) 2021-09-15
PT3268958T (pt) 2022-01-07
PT3268957T (pt) 2022-05-16
AU2016231283B2 (en) 2019-08-22
JP2020074013A (ja) 2020-05-14
JP7181671B2 (ja) 2022-12-01
AU2016231283A1 (en) 2017-09-28
US20220139406A1 (en) 2022-05-05
CA2978814C (en) 2020-09-01
EP3879527B1 (en) 2023-08-02
WO2016142336A1 (en) 2016-09-15
CN107408389B (zh) 2021-03-02
CN112634913A (zh) 2021-04-09
CN107430863A (zh) 2017-12-01
US20170365263A1 (en) 2017-12-21
US10395661B2 (en) 2019-08-27
AU2016231283C1 (en) 2020-10-22
AR123834A2 (es) 2023-01-18
AR123835A2 (es) 2023-01-18
FI3958257T3 (fi) 2023-06-27
CN107430863B (zh) 2021-01-26
CN112614496B (zh) 2024-04-09
ES2958535T3 (es) 2024-02-09
MY194940A (en) 2022-12-27
EP3879528A1 (en) 2021-09-15
US20170365264A1 (en) 2017-12-21
CA2978814A1 (en) 2016-09-15
TWI609364B (zh) 2017-12-21
US10388287B2 (en) 2019-08-20
JP2020038374A (ja) 2020-03-12
TW201637000A (zh) 2016-10-16
AR123836A2 (es) 2023-01-18
CN107408389A (zh) 2017-11-28
KR20170126994A (ko) 2017-11-20
CN112614497A (zh) 2021-04-06
RU2680195C1 (ru) 2019-02-18
JP6606190B2 (ja) 2019-11-13
AU2016231284A1 (en) 2017-09-28

Similar Documents

Publication Publication Date Title
ES2959910T3 (es) Decodificador de audio para la decodificación de una señal de audio codificada