[go: up one dir, main page]
More Web Proxy on the site http://driver.im/

ES2380591T3 - Codificación de señal de información - Google Patents

Codificación de señal de información Download PDF

Info

Publication number
ES2380591T3
ES2380591T3 ES07711712T ES07711712T ES2380591T3 ES 2380591 T3 ES2380591 T3 ES 2380591T3 ES 07711712 T ES07711712 T ES 07711712T ES 07711712 T ES07711712 T ES 07711712T ES 2380591 T3 ES2380591 T3 ES 2380591T3
Authority
ES
Spain
Prior art keywords
prediction
signal
quantification
coefficients
threshold
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
ES07711712T
Other languages
English (en)
Inventor
Jens Hirschfeld
Gerald Schuller
Manfred Lutzky
Ulrich Krämer
Stefan Wabnik
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fraunhofer Gesellschaft zur Forderung der Angewandten Forschung eV
Original Assignee
Fraunhofer Gesellschaft zur Forderung der Angewandten Forschung eV
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fraunhofer Gesellschaft zur Forderung der Angewandten Forschung eV filed Critical Fraunhofer Gesellschaft zur Forderung der Angewandten Forschung eV
Application granted granted Critical
Publication of ES2380591T3 publication Critical patent/ES2380591T3/es
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/102Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or selection affected or controlled by the adaptive coding
    • H04N19/124Quantisation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/0017Lossless audio signal coding; Perfect reconstruction of coded audio signal by transmission of coding error
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/032Quantisation or dequantisation of spectral components
    • G10L19/035Scalar quantisation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/06Determination or coding of the spectral characteristics, e.g. of the short-term prediction coefficients
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/80Details of filtering operations specially adapted for video compression, e.g. for pixel interpolation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/032Quantisation or dequantisation of spectral components

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Signal Processing (AREA)
  • Multimedia (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)
  • Reduction Or Emphasis Of Bandwidth Of Signals (AREA)
  • Transmission Systems Not Characterized By The Medium Used For Transmission (AREA)

Abstract

Dispositivo para codificar una señal de información en una señal de información codificada, con: medios (16) para determinar una representación de un umbral motivado de psicopercepción, que indica una porción de la señal de información irrelevante con respecto a perceptibilidad, utilizando un modelo perceptual; medios (18) para filtrar la señal de información, para normalizar la señal de información sobre el umbral motivado de psicopercepción, para obtener una señal prefiltrada; medios (20) para predecir la señal prefiltrada en una forma adaptativa hacia delante para obtener una señal predicha, un error de predicción para la señal prefiltrada y una representación de coeficientes de predicción, basándose en los cuales puede reconstruirse la señal prefiltrada; y un medio (22) para cuantificar el error de predicción, para obtener un error de predicción cuantificado, comprendiendo la señal de información codificada información sobre la representación del umbral motivado de psicopercepción, la representación de los coeficientes de predicción y el error de predicción cuantificado.

Description

Codificación de señal de información
La presente invención se refiere a la codificación de señal de información, como por ejemplo codificación de audio o vídeo.
El uso de codificación de audio digital en nuevas redes de comunicaciones así como en producciones de audio profesionales para comunicación en tiempo real bidireccional, requiere una codificación algorítmica muy económica así como un retardo de codificación muy corto. Un escenario típico en donde la aplicación de codificación de audio digital se vuelve crítica en el sentido del tiempo de retardo existe cuando se usan simultáneamente señales directas, es decir no codificadas, y transmitidas, es decir codificadas y descodificadas. Son ejemplos de esto producciones en vivo que utilizan micrófonos inalámbricos y producciones de monitorización (en oído) o “dispersas” simultáneas en las que los artistas reproducen simultáneamente en diferentes estudios. El periodo de tiempo de retardo total tolerable en estas aplicaciones es menor a 10 ms. Si, por ejemplo se emplean líneas de abonado asimétricas para la comunicación, la tasa de transmisión de bits resulta un factor limitante.
El retardo algorítmico de codificadores de audio convencionales, tales como MPEG-1 3 (MP3), MPEG-2 AAC y MPEG2/4 Low Delay, va de 20 ms a varios centenares de ms, haciéndose referencia a este respecto por ejemplo al artículo de
M. Lutzky, G. Schuller, M. Gayer; U. Kraemer, S. Wabnik: “A guideline to audio codec delay”, presentado en la 116 Convención AES en Berlín, mayo 2004. Los codificadores de voz funcionan a menores tasas de transmisión de bits y con menos retardo algorítmico pero sólo proporcionan una calidad de audio limitada.
El espacio anteriormente establecido entre los codificadores de audio convencionales por una parte y los codificadores de voz por otra parte se cierra por ejemplo por un tipo de esquema de codificación descrito en el artículo de B. Edler, C. Faller y G. Schuller, “Perceptual Audio Coding Using a Time-Varying Linear Pre and Postfilter”, presentado en la 109 Convención AES en Los Angeles, septiembre 2000, según el cual la señal a codificar se filtra con la inversa del umbral de enmascarado en el lado del codificador y a continuación se cuantifica para realizar una reducción de irrelevancia, y la señal cuantificada se suministra a una codificación de entropía para realizar una reducción de redundancia separada de la reducción de irrelevancia mientras que la señal prefiltrada cuantificada se reconstruye en el lado del descodificador y se filtra en un postfiltro con el umbral de enmascarado como función de transmisión. Tal esquema de codificación denominado esquema de codificación ULD a continuación, da como resultado una calidad perceptual que puede compararse con los codificadores de audio convencionales, tales como MP3, para tasas de transmisión de bits de aproximadamente 80 kBit/s por canal y superiores. Un codificador de este tipo se describe por ejemplo también en WO 2005/078703 A1 y en el artículo de G. Schuller y A. Härmid “Low Delay Audio Compression Using Predictive Coding”, presentado en la conferencia ICASSP, mayo de 2002.
Particularmente, los codificadores ULD descritos aquí, utilizan filtros lineales controlados psicoacústicamente para conformar el ruido de cuantificación. Debido a su estructura, el ruido de cuantificación siempre se encuentra en el umbral dado, incluso cuando no hay ninguna señal en un intervalo de frecuencia dado. El ruido permanece inaudible, siempre que corresponda al umbral de enmascarado psicoacústico. Sin embargo, para obtener una tasa de transmisión de bits que sea incluso más pequeña que la tasa de transmisión de bits predeterminada por este umbral, el ruido de cuantificación tiene que incrementarse, lo que hace audible el ruido. Particularmente, el ruido se nota en intervalos en los que no se encuentra ninguna porción de señal. Son ejemplos de esto frecuencias de audio muy bajas y muy altas. Normalmente sólo hay porciones de señal muy bajas en estos intervalos, mientras que el umbral de enmascarado es muy alto en los mismos. Si se incrementa ahora, sin embargo, el umbral de enmascarado de manera uniforme por todo el intervalo de frecuencia, el ruido de cuantificación se encuentra en el umbral ahora incrementado e incluso cuando no hay ninguna señal en el mismo, de modo que el ruido de cuantificación es audible como una señal audible espuria. Los codificadores basados en subbanda no presentan este problema, ya que éstos simplemente cuantifican a cero una subbanda con señales más pequeñas que el umbral.
El problema anteriormente mencionado que ocurre cuando la tasa de transmisión de bits permitida se sitúa por debajo de la tasa de transmisión de bits mínima que no provoca ruido de cuantificación espuria y que se establece por el umbral de enmascarado, no es sin embargo el único. Además, los codificadores ULD descritos en las referencias anteriores sufren de un modo de proceder complejo para obtener una tasa de transmisión de datos constante, ya que particularmente se utiliza un bucle de iteración, que debe pasarse a fin de determinar, por bloque de muestreo, un valor de factor de amplificación que ajusta un tamaño de paso de descuantificación.
El objetivo de la presente invención es crear un esquema de codificación de información que haga posible permitir el tiempo de retardo corto típico de codificadores de tipo ULD a una baja tasa de transmisión de bits pero con una alta calidad de codificación.
Este objetivo se logra mediante los dispositivos según la reivindicación 1 ó 24, y un procedimiento según la reivindicación 44 ó 45.
La idea central de la presente invención consiste en el hallazgo de que es posible una cuantificación extremadamente gruesa más allá de la medida establecida por el umbral de enmascarado sin o sólo con muy pocas pérdidas de calidad, pero sin cuantificar directamente la señal prefiltrada sino un error de predicción obtenido mediante una predicción adaptativa hacia delante de la señal prefiltrada. Debido a la capacidad de adaptación hacia delante, el error de cuantificación no tiene efecto negativo en los coeficientes de predicción.
Según un ejemplo de realización adicional, la señal prefiltrada incluso se cuantifica ahora en una forma no lineal o incluso recortada, es decir cuantifica mediante una función de cuantificación que mapea valores no cuantificados del error de predicción a índices de cuantificación de escalones de cuantificación y cuya evolución es más empinada por debajo de un valor umbral que por encima de un valor umbral. De esta manera, la PSD de ruido incrementada en relación con el umbral de enmascarado debido a la baja tasa de transmisión de bits disponible se ajusta a la PSD de señal de tal manera que el incumplimiento del umbral de enmascarado no ocurre en partes espectrales en las que no se encuentran porciones de señal, lo que mejora aún más la calidad de audición o mantiene la calidad de audición mejor a pesar de una tasa de transmisión de bits disponible decreciente.
Según un ejemplo de realización adicional de la presente invención, la cuantificación se cuantifica o limita incluso por recorte, es decir mediante cuantificación a un número limitado y fijo de niveles o escalones de cuantificación. Mediante la predicción de la señal prefiltrada mediante una predicción adaptativa hacia delante, la cuantificación gruesa no tiene efecto negativo en los propios coeficientes de predicción. Mediante la cuantificación a un número fijo de niveles de cuantificación se hace posible inherentemente evitar una iteración para obtener una tasa de transmisión de bits constante.
Según un ejemplo de realización adicional de la presente invención, una altura de escalón o tamaño de paso de cuantificación entre el número fijo de niveles de cuantificación se determina en una forma adaptativa hacia atrás a partir de índices de nivel de cuantificación previos obtenidos por la cuantificación, de tal manera que, por una parte, a pesar de un número muy bajo de niveles de cuantificación, puede obtenerse una cuantificación mejor o al menos la mejor posible para ese número del error de predicción o de la señal residual, sin tener que proporcionar información secundaria adicional al lado del descodificador. Por otra parte, es posible garantizar que errores de transmisión durante la transmisión de la señal residual cuantificada al lado del descodificador sólo tiene un efecto a corto plazo en el lado del descodificador con una configuración apropiada del ajuste de tamaño de paso adaptativo hacia atrás.
Ejemplos de realización preferidos de la presente invención se explicarán a continuación con referencia a los dibujos adjuntos. Muestran:
la figura 1, un diagrama de bloques de un codificador según un ejemplo de realización de la presente invención;
las figuras 2a/b, gráficas que muestran a modo de ejemplo la evolución del espectro de ruido en relación al umbral de enmascarado y la densidad de espectro de potencia de señal para el caso del codificador según la reivindicación 1 (gráfica a) o para un caso comparativo de un codificador con predicción adaptativa hacia atrás de la señal prefiltrada y ajuste de tamaño de paso de cuantificación iterativo y por bloques de umbral de enmascarado (gráfica b);
las figuras 3a/3b y 3c, gráficas que muestran a modo de ejemplo la densidad de espectro de potencia de señal en relación a la densidad de espectro de potencia de error o ruido para diferentes extensiones de recorte o para diferentes números de niveles de cuantificación para el caso en el que, como en el codificador de la figura 1, se realiza una predicción adaptativa hacia delante de la señal prefiltrada pero a pesar de ello un ajuste de tamaño de paso de cuantificación iterativo;
la figura 4, un diagrama de bloques de una estructura del codificador de coeficientes en el codificador de la figura 1 según un ejemplo de realización de la presente invención;
la figura 5, un diagrama de bloques de un descodificador para descodificar una señal de información codificada por el codificador de la figura 1 según un ejemplo de realización de la presente invención;
la figura 6, un diagrama de bloques de una estructura del codificador de coeficientes en el codificador de la figura 1 o el descodificador de la figura 5 según un ejemplo de realización de la presente invención;
la figura 7, una gráfica para ilustrar resultados de prueba de audición; y
Las figuras 8a a 8c, gráficas de funciones de cuantificación a modo de ejemplo que pueden utilizarse en los medios de cuantificación o cuantificación/recorte en las figuras 1, 4, 5 y 6.
Antes de explicar ejemplos de realización de la presente invención con más detalle con referencia a los dibujos, primero, para una mejor comprensión de las ventajas y principios de estos ejemplos de realización, se comentará una posible configuración de un esquema de codificación tipo ULD como ejemplo comparativo, basándose en el cual pueden ilustrarse en forma más clara las ventajas esenciales y consideraciones subyacentes a los ejemplos de realización siguientes y que en última instancia han llevado a estos ejemplos de realización.
Como ya se ha descrito en la introducción de la descripción, hay necesidad de una versión ULD para menores tasas de transmisión de bits por ejemplo de 64 k Bit/s, con calidad perceptual comparable, así como de un esquema más simple para obtener una tasa de transmisión de bits constante, particularmente para tasas de transmisión de bits menores pretendidas. Adicionalmente, sería ventajoso que el tiempo de recuperación después de un error de transmisión permaneciese bajo o mínimo.
Para reducción de redundancia de la señal psicoacústicamente preprocesada, el codificador ULD de comparación utiliza ahora una predicción de bucle cerrado adaptativa hacia atrás por muestra. Esto significa que el cálculo de los coeficientes de predicción en el codificador y descodificador se basa solamente en muestras de señal pasadas o ya cuantificadas y reconstruidas. Para obtener una adaptación a la señal o la señal prefiltrada, un nuevo conjunto de coeficientes de predictor se calcula de nuevo para cada muestra. Como ventaja resulta que pueden utilizarse fórmulas de determinación de valor de predicción o predictores largos, es decir particularmente predictores que tienen un número elevado de coeficientes de predictor, ya que no hay necesidad de transmitir los coeficientes de predictor desde el lado del codificador al descodificador. Por otra parte, esto significa que el error de predicción cuantificado debe transmitirse al descodificador sin pérdidas de precisión, para obtener coeficientes de predicción que sean idénticos a aquéllos en los que se basó el proceso de codificación. De lo contrario, los valores predichos o previstos en el codificador y el descodificador no serían idénticos entre sí, lo que provocaría un proceso de codificación inestable. Más bien, en el codificador ULD de comparación, se requiere un reajuste periódico del predictor tanto en el lado del codificador como del descodificador para permitir un acceso selectivo al flujo de bits codificados así como para detener una propagación de errores de transmisión. Sin embargo, los reajustes periódicos provocan picos en la tasa de transmisión de bits, lo que no supone ningún problema para un canal con tasa de transmisión de bits variable, pero sí para canales con tasa de transmisión de bits fija en los que los picos de tasa de transmisión de bits limitan el límite inferior de un ajuste de tasa de transmisión de bits constante.
Como se desprenderá ahora de la descripción más detallada siguiente del esquema de codificación de comparación ULD con los ejemplos de realización de la presente invención, estos ejemplos de realización difieren del esquema de codificación de comparación por la utilización de una predicción adaptativa hacia delante por bloques con un ajuste de tamaño de paso de cuantificación adaptativo hacia atrás en lugar de una predicción adaptativa hacia atrás por muestras. Por un lado, esto tiene la desventaja de que los predictores deberían ser más cortos para limitar la cantidad de información secundaria requerida para transmitir los coeficientes de predicción requeridos hacia el lado del codificador, lo que de nuevo da como resultado posiblemente una eficacia de codificador reducida, pero por otra parte tiene la ventaja de que el modo de proceder de los siguientes ejemplos de realización todavía funciona eficazmente para errores de cuantificación superiores, que son resultado de tasas de transmisión de bits reducidas, de tal manera que el predictor en el lado del descodificador puede utilizarse para conformar el ruido de cuantificación.
Como también resultará de la comparación siguiente, comparado con el codificador ULD de comparación, la tasa de transmisión de bits se limita al limitar el intervalo de valores del residuo de predicción antes de la transmisión. Esto da como resultado una conformación de ruido modificada en comparación con el esquema de codificación ULD de comparación y también lleva a artefactos de audición diferentes y sobre todo también menos espurios. Además, una tasa de transmisión de bits constante se genera sin utilizar bucles iterativos. Además, se incluye inherentemente un “reinicio” para todo bloque de muestra como resultado de la adaptación hacia delante por bloques. Adicionalmente, en los ejemplos de realización descritos a continuación, se utiliza un esquema de codificación para coeficientes de prefiltro y coeficientes de predicción hacia delante, que utiliza codificación de diferencia con un control de tamaño de paso de cuantificación adaptativo hacía atrás en una representación de frecuencia espectral lineal (LSF = line spectral frequency) de los coeficientes. El esquema proporciona acceso por bloques a los coeficientes, genera una tasa de transmisión de bits de información secundaria constante y es sobre eso acceso por bloques a los coeficientes, genera una tasa de transmisión de bits de información secundaria constante y es además robusto frente a errores de transmisión, tal como se describirá a continuación.
A continuación se describirá con más detalle la estructura del codificador y descodificador ULD de comparación, seguido por la descripción de ejemplos de realización de la presente invención y la ilustración de sus ventajas en la transmisión desde tasas de transmisión de bits constantes superiores hasta tasas de transmisión de bits inferiores.
En el esquema de codificación ULD de comparación, la señal de entrada del codificador se analiza en el lado del codificador por un modelo perceptual o modelo de audición para obtener información sobre las porciones perceptualmente irrelevantes de la señal. Esta información se utiliza para controlar un prefiltro mediante coeficientes de filtrado variables en el tiempo. De esta manera, el prefiltro normaliza la señal de entrada con respecto a su umbral de enmascarado. Los coeficientes de filtrado se calculan una vez por cada bloque de 128 muestras cada uno, se cuantifican y se transmiten al lado del codificador como información secundaria.
Después de una multiplicación de la señal prefiltrada por un factor de amplificación mediante sustracción de la señal predicha de manera adaptativa hacía atrás, el error de predicción se cuantifica por un cuantificador uniforme, es decir un cuantificador con tamaño de paso uniforme. Como ya se mencionó anteriormente, la señal predicha se obtiene mediante predicción en bucle cerrado adaptativo hacia atrás por muestras. Según esto, no se requiere transmisión de coeficientes de predicción al descodificador. A continuación, la señal residual de predicción cuantificada se codifica por entropía. Para obtener una tasa de transmisión de bits constante, se proporciona un bucle, que repite las etapas de multiplicación, predicción, cuantificación y codificación de entropía, varias veces por cada bloque de muestras prefiltradas. Después de la iteración, se determina el factor de amplificación más alto de un conjunto de valores de amplificación predefinidos, que aún cumple la condición de tasa de transmisión de bits constante. Este valor de amplificación se transmite naturalmente al descodificador. Sin embargo, si se determina un valor de amplificación más pequeño que uno, el ruido de cuantificación es perceptible después de la descodificación, es decir, su espectro se conforma similar al umbral de enmascarado, pero su potencia total es superior a la predeterminada por el modelo perceptual. Para porciones del espectro de señal de entrada, el ruido de cuantificación incluso puede ser superior al propio espectro de señal de entrada, lo que de nuevo genera artefactos audibles en porciones del espectro, en las que de otra forma no estaría presente ninguna señal audible, debido al uso de un descodificador predictivo. Los efectos provocados por el ruido de cuantificación representan un factor limitante cuando son de interés tasas de transmisión de bits constantes menores.
Continuando con la descripción del esquema ULD de comparación, los coeficientes de prefiltro solamente se transmiten como diferencias LSF intra-trama, y sólo tan pronto como los mismos exceden un cierto límite. Para evitar propagación de errores de transmisión de duración indeterminada, el sistema se reajusta de vez en cuando. Pueden emplearse técnicas adicionales para minimizar un deterioro en la percepción de la señal descodificada en el caso de errores de transmisión. El esquema de transmisión genera una tasa de transmisión de bits de información secundaria variable, que se nivela en el bucle anteriormente descrito al ajustar el factor de amplificación anteriormente mencionado de manera correspondiente.
La codificación de entropía de la señal residual de predicción cuantificada en el caso del codificador ULD de comparación comprende procedimientos tales como el procedimiento de codificación aritmética, de Golom, o de Huffman. La codificación de entropía debe reajustarse de vez en cuando y genera inherentemente una tasa de transmisión de bits variable, que de nuevo se equilibra por el bucle anteriormente mencionado.
En el caso del esquema de codificación ULD de comparación, la seña residual de predicción cuantificada se obtiene en el descodificador a partir de codificación de entropía, con lo que el residuo de predicción y la señal predicha se suman, la suma se multiplica por la inversa del factor de amplificación transmitido y, a partir de ello, se genera la señal de salida reconstruida mediante el postfiltro, que tiene una respuesta de frecuencia inversa a la del prefiltro, utilizando el postfiltro para ello los coeficientes de prefiltro transmitidos.
Un codificador ULD de comparación del tipo recién descrito obtiene por ejemplo un retardo de codificador/descodificador total de 5,33 a 8 ms a frecuencias de muestreo de 32 kHz a 48 kHz. Sin iteraciones (de bucle espurio), genera tasas de transmisión de bits en el intervalo de 80 a 96 kBit/s. Como se describió anteriormente, a menores tasas de transmisión de bits constantes, la calidad de audición disminuye en este descodificador, debido al aumento uniforme del espectro de ruido. Adicionalmente, debido a las iteraciones, el esfuerzo para obtener una tasa de transmisión de bits uniforme es alto. Los ejemplos de realización descritos a continuación superan o reducen al mínimo estas desventajas. A una tasa de transmisión de datos de transmisión constante, el esquema de codificación de los ejemplos de realización descritos a continuación provoca una conformación de ruido alterada del error de cuantificación y no requiere iteración. De manera más precisa, en el esquema de codificación ULD de comparación anteriormente comentado, en el caso de una tasa de transmisión de datos de transmisión constante en un proceso iterativo, se determina un multiplicador mediante el cual la señal que proviene del prefiltro se multiplica antes de cuantificación, siendo a este respecto el ruido de cuantificación espectralmente blanco, lo que provoca un ruido de cuantificación en el descodificador que se conforma como el umbral de audición, pero que se encuentra ligeramente por debajo o ligeramente por encima del umbral de audición, dependiendo del multiplicador seleccionado, lo que puede, como se describió anteriormente, también ser interpretado como un desplazamiento del umbral de audición determinado. En conexión con esto, después de la descodificación se obtiene un ruido de cuantificación, cuya potencia en intervalos de frecuencia individuales puede incluso exceder la potencia de la señal de entrada en el intervalo de frecuencia respectivo. Los artefactos de codificación resultantes son claramente audibles. En cambio, los ejemplos de realización descritos a continuación conforman el ruido de cuantificación de tal manera que su densidad de potencia espectral ya no es espectralmente blanca. El recorte o limitación/cuantificación gruesa de la señal de prefiltro conforma el ruido de cuantificación resultante más bien similar a la densidad de potencia espectral de la señal de prefiltro. De esta manera, el ruido de cuantificación en el descodificador se conforma de tal manera que permanece por debajo de la densidad de potencia espectral de la señal de entrada. Esto puede interpretarse como deformación del umbral de audición determinado. Los artefactos de codificación resultantes son menos espurios que en el esquema de codificación ULD de comparación. Además, los ejemplos de realización siguientes no requieren proceso de iteración, lo que reduce la complejidad.
Una vez que al describir el esquema de codificación ULD de comparación anterior se ha proporcionado una base suficiente para dirigir la atención a las ventajas y consideraciones subyacentes de los siguientes ejemplos de realización para la descripción de estos ejemplos de realización, en primer lugar se describirá, a continuación, la estructura de un codificador según un ejemplo de realización de la presente invención.
El codificador de la figura 1, indicado generalmente con 10, comprende una entrada 12 para la señal de información a codificar, así como una salida 14 para la señal de información codificada, donde se considera a continuación a modo de ejemplo que se trata de una señal de audio, y particularmente a modo de ejemplo una señal de audio ya muestreada, aunque un muestreo dentro del codificador posterior a la entrada 12 también sería concebible. Muestras de la señal de audio entrante se indican por x(n) en la figura 1.
Como se muestra en la figura 1, el codificador 10 puede estar dividido en medios 16 de determinación de umbral de enmascarado, medios 18 de prefiltro, medios 20 de predicción predictiva hacia delante y medios 22 de cuantificación/recorte así como medios 24 de generación de flujo de bits. Los medios 16 de determinación de umbral de enmascarado funcionan según un modelo perceptual o modelo de audición, para determinar una representación del umbral de audición o enmascarado de la señal de audio que entra en la entrada 12 utilizando el modelo perceptual, que indica una porción de la señal de audio que es irrelevante con respecto a la capacidad de percepción o de audición o representa un umbral espectral a la frecuencia con la cual la energía espectral permanece inaudible debido a por ejemplo efectos de ocultamiento psicoacústico o no se percibe por humanos. Como se describe a continuación, los medios 16 de determinación determinan el umbral de enmascarado por bloques, es decir determina un umbral enmascarado por bloque de bloques sucesivos de muestras de la señal de audio. Otros modos de proceder también son concebibles. La representación del umbral de enmascarado, tal como resulta de los medios 16 de determinación, puede ser, a diferencia de la descripción siguiente, particularmente con respecto a la figura 4, también una representación por muestras espectrales del umbral de enmascarado espectral.
Los medios 18 de prefiltro o preestimación se acoplan tanto a los medios 16 de determinación de umbral de enmascarado como a la entrada 12 y filtran la señal de audio para normalizar la misma respecto al umbral de enmascarado para obtener una señal prefiltrada f(n). Los medios 18 de prefiltro se basan por ejemplo en un filtro lineal y están configurados para ajustar los coeficientes de filtrado dependiendo de la representación del paso de enmascarado proporcionada por el umbral de enmascarado de los medios 16 de determinación, de tal manera que la función de transmisión del filtro lineal corresponde sustancialmente a la inversa del umbral de enmascarado. El ajuste de los coeficientes de filtrado puede realizarse por bloques, medios bloques, tal como en el caso descrito a continuación de los bloques que se superponen a la mitad en la determinación de umbral de enmascarado, o por muestras, por ejemplo por interpolación de los coeficientes de filtrado obtenidos a partir de las representaciones de umbral de enmascarado determinadas por bloques, o coeficientes de filtrado obtenidos a su vez así a través de espacios entre bloques.
Los medios 20 de predicción hacia delante se acoplan a los medios 18 de prefiltro, para someter las muestras f(n) de la señal prefiltrada, que se filtran de manera adaptativa en el dominio en tiempo utilizando el umbral de enmascarado psicoacústico, a una predicción adaptativa hacia delante, para obtener una señal predicha f(n), una señal residual r(n) que representa un error de predicción para la señal prefiltrada f(n), y una representación de los coeficientes de filtrado de predicción, basándose en los cuales puede reconstruirse la señal predicha. Particularmente, los medios 20 de predicción adaptativos hacia delante están configurados para determinar la representación de los coeficientes de filtrado de predicción directamente a partir de la señal prefiltrada f y no sólo basándose en una cuantificación siguiente de la señal residual r. Aunque, como se comentará con mayor detalle a continuación con referencia a la figura 4, los coeficientes de filtrado de predicción se representan en el dominio LFS según el ejemplo de realización de la figura 1, en particular en la forma de un residuo de predicción LFS, otras representaciones tales como una representación directa en la forma de coeficientes de filtrado lineales son también posibles. Además, los medios 20 realizan la determinación de coeficientes de filtrado de predicción según la descripción siguiente a modo de ejemplo por bloques, es decir por bloque en bloques sucesivos de muestras f(n) de la señal prefiltrada, siendo sin embargo concebibles también otros procedimientos. Los medios 20 están configurados entonces para determinar la señal predicha f mediante estos coeficientes de filtrado de predicción así determinados, y para sustraerla de la señal prefiltrada f, realizándose la determinación de la señal predicha por ejemplo mediante un filtro lineal, cuyos coeficientes de filtrado se ajustan según las representaciones de coeficientes de predicción determinados en forma adaptativa hacia delante. La señal residual disponible en el lado del descodificador, es decir la señal residual recortada y cuantificada ic(n), sumada a los valores de señal de salida de filtro previamente emitidos, puede servir como la señal de entrada de filtro tal como se comentará a continuación con más detalle.
Los medios 22 de cuantificación/recorte se acoplan a los medios 20 de predicción, para cuantificar o recortar la señal residual mediante una función de cuantificación que mapea los valores r(n) de la señal residual a un número constante y limitado de niveles de cuantificación, y para transmitir la señal residual cuantificada que se obtiene de esa manera en la forma de los índices de cuantificación ic(n), como ya se ha mencionado, a los medios 20 de predicción adaptativos hacia delante.
La señal residual cuantificada ic(n), la representación de los coeficientes de predicción determinada por los medios 20, así como la representación del umbral de enmascarado determinada por los medios 16 constituyen información que se proporciona al lado del descodificador mediante la señal 14 codificada, estando previsto por lo tanto a modo de ejemplo en la figura 1 los medios 24 de generación de flujo de bits para combinar la información según un flujo de bits en serie o una transmisión de paquetes, dado el caso utilizando una codificación sin pérdida adicional. Antes de comentar la estructura más detallada del codificador de la figura 1, el modo de funcionamiento del codificador 1 se describirá a continuación basándose en la estructura anterior del codificador 10. Al filtrar la señal de audio por los medios 18 de prefiltro con una función de transmisión correspondiente a la inversa del umbral de enmascarado, resulta una señal prefiltrada f(n), que obtiene una densidad de potencia espectral del error por cuantificación uniforme, lo que corresponde primordialmente a un ruido blanco, y resultará en un espectro de ruido similar al umbral de enmascarado mediante el filtrado en el postfiltro en el lado del descodificador. Sin embargo, en primer lugar, la señal residual f se reduce ahora primero a un error de predicción r por los medios 20 de predicción adaptativos hacia delante mediante una señal predicha de manera adaptativa hacia delante por sustracción. La cuantificación gruesa siguiente de este error de predicción r por los medios 22 de cuantificación/recorte no tiene efecto en los coeficientes de predicción de los medios 20 de predicción, ni en el lado del codificador ni del descodificador, ya que el cálculo de los coeficientes de predicción se realiza en una forma adaptativa hacia delante y de esta manera basándose en los valores no cuantificados f(n). La cuantificación no sólo se realiza en una forma gruesa, en el sentido de que se utiliza un tamaño de paso de cuantificación grueso, sino que también se realiza en una forma gruesa en el sentido de que incluso se realiza cuantificación sólo a un número constante y limitado de niveles de cuantificación, de tal manera que para representar todo valor residual cuantificado ic(n) o todo índice de cuantificación en la señal 14 de audio codificada sólo se requiere un número fijo de bits, lo que permite inherentemente una tasa de transmisión de bits constante respecto a los valores residuales ic(n). Como se describe a continuación, se realiza cuantificación primordialmente mediante cuantificación a niveles de cuantificación espaciados uniformemente de un número fijo, y con concretamente en lo sucesivo a modo de ejemplo un número de sólo tres niveles de cuantificación, realizándose la cuantificación, por ejemplo, de tal manera que un valor de señal residual no cuantificado r(n) se cuantifica al siguiente nivel de cuantificación, para obtener el índice de cuantificación ic(n) del nivel de cuantificación correspondiente para el mismo. Valores muy altos y muy bajos de la señal residual no cuantificada r(n) de esta manera se mapean al nivel de cuantificación más alto o más bajo respectivamente
o al índice de nivel de cuantificación respectivo, aún cuando se mapearían a un nivel de cuantificación superior en caso de cuantificación uniforme con el mismo tamaño de paso. De esta manera, la señal residual r también se “recorta” o limita por los medios 22. Sin embargo, esto último tiene el efecto, como se comentará a continuación, de que la densidad espectral de potencia (PSD = power spectral density) de error de la señal prefiltrada ya no es un ruido blanco, sino que se aproxima a la PSD de señal de la señal prefiltrada dependiendo del grado de recorte. En el lado del descodificador, esto tiene el efecto de que la PSD de ruido permanece por debajo de la PSD de señal incluso a tasas de transmisión de bits menores que las predeterminadas por el umbral de enmascarado.
A continuación, la estructura del codificador en la figura 1 se describirá con más detalle. Particularmente, los medios 16 de determinación de umbral de enmascarado comprenden un módulo 26 de modelo perceptual o un umbral de enmascarado determinado que funciona según el modelo perceptual, un módulo 28 de cálculo de coeficientes de prefiltro y un codificador 30 de coeficientes, que se conectan en el orden nombrado entre la entrada 12 y los medios 18 de prefiltro así como el generador 24 de flujo de bits. Los medios 18 de prefiltro comprenden un descodificador 32 de coeficientes cuya entrada se conecta a la salida del codificador 30 de coeficientes, así como el prefiltro 34, que por ejemplo es un filtro lineal adaptativo y que se conecta con su entrada de datos a la entrada 12 y con su salida de datos a los medios 20, mientras que su entrada de adaptación para adaptar los coeficientes de filtrado se conecta a una salida del descodificador 32 de coeficientes. Los medios 20 de predicción comprenden un módulo 36 de cálculo de coeficientes de predicción, un codificador 38 de coeficientes, un descodificador 40 de coeficientes, un sustractor 42, un filtro 44 de predicción, un elemento 46 de retardo, un sumador 48 adicional y un descuantificador 50. El módulo 36 de cálculo de coeficientes de predicción y el codificador 38 de coeficientes se conectan en serie en este orden entre la salida del prefiltro 34 y la entrada del descodificador 40 de coeficientes o una entrada adicional del generador 24 de flujo de bits, y cooperan para determinar una representación de los coeficientes de predicción por bloques en una forma adaptativa hacia delante. El descodificador 40 de coeficientes se conecta entre el codificador 38 de coeficientes y el filtro 44 de predicción que por ejemplo es un filtro de predicción lineal. Aparte de la entrada de coeficientes de predicción conectada al descodificador 40 de coeficientes, el filtro 44 comprende una entrada de datos y una salida de datos, a las cuales se conecta el mismo en un bucle cerrado, que comprende aparte del filtro 44, el sumador 48 y el elemento 46 de retardo. Particularmente, el elemento 46 de retardo se conecta entre el sumador 48 y el filtro 44, mientras que la salida de datos del filtro 44 se conecta a una primera entrada del sumador 48. Además, la salida de datos del filtro 44 también se conecta a la entrada de inversión del sustractor 42. Una entrada sin inversión del sustractor 42 se conecta a la salida del prefiltro 34, mientras que la segunda entrada del sumador 48 se conecta a una salida del descuantificador 50. Una entrada de datos del descuantificador 50 se acopla a los medios 22 de cuantificación/recorte así como a una entrada de control de tamaño de paso del descuantificador 50. Los medios 22 de cuantificación/recorte comprenden un módulo 52 de cuantificador así como un bloque 54 de adaptación de tamaño de paso, en donde, a su vez, el módulo 52 de cuantificación consiste en un cuantificador 56 uniforme con un tamaño de paso uniforme y controlable y un limitador 58, que se conecta en serie en el orden nombrado entre una salida del substrato 42 y una entrada adicional del generador 24 de flujo de bits, y en donde el bloque 54 de adaptación de tamaño de paso comprende a su vez un módulo 60 de adaptación de tamaño de paso y un elemento 62 de retardo, que se conectan en serie en el orden nombrado entre la salida del alimentador 58 y una entrada de control de tamaño de paso del cuantificador 56. Adicionalmente, la salida del limitador 58 se conecta a la entrada de datos del descuantificador 50, en donde la entrada de control de tamaño de paso del descuantificador 50 también se conecta al bloque 60 de adaptación de tamaño de paso. Una salida del generador 24 de flujo de bits forma a su vez la salida 14 del codificador 10.
Después de que la estructura detallada del codificador de la figura 1 se ha descrito en detalle anteriormente, a continuación se describirá su modo que funcionamiento. El módulo 26 de modelo perceptual determina o estima el umbral de enmascarado por bloques a partir de la señal de audio. Para ello el módulo 26 de modelo perceptual utiliza por ejemplo una DFT de longitud 256, es decir una longitud de bloque de 256 muestras x(n), con 50% de superposición entre los bloques, lo que resulta en un retardo del codificador 10 de 128 muestras de la señal de audio. La estimación del umbral de enmascarado emitida por el módulo 26 de modelo perceptual por ejemplo se representa en una forma espectralmente muestreada en una escala de banda BARK o de frecuencia lineal. El umbral de enmascarado emitido por bloque por el módulo 26 de modelo perceptual se utiliza en el módulo 28 de cálculo de coeficientes para calcular coeficientes de filtrado de un filtro predeterminado, concretamente el filtro 34. Los coeficientes calculados por el módulo 28 por ejemplo pueden ser coeficientes LPC, que modelan el umbral de enmascarado. Los coeficientes de prefiltro por cada bloque de nuevo se codifican por el codificador 30 de coeficientes, que se comentará con más detalle con referencia a la figura 4. El descodificador 34 de coeficientes descodifica los coeficientes de prefiltro codificados para recuperar los coeficientes de prefiltro del módulo 28, en donde el prefiltro 34 de nuevo obtiene estos parámetros o coeficientes de prefiltro y los utiliza, de tal manera que normaliza la señal de entrada x(n) con respecto a su umbral de enmascarado o la filtra con una función de transmisión, que esencialmente corresponde a la inversa del umbral de enmascarado. Comparado con la señal de entrada, la señal prefiltrada f(n) resultante es significativamente menor en magnitud.
En el módulo 36 de cálculo de coeficientes de predicción, las muestras f(n) de la señal prefiltrada se procesan ahora de nuevo por bloques, en donde la división por bloques puede corresponder a modo de ejemplo a la de la señal 12 de audio por el módulo 26 de modelo perceptual, aunque no necesariamente. Por cada bloque de muestras prefiltradas, el módulo 36 de cálculo de coeficientes calcula los coeficientes de predicción para su uso por el filtro 44 de predicción. Para ello, el módulo 36 de cálculo de coeficientes realiza por ejemplo un análisis de codificación predictiva lineal (LPC = linear predictive coding) por bloque de la señal prefiltrada para obtener los coeficientes de predicción. El codificador 38 de coeficientes codifica entonces los coeficientes de predicción de manera similar al codificador 30 de coeficientes tal como se comentará con mayor detalle continuación, y envía esta representación de los coeficientes de predicción al generador 24 de flujo de bits y particularmente el descodificador 40 de coeficientes, en donde este último utiliza la representación de coeficientes de proyección obtenida para aplicar los coeficientes de predicción obtenidos en el análisis LPC por el módulo 36 de cálculo de coeficientes al filtro lineal 44, de tal manera que el predictor de bucle cerrado, que consiste en el bucle cerrado del filtro 44, el elemento 46 de retardo y el sumador 48, genera la señal predicha (n), que a su vez se sustrae de la señal prefiltrada f(n) por el sustractor 42. El filtro 44 lineal por ejemplo es un
filtro de predicción lineal del tipo A(z) =
de longitud N, en donde el descodificador 40 de coeficientes ajusta los valores ai dependiendo de los coeficientes de predicción calculados por el módulo 36 de cálculo de coeficientes, es decir las ponderaciones con las cuales se ponderan dos valores predichos previos f(n) más los valores
de señal residual descuantificados y después se suman para obtener el valor predicho nuevo o actual.
El residuo de predicción r(n) obtenido por el sustractor 42 se somete a cuantificación uniforme, es decir cuantificación con un tamaño de paso de cuantificación uniforme, en el cuantificador 56, siendo el tamaño de paso 1 (n) variable en el tiempo y se calcula o determina por el módulo de adaptación de tamaño de paso en una forma adaptativa hacia atrás, es decir a partir de los valores residuales cuantificados respecto a valores residuales previos r(m<n). De manera más precisa, el cuantificador 56 uniforme emite por valor residual r(n) un valor residual cuantificado q(n), que puede expresarse como q(n) = i(n) 1 (n), y puede denominarse como índice de tamaños de paso de cuantificación provisional.
El índice de cuantificación provisional i(n) de nuevo se recorta por el limitador 58 a la cantidad C =[-c;c], donde c es una constante c E {1, 2,...}. Particularmente, el limitador 58 está configurado de tal manera que todos los valores de índices provisionales i(n) con li(n)l > c se ajustan a –c o a c, dependiendo de cuál esté más cerca. Únicamente la serie o secuencia de índices recortada o limitada ic(n) se envía por el limitado 58 al generador 24 de flujo de bits, al descuantificador 50 y al bloque 54 de adaptación de tamaño de paso o al elemento 62 de retardo, debido a que el elemento 62 de retardo al igual que todos los demás elementos de retardo en los presentes ejemplos de realización retardan los valores de entrada por una muestra.
Ahora, el control de tamaño de paso adaptativo hacia atrás se realiza mediante el bloque 54 de adaptación de tamaño
de paso utilizando los mismos valores de serie de índices ic(n) pasados, retardados por el elemento 62 de retardo, para adaptar de manera continua el tamaño de paso 1 (n) de tal manera que el intervalo limitado por el limitador 58, es decir el intervalo que abarca los índices de cuantificación “permitidos” o los niveles de cuantificación correspondientes, se sitúa con la probabilidad estadística de aparición de los valores residuales r(n) de tal manera que los niveles de cuantificación permitidos ocurren lo más uniformemente posible en el flujo de serie de índices de cuantificación ic(n) recortado generado. De manera particular, el módulo 60 de adaptación de tamaño de paso calcula por ejemplo el tamaño de paso actual L(n) por ejemplo utilizando los dos índices de cuantificación recortados inmediatamente anteriores ic(n-1) e i2(n-2) así como el valor de tamaño de paso previamente determinado inmediatamente L(n-1) para L(n) = �L(n-1) + o(n), con �E[0,0;1,0], o(n) = o0 para lic(n-1) + ic(n-2)l: I y o(n) = o1 para lic(n-1) + ic(n-2)l > I, siendo o0, o1 e I constantes ajustadas de manera apropiada al igual que �.
Como se comentará con mayor detalle a continuación con referencia a la figura 5, el descodificador utiliza la serie de índices de cuantificación ic(n) obtenida y la serie de tamaños de paso L(n), calculada también en una forma adaptativa hacia atrás, para reconstruir la serie de valores residuales descuantificados qc(n) calculando ic(n) . L(n), lo que también se realiza en el codificador 10 de la figura 1, concretamente por el descuantificador 50 en los medios 20 de predicción. Como en el lado del descodificador, la serie de valores residuales q c(n) construida de esa manera se somete a una
adición con los valores predichos (n) por muestras, adición que se realiza en el codificador 10 mediante el sumador
48. Mientras que la señal prefiltrada, reconstruida o descuantificada, obtenida de esa manera no se utiliza más en el
codificador 10, excepto para el cálculo de los valores predichos siguientes
(n), el postfiltro genera a partir de la misma la serie de muestras de audio descodificadas y(n) en el lado del descodificador, y realiza en sentido inverso la normalización por el prefiltro 34.
El ruido de cuantificación introducido en la serie de índices de cuantificación qc(n) ya no es blanco debido al recorte.
Más bien, su forma espectral imita a la de la señal prefiltrada. Para ilustrar esto, se hace brevemente referencia a la figura 3, que muestra en las gráficas a, b y c la PSD de la señal prefiltrada (gráfica superior) y la PSD del error de cuantificación (gráfica inferior respectiva) para diferentes números de escalones o niveles de cuantificación, concretamente para C = [-15;15] en la gráfica a, para un intervalo de limitador de [-7;7] en la gráfica b, y un intervalo de recorte de [-l;l] en la gráfica c. Por razones de claridad, además ha de indicarse que las evoluciones de PSD de las PSD de error en las gráficas A-C se han trazado en cada caso con un desplazamiento de -10dB. Como puede verse, la señal prefiltrada corresponde a un ruido de color con una potencia de ( 2 = 34. En una cuantificación con tamaño de paso
1 =1, la señal se sitúa dentro de [-21;21], es decir las muestras de la señal prefiltrada presentan una distribución de aparición o forman un histograma, que se sitúa dentro de este intervalo. Para las gráficas a a c en la figura 3, el intervalo de cuantificación se ha limitado, como se mencionó, a [-15;15] en a), [-7;7] en b) y [-1;1] en c). El error de cuantificación se ha medido como la diferencia entre la señal prefiltrada no cuantificada y la señal prefiltrada descodificada. Como puede verse, se añade un ruido de cuantificación a la señal prefiltrada al incrementar el recorte o con limitación incrementada del número de niveles de cuantificación, que imita la PSD de la señal prefiltrada, en donde el grado de imitación depende de la dureza o la extensión del recorte aplicado. Consecuentemente, después del postfiltrado, el espectro de ruido de cuantificación en el lado del descodificador imita más a la PSD de la señal de entrada de audio. Esto significa que el ruido de cuantificación permanece por debajo del espectro de señal después de la descodificación. Este efecto se ilustra en la figura 2, que muestra en la gráfica a, para el caso de predicción adaptativa hacia atrás, es decir predicción según el esquema ULD de comparación anteriormente descrito, y en la gráfica b, para el caso de predicción adaptativa hacia delante con recorte aplicado según la figura 1, respectivamente tres evoluciones de curva en un dominio de frecuencia normalizado, concretamente, de arriba hacia abajo, la PSD de señal, es decir la PSD de la señal de audio, la PSD de error de cuantificación o el ruido de cuantificación después de la descodificación (línea continua) y el umbral de enmascarado (línea discontinua). Como puede verse, el ruido de cuantificación para el codificador ULD de comparación (figura 2a) se forma como el umbral de enmascarado y excede el espectro de señal para porciones de la señal. El efecto de la predicción adaptativa hacia delante de la señal prefiltrada combinado con el posterior recorte o limitación del número de niveles de cuantificación ahora se ilustra claramente en la figura 2b, en donde puede verse que el ruido de cuantificación siempre es menor que el espectro de señal y su forma representa una mezcla del espectro de señal y el umbral de enmascarado. En pruebas de audición se ha encontrado que los artefactos de codificación según la figura 2b son menos espurios, es decir la calidad de audición percibida es por tanto mejor.
La descripción anterior del modo de funcionamiento del codificador de la figura 1 se centra en el postprocesamiento de la señal prefiltrada f(n), para obtener los índices de cuantificación recortados ic(n) que deben transmitirse al lado del descodificador. Ya que se originan de una cantidad con un número de índices constante y limitado, cada uno puede representarse por el mismo número de bits dentro del flujo de datos codificados en la salida 14. Para ello, el generador 24 de flujo de bits utiliza por ejemplo un mapeo de inyección de los índices de cuantificación a palabras de m bits que pueden representarse por un número predeterminado de bits m.
La siguiente descripción trata ahora, sin embargo, de la transmisión de los coeficientes de prefiltro o predicción, calculados por los módulos 28 y 36 de cálculo de coeficientes, al lado del descodificador, es decir particularmente con un ejemplo de realización de la estructura de los codificadores 30 y 38 de coeficientes.
Como se ilustra, los codificadores de coeficientes según el ejemplo de realización de la figura 4, comprenden un módulo 102 de conversión LSF, un primer sustractor 104, un segundo sustractor 106, un cuantificador 108 uniforme con un tamaño de paso de cuantificación uniforme y ajustable, un limitador 110, un descuantificador 112, un tercer sumador 114, dos elementos 116 y 118 de retardo, un filtro 120 de predicción con coeficientes de filtrado fijos o coeficientes de filtrado constantes, así como un módulo 122 de adaptación de tamaño de paso. Los coeficientes de filtrado a codificar entran en una entrada 124, estando prevista una salida 126 para emitir la representación codificada.
Una entrada del módulo 102 de conversión LSF sigue directamente a la entrada 124. El sustractor 104 con su entrada sin inversión y su salida se conecta entre la salida del módulo 102 de conversión LSF y una primera entrada del sustractor 106, en donde una constante lc se aplica a la entrada de inversión del sustractor 104. El sustractor 106 se conecta con su entrada sin inversión y su salida entre el primer sustractor 104 y el cuantificador 108, en donde su entrada de inversión se acopla a una salida del filtro 120 de predicción. Junto con el elemento de retardo 118 y el sumador 114, el filtro 120 de predicción forma un predictor de bucle cerrado, en donde los mismos se conectan en serie en un bucle con realimentación, de tal manera que el elemento 118 de retardo se conecta entre la salida del sumador 114 y la entrada del filtro 120 de predicción, y la salida del filtro 120 de predicción se conecta a una primera entrada del sumador 114. La estructura restante corresponde de nuevo primordialmente a la de los medios 22 del codificador 10, es decir el cuantificador 108 se conecta entre la salida del sustractor 106 y la entrada de limitador 110, cuya salida se conecta a su vez a la salida 126, una entrada del elemento 116 de retardo y una entrada del descuantificador 112. La salida del elemento 116 de retardo se conecta a una entrada del módulo 122 de adaptación de tamaño de paso, que de esta manera forman juntos un bloque de adaptación de tamaño de paso. Una salida del módulo 122 de adaptación de tamaño de paso se conecta a entradas de control de tamaño de paso del cuantificador 108 y el descuantificador 112. La salida del descuantificador 112 se conecta a la segunda entrada del sumador 114.
Después de que la estructura del codificador de coeficientes se ha descrito anteriormente, su modo de funcionamiento se describirá a continuación, haciendo referencia de nuevo a la figura 1. La transmisión de los coeficientes tanto de prefiltro como de predicción o predictor, o su codificación, se realiza utilizando un esquema de codificación de tasa de transmisión de bits constante, que se realiza mediante una estructura según la figura 4. Después, en el módulo 102 de conversión LSF, los coeficientes de filtrado, es decir los coeficientes de prefiltro o predicción, primero se convierten en valores LSF l(n) o se transfieren al dominio LSF. Toda frecuencia de línea espectral l(n) después se procesa por los demás elementos en la figura 4 como sigue. Esto significa que la siguiente descripción se refiere solamente a una frecuencia de línea espectral, mientras que el procesamiento por supuesto se realiza para todas las frecuencias de línea espectrales. Por ejemplo, el módulo 102 genera valores LSF por cada conjunto de coeficientes de prefiltro que representan un umbral de enmascarado o un bloque de coeficientes de predicción que predicen la señal prefiltrada. El sustractor 104 sustrae un valor de referencia constante lc del valor calculado l(n), donde un intervalo adecuado para lc está en el intervalo por ejemplo de 0 a n. De la diferencia resultante I d(n) el sustractor 106 sustrae un valor predicho
que se calcula por el predictor de bucle cerrado 120, 118 y 114 incluyendo el filtro 120 de predicción, tal como un filtro lineal, con coeficientes fijos A(z). Lo que queda, es decir el valor residual, se cuantifica por el cuantificador 108 de tamaño de paso adaptativo, recortándose los índices de cuantificación emitidos por el cuantificador 108 por el limitador 110 a un subconjunto de los índices de cuantificación recibidos por el mismo, de tal manera que, por ejemplo,
Para la adaptación de tamaño de paso de cuantificación de 1 (n) del cuantificador 108 residual LSF, el módulo 122 de adaptación de tamaño de paso y el elemento 116 de retardo cooperan por ejemplo de la forma descrita respecto al bloque 54 de adaptación de tamaño de paso con referencia a la figura 1,
aunque dado el caso con una función de adaptación diferente o con diferentes constantes j , I, 60, 61 y I. Mientras que el cuantificador 108 utiliza el tamaño de paso actual para cuantificar el valor residual actual a le(n), el descuantificador 112 utiliza el tamaño de paso 1 l(n) para volver a descuantificar este valor de índice le(n) y para
suministrar el valor reconstruido resultante para el valor residual LSF, tal como ha salido del sustractor 106, al sumador
114, que suma este valor al correspondiente valor predicho y lo suministra retardado por el elemento 118 de
retardo por una muestra al filtro 120 para calcular el valor LSF predicho para el siguiente valor LSF ld(n).
Si los dos codificadores 30 y 38 de coeficientes se configuran en la forma descrita en la figura 4, el codificador 10 de la figura 1 cumple con una condición de tasa de transmisión de bits constante sin utilizar ningún bucle. Debido a la adaptación hacia delante por bloques de los coeficientes LPC y el esquema de codificación aplicado, no se requiere un reinicio explícito del predictor.
Antes de comentar a continuación los resultados de las pruebas de audición que se han obtenido mediante un codificador según las figuras 1 y 4, se describirá a continuación la estructura de un descodificador según un ejemplo de realización de la presente invención, que es adecuado para descodificar un flujo de datos codificado desde ese codificador, haciendo referencia a las figuras 5 y 6. La figura 6 también muestra la estructura del descodificador de coeficientes en la figura 1.
El descodificador, en general indicado por 200 en la figura 5, comprende una entrada 202 para recibir el flujo de datos codificado, una salida 204 para emitir el flujo de audio descodificado y(n) así como medios 206 de descuantificación que tienen un número limitado y constante de niveles de cuantificación, medios 208 de predicción, medios 210 de reconstrucción así como medios 212 de postfiltro. Adicionalmente está previsto un extractor 214, que se acopla a la entrada 202 y está configurado para extraer, a partir del flujo de bits codificado de entrada, la señal residual de prefiltro cuantificada y recortada ic(n), la información codificada sobre los coeficientes de prefiltro y la información codificada sobre los coeficientes de predicción, tal como se han generado en los codificadores 30 y 38 de coeficientes (figura 1) y para emitirlas en las salidas respectivas. Los medios 206 de descuantificación se acoplan al extractor 214 para obtener los índices de cuantificación ic(n) de los mismos y para realizar descuantificación de estos índices a un número limitado es decir manteniendo la misma notación anterior
para obtener una señal residual de prefiltro descuantificada o reconstruida qc(n). Los medios 208 de predicción se acoplan al extractor 214 para obtener una señal predicha para la
señal prefiltrada, es decir , a partir de la información sobre los coeficientes de predicción. Los medios 208 de
predicción se acoplan al extractor 214 para determinar una señal predicha para la señal prefiltrada, es decir , a partir de la información sobre los coeficientes de predicción, en donde los medios 208 de predicción según el ejemplo de realización de la figura 5 también se conectan a una salida de los medios 210 de reconstrucción. Los medios 210 de reconstrucción se proporcionan concretamente para reconstruir la señal prefiltrada, basándose en la señal predicha
y la señal residual descuantificada qc(n). Esta reconstrucción se utiliza entonces por los medios 212 de postfiltro siguientes para filtrar la señal prefiltrada basándose en la información de coeficientes de prefiltro recibida por el extractor 214, de tal manera que la normalización respecto al umbral de enmascarado se realiza de nuevo en sentido inverso para obtener la señal de audio descodificada y(n).
Después de haber descrito anteriormente la estructura básica del descodificador de la figura 5, se comentará con más detalle a continuación la estructura del descodificador 200. Particularmente, el descuantificador 206 comprende un bloque de adaptación de tamaño de paso formado por un elemento 216 de retardo y un módulo 218 de adaptación de tamaño de paso así como un descuantificador 220 uniforme. El descuantificador 220 se conecta con su entrada de datos a una salida del extractor 214, para obtener los índices de cuantificación ic(n). Además, a esta salida del extractor 214 se conecta mediante el elemento 216 de retardo el módulo 218 de adaptación de tamaño de paso, cuya salida se conecta a su vez a una entrada de control de tamaño de paso del descuantificador 220. La salida del descuantificador 220 se conecta a una primera entrada del sumador 222, que forma los medios 210 de reconstrucción. Los medios 208 de predicción comprenden un descodificador 224 de coeficientes, un filtro 225 de predicción así como un elemento 228 de retardo. El descodificador 224 de coeficientes, el sumador 222, el filtro 226 de predicción y el elemento 228 de retardo corresponden a los elementos 40, 44, 46 y 48 del codificador 10 con respecto a su modo de funcionamiento y su conectividad. En particular, la salida del filtro 226 de predicción se conecta a la entrada adicional del sumador 222, cuya salida se realimenta a su vez a la entrada de datos del filtro 226 de predicción mediante el elemento 228 de retardo, así como se acopla a los medios 212 de postfiltro. El descodificador 224 de coeficientes se conecta entre una salida adicional del extractor 214 y la entrada de adaptación del filtro 226 de predicción. Los medios de postfiltro comprenden un descodificador 230 de coeficientes y un postfiltro 232, en donde una entrada de datos del postfiltro 232 se conecta a una salida del sumador 222 y una salida de datos del postfiltro 232 se conecta a la salida 204, mientras que una entrada de adaptación del postfiltro 232 se conecta para la adaptación del postfiltro 232 a una salida del descodificador 230 de coeficientes, cuya entrada se conecta a su vez a una salida adicional del extractor 214.
Como ya se ha mencionado, el extractor 214 extrae los índices de cuantificación ic(n) que representan la señal residual de prefiltro cuantificada, a partir del flujo de datos codificado en la entrada 202. En el descuantificador 220 uniforme, estos índices de cuantificación se descuantifican a los valores residuales cuantificados qc(n). De manera inherente, esta descuantificación permanece dentro del nivel de cuantificación permitido, ya que los índices de cuantificación ic(n) ya se han recortado en el lado del codificador. La adaptación de tamaño de paso se realiza en una forma adaptativa hacia atrás, de la misma forma que en el bloque 54 de adaptación de tamaño de paso del codificador de la figura 1. Sin errores de transmisión, el descuantificador 220 genera por tanto los mismos valores que el descuantificador 50 del codificador de la figura 1. Por lo tanto, los elementos 222, 226, 228 y 224 obtienen basándose en los coeficientes de predicción codificados el mismo resultado que se obtiene en el codificador 10 de la figura 1 a la salida del sumador 48, es decir una señal de prefiltro descuantificada o reconstruida. Esta última se filtra en el postfiltro 232, con una función de transmisión que corresponde al umbral de enmascarado, en donde el postfiltro 232 se ajusta en forma adaptativa para ello por el descodificador 230 de coeficientes, que ajusta apropiadamente el postfiltro 230 o sus coeficientes de filtrado, basándose en la información de coeficientes de prefiltro.
Considerando que el codificador 10 está dotado de codificadores 30 y 38 de coeficientes, que están configurados como se describe en la figura 4, los descodificadores 224 y 230 de coeficientes del codificador 200 pero también el descodificador 40 de coeficientes del codificador 10 se estructuran tal como se ilustra en la figura 6. Como puede verse, un descodificador de coeficientes comprende dos elementos 302, 304 de retardo, un módulo 306 de adaptación de tamaño de paso que forma un bloque de adaptación de tamaño de paso junto con el elemento 302 de retardo, un descuantificador 308 uniforme con tamaño de paso uniforme, un filtro 310 de predicción, dos sumadores 312 y 314, un módulo 316 de inversión LSF así como una entrada 318 para recibir los valores residuales LSF cuantificados le(n) con desplazamiento constante -lc y una salida 320 para emitir los coeficientes de prefiltro o predicción reconstruidos. Así, el elemento 302 de retardo se conecta entre una entrada del módulo 306 de adaptación de tamaño de paso y la entrada 318, una entrada del descuantificador 308 también se conecta a la entrada 318, y una entrada de adaptación de tamaño de paso del descuantificador 308 se conecta a una salida del módulo 306 de adaptación de tamaño de paso. El modo de funcionamiento y conectividad de los elementos 302, 306 y 308 corresponde al de 112, 116 y 122 en la figura 4. Un predictor de bucle cerrado, formado por el elemento 304 de retardo, el filtro 310 de predicción y el sumador 312, que se conectan en un bucle común, al conectar el elemento 304 de retardo entre una salida del sumador 312 y una entrada del filtro 310 de predicción, y al conectar una primer entrada del sumador 312 a la salida del descuantificador 308, y al conectar una segunda entrada del sumador 312 a una salida del filtro de predicción 310, se conecta a una salida del descuantificador 308. Los elementos 304, 310 y 312 corresponden a los elementos 120, 118 y 114 de la figura 4 en su modo de funcionamiento y conectividad. Adicionalmente, la salida del sumador 312 se conecta a una primera entrada del sumador 314, en cuya segunda entrada se aplica el valor constante lc, donde, según el presente ejemplo de realización, la constante lc es una magnitud acordada, que está presente tanto en el codificador como en el descodificador y por tanto no tiene que transmitirse como parte de la información secundaria, aunque esto último también sería posible. El módulo 316 de reconversión LSF se conecta entre una salida del sumador 314 y la salida 320.
Los índices de señal residual LSF le(n) que entran en la entrada 318 se descuantifican por el descuantificador 308, utilizando donde el descuantificador 308 los valores de tamaño de paso adaptados hacia atrás 1 (n), que se han determinado en una forma adaptativa hacia atrás por el módulo 306 de adaptación de tamaño de paso a partir de los índices de cuantificación ya descuantificados, es decir aquéllos que se han retrasado por una muestra por el elemento 302 de retardo. El sumador 312 suma a los valores residuales LSF descuantificados la señal predicha, que calcula la combinación del elemento 304 de retardo y el filtro 210 de predicción a partir de sumas que el sumador 312 ya ha calculado previamente y por tanto representan los valores LSF reconstruidos, que simplemente se proporcionan con un desplazamiento constante respecto al desplazamiento constante lc. Este último se corrige por el sumador 314 sumando el valor lc a los valores LSF, que emite el sumador 312. De esta manera, a la salida del sumador 314, resultan los valores LSF reconstruidos, que se convierten por el módulo 316 del dominio LSF de vuelta a los coeficientes de prefiltro o predicción reconstruidos. El módulo 316 de reconversión LSF considera para ello todas las frecuencias de línea espectral, mientras que la explicación de los demás elementos de la figura 6 se limitó a la descripción de una frecuencia de línea espectral. Sin embargo, los elementos 302-314 realizan las medidas anteriormente descritas también en las demás frecuencias de línea espectral.
Después de proporcionar los ejemplos de realización de tanto el codificador como el descodificador anteriores, se presentarán a continuación resultados de pruebas de audición por medio de la figura 7, tal como se han obtenido mediante un esquema de codificación según las figuras 1, 4, 5 y 6. En las pruebas realizadas, se probaron tanto un codificador según las figuras 1, 4 y 6 como un codificador según el esquema de codificación ULD de comparación comentado al inicio de la descripción de las figuras, en una prueba de audición según la norma MUSHRA, en la que los moderadores se han omitido. La prueba MUSHRA se realizó en un ordenador portátil con un convertidor D-A externo y un amplificador/auriculares STAX en un entorno de oficina silencioso. El grupo de ocho oyentes de prueba se constituyó por oyentes expertos y no expertos. Antes de que los participantes empezaran la prueba de audición, tuvieron la oportunidad por oír un conjunto de pruebas. Las pruebas se realizaron con doce archivos de audio en mono del conjunto de prueba MPEG, en los que todos tenían una frecuencia de muestreo de 32 kHz, es decir es0l (Suzanne Vega), es02 (habla masculina, alemán), es03 (habla femenina, inglés), sc0l (trompeta), sc02 (orquesta), sc03 (música pop), si0l (címbalo), si02 (castañuelas), si03 (diapasón), sm01 (gaita), sm02 (carillón), sm03 (instrumentos de cuerdas pulsadas).
Para el esquema de codificación ULD de comparación se utilizó en la implementación una predicción adaptativa hacia atrás con una longitud de 64, junto con un codificador Golomb adaptativo hacia atrás para codificación de entropía, con una tasa de transmisión de bits constante de 64 kBit/s. En cambio, para implementar el codificador según las figuras 1, 4
cuantificación diferentes se limitó a 3, es decir tal que resultado, junto con la información secundaria codificada, una tasa de transmisión de bits constante de 64 kBit/s, es decir la misma tasa de transmisión de bits.
Los resultados de la prueba de audición MUSHRA se ilustran en la figura 7, donde se ilustran tanto los valores promedio como los intervalos de confianza del 95%, para las doce piezas de prueba individualmente y para el resultado total a través de todas las piezas. Siempre que se superponen los intervalos de confianza, no hay diferencia estadística significativa entre los procedimientos de codificación.
La pieza 0l (Suzanne Vega) es un buen ejemplo de la superioridad del esquema de codificación según las figuras 1, 4, 5 y 6 a menores tasas de transmisión de bits. Las porciones superiores del espectro de señal descodificada muestran menos artefactos audibles en comparación con el esquema de codificación ULD de comparación. Esto da como resultado una valoración significativamente superior del esquema según las figuras 1, 4, 5 y 6.
Los transitorios de señal de la pieza sm02 (carillón) requieren una demanda de tasa de transmisión de bits superior para el esquema de codificación ULD de comparación. En los 64kBit/s empleados, el esquema de codificación ULD de comparación genera artefactos de codificación espurios a través de bloques completos de muestras. En cambio, el codificador que funciona según las figuras 1, 4 y 6 proporciona una calidad de audición o calidad perceptual significativamente mejoradas. La valoración total, que puede verse en la gráfica de la figura 7 a la derecha, del esquema de codificación configurado según las figuras 1, 4 y 6 obtiene una valoración significativamente mejor que el esquema de codificación ULD de comparación. En total, este esquema de codificación tuvo una valoración total de “buena calidad de audio” en las condiciones de prueba dadas.
En resumen, de los ejemplos de realización anteriormente descritos resulta un esquema de codificación de audio con bajo retardo, que utiliza una predicción adaptativa hacia delante por bloques junto con limitación/recorte en lugar de una predicción por muestras adaptativa hacia atrás. La conformación de ruido difiere del esquema de codificación ULD de comparación. La prueba de audición ha mostrado que los ejemplos de realización anteriormente descritos son superiores al procedimiento adaptativo hacia atrás según el esquema de codificación ULD de comparación en el caso de menores tasas de transmisión de bits. Por consiguiente, son un candidato para cerrar el espacio en cuanto a tasa de transmisión de bits entre codificadores de voz de alta calidad y codificadores de audio con bajo retardo. En total, los ejemplos de realización anteriormente descritos proporcionan una posibilidad de esquemas de codificación de audio que tienen muy bajo retardo de 6 - 8 ms para tasas de transmisión de bits reducidas, que presenta las siguientes ventajas en comparación con el codificador ULD de comparación: es más robusto frente a altos errores de cuantificación, presenta capacidades de conformación de ruido adicionales, presenta una mejor capacidad para obtener una tasa de transmisión de bits constante, y muestra un mejor comportamiento de recuperación de errores. El problema del ruido de cuantificación audible en posiciones sin señal, como es el caso en el esquema de codificación ULD de comparación, se aborda por los ejemplos de realización mediante una forma modificada de incrementar el ruido de cuantificación por encima del umbral de enmascarado, es decir sumando el espectro de señal al umbral de enmascarado en lugar de incrementar de manera uniforme el umbral de enmascarado en un cierto grado. De esa manera, no hay ruido de cuantificación audible en posiciones sin señal.
En otras palabras, los ejemplos de realización anteriores difieren del esquema de codificación ULD de comparación de la siguiente forma. En el esquema de codificación ULD de comparación, se utiliza predicción adaptativa hacia atrás, lo que significa que los coeficientes para el filtro de predicción A(z) se actualizan muestra por muestra a partir de valores de señal descodificados previamente. Se utiliza un cuantificador que tiene un tamaño de paso variable, en el que el tamaño de paso adapta todas las 128 muestras utilizando información de los codificadores de entropía y se transmite como información secundaria al lado del descodificador. Mediante este modo de proceder se aumenta el tamaño de paso de cuantificación, lo que añade más ruido blanco a la señal prefiltrada y de esta manera aumenta de manera uniforme el umbral de enmascarado. Si la predicción adaptativa hacia atrás se reemplaza por una predicción por bloques adaptativa hacia delante en el esquema de codificación ULD de comparación, lo que significa que los coeficientes para el filtro de predicción A(z) se calculan una vez para 128 muestras de las muestras prefiltradas no cuantificadas, y se transmiten como información secundaria, y si el tamaño de la paso del cuantificador se adapta para las 128 muestras utilizando información del codificador de entropía y se transmiten como información secundaria al lado del descodificador, el tamaño de paso del cuantificador aumenta aún más, como es el caso en el esquema de codificación ULD de comparación, pero la actualización del predictor no se ve afectada por ninguna cuantificación. Los ejemplos de realización anteriores utilizan ahora una predicción por bloques adaptativa hacia delante, en la que adicionalmente el cuantificador solamente tiene un número dado 2N+1 de escalones de cuantificación que tienen un
tamaño de paso fijo. Para las señales prefiltradas x(n), con amplitudes fuera del alcance del cuantificador [-N 1 ; N 1 ], la señal cuantificada se limitó a [-N 1 ;N 1 ]. Esto da como resultado un ruido de cuantificación que tiene una PSD, que ya no es blanca, sino que imita la PSD de la señal de entrada, es decir la señal de audio prefiltrada.
Como conclusión, ha de indicarse lo siguiente en los ejemplos de realización anteriores. En primer lugar ha de indicarse que existen diferentes posibilidades para transmitir información sobre la representación del umbral de enmascarado, tal como se obtiene por el módulo 26 de modelo perceptual dentro del codificador, al prefiltro 34 o al filtro 44 de predicción, y al descodificador, y de allí particularmente al postfiltro 232 y al filtro 226 de predicción. De manera particular, ha de indicarse que no se requiere que los descodificadores 32 y 40 de coeficientes dentro del codificador reciban exactamente la misma información con respecto al umbral de enmascarado que se emite en la salida 14 del codificador y se recibe en la entrada 202 del descodificador. Por el contrario, es posible que por ejemplo en una estructura del codificador 30 de coeficientes según la figura 4, los índices le(n) obtenidos así como los índices de cuantificación de señal residual de prefiltro ic(n) se originen también sólo a partir de una cantidad de tres valores, es decir -1, 0, 1, y que el generador 24 de flujo de bits mapee estos índices también de manera unívoca a palabras de n bits correspondientes. Según un ejemplo de realización según las figuras 1, 4 ó 5, 6, respectivamente, los índices de cuantificación de prefiltro, los índices de cuantificación de coeficientes de predicción y/o los índices de cuantificación de prefiltro, que se originan respectivamente de la cantidad -1, 0, 1, se mapean respectivamente de cinco en cinco a una palabra de 8 bits, lo que corresponde a un mapeo de 35 posibilidades a palabras de 28 bits. Dado que el mapeo no es sobreyectivo, algunas palabras de 8 bits permanecen sin usar y pueden emplearse de otras formas, tales como para sincronización o similar.
En esta ocasión, ha de indicarse lo siguiente. Con anterioridad se ha descrito con referencia a la figura 6 que la estructura de los descodificadores 32 y 230 de coeficientes es idéntica. En este caso, el prefiltro 34 y el postfiltro 232 están configurados de tal manera que cuando se aplican los mismos coeficientes de filtrado tienen una función de transmisión inversa una respecto a la otra. Sin embargo, por supuesto también es posible que, por ejemplo, el codificador 32 de coeficientes realice una conversión adicional de los coeficientes de filtrado, de tal manera que el prefiltro presenta una función de transmisión primordialmente correspondiente a la inversa del umbral de enmascarado, mientras que el postfiltro presenta una función de transmisión primordialmente correspondiente al umbral de enmascarado.
En los ejemplos de realización anteriores se ha considerado que el umbral de enmascarado se calcula en el módulo 26. Sin embargo, ha de indicarse que el umbral calculado no tiene que corresponder exactamente al umbral psicoacústico, sino que puede representar una estimación más o menos exacta del mismo, que puede no considerar todos los efectos psicoacústicos sino solamente algunos de ellos. Particularmente, el umbral puede representar un umbral sicoacústicamente motivado, que se ha sometido deliberadamente a una modificación concón respecto a una estimación del umbral de enmascarado psicoacústico.
Además, ha de indicarse que la adaptación adaptativa hacia atrás del tamaño de paso en la cuantificación de los valores de señal residual de prefiltro no necesariamente tiene que estar presente. Más bien, en ciertos casos de aplicación, un tamaño de paso fijo puede ser suficiente.
Además, ha de indicarse que la presente invención no se limita al campo de codificación de audio. Más bien, la señal a codificar también puede ser una señal utilizada para estimular una punta de dedo en un guante de ciberespacio, en donde el modelo 26 perceptual en este caso considera ciertas características táctiles, que el sentido humano del tacto ya no puede percibir. Otro ejemplo de una señal de información a codificar sería por ejemplo una señal de vídeo. Particularmente, la señal de información a codificar puede ser una información de brillo de un píxel o punto de imagen, en donde el modelo perceptual 26 también puede considerar diferentes efectos de ocultamiento psicovisual, temporal, local y de frecuencia, es decir un umbral de enmascarado visual.
Adicionalmente, ha de indicarse que el cuantificador 56 y el limitador 58 o el cuantificador 108 y el limitador 110, respectivamente, no tienen que ser componentes separados. Más bien, el mapeo de los valores no cuantificados a los valores cuantificados/recortados también puede realizarse mediante un solo mapeo. Por otra parte, el cuantificador 56 o el cuantificador 108, respectivamente, pueden también realizarse por una conexión en serie de un divisor seguido por un cuantificador con un tamaño de paso uniforme y constante, en donde el divisor utilizará el valor de tamaño de paso 1 (n) obtenido por el módulo de adaptación de tamaño de paso respectivo como divisor, mientras que la señal residual a codificar forma el dividendo. El cuantificador con un tamaño de paso constante y uniforme podría proporcionarse a este respecto como un simple módulo de redondeo, que redondea el resultado de la división al siguiente entero, con lo que el limitador siguiente entonces limitará el entero como se describió anteriormente a un entero de la cantidad
permitida C. En el descuantificador respectivo, simplemente se realizará una descuantificación uniforme con 1 (n) como multiplicador.
Además, ha de indicarse que los ejemplos de realización anteriores se han limitado a aplicaciones que tienen una tasa de transmisión de bits constante. Sin embargo, la presente invención no se limita a esto y por tanto la cuantificación por recorte, por ejemplo, de la señal prefiltrada utilizada en estos ejemplos de realización sólo es una alternativa posible. En lugar de recorte, puede utilizarse una función de cuantificación con una curva característica no lineal. Para ilustrar esto, se hace referencia a las figuras 8a a 8c. La figura 8a muestra la función de cuantificación anteriormente empleada que lleva a un recorte a tres escalones de cuantificación, es decir una función escalonada con tres escalones 402a, b, c, que mapea los valores no cuantificados (eje x) a índices de cuantificación (eje y), marcándose también la altura de escalón de cuantificación o el tamaño de paso de cuantificación 1 (n). Como puede verse, valores no cuantificados superiores a
1 (n)/2 se recortan al siguiente escalón 402a o c respectivo. La figura 8b muestra en general una función de cuantificación que da como resultado un recorte a 2n+1 escalones de cuantificación. El tamaño de paso de cuantificación 1 (n) de nuevo se marca. Las funciones de cuantificación de las figuras 8a y 8b representan funciones de cuantificación, en las que la cuantificación entre los umbrales -1 (n) y 1 (n) o –N 1 (n) y N 1 (n) se lleva a cabo de manera uniforme, es decir con la misma altura de escalón, con lo cual la función escalonada de cuantificación avanza en una forma plana, lo que corresponde al recorte. La figura 8c muestra una función de cuantificación no lineal, en la que la función de cuantificación avanza a través del intervalo entre –N 1 (n) y N 1 (n) de manera no completamente plana sino con una menor pendiente, es decir con una altura de escalón o tamaño de paso más grande con respecto al primer intervalo. Esta cuantificación no lineal no da como resultado inherentemente una tasa de transmisión de bits constante, como era el caso en los ejemplos de realización anteriores, pero también genera la deformación anteriormente descrita del ruido de cuantificación, de tal manera que éste se ajusta a la PSD de señal. Solamente como precaución, ha de indicarse con referencia a las figuras 8a-c que, en lugar de los intervalos de cuantificación uniformes, puede utilizarse cuantificación no uniforme, en la que por ejemplo la altura de escalón aumenta continuamente, pudiendo ajustarse a escala las alturas de escalón mediante un valor de ajuste de altura de escalón 1 (n) mientras se mantienen sus relaciones mutuas. Para ello, por ejemplo, el valor no cuantificado puede ser mapearse mediante una función no lineal a un valor intermedio en el cuantificador respectivo, realizándose una multiplicación antes o después por 1 (n) y finalmente el valor resultante se cuantifica de manera uniforme. En el descuantificador respectivo se realizará la inversa, es decir descuantificación uniforme mediante 1 (n) seguido por el mapeo no lineal inverso o, a la inversa, mapeo de conversión no lineal primero seguido por descuantificación con 1 (n). Finalmente, ha de indicarse
que también sería posible una cuantificación continua uniforme, es decir lineal, obteniendo el efecto anteriormente descrito de deformación de la PSD de error, en la que se ajustará la altura de escalón tan alta o una cuantificación tan gruesa que está cuantificación actúa efectivamente como cuantificación no lineal con respecto a la estadística de señal de la señal a cuantificar, tal como la señal prefiltrada, siendo posible este ajuste de altura de escalón a su vez por la capacidad adaptativa hacia delante de la predicción.
Además, los ejemplos de realización anteriormente descritos también pueden variarse respecto al procesamiento del flujo de bits codificado. Particularmente, el generador 24 de flujo de bits y el extractor 214, respectivamente, también pueden omitirse.
Los diferentes índices de cuantificación, es decir los valores residuales de la señal prefiltrada, los valores residuales de los coeficientes de prefiltro y los valores residuales de los coeficientes de predicción, también pueden transmitirse en paralelo entre sí por separado a través de canales individuales, almacenarse o facilitarse de otra forma para la descodificación. Por otra parte, en el caso de que una tasa de transmisión de bits constante no sea imperativa, estos datos también pueden codificarse por entropía.
Particularmente, las funciones anteriores en los bloques de las figuras 1, 4, 5 y 6 pueden implementarse individualmente
o en combinación mediante subrutinas de programa. Alternativamente, también es posible la implementación de un dispositivo de la invención en forma de un circuito integrado, en el que estos bloques se implementan, por ejemplo, como partes de circuito individuales de un ASIC.
Particularmente ha de indicarse que, dependiendo de las circunstancias, el esquema de la invención también puede implementarse en software. La implementación puede realizarse en un medio de almacenamiento digital, particularmente un disquete o CD con señales de control legibles electrónicamente, que pueden cooperar con un sistema informático programable de tal manera que se realice el procedimiento respectivo. En general, de esta manera, la invención consiste también en un producto de programa informático con un código de programa almacenado en un soporte legible por máquina para realizar el procedimiento según la invención, cuando el producto de programa informático se ejecuta en un ordenador. En otras palabras, la invención puede realizarse como un programa informático con un código de programa para realizar el procedimiento, cuando el programa informático se ejecuta en un ordenador.

Claims (46)

  1. REIVINDICACIONES
    1. Dispositivo para codificar una señal de información en una señal de información codificada, con:
    medios (16) para determinar una representación de un umbral motivado de psicopercepción, que indica una porción de la señal de información irrelevante con respecto a perceptibilidad, utilizando un modelo perceptual;
    medios (18) para filtrar la señal de información, para normalizar la señal de información sobre el umbral motivado de psicopercepción, para obtener una señal prefiltrada;
    medios (20) para predecir la señal prefiltrada en una forma adaptativa hacia delante para obtener una señal predicha, un error de predicción para la señal prefiltrada y una representación de coeficientes de predicción, basándose en los cuales puede reconstruirse la señal prefiltrada; y
    un medio (22) para cuantificar el error de predicción, para obtener un error de predicción cuantificado, comprendiendo la señal de información codificada información sobre la representación del umbral motivado de psicopercepción, la representación de los coeficientes de predicción y el error de predicción cuantificado.
  2. 2.
    Dispositivo según la reivindicación 1, en el que los medios (22) para cuantificar están configurados para cuantificar el error de predicción mediante una función de cuantificación, que mapea valores no cuantificados del error de predicción a índices de cuantificación de escalones de cuantificación, y cuya evolución por debajo de un valor umbral es más empinada que por encima de un valor umbral.
  3. 3.
    Dispositivo según la reivindicación 1 ó 2, en el que los medios (22) para cuantificar están configurados para obtener una altura de escalón de cuantificación (L(n)) de la función de cuantificación en una forma adaptativa hacia atrás a partir del error de predicción cuantificado.
  4. 4.
    Dispositivo según una de las reivindicaciones anteriores, en el que los medios para cuantificar el error de predicción están configurados de tal manera que los valores no cuantificados del error de predicción se cuantifican mediante recorte por la función de cuantificación, que mapea los valores no cuantificados del error de predicción a índices de cuantificación de un primer número constante y limitado de escalones de cuantificación, para obtener el error de predicción cuantificado.
  5. 5.
    Dispositivo según la reivindicación 4, en el que los medios (22) para cuantificar están configurados para obtener una altura de escalón de cuantificación L(n) de la función de cuantificación, para cuantificar un valor (r(n)) del error de predicción en una forma adaptativa hacia atrás a partir de dos índices de cuantificación pasados ic(n-1) e ic(n-2) del error de predicción cuantificado según L(n) = �L(n-1) + o(n), con �E[0,0;1,0], o(n) = o0 para lic(n-1) + ic(n-2)l: I y o(n) = o1 para lic(n-1) + ic(n-2)l > I con parámetros constantes o0, o1, I, donde 1(n1) representa una altura de escalón de cuantificación que se obtiene para cuantificar un valor previo del error de predicción.
  6. 6.
    Dispositivo según las reivindicaciones 4 ó 5, en el que los medios para cuantificar están configurados para cuantificar el error de predicción en una forma no lineal.
  7. 7.
    Dispositivo según una de las reivindicaciones 4 a 6, en el que el primer número constante y limitado es 3.
  8. 8.
    Dispositivo según una de las reivindicaciones anteriores, en el que los medios (16) para determinar están configurados para determinar el umbral motivado de psicopercepción por bloques a partir de la señal de información.
  9. 9.
    Dispositivo según una de las reivindicaciones anteriores, en el que los medios (16) para determinar están configurados para representar el umbral motivado de psicopercepción en el dominio LSF.
  10. 10.
    Dispositivo según una de las reivindicaciones anteriores, en el que los medios (16) para determinar están configurados para determinar el umbral motivado de psicopercepción por bloques y para representarlo en coeficientes de filtrado, para someter los coeficientes de filtrado a una predicción y para someter una señal residual de coeficiente de filtrado resultante de la predicción a una cuantificación mediante una función de cuantificación adicional, que mapea valores no cuantificados de la señal residual de coeficiente de filtrado a índices de cuantificación de escalones de cuantificación, y cuya evolución por debajo de un valor umbral adicional es más empinada que por encima del valor umbral adicional, para obtener una señal residual de coeficiente de filtrado cuantificada, incluyendo la señal de información codificada también información sobre la señal residual de coeficiente de filtrado cuantificada.
  11. 11.
    Dispositivo según la reivindicación 10, en el que los medios (16) para determinar están configurados de tal manera que los valores no cuantificados de la señal residual de coeficiente de filtrado se cuantifican mediante recorte por la función de cuantificación adicional, que mapea los valores no cuantificados de la señal residual de coeficiente de filtrado a índices de cuantificación de un segundo número constante y limitado de
    escalones de cuantificación.
  12. 12.
    Dispositivo según la reivindicación 11, en el que los medios (16) para determinar están configurados de tal manera que la predicción se realiza en una forma adaptativa hacia atrás, basándose en índices de cuantificación de la señal residual de coeficiente de filtrado cuantificada.
  13. 13.
    Dispositivo según una de las reivindicaciones 10 a 12, en el que los medios (16) para determinar están configurados de tal manera que la predicción de los coeficientes de filtrado se realiza utilizando un filtro de predicción con coeficientes constantes.
  14. 14.
    Dispositivo según una de las reivindicaciones 9 a 13, en el que los medios (16) para determinar además están configurados para someter los coeficientes de filtrado para representar el umbral motivado de psicopercepción a una sustracción con un valor constante, antes de someterlos a la predicción.
  15. 15.
    Dispositivo según una de las reivindicaciones anteriores, en el que los medios (20) para predecir la señal prefiltrada en una forma adaptativa hacia delante presentan además:
    medios (36) para determinar coeficientes de filtrado de predicción a partir de la señal prefiltrada; y
    medios (44, 46, 48) para predecir la señal prefiltrada mediante un filtro (44) controlado por los coeficientes de filtrado de predicción.
  16. 16.
    Dispositivo según la reivindicación 15, en el que los medios para determinar están configurados para determinar los coeficientes de filtrado de predicción por bloques a partir de la señal prefiltrada.
  17. 17.
    Dispositivo según la reivindicación 15 ó 16, en el que los medios (36) para determinar están configurados para representar los coeficientes de filtrado de predicción en el dominio LSF.
  18. 18.
    Dispositivo según una de las reivindicaciones 15 a 17, en el que los medios (36) para determinar están configurados para determinar los coeficientes de filtrado de predicción por bloques, para someter los coeficientes de filtrado de predicción a una predicción, y para someter una señal residual de coeficiente de filtrado de predicción resultante de la predicción a una cuantificación mediante una tercera función de cuantificación, que mapea valores no cuantificados de la señal residual de coeficiente de filtrado de predicción a índices de cuantificación de escalones de cuantificación, y cuya evolución por debajo de un tercer valor umbral es más empinada que por encima del tercer valor umbral, para obtener una señal residual de coeficiente de filtrado de predicción cuantificada, comprendiendo la señal de información codificada también información sobre la señal residual de coeficiente de filtrado de predicción cuantificada.
  19. 19.
    Dispositivo según la reivindicación 18, en el que los medios (36) para determinar están configurados de tal manera los valores no cuantificados de la señal residual de coeficiente de filtrado de predicción se cuantifican por la tercera función de cuantificación, que mapea los valores no cuantificados de la señal residual de coeficiente de filtrado de predicción a índices de cuantificación de un tercer número constante y limitado de escalones de cuantificación, mediante recorte a índices de cuantificación del tercer número de escalones de cuantificación.
  20. 20.
    Dispositivo según la reivindicación 18, en el que los medios (36) para determinar están configurados de tal manera que la predicción se realiza en una forma adaptativa hacia atrás, basándose en índices de cuantificación de la señal residual de coeficientes de filtrado de predicción cuantificada para uno o varios bloques previos de la señal prefiltrada.
  21. 21.
    Dispositivo según una de las reivindicaciones 18 a 19, en el que los medios (36) para determinar están configurados de tal manera que la predicción de los coeficientes de filtrado de predicción se realiza utilizando un filtro de predicción con coeficientes constantes.
  22. 22.
    Dispositivo según una de las reivindicaciones 18 a 21, en el que los medios (36) para determinar además están configurados para someter los coeficientes de filtrado de predicción a una sustracción con un valor constante, antes de someterlos a la predicción.
  23. 23.
    Dispositivo según una de las reivindicaciones anteriores, que está diseñado para codificar una señal de audio o una señal de vídeo como señal de información, siendo el modelo perceptual un modelo psicoacústico y el umbral motivado de psicopercepción un umbral motivado psicoacústicamente, siendo o el modelo perceptual un modelo psicovisual y el umbral motivado de psicopercepción un umbral motivado psicovisualmente.
  24. 24.
    Dispositivo para descodificar una señal de información codificada, que comprende información sobre una representación de un umbral motivado de psicopercepción, una representación de coeficientes de predicción y un error de predicción cuantificado, en una señal de información descodificada, con:
    medios (206) para descuantificar el error de predicción cuantificado, para obtener un error de predicción descuantificado;
    medios (208) para determinar una señal predicha basándose en los coeficientes de predicción;
    medios (210) para reconstruir una señal prefiltrada basándose en la señal predicha y el error de predicción descuantificado; y
    medios (212) para filtrar la señal prefiltrada para invertir una normalización con respecto al umbral motivado de psicopercepción, para obtener la señal de información descodificada.
  25. 25.
    Dispositivo según la reivindicación 24, en el que los medios (206) para descuantificar están configurados para descuantificar el error de predicción cuantificado a un número limitado y constante de escalones de cuantificación.
  26. 26.
    Dispositivo según la reivindicación 25, en el que los medios (206) para descuantificar están configurados para obtener una altura de escalón de cuantificación (L(n)) entre los escalones de cuantificación en una forma adaptativa hacia atrás a partir de índices de cuantificación ya descuantificados del error de predicción cuantificado.
  27. 27.
    Dispositivo según la reivindicación 25 ó 26, en el que los medios (206) para descuantificar están configurados para obtener una altura de escalón de cuantificación (L(n)) entre los escalones de cuantificación para descuantificar un índice de cuantificación del error de predicción cuantificado en una forma adaptativa hacia atrás a partir de dos índices de cuantificación previos ic(n-1) e ic(n-2) del error de predicción cuantificado según L(n) = L(n-1) + o(n), con E[0,0;1,0], o(n) = o0 para lic(n-1) + ic(n-2)l: I y o(n) = o1 para lic(n-1) + ic(n-2)l > I con parámetros constantes o0, o1, I, donde 1(n-1) representa una altura de escalón de cuantificación que se obtiene para descuantificar ic(n-1).
  28. 28.
    Dispositivo según una de las reivindicaciones 25 a 27, en el que el número constante y limitado es menor que o igual a 32.
  29. 29.
    Dispositivo según una de las reivindicaciones 25 a 28, en el que el número constante y limitado es 3.
  30. 30.
    Dispositivo según una de las reivindicaciones 24 a 29, en el que los medios (212) para filtrar presentan:
    medios (230) para determinar coeficientes de filtrado de umbral perceptual a partir de la información sobre la representación del umbral motivado de psicopercepción por bloques para bloques de una secuencia de bloques de la señal prefiltrada; y
    un postfiltro (232) para filtrar la señal prefiltrada utilizando los coeficientes de filtrado de umbral perceptual.
  31. 31.
    Dispositivo según una de las reivindicaciones 24 a 30, en el que los medios (230) para determinar están configurados para obtener los coeficientes de filtrado de umbral perceptual por reconversión desde un dominio LSF.
  32. 32.
    Dispositivo según una de las reivindicaciones 24 a 31, en el que los medios (230) para determinar están configurados para obtener índices de cuantificación de una señal residual de coeficiente de filtrado cuantificada, a partir de la representación del umbral motivado de psicopercepción, para descuantificarla a un segundo número limitado y constante de niveles de cuantificación, con el fin de obtener una señal residual de coeficiente de filtrado descuantificada, para predecir los coeficientes de filtrado que representan el umbral motivado de psicopercepción y sumarlos a la señal residual de coeficiente de filtrado descuantificada y para convertir una señal residual de coeficiente de filtrado reconstruida resultante de la adición por reconversión en los coeficientes de filtrado de umbral perceptual.
  33. 33.
    Dispositivo según la reivindicación 32, en el que los medios (230) para determinar están configurados de tal manera que la predicción se realiza en una forma adaptativa hacia atrás basándose en coeficientes de filtrado ya predichos que representan el umbral motivado de psicopercepción.
  34. 34.
    Dispositivo según la reivindicación 32 ó 33, en el que los medios (230) para determinar están configurados de tal manera que la predicción de los coeficientes de filtrado que representan el umbral motivado de psicopercepción se realiza utilizando un filtro de predicción con coeficientes constantes.
  35. 35.
    Dispositivo según una de las reivindicaciones 32 a 34, en el que los medios (230) para determinar además están configurados para someter la señal residual de coeficiente de filtrado reconstruida resultante de la adición a una adición con un valor constante antes de la reconversión.
  36. 36.
    Dispositivo según una de las reivindicaciones 24 a 37, en el que los medios (208) para determinar una
    señal predicha además presentan:
    medios (224) para determinar coeficientes de filtrado de predicción a partir de la representación de coeficientes de predicción comprendidos en la señal de información codificada; y
    medios (226, 228) para predecir la señal prefiltrada mediante un filtro (226) controlado por los coeficientes de filtrado de predicción.
  37. 37.
    Dispositivo según la reivindicación 36, en el que los medios (224) para determinar coeficientes de filtrado de predicción están configurados para determinar los mismos por bloques, para bloques de una secuencia de bloques de la señal prefiltrada.
  38. 38.
    Dispositivo según una de las reivindicaciones 36 ó 37, en el que los medios (224) para determinar están configurados para obtener los coeficientes de filtrado de predicción por reconversión desde un dominio LSF.
  39. 39.
    Dispositivo según una de las reivindicaciones 36 a 38, en el que los medios (224) para determinar están configurados para obtener índices de cuantificación de una señal residual de coeficiente de predicción cuantificada a partir de la representación de los coeficientes de predicción, para descuantificarlos a un tercer número limitado y constante de niveles de cuantificación con el fin de obtener una señal residual de coeficiente de predicción descuantificada, para predecir coeficientes de filtrado de predicción y sumarlos a la señal residual de coeficiente de predicción descuantificada y para convertir una señal residual de coeficiente de predicción reconstruida resultante de la adición por reconversión en los coeficientes de filtrado de predicción.
  40. 40.
    Dispositivo según la reivindicación 39, en el que los medios (224) para determinar están configurados de tal manera que la predicción se realiza en una forma adaptativa hacia atrás, basándose en coeficientes de predicción ya predichos.
  41. 41.
    Dispositivo según la reivindicación 39 ó 40, en el que los medios (224) para determinar están configurados de tal manera que la predicción de los coeficientes de predicción se realiza utilizando un filtro de predicción con coeficientes constantes.
  42. 42.
    Dispositivo según una de las reivindicaciones 39 a 41, en el que los medios (224) para determinar además están configurados para someter la señal residual de coeficiente de predicción reconstruida resultante de la adición a una adición con un valor constante antes de la reconversión.
  43. 43.
    Dispositivo según una de las reivindicaciones 24 a 42, que está diseñado para descodificar una señal de audio o una señal de vídeo como señal de información, y el umbral motivado de psicopercepción es un umbral de enmascarado acústico o un umbral de enmascarado visual.
  44. 44.
    Procedimiento para codificar una señal de información en una señal de información codificada, con las siguientes etapas:
    utilizando un modelo de percepción, determinar una representación de un umbral motivado de psicopercepción que indica una porción de la señal de información irrelevante con respecto a la percepción;
    filtrar la señal de información para normalizar la señal de información sobre el umbral motivado de psicopercepción, para obtener una señal prefiltrada;
    predecir la señal prefiltrada en una forma adaptativa hacia delante, para obtener una señal prefiltrada, un error de predicción para la señal prefiltrada y una representación de coeficientes de predicción, basándose en los cuales puede reconstruirse la señal prefiltrada; y
    cuantificar el error de predicción para obtener un error de predicción cuantificado, comprendiendo la señal de información codificada información sobre la representación del umbral motivado de psicopercepción, la representación de los coeficientes de predicción y el error de predicción cuantificado.
  45. 45. Procedimiento para descodificar una señal de información codificada, que comprende información sobre una representación de un umbral motivado de psicopercepción, una representación de coeficientes de predicción y un error de predicción cuantificado, en una señal de información descodificada, con las siguientes etapas:
    descuantificar el error de predicción cuantificado para obtener un error de predicción descuantificado;
    determinar una señal predicha basándose en los coeficientes de predicción que se obtuvieron mediante una predicción en una forma adaptativa hacia delante;
    reconstruir una señal prefiltrada basándose en la señal predicha y el error de predicción descuantificado; y filtrar la señal prefiltrada para invertir una normalización con respecto al umbral motivado de psicopercepción para obtener la señal de información descodificada.
  46. 46. Programa informático con un código de programa para realizar el procedimiento según la reivindicación 44 ó 45, cuando se ejecuta el programa informático en un ordenador.
ES07711712T 2006-05-12 2007-02-28 Codificación de señal de información Active ES2380591T3 (es)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
DE102006022346A DE102006022346B4 (de) 2006-05-12 2006-05-12 Informationssignalcodierung
DE102006022346 2006-05-12
PCT/EP2007/001730 WO2007131564A1 (de) 2006-05-12 2007-02-28 Informationssignalcodierung

Publications (1)

Publication Number Publication Date
ES2380591T3 true ES2380591T3 (es) 2012-05-16

Family

ID=38080073

Family Applications (1)

Application Number Title Priority Date Filing Date
ES07711712T Active ES2380591T3 (es) 2006-05-12 2007-02-28 Codificación de señal de información

Country Status (19)

Country Link
US (2) US9754601B2 (es)
EP (1) EP2022043B1 (es)
JP (1) JP5297373B2 (es)
KR (1) KR100986924B1 (es)
CN (1) CN101443842B (es)
AT (1) ATE542217T1 (es)
AU (1) AU2007250308B2 (es)
BR (1) BRPI0709450B1 (es)
CA (1) CA2651745C (es)
DE (1) DE102006022346B4 (es)
ES (1) ES2380591T3 (es)
HK (1) HK1121569A1 (es)
IL (1) IL193784A (es)
MX (1) MX2008014222A (es)
MY (1) MY143314A (es)
NO (1) NO340674B1 (es)
PL (1) PL2022043T3 (es)
RU (1) RU2407145C2 (es)
WO (1) WO2007131564A1 (es)

Families Citing this family (36)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101435411B1 (ko) * 2007-09-28 2014-08-28 삼성전자주식회사 심리 음향 모델의 마스킹 효과에 따라 적응적으로 양자화간격을 결정하는 방법과 이를 이용한 오디오 신호의부호화/복호화 방법 및 그 장치
WO2010028297A1 (en) * 2008-09-06 2010-03-11 GH Innovation, Inc. Selective bandwidth extension
US8532983B2 (en) * 2008-09-06 2013-09-10 Huawei Technologies Co., Ltd. Adaptive frequency prediction for encoding or decoding an audio signal
US8407046B2 (en) * 2008-09-06 2013-03-26 Huawei Technologies Co., Ltd. Noise-feedback for spectral envelope quantization
US8515747B2 (en) * 2008-09-06 2013-08-20 Huawei Technologies Co., Ltd. Spectrum harmonic/noise sharpness control
WO2010031003A1 (en) 2008-09-15 2010-03-18 Huawei Technologies Co., Ltd. Adding second enhancement layer to celp based core layer
US8577673B2 (en) * 2008-09-15 2013-11-05 Huawei Technologies Co., Ltd. CELP post-processing for music signals
FR2938688A1 (fr) * 2008-11-18 2010-05-21 France Telecom Codage avec mise en forme du bruit dans un codeur hierarchique
US9774875B2 (en) * 2009-03-10 2017-09-26 Avago Technologies General Ip (Singapore) Pte. Ltd. Lossless and near-lossless image compression
CN101609680B (zh) * 2009-06-01 2012-01-04 华为技术有限公司 压缩编码和解码的方法、编码器和解码器以及编码装置
US8705623B2 (en) * 2009-10-02 2014-04-22 Texas Instruments Incorporated Line-based compression for digital image data
BR122021023896B1 (pt) * 2009-10-08 2023-01-10 Fraunhofer-Gesellschaft Zur Forderung Der Angewandten Forschung E. V. Decodificador de sinal de áudio multimodal, codificador de sinal de áudio multimodal e métodos usando uma configuração de ruído com base em codificação de previsão linear
EP2466580A1 (en) 2010-12-14 2012-06-20 Fraunhofer-Gesellschaft zur Förderung der Angewandten Forschung e.V. Encoder and method for predictively encoding, decoder and method for decoding, system and method for predictively encoding and decoding and predictively encoded information signal
TWI792203B (zh) 2011-07-01 2023-02-11 美商杜比實驗室特許公司 用於適應性音頻信號的產生、譯碼與呈現之系統與方法
PL397008A1 (pl) * 2011-11-17 2013-05-27 Politechnika Poznanska Sposób kodowania obrazu
WO2013087861A2 (en) * 2011-12-15 2013-06-20 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus, method and computer programm for avoiding clipping artefacts
US9716901B2 (en) * 2012-05-23 2017-07-25 Google Inc. Quantization with distinct weighting of coherent and incoherent quantization error
EP2757558A1 (en) * 2013-01-18 2014-07-23 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Time domain level adjustment for audio signal decoding or encoding
US9711156B2 (en) 2013-02-08 2017-07-18 Qualcomm Incorporated Systems and methods of performing filtering for gain determination
US9620134B2 (en) 2013-10-10 2017-04-11 Qualcomm Incorporated Gain shape estimation for improved tracking of high-band temporal characteristics
US10083708B2 (en) 2013-10-11 2018-09-25 Qualcomm Incorporated Estimation of mixing factors to generate high-band excitation signal
US10614816B2 (en) 2013-10-11 2020-04-07 Qualcomm Incorporated Systems and methods of communicating redundant frame information
US9384746B2 (en) 2013-10-14 2016-07-05 Qualcomm Incorporated Systems and methods of energy-scaled signal processing
US10163447B2 (en) 2013-12-16 2018-12-25 Qualcomm Incorporated High-band signal modeling
DE102014101307A1 (de) * 2014-02-03 2015-08-06 Osram Opto Semiconductors Gmbh Kodierverfahren zur Datenkompression von Leistungsspektren eines optoelektronischen Bauteils und Dekodierverfahren
EP2916319A1 (en) * 2014-03-07 2015-09-09 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Concept for encoding of information
EP2980795A1 (en) * 2014-07-28 2016-02-03 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio encoding and decoding using a frequency domain processor, a time domain processor and a cross processor for initialization of the time domain processor
US10756755B2 (en) 2016-05-10 2020-08-25 Immersion Networks, Inc. Adaptive audio codec system, method and article
CN109416913B (zh) * 2016-05-10 2024-03-15 易默森服务有限责任公司 自适应音频编解码系统、方法、装置及介质
US10699725B2 (en) 2016-05-10 2020-06-30 Immersion Networks, Inc. Adaptive audio encoder system, method and article
US10770088B2 (en) 2016-05-10 2020-09-08 Immersion Networks, Inc. Adaptive audio decoder system, method and article
WO2019136365A1 (en) 2018-01-08 2019-07-11 Immersion Networks, Inc. Methods and apparatuses for producing smooth representations of input motion in time and space
US11380343B2 (en) 2019-09-12 2022-07-05 Immersion Networks, Inc. Systems and methods for processing high frequency audio signal
CN112564713B (zh) * 2020-11-30 2023-09-19 福州大学 高效率低时延的动觉信号编解码器及编解码方法
US11935546B2 (en) * 2021-08-19 2024-03-19 Semiconductor Components Industries, Llc Transmission error robust ADPCM compressor with enhanced response
CN116193156B (zh) * 2022-12-30 2024-09-20 北京天兵科技有限公司 航天遥测码流地面传输分组压缩编码方法、装置和系统

Family Cites Families (55)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
FR2481026B1 (es) * 1980-04-21 1984-06-15 France Etat
DE3276651D1 (en) * 1982-11-26 1987-07-30 Ibm Speech signal coding method and apparatus
JPS60116000A (ja) * 1983-11-28 1985-06-22 ケイディディ株式会社 音声符号化装置
GB8410044D0 (en) 1984-04-18 1984-05-31 Communications Patents Ltd Data transmission system
US4751736A (en) * 1985-01-31 1988-06-14 Communications Satellite Corporation Variable bit rate speech codec with backward-type prediction and quantization
US5125030A (en) * 1987-04-13 1992-06-23 Kokusai Denshin Denwa Co., Ltd. Speech signal coding/decoding system based on the type of speech signal
JPH02272500A (ja) * 1989-04-13 1990-11-07 Fujitsu Ltd コード駆動音声符号化方式
EP0401452B1 (en) * 1989-06-07 1994-03-23 International Business Machines Corporation Low-delay low-bit-rate speech coder
US5347478A (en) * 1991-06-09 1994-09-13 Yamaha Corporation Method of and device for compressing and reproducing waveform data
US5233660A (en) * 1991-09-10 1993-08-03 At&T Bell Laboratories Method and apparatus for low-delay celp speech coding and decoding
ES2143673T3 (es) * 1994-12-20 2000-05-16 Dolby Lab Licensing Corp Metodo y aparato para aplicar una prediccion de formas de onda a subbandas de un sistema codificador perceptual.
JP2842276B2 (ja) * 1995-02-24 1998-12-24 日本電気株式会社 広帯域信号符号化装置
US5699481A (en) * 1995-05-18 1997-12-16 Rockwell International Corporation Timing recovery scheme for packet speech in multiplexing environment of voice with data applications
US5774837A (en) * 1995-09-13 1998-06-30 Voxware, Inc. Speech coding system and method using voicing probability determination
US5710863A (en) * 1995-09-19 1998-01-20 Chen; Juin-Hwey Speech signal quantization using human auditory models in predictive coding systems
US5956674A (en) * 1995-12-01 1999-09-21 Digital Theater Systems, Inc. Multi-channel predictive subband audio coder using psychoacoustic adaptive bit allocation in frequency, time and over the multiple channels
US5781888A (en) * 1996-01-16 1998-07-14 Lucent Technologies Inc. Perceptual noise shaping in the time domain via LPC prediction in the frequency domain
JPH11504733A (ja) * 1996-02-26 1999-04-27 エイ・ティ・アンド・ティ・コーポレーション 聴覚モデルによる量子化を伴う予測残余信号の変形符号化による多段音声符号器
JP3357795B2 (ja) * 1996-08-16 2002-12-16 株式会社東芝 音声符号化方法および装置
GB2318029B (en) * 1996-10-01 2000-11-08 Nokia Mobile Phones Ltd Audio coding method and apparatus
FI114248B (fi) * 1997-03-14 2004-09-15 Nokia Corp Menetelmä ja laite audiokoodaukseen ja audiodekoodaukseen
JP3064947B2 (ja) * 1997-03-26 2000-07-12 日本電気株式会社 音声・楽音符号化及び復号化装置
JP3199020B2 (ja) * 1998-02-27 2001-08-13 日本電気株式会社 音声音楽信号の符号化装置および復号装置
GB2342829B (en) * 1998-10-13 2003-03-26 Nokia Mobile Phones Ltd Postfilter
RU2144222C1 (ru) 1998-12-30 2000-01-10 Гусихин Артур Владимирович Способ сжатия звуковой информации и система для его реализации
US6377915B1 (en) * 1999-03-17 2002-04-23 Yrp Advanced Mobile Communication Systems Research Laboratories Co., Ltd. Speech decoding using mix ratio table
BRPI0010672B1 (pt) * 1999-04-16 2016-06-07 Dolby Lab Licensing Corp uso de quantificação de ganho adaptativo e comprimentos de símbolo não-uniformes para uma codificação de áudio
DE60035453T2 (de) * 1999-05-11 2008-03-20 Nippon Telegraph And Telephone Corp. Auswahl des Synthesefilters für eine CELP Kodierung von breitbandigen Audiosignalen
SE9903223L (sv) * 1999-09-09 2001-05-08 Ericsson Telefon Ab L M Förfarande och anordning i telekommunikationssystem
US6778953B1 (en) * 2000-06-02 2004-08-17 Agere Systems Inc. Method and apparatus for representing masked thresholds in a perceptual audio coder
US7110953B1 (en) * 2000-06-02 2006-09-19 Agere Systems Inc. Perceptual coding of audio signals using separated irrelevancy reduction and redundancy reduction
JP2002006895A (ja) * 2000-06-20 2002-01-11 Fujitsu Ltd ビット割当装置および方法
EP1944759B1 (en) * 2000-08-09 2010-10-20 Sony Corporation Voice data processing device and processing method
US7395211B2 (en) * 2000-08-16 2008-07-01 Dolby Laboratories Licensing Corporation Modulating one or more parameters of an audio or video perceptual coding system in response to supplemental information
US7171355B1 (en) * 2000-10-25 2007-01-30 Broadcom Corporation Method and apparatus for one-stage and two-stage noise feedback coding of speech and audio signals
EP1339040B1 (en) * 2000-11-30 2009-01-07 Panasonic Corporation Vector quantizing device for lpc parameters
US6675148B2 (en) * 2001-01-05 2004-01-06 Digital Voice Systems, Inc. Lossless audio coder
ATE323316T1 (de) * 2001-04-09 2006-04-15 Koninkl Philips Electronics Nv Vorrichtung zur adpcm sprachkodierung mit spezifischer anpassung der schrittweite
US6950794B1 (en) * 2001-11-20 2005-09-27 Cirrus Logic, Inc. Feedforward prediction of scalefactors based on allowable distortion for noise shaping in psychoacoustic-based compression
US7020603B2 (en) * 2002-02-07 2006-03-28 Intel Corporation Audio coding and transcoding using perceptual distortion templates
US7275036B2 (en) * 2002-04-18 2007-09-25 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Apparatus and method for coding a time-discrete audio signal to obtain coded audio data and for decoding coded audio data
AU2003230132A1 (en) * 2002-05-30 2003-12-19 Koninklijke Philips Electronics N.V. Audio coding
DE10236694A1 (de) * 2002-08-09 2004-02-26 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Vorrichtung und Verfahren zum skalierbaren Codieren und Vorrichtung und Verfahren zum skalierbaren Decodieren
KR100480341B1 (ko) * 2003-03-13 2005-03-31 한국전자통신연구원 광대역 저전송률 음성 신호의 부호화기
ATE425533T1 (de) * 2003-07-18 2009-03-15 Koninkl Philips Electronics Nv Audiocodierung mit niedriger bitrate
JP2007504503A (ja) * 2003-09-05 2007-03-01 コニンクリユケ フィリップス エレクトロニクス エヌ.ブイ. 低ビットレートオーディオ符号化
ES2337903T3 (es) * 2003-10-13 2010-04-30 Koninklijke Philips Electronics N.V. Codificacion de audio.
US7324937B2 (en) * 2003-10-24 2008-01-29 Broadcom Corporation Method for packet loss and/or frame erasure concealment in a voice communication system
DE102004007191B3 (de) * 2004-02-13 2005-09-01 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audiocodierung
DE102004007184B3 (de) * 2004-02-13 2005-09-22 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Verfahren und Vorrichtung zum Quantisieren eines Informationssignals
DE102004007200B3 (de) * 2004-02-13 2005-08-11 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audiocodierung
WO2005106848A1 (ja) * 2004-04-30 2005-11-10 Matsushita Electric Industrial Co., Ltd. スケーラブル復号化装置および拡張レイヤ消失隠蔽方法
US7177804B2 (en) * 2005-05-31 2007-02-13 Microsoft Corporation Sub-band voice codec with multi-stage codebooks and redundant coding
EP2054879B1 (en) * 2006-08-15 2010-01-20 Broadcom Corporation Re-phasing of decoder states after packet loss
US7756350B2 (en) * 2006-11-13 2010-07-13 Global Ip Solutions, Inc. Lossless encoding and decoding of digital data

Also Published As

Publication number Publication date
HK1121569A1 (en) 2009-04-24
IL193784A (en) 2014-01-30
NO20084786L (no) 2008-12-11
DE102006022346B4 (de) 2008-02-28
PL2022043T3 (pl) 2012-06-29
CN101443842B (zh) 2012-05-23
CA2651745A1 (en) 2007-11-22
EP2022043B1 (de) 2012-01-18
RU2008148961A (ru) 2010-06-20
CA2651745C (en) 2013-12-24
NO340674B1 (no) 2017-05-29
JP5297373B2 (ja) 2013-09-25
US20090254783A1 (en) 2009-10-08
MX2008014222A (es) 2008-11-14
EP2022043A1 (de) 2009-02-11
MY143314A (en) 2011-04-15
US9754601B2 (en) 2017-09-05
AU2007250308B2 (en) 2010-05-06
ATE542217T1 (de) 2012-02-15
BRPI0709450B1 (pt) 2020-02-04
US10446162B2 (en) 2019-10-15
BRPI0709450A2 (pt) 2011-07-12
WO2007131564A1 (de) 2007-11-22
RU2407145C2 (ru) 2010-12-20
JP2009537033A (ja) 2009-10-22
CN101443842A (zh) 2009-05-27
BRPI0709450A8 (pt) 2019-01-08
KR100986924B1 (ko) 2010-10-08
KR20090007427A (ko) 2009-01-16
AU2007250308A1 (en) 2007-11-22
US20180012608A1 (en) 2018-01-11
DE102006022346A1 (de) 2007-11-15

Similar Documents

Publication Publication Date Title
ES2380591T3 (es) Codificación de señal de información
ES2453098T3 (es) Códec multimodo de audio
ES2374014T3 (es) Banco de filtros de análisis, banco de filtros de síntesis, codificador, descodificador, mezclador y sistema de conferencia.
ES2604983T3 (es) Ajuste de nivel en el dominio del tiempo para decodificación o codificación de señales de audio
US9812136B2 (en) Audio processing system
CN107025909B (zh) 能量无损编码方法和设备以及能量无损解码方法和设备
JP2009541815A (ja) Itu−tg.711規格と相互動作が可能なマルチレイヤ埋め込みコーデックにおける雑音成形デバイスおよび方法
JP2012163981A (ja) オーディオコーデックポストフィルタ
EP3217398B1 (en) Advanced quantizer
ES2600313T3 (es) Aparato y método para la estimación de nivel de tramas de audio codificadas en un dominio de flujo de bits
US20130197919A1 (en) &#34;method and device for determining a number of bits for encoding an audio signal&#34;
JP5451603B2 (ja) デジタルオーディオ信号の符号化
KR20230017367A (ko) 시간-도메인 스테레오 인코딩 및 디코딩 방법 및 관련 제품
Geiger et al. MPEG-4 SLS–Lossless and Near-Lossless Audio Coding Based on MPEG-4 AAC
WO2008076534A2 (en) Code excited linear prediction speech coding